Confounders made simple

要約:観察研究における治療変数と転帰変数のすべての共変量を調整すべきではありません。 デフォルトでは、因果的根拠に基づいて選択を正当化することなく、多くの交絡因子を盲目的に調整する研究を疑うべきである。

免責事項:因果推論に関する私の知識は、私が非常に間違っていることを言うことができるほど十分に限られています。 あなたが間違いを見つけた場合は、twitter@jsevillamolで私に手を差し伸べる!

結果に対する治療の因果関係を決定したいとします。 ビジネスの最初の順序は、それらの間に統計的相関があるかどうかを決定することです。

まだ困難ですが、複雑な変数セット間の統計的関連のネットワークを決定するための優れた統計ツールがあります。

しかし、相関は因果関係ではない—相関は交絡因子、治療と転帰の両方の因果関係によって引き起こされる可能性がある。

例えば、治療は喫煙であり、結果は呼吸器疾患であり、もっともらしい交絡因子は年齢である可能性があります; 高齢の人はより頻繁に喫煙し、呼吸器疾患になりやすいです。

この状況を因果図で説明することができます:

喫煙研究の因果図

私たちは、治療から年齢を介した結果へのブロックされていないバックドアパス、すなわち喫煙<=age=>呼吸器疾患があると言

理想的には、バックドアパスをそらすことができるように、治療をランダムに割り当てる無作為化比較試験(RCT)を実行したいと考えています。

喫煙研究の無作為化比較試験(RCT)

しかし、これは必ずしも可能ではありません。 私たちはそのような状況で何をすべきですか?

交絡器を調整しない方法

交絡器のスプリアスの影響を遮断する別の方法は、層別化などによって調整することです。 喫煙例では、若年者と高齢者のデータを分割し、各グループの喫煙と病気の相関を調べ、加重相関を因果効果の推定として報告することができます。

これは、共変量が実際に交絡因子、または治療と結果の両方の因果的祖先であると確信している場合にうまくいくでしょう—研究された各グループ内で交絡因子変数は固定されているため、治療と結果に対する偽の影響を仲介することはできなくなり、治療の真の因果的効果について主張することができるようになります。

したがって、研究者は治療と転帰の両方に相関する変数を特定するたびに、それを調整する傾向があります。

しかし、それは3つの変数の間の唯一の可能な因果関係ではありません!

治療X、結果Y、共変量Zの間の考えられる因果関係

コンファウンダー

メディエーター

コライダー

共変量が治療と結果の間の相互作用を仲介することが起こる可能性があります。 つまり、X=>ZおよびZ=>Yです。

例えば、GMO作物が消費者の健康に及ぼす影響を研究することができ、Gmoが病原体に感染する可能性が低いことがわかります。 その場合、病原体の存在は、遺伝子組み換え作物と消費者の健康との間の仲介者となるであろう。

メディエーターはその効果を説明する唯一のメカニズムである必要はないことに注意してください—GMOはまた、病原体に対する影響とは無関係に作物の食

この場合、共変量Zを調整すると、治療Xが結果Yに及ぼす明らかな影響が減少し、私たちの報告は誤解を招くことになります(共変量によって媒介されない治療の効果の一部を単独で測定しようとしていた場合を除きます)。

第三の可能性は、共変量が治療と結果のコライダーであるということです。 たとえば、人工知能の研究者とチェスのアフィティオンの両方が、自動化されたチェスのプレイに関する開発を読むのが好きである可能性があり

コライダーを調整すると、結果における治療の効果の見かけの強さが増加します。

前の例で、自動チェスの記事を読んだ人を調査した場合、チェスのアフィティオテートはAI研究者であり、その逆である可能性は低いかもしれませんが、AI研究者でもチェスのアフィティオテートでもない人を調査人口統計から除外しているので、それは驚くことではありません。

だから、メディエーターとコライダーの調整に注意してください!

さて、共変量が交絡因子である場合と、それがメディエーターまたはコライダーである場合とをどのように区別するのですか?

短い答え:私たちは、少なくともデータを観察するだけではできません。 私たちは、根本的な因果関係のドメイン固有の知識に依存する必要があります。

複数の共変量が関与している場合、物語はより複雑になります。 私たちは、すべての共変量、治療と結果の間の因果グラフ全体をマッピングし、科学的根拠に基づいて因果マッピングを正当化する必要があります。

次に、do-calculusのルールとbackdoor criterionなどの原則を使用して、治療と結果の間の偽の相関をブロックするために調整する共変量のセットを見つけることができ、真の因果効果を推定することができます。

一般に、私は、研究が調整する変数が多いほど、コライダーを介して偽の相関を導入したり、仲介経路をブロックしたりする可能性が高くなると予想し

自由度の問題

多くの変数を非原則的に調整する研究を疑うべき別の強い理由は、研究の実行方法に自由度を追加することです。

2つの変数間の関係を1000の異なる方法で測定し、最大の相関を示すものを選択すると、治療の有効性を過大評価する可能性があります。

より大きな共変数のセットを持つことで、任意のサブセットを調整することができます。 たとえば、10個の共変量にアクセスできる場合は、2^10≈1000個の可能なサブセットのいずれかを調整できます。

単一の研究グループが可能なすべての調整サブセットを体系的に試み、最良のものを選んでいる必要はありません(特に、いくつかの統計的方法はこれ 異なる研究者が異なるサブセットを試しており、その結果を組み合わせたメカニズムが偏っている可能性があります。

たとえば、100の研究グループが100の異なるサブセットを試してみることができます。 それらの95は正しく効果がないことを識別するが、出版のバイアスのために結果を広く利用できるようにしないが、誤って強い効果を識別した5つのグループは出版されて得る唯一のものであり、実行されるすべての調査が実際に何もないところで強い効果を見つけた印象を作成する。

要約すると、あなたの研究で調整を行う原則的な方法に従うことを事前に約束しない場合、結果にバイアスを導入する可能性が高くなります。

注意の言葉:あなたはまだ良いコントロールが必要です

この記事では、あまりにも多くの不適切なコントロールを選択する問題に焦点を当てています。

しかし、あなたは反対の間違いを犯すことができることに注意してください—あなたは関連する交絡因子を調整することができません—そして、チョコ

特に複雑な現象に関する観測では、いくつかのことを調整するだけで、調整すべきことを省略していることが事実上保証されます。

関連する課題は、”残留交絡”という見出しの下にあります。 交絡因子を特定して調整しても、それはあなたがそれをどれだけ正確に測定できるかに見合った結果に影響を与えます—当然、ほとんどのものを不正確に、またはプロキシによって測定します。

だから文中で要約する: 観測データから因果関係を推測したい場合は、交絡因子を制御することが重要です。

だから我々は何をすべきですか?

リトマス検定として、因果的根拠に基づく調整の選択を正当化せずに変数を調整する観察研究にはもっと疑念を抱いてください。

しかし、いくつかの研究では交絡因子の選択を正当化するために必要な作業を行っていないため、彼らの研究から信頼性の高いデータを抽出する 私たちはそのような場合に何ができますか?

まず、選択された交絡因子のそれぞれを単独で調べ、治療と結果に関連してどのように因果的に行動するかを考えることができます。

例えば、核不拡散条約(X)が核兵器への投資水準(Y)に及ぼす影響の研究を見直しており、GDP(Z)に調整すべきかどうか疑問に思っているとします。まあ、GDPの高い国も影響力があり、条約が彼らにとって有益であることを形作っている可能性があるので、Z=>X。 そして、GDPが高い国は核兵器にもっと投資することができるので、Z=>Y。

しかし、条約に署名した国はより協力的であり、より良い貿易取引を得る可能性が高いので、X=>Z.そして、核兵器にもっと投資する国はより良い安

または、以前の2つのシナリオを組み合わせて、X=>ZとZ=>Yと主張することができるので、GDPはコライダーになり、それを調整すべきではありません。

代替の説明を拒否する説得力のある理由がなければ、GDPを調整すべきではない。

しかし、研究が他の核協定への参加のために代わりに調整していると想像してください。 他の条約への参加がNPTへの参加を引き起こしたと主張するのは不自然であり、どちらも核条約に署名する国の一般的な素因によって直接的に引き起こ

この場合、”条約に対する素因”は、NPTが原子力投資に及ぼす影響の交絡因子であるが、それを直接観察することはできない。 しかし、裏口の基準に従って「その他の核条約」を調整することによって、そのスプリアスな影響を阻止することができます。

研究がGPDと他の核条約への参加の両方を調整している場合はどうなりますか?

デフォルトでは、彼らの結論の因果的妥当性を疑うべきです。

この情報を用いていくつかの予測を行うことができる(例えば、上記の研究の結果を用いて、いずれにせよ条約に署名しようとしていた国が核兵器への投資を削減するかどうかを推測することができる)が、治療勧告を行うことはできない(例えば、国家アクターにNPTを受け入れるようロビー活動を行うことが、核兵器を削減するための効果的な方法であると主張することはできない)。

その結果を救出しようとするなら、関連する変数の因果図を構築し、交絡因子の選択が関連する基準を満たすかどうかを検討することができます。

彼らが選んだ調整変数が適切にスプリアス効果をブロックしたり、コライダーを介して新しい効果を導入したりせず、データにアクセスできる場合、調整変

しかし、もちろん、著者がデータセットに含めなかった重要な交絡因子を特定するかもしれません。 その場合、私はJohn Tukeyの言葉に注意を払うことをお勧めします:

「いくつかのデータと答えに対する痛みを伴う欲求の組み合わせは、合理的な答えが与えら

結論

この記事では、共変量と治療-結果のペアの間の因果関係の3つのタイプを説明しました。 因果関係を推測するには、交絡因子を調整する必要がありますが、メディエーターやコライダーでは調整しないことがわかりました。

我々は、観測研究が調整する変数が多ければ多いほど、因果的な誤りを犯した可能性が高くなるか、追加の自由度と出版バイアスが報告された効果を誇張していると主張している。

我々はまた、反対の間違いを犯すことに対して読者に警告しました—観測データを因果情報に変換するためには、原則的な方法で交絡因子を調整すること

これまでの研究からデータを抽出する方法として、因果基準に基づいて調整共変量の選択を批判的に検討することを提案しました。 不要な変数を調整する場合は、データが利用可能な場合は分析を再実行することを提案しましたが、キー交絡因子がデータに欠落している場合は、気になる

コメントを残す

メールアドレスが公開されることはありません。