完全なケース分析はいつ公平ですか?
私の主な研究領域は欠損データの研究です。 不足しているデータは、経験的研究の共通の問題です。 生物統計学の中で欠落しているデータはほとんど遍在しています–患者は多くの場合、様々な理由で計画通りに訪問に戻ってこないことがあります。 調査参加者は、調査波の間に移動する可能性があります,我々は彼らとの接触を失います,我々は彼らに尋ねたことが好きだっただろう質問への回答が欠落しているように.
データが欠落していると、常に情報の損失が発生します。 この現象は、標準誤差が大きく、パラメーター推定の信頼区間が広いことを示しています。 しかし、間違いなくより重要な結果は、欠落性が分析に関与する変数と無関係でない限り(いわゆる完全にランダムな仮定で欠落)、欠落したデータが私た
欠損データを収容するための膨大な統計手法があります(参照www.missingdata.org.uk)。 おそらく、最も一般的に採用されているのは、分析からデータが欠落しているデータセットの参加者(関係する変数)を単純に除外することです。 これは、一般的に”完全なケース分析”または”リストワイズ削除”として知られているものです–私たちは完全なケースのみを分析します。 私は最近、完全なケース分析が公平であるときと完全なケース分析の効率を向上させるための方法についてLSHTMでセミナー(ここでのスライド)を行いました。 この記事では、完全なケース分析が公平であるときの最初の側面について説明します。
完全にランダムに欠落している
前述したように、データが完全にランダムに欠落している場合、つまりデータが欠落している可能性が分析に関係する変数のいずれかとは無関係であることを意味し、完全なケース分析は公平ではありません。 これは、完全なケースのサブセットが、母集団からのランダムな(意図したよりも小さいが)サンプルを表すためです。
一般に、完全なケースが全体としてサンプルと体系的に異なる場合(つまり、不完全なケースとは異なる場合)、すなわち データは完全にランダムに欠落しておらず、完全なケースのみを分析すると偏った推定値につながります。
たとえば、一部の人口の収入の中央値を推定することに関心があるとします。 私たちは、参加者の中で、彼らが稼ぐどのくらいの言うように求められている完了するためにアンケートを求める電子メールを送信します。 しかし、ターゲットサンプルの一部だけがアンケートを返すので、残りの人々の収入が不足しています。 所得問題への回答を返した人が、回答を返さなかった人よりも体系的に高いまたは低い所得を持っている場合、完全なケースの中央値の収入は偏って
完全なケース分析データがMCARでない場合の妥当性
しかし、場合によっては、完全なケース分析は、データが完全にランダムに欠落していない場合でも、実際には不偏推定値を与えることができます。 これらの設定の1つは、分析が回帰モデルを近似し、ある結果Y(または従属変数)の分布を1つ以上の予測子(または独立変数)X(ここではXは多数の予測子からなる可能性がある)に関連付けることで構成されるということです。 そのようなモデルの例は、連続的な結果のための線形回帰およびバイナリ結果のためのロジスティック回帰である。 結果Y、1つまたは複数の予測子X、または潜在的に両方にミスが発生した場合、完全なケースに回帰モデルを当てはめることは、完全なケースである確率がYとは独立しており、Xに条件がある場合には公平ではありません(理由の説明については、こちらのスライドを参照してください)。
コホート研究など、人々が時間の経過とともに追跡される状況では、この状態が妥当に保持されると仮定されるかもしれません。 たとえば、Xがコホート研究への募集時に被験者の測定された因子であり、結果Yが募集後しばらくして測定されると仮定します。 X内の予測子の1つに欠損値があるとします。 そして、Yの将来の値はまだ決定されていないので、Xの欠落はYによって直接引き起こされることはできません。 Xの欠落は、X自体の値、または他の要因/変数によって引き起こされます。 ミス性は、このような他の要因によって引き起こされ、これらの要因が独立して結果Yに影響を与える場合にのみ、ケース分析が偏って完了します。
残念ながら、欠落データの分析では通常そうであるように、欠落性に関するこの仮定は、手元のデータを使用して決定的に確認することはできません。 しかし、場合によっては、予測変数を調整した後、ミス性が結果とは無関係であるという仮定が妥当であるとみなされることがあります。 この場合、完全なケース分析は最適に効率的ではありませんが(不完全なケースからデータを破棄します)、少なくとも偏りはありません。
結論
だから、特定の分析では、すべてのstatsパッケージが実行できるより洗練された方法(実際には欠損値を処理するためのデフォルトのアプローチです)を優先して、謙虚な完全なケース分析を捨てる前に、(バイアスの観点から)完全なケース結果が実際にokである可能性があるかどうかを停止して考える必要があります。 しかし、完全なケース分析が公平であっても、それは非効率的であり、不完全なケースのすべての情報を破棄すると言うことが重要です。
October2015–私が共著したこの論文は興味深いかもしれません-完全な記録における暴露オッズ比の漸近的に公平な推定ロジスティック回帰
あなたも興味があ:
- オンラインコース-R
を使用した欠損データを使用した統計分析