コリダーバイアスがCOVID-19疾患のリスクと重症度の理解を損なう
なぜ観測的なCOVID-19研究が特にコリダーバイアスの影響を受けやすいのか
間違いなく価値がありますが、観測データセットはブラックボックスのようなものになる可能性があります。なぜなら、それらの中で推定される関連性は多くの異なるメカニズムに起因する可能性があるからです。 英国のようなより広い人口(「標的人口」)に一般化可能な危険因子の因果関係を推定するシナリオを考えてみましょう。 我々はめったに完全な標的集団を観察しないので、我々はこの集団から引き出された個人のサンプル内でこの効果を推定しなければならない。 標本が母集団からの真の無作為選択である場合、それは代表的であると言います。 しかし、多くの場合、サンプルは便宜のために、または危険因子または結果が特定のグループでのみ測定されるために選択される(例えば、 COVID-19疾患の状態は、検査を受けた個人に対してのみ観察される)。 さらに、サンプルに参加するよう招待された個人は、拒否またはその後中退することができます。 サンプル包含に関連する特性が、関心のある危険因子および結果にも関連する場合、これは我々の分析におけるコライダバイアスの可能性を導入する。
コライダバイアスは、サンプリングの時点でのみ発生するわけではありません。 また、統計モデルの選択によって導入することもできます。 例えば、観測関連における共変量を調整することが適切であるかどうかは、共変量が因果経路上のどこに位置するか、およびデータ生成プロセスにおけるその役割に依存する18、19、20、21。 与えられた共変量が仮定された危険因子と結果(交絡因子)の両方に影響すると仮定する場合、交絡構造によって誘発されるバイアスを除去するために、その共変量を条件付けることが適切である。 しかし、共変量が一般的な原因(交絡因子)ではなく、暴露と結果(コライダー)のいずれかまたは両方の結果である場合、共変量の条件付けは、bias22,23,24を減少させるのではなく誘発する可能性があります。 つまり、危険因子と結果の間の因果経路にある変数の統計的調整を行うときに、衝突型バイアスを導入することもできます。 変数の根本的な因果構造と、それらがデータ生成プロセスにおけるリスク要因と結果の共通の原因または共通の結果として機能するかどうかの先験的な知識は、推測するのが難しい場合があります。 したがって、交絡バイアスと同様のレベルの注意を払ってコライダバイアスを扱うことが適切です。 これを行う方法については、本稿の後半で説明します(”コライダバイアスの影響を検出し、最小化する方法”)。
選択されたサンプルに意図しない条件付けを導入する可能性のあるデータがCOVID-19で収集される方法は複数あります。 採用された参加者の特性は、政策決定、コスト制限、技術的アクセス、およびテスト方法を含むさまざまな要因に関連しています。 また、人口におけるこの疾患の真の有病率は不明のままであることが広く認められている25。 ここでは、covid-19を取り巻く状況を詳述する前に、COVID-19のデータ収集の形式について説明し、その分析を衝突型バイアスの影響を受けやすいようにします。
COVID-19サンプリング戦略とケース/コントロール定義
自発的な参加に条件付きサンプリング(ケース定義: 可能性のあるCOVID-19、コントロール定義:covid-19症状を報告していない自発的な参加者、図10。 2a):可能性のあるCOVID-19の状態は、自発的な参加を必要とする研究を通じて決定することができる。 これらには、例えば、既存のコホートおよび縦断研究によって実施された調査26、27、英国Biobank28などのいくつかのコホート研究で利用可能な行政記録へのデー 科学的研究への参加は、強く非ランダムであることが示されている(例えば、 参加者は、高学歴、健康志向、および非喫煙者である可能性が不釣り合いに高い)ので、これらのサンプルのボランティアは、ターゲット人口31、32、33とは大幅に異 ボックス2と図を参照してください。 3つの研究では、この文脈で衝突型加速器のバイアスをどのように検討したかについてのビネットについて説明する。
COVID-19研究のサンプル選択圧力
上記のサンプリング戦略を3つの主要なサンプリングフレームに階層化することができます。 これらのフレームの最初は、参加に影響を与える要因のために本質的に非ランダムである自発的な参加に基づいてサンプリングされています。 これらの2つ目は、COVID-19試験結果を使用したサンプリングフレームです。 いくつかの注目すべき例外(例えばrefs。 3,34)、COVID-19の集団試験は、一般的に無作為のサンプルでは行われません。 これらのフレームの第三は、COVID-19の有無にかかわらず、入院患者に基づいてサンプリングされています。 これは、入院時の条件として、必然的にランダムではありません。
ボックス3と図。 図3は、サンプル選択圧力を誘発することができる要因の幅を示しています。 サンプリングプロセスに影響を与える要因のいくつかは、上記のすべてのサンプリングモードで共通している可能性がありますが、いくつかはモー これらの要因は、国や医療システムの状況でどのように動作するかが異なる可能性があります。 ここでは、可能な一連の選択圧力と、それらが異なるCOVID-19サンプリングフレームにどのように影響するかをリストします。 また、ケースの識別/定義について説明し、未踏のままにした場合に推論にどのように偏りがあるかを詳細に説明します。
: これは、テストの文脈で最も簡単に理解されていますが、3つの主要なサンプリングフレームすべてに偏りがある可能性があります。 いくつかの国では、2020年4月末までの英国の場合と同様に、入院などの医師の診察を必要とするほど重度の症状を経験している患者に主に検査を提 従って人口の多くの本当の肯定的な場合は検出されない残り、登録がテスト状態に依存していればサンプルの部分を形作ってまずないです。 無症候性のウイルスキャリアまたは非定型の提示を伴う症例の割合が高いと、この問題がさらに複雑になる。
症状認識:これは、すべてのサンプルへのエントリが症状認識に条件付きであるため、3つのサンプリングフレームすべてにバイアスをかけます。 症状の重症度に関連しているが、症状の重症度とは異なるCOVID-19試験は、症状の認識に基づいて変化する35。 個人が正しい症状を認識できなかった場合、または症状が重症でないと判断した場合、自己分離してCOVID-19検査を受けないように指示されるだけです。 個人は彼らの徴候の重大度を別様に査定します;健康関連の心配とのそれらは徴候を過剰報告して本当らしいかもしれませんが、パンデミックのより少ない情報とのそれらまたは健康の助言へのアクセスは過小表現されるかもしれません。 これは、機能的には、症状認識に基づいて個人間で偽陰性の差動率として機能し、無症候性症例および伝達36の高い推定値を与えることに帰結する可能性がある。 症状のガイドラインを変更すると、この問題が複雑になる可能性があり、症状の提示とテスト35,37との間に体系的な関係が誘導される可能性があります35,37。 ここでは、認知度の低いグループ(例えば、不十分な公共のメッセージや言語の障壁のために)は、テストを受けるためのしきい値が高い可能性があるため、陽性をテストする人は、重度のCOVID-19アウトカムのリスクが高いように見えます。
職業:COVID-19への曝露は職業に関してパターン化されている。 多くの国では、最前線の医療従事者は、ウイルスに近接しており、感染に関連した感染の潜在的な結果のために、一般人口よりもCOVID-19の検査を受ける可 このように、それらはテスト状態に条件付きサンプルで重く過剰表現されます。 他の主要な労働者は、非主要な労働者と比較して多数の接触のために感染の危険性が高い可能性があり、したがって、陽性の試験状態またはCOVID関連の死 これらの職業に関連する要因(例えば したがって、民族性、社会経済的地位、年齢およびベースラインの健康)もサンプル選択に関連する。 図2bは、仮定された危険因子(喫煙)がサンプル選択(入院患者)に因果的に影響を与える必要がなく、危険因子とサンプル選択(医療従事者である)との交絡のために単純に関連している可能性がある例を示している。
民族性:少数民族もCOVID-1940に感染する可能性が高い。 有害なCOVID-19の結果は、いくつかの少数民族の個人にとってかなり悪化する41。 これは、多くの国では、健康における民族的不平等が普及しており、十分に文書化されているため、少数民族グループが過剰に表現されているように、入院患者 さらに、少数民族は主要労働者である可能性が高く、COVID-1942に曝される可能性が高くなります。 文化的環境(体系的な人種差別を含む)や言語の障壁は、テストと自発的な参加の両方に基づいて、研究への参入に悪影響を与える可能性があります43。 少数民族グループは、特定の地域内であっても、研究に募集することがより困難であり、サンプルの代表性に影響を与える可能性がある44。 少数民族は、英国のバイオバンクデータの分析でテストされていると報告する可能性が低く、テストされていることに関連する最も強い要因の1つが、祖先のマーカーである最初の遺伝的主成分であった(ボックス3)。 したがって、これは上記のように提示することができ、少数民族の医療への提示はより重度の症状を条件としている。
: ここでは、有害なCOVID-19アウトカムに対する感受性が高いと定義されており、長期ケアまたは生活支援施設の高齢者、既存の病状を有する者、肥満群、喫煙者など、集団の特定のグループに虚弱が存在する可能性が高くなります。 これらの要因は、入院を強く予測する可能性が高い。 同時に、COVID-19感染と重症度は入院に影響を与える可能性が高い8,9,10,45、入院患者内でこれらの要因を調査することは、衝突バイアスを誘発する可能性 さらに、各国のCOVID-19に関する報告の観点から、グループは異なる扱いを受ける可能性があります46。 例えば、英国では、「COVID-19による」死亡の初期の報告は、「COVID-19に感染している間」死亡と混同されている可能性があります47。 高リスクの個人は一般的に検査される可能性が高いが、長期ケアや生活支援施設などの高リスクの特定の人口統計は、多くの研究によってサンプリングされる可能性は低くなっている46。 例えば、生活支援施設で非常に重度のCOVID-19症状を持つ高齢者は、若い人が入院する病院に連れて行かれない可能性があります48。
居住地と社会的つながり:サンプル選択に対するより遠位または間接的な影響が多数存在する可能性が高い。 医療サービスへのアクセスが良い人は、アクセスが悪い人よりもテストされる可能性が高いかもしれません。 医療サービスの数が多い地域や公共交通機関が良い地域では、検査のためのサービスにアクセスしやすいかもしれませんが、医療サービスへのアクセスが 既存の流行に強い空間的または社会的関係を持つ地域に住んでいる人々はまた、それらの地域での医療警戒の増加のためにテストされる可能性が高 家族や地域社会の支援ネットワークもまた、医療へのアクセスに影響を与える可能性があり、例えば、思いやりのある責任と弱い支援ネットワークを持つ テストは認識とアクセスに条件があるため、接続性はおそらくテストサンプリングフレームにバイアスをかける可能性が最も高いです。 しかし、それはまた、症状認識と同様のメカニズムを介してすべての三つの主要なサンプリングフレームにバイアスを与える可能性があります。
インターネットアクセスと技術的関与: これは主にアプリを介した自発的な募集に偏りますが、症状認識経路を介した意識の向上とバイアステストにも関連している可能性があります。 インターネットによるサンプル募集は、特定のグループを代表することが知られています32,51. さらに、これはサンプリング設計によって異なり、自発的または”プルイン”データ収集方法は、広告ベースまたは”プッシュアウト”方法よりも従事しているが、代表的なサンプルを生成することが示されている33。 これらのより従事しているグループは、おそらくデータ収集の電子的方法へのより大きなアクセス、および参加者を募集するように設計されているソーシ このように、若い人たちは、appベースの自発的参加研究で過剰に代表される可能性が高い29。
医学的および科学的関心:自発的なサンプルを募集している研究には、医学的または科学的関心が強い人が不均衡に含まれている可能性があるため、偏っている可能性があります。 これらの人々自身がより大きな健康意識を持ち、より健康的な行動をとり、より教育を受け、より高い収入を得る可能性があります31,52。
ここに記載されているデータセットにテストされたり含まれたりする要因の多くは、UK Biobankテストデータの分析(ボックス3)に記載されています。 重要なメッセージは、サンプル募集が非ランダムである場合、その非ランダム性が研究結果を損なう可能性のある非常に広い範囲の方法があるとい
コライダバイアスの影響を検出して最小化する方法
このセクションでは、コライダバイアスに対処するか、コライダバイアスに対する結果の感度を評価する方法について説明します。 交絡バイアスと同様に、どの方法も衝突型バイアスを克服していることを証明することは一般的に不可能です。 したがって、感度分析は、もっともらしい選択メカニズムに対する結論のロバスト性を調べる上で重要です18,19。
サンプル選択によって誘発されるコライダバイアスの尤度と程度を評価するための簡単で記述的な手法は、サンプル内の変数の平均、分散、分布を これは、対象の標的集団からサンプルに選択された個人のプロファイルに関する情報、例えば、それらがより年上である傾向があるか、または併存疾患を有する可能性が高いかどうかを提供する。 仮説された危険因子と結果、およびこれらに関連する他の変数など、分析における重要な変数について、これらの比較を報告することは特に価値があ COVID-19疾患リスクの分析に関して、この努力の大きな障害の1つは、ほとんどの場合、一般集団における感染の実際の有病率が不明であることである。 サンプル推定値が母集団レベルの同等物と一致するかどうかは奨励されますが、これが衝突型加速器bias53の欠如を決定的に証明するものではないこ これは、選択に影響を与える要因が研究で測定されない可能性があるか、または要因が相互作用して選択に影響を与え、限界分布を比較するときに検
各メソッドの適用性は、非参加者で利用可能なデータに決定的に依存します。 これらの方法は、利用可能なデータに基づいて、ネストされたサンプルと非ネストされたサンプルの2つのカテゴリに大きく分けることができます。 ネストされたサンプルは、重要な変数がそうでなければ代表的な”スーパーサンプル”のサブセット内でのみ測定される状況を指し、したがって分析をこのサブサンプルに制限する必要があります。 この定義に近い例は、UK Biobankコホート内にネストされたCOVID-19テストを受けた個人のサブサンプルです(ただし、UK Biobankコホート自体が無作為にサンプリングされていないことは明らかです16)。 ネストされたサンプルの場合、研究者は代表的なスーパーサンプルで利用可能なデータを利用することができます。 入れ子になっていないサンプルは、データが非表示のサンプルでのみ使用可能な状況を指します。 この例は、入院した個人のサンプルであり、非入院した個人に関するデータは利用できない。 通常、ネストされていないサンプルのコライダバイアスに対処するのはより困難です。 COVID-19試験に関するUK Biobankデータを使用した両方のタイプの感度分析を示すガイド付き分析は、補足注1に示されています。
ネストされたサンプル:逆確率重み付けは、ネストされたサンプル54,55のコライダバイアスを調整するための強力で柔軟なアプローチです。 結果に対する危険因子の因果関係は、サブサンプルで過剰に表現された参加者がダウン加重され、過小評価された参加者がアップ加重されるように、重み付けされた回帰を使用して推定されます。 実際には、測定された共変量56に基づいて、代表的なスーパーサンプルからサンプルに選択された異なる個人の可能性を推定することによって、これらの重みを構築します。 たとえば、UK Biobankの全サンプルからのデータを使用して、COVID-19の検査を受けた個体の可能性を推定し、これらの重みを、検査された個体のサブサンプルに限定されなければならない分析に使用することができます(例:陽性の検査の危険因子の特定)。 SeamanとWhiteは、”サンプル選択モデル”(これらの重みを構築するために使用される測定された共変量とサンプルへの選択との関係の統計モデル)、変数選択、不安定な重み(すなわちゼロまたはゼロに近い重み)を扱うためのアプローチの正しい仕様など、逆確率重みづけの実用的な考慮事項と仮定の詳細な概要を提供する。
逆確率重み付けの追加の仮定は、ターゲット母集団の各個人がサンプルに選択される非ゼロ確率を持たなければならないということです。 この仮定も、選択モデルが正しく指定されているという仮定も、観測されたデータのみを使用してテストすることはできません。 傾向スコアマッチングを使用した概念的に関連するアプローチは、指標イベントbias57,58を回避するために使用されることがあります。 また、確率重みのミス指定のための感度解析も存在する。 例えば、Zhao e t a l. 推定された確率重みが真の観測されていない重みと異なる程度の感度解析を開発する59。 このアプローチは、サンプル包含の関連する予測子の一部(必ずしもすべてではない)を含む確率重みを推定できる場合に特に便利です。 たとえば、英国のBiobank参加者の間でCOVID-19テストを受ける可能性の重みを推定することができますが、症状の提示や医療シーク行動の尺度などの重要な予
ネストされていないサンプル: 研究サンプルに関するデータのみがある場合(例えば、COVID-19について試験された参加者に関するデータのみ)、選択されていない(試験されていない)個体は観測 その代わりに、感度解析を適用して、サンプル選択がコライダバイアスを誘発する妥当性を評価することが重要です。
境界とパラメータの検索: リスク要因と結果がサンプル選択に及ぼす影響の可能性のある大きさと方向(これらが直接的であるか、または他の要因を介してであるかどうか)19,60,61の知識を与えられたコライダバイアスの程度を推測することが可能である19,60,61。 しかし、このアプローチは、サイズと方向が正しいこと、および選択に影響を与える他の要因がないことに依存します。 したがって、さまざまな可能性のあるサンプル選択メカニズムを探索し、研究結論への影響を調べることが重要です。 私たちは、研究者が観測的関連を誘導するために必要とされる選択の単純なパターンを探索できるように、これらの仮定に基づいた単純なwebアプリケーシ である。 我々は、因果効果がないという帰無仮説の下で、選択されたサンプリングによって誘発され得る衝突バイアスの大きさを探索するために、COVID-19感染
他のいくつかのアプローチは、便利なオンラインwebアプリ(”付録”)に実装されています。 例えば、SmithとVanderWeeleは、(相対リスク比の観点から)サンプル選択の強さを表す感度パラメータを指定することによって、研究者が推定値を束縛することを可能にする感度分析を提案した。 それらはまた、観測された関連を説明するこれらのパラメータの最小の大きさである”E値”を提供する62。 AronowとLeeは、重みを推定することはできないが、二つの研究者が指定した値の間に境界があると仮定される非ネストされたサンプルにおける逆確率重み付けに基づくサンプル平均の感度分析を提案した63。 この研究は回帰モデルに一般化されており、対象人口に関する関連する外部情報(国勢調査の要約統計など)を組み込むことも可能になっている64。 これらの感度解析アプローチは、研究者が離れて観測関連を説明することができ、信頼できる衝突型加速器構造があるかどうかを探索することがで しかし、それらはバイアスを引き起こす可能性のある網羅的なモデルのセットを表すものではなく、衝突型バイアスが結果に影響を与えるかどうか 選択の危険因子自体がさらに上流の原因の結果である場合、これらの上流の選択効果の影響を考慮することが重要である(すなわち、危険因子が選択にどのように影響するかだけでなく、危険因子の原因および/またはアウトカムの原因が選択にどのように影響するかなど)。 2b)。 これらの上流の原因は個々に選択に小さな影響を与える可能性がありますが、個々に小さな影響を持つ多くの要因が共同で大きな選択効果を持ち、コライダbias65を導入することができる可能性があります。
陰性対照分析:選択されたサンプルで測定された結果に影響を及ぼさない因子がある場合、選択されたサンプル内の結果との関連性についてこれらの因子をテストすることは、陰性対照として機能することができる66,67。 したがって、負の対照関連はnullでなければならず、したがって、選択を支持する証拠を提供するツールとして有用である。 予想よりも大きな大きさの関連を観察すると、これは、サンプルが負の対照と関心の結果の両方で選択されていることを示しています68,69。
相関分析:概念的には、上記の負の対照アプローチと同様に、サンプルが選択されると、選択に影響を与えたすべての特徴がサンプル内で相関します(原因が完全に乗法的である可能性が非常に低いケースを除きます)。 関係がないはずの仮定された危険因子間の相関をテストすることは、サンプリング選択の存在と大きさを示すことができ、したがって、一次分析を歪ませるコライダバイアスの可能性70。
含意
COVID-19パンデミック中の政策と臨床的意思決定を知らせる科学的証拠の大部分は、観察研究から来ている71。 我々は、これらの観察研究は、非ランダムサンプリングに特に影響を受けやすい方法を示しています。 無作為化臨床試験は、治療のための実験的証拠を提供するが、感染の実験的研究は倫理的な理由のために可能ではありません。 観察研究からの推論に対する衝突型バイアスの影響は、疾患伝達モデル化72、73だけでなく、因果推論7および予測モデル化2についてもかなりのものである可能性がある。
コライダバイアスの問題を改善しようとする多くのアプローチが存在しますが、証明できない仮定に依存しています。 サンプル選択の程度を知ることは困難であり、それが知られていたとしても、それがどのような方法によっても完全に説明されていることを証明す コライダー bias74の問題を回避する代表的な人口調査34またはサンプリング戦略は、信頼できる証拠を提供するために緊急に必要とされている。 標的集団の代表ではない可能性が高いサンプルからの結果は、科学者や政策立案者によって慎重に扱われるべきである。