Collider Bias untergräbt unser Verständnis von COVID-19-Krankheitsrisiko und -schweregrad

Warum beobachtende COVID-19-Forschung besonders anfällig für Collider Bias ist

Obwohl Beobachtungsdatensätze zweifellos wertvoll sind, können sie eine Art Blackbox sein, da die in ihnen geschätzten Assoziationen auf viele verschiedene Mechanismen zurückzuführen sein können. Betrachten Sie das Szenario, in dem wir die kausale Wirkung eines Risikofaktors abschätzen möchten, der auf eine breitere Bevölkerung wie das Vereinigte Königreich (die “Zielpopulation”) verallgemeinerbar ist. Da wir selten die gesamte Zielpopulation beobachten, müssen wir diesen Effekt innerhalb einer Stichprobe von Personen aus dieser Population abschätzen. Wenn es sich bei der Stichprobe um eine echte Zufallsauswahl aus der Grundgesamtheit handelt, sagen wir, dass sie repräsentativ ist. Oft werden die Proben jedoch aus Bequemlichkeit ausgewählt oder weil der Risikofaktor oder das Ergebnis nur in bestimmten Gruppen gemessen wird (z. COVID-19-Krankheitsstatus wird nur für Personen beobachtet, die einen Test erhalten haben). Darüber hinaus können Personen, die zur Teilnahme an einer Stichprobe eingeladen wurden, dies ablehnen oder später abbrechen. Wenn sich Merkmale im Zusammenhang mit der Probeneinschluss Beziehen sich auch auf den Risikofaktor und das Ergebnis von Interesse, Dann führt dies die Möglichkeit eines Collider-Bias in unsere Analyse ein.

Collider Bias tritt nicht nur am Punkt der Abtastung auf. Es kann auch durch statistische Modellierungsentscheidungen eingeführt werden. Ob es beispielsweise angebracht ist, Kovariaten in Beobachtungsassoziationen anzupassen, hängt davon ab, wo sich die Kovariaten auf dem Kausalweg befinden und welche Rolle sie im Datengenerierungsprozess spielen18,19,20,21. Wenn wir davon ausgehen, dass eine gegebene Kovariate sowohl den hypothetischen Risikofaktor als auch das Ergebnis beeinflusst (ein Confounder), ist es angebracht, diese Kovariate zu konditionieren, um die durch die Confounding-Struktur induzierte Verzerrung zu beseitigen. Wenn die Kovariate jedoch eine Folge der Exposition und des Ergebnisses (eines Kolliders) und nicht einer gemeinsamen Ursache (eines Störers) ist, kann die Konditionierung der Kovariate Verzerrungen induzieren22,23,24. Das heißt, Collider Bias kann auch eingeführt werden, wenn statistische Anpassungen für Variablen vorgenommen werden, die auf dem Kausalweg zwischen Risikofaktor und Ergebnis liegen. A-priori-Kenntnisse über die zugrunde liegende Kausalstruktur von Variablen und darüber, ob sie als gemeinsame Ursache oder gemeinsame Konsequenz von Risikofaktor und Ergebnis im Datengenerierungsprozess fungieren, können schwer zu schließen sein. Daher ist es angebracht, die Kolliderverzerrung mit einem ähnlichen Maß an Vorsicht wie die Störverzerrung zu behandeln. Wir befassen uns später in diesem Artikel mit Möglichkeiten, dies zu tun (“Methoden zur Erkennung und Minimierung der Auswirkungen von Collider Bias”).

Es gibt mehrere Möglichkeiten, wie Daten zu COVID-19 gesammelt werden, die zu einer unbeabsichtigten Konditionierung in der ausgewählten Stichprobe führen können. Die Merkmale der rekrutierten Teilnehmer hängen mit einer Reihe von Faktoren zusammen, darunter politische Entscheidungen, Kostenbeschränkungen, technologischer Zugang, und Testmethoden. Es ist auch allgemein anerkannt, dass die tatsächliche Prävalenz der Krankheit in der Bevölkerung unbekannt bleibt25. Hier beschreiben wir die Formen der Datenerfassung für COVID-19, bevor wir die Umstände von COVID-19 erläutern, die seine Analyse anfällig für Kolliderverzerrungen machen.

COVID-19-Stichprobenstrategien und Fall- / Kontrolldefinitionen

Stichprobe unter Vorbehalt der freiwilligen Teilnahme (Falldefinition: wahrscheinliches COVID-19, Kontrolldefinition: Freiwilliger Teilnehmer, der keine COVID-19-Symptome meldet, Abb. 2a): Der wahrscheinliche COVID-19-Status kann durch Studien bestimmt werden, die eine freiwillige Teilnahme erfordern. Dazu können beispielsweise Umfragen gehören, die von bestehenden Kohorten- und Längsschnittstudien26,27 durchgeführt wurden, Datenverknüpfungen mit Verwaltungsunterlagen, die in einigen Kohortenstudien wie der britischen Biobank28 verfügbar sind, oder handybasierte App-Programme29,30. Die Teilnahme an wissenschaftlichen Studien erwies sich als stark nicht-zufällig (z. die Teilnehmer sind überproportional wahrscheinlich gut ausgebildet, gesundheitsbewusst und Nichtraucher), so dass sich die Freiwilligen in diesen Stichproben wahrscheinlich erheblich von der Zielpopulation unterscheiden31,32,33. Siehe Kasten 2 und Abb. 3 für eine Vignette, wie eine Studie30 Collider Bias in diesem Zusammenhang untersuchte.

Abb. 3: Quantil-Quantil-Diagramm von -log10 p-Werten für Faktoren, die den Test auf COVID-19 in der britischen Biobank beeinflussen.
 abbildung3

Die x-Achse repräsentiert den erwarteten p-Wert für 2556 Hypothesentests und die y-Achse repräsentiert die beobachteten p-Werte. Die rote Linie stellt die erwartete Beziehung unter der Nullhypothese ohne Assoziationen dar.

Stichprobenauswahlstrategien für COVID-19-Studien

Wir können die obigen Stichprobenstrategien in drei primäre Stichprobenrahmen stratifizieren. Der erste dieser Rahmen ist die Stichprobe auf der Grundlage der freiwilligen Teilnahme, die aufgrund der Faktoren, die die Teilnahme beeinflussen, von Natur aus nicht zufällig ist. Die zweite davon sind Stichprobenrahmen unter Verwendung von COVID-19-Testergebnissen. Mit wenigen bemerkenswerten Ausnahmen (z. B. Refs. 3,34) werden Populationstests auf COVID-19 im Allgemeinen nicht in Stichproben durchgeführt. Der dritte dieser Rahmen basiert auf Stichproben von Krankenhauspatienten mit oder ohne COVID-19. Dies ist wiederum notwendigerweise nicht zufällig, da es die Krankenhauseinweisung bedingt.

Kasten 3 und Abb. 3 veranschaulichen die Breite der Faktoren, die den Probenauswahldruck induzieren können. Während einige der Faktoren, die sich auf die Stichprobenprozesse auswirken, für alle oben aufgeführten Stichprobenarten gleich sein können, sind einige modusspezifisch. Diese Faktoren werden sich wahrscheinlich in ihrer Funktionsweise in nationalen und Gesundheitssystemkontexten unterscheiden. Hier listen wir eine Reihe möglicher Auswahldrücke auf und wie sie sich auf verschiedene COVID-19-Stichprobenrahmen auswirken. Wir beschreiben auch die Fallidentifikation / -definition und beschreiben, wie sie die Inferenz verzerren können, wenn sie unerforscht bleiben.

Schweregrad der Symptome: Dies wird möglicherweise alle drei wichtigen Abtastrahmen verzerren, obwohl dies im Zusammenhang mit Tests am einfachsten zu verstehen ist. Mehrere Länder haben die Strategie übernommen, Tests hauptsächlich für Patienten anzubieten, deren Symptome schwerwiegend genug sind, um ärztliche Hilfe zu benötigen, z. B. Krankenhausaufenthalt, wie dies bis Ende April 2020 in Großbritannien der Fall war. Viele wirklich positive Fälle in der Bevölkerung bleiben daher unentdeckt und werden weniger wahrscheinlich Teil der Stichprobe sein, wenn die Einschreibung vom Teststatus abhängt. Hohe Raten asymptomatischer Virusträger oder Fälle mit atypischer Präsentation werden dieses Problem weiter verschärfen.

Symptomerkennung: Dadurch werden auch alle drei Sampling-Frames verzerrt, da die Eingabe in alle Samples von der Symptomerkennung abhängt. Im Zusammenhang mit dem Schweregrad der Symptome variieren die COVID-19-Tests jedoch je nach Symptomerkennung35. Wenn eine Person die richtigen Symptome nicht erkennt oder ihre Symptome für nicht schwerwiegend hält, kann sie einfach angewiesen werden, sich selbst zu isolieren und keinen COVID-19-Test zu erhalten. Personen mit gesundheitsbezogener Angst melden möglicherweise häufiger Symptome, während Personen mit weniger Informationen über die Pandemie oder den Zugang zu Gesundheitsberatung möglicherweise unterrepräsentiert sind. Dies wird funktionell als differenzierte Rate von falsch-negativen Ergebnissen zwischen Individuen auf der Grundlage der Symptomerkennung wirken, was für die hohen Schätzungen asymptomatischer Fälle und der Übertragung von Bedeutung sein kann36. Eine Änderung der Symptomrichtlinien dürfte dieses Problem verschärfen, was zu systematischen Beziehungen zwischen Symptomdarstellung und Test führen kann35,37. Hier können Gruppen mit geringerem Bewusstsein (z. B. aufgrund unzureichender öffentlicher Nachrichten oder Sprachbarrieren) höhere Schwellenwerte für den Test haben, und daher scheinen diejenigen, die positiv testen, ein höheres Risiko für schwere COVID-19-Ergebnisse zu haben.

Beruf: Die Exposition gegenüber COVID-19 ist in Bezug auf den Beruf gemustert. In vielen Ländern werden Beschäftigte im Gesundheitswesen an vorderster Front aufgrund ihrer Nähe zum Virus und der möglichen Folgen einer infektionsbedingten Übertragung weitaus häufiger auf COVID-19 getestet als die allgemeine Bevölkerung5,3839. Daher werden sie in Stichproben, die vom Teststatus abhängig sind, stark überrepräsentiert sein. Andere Schlüsselbeschäftigte können aufgrund der großen Anzahl von Kontakten im Vergleich zu Nicht-Schlüsselbeschäftigten einem hohen Infektionsrisiko ausgesetzt sein, und kann daher in Proben überrepräsentiert sein, die von positivem Teststatus oder COVID-bedingtem Tod abhängig sind. Alle Faktoren, die mit diesen Berufen zusammenhängen (z. b. ethnische Zugehörigkeit, sozioökonomische Position, Alter und Grundgesundheit) werden daher ebenfalls mit der Stichprobenauswahl in Verbindung gebracht. Abbildung 2b veranschaulicht ein Beispiel, bei dem der hypothetische Risikofaktor (Rauchen) die Stichprobenauswahl (Krankenhauspatienten) nicht kausal beeinflussen muss, sondern einfach aufgrund einer Verwechslung zwischen dem Risikofaktor und der Stichprobenauswahl (als Gesundheitspersonal) in Verbindung gebracht werden kann.

Ethnische Zugehörigkeit: Ethnische Minderheiten sind auch häufiger mit COVID-1940 infiziert. Nachteilige COVID-19-Ergebnisse sind für Personen einiger ethnischer Minderheiten erheblich schlechter41. Dies könnte möglicherweise geschätzte Assoziationen innerhalb von Stichprobenrahmen innerhalb von Krankenhauspatienten verzerren, da in vielen Ländern ethnische Minderheitengruppen überrepräsentiert sind, da ethnische Ungleichheiten in der Gesundheit allgegenwärtig und gut dokumentiert sind. Darüber hinaus sind ethnische Minderheiten eher Schlüsselbeschäftigte, die eher COVID-1942 ausgesetzt sind. Das kulturelle Umfeld (einschließlich systemischem Rassismus) und Sprachbarrieren können sich negativ auf den Studieneintritt auswirken, sowohl auf der Grundlage von Tests als auch auf freiwilliger Teilnahme43. Ethnische Minderheiten können selbst innerhalb eines bestimmten Gebiets schwieriger für Studien zu rekrutieren44 und können die Repräsentativität der Stichprobe beeinträchtigen. Ethnische Minderheiten berichteten weniger wahrscheinlich, dass sie in unserer Analyse der britischen Biobank-Daten getestet wurden, wo einer der stärksten Faktoren, die mit dem Test verbunden waren, die erste genetische Hauptkomponente war, die ein Marker für die Abstammung ist (Kasten 3). Dies könnte sich also wie oben darstellen, wobei der Zugang ethnischer Minderheiten zur medizinischen Versorgung von schwereren Symptomen abhängt.

Gebrechlichkeit: Gebrechlichkeit, die hier als größere Anfälligkeit für nachteilige COVID-19-Ergebnisse definiert wird, tritt mit größerer Wahrscheinlichkeit in bestimmten Bevölkerungsgruppen auf, z. B. ältere Erwachsene in Einrichtungen für Langzeitpflege oder betreutes Wohnen, Personen mit bereits bestehenden Erkrankungen, übergewichtige Gruppen und Raucher. Diese Faktoren dürften einen Krankenhausaufenthalt stark vorhersagen. Gleichzeitig haben die COVID-19-Infektion und der Schweregrad wahrscheinlich einen Einfluss auf die Krankenhauseinweisung 8,9,10,45, was bedeutet, dass die Untersuchung dieser Faktoren bei hospitalisierten Patienten zu einer Kolliderverzerrung führen kann. Darüber hinaus können Gruppen in Bezug auf die Berichterstattung über COVID-19 in verschiedenen Ländern unterschiedlich behandelt werden46. Beispielsweise könnten in Großbritannien frühe Berichte über Todesfälle “aufgrund von COVID-19” mit Todesfällen “während einer Infektion mit COVID-19″47 in Verbindung gebracht worden sein. Personen mit hohem Risiko werden im Allgemeinen eher getestet, aber bestimmte demografische Merkmale mit hohem Risiko, wie z. B. Personen in Einrichtungen für Langzeitpflege oder betreutes Wohnen, wurden in vielen Studien seltener beprobt46. Gebrechlichkeit sagt auch einen Krankenhausaufenthalt in verschiedenen Gruppen unterschiedlich voraus, zum Beispiel kann eine ältere Person mit sehr schweren COVID-19-Symptomen in einer Einrichtung für betreutes Wohnen nicht ins Krankenhaus gebracht werden, wo eine jüngere Person dies tun würde48.

Wohnort und soziale Verbundenheit: Eine Reihe von eher distalen oder indirekten Einflüssen auf die Stichprobenauswahl besteht wahrscheinlich. Menschen mit besserem Zugang zu Gesundheitsdiensten werden möglicherweise häufiger getestet als Menschen mit schlechterem Zugang. Diejenigen in Gebieten mit einer größeren Anzahl von medizinischen Dienstleistungen oder einem besseren öffentlichen Verkehr haben möglicherweise leichteren Zugang zu Testdiensten, während diejenigen in Gebieten mit geringerem Zugang zu medizinischen Dienstleistungen eher getestet werden können49. Menschen, die in Gebieten mit stärkeren räumlichen oder sozialen Bindungen zu bestehenden Ausbrüchen leben, können aufgrund erhöhter medizinischer Wachsamkeit in diesen Gebieten auch häufiger getestet werden. Familiäre und kommunale Unterstützungsnetzwerke werden wahrscheinlich auch den Zugang zu medizinischer Versorgung beeinflussen, zum Beispiel können Personen mit Pflegeaufgaben und schwachen Unterstützungsnetzwerken weniger in der Lage sein, medizinische Hilfe in Anspruch zu nehmen50. Verbundenheit ist vielleicht am wahrscheinlichsten, Test-Sampling-Frames zu verzerren, da Tests von Bewusstsein und Zugang abhängig sind. Es kann jedoch auch alle drei wichtigen Abtastrahmen durch einen ähnlichen Mechanismus wie die Symptomerkennung verzerren.

Internetzugang und technologisches Engagement: Dies wird in erster Linie die freiwillige Rekrutierung über Apps verzerren, kann jedoch auch mit einem erhöhten Bewusstsein und Verzerrungstests über den Symptomerkennungspfad verbunden sein. Es ist bekannt, dass die Rekrutierung von Stichproben über Internetanwendungen bestimmte Gruppen unterrepräsentiert32,51. Darüber hinaus variiert dies je nach Stichprobengestaltung, bei der freiwillige oder “Pull-In” -Datenerhebungsmethoden nachweislich engagiertere, aber weniger repräsentative Stichproben erzeugen als werbebasierte oder “Push-Out” -Methoden33. Diese engagierteren Gruppen haben wahrscheinlich einen besseren Zugang zu elektronischen Methoden der Datenerfassung und ein größeres Engagement in Social-Media-Kampagnen, die darauf abzielen, Teilnehmer zu rekrutieren. Daher sind jüngere Menschen in app-basierten Studien zur freiwilligen Teilnahme eher überrepräsentiert29.

Medizinisches und wissenschaftliches Interesse: Studien, die freiwillige Stichproben rekrutieren, können voreingenommen sein, da sie wahrscheinlich eine unverhältnismäßig große Anzahl von Personen enthalten, die ein starkes medizinisches oder wissenschaftliches Interesse haben. Es ist wahrscheinlich, dass diese Menschen selbst ein größeres Gesundheitsbewusstsein, ein gesünderes Verhalten, eine bessere Bildung und ein höheres Einkommen haben31,52.

Viele der Faktoren, die für den Test oder die Aufnahme in die hier beschriebenen Datensätze sprechen, werden in der Analyse der britischen Biobank-Testdaten bestätigt (Kasten 3). Die Schlüsselbotschaft ist, dass, wenn die Rekrutierung von Stichproben nicht zufällig ist, es eine unglaublich breite Palette von Möglichkeiten gibt, wie diese Nicht-Zufälligkeit die Studienergebnisse untergraben kann.

Methoden zur Erkennung und Minimierung der Auswirkungen von Collider Bias

In diesem Abschnitt beschreiben wir Methoden, um entweder Collider Bias zu adressieren oder die Empfindlichkeit der Ergebnisse gegenüber Collider Bias zu bewerten. Wie bei Confounding Bias ist es im Allgemeinen nicht möglich zu beweisen, dass eine der Methoden Collider Bias überwunden hat. Daher sind Sensitivitätsanalysen entscheidend, um die Robustheit von Schlussfolgerungen zu plausiblen Selektionsmechanismen zu untersuchen18,19.

Eine einfache, beschreibende Technik zur Bewertung der Wahrscheinlichkeit und des Ausmaßes der durch die Stichprobenauswahl induzierten Kolliderverzerrung besteht darin, Mittelwerte, Varianzen und Verteilungen von Variablen in der Stichprobe mit denen in der Zielpopulation (oder einer repräsentativen Stichprobe der Zielpopulation) zu vergleichen 16. Dies liefert Informationen über das Profil von Personen, die aus der interessierenden Zielpopulation in die Stichprobe ausgewählt wurden, z. B. ob sie tendenziell älter sind oder eher Komorbiditäten haben. Es ist besonders wertvoll, diese Vergleiche für Schlüsselvariablen in der Analyse, wie den hypothetischen Risikofaktor und das Ergebnis, und andere damit verbundene Variablen zu melden. In Bezug auf die Analyse des COVID-19-Krankheitsrisikos besteht ein Haupthindernis für dieses Bestreben darin, dass in den meisten Fällen die tatsächliche Prävalenz der Infektion in der Allgemeinbevölkerung unbekannt ist. Es ist zwar ermutigend, wenn die Stichprobenschätzungen mit ihren Äquivalenten auf Bevölkerungsebene übereinstimmen, es ist jedoch wichtig anzuerkennen, dass dies nicht definitiv das Fehlen von Collider-Bias beweist53. Dies liegt daran, dass Faktoren, die die Selektion beeinflussen, in der Studie nicht gemessen werden können oder Faktoren interagieren, um die Selektion zu beeinflussen und beim Vergleich von Randverteilungen unentdeckt zu bleiben.

Die Anwendbarkeit jeder Methode hängt entscheidend von den Daten ab, die für Nichtteilnehmer verfügbar sind. Diese Methoden können auf der Grundlage der verfügbaren Daten grob in zwei Kategorien unterteilt werden: verschachtelte und nicht verschachtelte Stichproben. Eine verschachtelte Stichprobe bezieht sich auf die Situation, in der Schlüsselvariablen nur innerhalb einer Teilmenge einer ansonsten repräsentativen “Superstichprobe” gemessen werden, wodurch die Analyse auf diese Unterstichprobe beschränkt wird. Ein Beispiel, das dieser Definition nahe kommt, ist die Unterstichprobe von Personen, die einen COVID-19-Test erhalten haben, der in der UK Biobank-Kohorte verschachtelt ist (es ist jedoch klar, dass die UK Biobank-Kohorte selbst nicht zufällig ausgewählt wird16). Für verschachtelte Stichproben können Forscher die in der repräsentativen Superstichprobe verfügbaren Daten nutzen. Eine nicht verschachtelte Stichprobe bezieht sich auf die Situation, in der Daten nur in einer nicht repräsentativen Stichprobe verfügbar sind. Ein Beispiel hierfür sind Stichproben von hospitalisierten Personen, bei denen keine Daten zu nicht hospitalisierten Personen verfügbar sind. Es ist in der Regel schwieriger, Collider-Bias in nicht verschachtelten Samples zu adressieren. Eine geführte Analyse, die beide Arten von Sensitivitätsanalysen anhand britischer Biobankdaten zu COVID-19-Tests veranschaulicht, wird in der ergänzenden Anmerkung 1 vorgestellt.

Verschachtelte Stichproben: Die inverse Wahrscheinlichkeitsgewichtung ist ein leistungsstarker und flexibler Ansatz zur Anpassung der Kolliderverzerrung in verschachtelten Stichproben54,55. Der kausale Effekt des Risikofaktors auf das Ergebnis wird mithilfe der gewichteten Regression geschätzt, sodass Teilnehmer, die in der Unterstichprobe überrepräsentiert sind, nach unten und Teilnehmer, die unterrepräsentiert sind, nach oben gewichtet werden. In der Praxis konstruieren wir diese Gewichte, indem wir die Wahrscheinlichkeit abschätzen, dass verschiedene Personen aus der repräsentativen Superstichprobe basierend auf ihren gemessenen Kovariaten in die Stichprobe ausgewählt werden56. Zum Beispiel könnten wir Daten aus der gesamten britischen Biobank-Stichprobe verwenden, um die Wahrscheinlichkeit abzuschätzen, dass Personen einen Test auf COVID-19 erhalten, und diese Gewichte in Analysen verwenden, die auf die Unterstichprobe der getesteten Personen beschränkt sein müssen (z. B. Identifizierung von Risikofaktoren für einen positiven Test). Seaman und White geben einen detaillierten Überblick über die praktischen Überlegungen und Annahmen zur inversen Wahrscheinlichkeitsgewichtung, wie z. B. die korrekte Spezifikation des “Sample Selection model” (ein statistisches Modell der Beziehung zwischen gemessenen Kovariaten und der Auswahl in die Probe, das zur Konstruktion dieser Gewichte verwendet wird), die variable Auswahl und Ansätze zum Umgang mit instabilen Gewichten (d. H. Gewichten, die Null oder nahe Null sind).

Eine zusätzliche Annahme für die inverse Wahrscheinlichkeitsgewichtung ist, dass jedes Individuum in der Zielpopulation eine Wahrscheinlichkeit ungleich Null haben muss, in die Stichprobe ausgewählt zu werden. Weder diese Annahme noch die Annahme, dass das Auswahlmodell korrekt spezifiziert wurde, sind allein anhand der beobachteten Daten testbar. Ein konzeptionell verwandter Ansatz, der Propensity Score Matching verwendet, wird manchmal verwendet, um Indexereignisverzerrungen zu vermeiden57,58. Es gibt auch Sensitivitätsanalysen zur Fehlspezifikation von Wahrscheinlichkeitsgewichten. Zum Beispiel Zhao et al. entwickeln Sie eine Sensitivitätsanalyse für den Grad, in dem sich die geschätzten Wahrscheinlichkeitsgewichte von den wahren unbeobachteten Gewichten unterscheiden59. Dieser Ansatz ist besonders nützlich, wenn wir Wahrscheinlichkeitsgewichte abschätzen können, die einige, aber nicht unbedingt alle relevanten Prädiktoren für die Einbeziehung der Stichprobe enthalten. Zum Beispiel könnten wir Gewichte für die Wahrscheinlichkeit eines COVID-19-Tests unter britischen Biobank-Teilnehmern abschätzen, uns fehlen jedoch wichtige Prädiktoren wie die Darstellung von Symptomen und Maßnahmen des Gesundheitswesens.

Nicht verschachtelte Stichproben: Wenn wir nur Daten zur Studienstichprobe haben (z. B. nur Daten zu Teilnehmern, die auf COVID-19 getestet wurden), ist es nicht möglich, das Auswahlmodell direkt abzuschätzen, da nicht ausgewählte (ungetestete) Personen unbeobachtet sind. Stattdessen ist es wichtig, Sensitivitätsanalysen anzuwenden, um die Plausibilität zu bewerten, dass die Probenauswahl eine Kolliderverzerrung induziert.

Grenzen und Parametersuche: Es ist möglich, das Ausmaß der Kolliderverzerrung abzuleiten, wenn man die wahrscheinliche Größe und Richtung der Einflüsse von Risikofaktor und Ergebnis auf die Stichprobenauswahl kennt (unabhängig davon, ob diese direkt oder über andere Faktoren erfolgen) 19,60,61. Dieser Ansatz hängt jedoch davon ab, dass die Größe und Richtung korrekt sind und keine anderen Faktoren die Auswahl beeinflussen. Es ist daher wichtig, verschiedene mögliche Stichprobenauswahlmechanismen zu untersuchen und deren Auswirkungen auf die Studienergebnisse zu untersuchen. Wir haben eine einfache Webanwendung erstellt, die von diesen Annahmen geleitet wird, damit Forscher einfache Selektionsmuster untersuchen können, die erforderlich wären, um eine Beobachtungsassoziation zu induzieren: http://apps.mrcieu.ac.uk/ascrtain/. In Fig. 4 wir verwenden einen kürzlich veröffentlichten Bericht einer Schutzvereinigung des Rauchens zur COVID-19-infektion45, um das Ausmaß der Kolliderverzerrung zu untersuchen, die aufgrund ausgewählter Stichproben unter der Nullhypothese ohne kausalen Effekt induziert werden kann.

Abb. 4: Beispiel für große Assoziationen, die durch Collider-Bias unter der Nullhypothese ohne kausalen Zusammenhang induziert werden, wobei Szenarien verwendet werden, die denen ähneln, die für die beobachtete schützende Assoziation des Rauchens mit der COVID-19-Infektion berichtet wurden.
 abbildung4

Nehmen wir ein einfaches Szenario an, in dem die hypothetische Exposition (A) und das Ergebnis (Y) beide binär sind und jeweils die Wahrscheinlichkeit beeinflussen, in die Stichprobe (N) ausgewählt zu werden, z. \(P(S = 1/A,Y) = \beta _0 + \beta _A + \beta _Y + \beta _{AY}\) wobei \(\beta _0\) die Grundwahrscheinlichkeit der Auswahl ist, \(\beta _A\) ist der Effekt von A, \(\beta _Y\) ist der Effekt von Y und \(\beta _{AY}\) ist der Effekt der Wechselwirkung zwischen A und Y. Der betreffende Auswahlmechanismus ist in Abb. 1b (ohne den eingezeichneten Wechselwirkungsterm). Dieses Diagramm zeigt, welche Kombinationen dieser Parameter erforderlich wären, um einen scheinbaren Risikoeffekt mit Magnitude OR > 2 (blaue Region) oder einen scheinbaren Schutzeffekt mit Magnitude OR < 0 zu induzieren.5 (rote Region) unter der Nullhypothese ohne kausalen Effekt61. Um ein vereinfachtes Szenario ähnlich dem in Miyara et al. wir verwenden eine allgemeine Prävalenz des Rauchens in der Bevölkerung von 0,27 und eine Stichprobenprävalenz von 0,05, wodurch \(\beta _A\) bei 0,22 festgelegt wird. Da die Prävalenz von COVID-19 in der Allgemeinbevölkerung nicht bekannt ist, lassen wir zu, dass die Stichprobe über- oder unterrepräsentativ ist (y-Achse). Wir erlauben auch bescheidene Interaktionseffekte. Berechnet man über diesen Parameterraum, führen 40% aller möglichen Kombinationen zu einer artefaktischen 2-fachen Schutz- oder Risikoassoziation, die allein durch dieses einfache Modell der Verzerrung funktioniert. Es ist wichtig, diese Unsicherheit bei der Veröffentlichung von Beobachtungsschätzungen offenzulegen.

Mehrere andere Ansätze wurden auch in praktische Online-Web-Apps (“Anhang”) implementiert. Smith und VanderWeele schlugen beispielsweise eine Sensitivitätsanalyse vor, mit der Forscher ihre Schätzungen durch Angabe von Sensitivitätsparametern, die die Stärke der Stichprobenauswahl darstellen (in Bezug auf relative Risikoverhältnisse), einschränken können. Sie liefern auch einen “E-Wert”, der die kleinste Größe dieser Parameter ist, die eine beobachtete Assoziation erklären würde62. Aronow und Lee schlugen eine Sensitivitätsanalyse für Stichprobenmittelwerte vor, die auf einer inversen Wahrscheinlichkeitsgewichtung in nicht verschachtelten Stichproben basiert, bei denen die Gewichte nicht geschätzt werden können, sondern zwischen zwei vom Forscher angegebenen Werten begrenzt sind63. Diese Arbeit wurde auf Regressionsmodelle verallgemeinert, so dass auch relevante externe Informationen über die Zielpopulation (z. B. zusammenfassende Statistiken aus der Volkszählung) einbezogen werden können64. Diese Sensitivitätsanalyseansätze ermöglichen es den Forschern zu untersuchen, ob es glaubwürdige Colliderstrukturen gibt, die Beobachtungsassoziationen erklären könnten. Sie stellen jedoch weder einen erschöpfenden Satz von Modellen dar, die zu Verzerrungen führen könnten, noch beweisen sie notwendigerweise, ob die Verzerrung durch Kollider die Ergebnisse beeinflusst. Wenn der Risikofaktor für die Selektion selbst das Ergebnis weiterer vorgelagerter Ursachen ist, dann ist es wichtig, dass die Auswirkungen dieser vorgelagerten Selektionseffekte berücksichtigt werden (d.h. nicht nur, wie der Risikofaktor die Selektion beeinflusst, sondern auch, wie die Ursachen des Risikofaktors und/oder die Ursachen des Ergebnisses die Selektion beeinflussen, z.B. Abb. 2b). Während diese vorgelagerten Ursachen einzeln einen geringen Einfluss auf die Selektion haben können, ist es möglich, dass viele Faktoren mit individuell kleinen Effekten gemeinsam einen großen Selektionseffekt haben und Collider bias65 einführen.

Negative Kontrollanalysen: Wenn in der ausgewählten Stichprobe Faktoren gemessen werden, von denen bekannt ist, dass sie keinen Einfluss auf das Ergebnis haben, kann das Testen dieser Faktoren auf Assoziation mit dem Ergebnis innerhalb der ausgewählten Stichprobe als negative Kontrolle dienen66,67. Negativkontrollassoziationen sollten daher null sein, und sie sind daher nützlich, um Beweise zur Unterstützung der Selektion zu liefern. Wenn wir Assoziationen mit größeren Größen als erwartet beobachten, deutet dies darauf hin, dass die Probe sowohl für die Negativkontrolle als auch für das Ergebnis des Interesses ausgewählt wird68,69.

Korrelationsanalysen: Konzeptionell ähnlich dem oben beschriebenen Ansatz der Negativkontrolle werden bei der Auswahl einer Stichprobe alle Merkmale, die die Auswahl beeinflusst haben, innerhalb der Stichprobe korreliert (mit Ausnahme des höchst unwahrscheinlichen Falls, dass die Ursachen perfekt multiplikativ sind). Tests auf Korrelationen zwischen hypothetischen Risikofaktoren, bei denen erwartet wird, dass keine Beziehung bestehen sollte, können auf das Vorhandensein und den Umfang der Stichprobenauswahl und damit auf die Wahrscheinlichkeit hinweisen, dass die Primäranalyse durch Kolliderverzerrungen verzerrt wird70.

Der Großteil der wissenschaftlichen Erkenntnisse, die die politische und klinische Entscheidungsfindung während der COVID-19-Pandemie beeinflussen, stammt aus Beobachtungsstudien71. Wir haben gezeigt, wie diese Beobachtungsstudien besonders anfällig für nicht zufällige Stichproben sind. Randomisierte klinische Studien werden experimentelle Beweise für die Behandlung liefern, experimentelle Infektionsstudien sind jedoch aus ethischen Gründen nicht möglich. Der Einfluss des Collider Bias auf Schlussfolgerungen aus Beobachtungsstudien könnte beträchtlich sein, nicht nur für die Modellierung der Krankheitsübertragung72,73, sondern auch für die kausale Inferenz7 und Vorhersagemodelle2.

Es gibt zwar viele Ansätze, die versuchen, das Problem der Kolliderverzerrung zu verbessern, sie beruhen jedoch auf unbeweisbaren Annahmen. Es ist schwierig, das Ausmaß der Stichprobenauswahl zu kennen, und selbst wenn dies bekannt wäre, kann nicht nachgewiesen werden, dass es durch irgendeine Methode vollständig berücksichtigt wurde. Repräsentative Bevölkerungsumfragen34 oder Stichprobenstrategien, die die Probleme von Collider Bias vermeiden74, sind dringend erforderlich, um zuverlässige Beweise zu liefern. Ergebnisse aus Stichproben, die wahrscheinlich nicht repräsentativ für die Zielpopulation sind, sollten von Wissenschaftlern und politischen Entscheidungsträgern mit Vorsicht behandelt werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.