Collider bias underminerer vores forståelse af COVID-19 sygdomsrisiko og sværhedsgrad
hvorfor observational COVID-19 forskning er særlig modtagelig for collider bias
selvom det uden tvivl er værdifuldt, kan observationsdatasæt være noget af en sort boks, fordi de foreninger, der estimeres inden for dem, kan skyldes mange forskellige mekanismer. Overvej scenariet, hvor vi ønsker at estimere årsagseffekten af en risikofaktor, der kan generaliseres til en bredere befolkning som Storbritannien (“målpopulationen”). Da vi sjældent observerer den fulde målpopulation, vi skal estimere denne effekt inden for en prøve af individer trukket fra denne population. Hvis prøven er et sandt tilfældigt valg fra befolkningen, så siger vi, at det er repræsentativt. Ofte vælges prøver imidlertid af bekvemmelighed, eller fordi risikofaktoren eller resultatet kun måles i bestemte grupper (f. eks. COVID-19 sygdomsstatus observeres kun for personer, der har modtaget en test). Desuden kan personer, der opfordres til at deltage i en prøve, nægte eller efterfølgende droppe ud. Hvis karakteristika relateret til prøveinddragelse også vedrører risikofaktoren og resultatet af interesse, introducerer dette muligheden for collider bias i vores Analyse.
Collider bias forekommer ikke kun ved prøveudtagningspunktet. Det kan også introduceres ved hjælp af statistiske modelleringsvalg. For eksempel,om det er hensigtsmæssigt at justere for kovariater i observationsforeninger afhænger af,hvor kovariaterne sidder på årsagsvejen og deres rolle i datagenereringsprocessen18,19, 20, 21. Hvis vi antager, at et givet kovariat påvirker både den hypotetiske risikofaktor og resultatet (en forvirrer), er det passende at konditionere det kovariat for at fjerne bias induceret af den forvirrende struktur. Men hvis kovariatet er en konsekvens af en eller begge eksponeringen og resultatet (en collider) snarere end en almindelig årsag (en forvirrer), kan konditionering på kovariatet inducere snarere end reducere bias22, 23, 24. Det vil sige, collider bias kan også introduceres, når der foretages statistiske justeringer for variabler, der ligger på årsagsvejen mellem risikofaktor og resultat. A priori viden om den underliggende årsagsstruktur af variabler, og om de fungerer som en fælles årsag eller fælles konsekvens af risikofaktor og resultat i datagenereringsprocessen, kan være svært at udlede. Derfor er det hensigtsmæssigt at behandle collider bias med et lignende niveau af forsigtighed til confounding bias. Vi behandler måder at gøre det senere i dette papir (“metoder til at detektere og minimere virkningerne af collider bias”).
der er flere måder, hvorpå data indsamles på COVID-19, Der kan introducere utilsigtet konditionering i den valgte prøve. Karakteristika for de rekrutterede deltagere er relateret til en række faktorer, herunder politiske beslutninger, omkostningsbegrænsninger, teknologisk adgang og testmetoder. Det er også almindeligt anerkendt, at den sande forekomst af sygdommen i befolkningen forbliver ukendt25. Her beskriver vi formerne for dataindsamling for COVID-19, inden vi beskriver omstændighederne omkring COVID-19, der gør dens analyse modtagelig for collider bias.
COVID – 19 prøveudtagningsstrategier og definitioner af sag/kontrol
prøveudtagning betinget af frivillig deltagelse (Sagsdefinition: sandsynlig COVID-19, Kontroldefinition: frivillig deltager rapporterer ikke COVID-19 symptomer, Fig. 2a): sandsynlig COVID-19-status kan bestemmes gennem undersøgelser, der kræver frivillig deltagelse. Disse kan for eksempel omfatte undersøgelser foretaget af eksisterende kohorte-og longitudinale undersøgelser26, 27, dataforbindelse til administrative poster,der er tilgængelige i nogle kohortestudier, såsom UK Biobank28, eller mobiltelefonbaserede appprogrammer29,30. Deltagelse i videnskabelige undersøgelser har vist sig at være stærkt ikke-tilfældig (f. eks. deltagerne er uforholdsmæssigt tilbøjelige til at være højtuddannede, sundhedsbevidste og ikke-rygere), så de frivillige i disse prøver vil sandsynligvis afvige væsentligt fra målpopulationen31, 32,33. Se rubrik 2 og Fig. 3 for en vignet om, hvordan en undersøgelse30 udforskede collider bias i denne sammenhæng.
Prøveudvælgelsestryk for COVID-19-undersøgelser
vi kan stratificere prøveudtagningsstrategierne ovenfor i tre primære prøveudtagningsrammer. Den første af disse rammer er prøveudtagning baseret på frivillig deltagelse, hvilket i sagens natur ikke er tilfældigt på grund af de faktorer, der påvirker deltagelse. Den anden af disse er prøveudtagningsrammer ved hjælp af COVID-19 testresultater. Med få bemærkelsesværdige undtagelser (f.eks. 3,34), populationstest for COVID-19 udføres generelt ikke i tilfældige prøver. Den tredje af disse rammer er prøveudtagning baseret på indlagte patienter, med eller uden COVID-19. Dette er igen, nødvendigvis ikke tilfældigt, da det forudsætter hospitalsindlæggelse.
rubrik 3 og Fig. 3 illustrer bredden af faktorer, der kan inducere prøveudvælgelsestryk. Mens nogle af de faktorer, der påvirker prøveudtagningsprocesserne, kan være almindelige på tværs af alle former for prøveudtagning, der er anført ovenfor, vil nogle være tilstandsspecifikke. Disse faktorer vil sandsynligvis variere i, hvordan de fungerer på tværs af nationale sammenhænge og sundhedsvæsenets sammenhænge. Her viser vi en række mulige udvælgelsestryk, og hvordan de påvirker forskellige COVID-19-prøveudtagningsrammer. Vi beskriver også sag identifikation / definition og detaljer, hvordan de kan bias inferens hvis venstre uudforsket.
symptom sværhedsgrad: Dette vil tænkes skævt alle tre store prøveudtagningsrammer, selvom det mest enkelt forstås i forbindelse med test. Flere lande vedtog strategien om at tilbyde test overvejende til patienter, der oplever symptomer, der er alvorlige nok til at kræve lægehjælp, f.eks. hospitalsindlæggelse, som det var tilfældet i Storbritannien indtil udgangen af April 2020. Mange sande positive tilfælde i befolkningen forbliver derfor uopdagede og vil være mindre tilbøjelige til at indgå i prøven, hvis tilmelding er afhængig af teststatus. Høje frekvenser af asymptomatiske virusbærere eller tilfælde med den atypiske præsentation vil yderligere forværre dette problem.
Symptomgenkendelse: dette vil også bias alle tre prøveudtagningsrammer, da adgang til alle prøver er betinget af symptomgenkendelse. Relateret til, men adskilt fra symptomens sværhedsgrad, vil COVID-19-test variere baseret på symptomgenkendelse35. Hvis en person ikke genkender de korrekte symptomer eller anser deres symptomer for at være ikke-alvorlige, kan de simpelthen blive bedt om at selvisolere og ikke modtage en COVID-19-test. Enkeltpersoner vil vurdere deres symptom sværhedsgrad forskelligt; dem med sundhedsrelateret angst kan være mere tilbøjelige til at overrapportere symptomer, mens dem med mindre information om pandemien eller adgang til sundhedsrådgivning kan være underrepræsenteret. Dette vil funktionelt fungere som en differentieret sats på falske negativer på tværs af individer baseret på symptomgenkendelse, hvilket kan være en konsekvens af at give de høje estimater af asymptomatiske tilfælde og transmission36. Ændring af symptomretningslinjer vil sandsynligvis forværre dette problem,hvilket kan fremkalde systematiske forhold mellem symptompræsentation og test35, 37. Her kan grupper med lavere bevidsthed (for eksempel på grund af utilstrækkelige offentlige meddelelser eller sprogbarrierer) have højere tærskler for at blive testet, og derfor ser de, der tester positive, ud til at have større risiko for alvorlige COVID-19-resultater.
beskæftigelse: eksponering for COVID-19 er mønstret med hensyn til besættelse. I mange lande er frontlinjens sundhedspersonale langt mere tilbøjelige til at blive testet for COVID-19 end den generelle befolkning5,38 på grund af deres nærhed til virussen og de potentielle konsekvenser af infektionsrelateret transmission39. Som sådan vil de være stærkt overrepræsenteret i prøver betinget af teststatus. Andre nøglearbejdere kan have høj risiko for infektion på grund af et stort antal kontakter i forhold til ikke-nøglearbejdere, og kan derfor være overrepræsenteret i prøver betinget af positiv teststatus eller COVID-relateret død. Eventuelle faktorer relateret til disse erhverv (f. eks. etnicitet, socioøkonomisk stilling, alder og baseline sundhed) vil derfor også være forbundet med stikprøveudvælgelse. Figur 2b illustrerer et eksempel, hvor den hypotetiske risikofaktor (rygning) ikke behøver at påvirke stikprøveudvælgelsen (indlagte patienter) kausalt, det kan simpelthen være forbundet på grund af forvirring mellem risikofaktoren og stikprøveudvælgelsen (at være sundhedsarbejder).
etnicitet: etniske minoriteter er også mere tilbøjelige til at blive inficeret med COVID-1940. Negative COVID-19-resultater er betydeligt værre for personer med nogle etniske minoriteter41. Dette kan tænkes at påvirke estimerede foreninger inden for prøveudtagningsrammer baseret på indlagte patienter, som i mange lande, etniske minoritetsgrupper er overrepræsenteret, da Etniske uligheder i sundhed er gennemgribende og veldokumenteret. Desuden er etniske minoritetsgrupper mere tilbøjelige til at være nøglearbejdere, der er mere tilbøjelige til at blive udsat for COVID-1942. Kulturmiljø (herunder systemisk racisme) og sprogbarrierer kan have negativ indflydelse på adgang til studier, både baseret på test og frivillig deltagelse43. Etniske minoritetsgrupper kan være vanskeligere at rekruttere til studier, selv inden for et givet område44, og kan påvirke stikprøvens repræsentativitet. Etniske minoriteter var mindre tilbøjelige til at rapportere, at de blev testet i vores Analyse af de britiske Biobankdata, hvor en af de stærkeste faktorer forbundet med at blive testet var den første genetiske hovedkomponent, som er en markør for herkomst (boks 3). Dette kunne således præsentere som ovenfor, hvor etniske minoriteters præsentation for medicinsk behandling er betinget af mere alvorlige symptomer.
svaghed: Defineret her som større modtagelighed for ugunstige COVID-19-resultater, er skrøbelighed mere tilbøjelige til at være til stede i visse grupper af befolkningen, såsom ældre voksne i langvarig pleje eller assisteret opholdsfaciliteter, dem med allerede eksisterende medicinske tilstande, overvægtige grupper og rygere. Disse faktorer vil sandsynligvis stærkt forudsige hospitalsindlæggelse. Samtidig har COVID-19-infektion og sværhedsgrad sandsynligvis indflydelse på indlæggelsen8,9,10,45, hvilket betyder, at undersøgelse af disse faktorer hos indlagte patienter kan inducere collider bias. Derudover kan grupper behandles forskelligt med hensyn til rapportering om COVID-19 i forskellige lande46. For eksempel kan tidlige rapporter om dødsfald “på grund af COVID-19″ i Storbritannien være blevet sammenflettet med dødsfald”, mens de er inficeret med COVID-19″47. Personer med høj risiko er mere tilbøjelige til at blive testet generelt, men specifik demografi med høj risiko, såsom dem i langtidspleje eller assisteret opholdsfaciliteter, har været mindre tilbøjelige til at blive udtaget af mange undersøgelser46. Svaghed forudsiger også hospitalsindlæggelse forskelligt på tværs af forskellige grupper, for eksempel kan en ældre person med meget alvorlige COVID-19-symptomer i en assisteret boligfacilitet muligvis ikke føres til hospitalet, hvor en yngre person ville48.
bopæl og social tilknytning: der findes sandsynligvis en række mere distale eller indirekte påvirkninger på stikprøveudvælgelse. Mennesker med bedre adgang til sundhedsydelser kan være mere tilbøjelige til at blive testet end dem med dårligere adgang. Dem i områder med et større antal medicinske tjenester eller bedre offentlig transport kan finde det lettere at få adgang til tjenester til test, mens de i områder med mindre adgang til medicinske tjenester kan være mere tilbøjelige til at blive testet49. Mennesker, der bor i områder med stærkere rumlige eller sociale bånd til eksisterende udbrud, kan også være mere tilbøjelige til at blive testet på grund af øget medicinsk årvågenhed i disse områder. Familie-og samfundsstøttenetværk vil sandsynligvis også påvirke adgangen til lægehjælp, f.eks. kan personer med omsorgsansvar og svage støttenetværk være mindre i stand til at søge lægehjælp 50. Connectedness er måske mest sandsynligt at bias test sampling rammer, som test er betinget af bevidsthed og adgang. Det kan dog også bias alle tre store prøveudtagningsrammer gennem en lignende mekanisme som symptomgenkendelse.
internetadgang og teknologisk engagement: Dette vil primært bias frivillig rekruttering via apps, selvom det også kan være forbundet med øget bevidsthed og bias-test via symptomgenkendelsesvejen. Prøverekruttering via internetapplikationer er kendt for at underrepræsentere visse grupper32, 51. Desuden varierer dette efter prøveudtagningsdesign, hvor frivillige eller “pull-in” dataindsamlingsmetoder har vist sig at producere mere engagerede, men mindre repræsentative prøver end reklamebaserede eller “push-out” metoder33. Disse mere engagerede grupper har sandsynligvis større adgang til elektroniske metoder til dataindsamling og større engagement i sociale mediekampagner, der er designet til at rekruttere deltagere. Som sådan er yngre mennesker mere tilbøjelige til at være overrepræsenteret i app-baserede frivillige deltagelsesundersøgelser29.
medicinsk og videnskabelig interesse: undersøgelser, der rekrutterer frivillige prøver, kan være partiske, da de sandsynligvis vil indeholde en uforholdsmæssig stor mængde mennesker, der har en stærk medicinsk eller videnskabelig interesse. Det er sandsynligt, at disse mennesker selv vil have større sundhedsbevidsthed, sundere adfærd, være mere uddannede og have højere indkomster31,52.
mange af de faktorer, der skal testes eller medtages i datasæt, der er beskrevet her, fremgår af analysen af de britiske Biobank-testdata (boks 3). Nøglebudskabet er, at når prøverekruttering ikke er tilfældig, er der en utrolig bred vifte af måder, hvorpå denne ikke-tilfældighed kan underminere undersøgelsesresultater.
metoder til påvisning og minimering af virkningerne af collider bias
i dette afsnit beskriver vi metoder til enten at adressere collider bias eller evaluere resultaternes følsomhed over for collider bias. Som med forvirrende bias er det generelt ikke muligt at bevise, at nogen af metoderne har overvundet collider bias. Derfor er følsomhedsanalyser afgørende for at undersøge robustheden af konklusioner til plausible selektionsmekanismer18,19.
en simpel, beskrivende teknik til evaluering af sandsynligheden og omfanget af collider bias induceret ved prøveudvælgelse er at sammenligne midler, afvigelser og fordelinger af variabler i prøven med dem i målpopulationen (eller en repræsentativ prøve af målpopulationen)16. Dette giver information om profilen for personer, der er valgt i prøven fra målpopulationen af interesse, såsom om de har tendens til at være ældre eller mere tilbøjelige til at have comorbiditeter. Det er især værdifuldt at rapportere disse sammenligninger for nøglevariabler i analysen, såsom den hypotetiske risikofaktor og resultat, og andre variabler relateret til disse. Med hensyn til analysen af COVID-19 sygdomsrisiko er en stor hindring for denne bestræbelse, at den faktiske forekomst af infektion i den generelle befolkning i de fleste tilfælde er ukendt. Selv om det er opmuntrende, hvis stikprøvestimaterne matcher deres ækvivalenter på befolkningsniveau, er det vigtigt at erkende, at dette ikke endeligt beviser fraværet af collider bias53. Dette skyldes, at faktorer, der påvirker udvælgelsen, kan måles i undersøgelsen, eller faktorer interagerer for at påvirke udvælgelsen og blive uopdaget, når man sammenligner marginale fordelinger.
hver metodes anvendelighed afhænger afgørende af de data, der er tilgængelige for ikke-deltagere. Disse metoder kan stort set opdeles i to kategorier baseret på de tilgængelige data: indlejrede og ikke-indlejrede prøver. En indlejret prøve henviser til situationen, når nøglevariabler kun måles inden for en delmængde af en ellers repræsentativ “superprøve”, hvilket tvinger analysen til at være begrænset til denne underprøve. Et eksempel tæt på denne definition er underprøven af personer, der har modtaget en COVID-19-test indlejret i den britiske Biobank-kohorte (selvom det er klart, at den britiske Biobank-kohorte i sig selv ikke er tilfældigt prøvet16). For indlejrede prøver kan forskere drage fordel af de tilgængelige data i den repræsentative superprøve. En ikke-indlejret prøve henviser til situationen, når data kun er tilgængelige i en ikke-repræsentativ prøve. Et eksempel på dette er prøver af indlagte personer, hvor der ikke findes data om ikke-indlagte personer. Det er typisk mere udfordrende at adressere collider bias i ikke-indlejrede prøver. En guidet analyse, der illustrerer begge typer følsomhedsanalyser ved hjælp af britiske Biobankdata om COVID-19-test, er præsenteret i supplerende Note 1.
indlejrede prøver: omvendt sandsynlighedsvægtning er en kraftfuld og fleksibel tilgang til justering for collider bias i indlejrede prøver54,55. Risikofaktorens årsagseffekt på resultatet estimeres ved hjælp af vægtet regression, således at deltagere, der er overrepræsenteret i delprøven, er nedvægtet, og deltagere, der er underrepræsenteret, er opvægtet. I praksis konstruerer vi disse vægte ved at estimere sandsynligheden for, at forskellige individer udvælges i prøven fra den repræsentative superprøve baseret på deres målte kovariater56. For eksempel kunne vi bruge data fra den fulde Britiske Biobankprøve til at estimere sandsynligheden for, at enkeltpersoner modtager en test for COVID-19 og bruge disse vægte i analyser, der skal begrænses til underprøven af testede individer (f.eks. identificering af risikofaktorer til test af positive). Sømand og hvid giver en detaljeret oversigt over de praktiske overvejelser og antagelser for omvendt sandsynlighedsvægtning, såsom korrekt specifikation af “prøveudvælgelsesmodellen” (en statistisk model for forholdet mellem målte kovariater og udvælgelse i prøven, der bruges til at konstruere disse vægte), variabel udvælgelse og tilgange til håndtering af ustabile vægte (dvs.vægte, der er nul eller næsten nul).
en yderligere antagelse for omvendt sandsynlighedsvægtning er, at hver enkelt person i målpopulationen skal have en ikke-nul sandsynlighed for at blive valgt i prøven. Hverken denne antagelse eller antagelsen om, at udvælgelsesmodellen er korrekt specificeret, kan testes ved hjælp af de observerede data alene. En konceptuelt relateret tilgang, ved hjælp af tilbøjelighed score matching, bruges undertiden til at undgå indeks begivenhed bias57,58. Der findes også følsomhedsanalyser til forkert specifikation af sandsynlighedsvægte. For eksempel et al. udvikle en følsomhedsanalyse for, i hvilken grad estimerede sandsynlighedsvægte adskiller sig fra de sande ikke-observerede vægte59. Denne tilgang er især nyttig, når vi kan estimere sandsynlighedsvægte inklusive nogle, men ikke nødvendigvis alle, af de relevante forudsigere for inkludering af prøver. For eksempel kunne vi estimere vægte for sandsynligheden for at modtage en COVID-19-test blandt britiske Biobank-deltagere, men vi mangler vigtige forudsigere såsom symptompræsentation og målinger af sundhedssøgende adfærd.
ikke-indlejrede prøver: Kun data om deltagere, der blev testet for COVID-19), er det ikke muligt at estimere udvælgelsesmodellen direkte, da ikke-udvalgte (uprøvede) individer ikke er observeret. I stedet er det vigtigt at anvende følsomhedsanalyser for at vurdere sandsynligheden for, at prøveudvælgelse inducerer collider bias.
grænser og parametersøgninger: Det er muligt at udlede omfanget af collider bias givet viden om den sandsynlige størrelse og retning af påvirkninger af risikofaktor og resultat ved stikprøveudvælgelse (hvad enten disse er direkte eller via andre faktorer)19,60,61. Denne tilgang afhænger dog af, at størrelsen og retningen er korrekt, og at der ikke er andre faktorer, der påvirker udvælgelsen. Det er derfor vigtigt at undersøge forskellige mulige prøveudvælgelsesmekanismer og undersøge deres indvirkning på undersøgelsens konklusioner. Vi oprettede en simpel internetapplikation styret af disse antagelser for at give forskere mulighed for at udforske enkle udvælgelsesmønstre, der ville være nødvendige for at fremkalde en observationsforening: http://apps.mrcieu.ac.uk/ascrtain/. I Fig. 4 Vi bruger en nylig rapport om en beskyttende sammenslutning af rygning på COVID-19 infektion45 for at undersøge størrelsen af collider bias, der kan induceres på grund af valgt prøveudtagning under nulhypotesen om ingen årsagseffekt.
flere andre tilgange er også blevet implementeret i praktiske online-apps (“Appendiks”). En følsomhedsanalyse, der gør det muligt for forskere at binde deres estimater ved at specificere følsomhedsparametre, der repræsenterer styrken af prøveudvælgelse (med hensyn til relative risikoforhold). De giver også en “E-værdi”, som er den mindste størrelse af disse parametre, der ville forklare væk en observeret association62. En følsomhedsanalyse for prøvegennemsnit baseret på omvendt sandsynlighedsvægtning i ikke-indlejrede prøver, hvor vægtene ikke kan estimeres, men antages at være afgrænset mellem to forskerspecificerede værdier63. Dette arbejde er blevet generaliseret til regressionsmodeller, hvilket også gør det muligt at inkorporere relevant ekstern information om målpopulationen (f.eks. sammenfattende statistik fra folketællingen) 64. Disse følsomhedsanalysemetoder giver forskere mulighed for at undersøge, om der er troværdige colliderstrukturer, der kan forklare observationsforeninger. De repræsenterer dog ikke et udtømmende sæt modeller, der kan give anledning til bias, og de beviser heller ikke nødvendigvis, om collider bias påvirker resultaterne. Hvis risikofaktoren for udvælgelse i sig selv er resultatet af yderligere opstrømsårsager, er det vigtigt, at virkningen af disse opstrøms selektionseffekter overvejes (dvs.ikke kun hvordan risikofaktoren påvirker udvælgelsen, men også hvordan årsagerne til risikofaktoren og/eller årsagerne til resultatet påvirker udvælgelsen, f. eks. Fig. 2b). Mens disse opstrøms årsager individuelt kan have en lille effekt på udvælgelsen, er det muligt, at mange faktorer med individuelt små effekter i fællesskab kan have en stor selektionseffekt og introducere collider bias65.
negative kontrolanalyser: hvis der er faktorer målt i den valgte prøve, der vides ikke at have nogen indflydelse på resultatet,kan test af disse faktorer for tilknytning til resultatet i den valgte prøve tjene som en negativ kontrol66, 67. I kraft skal negative kontrolforeninger være null, og de er derfor nyttige som et redskab til at fremlægge bevis til støtte for udvælgelse. Hvis vi observerer foreninger med større størrelser end forventet,indikerer dette, at prøven er valgt på både den negative kontrol og resultatet af interesse68, 69.
korrelationsanalyser: konceptuelt svarende til den negative kontrolmetode ovenfor, når en prøve er valgt, bliver alle de funktioner, der påvirkede udvælgelsen, korreleret i prøven (bortset fra det meget usandsynlige tilfælde, der forårsager, er perfekt multiplikative). Test for korrelationer mellem hypotetiske risikofaktorer, hvor det forventes, at der ikke bør være noget forhold, kan indikere tilstedeværelsen og størrelsen af prøveudtagningsudvælgelsen og derfor sandsynligheden for, at collider-bias fordrejer den primære analyse70.
implikationer
størstedelen af videnskabelig dokumentation, der informerer om politik og klinisk beslutningstagning under COVID-19-pandemien, er kommet fra observationsundersøgelser71. Vi har illustreret, hvordan disse observationsstudier er særligt modtagelige for ikke-tilfældig prøveudtagning. Randomiserede kliniske forsøg vil give eksperimentel evidens for behandling, men eksperimentelle undersøgelser af infektion vil ikke være mulige af etiske grunde. Virkningen af collider bias på slutninger fra observationsstudier kan være betydelig, ikke kun for sygdomsoverførselsmodellering72,73, men også for årsagssammenhæng7 og forudsigelsesmodellering2.
mens der findes mange tilgange, der forsøger at forbedre problemet med collider bias, er de afhængige af ubeviselige antagelser. Det er vanskeligt at kende omfanget af stikprøveudvælgelsen, og selv om det var kendt, kan det ikke bevises, at det er blevet fuldt ud redegjort for ved nogen metode. Repræsentative befolkningsundersøgelser34 eller prøveudtagningsstrategier, der undgår problemerne med collider bias74, er presserende nødvendige for at levere pålidelige beviser. Resultater fra prøver, der sandsynligvis ikke er repræsentative for målpopulationen, bør behandles med forsigtighed af forskere og beslutningstagere.