Collider bias undergräver vår förståelse av COVID-19 sjukdomsrisk och svårighetsgrad
varför observationell COVID-19-forskning är särskilt mottaglig för collider bias
även om det utan tvekan är värdefullt kan observationsdataset vara något av en svart låda eftersom de föreningar som uppskattas inom dem kan bero på många olika mekanismer. Tänk på scenariot där vi vill uppskatta orsakseffekten av en riskfaktor som är generaliserbar för en bredare befolkning som Storbritannien (“målpopulationen”). Eftersom vi sällan observerar hela målpopulationen måste vi uppskatta denna effekt inom ett urval av individer som dras från denna population. Om provet är ett sant slumpmässigt urval från befolkningen, säger vi att det är representativt. Ofta väljs emellertid prover av bekvämlighet eller eftersom riskfaktorn eller resultatet endast mäts i vissa grupper (t. ex. COVID-19-sjukdomsstatus observeras endast för individer som har fått ett test). Dessutom kan personer som är inbjudna att delta i ett prov vägra eller därefter släppa ut. Om egenskaper relaterade till provinkludering också relaterar till riskfaktorn och resultatet av intresse, introducerar detta möjligheten till colliderbias i vår analys.
Collider bias förekommer inte bara vid provtagningspunkten. Det kan också introduceras genom statistiska modelleringsval. Till exempel,om det är lämpligt att justera för kovariater i observationsföreningar beror på var kovariaterna sitter på kausalvägen och deras roll i datagenereringsprocessen18,19,20, 21. Om vi antar att ett givet kovariat påverkar både den hypotetiska riskfaktorn och resultatet (en confounder), är det lämpligt att villkora på det kovariatet för att avlägsna bias som induceras av den förvirrande strukturen. Men om kovariatet är en följd av endera eller båda exponeringen och resultatet (en collider), snarare än en vanlig orsak (en confounder), kan konditionering på kovariatet inducera, snarare än att minska, bias22,23,24. Det vill säga colliderbias kan också introduceras när man gör statistiska justeringar för variabler som ligger på kausalvägen mellan riskfaktor och resultat. A priori kunskap om den underliggande kausala strukturen hos variabler och om de fungerar som en vanlig orsak eller vanlig konsekvens av riskfaktor och resultat i datagenereringsprocessen kan vara svårt att dra slutsatsen. Därför är det lämpligt att behandla collider bias med en liknande försiktighetsnivå som förvirrande bias. Vi tar upp sätt att göra det senare i detta dokument (“metoder för att upptäcka och minimera effekterna av collider bias”).
det finns flera sätt på vilka data samlas in på COVID-19 som kan införa oavsiktlig konditionering i det valda provet. Egenskaperna hos deltagare som rekryteras är relaterade till en rad faktorer, inklusive politiska beslut, kostnadsbegränsningar, teknisk åtkomst och testmetoder. Det är också allmänt erkänt att den verkliga förekomsten av sjukdomen i befolkningen fortfarande är okänd25. Här beskriver vi formerna för datainsamling för COVID-19 innan vi beskriver omständigheterna kring COVID-19 som gör dess analys mottaglig för kolliderförspänning.
COVID-19 provtagningsstrategier och fall / kontrolldefinitioner
provtagning villkorat av frivilligt deltagande (falldefinition: sannolik COVID-19, Kontrolldefinition: frivillig deltagare som inte rapporterar COVID-19-symtom, Fig. 2a): sannolik COVID-19-status kan bestämmas genom studier som kräver frivilligt deltagande. Dessa kan till exempel omfatta undersökningar utförda av befintliga kohort-och longitudinella studier26, 27, datalänkning till administrativa register som finns tillgängliga i vissa kohortstudier som UK Biobank28 eller mobiltelefonbaserade appprogram29,30. Deltagande i vetenskapliga studier har visat sig vara starkt icke-slumpmässigt (t. ex. deltagarna är oproportionerligt troliga att vara högutbildade, hälsomedvetna och icke-rökare), så volontärerna i dessa prover kommer sannolikt att skilja sig väsentligt från målbefolkningen31,32,33. Se ruta 2 och Fig. 3 för en vinjett om hur en studie30 utforskade collider bias i detta sammanhang.
Provvalstryck för COVID-19-studier
vi kan stratifiera provtagningsstrategierna ovan i tre primära provtagningsramar. Den första av dessa ramar är provtagning baserat på frivilligt deltagande, vilket i sig inte är slumpmässigt på grund av de faktorer som påverkar deltagandet. Den andra av dessa är provtagningsramar med hjälp av COVID-19-testresultat. Med få anmärkningsvärda undantag (t.ex. refs. 3,34), populationstestning för COVID-19 utförs vanligtvis inte i slumpmässiga prover. Den tredje av dessa ramar är provtagning baserat på sjukhuspatienter, med eller utan COVID-19. Detta är igen, nödvändigtvis icke-slumpmässigt eftersom det villkorar sjukhusinläggning.
Fält 3 och Fig. 3 illustrera bredden av faktorer som kan inducera provvalstryck. Medan vissa av de faktorer som påverkar provtagningsprocesserna kan vara vanliga i alla provtagningsmetoder som anges ovan, kommer vissa att vara lägesspecifika. Dessa faktorer kommer sannolikt att skilja sig åt i hur de fungerar över nationella och hälsovårdssystemsammanhang. Här listar vi en serie möjliga urvalstryck och hur de påverkar olika COVID-19-provtagningsramar. Vi beskriver också fallidentifiering / definition och beskriver hur de kan förspänna inferens om de lämnas outforskade.
symptom svårighetsgrad: Detta kommer att tänkas förspänna alla tre stora provtagningsramar, även om det helt enkelt förstås i samband med testning. Flera länder antog strategin att erbjuda tester främst till patienter som upplever symtom som är tillräckligt allvarliga för att kräva läkarvård, t.ex. sjukhusvistelse, som var fallet i Storbritannien fram till slutet av April 2020. Många sanna positiva fall i befolkningen kommer därför att förbli oupptäckta och kommer att vara mindre benägna att ingå i provet om anmälan är beroende av teststatus. Höga frekvenser av asymptomatiska virusbärare eller fall med den atypiska presentationen kommer ytterligare att förvärra denna fråga.
Symptomigenkänning: detta kommer också att förspänna alla tre provtagningsramar eftersom inträde i alla prover är villkorat av symptomigenkänning. Relaterat till men skiljer sig från symtomens svårighetsgrad varierar COVID-19-test baserat på symtomigenkänning35. Om en individ inte känner igen de korrekta symtomen eller anser att deras symtom är svåra kan de helt enkelt instrueras att självisolera och inte få ett COVID-19-test. Individer kommer att bedöma deras symtoms svårighetsgrad annorlunda; de med hälsorelaterad ångest kan vara mer benägna att överrapportera symtom, medan de med mindre information om pandemin eller tillgång till hälsorådgivning kan vara underrepresenterade. Detta kommer funktionellt att fungera som en differentiell frekvens av falskt negativa mellan individer baserat på symptomigenkänning, vilket kan vara en följd av att ge höga uppskattningar av asymptomatiska fall och överföring36. Att ändra symptomriktlinjer kommer sannolikt att förvärra detta problem, vilket kan inducera systematiska samband mellan symptompresentation och testning35,37. Här kan grupper med lägre medvetenhet (till exempel på grund av otillräckliga offentliga meddelanden eller språkbarriärer) ha högre trösklar för att testas, och därför verkar de som testar positivt ha större risk för allvarliga COVID-19-resultat.
ockupation: exponering för COVID-19 är mönstrad med avseende på ockupation. I många länder är det mycket mer troligt att vårdpersonal i frontlinjen testas för COVID-19 än den allmänna befolkningen5, 38 på grund av deras närhet till viruset och de potentiella konsekvenserna av infektionsrelaterad överföring39. Som sådan kommer de att vara starkt överrepresenterade i prover som är villkorade av teststatus. Andra nyckelarbetare kan ha hög risk för infektion på grund av ett stort antal kontakter i förhållande till icke-nyckelarbetare, och kan därför vara överrepresenterade i prover villkorade av positiv teststatus eller COVID-relaterad död. Eventuella faktorer relaterade till dessa yrken (t. ex. etnicitet, socioekonomisk ställning, ålder och baslinjehälsa) kommer därför också att associeras med urval. Figur 2B illustrerar ett exempel där den hypotetiska riskfaktorn (rökning) inte behöver påverka provvalet (inlagda patienter) kausalt, det kan helt enkelt associeras på grund av förvirring mellan riskfaktorn och provvalet (att vara vårdpersonal).
etnicitet: etniska minoriteter är också mer benägna att smittas med COVID-1940. Negativa COVID-19-resultat är betydligt sämre för individer med vissa etniska minoriteter41. Detta kan tänkas snedvrida uppskattade föreningar inom provtagningsramar baserade inom sjukhuspatienter, som i många länder är etniska minoritetsgrupper överrepresenterade eftersom Etniska ojämlikheter i hälsa är genomgripande och väl dokumenterade. Dessutom är etniska minoritetsgrupper mer benägna att vara nyckelarbetare, som är mer benägna att utsättas för COVID-1942. Kulturmiljö (inklusive systemisk rasism) och språkbarriärer kan påverka inträdet i studier negativt, både på grundval av tester och frivilligt deltagande43. Etniska minoritetsgrupper kan vara svårare att rekrytera till studier, även inom ett visst område44, och kan påverka urvalets representativitet. Etniska minoriteter var mindre benägna att rapportera att testas i vår analys av UK Biobank data, där en av de starkaste faktorerna i samband med att testas var den första genetiska huvudkomponenten, som är en markör för anor (ruta 3). Således kan detta framgå som ovan, med etniska minoriteters presentation för medicinsk vård som är villkorad av allvarligare symtom.
svaghet: Definieras här som större mottaglighet för negativa COVID-19-resultat, är det mer troligt att svaghet förekommer i vissa grupper av befolkningen, såsom äldre vuxna i långtidsvård eller hemtjänst, de med befintliga medicinska tillstånd, överviktiga grupper och rökare. Dessa faktorer kommer sannolikt att starkt förutsäga sjukhusvistelse. Samtidigt har COVID-19-infektion och svårighetsgrad sannolikt inflytande på sjukhus8,9,10,45, vilket innebär att undersöka dessa faktorer inom sjukhuspatienter kan inducera kolliderförspänning. Dessutom kan grupper behandlas olika när det gäller rapportering om COVID-19 i olika länder46. Till exempel i Storbritannien kan tidiga rapporter om dödsfall “på grund av COVID-19” ha sammanfogats med dödsfall “medan de smittats med COVID-19″47. Individer med hög risk är mer benägna att testas i allmänhet, men specifika demografier med hög risk, såsom de i långtidsvård eller vårdhem, har varit mindre benägna att samplas av många studier46. Svaghet förutspår också sjukhusvistelse differentiellt över olika grupper, till exempel kan en äldre person med mycket allvarliga COVID-19-symtom i en assisterad bostadsanläggning inte föras till sjukhus där en yngre person skulle48.
bostadsort och social koppling: ett antal mer distala eller indirekta influenser på urval av urval finns sannolikt. Människor med bättre tillgång till hälso-och sjukvårdstjänster kan vara mer benägna att testas än de med sämre tillgång. De i områden med ett större antal sjukvårdstjänster eller bättre kollektivtrafik kan ha lättare att få tillgång till tjänster för testning, medan de i områden med mindre tillgång till sjukvård kan vara mer benägna att testas49. Människor som bor i områden med starkare rumsliga eller sociala band till befintliga utbrott kan också vara mer benägna att testas på grund av ökad medicinsk vaksamhet i dessa områden. Familje-och samhällsstödnätverk kommer sannolikt också att påverka tillgången till medicinsk vård, till exempel kan de med omsorgsansvar och svaga stödnätverk vara mindre kapabla att söka medicinsk uppmärksamhet50. Connectedness är kanske mest sannolikt att förspänna provtagningsramar, eftersom testning är villkorad av medvetenhet och åtkomst. Det kan emellertid också förspänna alla tre stora provtagningsramar genom en liknande mekanism för symtomigenkänning.
Internetåtkomst och tekniskt engagemang: Detta kommer främst att leda till frivillig rekrytering via appar, även om det också kan associeras med ökad medvetenhet och biastestning via symptomigenkänningsvägen. Provrekrytering via internetapplikationer är känd för att underrepresentera vissa grupper32,51. Dessutom varierar detta beroende på provtagningsdesign, där frivilliga eller” indragbara “datainsamlingsmetoder har visat sig producera mer engagerade men mindre representativa prover än annonsbaserade eller” push out ” – metoder33. Dessa mer engagerade grupper har sannolikt större tillgång till elektroniska metoder för datainsamling och större engagemang i sociala mediekampanjer som är utformade för att rekrytera deltagare. Som sådan är yngre människor mer benägna att vara överrepresenterade i appbaserade frivilliga deltagandestudier29.
medicinskt och vetenskapligt intresse: studier som rekryterar frivilliga prover kan vara partiska eftersom de sannolikt kommer att innehålla en oproportionerlig mängd människor som har ett starkt medicinskt eller vetenskapligt intresse. Det är troligt att dessa människor själva kommer att ha större hälsomedvetenhet, hälsosammare beteende, vara mer utbildade och ha högre inkomster31, 52.
många av faktorerna för att testas eller inkluderas i datamängder som beskrivs här framgår av analysen av UK Biobank testdata (ruta 3). Det viktigaste budskapet är att när provrekrytering är icke-slumpmässig finns det ett otroligt brett spektrum av sätt på vilka den icke-slumpmässigheten kan undergräva studieresultaten.
metoder för att upptäcka och minimera effekterna av collider bias
i det här avsnittet beskriver vi metoder för att antingen ta itu med collider bias eller utvärdera känsligheten hos resultaten till collider bias. Som med förvirrande bias är det i allmänhet inte möjligt att bevisa att någon av metoderna har övervunnit kolliderförspänning. Känslighetsanalyser är därför avgörande för att undersöka robustheten i slutsatser till rimliga urvalsmekanismer18,19.
en enkel, beskrivande teknik för att utvärdera sannolikheten och omfattningen av colliderförspänning inducerad av urval är att jämföra medel, variationer och fördelningar av variabler i provet med de i målpopulationen (eller ett representativt urval av målpopulationen)16. Detta ger information om profilen för individer som valts ut i provet från målpopulationen av intresse, till exempel om de tenderar att vara äldre eller mer benägna att ha komorbiditeter. Det är särskilt värdefullt att rapportera dessa jämförelser för nyckelvariabler i analysen, såsom den hypotetiska riskfaktorn och resultatet, och andra variabler relaterade till dessa. När det gäller analysen av COVID-19-sjukdomsrisk är ett stort hinder för denna strävan att i de flesta fall den faktiska förekomsten av infektion i den allmänna befolkningen är okänd. Även om det är uppmuntrande om urvalsuppskattningarna matchar deras ekvivalenter på befolkningsnivå, är det viktigt att erkänna att detta inte definitivt bevisar frånvaron av kolliderbias53. Detta beror på att faktorer som påverkar urvalet kan mätas i studien, eller faktorer interagerar för att påverka urvalet och går oupptäckta när man jämför marginella fördelningar.
varje metods tillämplighet beror väsentligt på de data som finns tillgängliga för icke-deltagare. Dessa metoder kan i stort sett delas upp i två kategorier baserat på tillgängliga data: kapslade och icke-kapslade prover. Ett kapslat prov hänvisar till situationen när nyckelvariabler endast mäts inom en delmängd av ett annars representativt “superprov”, vilket tvingar analysen att begränsas till detta delprov. Ett exempel nära denna definition är delprovet av individer som har fått ett COVID-19-test kapslat i den brittiska Biobankkohorten (det är dock uppenbart att den brittiska Biobankkohorten i sig är icke-slumpmässigt provad16). För kapslade prover kan forskare dra nytta av de tillgängliga uppgifterna i det representativa superprovet. Ett icke-kapslat prov hänvisar till situationen när data endast är tillgängliga i ett icke-representativt prov. Ett exempel på detta är prover av inlagda individer, där inga data finns tillgängliga på icke-inlagda individer. Det är vanligtvis mer utmanande att ta itu med kolliderförspänning i icke-kapslade prover. En guidad analys som illustrerar båda typerna av känslighetsanalyser med hjälp av brittiska Biobankdata om COVID-19-testning presenteras i kompletterande anmärkning 1.
kapslade prover: Inverse Sannolikhet viktning är en kraftfull och flexibel metod för att justera för collider bias i kapslade prover54,55. Riskfaktorns kausala effekt på resultatet beräknas med hjälp av viktad regression, så att deltagare som är överrepresenterade i delprovet är nedvägda och deltagare som är underrepresenterade är uppvägda. I praktiken konstruerar vi dessa vikter genom att uppskatta sannolikheten för att olika individer väljs ut i provet från det representativa superprovet baserat på deras uppmätta kovariater56. Vi kan till exempel använda data från hela UK Biobank-provet för att uppskatta sannolikheten för att individer får ett test för COVID-19 och använda dessa vikter i analyser som måste begränsas till delprovet av testade individer (t.ex. identifiera riskfaktorer för att testa positivt). Seaman and White ger en detaljerad översikt över de praktiska övervägandena och antagandena för invers sannolikhetsviktning, såsom korrekt specifikation av “provvalsmodellen” (en statistisk modell av förhållandet mellan uppmätta kovariater och urval i provet, som används för att konstruera dessa vikter), variabelt urval och metoder för hantering av instabila vikter (dvs. vikter som är noll eller nära noll).
ett ytterligare antagande för invers sannolikhetsviktning är att varje individ i målpopulationen måste ha en icke-noll Sannolikhet för att väljas in i provet. Varken detta antagande eller antagandet att urvalsmodellen har specificerats korrekt kan testas med enbart de observerade uppgifterna. Ett konceptuellt relaterat tillvägagångssätt, med hjälp av matchning av benägenhetspoäng, används ibland för att undvika indexhändelsebias57,58. Det finns också känslighetsanalyser för felspecifikation av sannolikhetsvikter. Till exempel Zhao et al. utveckla en känslighetsanalys för i vilken grad uppskattade sannolikhetsvikter skiljer sig från de verkliga icke observerade vikterna59. Detta tillvägagångssätt är särskilt användbart när vi kan uppskatta sannolikhetsvikter inklusive några, men inte nödvändigtvis alla, av de relevanta prediktorerna för provinkludering. Vi kan till exempel uppskatta vikter för sannolikheten för att få ett COVID-19-test bland brittiska Biobankdeltagare, men vi saknar viktiga prediktorer som symptompresentation och mått på vårdsökande beteende.
icke-kapslade prover: När vi bara har data om studieprovet (t.ex. endast data om deltagare som testades för COVID-19) är det inte möjligt att uppskatta urvalsmodellen direkt eftersom icke-utvalda (otestade) individer inte observeras. Istället är det viktigt att tillämpa känslighetsanalyser för att bedöma rimligheten att urval av prov inducerar kolliderförspänning.
gränser och parametersökningar: Det är möjligt att dra slutsatsen om omfattningen av colliderförspänning med tanke på den troliga storleken och riktningen av påverkan av riskfaktor och resultat vid urval (oavsett om dessa är direkta eller via andra faktorer)19,60,61. Detta tillvägagångssätt beror dock på att storleken och riktningen är korrekt, och det finns inga andra faktorer som påverkar urvalet. Det är därför viktigt att undersöka olika möjliga urvalsmekanismer och undersöka deras inverkan på studiens slutsatser. Vi skapade en enkel webbapplikation styrd av dessa antaganden för att tillåta forskare att utforska enkla urvalsmönster som skulle krävas för att inducera en observationsförening: http://apps.mrcieu.ac.uk/ascrtain/. I Fig. 4 vi använder en ny rapport om en skyddande förening av rökning på COVID-19-infektion45 för att undersöka storleken på colliderförspänning som kan induceras på grund av vald provtagning, under nollhypotesen om ingen kausal effekt.
flera andra tillvägagångssätt har också implementerats i praktiska webbappar online (“bilaga”). Till exempel föreslog Smith och VanderWeele en känslighetsanalys som gör det möjligt för forskare att binda sina uppskattningar genom att specificera känslighetsparametrar som representerar styrkan i provvalet (i termer av relativa riskförhållanden). De ger också ett” E-värde”, vilket är den minsta storleken på dessa parametrar som skulle förklara bort en observerad förening62. Aronow och Lee föreslog en känslighetsanalys för provgenomsnitt baserat på invers sannolikhetsviktning i icke-kapslade prover där vikterna inte kan uppskattas men antas begränsas mellan två forskare specificerade värde63. Detta arbete har generaliserats till regressionsmodeller, vilket också gör det möjligt att integrera relevant extern information om målpopulationen (t.ex. sammanfattande statistik från folkräkningen) 64. Dessa känslighetsanalysmetoder tillåter forskare att undersöka om det finns trovärdiga kolliderstrukturer som kan förklara bort observationsföreningar. De representerar emellertid inte en uttömmande uppsättning modeller som kan ge upphov till bias, och de bevisar inte heller nödvändigtvis om colliderbias påverkar resultaten. Om riskfaktorn för urval i sig är resultatet av ytterligare uppströms orsaker är det viktigt att effekterna av dessa uppströms selektionseffekter beaktas (dvs. inte bara hur riskfaktorn påverkar urvalet utan också hur orsakerna till riskfaktorn och/eller orsakerna till utfallet påverkar urvalet, t.ex. Fig. 2b). Även om dessa uppströms orsaker individuellt kan ha en liten effekt på urvalet, är det möjligt att många faktorer med individuellt små effekter gemensamt kan ha en stor urvalseffekt och introducera collider bias65.
negativa kontrollanalyser: om det finns faktorer som mäts i det valda provet som är kända för att inte påverka resultatet, kan testning av dessa faktorer för associering med resultatet inom det valda provet fungera som en negativ kontroll66,67. I kraft bör negativa kontrollföreningar vara noll, och de är därför användbara som ett verktyg för att ge bevis till stöd för urvalet. Om vi observerar föreningar med större magnituder än förväntat indikerar detta att provet väljs på både den negativa kontrollen och resultatet av intresset68,69.
Korrelationsanalyser: konceptuellt liknar den negativa kontrollmetoden ovan, när ett prov väljs, blir alla funktioner som påverkat urvalet korrelerade i provet (förutom det mycket osannolika fallet att orsakerna är perfekt multiplikativa). Testning av korrelationer mellan hypotetiska riskfaktorer där det förväntas att det inte bör finnas något samband kan indikera närvaron och omfattningen av urvalet av provtagning och därmed sannolikheten för kolliderförspänning som snedvrider den primära analysen70.
konsekvenser
majoriteten av vetenskapliga bevis som informerar politik och kliniskt beslutsfattande under COVID-19-pandemin har kommit från observationsstudier71. Vi har illustrerat hur dessa observationsstudier är särskilt mottagliga för icke-slumpmässigt urval. Randomiserade kliniska prövningar kommer att ge experimentella bevis för behandling, men experimentella studier av infektion kommer inte att vara möjliga av etiska skäl. Effekten av kolliderförspänning på slutsatser från observationsstudier kan vara betydande, inte bara för modellering72,73, men också för orsakssamband7 och prediktionsmodellering2.
medan många tillvägagångssätt finns som försöker förbättra problemet med kolliderförspänning, förlitar de sig på obevisbara antaganden. Det är svårt att veta omfattningen av urval, och även om det var känt kan det inte bevisas att det helt har redovisats med någon metod. Representativa befolkningsundersökningar34 eller provtagningsstrategier som undviker problemen med collider bias74 krävs brådskande för att ge tillförlitliga bevis. Resultat från prover som sannolikt inte är representativa för målpopulationen bör behandlas med försiktighet av forskare och beslutsfattare.