Collider zaujatost podkopává naše pochopení toho, COVID-19 rizika onemocnění a závažnost

Proč observační COVID-19 výzkum je zvláště náchylné k collider zkreslení

i Když nesporně cenné, observační soubory dat může být něco jako black box, protože ten asociace odhaduje, v nich může být způsobeno mnoha různými mechanismy. Zvažte scénář, ve kterém chceme odhadnout kauzální účinek rizikový faktor, který je zobecnit na širší populaci, jako je spojené KRÁLOVSTVÍ (“cílové populace”). Protože jen zřídka pozorujeme plnou cílovou populaci, musíme tento účinek odhadnout ve vzorku jedinců odebraných z této populace. Pokud je vzorek skutečným náhodným výběrem z populace, pak říkáme, že je reprezentativní. Často se však vzorky vybírají z pohodlí nebo proto, že rizikový faktor nebo výsledek se měří pouze v určitých skupinách (např. Stav onemocnění COVID-19 je pozorován pouze u jedinců, kteří podstoupili test). Dále, jednotlivci pozvaní k účasti na vzorku mohou odmítnout nebo následně vypadnout. Pokud se charakteristiky související se zařazením vzorku vztahují také k rizikovému faktoru a výsledku zájmu, pak to v naší analýze zavádí možnost zkreslení srážek.

Collider bias se nevyskytuje pouze v místě odběru vzorků. Může být také zaveden statistickými možnostmi modelování. Například, zda je vhodné upravit pro proměnné v observační sdružení závisí na tom, kde proměnné sedět na příčinnou dráhy a jejich roli v generování dat process18,19,20,21. Pokud budeme předpokládat, že dané proměnnou ovlivňuje jak vyslovena hypotéza rizikovým faktorem a výsledek (confounder), je vhodné, aby podmínky na proměnnou odstranit zkreslení vyvolané matoucí strukturu. Nicméně, pokud kovariance je důsledkem jednoho nebo obou expozice a výsledek (urychlovač), spíše než společnou příčinu (confounder), pak je klimatizace na těchto proměnných může vyvolat, spíše než snížit, bias22,23,24. To znamená, že collider bias může být také zaveden při provádění statistických úprav proměnných, které leží na příčinné cestě mezi rizikovým faktorem a výsledkem. A priori znalost základní kauzální struktury proměnných a to, zda fungují jako společná příčina nebo společný důsledek rizikového faktoru a výsledku v procesu generování dat, může být obtížné odvodit. Proto je vhodné zacházet s předpojatostí collideru s podobnou mírou opatrnosti jako s matoucí předpojatostí. Způsoby, jak toho dosáhnout, se zabýváme později v tomto článku (“metody detekce a minimalizace účinků zkreslení collideru”).

existuje několik způsobů, jak se shromažďují údaje o COVID-19, které mohou ve vybraném vzorku zavést neúmyslné kondicionování. Charakteristiky přijatých účastníků souvisejí s řadou faktorů, včetně politických rozhodnutí, omezení nákladů, technologický přístup, a testovací metody. Je také všeobecně uznáváno, že skutečná prevalence onemocnění v populaci zůstává neznámá25. Zde popíšeme formy sběru dat pro COVID-19 než se začneme podrobně okolnosti COVID-19, které jeho analýza náchylné k collider zkreslení.

strategie odběru vzorků COVID-19 a definice případů/kontrol

vzorkování podmíněné dobrovolnou účastí (definice případů: pravděpodobný COVID-19, definice kontroly: dobrovolný účastník nehlásí příznaky COVID-19, obr. 2a): pravděpodobný stav COVID-19 lze určit studiemi, které vyžadují dobrovolnou účast. Ty mohou zahrnovat, například, průzkumy, prováděné stávající kohorty a podélné studies26,27, dat, vazba na správní záznamy k dispozici v některých kohortových studií, jako je velká BRITÁNIE Biobank28, nebo mobilní telefon na bázi aplikace programmes29,30. Ukázalo se, že účast na vědeckých studiích je silně nenáhodná (např. účastníci jsou nepřiměřeně pravděpodobně vysoce vzdělaní, zdraví uvědomělí a nekuřáci), takže dobrovolníci v těchto vzorcích se pravděpodobně podstatně liší od cílové populace31,32,33. Viz rámeček 2 a obr. 3 pro viněta o tom, jak jeden study30 prozkoumány collider zaujatost v této souvislosti.

obr. 3: Kvantil-Kvantil graf −log10 p-hodnoty pro faktory ovlivňující testován pro COVID-19 ve velké BRITÁNII Biobanky.
obrázek 3

osa x představuje očekává, že p-hodnota pro 2556 hypotéza testy a osa y představuje zjištěné p-hodnoty. Červená čára představuje očekávaný vztah podle nulové hypotézy bez asociací.

výběr Vzorku tlaky pro COVID-19 studie

můžeme stratifikovat strategie odběru vzorků výše do tří primárních vzorků rámů. Prvním z těchto rámců je vzorkování založené na dobrovolné účasti, která je ze své podstaty náhodná kvůli faktorům, které ovlivňují účast. Druhým z nich jsou odběrové snímky s využitím výsledků testování na COVID-19. Až na několik významných výjimek (např. 3,34), populační testování na COVID-19 se obecně neprovádí v náhodných vzorcích. Třetím z těchto rámců je odběr vzorků na základě hospitalizovaných pacientů, s COVIDEM-19 nebo bez něj. To je opět, nutně non-náhodné, jak to podmínky pro přijetí do nemocnice.

rámeček 3 a obr. 3 ilustrují šíři faktorů, které mohou vyvolat výběrový tlak vzorku. Zatímco některé z faktorů, které ovlivňují procesy odběru vzorků, mohou být běžné ve všech výše uvedených režimech odběru vzorků, některé budou specifické pro daný režim. Tyto faktory se pravděpodobně budou lišit v tom, jak fungují v kontextu národních a zdravotnických systémů. Zde uvádíme řadu možných výběrových tlaků a jejich dopad na různé vzorkovací rámce COVID-19. Jsme také popsán případ identifikace/definice a podrobně, jak mohou předsudky závěr, pokud vlevo neprozkoumané.

závažnost příznaků: To bude možná zaujatost všechny tři hlavní rámce odběru vzorků, i když je většinou jednoduše chápat v kontextu testování. Několik zemí přijalo strategii nabízí testy převážně pacienti zažívají příznaky natolik závažné, že vyžadují lékařskou péči, např. hospitalizaci, jako tomu bylo v BRITÁNII do konce dubna 2020. Mnoho skutečně pozitivních případů v populaci proto zůstane nezjištěno a bude méně pravděpodobné, že bude součástí vzorku, pokud bude zápis závislý na stavu testu. Vysoká míra asymptomatických nosičů virů nebo případů s atypickou prezentací tento problém dále zhorší.

Příznakem uznání: To bude také zaujatost všech tří vzorků rámy jako vstup do všech vzorků je podmíněna příznakem uznání. Související s, ale odlišnou od závažnosti symptomů, testování COVID-19 se bude lišit v závislosti na rozpoznání příznaků35. Pokud jednotlivec nerozpozná správné příznaky nebo považuje své příznaky za závažné,může být jednoduše poučen, aby se izoloval a nedostal test COVID-19. Jedinci, posoudí jejich závažnost symptomů jinak, zdraví-související s úzkostí, může být více pravděpodobné, že over-report příznaky, zatímco ty s méně informace o pandemii nebo přístup ke zdravotní poradenství může být nedostatečně zastoupeny. To bude funkčně působit jako diferenciální míra falešně negativů u jednotlivců na základě rozpoznávání symptomů, což by mohlo být důsledkem vysokých odhadů asymptomatických případů a přenosu36. Změna příznakem pokyny, je pravděpodobné, že sloučenina tohoto problému, které by mohlo vyvolat systematické vztahy mezi příznakem prezentace a testing35,37. Tady, skupiny s nižší povědomí (například z důvodu nedostatečné veřejné zprávy nebo jazykové bariéry) mohou mít vyšší limity pro získání testovány, a proto ti, kteří test pozitivní, bude se zdát, že větší riziko závažné COVID-19 výsledků.

zaměstnání: expozice COVID-19 je vzorována s ohledem na povolání. V mnoha zemích, frontline zdravotnických pracovníků jsou daleko více pravděpodobné, že být testovány na COVID-19 než obecné population5,38 vzhledem k jejich blízkosti viru a možných následků souvisejících s infekcí transmission39. Jako takový, budou silně nadměrně zastoupeny ve vzorcích podmíněných stavem zkoušky. Ostatní klíčoví pracovníci mohou být na vysoké riziko infekce z důvodu velkého počtu kontaktů, vzhledem k non-klíčových pracovníků, a proto může být nadměrně zastoupeny ve vzorcích podmíněno pozitivní stav testu nebo COVID-související úmrtí. Jakékoli faktory související s těmito povoláními (např. etnicita, socioekonomické postavení, věk a základní zdraví) bude proto také spojeno s výběrem vzorku. Obrázek 2b znázorňuje příklad, kdy je vyslovena hypotéza rizikový faktor (kouření) nemusí ovlivnit výběr vzorku (hospitalizovaných pacientů) kauzálně, mohlo by to být jednoduše spojeno důsledku matoucích mezi rizikovým faktorem a výběr vzorku (zdravotnického pracovníka).

Etnicita: etnické menšiny jsou také častěji infikovány COVID-1940. Nepříznivé výsledky COVID-19 jsou podstatně horší u jedinců některých etnických menšin41. To by teoreticky zkreslení odhadované sdružení v rámci odběru vzorků rámy se sídlem ve hospitalizovaných pacientů, stejně jako v mnoha zemích, etnické menšiny jsou zastoupeny jako etnické nerovnosti v oblasti zdraví jsou všudypřítomné a dobře zdokumentované. Kromě toho jsou skupiny etnických menšin s větší pravděpodobností klíčovými pracovníky, kteří jsou s větší pravděpodobností vystaveni COVID-1942. Kulturní prostředí (včetně systémového rasismu) a jazykové bariéry mohou negativně ovlivnit vstup do studia, a to jak na základě testování, tak dobrovolné účasti43. Skupiny etnických menšin mohou být obtížněji přijímány do studií, a to i v rámci dané oblasti44, a mohou ovlivnit reprezentativnost vzorku. Etnické menšiny byly méně pravděpodobné, že hlásit testovány v naší analýze UK Biobanky dat, kde jedním z nejsilnějších faktorů spojených s testována byla první genetická hlavní složkou, což je označení pro předky (Box 3). To by tedy mohlo představovat výše uvedené, přičemž prezentace etnických menšin k lékařské péči je podmíněna závažnějšími příznaky.

křehkost: Zde definovány jako větší náchylnost k nepříznivým COVID-19 výsledků, slabost je více pravděpodobné, že bude přítomen v některých skupin obyvatelstva, jako jsou starší lidé v dlouhodobé péči nebo je asistované žití v zařízení, těch, s pre-existující zdravotní podmínky, obézní skupiny, a kuřáci. Tyto faktory pravděpodobně silně předpovídají hospitalizaci. Ve stejné době, COVID-19 infekce a závažnosti mít pravděpodobně vliv na hospitalisation8,9,10,45, význam zkoumání těchto faktorů v rámci hospitalizovaných pacientů může vyvolat collider zkreslení. Kromě toho lze se skupinami zacházet odlišně, pokud jde o podávání zpráv o COVID-19 v různých zemích46. Například v BRITÁNII brzy zprávy o úmrtí “v důsledku COVID-19” může být zaměňován s úmrtí “když nakažený s COVID-19″47. Jedinci s vysokým rizikem jsou více pravděpodobné, že být testován v obecné, ale konkrétní demografické skupiny s vysokým rizikem, jako jsou ty, v dlouhodobé péči nebo je asistované žití v zařízení byly méně pravděpodobné, že budou odebrány vzorky mnoha studies46. Křehkost také předpovídá hospitalizaci odlišně napříč různými skupinami, například starší jedinec s velmi závažnými příznaky COVID-19 v zařízení asistovaného bydlení nemusí být převezen do nemocnice, kde by mladší jedinec zemřel.

místo pobytu a sociální propojení: pravděpodobně existuje řada distálních nebo nepřímých vlivů na výběr vzorku. Lidé s lepším přístupem ke zdravotnickým službám mohou být častěji testováni než lidé s horším přístupem. Ti v oblastech s větším počtem zdravotnických služeb nebo lepší veřejnou dopravou mohou mít snazší přístup ke službám pro testování, zatímco ti v oblastech s menším přístupem ke zdravotnickým službám mohou být s větší pravděpodobností testováni49. Lidé žijící v oblastech se silnějšími prostorovými nebo sociálními vazbami na stávající ohniska mohou být také častěji testováni kvůli zvýšené lékařské bdělosti v těchto oblastech. Rodinné a komunitní podpůrné sítě také pravděpodobně ovlivní přístup k lékařské péči, například ti, kteří mají pečovatelské povinnosti a slabé podpůrné sítě, mohou být méně schopni vyhledat lékařskou péči50. Propojenost pravděpodobně zkresluje testování vzorkovacích rámců, protože testování je podmíněno informovaností a přístupem. Může však také zkreslit všechny tři hlavní vzorkovací rámce podobným mechanismem jako rozpoznávání symptomů.

přístup k Internetu a technologické zapojení: To bude především zaujatost dobrovolného náboru prostřednictvím aplikací, i když může být také spojeno se zvýšeným informovaností a testováním zaujatosti prostřednictvím cesty rozpoznávání symptomů. Je známo, že nábor vzorků prostřednictvím internetových aplikací nedostatečně reprezentuje určité skupiny32, 51. Kromě toho, tento se liší tím, odběru vzorků, kde dobrovolné nebo “pull-in” metody sběru dat bylo prokázáno, že produkují více zapojeny, ale méně reprezentativní vzorky, než reklama nebo systémem “push-out” methods33. Tyto angažovanější skupiny mají pravděpodobně větší přístup k elektronickým metodám sběru dat, a větší zapojení do kampaní na sociálních médiích, které jsou určeny k náboru účastníků. Jako takový, mladší lidé jsou s větší pravděpodobností nadměrně zastoupeni ve studiích dobrovolné účasti založených na app29.

Lékařského a vědeckého zájmu: Studium nábor dobrovolných vzorky mohou být zkreslená, protože je pravděpodobné, že obsahují nepřiměřené množství lidí, kteří mají silný lékařské nebo vědeckého zájmu. Je pravděpodobné, že tito lidé sami budou mít větší zdravotní povědomí, zdravější chování,budou vzdělanější a budou mít vyšší příjmy.

Mnoho faktorů, pro testovány nebo jsou součástí datových souborů jsou zde popsány potvrzen v analýze UK Biobanky testovací data (Box 3). Klíčovým poselstvím je, že když nábor vzorků není náhodný, existuje neuvěřitelně široká škála způsobů, jak tato náhodnost může podkopat výsledky studie.

Metody pro zjišťování a minimalizace účinků collider zkreslení

V této části popíšeme metody adresu collider zaujatost nebo vyhodnocení citlivosti výsledků na urychlovači zkreslení. Stejně jako u matoucí zkreslení, obecně není možné prokázat, že některá z metod překonala zkreslení collideru. Analýzy citlivosti jsou proto zásadní při zkoumání robustnosti závěrů k věrohodným mechanismům výběru18, 19.

jednoduchý, popisný technika k vyhodnocení pravděpodobnosti a rozsahu collider zkreslení vyvolané výběr vzorku je porovnat znamená, rozptyly a rozdělení proměnných ve vzorku s těmi v cílové populaci (nebo reprezentativní vzorek z cílové populace)16. To poskytuje informace o profilu jedinců, vybraných do vzorku z cílové populace zájmu, jako je například, zda mají tendenci být starší nebo větší pravděpodobnost komorbidit. To je zvláště cenné pro zprávu těchto srovnání klíčových proměnných v analýze, jako je vyslovena hypotéza rizikovým faktorem a výsledek, a dalších proměnných souvisejících s těmito. Pokud jde o analýzu rizika onemocnění COVID-19, jednou z hlavních překážek tohoto úsilí je, že ve většině případů není skutečná prevalence infekce v běžné populaci známa. Zároveň je povzbudivé, pokud odhady vzorku odpovídaly jejich populace-úroveň ekvivalenty, je důležité si uvědomit, že to není s konečnou platností dokázat, že nejsou collider bias53. Je to proto, že faktory, které ovlivňují výběr by mohl být nezměřené ve studiu, nebo faktory vzájemně ovlivňují výběr a jít nezjištěný při porovnávání marginálních rozdělení.

použitelnost každé metody zásadně závisí na údajích, které jsou k dispozici na neúčastnících. Tyto metody lze obecně rozdělit do dvou kategorií na základě dostupných dat: vnořené a nevložené vzorky. Vnořený vzorek označuje situaci, kdy jsou klíčové proměnné měřeny pouze v podmnožině jinak reprezentativního “super vzorku”, což nutí analýzu omezit se na tento dílčí vzorek. Příkladem blízkým této definici je dílčí vzorek jednotlivců, kteří obdrželi test COVID-19 vnořený v kohortě Britské biobanky (i když je zřejmé, že kohorta Britské biobanky je sama o sobě náhodně vzorkována16). U vnořených vzorků mohou vědci využít data dostupná v reprezentativním super-vzorku. Nevložený vzorek označuje situaci, kdy jsou data k dispozici pouze v nereprezentativním vzorku. Příkladem toho jsou vzorky hospitalizovaných jedinců, u kterých nejsou k dispozici žádné údaje o hospitalizovaných osobách. Obvykle je náročnější řešit zkreslení srážek v nevložených vzorcích. Vedená analýza ilustrující oba typy analýz citlivosti pomocí údajů Britské biobanky o testování COVID-19 je uvedena v doplňkové poznámce 1.

vnořené vzorky: inverzní pravděpodobnostní vážení je výkonný a flexibilní přístup k úpravě zkreslení srážek ve vnořených vzorkech54, 55. Kauzální účinek rizikového faktoru na výsledek se odhaduje pomocí vážené regrese taková, že účastníci, kteří jsou zastoupeni v sub-vzorku jsou vážené a účastníci, kteří jsou nedostatečně zastoupeny jsou vážené. V praxi tyto váhy konstruujeme odhadem pravděpodobnosti výběru různých jedinců do vzorku z reprezentativního super-vzorku na základě jejich naměřených kovariátů56. Například, můžeme použít údaje z celé UK Biobanky vzorků pro odhad pravděpodobnosti osob užívajících test pro COVID-19 a používat tyto váhy v analýzách, které musí být omezeno sub-vzorku testovaných jedinců (např. identifikace rizikových faktorů pro testování pozitivní). Námořnické a Bílé poskytnout podrobný přehled o praktické úvahy a předpoklady pro inverzní pravděpodobnosti, vážení, jako správnou specifikaci “výběr vzorku model” (statistický model vztahu mezi měřenými proměnnými a výběr do vzorku, použitý pro vytvoření těchto závaží), variabilní výběr a přístupy pro manipulaci s nestabilní hmotností (tj. s hmotností, které jsou nulové nebo téměř nulové).

další předpoklad pro inverzní pravděpodobnosti se vážení, že každý jedinec v cílové populaci musí mít nenulovou pravděpodobnost, že bude vybrán do vzorku. Ani tento předpoklad, ani předpoklad, že výběrový model byl správně specifikován, nejsou testovatelné pouze pomocí pozorovaných dat. Koncepčně související přístup, pomocí shody skóre sklonu, se někdy používá, aby se zabránilo bias57 indexové události, 58. Existují také analýzy citlivosti pro chybnou specifikaci pravděpodobnostních vah. Například Zhao et al. vypracujte analýzu citlivosti pro míru, do jaké se odhadované váhy pravděpodobnosti liší od skutečných nepozorovaných váh59. Tento přístup je zvláště užitečný, když můžeme odhadnout váhy pravděpodobnosti včetně některých, ale ne nutně všech, příslušných prediktorů zahrnutí vzorku. Například bychom mohli odhadnout váhy pro pravděpodobnost získání COVID-19 test mezi UK Biobanky účastníků, nicméně nám chybí klíčové prediktory, jako jsou příznakem prezentace a opatření zdravotní péče-hledat chování.

nevložené vzorky: Když máme jen údaje o studii vzorku (např. jen údaje o účastnících, které byly testovány pro COVID-19) není možné odhadnout výběr modelu přímo od non-vybrané (nevyzkoušené) jedinci jsou nepozorovaně. Místo toho je důležité použít analýzy citlivosti k posouzení věrohodnosti, že výběr vzorku vyvolává zkreslení collideru.

hranice a vyhledávání parametrů: Je možné odvodit rozsah collider zaujatost vzhledem znalosti o pravděpodobné velikosti a směru vlivy rizikovým faktorem a výsledek na výběr vzorku (zda se jedná o přímou, nebo prostřednictvím jiných faktorů)19,60,61. Tento přístup však závisí na správné velikosti a směru a neexistují žádné další faktory ovlivňující výběr. Je proto důležité prozkoumat různé možné mechanismy výběru vzorků a prozkoumat jejich dopad na závěry studie. Vytvořili jsme jednoduchou webovou aplikaci, která se řídí těmito předpoklady, aby vědci mohli prozkoumat jednoduché vzorce výběru, které by byly nutné k vyvolání pozorovací asociace: http://apps.mrcieu.ac.uk/ascrtain/. Na Obr. 4 používáme nedávná zpráva ochranného svazu kouření na COVID-19 infection45 prozkoumat rozsah collider zkreslení, které může být vyvoláno v důsledku vybraných vzorků, pod nulovou hypotézu o žádné kauzální efekt.

obr. 4: Příklad z velké asociace vyvolané collider zkreslení pod nulovou hypotézu, žádný kauzální vztah, pomocí scénáře podobné těm, které uvádí pro pozorované ochranné sdružení kouření na COVID-19 infekce.
figure4

Předpokládejme, jednoduchý scénář, ve kterém byla vyslovena hypotéza expozice (S) a výstupem (Y) jsou oba binární a každé ovlivňují pravděpodobnost, že bude vybrán do vzorku (S), např. \(P(Y = 1|A,Y) = \beta _0 + \beta _A + \beta _Y + \beta _{AY}\), kde \(\beta _0\) je základní pravděpodobnost, že bude vybrán, \(\beta _A\) je efekt, \(\beta _Y\) je vliv Y a \(\beta _{AY}\) je vliv interakce mezi a a Y. výběr mechanismus je reprezentován na Obr. 1b (bez nakresleného termínu interakce). Tento graf ukazuje, které kombinace těchto parametrů by bylo zapotřebí navodit zjevné riziko efekt s velikostí NEBO > 2 (modrá oblast) nebo zdánlivý ochranný účinek s velikostí NEBO < 0.5 (červená oblast) podle nulové hypotézy bez příčinného účinku61. Chcete-li vytvořit zjednodušený scénář podobný tomu v Miyara et al. používáme obecné populaci prevalence kouření 0,27 a vzorek prevalence 0,05, tedy upevnění \(\beta _A\) 0.22. Protože prevalence COVID-19 není v běžné populaci známa, dovolujeme, aby byl vzorek nadměrně nebo nedostatečně reprezentativní (osa y). Umožňujeme také mírné interakční efekty. Výpočet přes tento parametr prostoru, 40% všechny možné kombinace vedlo k artefactual 2-násobný ochranný nebo riskovat sdružení působící přes tento jednoduchý model z podjatosti sám. Při zveřejňování pozorovacích odhadů je důležité tuto úroveň nejistoty zveřejnit.

několik dalších přístupů bylo také implementováno do pohodlných online webových aplikací (“Dodatek”). Například, Smith a VanderWeele navrhla analýzu citlivosti, která umožňuje výzkumníci vázán jejich odhadů stanovením citlivosti parametrů představující sílu výběru vzorku (z hlediska relativní riziko poměry). Poskytují také “E-hodnotu”, což je nejmenší velikost těchto parametrů, která by vysvětlila pozorovanou asociaci62. Aronow a Lee navrhl citlivostní analýzy pro vzorek průměry založené na inverzní pravděpodobnosti, vážení v non-vnořené vzorky, kde váha nemůže být stanovena, ale předpokládá se, že být sevřen mezi dvěma výzkumník-uvedeno values63. Tato práce byla zobecněné regresní modely, také umožňuje relevantní externí informace o cílové populaci (např. souhrnné statistické údaje ze sčítání lidu) incorporated64. Tyto přístupy analýzy citlivosti umožňují vědcům prozkoumat, zda existují důvěryhodné struktury srážek,které by mohly vysvětlit pozorovací asociace. Nepředstavují však vyčerpávající soubor modelů, které by mohly vést k zaujatosti, ani nutně neprokazují, zda zkreslení collideru ovlivňuje výsledky. Pokud je rizikovým faktorem pro výběr je sám o sobě výsledkem dále proti proudu způsobí, pak je důležité, aby dopad těchto upstream výběru účinky jsou považovány za (tj. nejen o tom, jak rizikový faktor ovlivňuje výběr, ale také, jak příčiny rizikového faktoru a/nebo příčiny výsledku ovlivnit výběr např. Obr. 2b). Zatímco tyto upstream příčiny mohou individuálně mají malý vliv na výběr, je možné, že spousta faktorů s individuálně malé účinky by mohly společně mají velký výběr efekt a zavést collider bias65.

Negativní kontrola analýz: Pokud tam jsou faktory měřené ve vybraném vzorku, které jsou známo, že nemají žádný vliv na výsledek, pak testování těchto faktorů pro sdružení s výsledkem v rámci vybraného vzorku může sloužit jako negativní control66,67. Na základě toho by asociace negativní kontroly měly být nulové, a proto jsou užitečné jako nástroj k poskytnutí důkazů na podporu výběru. Pokud pozorujeme sdružení s větší velikostí, než se očekávalo, pak to znamená, že vzorek je vybrán na obě negativní kontroly a výsledky interest68,69.

Korelační analýzy: Koncepčně podobné negativní kontroly přístupu výše, když vzorek je vybrán, všechny funkce, které ovlivnily výběr se stal v korelaci v rámci vzorku (s výjimkou vysoce nepravděpodobném případě, že příčiny jsou dokonale multiplikativní). Testování korelace mezi vyslovena hypotéza rizikových faktorů, kde očekává se, že tam by měla být žádný vztah, může indikovat přítomnost a velikost výběru, a proto pravděpodobnost, že urychlovač zkreslení zkreslení primární analysis70.

Důsledky

většina vědeckých důkazů informovat politiky a klinické rozhodování během COVID-19 pandemie pochází z observační studies71. Ilustrovali jsme, jak jsou tyto observační studie zvláště náchylné k náhodnému odběru vzorků. Randomizované klinické studie poskytnou experimentální důkazy pro léčbu, ale experimentální studie infekce nebudou možné z etických důvodů. Dopad collider zkreslení na závěry z výzkumných studií by mohl být značný, a to nejen pro onemocnění převodovka modelling72,73, ale také pro kauzální inference7 a predikce modelling2.

Zatímco mnoho přístupů existují, které se pokoušejí zmírnit problém collider zaujatost, oni se spoléhají na nedokazatelné předpoklady. Je obtížné zjistit rozsah výběru vzorku, a i kdyby to bylo známo, nelze prokázat, že byl plně zohledněn jakoukoli metodou. Reprezentativní průzkumy populace34 nebo strategie odběru vzorků, které se vyhýbají problémům s urychlovačem bias74, jsou naléhavě vyžadovány k poskytnutí spolehlivých důkazů. Výsledky ze vzorků, které pravděpodobně nejsou reprezentativní pro cílovou populaci, by měli vědci a tvůrci politik zacházet opatrně.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.