Confounders made simple

abstrakt: ne všechny kovariáty léčebných a výsledných proměnných v observační studii by měly být upraveny. Ve výchozím nastavení by člověk měl pochybovat o studiích, které se slepě přizpůsobují mnoha zmatkům, aniž by ospravedlňovaly jejich volbu z příčinných důvodů.

zřeknutí se odpovědnosti: moje znalost kauzálního závěru je natolik omezená, že bych mohl říkat věci, které jsou velmi špatné. Oslovte mě na Twitteru @jsevillamol, pokud najdete chybu!

Předpokládejme, že chcete určit příčinný účinek léčby na výsledek. První pořadí podnikání určuje, zda mezi nimi existuje statistická korelace.

i když stále náročné, máme dobré statistické nástroje k určení sítě statistické asociace mezi komplexní sady proměnných.

korelace však není příčinná-korelace může být způsobena zmatkem, příčinným předchůdcem léčby i výsledku.

léčba může být například kouření, výsledkem může být respirační onemocnění a věrohodným zmatkem je věk; lidé, kteří jsou starší, kouří častěji a jsou náchylnější k respiračním onemocněním.

můžeme ilustrovat tuto situaci s kauzální diagram:

Můžeme říci, že je odblokován backdoor cesta z léčby, aby výsledek přes věk, tj kouření <= age => respirační onemocnění.

v ideálním případě bychom chtěli spustit randomizovanou kontrolovanou studii (RCT), která náhodně přiřadí léčbu, abychom mohli odklonit zadní cestu.

randomizované kontrolované studie (RCT) a kouření studie

Ale to není vždy možné, například, léčba může být neetické, nebo budeme chtít vyvodit závěry z historických údajů. Co bychom měli dělat v těchto situacích?

Jak upravit pro confounders
Možné kauzální vztahy mezi léčba X, výsledek Y a veličinou Z
problém stupňů volnosti
pozor: budete ještě potřebovat dobré ovládání
co bychom tedy měli dělat?
Závěry

Jak upravit pro confounders

alternativní způsob, jak blokovat rušivé vliv confounder je nastavení, například prostřednictvím stratifikace. V příkladu kouření, můžeme rozdělit naše data u mladých a starých, studovat korelaci mezi kouřením a nemocí v každé skupině a poté nahlásit váženou korelaci jako odhad příčinného účinku.

To by dobře fungovat, pokud jsme přesvědčeni, že kovariance je opravdu confounder, nebo kauzální předka obou ošetření a výsledek — protože v každé studované skupiny confounder proměnná je pevná, již nemůže zprostředkovat rušivé vliv na léčbu a výsledek, a budeme moci, aby se tvrzení o skutečný kauzální účinek léčby.

takže kdykoli vědci identifikují proměnnou, která koreluje s léčbou i výsledkem, mají tendenci se jí přizpůsobit.

ale to není jediný možný příčinný vztah mezi těmito třemi proměnnými!

Možné kauzální vztahy mezi léčba X, výsledek Y a veličinou Z

To by se mohlo stát, že kovariance zprostředkovává interakce mezi léčbou a výsledkem. To znamená, že X => Z A Z => y.

například bychom mohli studovat vliv GMO plodin na zdraví spotřebitelů a zjistili jsme, že GMO jsou méně pravděpodobné, že budou infikovány patogenem. V takovém případě by přítomnost patogenu byla prostředníkem mezi GMO a zdravím spotřebitelů.

Všimněte si, že mediátor nemusí být jediným mechanismem, vysvětlující účinek — GMO může také změnit dietní profil plodiny nezávisle na efekt to má na patogeny.

V tomto případě, nastavení pro proměnnou Z, sníží zjevného účinku léčby X na výsledku Y, a naše zpráva bude zavádějící (pokud jsme byli konkrétně se snaží změřit izolovaně součástí léčby je účinek není zprostředkován veličinou).

třetí možností je, že kovariát je urychlovačem léčby a výsledku. To znamená, že X I Y způsobují Z. například bychom mohli mít, že vědci umělé inteligence i šachoví afitionáti rádi čtou vývoj automatizovaného hraní šachů.

úprava pro urychlovač zvýší zjevnou sílu účinku léčby ve výsledku.

V předchozím příkladu, pokud jsme průzkumu lidé, kteří četli automatické hraní šachů článku, můžeme zjistit, že šachy affitionates jsou méně pravděpodobné, že budou vědci AI a naopak — ale to by nemělo být překvapením, protože jsme filtrování z našeho průzkumu demografie lidé, kteří nejsou ani vědci AI ani šachy affitionaties.

takže pozor na nastavení pro mediátory a srážky!

jak nyní rozlišujeme mezi případy, kdy kovariát je matoucí z případů z případů, kdy je mediátorem nebo urychlovačem?

krátká odpověď: nemůžeme, alespoň ne z pouhého pozorování dat. Musíme se spoléhat na doménové specifické znalosti základních kauzálních vztahů.

když se jedná o více kovariátů, příběh se komplikuje. Museli bychom zmapovat celý kauzální graf mezi všemi kovariáty, léčbou a výsledkem a zdůvodnit naše kauzální mapování z vědeckých důvodů.

Pak můžeme použít pravidla-kalkul a zásady, jako je backdoor kritérium najít sadu proměnné upravit, aby blokovat rušivé korelace mezi léčbou a výsledkem tak můžeme odhadnout skutečný kauzální účinek.

obecně bych očekával, že čím více proměnných studie upraví, tím je pravděpodobnější, že zavádějí falešnou korelaci prostřednictvím urychlovače nebo blokují mediační cestu.

problém stupňů volnosti

samostatné silný důvod, proč bychom měli pochybovat o studie, které upravit na mnoho proměnných v bezcharakterní způsobem je přidání stupňů volnosti, jak provádět studii.

pokud změříte vztah mezi dvěma proměnnými 1000 různými způsoby a vyberete ten, který vykazuje největší korelaci, pravděpodobně přeceníte účinnost léčby.

mít větší sadu kovariables vám umožní upravit pro libovolnou podmnožinu, kterou chcete. Například pokud máte přístup k 10 kovariátům, můžete upravit pro kteroukoli z 2^10 1000 1000 možných podmnožin.

nemusí To být tak, že jednotlivé výzkumné skupiny se systematicky snaží všechny možné nastavení podskupin a vybírání nejlepší (i když zejména některé statistické metody dělají něco docela podobné — např. postupné nebo nejlepší podmnožinu metody selekce proměnných). Je možné, že různí vědci zkoušejí různé podmnožiny a mechanismus, který kombinuje jejich výsledky, je zaujatý.

například 100 výzkumných skupin může vyzkoušet 100 různých podmnožin. 95 z nich správně určit, že neexistuje žádný efekt, ale kvůli zkreslení nechtějí, aby jejich výsledky široce dostupné, zatímco 5 skupin, které mylně identifikován silný účinek jsou jediné, které se zveřejněn, vytváří dojem, že všechny provedené studie zjistila silný vliv tam, kde ve skutečnosti žádná není.

v souhrnu, pokud nechcete předběžně dodržovat principiální způsob provádění úprav ve vaší studii, je pravděpodobnější, že ve svých výsledcích zavedete zkreslení.

pozor: budete ještě potřebovat dobré ovládání

V tomto článku jsme se zaměřili na problém výběru příliš mnoho, nevhodné ovládání, protože to je intuice, že jsem viděl více lidí nedostatek, a to i mezi těmi, jinak dobře informovaný o aplikované statistiky.

Však mít na paměti, že můžete udělat opačnou chybu — můžete se nepodaří upravit pro příslušné zkreslující jevy — a nakonec konstatování, že spotřeba čokolády způsobuje nobelovy ceny.

Zejména s pozorování na komplexní jevy, pouze nastavení pro pár věcí, prakticky zaručuje, že se vynechá věci, které byste měli být nastavení pro — a může být buď nad nebo podhodnocení efektu.

související výzva spadá pod nadpis “zbytkové matoucí”. Dokonce i když jste identifikovat confounder a nastavit pro to, že bude stále ovlivňovat výsledky úměrně k tomu, jak přesně můžete změřit — samozřejmě měříme většina věcí nepřesně nebo v zastoupení.

takže shrnout ve větě: kontrola zmatků je klíčová, pokud chcete odvodit kauzální účinky z pozorovacích údajů.

co bychom tedy měli dělat?

Jako lakmusový papírek, být více nejisté, observačních studií, které upravit pro proměnné bez odůvodňuje jejich výběr, úpravu příčinné důvody.

Nicméně, některé studie nemají práci nezbytné odůvodnit jejich výběr zkreslující jevy, které nás nechává v mnohem horší pozici, získat spolehlivé údaje z jejich práce. Co můžeme v těchto případech dělat?

nejprve můžeme izolovaně prozkoumat každého z vybraných zmatků a přemýšlet o tom, jak se kauzálně chovají ve vztahu k léčbě a výsledku.

například, předpokládejme, že jsme přezkoumání studie účinku Smlouvy o Nešíření jaderných zbraní (X) na úrovni investic do jaderných zbraní (Y), a jsme zvědaví, zda by měly mít upraveny pro HDP (Z).

no, mohlo by se stát, že země s vyšším HDP jsou také vlivnější a formovaly smlouvu tak, aby pro ně byla prospěšná, takže Z => X. A v zemích s vyšším HDP mohou více investovat do jaderných zbraní, takže Z => Y. V tomto případě HDP by být confounder, a měli bychom upravit.

Ale mohli bychom to říct stejně přesvědčivý příběh argumentovat, že země, které smlouvu podepsat, je pravděpodobné, že bude vnímána jako více spolupracovat a získat lepší obchodní nabídky, takže X => Z. A země, které investují více o jaderné zbraně, mají lepší zabezpečení tak, že přilákat více investorů, takže Y => Z. v Rámci této interpretace HDP je urychlovač, a my bychom se neměli přizpůsobit.

Nebo bychom to mohli spojit dva předchozí scénáře tvrdit, že X=>Z a Z=>Y, takže HDP by být urychlovač a my bychom se neměli přizpůsobit.

V nepřítomnosti závažný důvod k odmítnutí alternativní vysvětlení, neměli bychom upravit pro HDP.

nicméně si představte, že studie se místo toho přizpůsobuje účasti na jiných jaderných dohodách. Zdá se být vymyšlené tvrdit, že účast na jiných smlouvách způsobila účast v NPT; oba se zdají být příměji způsobeny obecnou predispozicí země k podpisu jaderných smluv.

V tomto případě “predispozice k smlouvami” je confounder pro efekt NPT Jaderných investic, ale nemůžeme přímo pozorovat. Můžeme však zablokovat jeho falešný vliv úpravou “jiných jaderných smluv” podle kritéria backdoor.

co se stane, pokud se studie přizpůsobí jak GPD, tak účasti na dalších jaderných smlouvách?

ve výchozím nastavení bychom měli pochybovat o příčinné platnosti jejich závěru.

Můžeme použít tyto informace, aby se některé předpovědi (například, můžeme použít výsledky ze studie výše odhadnout, zda stát, že se chystá podepsat smlouvu, každopádně se chystá snížit své investice do jaderného arzenálu), ale nemůžeme doporučení léčby (například, nemůžeme tvrdit, že lobbování státní herce do přijmout NPT je efektivní způsob, jak se dostat ke snížení jejich arzenálu).

Pokud chceme pokusit zachránit jejich výsledky se můžeme pokusit budovy kauzální diagram příslušných proměnných a zvážení, pokud jejich výběr z let splňují příslušná kritéria.

Pokud nastavení proměnných vybrali neblokují správně rušivé efekty nebo zavést nové efekty přes urychlovači lhc, a máme přístup k datům, můžeme chtít vyzkoušet rerunning studie s lepší výběr nastavení proměnných.

ale samozřejmě můžeme stále identifikovat klíčové confoundery, které autoři nezahrnuli do datové sady. V tom případě doporučuji věnovat pozornost John Tukey slova:

“kombinace některých údajů a bolavá touha za odpověď nezaručuje, že rozumnou odpověď může být extrahována z daného subjektu údajů.”

Závěry

V tomto příspěvku jsme si vysvětlili tři typy kauzálních vztahů mezi kovariací a léčba-výsledek dvojice: zkreslující jevy, mediátorů a urychlovači. Viděli jsme, že odvodit příčinné efekty, které by měly upravit pro let, ale ne pro mediátora nebo urychlovači lhc.

Jsme argumentovali, že více proměnných observační studie se přizpůsobí, více pravděpodobné, že buď budou provedeny kauzální chyba, nebo že dodatečné stupně volnosti a publikační bias přehánět hlášeny efekt.

čtenáře jsme také varovali před opačnou chybou — pro transformaci pozorovacích dat na kauzální informace je zásadní principiální úprava zmatků.

jako způsob extrakce dat z předchozích studií jsme navrhli kriticky zkoumat jejich volbu úprav kovariátů na základě kauzálních kritérií. Pokud jsou nastavení pro nepotřebné proměnné, jsme navrhli opětovné spuštění analýzy, pokud jsou data k dispozici, vzhledem k tomu, že pokud klíč confounder chybí v datech bychom měli akceptovat, že někdy nebudeme mít dostatek informací, aby správně odpovědět na otázky, které jsme záleží.