Confounders made simple

rezumat: nu toate covariatele variabilelor de tratament și de rezultat într-un studiu observațional ar trebui ajustate pentru. În mod implicit, ar trebui să ne îndoim de studii care se adaptează orbește pentru mulți confuzi fără a justifica alegerea lor din motive cauzale.

DISCLAIMER: cunoștințele mele despre inferența cauzală sunt suficient de limitate încât aș putea spune lucruri care sunt foarte greșite. Ajunge la mine pe twitter @ jsevillamol dacă găsiți o greșeală!

să presupunem că doriți să determinați efectul cauzal al unui tratament asupra unui rezultat. Primul ordin de afaceri este de a determina dacă există o corelație statistică între ele.

deși încă provocatoare, avem instrumente statistice bune pentru a determina rețelele de asociere statistică între seturi complexe de variabile.

cu toate acestea, corelația nu este cauzalitate — o corelație ar putea fi cauzată de o confuzie, un antecedent cauzal atât al tratamentului, cât și al rezultatului.

de exemplu, tratamentul ar putea fi fumatul, rezultatul ar putea fi boala respiratorie, iar o confuzie plauzibilă este vârsta; persoanele care sunt mai în vârstă fumează mai des și sunt mai predispuse la boli respiratorii.

putem ilustra această situație cu o diagramă cauzală:

o diagramă cauzală pentru un studiu de fumat

spunem că există o cale de backdoor deblocată de la tratament la rezultat prin vârstă, adică Fumatul <= vârsta => boala respiratorie.

în mod ideal, am dori să rulăm un studiu randomizat controlat (RCT) care atribuie aleatoriu tratamentul, astfel încât să putem devia calea backdoor.

un studiu randomizat controlat (RCT) al unui studiu privind fumatul

dar acest lucru nu este întotdeauna posibil; de exemplu, tratamentul ar putea fi lipsit de etică sau poate dorim să tragem concluzii din datele istorice. Ce ar trebui să facem în aceste situații?

cum să nu se adapteze pentru confounders

un mod alternativ de a bloca influența falsă a confounder este ajustarea prin, de exemplu, stratificare. În exemplul de fumat, am putea împărți datele noastre la tineri și bătrâni, să studiem corelația dintre fumat și boală în fiecare grup și apoi să raportăm corelația ponderată ca o estimare a efectului cauzal.

acest lucru ar funcționa bine dacă suntem încrezători că covariatul este într — adevăr un confounder sau strămoș cauzal atât al tratamentului, cât și al rezultatului-deoarece în cadrul fiecărui grup studiat variabila confounder este fixă, nu mai poate media o influență falsă asupra tratamentului și rezultatului și vom putea face afirmații despre adevăratul efect cauzal al tratamentului.

deci, ori de câte ori cercetătorii identifică o variabilă care se corelează atât cu tratamentul, cât și cu rezultatul, ei tind să se adapteze pentru aceasta.

dar aceasta nu este singura relație cauzală posibilă între cele trei variabile!

posibile relații cauzale între tratamentul X, rezultatul Y și covariate Z

Confounder

Mediator

Collider

s-ar putea întâmpla ca covariatul să medieze interacțiunea dintre tratament și rezultat. Adică X = > Z și Z = > Y.

de exemplu, am putea studia efectul culturilor OMG asupra sănătății consumatorilor și aflăm că OMG-urile sunt mai puțin susceptibile de a fi infectate cu un agent patogen. În acest caz, prezența unui agent patogen ar fi un mediator între OMG-uri și sănătatea consumatorilor.

rețineți că mediatorul nu trebuie să fie singurul mecanism care explică efectul — OMG-ul ar putea schimba, de asemenea, profilul alimentar al culturii independent de efectul pe care îl are asupra agenților patogeni.

în acest caz, ajustarea pentru covariate Z va reduce efectul aparent al tratamentului X asupra rezultatului Y, iar raportul nostru va fi înșelător (cu excepția cazului în care am încercat în mod specific să măsurăm izolat partea din efectul tratamentului care nu este mediată de covariat).

a treia posibilitate este ca covariatul să fie un accelerator al tratamentului și al rezultatului. Adică, atât X, cât și Y cauzează Z. De exemplu, am putea avea ca atât cercetătorii de inteligență artificială, cât și affitionații de șah să citească evoluțiile Jocului automat de șah.

ajustarea pentru un colizor va crește puterea aparentă a efectului tratamentului în rezultat.

în exemplul anterior, dacă am chestionat persoanele care au citit un articol de joc automat de șah, s — ar putea să constatăm că affitionatele de șah sunt mai puțin susceptibile de a fi cercetători AI și viceversa-dar asta nu ar fi surprinzător, deoarece filtrăm din demografia sondajului nostru persoanele care nu sunt nici cercetători AI, nici affitionaties de șah.

deci, feriți-vă de adaptare pentru mediatori și colliders!

acum, cum facem distincția între cazurile în care un covariat este un confunder de cazurile în care este un mediator sau un colizor?

răspuns scurt: nu putem, cel puțin nu doar din observarea datelor. Trebuie să ne bazăm pe cunoașterea specifică domeniului relațiilor cauzale subiacente.

când sunt implicate mai multe covariabile, povestea devine mai complicată. Ar trebui să cartografiem întregul grafic cauzal între toate covariatele, tratamentul și rezultatul, și să justificăm cartografierea cauzală din motive științifice.

apoi putem folosi regulile do-calculului și principii precum criteriul backdoor pentru a găsi un set de covariabile pentru a ajusta pentru a bloca corelația falsă dintre tratament și rezultat, astfel încât să putem estima adevăratul efect cauzal.

în general, m-aș aștepta ca, cu cât se ajustează mai multe variabile pentru un studiu, cu atât este mai probabil ca acestea să introducă o corelație falsă printr-un colizor sau să blocheze o cale de mediere.

problema gradelor de libertate

un motiv puternic separat pentru care ar trebui să ne îndoim de studii care se adaptează pentru multe variabile într-un mod neprincipial este adăugarea de grade de libertate cu privire la modul de efectuare a studiului.

dacă măsurați o relație între două variabile în 1000 de moduri diferite și alegeți cea care arată cea mai mare corelație, este posibil să supraestimați eficacitatea tratamentului.

având un set mai mare de covariabile vă permite să ajustați pentru orice subset vă rog. De exemplu, dacă aveți acces la 10 covariabile puteți ajusta pentru oricare dintre 2^10 1000 de subseturi posibile.

nu trebuie să fie faptul că un singur grup de cercetare încearcă în mod sistematic toate subseturile posibile de ajustare și alege cel mai bun (deși în special unele metode statistice fac ceva destul de similar cu acesta — de exemplu, metodele treptate sau cele mai bune subseturi de selecție variabilă). S-ar putea ca diferiți cercetători să încerce diferite subseturi, iar mecanismul care combină rezultatele lor este părtinitor.

de exemplu, 100 de grupuri de cercetare ar putea încerca 100 de subseturi diferite. 95 dintre ei identifică corect că nu există niciun efect, dar din cauza părtinirii publicării nu își fac rezultatele disponibile pe scară largă, în timp ce cele 5 grupuri care au identificat în mod eronat un efect puternic sunt singurele care sunt publicate, creând impresia că toate studiile efectuate au găsit un efect puternic acolo unde de fapt nu există.

pe scurt, atunci când nu vă angajați să urmați un mod principial de a efectua ajustarea în studiul dvs., este mai probabil să introduceți o părtinire în rezultatele dvs.

un cuvânt de precauție: încă mai aveți nevoie de controale bune

în acest articol ne concentrăm pe problema alegerii prea multor controale nepotrivite, deoarece aceasta este o intuiție pe care o văd mai mulți oameni, chiar și printre cei care altfel cunosc Statisticile aplicate.

cu toate acestea, fiți atenți că puteți face greșeala opusă — puteți să nu vă ajustați pentru confunderii relevanți — și să ajungeți la concluzia că consumul de ciocolată provoacă premii nobel.

mai ales cu observații asupra fenomenelor complexe, doar ajustarea pentru câteva lucruri garantează practic că omiteți lucruri pentru care ar trebui să vă ajustați — și puteți fie să depășiți, fie să subestimați efectul.

o provocare conexă intră sub titlul ‘confuzie reziduală’. Chiar dacă identificați un confounder și ajustați — l, Acesta va influența în continuare rezultatele proporționale cu cât de precis îl puteți măsura-în mod natural măsurăm majoritatea lucrurilor inexact sau prin proxy.

deci, pentru a recapitula într-o propoziție: controlul pentru confounders este esențial dacă doriți să deduceți efectele cauzale din datele observaționale.

deci, ce ar trebui să facem?

ca test de turnesol, fiți mai îndoielnici cu privire la studiile observaționale care se adaptează variabilelor fără a justifica alegerea lor de ajustare pe motive cauzale.

cu toate acestea, unele studii nu fac munca necesară pentru a justifica alegerea confuzorilor, ceea ce ne lasă într-o poziție mult mai proastă de a extrage date fiabile din munca lor. Ce putem face în aceste cazuri?

în primul rând, putem examina fiecare dintre confounders alese în mod izolat, și cred că modul în care acestea se comportă cauzal în raport cu tratamentul și rezultatul.

de exemplu, să presupunem că revizuim un studiu al efectului Tratatului de neproliferare (X) asupra nivelului investițiilor în armele nucleare (Y) și ne întrebăm dacă acestea ar fi trebuit ajustate pentru PIB (Z).

Ei bine, ar putea fi cazul ca țările cu PIB mai mare să fie, de asemenea, mai influente și să modeleze tratatul pentru a fi benefic pentru ele, deci Z = > X. Iar țările cu un PIB mai mare pot investi mai mult în arme nucleare, deci Z => Y. În acest caz, PIB-ul ar fi un derutant și ar trebui să ne adaptăm pentru el.

dar am putea spune o poveste la fel de convingătoare argumentând că țările care semnează Tratatul sunt susceptibile de a fi percepute ca fiind mai cooperante și de a obține acorduri comerciale mai bune, deci X => Z. și țările care investesc mai mult în arme nucleare au o securitate mai bună, astfel încât să atragă mai mulți investitori, deci Y = > Z. În această interpretare, PIB-ul este un accelerator și nu ar trebui să ne adaptăm pentru el.

sau am putea combina cele două scenarii anterioare pentru a argumenta că X=>Z și Z=>Y, deci PIB-ul ar fi un colizor și nici nu ar trebui să ne adaptăm pentru el.

în absența unui motiv convingător pentru a respinge explicațiile Alternative, nu ar trebui să ne adaptăm la PIB.

cu toate acestea, imaginați-vă că studiul se adaptează în schimb pentru participarea la alte acorduri nucleare. Se pare că s-a argumentat că participarea la alte tratate a provocat participarea la TNP; ambele par a fi cauzate mai direct de predispoziția generală a țării de a semna tratate nucleare.

în acest caz, “predispoziția către tratate” este o confuzie pentru efectul TNP asupra investițiilor nucleare, dar nu o putem observa direct. Cu toate acestea, putem bloca influența sa falsă prin ajustarea pentru “alte tratate nucleare” conform criteriului backdoor.

ce se întâmplă dacă studiul se adaptează atât pentru GPD, cât și pentru participarea la alte tratate nucleare?

în mod implicit, ar trebui să ne îndoim de validitatea cauzală a concluziei lor.

am putea folosi aceste informații pentru a face unele predicții (de exemplu, am putea folosi rezultatele studiului de mai sus pentru a ghici dacă un stat care urma să semneze Tratatul oricum își va reduce investițiile în arsenalul nuclear), dar nu putem face recomandări de tratament (de exemplu, nu putem afirma că lobby-ul unui actor de stat pentru a accepta TNP este o modalitate eficientă de a-i determina să-și reducă arsenalul).

dacă vrem să încercăm să salvăm rezultatele lor, putem încerca să construim o diagramă cauzală a variabilelor relevante și să luăm în considerare dacă alegerea lor de confounders satisface criteriile relevante.

dacă variabilele de ajustare pe care le-au ales nu blochează corect efectele false sau nu introduc efecte noi prin intermediul colizoarelor și avem acces la date, am putea dori să încercăm să reluăm studiul cu o alegere mai bună a variabilelor de ajustare.

dar, desigur, am putea identifica în continuare confounders cheie pe care autorii nu au inclus în setul de date. În acest caz, vă sugerez să acordați atenție cuvintelor lui John Tukey:

“combinația unor date și o dorință dureroasă de răspuns nu asigură că un răspuns rezonabil poate fi extras dintr-un anumit corp de date.”

concluzii

în această postare am explicat cele trei tipuri de relații cauzale dintre o pereche covariabilă și o pereche de rezultate tratament: confounders, mediatori și colizori. Am văzut că pentru a deduce efectele cauzale ar trebui să ne adaptăm pentru confounders, dar nu pentru mediatori sau colizori.

am susținut că, cu cât se ajustează mai multe variabile pentru un studiu observațional, cu atât este mai probabil ca fie să fi făcut o eroare cauzală, fie că gradele suplimentare de libertate și părtinirea publicării exagerează efectul raportat.

de asemenea, am avertizat cititorul să nu facă greșeala opusă — ajustarea pentru confounders într-un mod principial este esențială pentru a transforma datele observaționale în informații cauzale.

ca modalitate de extragere a datelor din studiile anterioare, am sugerat examinarea critică a alegerii covariatelor de ajustare pe baza criteriilor cauzale. Dacă se ajustează pentru variabilele care nu sunt necesare, am sugerat reluarea analizei dacă datele sunt disponibile, în timp ce dacă lipsește un confuz cheie în date, ar trebui să acceptăm doar că uneori nu avem suficiente informații pentru a răspunde corect la întrebările care ne interesează.

Lasă un răspuns

Adresa ta de email nu va fi publicată.