Confounders made simple

ABSTRACT: kaikkia havaitsevan tutkimuksen hoito-ja tulosmuuttujien kovariaatteja ei pidä mukauttaa. Lähtökohtaisesti on syytä epäillä tutkimuksia, jotka sopeutuvat sokeasti moniin hämmentäjiin perustelematta valintaansa syyperustein.

DISCLAIMER: tietoni syy-seuraussuhteista ovat sen verran rajalliset, että voisin sanoa asioita, jotka ovat hyvin vääriä. Reach out to me on twitter @jsevillamol if you find a mistake!

Oletetaan, että haluat määrittää hoidon syy-seurausvaikutuksen lopputulokseen. Ensimmäinen käsittelyjärjestys on sen määrittäminen, onko niiden välillä tilastollinen korrelaatio.

vaikkakin vielä haastavaa, meillä on hyvät tilastolliset työkalut monimutkaisten muuttujajoukkojen välisten tilastollisten assosiaatioverkostojen määrittämiseen.

korrelaatio ei kuitenkaan ole syy — yhteys-korrelaation voi aiheuttaa sekavuus, sekä hoidon että lopputuloksen syy-seuraus.

esimerkiksi hoito voi olla tupakointia, lopputulos voi olla hengityselinsairaus ja mahdollinen sekavuus on ikä; iäkkäät ihmiset tupakoivat useammin ja ovat alttiimpia hengitystiesairauksille.

tilannetta voidaan havainnollistaa kausaalikaaviolla:

syy-seurauskaavio tupakointitutkimuksessa

sanomme, että on olemassa esteetön takaportti hoidosta iän kautta lopputulokseen, eli tupakointi <= Ikä => hengityselinsairaus.

mieluiten haluaisimme suorittaa satunnaistetun kontrolloidun tutkimuksen (RCT), joka satunnaisesti määrää hoidon, jotta voimme kääntää takaovipolun.

satunnaistettu kontrolloitu tutkimus (RCT) tupakointitutkimuksesta

, mutta tämä ei aina ole mahdollista; esimerkiksi hoito saattaa olla epäeettistä, tai voimme tehdä johtopäätöksiä historiallisista tiedoista. Mitä meidän pitäisi tehdä noissa tilanteissa?

miten ei voi säätää confoundereille
mahdolliset syy-seuraussuhteet hoidon X, hoitotuloksen Y ja kovariaatin Z välillä
vapausasteiden ongelma
varoituksen sana: tarvitset edelleen hyviä kontrolleja
Mitä siis pitäisi tehdä?
johtopäätökset

miten ei voi säätää confoundereille

vaihtoehtoinen tapa estää konfounderin vääristynyt vaikutus on säätäminen esimerkiksi osituksella. Tupakointiesimerkissä voisimme jakaa tiedot nuoriin ja vanhoihin, tutkia tupakoinnin ja sairauksien välistä korrelaatiota kussakin ryhmässä ja raportoida painotetun korrelaation syy-seurausvaikutuksen estimointina.

tämä toimisi hyvin, jos luotamme siihen, että kovariaatti On todellakin sekä hoidon että lopputuloksen sekoittaja eli Kausaalinen esi — isä-koska jokaisessa tutkitussa ryhmässä sekoittaja on kiinteä, se ei voi enää välittää virheellistä vaikutusta hoitoon ja lopputulokseen, ja voimme esittää väitteitä hoidon todellisesta syy-vaikutuksesta.

joten aina kun tutkijat tunnistavat muuttujan, joka korreloi sekä hoidon että lopputuloksen kanssa, heillä on taipumus sopeutua siihen.

mutta se ei ole ainoa mahdollinen syy-seuraussuhde näiden kolmen muuttujan välillä!

mahdolliset syy-seuraussuhteet hoidon X, hoitotuloksen Y ja kovariaatin Z välillä

voi käydä niin, että kovariaatti välittää hoidon ja lopputuloksen välistä vuorovaikutusta. Eli X => Z ja Z => Y.

voisimme esimerkiksi tutkia GMO-viljelmien vaikutusta kuluttajien terveyteen, ja havaitsisimme, että GMO: t eivät todennäköisesti tartuta taudinaiheuttajaa. Siinä tapauksessa taudinaiheuttajan esiintyminen toimisi välittäjänä muuntogeenisten organismien ja kuluttajien terveyden välillä.

huomaa, että välittäjän ei tarvitse olla ainoa mekanismi, joka selittää vaikutuksen — GMO saattaa myös muuttaa viljelykasvin ravintoprofiilia riippumatta siitä, miten se vaikuttaa taudinaiheuttajiin.

tässä tapauksessa kovariaatin Z säätäminen vähentää hoidon X ilmeistä vaikutusta lopputulokseen Y, ja raporttimme on harhaanjohtava (ellemme nimenomaan yritä mitata erikseen sitä osaa hoidon vaikutuksesta, joka ei ole kovariaatin välittämä).

kolmas mahdollisuus on, että kovariaatti on hoidon ja lopputuloksen törmäyttäjä. Eli sekä X että Y aiheuttavat Z. esimerkiksi, meillä voisi olla, että sekä tekoälyn tutkijat ja Shakki affitionates haluavat lukea kehitystä automaattisen shakin pelaamisen.

säätäminen törmäyttimelle lisää hoidon vaikutuksen ilmeistä vahvuutta lopputuloksessa.

edellisessä esimerkissä, jos tutkimme ihmisiä, jotka ovat lukeneet automaattisen shakin pelaamisen artikkelin, saatamme huomata, että shakin affitionaatit ovat vähemmän todennäköisesti tekoälyn tutkijoita ja varakuvaajia — mutta se ei olisi yllättävää, koska suodatamme kyselyidemografiastamme ihmiset, jotka eivät ole tekoälyn tutkijoita eivätkä shakin affitionaatteja.

joten varo säätöä välittäjille ja törmääjille!

nyt, miten erotamme tapaukset, joissa kovariaatti on sekoittaja, tapauksista, joissa se on sovittelija tai törmääjä?

lyhyt vastaus: emme voi, ainakaan pelkän tietojen tarkkailun perusteella. Meidän on turvauduttava siihen, että meillä on erityistä tietoa taustalla olevista syy-seuraussuhteista.

kun mukana on useita kovariaatteja, tarina mutkistuu. Meidän on kartoitettava koko syy-kuvaaja kovariaattien, hoidon ja lopputuloksen välillä-ja perusteltava syykartoituksemme tieteellisin perustein.

sitten voimme käyttää do-calculuksen sääntöjä ja periaatteita, kuten takaovikriteeriä, löytääksemme joukon kovariaatteja, joilla voidaan säätää estämään hoidon ja lopputuloksen välinen virheellinen korrelaatio, jotta voimme arvioida todellisen syy-seurausvaikutuksen.

yleisesti ottaen odottaisin, että mitä useampia muuttujia tutkimuksessa mukautetaan, sitä todennäköisemmin ne aiheuttavat virheellisen korrelaation törmäyttimen kautta tai estävät sovittelureitin.

vapausasteiden ongelma

erillinen vahva syy siihen, miksi meidän pitäisi epäillä tutkimuksia, jotka mukauttavat monia muuttujia periaatteettomasti, on vapausasteiden lisääminen tutkimuksen suorittamiseen.

jos mittaat kahden muuttujan välistä suhdetta 1000 eri tavalla ja valitset sen, joka osoittaa suurimman korrelaation, olet todennäköisesti yliarvioinut hoidon tehokkuuden.

, joilla on suurempi kovariaabelien joukko, mahdollistaa minkä tahansa haluamansa osajoukon säätämisen. Esimerkiksi, jos sinulla on pääsy 10 kovariaattia voit säätää minkä tahansa 2^10 ≈ 1000 mahdollisen osajoukon.

ei tarvitse olla niin, että yksittäinen tutkimusryhmä systemaattisesti kokeilisi kaikkia mahdollisia säätöosajoukkoja ja valitsisi niistä parhaan (vaikka varsinkin jotkin tilastolliset menetelmät tekevät jotain melko samanlaista — esimerkiksi portaittaiset tai parhaat muuttujan valintamenetelmät). Voi olla, että eri tutkijat kokeilevat eri osajoukkoja, ja niiden tuloksia yhdistävä mekanismi on puolueellinen.

esimerkiksi 100 tutkimusryhmää voisi kokeilla 100 eri osajoukkoa. 95 heistä oikein tunnistaa, että ei ole vaikutusta, mutta koska julkaisuharhaa he eivät tee tuloksia laajalti saatavilla, kun taas 5 ryhmät, jotka virheellisesti tunnistivat voimakas vaikutus ovat ainoa, joka julkaistaan, luoda vaikutelma, että kaikki tutkimukset havaittiin vahva vaikutus, jossa itse asiassa ei ole mitään.

yhteenvetona voidaan todeta, että jos et sitoudu noudattamaan tutkimuksessasi periaatteellista säätötapaa, voit todennäköisemmin aiheuttaa harhaa tuloksissasi.

varoituksen sana: tarvitset edelleen hyviä kontrolleja

tässä artikkelissa keskitymme liian monen, sopimattoman kontrollin valitsemisen ongelmaan, koska se on intuitio, joka mielestäni puuttuu useammalta ihmiseltä, myös muilta soveltavia tilastoja tuntevilta.

muista kuitenkin, että voit tehdä päinvastaisen virheen — et voi sopeutua asiaankuuluviin hämmentäjiin — ja päätyä siihen johtopäätökseen, että suklaan kulutus aiheuttaa nobel-palkinnot.

varsinkin monimutkaisten ilmiöiden havainnoinnissa vain muutamien asioiden säätäminen käytännössä takaa sen, että jättää pois asioita, joihin pitäisi säätää — ja voi olla joko yli tai vähätellä vaikutusta.

tähän liittyvä haaste kuuluu otsikon “jäännössekoitus” alle. Vaikka tunnistaisit sekoittajan ja sopeutuisit siihen, se vaikuttaa silti tuloksiin, jotka ovat oikeassa suhteessa siihen, kuinka tarkasti voit mitata sen — luonnollisesti mittaamme useimmat asiat epätarkasti tai proxy-menetelmällä.

niin kertaamaan lauseeseen: confoundereiden kontrollointi on avainasemassa, jos haluat päätellä syy-seurausvaikutuksia havaintoaineistosta.

Mitä siis pitäisi tehdä?

lakmustestinä on syytä epäillä havaitsevia tutkimuksia, jotka mukautuvat muuttujiin perustelematta mukautusvalintaansa kausaalisin perustein.

jotkut tutkimukset eivät kuitenkaan tee tarvittavaa työtä perustellakseen sekoittajien valintaa, mikä jättää meidät paljon huonompaan asemaan luotettavien tietojen saamiseksi heidän työstään. Mitä voimme tehdä näissä tapauksissa?

ensinnäkin voimme tutkia jokaista valittua sekoittajaa erikseen ja miettiä, miten he kausaalisesti käyttäytyvät suhteessa hoitoon ja lopputulokseen.

Oletetaan esimerkiksi, että tarkastelemme tutkimusta Ydinsulkusopimuksen (X) vaikutuksesta ydinaseinvestointien (Y) tasoon ja mietimme, olisiko niiden pitänyt mukauttaa BKT: tä (Z).

No, voi olla niin, että maat, joiden BKT on korkeampi, ovat myös vaikutusvaltaisempia ja muokkasivat sopimusta niille hyödylliseksi, joten Z => X. Ja maat, joiden BKT on korkeampi, voivat investoida enemmän ydinaseisiin, joten Z => Y. tässä tapauksessa BKT olisi sekavaa, ja meidän pitäisi sopeutua siihen.

mutta voisimme kertoa yhtä vakuuttavan tarinan väittäen, että maita, jotka allekirjoittavat sopimuksen, pidetään todennäköisesti yhteistyöhaluisempina ja saavat parempia kauppasopimuksia, joten x => Z. ja maita, jotka investoivat enemmän ydinaseisiin, on parempi turvallisuus, joten ne houkuttelevat enemmän sijoittajia, joten Y => Z. tämän tulkinnan mukaan BKT on törmääjä, eikä meidän pitäisi sopeutua siihen.

tai voisimme yhdistää kaksi edellistä skenaariota väittäen, että X = >Z ja Z = >Y, joten BKT olisi törmääjä, eikä meidän pitäisi myöskään sopeutua siihen.

koska ei ole pakottavaa syytä hylätä vaihtoehtoisia selityksiä, meidän ei pitäisi mukauttaa BKT: tä.

kuvittele kuitenkin, että tutkimus mukautuu sen sijaan muihin ydinsopimuksiin osallistumista varten. Näyttää keksityltä väittää, että osallistuminen muihin sopimuksiin aiheutti osallistumisen ydinsulkusopimukseen; molemmat vaikuttavat suoremmin johtuvan maan yleisestä taipumuksesta allekirjoittaa ydinsopimuksia.

tässä tapauksessa “alttius sopimuksiin” hämmentää ydinsulkusopimuksen vaikutusta Ydininvestointeihin, mutta emme voi suoraan tarkkailla sitä. Voimme kuitenkin estää sen väärän vaikutuksen mukautumalla” muihin ydinsopimuksiin ” takaoven kriteerin mukaisesti.

mitä tapahtuu, jos tutkimus on sopeutumassa sekä GPD: hen että osallistumiseen muihin ydinsopimuksiin?

oletuksena on syytä epäillä niiden johtopäätöksen syy-seuraussuhdetta.

voisimme käyttää näitä tietoja tehdäksemme joitakin ennusteita (voisimme esimerkiksi käyttää yllä olevan tutkimuksen tuloksia arvaillaksemme, aikooko valtio joka tapauksessa allekirjoittaa sopimuksen, vähentää investointejaan ydinasearsenaaliin), mutta emme voi antaa hoitosuosituksia (emme voi esimerkiksi väittää, että valtion toimijan lobbaaminen hyväksymään ydinsulkusopimus on tehokas tapa saada ne vähentämään arsenaaliaan).

jos haluamme yrittää pelastaa heidän tuloksensa, voimme yrittää rakentaa kausaalisen kaavion relevanteista muuttujista ja miettiä, täyttävätkö heidän sekoittajavalintansa relevantit kriteerit.

jos heidän valitsemansa mukautusmuuttujat eivät estä asianmukaisesti virheellisiä vaikutuksia tai tuo uusia vaikutuksia törmäyttimien kautta, ja meillä on pääsy tietoihin, voimme ehkä yrittää suorittaa tutkimuksen uudelleen paremmalla mukautusmuuttujavalinnalla.

mutta toki saatamme vielä tunnistaa keskeisiä sekoittajia, joita kirjoittajat eivät sisällyttäneet aineistoon. Siinä tapauksessa kehotan kiinnittämään huomiota John Tukeyn sanoihin:

” joidenkin tietojen ja kipeän vastaushalun yhdistelmä ei takaa sitä, että kohtuullinen vastaus voidaan poimia tietystä tietystä aineistosta.”

johtopäätökset

tässä postauksessa on selitetty kovariaatin ja hoitotulosparin väliset kolmentyyppiset syy-seuraussuhteet: sekoittajat, välittäjät ja törmääjät. Olemme nähneet, että päättelläksemme syy-seuraussuhteita meidän pitäisi sopeutua hämmentäjiin, mutta ei välittäjiin tai törmääjiin.

olemme väittäneet, että mitä useampia muuttujia havainnoiva tutkimus säätää, sitä todennäköisempää on, että joko ne ovat tehneet kausaalisen virheen tai että ylimääräiset vapausasteet ja julkaisuharha liioittelevat raportoitua vaikutusta.

olemme myös varoittaneet lukijaa tekemästä päinvastaista virhettä-säätäminen hämmentäjille periaatteellisella tavalla on välttämätöntä havainnollisen tiedon muuttamiseksi kausaaliseksi informaatioksi.

aiemmista tutkimuksista saatujen tietojen poimimiseksi olemme ehdottaneet kriittistä tarkastelua niiden sopeutumiskovariaattien valinnassa kausaalisten kriteerien perusteella. Jos ne mukautuvat tarpeettomiin muuttujiin, olemme ehdottaneet analyysin uudelleen käynnistämistä, jos tietoja on saatavilla, kun taas jos aineistosta puuttuu keskeinen sekoittaja, meidän pitäisi vain hyväksyä, että joskus meillä ei ole tarpeeksi tietoa vastataksemme oikein tärkeisiin kysymyksiimme.