når er komplett case analyse objektiv ?

mitt primære forskningsområde er manglende data. Manglende data er et vanlig problem i empirisk forskning. Innen biostatistikk mangler data nesten allestedsnærværende-pasienter ofte ikke kommer tilbake til besøk som planlagt, for en rekke årsaker. I undersøkelser kan deltakerne bevege seg mellom undersøkelsesbølger, vi mister kontakt med dem, slik at vi mangler deres svar på spørsmålene vi ville ha likt å stille dem.

Manglende data forårsaker alltid, i mindre eller større grad, tap av informasjon. Manifestasjonene av dette er større standardfeil og bredere konfidensintervaller for parameterestimater. Men en kanskje viktigere konsekvens er at manglende data kan indusere bias i våre estimater, med mindre missingness ikke er relatert til variablene som er involvert i vår analyse (den såkalte mangler helt tilfeldig antagelse).

det finnes et bredt spekter av statistiske teknikker for å imøtekomme manglende data (se www.missingdata.org.uk). Kanskje det vanligste er å bare ekskludere de deltakerne i datasettet som har data som mangler (i de variablene vi er opptatt av) fra vår analyse. Dette er det som er kjent som en ‘komplett saksanalyse’ eller ‘ listvis sletting – – vi analyserer bare de komplette sakene. Jeg har nylig gitt et seminar (lysbilder her) PÅ LSHTM om når en komplett case analyse er objektiv og en metode for å forbedre effektiviteten av komplett case analyse. I dette innlegget vil jeg beskrive det første aspektet, at når en komplett case analyse er objektiv.

Mangler helt tilfeldig
som jeg nevnte tidligere, hvis data mangler fullstendig tilfeldig, noe som betyr at sjansen for at data mangler, ikke er relatert til noen av variablene som er involvert i vår analyse, er en komplett caseanalyse upartisk. Dette skyldes at delsettet av komplette tilfeller representerer et tilfeldig (om enn mindre enn beregnet) utvalg fra populasjonen.

generelt, hvis de komplette sakene er systematisk forskjellige fra utvalget som helhet (dvs. forskjellig fra de ufullstendige tilfellene), dvs. dataene mangler ikke helt tilfeldig, og å analysere bare de komplette tilfellene vil føre til partiske estimater.

anta for eksempel at vi er interessert i å estimere medianinntekten til den enkelte befolkningen. Vi sender ut en e-post som ber om et spørreskjema som skal fylles ut, blant hvilke deltakerne blir bedt om å si hvor mye de tjener. Men bare en del av målprøven returnerer spørreskjemaet, og så har vi manglende inntekter for de resterende personene. Hvis de som returnerte et svar på inntektsspørsmålet systematisk har høyere eller lavere inntekter enn de som ikke returnerte et svar, vil medianinntekten til de komplette sakene være partisk.

Komplett kasusanalyse validitet når data ikke ER MCAR
men i noen tilfeller kan en komplett kasusanalyse faktisk gi objektive estimater selv når dataene ikke mangler helt tilfeldig. En av disse innstillingene er at vår analyse består av å tilpasse en regresjonsmodell, som relaterer fordelingen Av noe utfall Y (eller avhengig variabel) Til en eller flere prediktorer (Eller uavhengige variabler) X (Her X kan bestå av en rekke prediktorer). Eksempler på slike modeller er lineær regresjon for kontinuerlige utfall og logistisk regresjon for binære utfall. Når missingness oppstår i enten utfallet Y, er en eller flere av prediktorene X, eller potensielt begge, å tilpasse regresjonsmodellen til de komplette tilfellene, upartisk forutsatt at sannsynligheten for å være en komplett sak er uavhengig Av Y, betinget Av X (se lysbildene her for en forklaring på hvorfor).

i noen sammenhenger, for eksempel kohortstudier, hvor folk følges opp over tid, kan denne tilstanden med rimelighet antas å holde. Anta For Eksempel At X er faktorer målt av personer ved rekruttering til kohortstudien, og at utfallet Y måles noe tid etter rekruttering. Anta at en av prediktorene I X har manglende verdier. Da kan ikke missingness i X være direkte forårsaket Av Y, siden Den fremtidige verdien Av Y ennå ikke er bestemt. Missingness I X er enten forårsaket av verdien Av X selv, Eller av andre faktorer / variabler. Bare hvis manglende evne er forårsaket av slike andre faktorer, og disse faktorene uavhengig påvirker utfallet Y, vil fullstendig caseanalyse være partisk.

Dessverre, som det vanligvis er tilfelle i analyser av manglende data, kan denne antagelsen om manglende evne ikke definitivt bekreftes ved hjelp av dataene som er tilgjengelige – for å gjøre dette må vi ha de manglende dataene tilgjengelige. I noen tilfeller kan imidlertid antagelsen om at manglende evne er uavhengig av utfallet, etter justering for prediktorene, anses som plausibel. I dette tilfellet, mens komplett case analyse ikke er optimalt effektiv (det kaster bort dataene fra ufullstendige tilfeller), er det minst upartisk.

Konklusjon
Så, for en bestemt analyse, før vi grøfter den ydmyke komplette saksanalysen til fordel for en mer sofistikert metode, som alle statistikkpakker kan utføre (faktisk er det vanligvis standardmetoden for håndtering av manglende verdier), bør vi stoppe og tenke på om det er mulig at våre komplette saksresultater faktisk kan være ok (fra et bias perspektiv). Det er imidlertid viktig å si at selv når fullstendig saksanalyse er objektiv, er den ineffektiv – den kaster bort all informasjon i de ufullstendige tilfellene.

p.s. Oktober 2015 – dette papiret jeg medforfatter kan være av interesse-Asymptotisk upartisk estimering av eksponeringsoddsforhold i komplette registre logistisk regresjon

Du kan også være interessert i:

  • nettkurs-Statistisk Analyse med Manglende Data ved Hjelp Av R

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.