hvornår er komplet case analyse upartisk?
mit primære forskningsområde er manglende data. Manglende data er et almindeligt problem i empirisk forskning. Inden for Biostatistik mangler data næsten allestedsnærværende-patienter kommer ofte ikke tilbage til besøg som planlagt af forskellige årsager. I undersøgelser kan deltagerne flytte ind mellem undersøgelsesbølger, vi mister kontakten med dem, sådan at vi mangler deres svar på de spørgsmål, vi gerne ville have stillet dem.
manglende data forårsager altid i mindre eller større grad et tab af information. Manifestationerne af dette er større standardfejl og bredere konfidensintervaller for parameterestimater. Men en uden tvivl vigtigere konsekvens er, at manglende data kan fremkalde bias i vores estimater, medmindre missingness ikke er relateret til de variabler, der er involveret i vores Analyse (den såkaldte manglende helt tilfældig antagelse).
der er en lang række statistiske teknikker til at imødekomme manglende data (se www.missingdata.org.uk). Måske er det mest almindeligt anvendte blot at udelukke de deltagere i vores datasæt, der mangler data (i de variabler, vi er bekymrede for) fra vores Analyse. Dette er det, der almindeligvis kaldes en ‘komplet sagsanalyse’ eller ‘listevis sletning’ – vi analyserer kun de komplette sager. Jeg gav for nylig et seminar (dias her) på LSHTM om, hvornår en komplet sagsanalyse er upartisk og en metode til forbedring af effektiviteten af komplet sagsanalyse. I dette indlæg beskriver jeg det første aspekt, når en komplet sagsanalyse er upartisk.
mangler helt tilfældigt
som jeg bemærkede tidligere, hvis data mangler fuldstændigt tilfældigt, hvilket betyder, at chancen for, at data mangler, ikke er relateret til nogen af de variabler, der er involveret i vores Analyse, er en komplet caseanalyse upartisk. Dette skyldes, at delmængden af komplette sager repræsenterer en tilfældig (omend mindre end beregnet) prøve fra befolkningen.
generelt, hvis de komplette tilfælde systematisk adskiller sig fra prøven som helhed (dvs. forskellig fra de ufuldstændige tilfælde), dvs. dataene mangler ikke helt tilfældigt, kun analyse af de komplette sager vil føre til partiske skøn.
Antag for eksempel, at vi er interesserede i at estimere medianindkomsten for den enkelte befolkning. Vi sender en e-mail med et spørgeskema, der skal udfyldes, blandt hvilke deltagerne bliver bedt om at sige, hvor meget de tjener. Men kun en del af målprøven returnerer spørgeskemaet, og derfor mangler vi indkomster for de resterende mennesker. Hvis de, der returnerede et svar på indkomstspørgsmålet, systematisk har højere eller lavere indkomster end dem, der ikke returnerede et svar, vil medianindkomsten i de komplette sager være partisk.
komplet sagsanalyse gyldighed, når data ikke er MCAR
i nogle tilfælde kan en komplet sagsanalyse faktisk give upartiske skøn, selv når dataene ikke mangler helt tilfældigt. En af disse indstillinger er den, hvor vores Analyse består i at montere en regressionsmodel, der relaterer fordelingen af et eller andet resultat Y (eller afhængig variabel) til en eller flere forudsigere (eller uafhængige variabler). Eksempler på sådanne modeller er lineær regression for kontinuerlige resultater og logistisk regression for binære resultater. Når der opstår mangel i enten resultatet Y, en eller flere af forudsigerne eller potentielt begge dele, er tilpasning af regressionsmodellen til de komplette sager upartisk, forudsat at sandsynligheden for at være en komplet sag er uafhængig af Y, betinget af h (SE lysbillederne her for en forklaring på hvorfor).
i nogle indstillinger, såsom kohortestudier, hvor folk følges op over tid, kan denne tilstand med rimelighed antages at holde. Antag f.eks., at H er faktorer målt af forsøgspersoner ved rekruttering til kohortestudiet, og at resultatet Y måles et stykke tid efter rekruttering. Antag, at en af forudsigerne i K har manglende værdier. Derefter kan mangel på Y ikke være direkte forårsaget af Y, da den fremtidige værdi af Y endnu ikke er bestemt. Missingness er enten forårsaget af værdien af sig selv eller af andre faktorer/variabler. Kun hvis manglende er forårsaget af sådanne andre faktorer, og disse faktorer uafhængigt påvirker resultatet Y, vil Komplet sagsanalyse være partisk.
desværre, som det normalt er tilfældet i analyser af manglende data, kan denne antagelse om mangel ikke endeligt bekræftes ved hjælp af de foreliggende data – for at gøre dette skal vi have de manglende data tilgængelige. I nogle tilfælde kan antagelsen om, at manglende evne er uafhængig af resultatet, efter justering for forudsigerne, anses for plausibel. I dette tilfælde, mens komplet case analyse ikke er optimalt effektiv (det smider data fra ufuldstændige sager), det er i det mindste upartisk.
konklusion
så for en bestemt analyse, før vi grøfter den ydmyge komplette sagsanalyse til fordel for en mere sofistikeret metode, som alle statistikpakker kan udføre (faktisk er det typisk standardmetoden til håndtering af manglende værdier), bør vi stoppe og tænke over, om det er muligt, at vores komplette sagsresultater faktisk kan være ok (fra et bias perspektiv). Det er dog vigtigt at sige, at selv når fuldstændig sagsanalyse er upartisk, er den ineffektiv – den smider al information i de ufuldstændige tilfælde.
p. s. Oktober 2015 – Dette papir, jeg medforfatter, kan være af interesse-asymptotisk upartisk estimering af eksponeringsodds-forhold i komplette optegnelser logistisk regression
du kan også være interesseret i:
- Online kursus-statistisk analyse med manglende Data ved hjælp af R