när är fullständig fallanalys opartisk?
mitt primära forskningsområde är saknade data. Saknade data är en vanlig fråga i empirisk forskning. Inom biostatistik saknas data nästan allestädes närvarande-patienter kommer ofta inte tillbaka till besök som planerat, av olika skäl. I undersökningar kan deltagarna flytta in mellan undersökningsvågor, vi förlorar kontakten med dem, så att vi saknar deras svar på de frågor vi skulle ha velat ställa dem.
saknade data orsakar alltid, i mindre eller större utsträckning, en förlust av information. Manifestationerna av detta är större standardfel och bredare konfidensintervall för parameteruppskattningar. Men en förmodligen viktigare konsekvens är att saknade data kan inducera bias i våra uppskattningar, såvida inte missingness inte är relaterat till variablerna som är involverade i vår analys (den så kallade saknas helt slumpmässigt antagande).
det finns ett brett spektrum av statistiska tekniker för att ta emot saknade data (se www.missingdata.org.uk). Kanske är det vanligaste att helt enkelt utesluta de deltagare i vår dataset som har några data som saknas (i de variabler Vi är oroade över) från vår analys. Detta är vad som allmänt kallas en ‘komplett fallanalys’ eller ‘listvis radering’ – vi analyserar bara de fullständiga Fallen. Jag gav nyligen ett seminarium (bilder här) på LSHTM om när en fullständig fallanalys är opartisk och en metod för att förbättra effektiviteten i fullständig fallanalys. I det här inlägget beskriver jag den första aspekten, när en fullständig fallanalys är opartisk.
saknas helt slumpmässigt
som jag noterade tidigare, om data saknas fullständigt slumpmässigt, vilket innebär att chansen att data saknas inte är relaterad till någon av variablerna som är involverade i vår analys, är en fullständig fallanalys opartisk. Detta beror på att delmängden av fullständiga fall representerar ett slumpmässigt (om än mindre än avsett) urval från befolkningen.
i allmänhet, om de fullständiga Fallen systematiskt skiljer sig från urvalet som helhet (dvs. skiljer sig från de ofullständiga fallen), dvs. uppgifterna saknas inte helt slumpmässigt, analys av endast de fullständiga fallen kommer att leda till partiska uppskattningar.
Antag till exempel att vi är intresserade av att uppskatta medianinkomsten för någon befolkning. Vi skickar ut ett e-postmeddelande med ett frågeformulär som ska fyllas i, bland vilka deltagarna ombeds att säga hur mycket de tjänar. Men bara en del av målprovet returnerar frågeformuläret, och så har vi saknade inkomster för de återstående människorna. Om de som returnerade ett svar på inkomstfrågan systematiskt har högre eller lägre inkomster än de som inte returnerade ett svar, kommer medianinkomsten för de fullständiga Fallen att vara partisk.
fullständig fallanalys giltighet när data inte är MCAR
men i vissa fall kan en fullständig fallanalys faktiskt ge objektiva uppskattningar även när data inte saknas helt slumpmässigt. En av dessa inställningar är den där vår analys består av att montera en regressionsmodell, som relaterar fördelningen av något resultat Y (eller beroende variabel) till en eller flera prediktorer (eller oberoende variabler) X (här X kan bestå av ett antal prediktorer). Exempel på sådana modeller är linjär regression för kontinuerliga resultat och logistisk regression för binära resultat. När missingness inträffar i antingen resultatet Y, en eller flera av prediktorerna X, eller potentiellt båda, passar regressionsmodellen till de fullständiga fallen är opartisk förutsatt att sannolikheten för att vara ett fullständigt fall är oberoende av Y, villkorat av X (se bilderna här för en förklaring av varför).
i vissa inställningar,såsom kohortstudier, där människor följs upp över tiden, kan detta tillstånd rimligen antas hålla. Antag till exempel att X är faktorer som mäts av ämnen vid rekrytering till kohortstudien, och att resultatet Y mäts någon gång efter rekrytering. Antag att en av prediktorerna i X saknar värden. Då kan missingness i X inte direkt orsakas av Y, eftersom det framtida värdet av Y ännu inte är bestämt. Missingness i X orsakas antingen av värdet av X själv eller av andra faktorer/variabler. Endast om missingness orsakas av sådana andra faktorer, och dessa faktorer oberoende påverkar resultatet Y, kommer att slutföra fallanalys vara partisk.
tyvärr, som vanligtvis är fallet i analyser av saknade data, kan detta antagande om missingness inte definitivt bekräftas med hjälp av de aktuella uppgifterna – för att göra detta skulle vi behöva ha de saknade uppgifterna tillgängliga. I vissa fall kan dock antagandet att missingness är oberoende av resultatet, efter justering för prediktorerna, anses troligt. I det här fallet, medan fullständig fallanalys inte är optimalt effektiv (den kastar bort data från ofullständiga fall), är den åtminstone opartisk.
slutsats
så, för en viss analys, innan vi dike ödmjuka komplett fallanalys till förmån för några mer sofistikerade metod, som alla statistik paket kan utföra (det är faktiskt vanligtvis standardmetod för hantering saknade värden), vi bör stanna upp och fundera på om det är möjligt att våra fullständiga fall resultat kan faktiskt vara ok (från en bias perspektiv). Det är dock viktigt att säga att även när fullständig fallanalys är opartisk är den ineffektiv – den kastar bort all information i de ofullständiga Fallen.
p. s. Oktober 2015-detta dokument som jag medförfattare kan vara av intresse-asymptotiskt opartisk uppskattning av exponeringsoddsförhållanden i kompletta register logistisk regression
du kanske också är intresserad av:
- onlinekurs-statistisk analys med saknade Data med R