wanneer is volledige case analyse onbevooroordeeld?

mijn primaire onderzoeksgebied is dat van ontbrekende gegevens. Ontbrekende gegevens zijn een veel voorkomend probleem in empirisch onderzoek. Binnen biostatistiek zijn ontbrekende gegevens bijna alomtegenwoordig – patiënten komen vaak niet terug naar bezoeken zoals gepland, om verschillende redenen. In enquãates deelnemers kunnen bewegen tussen enquãate golven, we contact met hen verliezen, zodat we missen hun antwoorden op de vragen die we hadden willen stellen hen.

ontbrekende gegevens veroorzaken altijd, in mindere of grotere mate, verlies van informatie. De manifestaties hiervan zijn Grotere standaardfouten en bredere betrouwbaarheidsintervallen voor parameterschattingen. Maar een veel belangrijker gevolg is dat ontbrekende gegevens bias kunnen veroorzaken in onze schattingen, tenzij missingness niets te maken heeft met de variabelen die betrokken zijn bij onze Analyse (de zogenaamde missing volledig op willekeurige aanname).

er bestaat een groot aantal statistische technieken om ontbrekende gegevens op te vangen (zie www.missingdata.org.uk). Misschien is de meest gebruikte gewoon om die deelnemers in onze dataset die gegevens missen (in die variabelen waar we mee te maken hebben) uit onze Analyse uit te sluiten. Dit is wat algemeen bekend staat als een’ complete case analysis ‘of’ listwise deletion ‘ – we analyseren alleen de complete cases. Ik gaf onlangs een seminar (dia ‘ s Hier) bij LSHTM over wanneer een volledige case analyse onbevooroordeeld is en een methode om de efficiëntie van volledige case analyse te verbeteren. In dit bericht zal ik het eerste aspect beschrijven, dat van wanneer een volledige case analyse onbevooroordeeld is.

geheel willekeurig ontbrekend
zoals ik eerder al opmerkte, is een volledige case-analyse onbevooroordeeld als gegevens willekeurig ontbreken, wat betekent dat de kans dat gegevens ontbreken geen verband houdt met een van de variabelen die bij onze Analyse betrokken zijn. Dit komt omdat de deelverzameling van volledige gevallen een willekeurige (zij het kleiner dan bedoeld) steekproef van de bevolking vertegenwoordigen.

in het algemeen, indien de volledige gevallen systematisch verschillen van de steekproef als geheel( d.w.z. verschillend van de onvolledige gevallen), d.w.z. de gegevens ontbreken niet volledig willekeurig, alleen het analyseren van de volledige gevallen zal leiden tot bevooroordeelde schattingen.

bijvoorbeeld, stel dat we geïnteresseerd zijn in het schatten van het mediane inkomen van de enkele populatie. We sturen een e-mail met de vraag om een vragenlijst in te vullen, waaronder deelnemers wordt gevraagd om te zeggen hoeveel ze verdienen. Maar slechts een deel van de doelsteekproef retourneert de vragenlijst, en dus hebben we ontbrekende inkomens voor de resterende mensen. Als degenen die een antwoord op de inkomensvraag hebben teruggegeven systematisch hoger of lager inkomen dan degenen die geen antwoord hebben gegeven, zal het mediane inkomen van de volledige gevallen bevooroordeeld zijn.

volledige case analysis validity wanneer de gegevens niet MCAR
zijn, kan een volledige case analysis echter in sommige gevallen onbevooroordeelde schattingen opleveren, zelfs wanneer de gegevens niet volledig willekeurig ontbreken. Een van deze instellingen is die waarin onze Analyse bestaat uit het aanpassen van een regressiemodel, waarbij de verdeling van een uitkomst Y (of afhankelijke variabele) wordt gerelateerd aan een of meer voorspellers (of onafhankelijke variabelen) X (Hier zou X kunnen bestaan uit een aantal voorspellers). Voorbeelden van dergelijke modellen zijn lineaire regressie voor continue uitkomsten en logistieke regressie voor binaire uitkomsten. Wanneer missingness optreedt in ofwel de uitkomst Y, één of meer van de voorspellers X, of potentieel beide, is het passen van het regressiemodel aan de volledige gevallen onbevooroordeeld op voorwaarde dat de kans op een volledig geval onafhankelijk is van Y, afhankelijk van X (zie de dia ‘ s hier voor een uitleg van waarom).

in sommige gevallen, zoals cohortstudies, waar mensen na verloop van tijd worden opgevolgd, kan redelijkerwijs worden aangenomen dat deze aandoening aanhoudt. Stel bijvoorbeeld dat X factoren zijn die worden gemeten bij de rekrutering in de cohortstudie, en dat de uitkomst Y enige tijd na rekrutering wordt gemeten. Stel dat een van de voorspellers in X ontbrekende waarden heeft. Dan kan missingness in X niet direct worden veroorzaakt door Y, omdat de toekomstige waarde van Y nog moet worden bepaald. Missingness in X wordt ofwel veroorzaakt door de waarde van X zelf, of door andere factoren/variabelen. Alleen als missingness wordt veroorzaakt door dergelijke andere factoren, en deze factoren onafhankelijk van invloed op de uitkomst Y, zal volledige case analyse worden bevooroordeeld.

helaas kan, zoals gewoonlijk het geval is bij analyses van ontbrekende gegevens, deze veronderstelling over het ontbreken van gegevens niet definitief worden bevestigd met behulp van de beschikbare gegevens – om dit te doen zouden we de ontbrekende gegevens beschikbaar moeten hebben. Echter, in sommige gevallen kan de aanname dat missingness onafhankelijk is van de uitkomst, na aanpassing voor de voorspellers, aannemelijk worden geacht. In dit geval is volledige casusanalyse niet optimaal efficiënt (het gooit de gegevens van onvolledige cases weg), maar is ze op zijn minst onbevooroordeeld.

conclusie
dus, voor een bepaalde analyse, voordat we de bescheiden complete case analyse in het voordeel van een meer geavanceerde methode, die alle statistieken pakketten kunnen uitvoeren (inderdaad is het meestal de standaard benadering voor het verwerken van ontbrekende waarden), moeten we stoppen en nadenken over de vraag of het mogelijk is dat onze volledige case resultaten daadwerkelijk ok zijn (vanuit een bias perspectief). Het is echter belangrijk om te zeggen dat zelfs wanneer volledige case analyse onbevooroordeeld is, het inefficiënt is – het gooit alle informatie weg in de onvolledige gevallen.

p. s. Oktober 2015-Dit artikel dat ik medeauteur ben, kan interessant zijn-asymptotisch onbevooroordeelde schatting van de belichtingskansratio ‘ s in complete records logistische regressie

u bent misschien ook geïnteresseerd in:

  • on-line cursus-statistische analyse met ontbrekende gegevens met behulp van R

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.