Wann ist die vollständige Fallanalyse unvoreingenommen?
Mein primäres Forschungsgebiet ist das der fehlenden Daten. Fehlende Daten sind ein häufiges Problem in der empirischen Forschung. In der Biostatistik sind fehlende Daten fast allgegenwärtig – Patienten kommen aus verschiedenen Gründen oft nicht wie geplant zu Besuchen zurück. In Umfragen können sich die Teilnehmer zwischen den Umfragewellen bewegen, wir verlieren den Kontakt zu ihnen, so dass wir ihre Antworten auf die Fragen vermissen, die wir ihnen gerne gestellt hätten.
Fehlende Daten führen immer zu einem geringeren oder größeren Informationsverlust. Die Manifestationen davon sind größere Standardfehler und breitere Konfidenzintervalle für Parameterschätzungen. Eine wohl wichtigere Konsequenz ist jedoch, dass fehlende Daten zu Verzerrungen in unseren Schätzungen führen können, es sei denn, das Fehlen steht in keinem Zusammenhang mit den Variablen, die an unserer Analyse beteiligt sind (die sogenannte fehlende völlig zufällige Annahme).
Es gibt eine Vielzahl statistischer Techniken, um fehlende Daten zu berücksichtigen (siehe www.missingdata.org.uk). Vielleicht wird am häufigsten angenommen, dass diejenigen Teilnehmer in unserem Datensatz, denen Daten fehlen (in den Variablen, mit denen wir uns befassen), einfach von unserer Analyse ausgeschlossen werden. Dies wird allgemein als ‘vollständige Fallanalyse’ oder ‘listenweises Löschen’ bezeichnet – wir analysieren nur die vollständigen Fälle. Ich habe kürzlich ein Seminar (Folien hier) bei LSHTM darüber gegeben, wann eine vollständige Fallanalyse unvoreingenommen ist und eine Methode zur Verbesserung der Effizienz einer vollständigen Fallanalyse. In diesem Beitrag werde ich den ersten Aspekt beschreiben, wenn eine vollständige Fallanalyse unvoreingenommen ist.
Fehlt völlig zufällig
Wie bereits erwähnt, ist eine vollständige Fallanalyse unvoreingenommen, wenn Daten vollständig zufällig fehlen, was bedeutet, dass die Wahrscheinlichkeit, dass Daten fehlen, nicht mit einer der an unserer Analyse beteiligten Variablen zusammenhängt. Dies liegt daran, dass die Teilmenge der vollständigen Fälle eine zufällige (wenn auch kleinere als beabsichtigte) Stichprobe aus der Grundgesamtheit darstellt.
Im Allgemeinen, wenn sich die vollständigen Fälle systematisch von der Stichprobe als Ganzes unterscheiden (d. H. sich von den unvollständigen Fällen unterscheiden), d. H. die Daten fehlen nicht völlig zufällig, die Analyse nur der vollständigen Fälle führt zu voreingenommenen Schätzungen.
Angenommen, wir sind an der Schätzung des Medianeinkommens der Gesamtbevölkerung interessiert. Wir senden eine E-Mail mit der Bitte, einen Fragebogen auszufüllen, in dem die Teilnehmer aufgefordert werden, anzugeben, wie viel sie verdienen. Aber nur ein Teil der Zielstichprobe gibt den Fragebogen zurück, und so haben wir fehlende Einkommen für die verbleibenden Personen. Wenn diejenigen, die eine Antwort auf die Einkommensfrage gaben, systematisch höhere oder niedrigere Einkommen haben als diejenigen, die keine Antwort gaben, wird das mittlere Einkommen der vollständigen Fälle voreingenommen sein.
Gültigkeit der vollständigen Fallanalyse, wenn die Daten nicht MCAR sind
In einigen Fällen kann eine vollständige Fallanalyse jedoch tatsächlich unvoreingenommene Schätzungen liefern, selbst wenn die Daten nicht vollständig zufällig fehlen. Eine dieser Einstellungen ist die, bei der unsere Analyse darin besteht, ein Regressionsmodell anzupassen und die Verteilung eines Ergebnisses Y (oder einer abhängigen Variablen) mit einem oder mehreren Prädiktoren (oder unabhängigen Variablen) X in Beziehung zu setzen (hier könnte X aus einer Reihe von Prädiktoren bestehen). Beispiele für solche Modelle sind die lineare Regression für kontinuierliche Ergebnisse und die logistische Regression für binäre Ergebnisse. Wenn entweder das Ergebnis Y, einer oder mehrere der Prädiktoren X oder möglicherweise beide fehlen, ist die Anpassung des Regressionsmodells an die vollständigen Fälle unvoreingenommen, vorausgesetzt, die Wahrscheinlichkeit, ein vollständiger Fall zu sein, ist unabhängig von Y und von X abhängig (siehe die Folien hier für eine Erklärung, warum).
In einigen Umgebungen, z. B. Kohortenstudien, in denen Personen im Laufe der Zeit nachverfolgt werden, kann davon ausgegangen werden, dass dieser Zustand anhält. Angenommen, X sind Faktoren, die an Probanden bei der Rekrutierung in die Kohortenstudie gemessen wurden, und das Ergebnis Y wird einige Zeit nach der Rekrutierung gemessen. Angenommen, einer der Prädiktoren in X hat fehlende Werte. Dann kann das Fehlen in X nicht direkt durch Y verursacht werden, da der zukünftige Wert von Y noch bestimmt werden muss. Das Fehlen von X wird entweder durch den Wert von X selbst oder durch andere Faktoren / Variablen verursacht. Nur wenn das Fehlen durch solche anderen Faktoren verursacht wird und diese Faktoren das Ergebnis Y unabhängig beeinflussen, wird die vollständige Fallanalyse voreingenommen sein.
Leider lässt sich diese Annahme über das Fehlen, wie es bei Analysen fehlender Daten üblich ist, mit den vorliegenden Daten nicht endgültig bestätigen – dazu müssten wir die fehlenden Daten zur Verfügung haben. In einigen Fällen kann jedoch die Annahme, dass das Fehlen unabhängig vom Ergebnis ist, nach Anpassung an die Prädiktoren als plausibel angesehen werden. In diesem Fall ist eine vollständige Fallanalyse zwar nicht optimal effizient (sie wirft die Daten aus unvollständigen Fällen weg), aber zumindest unvoreingenommen.
Fazit
Bevor wir also für eine bestimmte Analyse die bescheidene vollständige Fallanalyse zugunsten einer ausgefeilteren Methode aufgeben, die alle Statistikpakete ausführen können (in der Tat ist dies normalerweise der Standardansatz für den Umgang mit fehlenden Werten), sollten wir innehalten und darüber nachdenken, ob es möglich ist, dass unsere vollständigen Fallergebnisse tatsächlich in Ordnung sind (aus einer Voreingenommenheitsperspektive). Es ist jedoch wichtig zu sagen, dass selbst wenn eine vollständige Fallanalyse unvoreingenommen ist, sie ineffizient ist – sie wirft alle Informationen in den unvollständigen Fällen weg.
p.s. Oktober 2015 – dieser Artikel, den ich mitverfasst habe, könnte von Interesse sein – Asymptotisch unvoreingenommene Schätzung der Exposure Odds Ratios in vollständigen Datensätzen logistische Regression
Das könnte Sie auch interessieren:
- Online-Kurs – Statistische Analyse mit fehlenden Daten mit R