kdy je kompletní analýza případu nezaujatá?

Moje primární výzkumná oblast je oblast chybějících dat. Chybějící data jsou běžným problémem empirického výzkumu. V rámci biostatistiky jsou chybějící údaje téměř všudypřítomné-pacienti se často nevracejí na Návštěvy podle plánu z různých důvodů. V průzkumech se účastníci mohou pohybovat mezi vlnami průzkumu, ztrácíme s nimi kontakt, takže nám chybí jejich odpovědi na otázky, které bychom jim rádi položili.

chybějící údaje vždy způsobují v menší či větší míře ztrátu informací. Projevem toho jsou větší standardní chyby a širší intervaly spolehlivosti pro odhady parametrů. Ale pravděpodobně více důležitým důsledkem je, že chybí údaje, může vyvolat zkreslení v našich odhadů, pokud missingness nesouvisí s proměnných zahrnutých v naší analýze (tzv. chybějící zcela náhodně předpoklad).

existuje široká škála statistických technik pro přizpůsobení chybějících dat (viz www.missingdata.org.uk). Snad nejčastěji přijatým je jednoduše vyloučit ty účastníky v našem datovém souboru, kteří mají z naší analýzy chybějící data (v těch proměnných, o které se zajímáme). To je to, co se běžně nazývá “kompletní analýza případů “nebo” vymazání seznamu ” – analyzujeme pouze úplné případy. Nedávno jsem na LSHTM uspořádal seminář (snímky zde) o tom, kdy je kompletní analýza případů nezaujatá, a o metodě pro zlepšení účinnosti úplné analýzy případů. V tomto příspěvku popíšu první aspekt, kdy je úplná analýza případů nezaujatá.

Chybějící zcela náhodně
Jak jsem poznamenal dříve, pokud chybí údaje vyplňte náhodně, což znamená, že šance, že data budou chybět nesouvisí s žádnou z proměnných zahrnutých do naší analýzy, kompletní analýzu případu je objektivní. Je to proto, že podmnožina úplných případů představuje náhodný (i když menší, než bylo zamýšleno) vzorek z populace.

obecně, pokud se úplné případy systematicky liší od vzorku jako celku (tj. liší se od neúplných případů), tj. data nechybí zcela náhodně, analýza pouze úplných případů povede k zkresleným odhadům.

Předpokládejme například, že máme zájem odhadnout střední příjem některé populace. Zašleme e-mail s žádostí o vyplnění dotazníku, mezi nimiž jsou účastníci požádáni, aby řekli, kolik vydělávají. Dotazník ale vrací jen část cílového vzorku, a tak zbývajícím lidem chybí příjmy. Pokud ti, kteří vrátili odpověď na příjmovou otázku, mají systematicky vyšší nebo nižší příjmy než ti, kteří odpověď nevrátili, bude medián příjmu úplných případů zkreslený.

úplná platnost analýzy případů, pokud data nejsou MCAR
v některých případech však může úplná analýza případů skutečně poskytnout nezaujaté odhady, i když data nechybí zcela náhodně. Jeden z těchto nastavení je, že v nichž naše analýza se skládá z kování regresní model, vztahující se k distribuci nějaký výsledek Y (nebo závislá proměnná) na jeden nebo více prediktorů (nezávislých proměnných) X (zde X se může skládat z několika prediktorů). Příklady takových modelů jsou lineární regrese pro kontinuální výsledky a logistická regrese pro binární výsledky. Když missingness se vyskytuje buď ve výsledku Y, jeden nebo více prediktorů X, případně oba, montáž regresní model kompletní případech je objektivní za předpokladu, že pravděpodobnost toho, že komplexní případě je nezávislý na Y, za podmínky, že X (viz snímky zde pro vysvětlení, proč).

V některých nastavení, například kohortové studie, kde lidé jsou sledovány v průběhu času, tento stav by mohl být důvodně předpokládat držet. Předpokládejme například, že X jsou faktory měřené subjekty při náboru do kohortní studie a že výsledek Y se měří nějaký čas po náboru. Předpokládejme, že jeden z prediktorů v X má chybějící hodnoty. Pak missingness v X nemůže být přímo způsobena Y, protože budoucí hodnota Y je ještě třeba určit. Missingness v X je buď způsobena hodnotou samotného X, nebo jinými faktory / proměnnými. Pouze pokud je vynechání způsobeno takovými jinými faktory a tyto faktory nezávisle ovlivňují výsledek Y, bude kompletní analýza případů zkreslená.

bohužel, jak je tomu obvykle v analýzách chybějících údajů, nelze tento předpoklad o chybějícím stavu definitivně potvrdit pomocí dostupných údajů – k tomu bychom potřebovali mít chybějící údaje k dispozici. Nicméně, v některých případech předpoklad, že missingness je nezávislý na výsledku, po úpravě pro prediktory, může být považován za věrohodný. V tomto případě, i když úplná analýza případů není optimálně efektivní (zahodí data z neúplných případů), je přinejmenším nezaujatá.

Závěr
Takže, pro konkrétní analýzu, než jsme se zbavit pokorný kompletní analýzu případu ve prospěch nějaké sofistikovanější metody, které všechny statistiky balíčků může provádět (ve skutečnosti to je obvykle výchozí přístup pro zpracování chybějících hodnot), bychom se měli zastavit a přemýšlet o tom, zda je možné, že náš kompletní případ, výsledky mohou být skutečně ok (od zkreslení perspektivy). Je však důležité říci, že i když je úplná analýza případů nezaujatá, je neefektivní – zahodí všechny informace v neúplných případech.

s. s. Říjen 2015 – tento papír jsem spoluautorem, a to může být zajímavé – Asymptoticky nestranný odhad expozice kurzy poměry v úplné záznamy logistické regrese

Ty mohou být také zájem:

  • on-Line kurz – Statistické Analýzy s Chybějící Data pomocí R

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.