mikor teljes esetelemzés elfogulatlan?
elsődleges kutatási területem a hiányzó adatok. A hiányzó adatok gyakori kérdés az empirikus kutatásban. A biostatisztikán belül a hiányzó adatok szinte mindenütt jelen vannak-a betegek gyakran nem térnek vissza a tervezett látogatásokra, különféle okokból. A felmérésekben a résztvevők mozoghatnak a felmérési hullámok között, elveszítjük velük a kapcsolatot, oly módon, hogy hiányzik a válaszuk azokra a kérdésekre, amelyeket szerettünk volna feltenni nekik.
a hiányzó adatok kisebb vagy nagyobb mértékben mindig információvesztést okoznak. Ennek megnyilvánulásai a nagyobb standard hibák és a paraméterbecslések szélesebb konfidenciaintervallumai. De vitathatatlanul fontosabb következmény az, hogy a hiányzó adatok torzítást okozhatnak becsléseinkben, hacsak a hiányosság nincs összefüggésben az elemzésünkben részt vevő változókkal (az úgynevezett teljesen hiányzó véletlenszerű feltételezés).
statisztikai technikák széles skálája létezik a hiányzó adatok elhelyezésére (lásd www.missingdata.org.uk). Talán a leggyakrabban elfogadott az, hogy egyszerűen kizárjuk elemzésünkből azokat az adatkészletünk résztvevőit, akiknek hiányzik az adat (azokban a változókban, amelyekkel foglalkozunk). Ez az, amit általában ‘teljes esetelemzésnek’ vagy ‘listwise törlésnek’ neveznek – csak a teljes eseteket elemezzük. Nemrég adtam egy szemináriumot (diák itt) az LSHTM-ben arról, hogy mikor van egy teljes esetelemzés elfogulatlan és egy módszer a teljes esetelemzés hatékonyságának javítására. Ebben a bejegyzésben leírom az első szempontot, amikor a teljes esetelemzés elfogulatlan.
teljesen hiányzik véletlenszerűen
mint korábban megjegyeztem, ha az adatok hiányoznak véletlenszerűen, ami azt jelenti, hogy az adatok hiányának esélye nem függ össze az elemzésünkben részt vevő változókkal, a teljes esetelemzés elfogulatlan. Ennek oka az, hogy a teljes esetek részhalmaza véletlenszerű (bár a tervezettnél kisebb) mintát képvisel a populációból.
általában, ha a teljes esetek szisztematikusan eltérnek a minta egészétől (azaz eltérnek a hiányos esetektől), azaz. az adatok nem hiányoznak teljesen véletlenszerűen, csak a teljes esetek elemzése elfogult becslésekhez vezet.
tegyük fel például, hogy érdekli az egyes népesség medián jövedelmének becslése. Küldünk egy e-mailt, amelyben kérdőívet kell kitölteni, amelyek között a résztvevőket arra kérik, hogy mondják meg, mennyit keresnek. De a célmintának csak egy része adja vissza a kérdőívet, így a fennmaradó emberek számára hiányzik a jövedelem. Ha azok, akik válaszoltak a jövedelmi kérdésre, szisztematikusan magasabb vagy alacsonyabb jövedelemmel rendelkeznek, mint azok, akik nem válaszoltak, a teljes esetek medián jövedelme elfogult lesz.
teljes esetelemzés érvényessége, ha az adatok nem MCAR
bizonyos esetekben azonban a teljes esetelemzés valójában elfogulatlan becsléseket adhat, még akkor is, ha az adatok nem hiányoznak teljesen véletlenszerűen. Ezen beállítások egyike az, amelyben elemzésünk egy regressziós modell illesztéséből áll, valamilyen kimenetel eloszlását összekapcsolva Y (vagy függő változó) egy vagy több prediktorhoz (vagy független változóhoz) X (itt X számos prediktorból állhat). Ilyen modellek például a lineáris regresszió a folyamatos kimenetel és a logisztikai regresszió a bináris kimenetel esetében. Amikor a hiányosság az Y kimenetelben fordul elő, egy vagy több X prediktor, vagy potenciálisan mindkettő, a regressziós modellnek a teljes esetekhez való illesztése elfogulatlan, feltéve, hogy a teljes eset valószínűsége független Y-től, X-től függ (lásd a diákat itt a magyarázatért).
bizonyos körülmények között, például kohorszvizsgálatokban, ahol az embereket idővel követik nyomon, ez a feltétel ésszerűen feltételezhető, hogy fennáll. Tegyük fel például, hogy X az alanyok által a kohorsz vizsgálatba történő felvételkor mért tényezők, és hogy az Y eredményt valamivel a toborzás után mérik. Tegyük fel, hogy az X egyik előrejelzőjének hiányzik az értéke. Akkor az X-ben való hiányosságot nem okozhatja közvetlenül Y, mivel Y jövőbeli értékét még meg kell határozni. Az X-ben való hiányosságot vagy maga az X értéke okozza, vagy más tényezők/változók. Csak akkor, ha a hiányosságot ilyen egyéb tényezők okozzák, és ezek a tényezők függetlenül befolyásolják az eredményt Y, a teljes esetelemzés elfogult lesz.
sajnos, mint általában a hiányzó adatok elemzésekor, a hiányosságra vonatkozó feltételezést a rendelkezésre álló adatok felhasználásával nem lehet véglegesen megerősíteni – ehhez a hiányzó adatokra lenne szükség. Bizonyos esetekben azonban valószínűnek tekinthető az a feltételezés, hogy a hiányosság független az eredménytől, miután a prediktorokhoz igazították. Ebben az esetben, bár a teljes esetelemzés nem optimálisan hatékony (eldobja az adatokat a hiányos esetekből), legalább elfogulatlan.
következtetés
tehát egy adott elemzéshez, mielőtt a szerény teljes esetelemzést egy kifinomultabb módszer javára vetnénk, amelyet minden statisztikai csomag elvégezhet (valójában ez általában az alapértelmezett megközelítés a hiányzó értékek kezelésére), meg kell állnunk, és el kell gondolkodnunk azon, hogy lehetséges-e, hogy a teljes eset eredményeink valóban rendben vannak (elfogultság szempontjából). Fontos azonban azt mondani, hogy még akkor is, ha a teljes esetelemzés elfogulatlan, nem hatékony – eldobja az összes információt a hiányos esetekben.
p. sz. October 2015 – this paper I co-authored may be interest – aszimptotikusan elfogulatlan becslése expozíciós esélyhányados teljes rekordok logisztikai regresszió
Ön is érdekelt:
- Online tanfolyam-statisztikai elemzés hiányzó adatokkal r