când este analiza completă a cazurilor imparțială?
domeniul meu principal de cercetare este cel al datelor lipsă. Datele lipsă sunt o problemă comună în cercetarea empirică. În biostatistică datele lipsă sunt aproape omniprezente-pacienții adesea nu se întorc la vizite conform planificării, din mai multe motive. În sondaje participanții se pot deplasa între undele sondajului, pierdem contactul cu ei, astfel încât ne lipsesc răspunsurile lor la întrebările pe care le-am fi dorit să le punem.
datele lipsă provoacă întotdeauna, într-o măsură mai mică sau mai mare, o pierdere de informații. Manifestările acestui lucru sunt erori standard mai mari și intervale de încredere mai largi pentru estimările parametrilor. Dar o consecință, fără îndoială, mai importantă este că datele lipsă pot induce părtinire în estimările noastre, cu excepția cazului în care lipsa nu are legătură cu variabilele implicate în analiza noastră (așa-numita ipoteză lipsă complet la întâmplare).
există o gamă largă de tehnici statistice pentru acomodarea datelor lipsă (a se vedea www.missingdata.org.uk). Poate că cel mai frecvent adoptat este să excludem pur și simplu acei participanți din setul nostru de date care au date lipsă (în acele variabile care ne preocupă) din analiza noastră. Aceasta este ceea ce este cunoscut în mod obișnuit ca o ‘analiză completă a cazurilor’ sau ‘ștergere listwise’ – analizăm doar cazurile complete. Am dat recent un seminar (slide-uri aici) la LSHTM despre atunci când o analiză de caz complet este imparțială și o metodă de îmbunătățire a eficienței analizei de caz complet. În această postare voi descrie primul aspect, acela al momentului în care o analiză completă a cazului este imparțială.
lipsește complet la întâmplare
după cum am menționat mai devreme, dacă datele lipsesc complet aleatoriu, ceea ce înseamnă că șansa ca datele să lipsească nu are legătură cu niciuna dintre variabilele implicate în analiza noastră, o analiză completă a cazului este imparțială. Acest lucru se datorează faptului că subsetul de cazuri complete reprezintă un eșantion aleatoriu (deși mai mic decât cel prevăzut) din populație.
în general, dacă cazurile complete sunt sistematic diferite de eșantionul în ansamblu (adică diferite de cazurile incomplete), adică. datele nu lipsesc complet aleatoriu, analizând doar cazurile complete va duce la estimări părtinitoare.
de exemplu, să presupunem că suntem interesați să estimăm venitul mediu al unei anumite populații. Trimitem un e-mail solicitând completarea unui chestionar, printre care participanții sunt rugați să spună cât câștigă. Dar numai o parte din eșantionul țintă returnează chestionarul și, prin urmare, avem venituri lipsă pentru restul oamenilor. Dacă cei care au returnat un răspuns la întrebarea privind venitul au venituri sistematic mai mari sau mai mici decât cei care nu au returnat un răspuns, venitul mediu al cazurilor complete va fi părtinitor.
validitate completă a analizei cazului atunci când datele nu sunt MCAR
cu toate acestea, în unele cazuri, o analiză completă a cazului poate oferi de fapt estimări imparțiale chiar și atunci când datele nu lipsesc complet aleatoriu. Una dintre aceste setări este aceea în care analiza noastră constă în montarea unui model de regresie, raportând distribuția unor rezultate Y (sau variabilă dependentă) la unul sau mai mulți predictori (sau variabile independente) X (aici X ar putea consta dintr-un număr de predictori). Exemple de astfel de modele sunt regresia liniară pentru rezultate continue și regresia logistică pentru rezultate binare. Când apare lipsa fie în rezultatul Y, unul sau mai mulți dintre predictorii X, sau potențial ambii, potrivirea modelului de regresie la cazurile complete este imparțială, cu condiția ca probabilitatea de a fi un caz complet să fie independentă de Y, condiționată de X (vezi diapozitivele aici pentru o explicație a motivului).
în unele situații, cum ar fi studiile de cohortă, în care oamenii sunt urmăriți în timp, această condiție ar putea fi presupusă în mod rezonabil să dețină. De exemplu, să presupunem că X sunt factori măsurați de subiecți la recrutare în studiul de cohortă și că rezultatul Y este măsurat la ceva timp după recrutare. Să presupunem că unul dintre predictorii din X are valori lipsă. Atunci lipsa în X nu poate fi cauzată direct de Y, deoarece valoarea viitoare a lui Y nu este încă determinată. Lipsa în X este fie cauzată de valoarea lui X în sine, fie de alți factori/variabile. Numai dacă lipsa este cauzată de astfel de alți factori, iar acești factori afectează în mod independent rezultatul Y, analiza completă a cazului va fi părtinitoare.
din păcate, așa cum se întâmplă de obicei în analizele datelor lipsă, această presupunere despre lipsă nu poate fi confirmată definitiv folosind datele la îndemână – pentru a face acest lucru, ar trebui să avem datele lipsă disponibile. Cu toate acestea, în unele cazuri, presupunerea că lipsa este independentă de rezultat, după ajustarea pentru predictori, ar putea fi considerată plauzibilă. În acest caz, deși analiza completă a cazurilor nu este eficientă în mod optim (aruncă datele din cazurile incomplete), este cel puțin imparțială.
concluzie
deci, pentru o anumită analiză, înainte de a renunța la umila analiză completă a cazului în favoarea unei metode mai sofisticate, pe care toate pachetele de statistici o pot efectua (într-adevăr este de obicei abordarea implicită pentru manipularea valorilor lipsă), ar trebui să ne oprim și să ne gândim dacă este posibil ca rezultatele noastre complete ale cazului să fie de fapt ok (dintr-o perspectivă părtinitoare). Este important să spunem totuși că, chiar și atunci când analiza completă a cazului este imparțială, este ineficientă – aruncă toate informațiile în cazurile incomplete.
p.s. Octombrie 2015-această lucrare pe care am co-autor poate fi de interes – estimare asimptotică imparțială a ratelor de cote de expunere în înregistrări complete regresie logistică
ați putea fi, de asemenea, interesat de:
- curs Online-analiză statistică cu date lipsă folosind R