Quando è completa l’analisi dei casi imparziale?

La mia principale area di ricerca è quella dei dati mancanti. I dati mancanti sono un problema comune nella ricerca empirica. All’interno della biostatistica i dati mancanti sono quasi onnipresenti – i pazienti spesso non tornano alle visite come previsto, per una serie di motivi. Nei sondaggi i partecipanti possono spostarsi tra le onde di indagine, perdiamo il contatto con loro, in modo tale che ci mancano le loro risposte alle domande che avremmo voluto chiedere loro.

I dati mancanti causano sempre, in misura minore o maggiore, una perdita di informazioni. Le manifestazioni di questo sono errori standard più grandi e intervalli di confidenza più ampi per le stime dei parametri. Ma una conseguenza probabilmente più importante è che i dati mancanti possono indurre pregiudizi nelle nostre stime, a meno che la mancanza non sia correlata alle variabili coinvolte nella nostra analisi (la cosiddetta assenza completamente casuale).

Esiste una vasta gamma di tecniche statistiche per la gestione dei dati mancanti (vedi www.missingdata.org.uk). Forse il più comunemente adottato è semplicemente escludere quei partecipanti nel nostro set di dati che hanno dati mancanti (in quelle variabili di cui ci occupiamo) dalla nostra analisi. Questo è ciò che è comunemente noto come “analisi completa dei casi” o “cancellazione listwise” – analizziamo solo i casi completi. Recentemente ho tenuto un seminario (diapositive qui) a LSHTM su quando un’analisi completa del caso è imparziale e un metodo per migliorare l’efficienza dell’analisi completa del caso. In questo post descriverò il primo aspetto, quello di quando un’analisi completa del caso è imparziale.

Manca completamente a caso
Come ho notato in precedenza, se i dati mancano in modo casuale, il che significa che la possibilità che i dati manchino non è correlata a nessuna delle variabili coinvolte nella nostra analisi, un’analisi completa del caso è imparziale. Questo perché il sottoinsieme di casi completi rappresenta un campione casuale (anche se più piccolo del previsto) dalla popolazione.

In generale, se i casi completi sono sistematicamente diversi dal campione nel suo insieme (cioè diversi dai casi incompleti), vale a dire i dati non mancano del tutto in modo casuale, analizzando solo i casi completi porterà a stime di parte.

Ad esempio, supponiamo di essere interessati a stimare il reddito mediano della popolazione. Inviamo una e-mail chiedendo un questionario da compilare, tra i quali i partecipanti sono invitati a dire quanto guadagnano. Ma solo una parte del campione target restituisce il questionario, e quindi abbiamo redditi mancanti per le persone rimanenti. Se quelli che hanno restituito una risposta alla domanda di reddito hanno sistematicamente redditi più alti o più bassi rispetto a quelli che non hanno restituito una risposta, il reddito mediano dei casi completi sarà parziale.

Validità completa dell’analisi dei casi quando i dati non sono MCAR
Tuttavia, in alcuni casi, un’analisi completa dei casi può effettivamente fornire stime imparziali anche quando i dati non mancano completamente in modo casuale. Una di queste impostazioni è quella in cui la nostra analisi consiste nel montare un modello di regressione, mettendo in relazione la distribuzione di alcuni risultati Y (o variabile dipendente) a uno o più predittori (o variabili indipendenti) X (qui X potrebbe essere costituito da un numero di predittori). Esempi di tali modelli sono la regressione lineare per risultati continui e la regressione logistica per risultati binari. Quando la mancanza si verifica nel risultato Y, uno o più dei predittori X, o potenzialmente entrambi, l’adattamento del modello di regressione ai casi completi è imparziale a condizione che la probabilità di essere un caso completo sia indipendente da Y, condizionale su X (vedere le diapositive qui per una spiegazione del perché).

In alcune impostazioni, come gli studi di coorte, in cui le persone vengono seguite nel tempo, questa condizione potrebbe essere ragionevolmente considerata valida. Ad esempio, supponiamo che X siano fattori misurati dei soggetti al momento del reclutamento nello studio di coorte e che il risultato Y sia misurato qualche tempo dopo il reclutamento. Supponiamo che uno dei predittori in X abbia valori mancanti. Quindi la mancanza in X non può essere causata direttamente da Y, poiché il valore futuro di Y deve ancora essere determinato. La mancanza in X è causata dal valore di X stesso o da altri fattori/variabili. Solo se la mancanza è causata da tali altri fattori, e questi fattori influenzano in modo indipendente il risultato Y, l’analisi completa del caso sarà parziale.

Sfortunatamente, come di solito accade nelle analisi dei dati mancanti, questa ipotesi sulla mancanza non può essere definitivamente confermata usando i dati a portata di mano – per fare ciò avremmo bisogno di avere i dati mancanti disponibili. Tuttavia, in alcuni casi l’ipotesi che la mancanza sia indipendente dal risultato, dopo la regolazione per i predittori, potrebbe essere ritenuta plausibile. In questo caso, mentre l’analisi completa del caso non è ottimamente efficiente (getta via i dati da casi incompleti), è almeno imparziale.

Conclusione
Quindi, per una particolare analisi, prima di abbandonare l’umile analisi completa del caso a favore di un metodo più sofisticato, che tutti i pacchetti stats possono eseguire (in effetti è tipicamente l’approccio predefinito per la gestione dei valori mancanti), dovremmo fermarci e pensare se è possibile che i nostri risultati completi del caso possano effettivamente essere ok (da una prospettiva di bias). È importante dire tuttavia che anche quando l’analisi completa del caso è imparziale, è inefficiente – getta via tutte le informazioni nei casi incompleti.

p.s. Ottobre 2015-questo articolo che ho co-scritto potrebbe essere di interesse-Stima asintoticamente imparziale dei rapporti di probabilità di esposizione in record completi regressione logistica

Potresti anche essere interessato a:

  • Corso online-Analisi statistica con dati mancanti utilizzando R

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.