¿Cuándo se completa el análisis de casos imparcial?
Mi área de investigación principal es la de los datos faltantes. La falta de datos es un problema común en la investigación empírica. Dentro de la bioestadística, los datos que faltan son casi omnipresentes: los pacientes a menudo no regresan a las visitas según lo planeado, por una variedad de razones. En las encuestas, los participantes pueden moverse entre oleadas de encuestas, perdemos el contacto con ellos, de modo que nos faltan sus respuestas a las preguntas que nos hubiera gustado hacerles.
La falta de datos siempre causa, en menor o mayor medida, una pérdida de información. Las manifestaciones de esto son errores estándar más grandes e intervalos de confianza más amplios para las estimaciones de parámetros. Pero una consecuencia posiblemente más importante es que la falta de datos puede inducir un sesgo en nuestras estimaciones, a menos que la falta de información no esté relacionada con las variables involucradas en nuestro análisis (la suposición de falta completamente aleatoria).
Hay una amplia gama de técnicas estadísticas para acomodar los datos faltantes (ver www.missingdata.org.uk). Tal vez la más comúnmente adoptada es simplemente excluir de nuestro análisis a aquellos participantes en nuestro conjunto de datos a los que les falten datos (en las variables que nos preocupan). Esto es lo que comúnmente se conoce como “análisis completo de casos” o “eliminación listwise”: analizamos solo los casos completos. Recientemente di un seminario (diapositivas aquí) en LSHTM sobre cuándo un análisis de caso completo es imparcial y un método para mejorar la eficiencia del análisis de caso completo. En este post describiré el primer aspecto, el de cuando un análisis de caso completo es imparcial.
Falta completamente al azar
Como señalé anteriormente, si faltan datos completos al azar, lo que significa que la posibilidad de que falten datos no está relacionada con ninguna de las variables involucradas en nuestro análisis, un análisis de caso completo es imparcial. Esto se debe a que el subconjunto de casos completos representa una muestra aleatoria (aunque más pequeña de lo previsto) de la población.
En general, si los casos completos son sistemáticamente diferentes de la muestra en su conjunto (es decir, diferentes de los casos incompletos), p. ej. los datos no faltan completamente al azar, el análisis de solo los casos completos dará lugar a estimaciones sesgadas.
Por ejemplo, supongamos que estamos interesados en estimar el ingreso medio de la población. Enviamos un correo electrónico pidiendo que se complete un cuestionario, entre el que se pide a los participantes que digan cuánto ganan. Pero solo una parte de la muestra objetivo devuelve el cuestionario, por lo que tenemos ingresos faltantes para las personas restantes. Si los que respondieron a la pregunta de ingresos tienen sistemáticamente ingresos más altos o más bajos que los que no respondieron, el ingreso medio de los casos completos estará sesgado.
Validez del análisis de casos completo cuando los datos no son MCAR
Sin embargo, en algunos casos, un análisis de casos completo puede dar estimaciones imparciales incluso cuando los datos no faltan completamente al azar. Una de estas configuraciones es aquella en la que nuestro análisis consiste en ajustar un modelo de regresión, relacionando la distribución de algún resultado Y (o variable dependiente) con uno o más predictores (o variables independientes) X (aquí X podría consistir en un número de predictores). Ejemplos de tales modelos son la regresión lineal para resultados continuos y la regresión logística para resultados binarios. Cuando se produce falta de presencia en el resultado Y, uno o más de los predictores X, o potencialmente ambos, ajustar el modelo de regresión a los casos completos es imparcial, siempre que la probabilidad de ser un caso completo sea independiente de Y, condicional a X (vea las diapositivas aquí para una explicación de por qué).
En algunos entornos, como los estudios de cohortes, donde se hace un seguimiento de las personas a lo largo del tiempo, se podría suponer razonablemente que esta afección se mantiene. Por ejemplo, supongamos que X son factores medidos de los sujetos en el reclutamiento en el estudio de cohortes, y que el resultado Y se mide algún tiempo después del reclutamiento. Supongamos que uno de los predictores en X tiene valores faltantes. Entonces la pérdida en X no puede ser causada directamente por Y, ya que el valor futuro de Y aún no se ha determinado. La falta de presencia en X es causada por el valor de X en sí, o por otros factores/variables. Solo si el desaprovechamiento es causado por otros factores, y estos factores afectan independientemente el resultado Y, el análisis de caso completo será sesgado.
Desafortunadamente, como suele ser el caso en los análisis de datos faltantes, esta suposición sobre la falta de información no se puede confirmar definitivamente utilizando los datos disponibles; para hacer esto, necesitaríamos tener los datos faltantes disponibles. Sin embargo, en algunos casos, la suposición de que la falta de información es independiente del resultado, después de ajustar para los predictores, podría considerarse plausible. En este caso, si bien el análisis completo de casos no es lo más eficiente posible (elimina los datos de casos incompletos), es al menos imparcial.
Conclusión
Por lo tanto, para un análisis en particular, antes de abandonar el humilde análisis completo de casos en favor de algún método más sofisticado, que todos los paquetes de estadísticas pueden realizar (de hecho, normalmente es el enfoque predeterminado para manejar los valores faltantes), debemos detenernos y pensar si es posible que los resultados completos de nuestros casos realmente estén bien (desde una perspectiva de sesgo). Sin embargo, es importante decir que incluso cuando el análisis de casos completo es imparcial, es ineficiente, ya que elimina toda la información en los casos incompletos.
p. s. Octubre de 2015-este artículo del que soy coautor puede ser de interés – Estimación asintóticamente imparcial de las odds ratios de exposición en registros completos regresión logística
También puede interesarle:
- Curso en línea-Análisis Estadístico con Datos Faltantes utilizando R