When is complete case analysis unbiased?

minha área de pesquisa primária é a de dados em falta. Dados em falta são uma questão comum na pesquisa empírica. Dentro da bioestatística os dados em falta são quase onipresentes-pacientes muitas vezes não voltam às visitas como planejado, por uma variedade de razões. Em pesquisas os participantes podem mover-se entre as ondas de pesquisa, perdemos contato com eles, de modo que estamos perdendo as respostas às perguntas que gostaríamos de ter feito.Dados em falta causam sempre, em menor ou maior grau, uma perda de informação. As manifestações disso são erros padrão maiores e intervalos de confiança mais amplos para as estimativas de parâmetros. Mas uma consequência indiscutivelmente mais importante é que os dados em falta podem induzir o viés em nossas estimativas, a menos que o missingness não esteja relacionado com as variáveis envolvidas em nossa análise (o chamado desaparecimento completamente na suposição aleatória).

há uma vasta gama de técnicas estatísticas para acomodar dados em falta (ver www.missingdata.org.uk). Talvez o mais comumente adotado seja simplesmente excluir aqueles participantes em nosso conjunto de dados que têm quaisquer dados em falta (naquelas variáveis com as quais estamos preocupados) de nossa análise. Isto é o que é comumente conhecido como uma “análise de caso completa” ou “exclusão listwise” – nós analisamos apenas os casos completos. Eu recentemente dei um seminário (slides aqui) no LSHTM sobre quando uma análise de caso completa é imparcial e um método para melhorar a eficiência da análise de caso completo. Neste post vou descrever o primeiro aspecto, o de quando uma análise de caso completa é imparcial.

Faltando completamente aleatório
Como eu disse anteriormente, se há falta de dados completos aleatoriamente, o que significa que a chance de dados estar faltando é não relacionada com qualquer das variáveis envolvidas na análise, uma completa análise de caso é imparcial. Isto é porque o subconjunto de casos completos representam uma amostra aleatória (embora menor do que o previsto) da população.Em geral, se os casos completos forem sistematicamente diferentes da amostra como um todo (ou seja, diferentes dos casos incompletos), isto é, se os casos completos forem sistematicamente diferentes da amostra como um todo. os dados não estão faltando completamente aleatoriamente, analisando apenas os casos completos levará a estimativas tendenciosas.

por exemplo, suponha que estamos interessados em estimar o rendimento médio de alguma população. Nós enviamos um e-mail pedindo um questionário para ser preenchido, entre os quais os participantes são convidados a dizer quanto eles ganham. Mas apenas uma parte da amostra-alvo devolve o questionário, pelo que nos faltam rendimentos para as restantes pessoas. Se os que responderam à questão do rendimento tiverem rendimentos sistematicamente superiores ou inferiores aos que não responderam, o rendimento médio dos casos completos será tendencioso.

validade completa da análise de casos quando os dados não são MCAR
no entanto, em alguns casos, uma análise completa de casos pode realmente dar estimativas imparciais mesmo quando os dados não estão faltando completamente aleatoriamente. Uma dessas configurações é aquela em que nossa análise consiste em ajustar um modelo de regressão, relacionando a distribuição de algum resultado Y (ou variável dependente) a um ou mais predictores (ou variáveis independentes) X (Aqui X poderia consistir de um número de predictores). Exemplos de tais modelos são regressão linear para resultados contínuos e regressão logística para resultados binários. Quando missingness ocorre no resultado Y, um ou mais dos preditores X, ou potencialmente ambos, o ajuste do modelo de regressão para a completa casos é imparcial desde a probabilidade de ser um completo caso é independente de Y, condicional em X (veja os slides aqui para uma explicação do porquê).

em alguns contextos, tais como estudos de coorte, onde as pessoas são seguidas ao longo do tempo, esta condição pode ser razoavelmente assumida como válida. Por exemplo, suponha que X são fatores medidos dos indivíduos no recrutamento para o estudo de coorte, e que o resultado Y é medido algum tempo após o recrutamento. Suponha que um dos predictores em X tem valores em falta. Então o missingness em X não pode ser causado diretamente por Y, uma vez que o valor futuro de Y ainda está para ser determinado. O Missingness em X é causado pelo valor de X em si, ou por outros fatores/variáveis. Somente se o missingness for causado por tais outros fatores, e estes fatores afetam independentemente o resultado Y, a análise de caso completa será tendenciosa.

infelizmente, como é geralmente o caso em análises de dados em falta, esta suposição sobre o missingness não pode ser confirmada definitivamente usando os dados em mãos-para fazer isso, precisaríamos ter os dados em falta disponíveis. No entanto, em alguns casos, a suposição de que o missingness é independente do resultado, depois de ajustar para os predictores, pode ser considerada plausível. Neste caso, embora a análise de casos completa não seja otimicamente eficiente (ela joga fora os dados de casos incompletos), é pelo menos imparcial.

Conclusão
Assim, para uma análise particular, antes de abandonar o humilde concluir a análise de cada caso em favor de alguns métodos mais sofisticados, que todas as estatísticas de pacotes pode executar (na verdade, é normalmente a abordagem padrão para a manipulação de valores em falta), devemos parar e pensar se é possível que o nosso completo, caso os resultados podem ser, na verdade ok (a partir de um viés perspectiva). É importante dizer, no entanto, que mesmo quando a análise de caso completa é imparcial, é ineficiente – ele joga fora toda a informação nos casos incompletos.

p. s. De outubro de 2015, – este papel, eu co-autoria podem ser de seu interesse – Assintoticamente imparcial de avaliação estimativa de exposição odds ratios em registros completos de regressão logística

Você também pode estar interessado em:

  • curso On-line – Análise Estatística com Dados em Falta com R

Deixe uma resposta

O seu endereço de email não será publicado.