Quand l’analyse complète des cas est-elle impartiale?
Mon principal domaine de recherche est celui des données manquantes. Les données manquantes sont un problème courant dans la recherche empirique. Au sein de la biostatistique, les données manquantes sont presque omniprésentes – les patients ne reviennent souvent pas aux visites comme prévu, pour diverses raisons. Dans les enquêtes, les participants peuvent se déplacer entre les vagues d’enquête, nous perdons le contact avec eux, de sorte que nous manquons leurs réponses aux questions que nous aurions aimé leur poser.
Les données manquantes entraînent toujours, dans une moindre ou plus grande mesure, une perte d’information. Cela se manifeste par des erreurs-types plus importantes et des intervalles de confiance plus larges pour les estimations de paramètres. Mais une conséquence sans doute plus importante est que les données manquantes peuvent induire un biais dans nos estimations, à moins que l’absence ne soit sans rapport avec les variables impliquées dans notre analyse (l’hypothèse dite manquante complètement au hasard).
Il existe une vaste gamme de techniques statistiques pour tenir compte des données manquantes (voir www.missingdata.org.uk ). Le plus couramment adopté est peut-être d’exclure simplement de notre analyse les participants de notre ensemble de données qui ont des données manquantes (dans les variables qui nous concernent). C’est ce que l’on appelle communément une “analyse de cas complète” ou une “suppression par liste” – nous analysons uniquement les cas complets. J’ai récemment donné un séminaire (diapositives ici) à LSHTM sur le moment où une analyse de cas complète est impartiale et une méthode pour améliorer l’efficacité de l’analyse de cas complète. Dans cet article, je vais décrire le premier aspect, celui du moment où une analyse de cas complète est impartiale.
Manquant complètement au hasard
Comme je l’ai noté précédemment, si les données manquent complètement de manière aléatoire, ce qui signifie que la possibilité de manquer des données n’est liée à aucune des variables impliquées dans notre analyse, une analyse de cas complète est impartiale. En effet, le sous-ensemble des cas complets représente un échantillon aléatoire (bien que plus petit que prévu) de la population.
En général, si les cas complets sont systématiquement différents de l’échantillon dans son ensemble (c’est-à-dire différents des cas incomplets), c’est-à-dire les données ne manquent pas de manière totalement aléatoire, l’analyse uniquement des cas complets conduira à des estimations biaisées.
Par exemple, supposons que nous souhaitions estimer le revenu médian de la population. Nous envoyons un e-mail demandant un questionnaire à remplir, parmi lequel les participants sont invités à dire combien ils gagnent. Mais seule une partie de l’échantillon cible renvoie le questionnaire, et nous avons donc des revenus manquants pour les personnes restantes. Si ceux qui ont répondu à la question sur le revenu ont systématiquement des revenus plus ou moins élevés que ceux qui n’ont pas répondu, le revenu médian des cas complets sera biaisé.
Validité complète de l’analyse de cas lorsque les données ne sont pas MCAR
Cependant, dans certains cas, une analyse de cas complète peut en fait donner des estimations impartiales même lorsque les données ne manquent pas complètement au hasard. L’un de ces paramètres est celui dans lequel notre analyse consiste à ajuster un modèle de régression, en reliant la distribution d’un résultat Y (ou variable dépendante) à un ou plusieurs prédicteurs (ou variables indépendantes) X (ici X pourrait consister en un certain nombre de prédicteurs). Des exemples de tels modèles sont la régression linéaire pour les résultats continus et la régression logistique pour les résultats binaires. Lorsque l’absence se produit dans le résultat Y, un ou plusieurs des prédicteurs X, ou potentiellement les deux, l’ajustement du modèle de régression aux cas complets est impartial à condition que la probabilité d’être un cas complet soit indépendante de Y, conditionnelle à X (voir les diapositives ici pour une explication de pourquoi).
Dans certains contextes, tels que les études de cohorte, où les personnes sont suivies au fil du temps, on peut raisonnablement supposer que cette condition est maintenue. Par exemple, supposons que X soient des facteurs mesurés des sujets au moment du recrutement dans l’étude de cohorte, et que le résultat Y soit mesuré quelque temps après le recrutement. Supposons que l’un des prédicteurs de X ait des valeurs manquantes. Alors l’absence dans X ne peut pas être directement causée par Y, car la valeur future de Y doit encore être déterminée. L’absence dans X est soit causée par la valeur de X elle-même, soit par d’autres facteurs / variables. Ce n’est que si l’absence est causée par de tels autres facteurs, et que ces facteurs affectent indépendamment le résultat Y, que l’analyse complète du cas sera biaisée.
Malheureusement, comme c’est généralement le cas dans les analyses de données manquantes, cette hypothèse de manque ne peut pas être définitivement confirmée à l’aide des données disponibles – pour ce faire, nous aurions besoin de disposer des données manquantes. Cependant, dans certains cas, l’hypothèse selon laquelle l’absence est indépendante du résultat, après ajustement des prédicteurs, pourrait être jugée plausible. Dans ce cas, bien que l’analyse complète des cas ne soit pas optimale (elle rejette les données des cas incomplets), elle est au moins impartiale.
Conclusion
Donc, pour une analyse particulière, avant d’abandonner l’humble analyse de cas complète au profit d’une méthode plus sophistiquée, que tous les paquets de statistiques peuvent effectuer (en effet, c’est généralement l’approche par défaut pour gérer les valeurs manquantes), nous devrions nous arrêter et nous demander s’il est possible que nos résultats de cas complets soient réellement corrects (du point de vue du biais). Il est important de dire cependant que même lorsque l’analyse complète des cas est impartiale, elle est inefficace – elle jette toutes les informations dans les cas incomplets.
p.s. Octobre 2015 – cet article que j’ai co-écrit peut être intéressant – Estimation asymptotiquement impartiale des rapports de cotes d’exposition dans les dossiers complets régression logistique
Vous pourriez également être intéressé par:
- Cours en ligne – Analyse statistique avec Données manquantes à l’aide de R