Le biais des collisionneurs sape notre compréhension du risque et de la gravité de la maladie de COVID-19

Pourquoi la recherche observationnelle sur la COVID-19 est particulièrement sensible au biais des collisionneurs

Bien qu’incontestablement précieux, les ensembles de données d’observation peuvent constituer une boîte noire, car les associations estimées en leur sein peuvent être dues à de nombreux mécanismes différents. Considérons le scénario dans lequel nous voulons estimer l’effet causal d’un facteur de risque généralisable à une population plus large telle que le Royaume-Uni (la “population cible”). Comme nous observons rarement la population cible complète, nous devons estimer cet effet au sein d’un échantillon d’individus issus de cette population. Si l’échantillon est une véritable sélection aléatoire parmi la population, nous disons qu’il est représentatif. Cependant, les échantillons sont souvent choisis par commodité ou parce que le facteur de risque ou le résultat n’est mesuré que dans certains groupes (p. ex. L’état de la maladie COVID-19 n’est observé que pour les personnes qui ont reçu un test). De plus, les personnes invitées à participer à un échantillon peuvent refuser ou abandonner par la suite. Si les caractéristiques liées à l’inclusion de l’échantillon sont également liées au facteur de risque et au résultat d’intérêt, cela introduit la possibilité d’un biais de collisionneur dans notre analyse.

Le biais du collisionneur ne se produit pas seulement au point d’échantillonnage. Il peut également être introduit par des choix de modélisation statistique. Par exemple, s’il est approprié d’ajuster les covariables dans les associations observationnelles dépend de l’emplacement des covariables sur la voie causale et de leur rôle dans le processus de génération de données18,19, 20, 21. Si nous supposons qu’une covariable donnée influence à la fois le facteur de risque hypothétique et le résultat (un facteur de confusion), il convient de conditionner cette covariable pour éliminer le biais induit par la structure de confusion. Cependant, si la covariable est une conséquence de l’une ou l’autre de l’exposition et du résultat (un collisionneur), plutôt qu’une cause commune (un facteur de confusion), le conditionnement sur la covariable peut induire, plutôt que de réduire, les bias22,23, 24. C’est-à-dire que le biais du collisionneur peut également être introduit lors de l’ajustement statistique des variables qui se trouvent sur la voie de causalité entre le facteur de risque et le résultat. La connaissance a priori de la structure causale sous-jacente des variables et de la question de savoir si elles fonctionnent comme une cause commune ou une conséquence commune du facteur de risque et du résultat dans le processus de génération de données peut être difficile à déduire. Par conséquent, il convient de traiter le biais du collisionneur avec un niveau de prudence similaire au biais confondant. Nous abordons les moyens de le faire plus loin dans cet article (“Méthodes de détection et de minimisation des effets du biais des collisionneurs”).

Il existe plusieurs façons dont les données sont collectées sur COVID-19 qui peuvent introduire un conditionnement involontaire dans l’échantillon sélectionné. Les caractéristiques des participants recrutés sont liées à un éventail de facteurs, notamment les décisions politiques, les limites de coûts, l’accès technologique et les méthodes de test. Il est également largement reconnu que la prévalence réelle de la maladie dans la population reste inconnue 25. Nous décrivons ici les formes de collecte de données pour la COVID-19 avant de détailler les circonstances entourant la COVID-19 qui rendent son analyse susceptible de biais de collision.

Stratégies d’échantillonnage de la COVID-19 et définitions de cas/témoins

Échantillonnage conditionnel à la participation volontaire (Définition de cas: COVID-19 probable, Définition du contrôle: participant volontaire ne signalant pas de symptômes de COVID-19, Fig. 2a): Le statut probable de COVID-19 peut être déterminé par des études nécessitant une participation volontaire. Il peut s’agir, par exemple, d’enquêtes menées par des études de cohorte et longitudinales existantes26,27, de liens de données avec des dossiers administratifs disponibles dans certaines études de cohorte telles que la Biobanque du R.-U. 28 ou de programmes d’applications pour téléphones mobiles29,30. Il a été démontré que la participation à des études scientifiques est fortement non aléatoire (p. ex. les participants sont susceptibles de manière disproportionnée d’être très instruits, soucieux de leur santé et non-fumeurs), de sorte que les volontaires de ces échantillons sont susceptibles de différer considérablement de la population cible31,32,33. Voir Encadré 2 et Fig. 3 pour une vignette sur la façon dont une étude30 a exploré le biais des collisionneurs dans ce contexte.

Fig. 3: Graphique Quantile-Quantile des valeurs -log10 p pour les facteurs influençant le test de COVID-19 dans la Biobanque BRITANNIQUE.
 figure3

L’axe des abscisses représente la valeur p attendue pour 2556 tests d’hypothèse et l’axe des ordonnées représente les valeurs p observées. La ligne rouge représente la relation attendue sous l’hypothèse nulle de l’absence d’associations.

Pressions de sélection des échantillons pour les études COVID-19

Nous pouvons stratifier les stratégies d’échantillonnage ci-dessus en trois bases d’échantillonnage primaires. La première de ces bases est l’échantillonnage basé sur la participation volontaire, qui est intrinsèquement non aléatoire en raison des facteurs qui influencent la participation. Le deuxième d’entre eux est des bases d’échantillonnage utilisant les résultats des tests COVID-19. À quelques exceptions notables près (par exemple, refs. 3,34), le dépistage de la COVID-19 dans la population n’est généralement pas effectué sur des échantillons aléatoires. Le troisième de ces cadres est un échantillonnage basé sur des patients hospitalisés, avec ou sans COVID-19. C’est encore une fois, nécessairement non aléatoire car il conditionne l’admission à l’hôpital.

Encadré 3 et fig. 3 illustrer l’étendue des facteurs qui peuvent induire une pression de sélection de l’échantillon. Bien que certains des facteurs qui influent sur les processus d’échantillonnage puissent être communs à tous les modes d’échantillonnage énumérés ci-dessus, certains seront spécifiques au mode. Ces facteurs varieront probablement dans la façon dont ils fonctionnent dans les contextes nationaux et du système de santé. Nous énumérons ici une série de pressions de sélection possibles et leur impact sur différentes bases d’échantillonnage COVID-19. Nous décrivons également l’identification / la définition des cas et détaillons comment ils peuvent biaiser l’inférence s’ils ne sont pas explorés.

Gravité des symptômes: Cela biaisera vraisemblablement les trois principales bases d’échantillonnage, bien qu’il soit plus simplement compris dans le contexte des tests. Plusieurs pays ont adopté la stratégie consistant à proposer des tests principalement aux patients présentant des symptômes suffisamment graves pour nécessiter des soins médicaux, par exemple une hospitalisation, comme ce fut le cas au Royaume-Uni jusqu’à fin avril 2020. De nombreux cas positifs réels dans la population resteront donc non détectés et seront moins susceptibles de faire partie de l’échantillon si l’inscription dépend de l’état du test. Des taux élevés de porteurs de virus asymptomatiques ou de cas présentant une présentation atypique aggraveront encore ce problème.

Reconnaissance des symptômes: Cela biaisera également les trois cadres d’échantillonnage, car l’entrée dans tous les échantillons est conditionnelle à la reconnaissance des symptômes. Lié à la gravité des symptômes, mais distinct de celle-ci, le dépistage de la COVID-19 variera en fonction de la reconnaissance des symptômes35. Si une personne ne reconnaît pas les symptômes corrects ou estime que leurs symptômes ne sont pas graves, elle peut simplement être invitée à s’auto-isoler et à ne pas recevoir de test COVID-19. Les individus évalueront différemment la gravité de leurs symptômes; ceux qui souffrent d’anxiété liée à la santé peuvent être plus susceptibles de sur-déclarer les symptômes, tandis que ceux qui ont moins d’informations sur la pandémie ou l’accès à des conseils de santé peuvent être sous-représentés. Cela agira fonctionnellement comme un taux différentiel de faux négatifs entre les individus en fonction de la reconnaissance des symptômes, ce qui pourrait avoir des conséquences en donnant des estimations élevées des cas asymptomatiques et de la transmission36. La modification des directives sur les symptômes est susceptible d’aggraver ce problème, ce qui pourrait induire des relations systématiques entre la présentation des symptômes et le test35,37. Ici, les groupes moins sensibilisés (par exemple, en raison de messages publics inadéquats ou de barrières linguistiques) peuvent avoir des seuils plus élevés pour se faire tester, et par conséquent, ceux qui sont testés positifs sembleront avoir un risque plus élevé de résultats graves liés à la COVID-19.

Profession: L’exposition à la COVID-19 est modelée par rapport à la profession. Dans de nombreux pays, les travailleurs de la santé de première ligne sont beaucoup plus susceptibles de subir un test de dépistage de la COVID-19 que la population générale5,38 en raison de leur proximité avec le virus et des conséquences potentielles de la transmission liée à l’infection39. En tant que tels, ils seront fortement surreprésentés dans les échantillons sous réserve de l’état des tests. D’autres travailleurs clés peuvent présenter un risque élevé d’infection en raison d’un grand nombre de contacts par rapport aux travailleurs non clés, et peuvent donc être surreprésentés dans les échantillons sous réserve d’un statut de test positif ou d’un décès lié à la COVID. Tous les facteurs liés à ces professions (p. ex. l’origine ethnique, la situation socio-économique, l’âge et l’état de santé de base) seront donc également associés à la sélection de l’échantillon. La figure 2b illustre un exemple où le facteur de risque hypothétique (tabagisme) n’a pas besoin d’influencer la sélection de l’échantillon (patients hospitalisés) de manière causale, il pourrait simplement être associé en raison de la confusion entre le facteur de risque et la sélection de l’échantillon (être un agent de santé).

Ethnicité: Les minorités ethniques sont également plus susceptibles d’être infectées par le COVID-1940. Les résultats défavorables de la COVID-19 sont considérablement pires pour les personnes de certaines minorités ethniques41. Cela pourrait fausser les associations estimées au sein de bases d’échantillonnage basées sur les patients hospitalisés, car dans de nombreux pays, les groupes ethniques minoritaires sont surreprésentés car les inégalités ethniques en matière de santé sont omniprésentes et bien documentées. De plus, les groupes ethniques minoritaires sont plus susceptibles d’être des travailleurs clés, qui sont plus susceptibles d’être exposés à la COVID-1942. L’environnement culturel (y compris le racisme systémique) et les barrières linguistiques peuvent nuire à l’entrée dans les études, à la fois sur la base de tests et de la participation volontaire43. Les groupes ethniques minoritaires peuvent être plus difficiles à recruter dans les études, même dans une zone donnée44, et peuvent affecter la représentativité de l’échantillon. Les minorités ethniques étaient moins susceptibles de déclarer avoir été testées dans notre analyse des données de la biobanque du Royaume-Uni, où l’un des facteurs les plus importants associés au test était la première composante génétique principale, qui est un marqueur de l’ascendance (encadré 3). Ainsi, cela pourrait se présenter comme ci-dessus, la présentation des minorités ethniques aux soins médicaux étant conditionnelle à des symptômes plus graves.

Fragilité: Définie ici comme une plus grande susceptibilité aux résultats défavorables de la COVID-19, la fragilité est plus susceptible d’être présente dans certains groupes de la population, tels que les personnes âgées dans des établissements de soins de longue durée ou d’aide à la vie autonome, celles qui ont des conditions médicales préexistantes, les groupes obèses et les fumeurs. Ces facteurs sont susceptibles de prédire fortement l’hospitalisation. Dans le même temps, l’infection et la gravité de la COVID-19 ont probablement une influence sur l’hospitalisation8, 9, 10, 45, ce qui signifie que l’étude de ces facteurs chez les patients hospitalisés peut induire un biais de collision. En outre, les groupes peuvent être traités différemment en termes de déclaration de la COVID-19 dans différents pays46. Par exemple, au Royaume-Uni, les premiers rapports de décès “dus au COVID-19” peuvent avoir été confondus avec des décès “alors qu’ils étaient infectés par le COVID-19 ” 47. Les personnes à risque élevé sont plus susceptibles d’être testées en général, mais les données démographiques spécifiques à risque élevé, comme celles des établissements de soins de longue durée ou d’aide à la vie autonome, ont été moins susceptibles d’être échantillonnées par de nombreuses études46. La fragilité prédit également l’hospitalisation de manière différente selon les groupes, par exemple, une personne plus âgée présentant des symptômes très graves de la COVID-19 dans un établissement de vie assistée peut ne pas être emmenée à l’hôpital où une personne plus cadue48.

Lieu de résidence et lien social : Il existe probablement un certain nombre d’influences plus distales ou indirectes sur la sélection de l’échantillon. Les personnes ayant un meilleur accès aux services de santé peuvent être plus susceptibles d’être testées que celles ayant un accès plus faible. Ceux qui se trouvent dans des zones où le nombre de services médicaux est plus élevé ou dans de meilleurs transports en commun peuvent trouver plus facile d’accéder à des services de dépistage, tandis que ceux qui se trouvent dans des zones où les services médicaux sont moins accessibles peuvent être plus susceptibles d’être testés49. Les personnes vivant dans des zones ayant des liens spatiaux ou sociaux plus forts avec des épidémies existantes peuvent également être plus susceptibles d’être testées en raison d’une vigilance médicale accrue dans ces zones. Les réseaux de soutien familial et communautaire sont également susceptibles d’influencer l’accès aux soins médicaux, par exemple, les personnes ayant des responsabilités familiales et les réseaux de soutien faibles peuvent être moins en mesure de demander une attention médicale50. La connectivité est peut-être la plus susceptible de biaiser les bases d’échantillonnage des tests, car les tests sont conditionnels à la sensibilisation et à l’accès. Cependant, il peut également biaiser les trois principales bases d’échantillonnage par un mécanisme similaire à la reconnaissance des symptômes.

Accès à Internet et engagement technologique: Cela biaisera principalement le recrutement volontaire via les applications, bien que cela puisse également être associé à une sensibilisation accrue et à des tests de biais via la voie de reconnaissance des symptômes. On sait que le recrutement d’échantillons par le biais d’applications Internet sous-représente certains groupes32,51. De plus, cela varie selon le plan d’échantillonnage, où il a été démontré que les méthodes de collecte de données volontaires ou ” d’entrée” produisent des échantillons plus engagés mais moins représentatifs que les méthodes basées sur la publicité ou ” d’extraction “33. Ces groupes plus engagés ont probablement un meilleur accès aux méthodes électroniques de collecte de données et un plus grand engagement dans les campagnes de médias sociaux conçues pour recruter des participants. Ainsi, les jeunes sont plus susceptibles d’être surreprésentés dans les études de participation volontaire basées sur les apps29.

Intérêt médical et scientifique: Les études recrutant des échantillons volontaires peuvent être biaisées car elles sont susceptibles de contenir un nombre disproportionné de personnes ayant un fort intérêt médical ou scientifique. Il est probable que ces personnes auront elles-mêmes une plus grande conscience de la santé, un comportement plus sain, seront plus instruites et auront des revenus plus élevés31,52.

Bon nombre des facteurs à tester ou à inclure dans les ensembles de données décrits ici sont confirmés dans l’analyse des données d’essai de la Biobanque britannique (Encadré 3). Le message clé est que lorsque le recrutement de l’échantillon n’est pas aléatoire, il existe une gamme incroyablement large de façons dont ce caractère non aléatoire peut saper les résultats de l’étude.

Méthodes de détection et de minimisation des effets du biais du collisionneur

Dans cette section, nous décrivons des méthodes permettant de traiter le biais du collisionneur ou d’évaluer la sensibilité des résultats au biais du collisionneur. Comme pour le biais de confusion, il n’est généralement pas possible de prouver que l’une des méthodes a surmonté le biais du collisionneur. Par conséquent, les analyses de sensibilité sont cruciales pour examiner la robustesse des conclusions par rapport aux mécanismes de sélection plaudiques18,19.

Une technique descriptive simple pour évaluer la probabilité et l’étendue du biais de collisionneur induit par la sélection de l’échantillon consiste à comparer les moyennes, les variances et les distributions des variables de l’échantillon avec celles de la population cible (ou un échantillon représentatif de la population cible)16. Cela fournit des informations sur le profil des personnes sélectionnées dans l’échantillon de la population cible d’intérêt, par exemple si elles ont tendance à être plus âgées ou plus susceptibles d’avoir des comorbidités. Il est particulièrement utile de rendre compte de ces comparaisons pour les variables clés de l’analyse, telles que le facteur de risque et le résultat hypothétiques, et d’autres variables liées à celles-ci. En ce qui concerne l’analyse du risque de maladie lié à la COVID-19, un obstacle majeur à cette entreprise est que, dans la plupart des cas, la prévalence réelle de l’infection dans la population générale est inconnue. S’il est encourageant que les estimations de l’échantillon correspondent à leurs équivalents au niveau de la population, il est important de reconnaître que cela ne prouve pas définitivement l’absence de biais de collision53. En effet, les facteurs influençant la sélection pourraient ne pas être mesurés dans l’étude, ou les facteurs interagissent pour influencer la sélection et ne sont pas détectés lors de la comparaison des distributions marginales.

L’applicabilité de chaque méthode dépend essentiellement des données disponibles sur les non-participants. Ces méthodes peuvent généralement être divisées en deux catégories en fonction des données disponibles: les échantillons imbriqués et les échantillons non imbriqués. Un échantillon imbriqué fait référence à la situation où les variables clés ne sont mesurées qu’au sein d’un sous-ensemble d’un “super échantillon” par ailleurs représentatif, forçant ainsi l’analyse à se limiter à ce sous-échantillon. Un exemple proche de cette définition est le sous-échantillon de personnes ayant reçu un test COVID-19 imbriqué dans la cohorte de Biobanque britannique (cependant, il est clair que la cohorte de biobanque britannique est elle-même échantillonnée de manière non aléatoirement 16). Pour les échantillons imbriqués, les chercheurs peuvent tirer parti des données disponibles dans le super-échantillon représentatif. Un échantillon non imbriqué fait référence à la situation où les données ne sont disponibles que dans un échantillon non représentatif. Un exemple de ceci est les échantillons de personnes hospitalisées, dans lesquels aucune donnée n’est disponible sur les personnes non hospitalisées. Il est généralement plus difficile de traiter le biais du collisionneur dans les échantillons non imbriqués. Une analyse guidée illustrant les deux types d’analyses de sensibilité à l’aide des données de la Biobanque britannique sur les tests de COVID-19 est présentée dans la Note supplémentaire 1.

Échantillons imbriqués : La pondération de probabilité inverse est une approche puissante et flexible pour ajuster le biais du collisionneur dans les échantillons imbriqués 54,55. L’effet causal du facteur de risque sur le résultat est estimé à l’aide d’une régression pondérée, de sorte que les participants surreprésentés dans le sous-échantillon sont pondérés à la baisse et les participants sous-représentés sont pondérés à la hausse. En pratique, nous construisons ces poids en estimant la probabilité que différents individus soient sélectionnés dans l’échantillon à partir du super-échantillon représentatif en fonction de leurs covariables mesurées56. Par exemple, nous pourrions utiliser les données de l’échantillon complet de la Biobanque britannique pour estimer la probabilité que des personnes reçoivent un test de dépistage de la COVID-19 et utiliser ces poids dans des analyses qui doivent être limitées au sous-échantillon de personnes testées (par exemple, identifier les facteurs de risque pour un test positif). Seaman et White fournissent un aperçu détaillé des considérations pratiques et des hypothèses pour la pondération de probabilité inverse, telles que la spécification correcte du “modèle de sélection de l’échantillon” (un modèle statistique de la relation entre les covariables mesurées et la sélection dans l’échantillon, utilisé pour construire ces poids), la sélection variable et les approches pour gérer les poids instables (c.-à-d. des poids nuls ou proches de zéro).

Une hypothèse supplémentaire pour la pondération de probabilité inverse est que chaque individu de la population cible doit avoir une probabilité non nulle d’être sélectionné dans l’échantillon. Ni cette hypothèse, ni l’hypothèse selon laquelle le modèle de sélection a été correctement spécifié, ne sont testables en utilisant les seules données observées. Une approche conceptuellement liée, utilisant l’appariement des scores de propension, est parfois utilisée pour éviter les biais des événements d’index57,58. Il existe également des analyses de sensibilité pour la spécification erronée des poids de probabilité. Par exemple, Zhao et al. élaborer une analyse de sensibilité pour déterminer dans quelle mesure les poids de probabilité estimés diffèrent des poids réels non observés59. Cette approche est particulièrement utile lorsque nous pouvons estimer des poids de probabilité incluant certains, mais pas nécessairement tous, des prédicteurs pertinents de l’inclusion de l’échantillon. Par exemple, nous pourrions estimer les poids de la probabilité de recevoir un test COVID-19 parmi les participants à la biobanque britannique, mais il nous manque des prédicteurs clés tels que la présentation des symptômes et les mesures du comportement de recherche de soins de santé.

Échantillons non imbriqués: Lorsque nous n’avons que des données sur l’échantillon de l’étude (par exemple, uniquement des données sur les participants qui ont été testés pour COVID-19), il n’est pas possible d’estimer directement le modèle de sélection car les individus non sélectionnés (non testés) ne sont pas observés. Au lieu de cela, il est important d’appliquer des analyses de sensibilité pour évaluer la plausibilité que la sélection de l’échantillon induit un biais du collisionneur.

Recherche de limites et de paramètres: Il est possible de déduire l’étendue du biais des collisionneurs étant donné la connaissance de la taille et de la direction probables des influences du facteur de risque et des résultats sur la sélection de l’échantillon (que celles-ci soient directes ou via d’autres facteurs)19,60,61. Cependant, cette approche dépend de la taille et de la direction correctes, et il n’y a pas d’autres facteurs influençant la sélection. Il est donc important d’explorer différents mécanismes possibles de sélection des échantillons et d’examiner leur impact sur les conclusions de l’étude. Nous avons créé une application web simple guidée par ces hypothèses pour permettre aux chercheurs d’explorer des modèles de sélection simples qui seraient nécessaires pour induire une association observationnelle: http://apps.mrcieu.ac.uk/ascrtain/. Sur la Fig. 4 nous utilisons un rapport récent d’une association protectrice du tabagisme contre l’infection à la COVID-1945 pour explorer l’ampleur du biais des collisionneurs qui peut être induit en raison d’un échantillonnage sélectionné, dans l’hypothèse nulle de l’absence d’effet causal.

Fig. 4: Exemple d’associations importantes induites par un biais de collisionneur dans l’hypothèse nulle de l’absence de relation causale, en utilisant des scénarios similaires à ceux rapportés pour l’association protectrice observée du tabagisme lors de l’infection à COVID-19.
 figure4

Supposons un scénario simple dans lequel l’exposition hypothétique (A) et le résultat (Y) sont à la fois binaires et chaque probabilité d’influence d’être sélectionnée dans l’échantillon(S), p. ex. \(P(S = 1 /A, Y) = \beta _0 + \beta _A + \beta _Y + \beta_{AY}\) où \(\beta _0\) est la probabilité de base d’être sélectionné, \(\beta _A\) est l’effet de A, \(\beta _Y\) est l’effet de Y et \(\beta_{AY}\) est l’effet de l’interaction entre A et Y. Le mécanisme de sélection en question est représenté à la Fig. 1b (sans le terme d’interaction dessiné). Ce graphique montre quelles combinaisons de ces paramètres seraient nécessaires pour induire un effet de risque apparent de magnitude OU > 2 (région bleue) ou un effet protecteur apparent de magnitude OU < 0.5 (région rouge) sous l’hypothèse nulle de l’absence d’effet causal61. Pour créer un scénario simplifié similaire à celui de Miyara et al. nous utilisons une prévalence du tabagisme dans la population générale de 0,27 et une prévalence de l’échantillon de 0,05, fixant ainsi \(\beta_A\) à 0,22. Comme la prévalence de la COVID-19 n’est pas connue dans la population générale, nous permettons à l’échantillon d’être sur ou sous-représentatif (axe des ordonnées). Nous autorisons également des effets d’interaction modestes. En calculant sur cet espace de paramètres, 40% de toutes les combinaisons possibles conduisent à une association de protection ou de risque artefact 2 fois opérant uniquement par ce modèle simple de biais. Il est important de divulguer ce niveau d’incertitude lors de la publication d’estimations observationnelles.

Plusieurs autres approches ont également été mises en œuvre dans des applications Web en ligne pratiques (” Annexe “). Par exemple, Smith et VanderWeele ont proposé une analyse de sensibilité qui permet aux chercheurs de lier leurs estimations en spécifiant des paramètres de sensibilité représentant la force de la sélection de l’échantillon (en termes de ratios de risque relatifs). Ils fournissent également une “valeur E”, qui est la plus petite grandeur de ces paramètres qui expliquerait une association observée62. Aronow et Lee ont proposé une analyse de sensibilité pour les moyennes d’échantillons basée sur une pondération de probabilité inverse dans des échantillons non imbriqués où les poids ne peuvent pas être estimés mais sont supposés être limités entre deux valeurs spécifiées par les chercheurs63. Ce travail a été généralisé aux modèles de régression, permettant également d’intégrer des informations externes pertinentes sur la population cible (par exemple des statistiques sommaires du recensement)64. Ces approches d’analyse de sensibilité permettent aux chercheurs d’explorer s’il existe des structures de collisionneurs crédibles qui pourraient expliquer les associations d’observation. Cependant, ils ne représentent pas un ensemble exhaustif de modèles qui pourraient donner lieu à un biais, et ils ne prouvent pas nécessairement si le biais du collisionneur influence les résultats. Si le facteur de risque de sélection est lui-même le résultat de causes plus en amont, il est important de prendre en compte l’impact de ces effets de sélection en amont (c’est-à-dire non seulement comment le facteur de risque influence la sélection, mais aussi comment les causes du facteur de risque et / ou les causes du résultat influencent la sélection, par exemple Fig. 2b). Bien que ces causes en amont puissent individuellement avoir un faible effet sur la sélection, il est possible que de nombreux facteurs ayant des effets individuellement petits puissent conjointement avoir un effet de sélection important et introduire des biais de collision65.

Analyses de témoins négatifs: S’il y a des facteurs mesurés dans l’échantillon sélectionné qui sont connus pour n’avoir aucune influence sur le résultat, alors tester l’association de ces facteurs avec le résultat dans l’échantillon sélectionné peut servir de témoin négatif66,67. En vertu, les associations de contrôle négatives devraient être nulles, et elles sont donc utiles comme outil pour fournir des preuves à l’appui de la sélection. Si nous observons des associations avec des grandeurs plus grandes que prévu, cela indique que l’échantillon est sélectionné à la fois sur le contrôle négatif et sur le résultat d’intéressement68,69.

Analyses de corrélation: Conceptuellement similaire à l’approche des contrôles négatifs ci-dessus, lorsqu’un échantillon est sélectionné, toutes les caractéristiques qui ont influencé la sélection deviennent corrélées au sein de l’échantillon (à l’exception du cas hautement improbable où les causes sont parfaitement multiplicatives). L’analyse des corrélations entre les facteurs de risque hypothétiques pour lesquels il est prévu qu’il ne devrait pas y avoir de relation peut indiquer la présence et l’ampleur de la sélection de l’échantillonnage et, par conséquent, la probabilité que le biais du collisionneur fausse l’analyse primaire70.

Implications

La majorité des données scientifiques qui éclairent la prise de décisions politiques et cliniques pendant la pandémie de COVID-19 proviennent d’études observationnelles71. Nous avons illustré comment ces études observationnelles sont particulièrement sensibles à l’échantillonnage non aléatoire. Des essais cliniques randomisés fourniront des preuves expérimentales pour le traitement, mais des études expérimentales sur l’infection ne seront pas possibles pour des raisons éthiques. L’impact du biais des collisionneurs sur les inférences des études observationnelles pourrait être considérable, non seulement pour la modélisation de la transmission de la maladie72,73, mais aussi pour l’inférence causale7 et la modélisation de la prédictions 2.

Bien qu’il existe de nombreuses approches qui tentent d’améliorer le problème du biais du collisionneur, elles reposent sur des hypothèses non prouvées. Il est difficile de connaître l’étendue de la sélection de l’échantillon et, même si elle était connue, il n’est pas possible de prouver qu’elle a été entièrement prise en compte par une méthode quelconque. Des enquêtes représentatives de la population34 ou des stratégies d’échantillonnage qui évitent les problèmes de biais de collision74 sont nécessaires de toute urgence pour fournir des preuves fiables. Les résultats d’échantillons qui ne sont probablement pas représentatifs de la population cible doivent être traités avec prudence par les scientifiques et les décideurs.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.