El sesgo del colisionador socava nuestra comprensión del riesgo y la gravedad de la enfermedad de la COVID-19

Por qué la investigación observacional de la COVID-19 es particularmente susceptible al sesgo del colisionador

Aunque indudablemente valiosos, los conjuntos de datos observacionales pueden ser una especie de caja negra porque las asociaciones estimadas dentro de ellos pueden deberse a muchos mecanismos diferentes. Considere el escenario en el que queremos estimar el efecto causal de un factor de riesgo que es generalizable a una población más amplia como el Reino Unido (la “población objetivo”). Dado que rara vez observamos la población objetivo completa, debemos estimar este efecto dentro de una muestra de individuos extraídos de esta población. Si la muestra es una verdadera selección aleatoria de la población, entonces decimos que es representativa. Sin embargo, a menudo, las muestras se eligen por conveniencia o porque el factor de riesgo o el resultado solo se miden en ciertos grupos (p. ej. El estado de la enfermedad por COVID-19 solo se observa en individuos que han recibido una prueba). Además, las personas invitadas a participar en una muestra pueden rechazarla o abandonarla posteriormente. Si las características relacionadas con la inclusión de muestras también se relacionan con el factor de riesgo y el resultado de interés, esto introduce la posibilidad de sesgo de colisionador en nuestro análisis.

El sesgo del colisionador no solo ocurre en el punto de muestreo. También se puede introducir mediante opciones de modelos estadísticos. Por ejemplo,si es apropiado ajustar las covariables en asociaciones observacionales depende de la ubicación de las covariables en la vía causal y su papel en el proceso de generación de datos18,19,20, 21. Si asumimos que una covariable determinada influye tanto en el factor de riesgo hipotético como en el resultado (un factor de confusión), es apropiado condicionar esa covariable para eliminar el sesgo inducido por la estructura de confusión. Sin embargo, si la covariable es una consecuencia de la exposición y el resultado (collider), en lugar de una causa común (un factor de confusión), entonces acondicionado en la covariable se puede inducir, en lugar de reducir, bias22,23,24. Es decir, el sesgo del colisionador también se puede introducir al hacer ajustes estadísticos para variables que se encuentran en la ruta causal entre el factor de riesgo y el resultado. El conocimiento a priori de la estructura causal subyacente de las variables y si funcionan como una causa común o una consecuencia común del factor de riesgo y el resultado en el proceso de generación de datos puede ser difícil de inferir. Por lo tanto, es apropiado tratar el sesgo del colisionador con un nivel de precaución similar al sesgo de confusión. Abordaremos formas de hacerlo más adelante en este artículo (“Métodos para detectar y minimizar los efectos del sesgo del colisionador”).

Hay varias formas en que se recopilan datos sobre la COVID-19 que pueden introducir acondicionamiento no intencional en la muestra seleccionada. Las características de los participantes reclutados están relacionadas con una serie de factores, incluidas las decisiones de política, las limitaciones de costos, el acceso tecnológico y los métodos de prueba. También se reconoce ampliamente que la prevalencia real de la enfermedad en la población sigue sin conocerse25. Aquí describimos las formas de recopilación de datos para la COVID-19 antes de detallar las circunstancias que rodean a la COVID-19 que hacen que su análisis sea susceptible al sesgo del colisionador.

Estrategias de muestreo de COVID-19 y definiciones de casos y controles

Muestreo condicionado a la participación voluntaria (Definición de casos: COVID-19 probable, Definición de control: participante voluntario que no notificó síntomas de COVID-19, Fig. 2a): El estado probable de COVID-19 se puede determinar a través de estudios que requieren participación voluntaria. Estos pueden incluir,por ejemplo, encuestas realizadas por estudios longitudinales y de cohortes existentes26, 27,la vinculación de datos a registros administrativos disponibles en algunos estudios de cohortes, como el Biobanco del Reino Unido28, o programas de aplicaciones basadas en teléfonos móviles29, 30. Se ha demostrado que la participación en estudios científicos no es aleatoria (p. ej. es desproporcionadamente probable que los participantes sean altamente educados, conscientes de la salud y no fumadores), por lo que es probable que los voluntarios de estas muestras difieran sustancialmente de la población destinada31,32,33. Véase el recuadro 2 y la Fig. 3 para una viñeta sobre cómo un estudio30 exploró el sesgo del colisionador en este contexto.

Fig. 3: Gráfico cuantil-cuantil de valores p-log10 para los factores que influyen en la prueba de COVID-19 en el Biobanco del Reino Unido.
figura 3

El eje x representa el valor de p esperado para 2556 pruebas de hipótesis y el eje y representa los valores de p observados. La línea roja representa la relación esperada bajo la hipótesis nula de no asociación.

Presiones de selección de muestras para estudios de COVID-19

Podemos estratificar las estrategias de muestreo anteriores en tres marcos de muestreo primarios. El primero de estos marcos es el muestreo basado en la participación voluntaria, que es inherentemente no aleatorio debido a los factores que influyen en la participación. El segundo de ellos son los marcos de muestreo que utilizan los resultados de las pruebas de COVID-19. Con pocas excepciones notables (por ejemplo, refs. 3,34), las pruebas de población para la COVID-19 generalmente no se realizan en muestras aleatorias. El tercero de estos marcos es el muestreo basado en pacientes hospitalizados, con o sin COVID-19. De nuevo, esto no es necesariamente aleatorio, ya que condiciona el ingreso hospitalario.

Recuadro 3 y Fig. 3 ilustre la amplitud de los factores que pueden inducir la presión de selección de la muestra. Si bien algunos de los factores que afectan a los procesos de muestreo pueden ser comunes en todos los modos de muestreo enumerados anteriormente, algunos serán específicos de cada modo. Es probable que estos factores difieran en la forma en que operan en los contextos nacionales y de los sistemas de salud. Aquí enumeramos una serie de posibles presiones de selección y cómo afectan a diferentes marcos de muestreo de COVID-19. También describimos la identificación/definición de casos y detallamos cómo pueden sesgar la inferencia si no se exploran.

Gravedad de los síntomas: Esto posiblemente sesgará los tres marcos de muestreo principales, aunque se entiende más simplemente en el contexto de las pruebas. Varios países adoptaron la estrategia de ofrecer pruebas predominantemente a pacientes que experimentan síntomas lo suficientemente graves como para requerir atención médica, por ejemplo, hospitalización, como fue el caso en el Reino Unido hasta finales de abril de 2020. Por lo tanto, muchos casos positivos reales en la población permanecerán sin ser detectados y será menos probable que formen parte de la muestra si la inscripción depende del estado de la prueba. Las altas tasas de portadores de virus asintomáticos o casos con la presentación atípica agravarán aún más este problema.

Reconocimiento de síntomas: Esto también sesgará los tres marcos de muestreo, ya que la entrada en todas las muestras está condicionada al reconocimiento de síntomas. Relacionada pero distinta de la gravedad de los síntomas, COVID-19 prueba variará en función del síntoma recognition35. Si una persona no reconoce los síntomas correctos o considera que sus síntomas no son graves, simplemente se le puede indicar que se aísle y no reciba una prueba de COVID-19. Los individuos evaluarán la gravedad de sus síntomas de manera diferente; aquellos con ansiedad relacionada con la salud pueden tener más probabilidades de informar sobre los síntomas, mientras que aquellos con menos información sobre la pandemia o acceso a consejos de salud pueden estar subrepresentados. Esto actuará funcionalmente como una tasa diferencial de falsos negativos entre individuos basada en el reconocimiento de síntomas, lo que podría ser consecuente en dar las altas estimaciones de casos asintomáticos y transmisión36. Es probable que el cambio de las pautas de los síntomas agrave este problema, lo que podría inducir relaciones sistemáticas entre la presentación de los síntomas y las pruebas de probación35,37. En este caso, los grupos con menor conciencia (por ejemplo, debido a la falta de mensajes públicos o barreras lingüísticas) pueden tener umbrales más altos para hacerse la prueba, y por lo tanto, aquellos que dan positivo parecerán tener un mayor riesgo de resultados graves de COVID-19.

Ocupación: La exposición a la COVID-19 está modelada con respecto a la ocupación. En muchos países,es mucho más probable que los trabajadores sanitarios de primera línea se sometan a pruebas de detección de la COVID-19 que la población general5, 38, debido a su proximidad al virus y a las posibles consecuencias de la transmisión relacionada con la infectación39. Como tales, estarán muy sobrerrepresentados en las muestras condicionadas al estado de la prueba. Otros trabajadores clave pueden tener un alto riesgo de infección debido a un gran número de contactos en relación con los trabajadores no clave y, por lo tanto, pueden estar sobrerrepresentados en muestras condicionadas al estado positivo de la prueba o a la muerte relacionada con la COVID. Cualquier factor relacionado con estas ocupaciones (p. ej. por lo tanto, el origen étnico, la posición socioeconómica, la edad y el estado de salud de referencia) también se asociarán a la selección de muestras. La figura 2b ilustra un ejemplo en el que el factor de riesgo hipotético (tabaquismo) no necesita influir causalmente en la selección de la muestra (pacientes hospitalizados), simplemente podría estar asociado debido a la confusión entre el factor de riesgo y la selección de la muestra (ser un trabajador sanitario).

Etnia: Las minorías étnicas también tienen más probabilidades de infectarse con COVID-1940. Los resultados adversos de la COVID-19 son considerablemente peores para las personas de algunas minorías étnicas41. Esto podría posiblemente sesgar las asociaciones estimadas dentro de los marcos de muestreo basados en pacientes hospitalizados, ya que en muchos países, los grupos étnicos minoritarios están sobrerrepresentados, ya que las desigualdades étnicas en salud son generalizadas y están bien documentadas. Además, es más probable que los grupos étnicos minoritarios sean trabajadores clave, que tienen más probabilidades de estar expuestos a la COVID-1942. El entorno cultural (incluido el racismo sistémico) y las barreras lingüísticas pueden afectar negativamente a la entrada en los estudios, tanto basados en pruebas como en la participación voluntaria43. Los grupos étnicos minoritarios pueden ser más difíciles de reclutar para los estudios, incluso dentro de un área determinada 44, y pueden afectar a la representatividad de la muestra. En nuestro análisis de los datos de los Biobancos del Reino Unido, las minorías étnicas tuvieron menos probabilidades de informar de que se les realizaran pruebas, donde uno de los factores más fuertes asociados con las pruebas fue el primer componente principal genético, que es un marcador de ascendencia (Recuadro 3). Por lo tanto, esto podría presentarse como antes, con la presentación de las minorías étnicas a la atención médica condicionada a síntomas más graves.

Fragilidad: Definida aquí como una mayor susceptibilidad a los resultados adversos de la COVID-19, es más probable que la fragilidad esté presente en ciertos grupos de la población, como los adultos mayores en centros de atención a largo plazo o de vida asistida, aquellos con afecciones médicas preexistentes, grupos obesos y fumadores. Es probable que estos factores predigan fuertemente la hospitalización. Al mismo tiempo,es probable que la infección por COVID-19 y su gravedad influyan en la internación8,9,10, 45, lo que significa que la investigación de estos factores en pacientes hospitalizados puede inducir un sesgo colisionador. Además, los grupos pueden recibir un tratamiento diferente en términos de informes sobre la COVID-19 en diferentes países46. Por ejemplo, en el Reino Unido, los primeros informes de muertes “debidas a la COVID-19” pueden haberse combinado con muertes “infectadas por la COVID-19″47. Las personas con alto riesgo son más propensas a someterse a pruebas en general, pero los datos demográficos específicos con alto riesgo, como los que se encuentran en centros de atención a largo plazo o de vida asistida, han sido menos propensos a ser muestreados por muchos estudios46. La fragilidad también predice la hospitalización de manera diferente entre los diferentes grupos, por ejemplo, un individuo mayor con síntomas muy graves de COVID-19 en un centro de vida asistida puede no ser llevado al hospital donde lo haría un individuo más joven 48.

Lugar de residencia y conexión social: Es probable que existan varias influencias más distales o indirectas en la selección de muestras. Las personas con mejor acceso a los servicios de atención de la salud pueden tener más probabilidades de hacerse las pruebas que las personas con menor acceso. Las personas que se encuentran en zonas con un mayor número de servicios médicos o mejores medios de transporte público pueden tener más facilidad para acceder a los servicios de pruebas, mientras que las que se encuentran en zonas con menos acceso a los servicios médicos pueden tener más probabilidades de someterse a las pruebas 49. Las personas que viven en áreas con vínculos espaciales o sociales más fuertes con brotes existentes también pueden tener más probabilidades de someterse a pruebas debido al aumento de la vigilancia médica en esas áreas. También es probable que las redes de apoyo de la familia y la comunidad influyan en el acceso a la atención médica, por ejemplo, las personas con responsabilidades de atención y redes de apoyo débiles pueden tener menos capacidad para buscar atención médica50. La conectividad es quizás más probable que sesgue los marcos de muestreo de las pruebas, ya que las pruebas están condicionadas a la conciencia y el acceso. Sin embargo, también puede sesgar los tres marcos de muestreo principales a través de un mecanismo similar al reconocimiento de síntomas.

Acceso a Internet y compromiso tecnológico: Esto sesgará principalmente el reclutamiento voluntario a través de aplicaciones, aunque también puede estar asociado con una mayor conciencia y pruebas de sesgo a través de la vía de reconocimiento de síntomas. Se sabe que el reclutamiento de muestras a través de aplicaciones de Internet subrepresenta a ciertos grupos32,51. Además, esto varía según el diseño del muestreo, en el que se ha demostrado que los métodos de recogida de datos voluntarios o “extraíbles” producen muestras más comprometidas pero menos representativas que los métodos basados en publicidad o “extraíbles” 33. Es probable que estos grupos más comprometidos tengan un mayor acceso a métodos electrónicos de recopilación de datos y una mayor participación en campañas de redes sociales diseñadas para reclutar participantes. Por lo tanto, es más probable que los jóvenes estén sobrerrepresentados en los estudios de participación voluntaria basados en aplicaciones29.

Interés médico y científico: Los estudios que reclutan muestras voluntarias pueden estar sesgados, ya que es probable que contengan una cantidad desproporcionada de personas que tienen un fuerte interés médico o científico. Es probable que estas personas tengan una mayor conciencia de la salud, un comportamiento más saludable, una mayor educación y mayores ingresos 31,52.

Muchos de los factores para ser probados o incluidos en los conjuntos de datos descritos aquí se confirman en el análisis de los datos de pruebas de los biobancos del Reino Unido (recuadro 3). El mensaje clave es que cuando el reclutamiento de muestras no es aleatorio, hay una gama increíblemente amplia de formas en que esa no aleatoriedad puede socavar los resultados del estudio.

Métodos para detectar y minimizar los efectos del sesgo del colisionador

En esta sección, describimos métodos para abordar el sesgo del colisionador o evaluar la sensibilidad de los resultados al sesgo del colisionador. Al igual que con el sesgo de confusión, generalmente no es posible probar que alguno de los métodos haya superado el sesgo de colisionador. Por lo tanto,los análisis de sensibilidad son cruciales para examinar la solidez de las conclusiones de los mecanismos de selección plausibles18, 19.

Una técnica simple y descriptiva para evaluar la probabilidad y el alcance del sesgo del colisionador inducido por la selección de la muestra es comparar las medias, varianzas y distribuciones de las variables de la muestra con las de la población objetivo (o una muestra representativa de la población objetivo)16. Esto proporciona información sobre el perfil de los individuos seleccionados en la muestra de la población objetivo de interés, como si tienden a ser mayores o más propensos a tener comorbilidades. Es particularmente valioso informar de estas comparaciones para variables clave en el análisis, como el factor de riesgo hipotético y el resultado, y otras variables relacionadas con estos. Con respecto al análisis del riesgo de enfermedad por COVID-19, un obstáculo importante para este esfuerzo es que en la mayoría de los casos se desconoce la prevalencia real de la infección en la población general. Si bien es alentador que las estimaciones de la muestra coincidan con sus equivalentes a nivel de población, es importante reconocer que esto no prueba definitivamente la ausencia de bias de colisionadores53. Esto se debe a que los factores que influyen en la selección podrían no medirse en el estudio, o los factores interactúan para influir en la selección y no se detectan al comparar distribuciones marginales.

La aplicabilidad de cada método depende de manera crucial de los datos disponibles sobre los no participantes. Estos métodos se pueden dividir ampliamente en dos categorías basadas en los datos disponibles: muestras anidadas y no anidadas. Una muestra anidada se refiere a la situación en la que las variables clave solo se miden dentro de un subconjunto de una “súper muestra”, lo que obliga al análisis a restringirse a esta submuestra. Un ejemplo cercano a esta definición es la submuestra de individuos que han recibido una prueba de COVID-19 anidada dentro de la cohorte de biobancos del Reino Unido (sin embargo, está claro que la cohorte de biobancos del Reino Unido es en sí misma una muestra no aleatorizada16). Para las muestras anidadas, los investigadores pueden aprovechar los datos disponibles en la súper muestra representativa. Una muestra no anidada se refiere a la situación en la que los datos solo están disponibles en una muestra no representativa. Un ejemplo de esto son las muestras de individuos hospitalizados, en las que no se dispone de datos sobre individuos no hospitalizados. Por lo general, es más difícil abordar el sesgo del colisionador en muestras no anidadas. En la Nota complementaria 1 se presenta un análisis guiado que ilustra ambos tipos de análisis de sensibilidad utilizando datos de Biobancos del Reino Unido sobre las pruebas de COVID-19.

Muestras anidadas :La ponderación de probabilidad inversa es un enfoque potente y flexible para ajustar el sesgo del colisionador en muestras anidadas54, 55. El efecto causal del factor de riesgo en el resultado se estima mediante regresión ponderada, de modo que los participantes que están sobrerrepresentados en la submuestra se ponderan a la baja y los participantes que están subrepresentados se ponderan al alza. En la práctica, construimos estos pesos estimando la probabilidad de que se seleccionen diferentes individuos en la muestra de la supermuestra representativa en función de sus covariables medidas56. Por ejemplo, podríamos usar los datos de la muestra completa del Biobanco del Reino Unido para estimar la probabilidad de que las personas reciban una prueba de COVID-19 y usar estos pesos en análisis que deben restringirse a la submuestra de las personas examinadas (por ejemplo, identificar factores de riesgo para que las pruebas den positivo). Seaman y White proporcionan una descripción detallada de las consideraciones prácticas y los supuestos para la ponderación de probabilidad inversa, como la especificación correcta del “modelo de selección de muestras” (un modelo estadístico de la relación entre las covariables medidas y la selección en la muestra, utilizado para construir estos pesos), la selección de variables y los enfoques para manejar pesos inestables (es decir, pesos que son cero o casi cero).

Un supuesto adicional para la ponderación de probabilidad inversa es que cada individuo de la población objetivo debe tener una probabilidad distinta de cero de ser seleccionado en la muestra. Ni esta suposición, ni la suposición de que el modelo de selección se ha especificado correctamente, pueden comprobarse utilizando únicamente los datos observados. A veces se utiliza un enfoque relacionado conceptualmente, utilizando la coincidencia de puntuación de propensión, para evitar la bias de eventos indexados57,58. También existen análisis de sensibilidad para la falta de especificación de las ponderaciones de probabilidad. Por ejemplo, Zhao et al. desarrollar un análisis de sensibilidad para determinar el grado en que las ponderaciones de probabilidad estimadas difieren de las verdaderas ponderaciones no observadas59. Este enfoque es particularmente útil cuando podemos estimar pesos de probabilidad incluyendo algunos, pero no necesariamente todos, de los predictores relevantes de inclusión de la muestra. Por ejemplo, podríamos estimar los pesos para la probabilidad de recibir una prueba de COVID-19 entre los participantes del Biobanco del Reino Unido, sin embargo, nos faltan predictores clave, como la presentación de los síntomas y las medidas del comportamiento de búsqueda de atención médica.

Muestras no anidadas: Cuando solo tenemos datos de la muestra del estudio (por ejemplo, solo datos de participantes que se sometieron a pruebas de COVID-19), no es posible estimar el modelo de selección directamente, ya que los individuos no seleccionados (no sometidos a pruebas) no son observados. En su lugar, es importante aplicar análisis de sensibilidad para evaluar la verosimilitud de que la selección de muestras induce sesgo de colisionador.

Búsqueda de límites y parámetros: Es posible inferir el alcance del sesgo del colisionador dado el conocimiento del tamaño y la dirección probables de las influencias del factor de riesgo y el resultado en la selección de la muestra (ya sean directas o a través de otros factores)19,60,61. Sin embargo, este enfoque depende de que el tamaño y la dirección sean correctos, y de que no haya otros factores que influyan en la selección. Por lo tanto, es importante explorar diferentes mecanismos posibles de selección de muestras y examinar su impacto en las conclusiones del estudio. Creamos una aplicación web simple guiada por estos supuestos para permitir a los investigadores explorar patrones simples de selección que se requerirían para inducir una asociación observacional: http://apps.mrcieu.ac.uk/ascrtain/. En la Fig. 4 utilizamos un informe reciente de una asociación protectora del tabaquismo en la infección por COVID-1945 para explorar la magnitud del sesgo del colisionador que se puede inducir debido a un muestreo seleccionado, bajo la hipótesis nula de ausencia de efecto causal.

Fig. 4: Ejemplo de asociaciones grandes inducidas por el sesgo del colisionador bajo la hipótesis nula de no relación causal, utilizando escenarios similares a los notificados para la asociación protectora observada del tabaquismo en la infección por COVID-19.
figura 4

Supongamos un escenario simple en el que la exposición hipotética (A) y el resultado (Y) son binarios y cada probabilidad de influencia de ser seleccionados en la muestra (S), p. ej. \(P ( S = 1 / A, Y) = \beta _0 + \beta _A + \beta _Y + \beta _{AY}\) donde \(\beta _0\) es la probabilidad de referencia de ser seleccionado, \(\beta _A\) es el efecto de A, \(\beta _Y\) es el efecto de Y y \(\beta _{AY}\) es el efecto de la interacción entre A e Y. El mecanismo de selección en cuestión se representa en la Fig. 1b (sin el término de interacción dibujado). Esta gráfica muestra qué combinaciones de estos parámetros serían necesarias para inducir un efecto de riesgo aparente con magnitud o > 2 (región azul) o un efecto protector aparente con magnitud o < 0.5 (región roja) bajo la hipótesis nula de no causalidad effect61. Para crear un escenario simplificado similar al de Miyara et al. utilizamos una prevalencia de tabaquismo en la población general de 0,27 y una prevalencia muestral de 0,05, con lo que fijamos \(\beta _A\) en 0,22. Debido a que la prevalencia de la COVID-19 no se conoce en la población general, permitimos que la muestra sea sobre o subrepresentativa (eje y). También permitimos efectos de interacción modestos. Calculando sobre este espacio de parámetros, el 40% de todas las combinaciones posibles conducen a una asociación de protección o riesgo de artefactos de 2 veces que opera a través de este modelo simple de sesgo solo. Es importante revelar este nivel de incertidumbre al publicar estimaciones observacionales.

También se han implementado varios otros enfoques en aplicaciones web en línea convenientes (“Apéndice”). Por ejemplo, Smith y VanderWeele propusieron un análisis de sensibilidad que permite a los investigadores vincular sus estimaciones especificando parámetros de sensibilidad que representan la fuerza de la selección de la muestra (en términos de ratios de riesgo relativo). También proporcionan un “valor E”, que es la magnitud más pequeña de estos parámetros que explicaría una asociación observada62. Aronow y Lee propusieron un análisis de sensibilidad para los promedios de las muestras basado en la ponderación de probabilidad inversa en muestras no anidadas en las que los pesos no se pueden estimar, pero se supone que están limitados entre dos valores especificados por el investigador63. Este trabajo se ha generalizado a los modelos de regresión, lo que también ha permitido incorporar información externa relevante sobre la población objetivo (por ejemplo, estadísticas resumidas del censo) 64. Estos enfoques de análisis de sensibilidad permiten a los investigadores explorar si existen estructuras de colisionadores creíbles que podrían explicar las asociaciones observacionales. Sin embargo, no representan un conjunto exhaustivo de modelos que puedan dar lugar a sesgos, ni prueban necesariamente si el sesgo del colisionador influye en los resultados. Si el factor de riesgo para la selección es en sí mismo el resultado de otras causas anteriores, es importante que se tenga en cuenta el impacto de estos efectos de selección anteriores (es decir, no solo la forma en que el factor de riesgo influye en la selección, sino también la forma en que las causas del factor de riesgo y/o las causas del resultado influyen en la selección, por ejemplo, Fig. 2b). Si bien estas causas aguas arriba pueden tener un pequeño efecto individual en la selección, es posible que muchos factores con efectos individuales pequeños puedan tener conjuntamente un gran efecto de selección e introducir bias65 de colisionador.

Análisis de control negativo: Si hay factores medidos en la muestra seleccionada que se sabe que no tienen influencia en el resultado, probar estos factores para determinar su asociación con el resultado dentro de la muestra seleccionada puede servir como un control negativo66,67. En virtud de ello, las asociaciones de control negativo deben ser nulas y, por lo tanto, son útiles como herramienta para proporcionar pruebas en apoyo de la selección. Si observamos asociaciones con magnitudes mayores de lo esperado,esto indica que la muestra se selecciona tanto en el control negativo como en el resultado del interese68, 69.

Análisis de correlación: Conceptualmente similar al enfoque de controles negativos anterior, cuando se selecciona una muestra, todas las características que influyeron en la selección se correlacionan dentro de la muestra (excepto el caso altamente improbable de que las causas sean perfectamente multiplicativas). Las pruebas de correlaciones entre factores de riesgo hipotéticos en los que se espera que no exista ninguna relación pueden indicar la presencia y magnitud de la selección del muestreo y, por lo tanto, la probabilidad de que el sesgo del colisionador distorsione el análisis primario70.

Implicaciones

La mayoría de las pruebas científicas que informan la toma de decisiones clínicas y de políticas durante la pandemia de COVID-19 provienen de estudios observacionales71. Hemos ilustrado cómo estos estudios observacionales son particularmente susceptibles al muestreo no aleatorio. Los ensayos clínicos aleatorios proporcionarán pruebas experimentales para el tratamiento, pero los estudios experimentales de infección no serán posibles por razones éticas. El impacto del sesgo del colisionador en las inferencias de los estudios observacionales podría ser considerable, no solo para el modelo de transmisión de enfermedad72,73, sino también para la inferencia causal7 y el modelo de predicción2.

Aunque existen muchos enfoques que intentan mejorar el problema del sesgo del colisionador, se basan en suposiciones no demostrables. Es difícil conocer el alcance de la selección de muestras, e incluso si se conociera, no se puede demostrar que se haya tenido plenamente en cuenta por ningún método. Se necesitan urgentemente encuestas de población representativas34 o estrategias de muestreo que eviten los problemas de bias74 de colisionadores74 para proporcionar pruebas fiables. Los científicos y los encargados de formular políticas deben tratar con cautela los resultados de muestras que probablemente no sean representativas de la población objetivo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.