bias Zderzacza podważa nasze zrozumienie ryzyka i ciężkości choroby COVID-19
dlaczego obserwacyjne badania COVID-19 są szczególnie podatne na bias Zderzacza
chociaż niewątpliwie cenne, zbiory danych obserwacyjnych mogą być czymś w rodzaju czarnej skrzynki, ponieważ szacowane w nich skojarzenia mogą wynikać z wielu różnych mechanizmów. Rozważmy scenariusz, w którym chcemy oszacować przyczynowy wpływ czynnika ryzyka, który można uogólnić na szerszą populację, taką jak Wielka Brytania (“populacja docelowa”). Ponieważ rzadko obserwujemy pełną populację docelową, musimy oszacować ten efekt w próbce osób pochodzących z tej populacji. Jeśli próbka jest prawdziwym losowym wyborem z populacji, mówimy, że jest reprezentatywna. Często jednak próbki są wybierane z wygody lub dlatego, że czynnik ryzyka lub wynik jest mierzony tylko w niektórych grupach (np. Status choroby COVID-19 obserwuje się tylko u osób, które otrzymały test). Ponadto osoby zaproszone do udziału w próbie mogą odmówić lub zrezygnować z niej. Jeśli cechy związane z włączeniem próby odnoszą się również do czynnika ryzyka i wyniku zainteresowania, wprowadza to możliwość odchylenia Zderzacza w naszej analizie.
bias Zderzacza występuje nie tylko w punkcie pobierania próbek. Można go również wprowadzić poprzez wybór modelowania statystycznego. Na przykład, czy właściwe jest dostosowanie się do współzmiennych w stowarzyszeniach obserwacyjnych, zależy od tego, gdzie współzmienne znajdują się na ścieżce przyczynowej i ich roli w procesie generowania danych18,19,20,21. Jeśli założymy, że dana współzmienna wpływa zarówno na hipotetyczny czynnik ryzyka, jak i na wynik (czynnik zakłócający), należy warunkować tę współzmienną, aby usunąć odchylenie wywołane przez strukturę zakłócającą. Jednakże, jeśli kowariat jest konsekwencją albo zarówno ekspozycji, jak i wyniku (Zderzacza), a nie wspólnej przyczyny (Zakłócacza), to uwarunkowanie na kowariacie może indukować, a nie zmniejszać,bias22,23, 24. Oznacza to, że błąd Zderzacza można również wprowadzić podczas dokonywania korekt statystycznych dla zmiennych leżących na ścieżce przyczynowej między czynnikiem ryzyka a wynikiem. A priori znajomość podstawowej struktury przyczynowej zmiennych i czy działają one jako wspólnej przyczyny lub wspólnej konsekwencji czynnika ryzyka i wyników w procesie generowania danych może być trudne do wywnioskowania. W związku z tym należy traktować błąd Zderzacza z podobną ostrożnością jak błąd zakłócający. W dalszej części artykułu (“metody wykrywania i minimalizowania skutków biasu Zderzacza”) omówimy sposoby tego działania.
istnieje wiele sposobów zbierania danych na temat COVID-19, które mogą wprowadzić niezamierzone uwarunkowanie w wybranej próbce. Charakterystyka uczestników rekrutowanych jest związana z szeregiem czynników, w tym z decyzjami politycznymi, ograniczeniami kosztów, dostępem technologicznym i metodami testowania. Powszechnie uznaje się również, że prawdziwa częstość występowania choroby w populacji pozostaje nieznana25. W tym miejscu opisujemy formy gromadzenia danych dla COVID-19 przed wyszczególnieniem okoliczności związanych z COVID-19, które sprawiają, że jego analiza jest podatna na bias Zderzacza.
strategie pobierania próbek COVID-19 i definicje przypadków / kontroli
pobieranie próbek uzależnione od dobrowolnego udziału (definicja przypadku: prawdopodobny COVID-19, definicja kontroli: dobrowolny uczestnik nie zgłaszający objawów COVID-19, rys. 2A): prawdopodobny status COVID-19 można określić na podstawie badań, które wymagają dobrowolnego udziału. Mogą one obejmować na przykład badania przeprowadzone przez istniejące badania kohortowe i podłużne26,27, powiązanie danych z zapisami administracyjnymi dostępnymi w niektórych badaniach kohortowych, takich jak brytyjski Biobank28,lub programy aplikacji oparte na telefonach komórkowych29, 30. Wykazano, że udział w badaniach naukowych jest zdecydowanie nie przypadkowy (np. niewspółmiernie prawdopodobne jest, że uczestnicy będą dobrze wykształceni, świadomi zdrowia i Niepalący), więc ochotnicy w tych próbach prawdopodobnie będą się znacznie różnić od populacji docelowej31,32,33. Zob. Ramka 2 i Rys. 3 dla winiety o tym, jak w jednym z badań30 zbadano odchylenie Zderzacza w tym kontekście.
presja doboru próbek dla badań COVID-19
możemy podzielić powyższe strategie pobierania próbek na trzy podstawowe ramy pobierania próbek. Pierwszym z tych RAM jest pobieranie próbek w oparciu o dobrowolne uczestnictwo, które z natury nie jest losowe ze względu na czynniki, które wpływają na uczestnictwo. Drugim z nich są ramki próbkowania z wykorzystaniem wyników badań COVID-19. Z nielicznymi wyjątkami (np. ref. 3,34), badania populacyjne na obecność COVID-19 na ogół nie są wykonywane w próbkach losowych. Trzecia z tych ramek to pobieranie próbek na podstawie hospitalizowanych pacjentów, z COVID-19 lub bez niego. Jest to ponownie, niekoniecznie przypadkowe, ponieważ warunki przyjęcia do szpitala.
Ramka 3 i Rys. 3 zilustrować szerokość czynników, które mogą wywołać presję doboru próbki. Podczas gdy niektóre z czynników, które mają wpływ na procesy pobierania próbek mogą być wspólne dla wszystkich trybów pobierania próbek wymienionych powyżej, niektóre będą specyficzne dla trybu. Czynniki te prawdopodobnie będą się różnić w sposobie działania w różnych kontekstach krajowych i systemów opieki zdrowotnej. Poniżej przedstawiamy szereg możliwych presji selekcji i ich wpływ na różne ramy próbkowania COVID-19. Opisujemy również identyfikację/definicję przypadku i szczegółowo opisujemy, w jaki sposób mogą one wpływać na wnioskowanie, jeśli pozostaną niezbadane.
nasilenie objawów: Spowoduje to prawdopodobnie odchylenie wszystkich trzech głównych RAM próbkowania, chociaż jest najbardziej po prostu rozumiane w kontekście testowania. Kilka krajów przyjęło strategię oferowania badań głównie pacjentom, u których objawy są wystarczająco poważne, aby wymagać pomocy medycznej, np. hospitalizacji, tak jak miało to miejsce w Wielkiej Brytanii do końca kwietnia 2020 r. Wiele prawdziwie pozytywnych przypadków w populacji pozostanie zatem niewykrytych i będzie mniej prawdopodobne, aby stanowić część próby, jeśli Rekrutacja zależy od statusu testu. Wysoki odsetek bezobjawowych nosicieli wirusa lub przypadków z atypową prezentacją dodatkowo zwiąże ten problem.
rozpoznawanie objawów: spowoduje to również odchylenie wszystkich trzech RAM próbkowania, ponieważ wejście do wszystkich próbek jest uzależnione od rozpoznawania objawów. W zależności od stopnia nasilenia objawów, badania COVID-19 różnią się w zależności od rozpoznawania objawów35. Jeśli dana osoba nie rozpozna prawidłowych objawów lub uzna ich objawy za nieistotne, może po prostu zostać poinstruowana, aby samodzielnie się odizolować i nie otrzymać testu COVID-19. Osoby z lękiem związanym ze zdrowiem mogą być bardziej narażone na nadmierne zgłaszanie objawów, podczas gdy osoby z mniejszą ilością informacji na temat pandemii lub dostępu do porad zdrowotnych mogą być niedostatecznie reprezentowane. Będzie to funkcjonalnie działać jako zróżnicowany wskaźnik fałszywie ujemnych wyników u poszczególnych osób w oparciu o rozpoznawanie objawów, co może być konsekwencją podania wysokich szacunków przypadków i transmisji bezobjawowych36. Zmiana wytycznych dotyczących objawów może wiązać ten problem, co może powodować systematyczne związki między prezentacją objawów a testowaniem 35, 37. W tym przypadku grupy o niższej świadomości (na przykład z powodu niewystarczającej komunikacji publicznej lub barier językowych) mogą mieć wyższe progi dla uzyskania testu, a zatem osoby, które uzyskają wynik pozytywny, będą miały większe ryzyko poważnych wyników COVID-19.
zawód: ekspozycja na COVID-19 jest wzorcowa w odniesieniu do zawodu. W wielu krajach pracownicy pierwszej linii służby zdrowia są znacznie bardziej narażeni na badania na obecność COVID-19 niż ogół populacji5,38 ze względu na ich bliskość do wirusa i potencjalne konsekwencje transmisji związanej z infekcją39. W związku z tym będą one znacznie nadmiernie reprezentowane w próbkach, w zależności od statusu testu. Inni kluczowi pracownicy mogą być narażeni na wysokie ryzyko infekcji ze względu na dużą liczbę kontaktów w stosunku do pracowników innych niż kluczowi, a zatem mogą być nadmiernie reprezentowani w próbkach pod warunkiem pozytywnego statusu testu lub śmierci związanej z COVID. Wszelkie czynniki związane z tymi zawodami (np. pochodzenie etniczne, pozycja społeczno-ekonomiczna, wiek i stan zdrowia) będą zatem również związane z doborem próby. Rysunek 2B ilustruje przykład, w którym hipotetyczny czynnik ryzyka (palenie tytoniu) nie musi wpływać przyczynowo na dobór próby (hospitalizowani pacjenci), może być po prostu powiązany z powodu nieporozumień między czynnikiem ryzyka a doborem próby (bycie pracownikiem służby zdrowia).
pochodzenie etniczne: mniejszości etniczne są również bardziej narażone na zakażenie COVID-1940. Niekorzystne wyniki COVID – 19 są znacznie gorsze u osób o pewnych mniejszościach etnicznych41. Może to prawdopodobnie stronniczość szacowane Stowarzyszenia w ramach pobierania próbek opartych w hospitalizowanych pacjentów, jak w wielu krajach, mniejszości etniczne są nadmiernie reprezentowane jako nierówności etniczne w zdrowiu są wszechobecne i dobrze udokumentowane. Ponadto grupy mniejszości etnicznych są bardziej narażone na działanie COVID-1942. Środowisko kulturowe (w tym rasizm systemowy) i bariery językowe mogą negatywnie wpłynąć na wejście na studia, zarówno oparte na testach, jak i na dobrowolnym uczestnictwu43. Grupy mniejszości etnicznych mogą być trudniejsze do rekrutacji do badań, nawet w obrębie danego obszaru44, i mogą mieć wpływ na reprezentatywność próby. Mniejszości etniczne rzadziej zgłaszały testowanie w naszej analizie danych biobanku brytyjskiego, gdzie jednym z najsilniejszych czynników związanych z testowaniem był pierwszy główny składnik genetyczny, który jest znacznikiem pochodzenia (Ramka 3). Tak więc może to być przedstawione jak wyżej, przy czym przedstawienie mniejszości etnicznych pod opiekę medyczną jest uzależnione od cięższych objawów.
: Zdefiniowana tutaj jako większa podatność na niekorzystne wyniki COVID-19, słabość jest bardziej prawdopodobna w niektórych grupach populacji, takich jak starsi dorośli w opiece długoterminowej lub ośrodkach opieki wspomaganej, osoby z wcześniej istniejącymi schorzeniami, grupy otyłe i palacze. Czynniki te mogą silnie przewidywać hospitalizację. Jednocześnie zakażenie i nasilenie COVID-19 prawdopodobnie mają wpływ na hospitalizację8,9,10,45, co oznacza, że badanie tych czynników u hospitalizowanych pacjentów może wywołać efekt kolidera. Ponadto w różnych krajach grupy mogą być traktowane w różny sposób pod względem sprawozdawczości na temat COVID-1946. Na przykład w Wielkiej Brytanii wczesne doniesienia o zgonach “z powodu COVID – 19” mogły być połączone ze zgonami “podczas infekcji COVID-19″47. Osoby O WYSOKIM RYZYKU są bardziej narażone na ogólne badania, ale w wielu badaniach rzadziej pobiera się próbki danych demograficznych o wysokim ryzyku, takich jak dane z opieki długoterminowej lub z placówek opieki wspomaganej46. Słabość przewiduje również hospitalizację w różny sposób w różnych grupach, na przykład starsza osoba z bardzo ciężkimi objawami COVID-19 w placówce opieki wspomaganej nie może być zabrana do szpitala, gdzie byłaby młodsza osoba48.
miejsce zamieszkania i powiązania społeczne: istnieje wiele bardziej dystalnych lub pośrednich wpływów na wybór próby. Osoby z lepszym dostępem do usług opieki zdrowotnej mogą być bardziej narażone na badania niż osoby z gorszym dostępem. Osoby znajdujące się na obszarach o większej liczbie usług medycznych lub korzystniejszym transporcie publicznym mogą mieć łatwiejszy dostęp do usług testowych, podczas gdy osoby znajdujące się na obszarach o mniejszym dostępie do usług medycznych mogą być bardziej narażone na testowane49. Osoby mieszkające na obszarach o silniejszych związkach przestrzennych lub społecznych z istniejącymi ogniskami mogą być również bardziej narażone na badania ze względu na zwiększoną czujność medyczną na tych obszarach. Sieci wsparcia rodziny i społeczności mogą również wpływać na dostęp do opieki medycznej, na przykład osoby odpowiedzialne za opiekę i słabe sieci wsparcia mogą być mniej zdolne do zwrócenia się o uwagę medyczną50. Powiązanie jest prawdopodobnie najbardziej prawdopodobne do bias testowania ramek próbkowania, ponieważ testowanie jest uzależnione od świadomości i dostępu. Jednakże, może również odchylać wszystkie trzy główne ramy próbkowania poprzez podobny mechanizm do rozpoznawania objawów.
dostęp do Internetu i zaangażowanie technologiczne: Będzie to przede wszystkim tendencyjna dobrowolna Rekrutacja za pośrednictwem aplikacji, chociaż może być również związana ze zwiększoną świadomością i testowaniem stronniczości za pośrednictwem ścieżki rozpoznawania objawów. Przykładowa Rekrutacja za pośrednictwem aplikacji internetowych jest słabo reprezentowana przez niektóre grupy32,51. Ponadto różni się to w zależności od projektu pobierania próbek, w którym wykazano, że dobrowolne lub “pull-in” metody zbierania danych wytwarzają bardziej zaangażowane, ale mniej reprezentatywne próbki niż metody oparte na reklamie lub “push out” 33. Te bardziej zaangażowane grupy prawdopodobnie mają większy dostęp do elektronicznych metod gromadzenia danych i większe zaangażowanie w kampanie w mediach społecznościowych, które mają na celu rekrutację uczestników. W związku z tym młodsi ludzie są bardziej narażeni na nadmierną reprezentację w badaniach dobrowolnego uczestnictwa opartych na aplikacji29.
zainteresowania medyczne i naukowe: badania rekrutujące dobrowolne próbki mogą być stronnicze, ponieważ mogą zawierać nieproporcjonalną liczbę osób o silnym zainteresowaniu medycznym lub naukowym. Jest prawdopodobne, że osoby te same będą miały większą świadomość zdrowotną, zdrowsze zachowania, będą lepiej wykształcone i będą miały wyższe dochody31,52.
wiele czynników, które należy przetestować lub włączyć do opisanych tutaj zestawów danych, zostało potwierdzonych w analizie danych testowych brytyjskiego banku biobanku (Ramka 3). Kluczowym przesłaniem jest to, że gdy Rekrutacja próbek nie jest przypadkowa, istnieje niezwykle szeroki zakres sposobów, w jaki ta nieprzypadkowość może podważyć wyniki badań.
metody wykrywania i minimalizowania skutków biasu Zderzacza
w tej sekcji opisujemy metody adresowania biasu Zderzacza lub oceny wrażliwości wyników na bias Zderzacza. Podobnie jak w przypadku mylącego odchylenia, na ogół nie jest możliwe udowodnienie, że którakolwiek z metod przezwyciężyła odchylenie Zderzacza. Dlatego też analizy wrażliwości mają kluczowe znaczenie dla oceny wiarygodności wniosków wobec wiarygodnych mechanizmów selekcji18,19.
prostą, opisową techniką oceny prawdopodobieństwa i zakresu odchylenia Zderzacza indukowanego przez dobór próby jest porównanie średnich, wariancji i rozkładów zmiennych w próbie z tymi w populacji docelowej (lub reprezentatywnej próbie populacji docelowej)16. Dostarcza To informacji na temat profilu osób wybranych do próby z docelowej populacji będącej przedmiotem zainteresowania, takich jak to, czy są one starsze lub bardziej narażone na choroby współistniejące. Szczególnie cenne jest zgłaszanie tych porównań dla kluczowych zmiennych w analizie, takich jak hipotetyczny czynnik ryzyka i wynik, oraz innych zmiennych z nimi związanych. W odniesieniu do analizy ryzyka choroby COVID-19 jedną z głównych przeszkód w tym przedsięwzięciu jest to, że w większości przypadków rzeczywista częstość występowania zakażenia w populacji ogólnej nie jest znana. Chociaż jest to zachęcające, jeśli szacunki próby odpowiadają ich odpowiednikom na poziomie populacji, ważne jest, aby uznać, że nie dowodzi to ostatecznie braku bias zderzaczów53. Dzieje się tak, ponieważ czynniki wpływające na selekcję mogą być w badaniu niezmierzone lub czynniki oddziałują na selekcję i pozostają niewykryte podczas porównywania rozkładów marginalnych.
zastosowanie każdej metody zależy przede wszystkim od danych dostępnych dla osób niebędących uczestnikami. Metody te można ogólnie podzielić na dwie kategorie w oparciu o dostępne dane: zagnieżdżone i nie zagnieżdżone próbki. Zagnieżdżona próbka odnosi się do sytuacji, gdy kluczowe zmienne są mierzone tylko w podzbiorze w inny sposób reprezentatywnej “super próbki”, co wymusza analizę być ograniczone do tej podpróbki. Przykładem zbliżonym do tej definicji jest próbka cząstkowa osób, które otrzymały test COVID-19 zagnieżdżony w kohorcie biobanku brytyjskiego (choć oczywiste jest, że sama kohorta biobanku Brytyjskiego nie jest pobierana losowo 16). W przypadku próbek zagnieżdżonych naukowcy mogą skorzystać z danych dostępnych w reprezentatywnej super-próbce. Nie zagnieżdżona próbka odnosi się do sytuacji, w której dane są dostępne tylko w niereprezentatywnej próbce. Przykładem tego są próbki hospitalizowanych osób, w których nie są dostępne dane na temat osób nie hospitalizowanych. Zwykle trudniej jest rozwiązać problem biasu Zderzacza w próbkach nie zagnieżdżonych. Analiza z przewodnikiem ilustrująca oba rodzaje analiz wrażliwości z wykorzystaniem danych biobanku brytyjskiego dotyczących badania COVID-19 jest przedstawiona w uwadze dodatkowej 1.
zagnieżdżone próbki: Odwrócona waga prawdopodobieństwa jest potężnym i elastycznym podejściem do dostosowania do odchylenia Zderzacza w zagnieżdżonych próbkach 54,55. Przyczynowy wpływ czynnika ryzyka na wynik szacuje się za pomocą regresji ważonej, w taki sposób, że uczestnicy, którzy są nadmiernie reprezentowani w próbce cząstkowej, są ważeni w dół, a uczestnicy, którzy są niedostatecznie reprezentowani, są ważeni w górę. W praktyce konstruujemy te wagi, szacując prawdopodobieństwo, że różne osoby zostaną wybrane do próby z reprezentatywnej superpróbki na podstawie zmierzonych kowariat56. Na przykład, możemy wykorzystać dane z pełnej próbki brytyjskiego biobanku, aby oszacować prawdopodobieństwo osób otrzymujących test na COVID-19 i wykorzystać te wagi w analizach, które muszą być ograniczone do podpróbki badanych osób (np. identyfikacja czynników ryzyka dla testu pozytywnego). Seaman i White zapewniają szczegółowy przegląd praktycznych rozważań i założeń dotyczących odwrotnej wagi prawdopodobieństwa, takich jak prawidłowa Specyfikacja “Modelu doboru próby” (model statystyczny relacji między mierzonymi kowariatami i selekcją w próbce, używany do konstruowania tych wag), wybór zmiennych i podejścia do obsługi niestabilnych wag (tj. wag, które są zerowe lub bliskie zera).
dodatkowym założeniem dla odwrotnej wagi prawdopodobieństwa jest to, że każda osoba w populacji docelowej musi mieć niezerowe prawdopodobieństwo bycia wybranym do próby. Ani to założenie, ani założenie, że model selekcji został prawidłowo określony, nie są testowalne przy użyciu samych obserwowanych danych. Koncepcyjnie powiązane podejście, wykorzystujące dopasowanie wyniku skłonności, jest czasami stosowane w celu uniknięcia zdarzenia indeksowego bias57, 58. Istnieją również analizy wrażliwości dla Miss Specification wag prawdopodobieństwa. Na przykład, Zhao et al. opracowanie analizy wrażliwości dla stopnia, w jakim szacowane wagi prawdopodobieństwa różnią się od rzeczywistych, nieobserwowanych ważeń59. Takie podejście jest szczególnie przydatne, gdy możemy oszacować wagi prawdopodobieństwa, w tym niektóre, ale niekoniecznie wszystkie, odpowiednich predyktorów włączenia próbki. Na przykład możemy oszacować wagi prawdopodobieństwa otrzymania testu COVID – 19 wśród uczestników brytyjskiego biobanku, jednak brakuje nam kluczowych czynników, takich jak prezentacja objawów i miary zachowań wymagających opieki zdrowotnej.
próbki Nie zagnieżdżone: Gdy mamy tylko dane dotyczące badanej próbki (np. tylko dane dotyczące uczestników, którzy byli badani pod kątem COVID-19), nie jest możliwe bezpośrednie oszacowanie modelu selekcji, ponieważ osoby niezbrane (nieprzetestowane) nie są obserwowane. Zamiast tego, ważne jest, aby zastosować analizy wrażliwości w celu oceny wiarygodności, że dobór próby powoduje odchylenie Zderzacza.
: Można wywnioskować, w jakim stopniu wpływ czynników ryzyka i wyników na dobór próby (czy są to czynniki bezpośrednie, czy też inne czynniki)19,60,61. Jednak to podejście zależy od wielkości i kierunku, które są poprawne, i nie ma innych czynników wpływających na wybór. Dlatego ważne jest zbadanie różnych możliwych mechanizmów doboru próby i zbadanie ich wpływu na wnioski z badań. Stworzyliśmy prostą aplikację internetową opartą na tych założeniach, aby umożliwić badaczom zbadanie prostych wzorców selekcji, które byłyby wymagane do wywołania związku obserwacyjnego: http://apps.mrcieu.ac.uk/ascrtain/. Na Rys. 4 używamy niedawnego raportu o ochronnym związku palenia w zakażeniu COVID-1945, aby zbadać wielkość odchylenia Zderzacza, które można wywołać dzięki wybranemu próbkowaniu, pod hipotezą zerową braku efektu przyczynowego.
kilka innych podejść zostało również zaimplementowanych w wygodnych internetowych aplikacjach internetowych (“dodatek”). Na przykład Smith i VanderWeele zaproponowali analizę wrażliwości, która pozwala badaczom związać swoje szacunki poprzez określenie parametrów wrażliwości reprezentujących siłę doboru próby (pod względem względnych współczynników ryzyka). Zapewniają one również “wartość E”, która jest najmniejszą wielkością tych parametrów, która wyjaśniałaby obserwowany asocjacja62. Aronow i Lee zaproponowali analizę wrażliwości dla średnich próbek w oparciu o odwrotną wagę prawdopodobieństwa w próbkach nie zagnieżdżonych, w których nie można oszacować wag, ale zakłada się, że są one ograniczone między dwiema wartościami określonymi przez badaczów63. Prace te zostały uogólnione na Modele regresji, umożliwiając również włączenie odpowiednich zewnętrznych informacji na temat populacji docelowej (np. statystyk sumarycznych ze spisu ludności) 64. Te podejścia do analizy wrażliwości pozwalają badaczom zbadać, czy istnieją wiarygodne struktury zderzające, które mogłyby wyjaśniać Asocjacje obserwacyjne. Nie reprezentują one jednak wyczerpującego zestawu modeli, które mogłyby wywołać stronniczość, ani nie koniecznie udowadniają, czy stronniczość Zderzacza wpływa na wyniki. Jeżeli czynnik ryzyka dla wyboru jest sam w sobie wynikiem dalszych przyczyn poprzedzających wybór, ważne jest, aby wziąć pod uwagę wpływ tych wcześniejszych skutków selekcji (tj. nie tylko w jaki sposób czynnik ryzyka wpływa na wybór, ale także w jaki sposób przyczyny czynnika ryzyka i/lub przyczyny wyniku wpływają na wybór, np. rys. 2b). Chociaż te wcześniejsze przyczyny mogą indywidualnie mieć niewielki wpływ na selekcję, możliwe jest, że wiele czynników z pojedynczo małymi skutkami może wspólnie mieć duży efekt selekcji i wprowadzać bias zderzaczu65.
analizy kontroli negatywnej: jeśli w wybranej próbce mierzone są czynniki, o których wiadomo,że nie mają wpływu na wynik, badanie tych czynników pod kątem powiązania z wynikiem w wybranej próbce może służyć jako kontrola negatywna66, 67. Z tego powodu powiązania kontroli negatywnej powinny być zerowe, a zatem są użyteczne jako narzędzie do dostarczania dowodów na poparcie selekcji. Jeśli zaobserwujemy skojarzenia z większymi magnitudami niż oczekiwano, oznacza to,że próbka jest wybierana zarówno pod względem kontroli negatywnej, jak i wyniku zainteresowania68, 69.
analizy korelacji: koncepcyjnie podobne do powyższego podejścia do kontroli negatywnych, gdy próbka jest wybrana, Wszystkie cechy, które wpłynęły na selekcję, stają się skorelowane w próbce (z wyjątkiem wysoce nieprawdopodobnego przypadku, w którym przyczyny są doskonale multiplikatywne). Badanie korelacji między hipotetycznymi czynnikami ryzyka, w przypadku gdy oczekuje się, że nie powinno istnieć powiązanie, może wskazywać na obecność i wielkość doboru próby, a tym samym na prawdopodobieństwo zniekształcenia analizy pierwotnej70.
implikacje
większość naukowych dowodów informujących o polityce i podejmowaniu decyzji klinicznych podczas pandemii COVID-19 pochodzi z badań obserwacyjnych71. Zilustrowaliśmy, w jaki sposób te badania obserwacyjne są szczególnie podatne na losowe pobieranie próbek. Randomizowane badania kliniczne dostarczą doświadczalnych dowodów na leczenie, ale eksperymentalne badania nad zakażeniem nie będą możliwe ze względów etycznych. Wpływ biasu Zderzacza na wnioski z badań obserwacyjnych może być znaczny, nie tylko w przypadku modelowania transmisji chorobów72, 73, ale także w przypadku wnioskowania przyczynowego7 i modelowania predykcji2.
chociaż istnieje wiele podejść, które próbują złagodzić problem Zderzacza, opierają się one na niemożliwych do udowodnienia założeniach. Trudno jest poznać zakres doboru próby, a nawet jeśli były one znane, nie można udowodnić, że zostały one w pełni uwzględnione za pomocą jakiejkolwiek metody. Reprezentatywne badania populacji34 lub strategie pobierania próbek, które zapobiegają problemom bias zderzaczów74, są pilnie wymagane w celu dostarczenia wiarygodnych dowodów. Wyniki z próbek, które prawdopodobnie nie są reprezentatywne dla populacji docelowej, powinny być traktowane z ostrożnością przez naukowców i decydentów politycznych.