kiedy kompletna analiza przypadku jest bezstronna?
moim głównym obszarem badań jest brak danych. Brakujące dane są częstym problemem w badaniach empirycznych. W biostatystyce brakujące dane są niemal wszechobecne-pacjenci często nie wracają na zaplanowane wizyty z różnych powodów. W ankietach uczestnicy mogą poruszać się pomiędzy falami ankiet, tracimy z nimi kontakt, tak że brakuje nam ich odpowiedzi na pytania, które chcielibyśmy im zadać.
brak danych zawsze powoduje, w mniejszym lub większym stopniu, utratę informacji. Przejawem tego są większe błędy standardowe i szersze przedziały ufności dla szacunków parametrów. Ale prawdopodobnie ważniejszą konsekwencją jest to, że brakujące dane mogą wywoływać stronniczość w naszych szacunkach, chyba że brakujące jest niezwiązane ze zmiennymi zaangażowanymi w naszą analizę (tzw. brakujące całkowicie przypadkowe założenie).
istnieje szeroki zakres technik statystycznych do uwzględniania brakujących danych (patrz www.missingdata.org.uk). Być może najczęściej przyjmowanym jest po prostu wykluczenie z naszej analizy tych uczestników naszego zbioru danych, którzy mają brakujące dane (w tych zmiennych, których dotyczy nasza sprawa). Jest to potocznie nazywane “kompletną analizą przypadku” lub “usunięciem listwise” – analizujemy tylko kompletne przypadki. Niedawno wygłosiłem seminarium (slajdy tutaj) w LSHTM o tym, kiedy Pełna analiza przypadku jest bezstronna i metoda poprawy wydajności pełnej analizy przypadku. W tym poście opiszę pierwszy aspekt, że kiedy Pełna analiza przypadku jest bezstronna.
brak całkowicie losowo
jak już wcześniej zauważyłam, jeśli brakuje danych całkowicie losowo, co oznacza, że szansa na brak danych nie ma związku z żadną ze zmiennych zaangażowanych w naszą analizę, Pełna analiza przypadku jest bezstronna. Dzieje się tak dlatego, że podzbiór pełnych przypadków stanowią losową (choć mniejszą niż zamierzone) próbkę z populacji.
ogólnie rzecz biorąc, jeżeli przypadki kompletne są systematycznie różne od całej próby (tj. różnią się od przypadków niekompletnych), tj. danych nie brakuje całkowicie losowo, analizując tylko kompletne przypadki doprowadzi do stronniczych szacunków.
Załóżmy na przykład, że jesteśmy zainteresowani oszacowaniem mediany dochodu pewnej populacji. Wysyłamy e-mail z prośbą o wypełnienie ankiety, wśród której uczestnicy proszeni są o podanie ile zarabiają. Ale tylko część próby docelowej zwraca kwestionariusz, a więc brakuje Dochodów dla pozostałych osób. Jeśli ci, którzy odpowiedzieli na pytanie dochodowe, mają systematycznie wyższe lub niższe dochody niż ci, którzy nie odpowiedzieli, mediana dochodu kompletnych przypadków będzie stronnicza.
Pełna Ważność analizy przypadku, gdy dane nie są MCAR
jednak w niektórych przypadkach kompletna analiza przypadku może faktycznie dać bezstronne szacunki, nawet jeśli dane nie brakuje całkowicie losowo. Jednym z tych ustawień jest to, że nasza analiza polega na dopasowaniu modelu regresji, odnoszącego się do rozkładu pewnego wyniku Y (lub zmiennej zależnej) do jednego lub więcej predyktorów (lub zmiennych niezależnych) X (tutaj X może składać się z wielu predyktorów). Przykładami takich modeli są regresja liniowa dla wyników ciągłych i regresja logistyczna dla wyników binarnych. Kiedy brakingness występuje w wyniku y, jeden lub więcej predyktorów X, lub potencjalnie oba, dopasowanie modelu regresji do pełnych przypadków jest bezstronne pod warunkiem, że prawdopodobieństwo bycia kompletnym przypadkiem jest niezależne od Y, uwarunkowane X (zobacz slajdy tutaj dla wyjaśnienia dlaczego).
w niektórych warunkach, takich jak badania kohortowe, w których ludzie są monitorowani w czasie, warunek ten można racjonalnie założyć, że utrzymuje się. Na przykład, załóżmy, że X są czynnikami mierzonymi u badanych podczas rekrutacji do badania kohortowego, a wynik y jest mierzony jakiś czas po rekrutacji. Załóżmy, że jeden z predyktorów w X ma brakujące wartości. Wtedy brak w X nie może być bezpośrednio spowodowany przez Y, ponieważ przyszła wartość Y nie jest jeszcze określona. Brak w X jest spowodowany przez wartość samego X lub przez inne czynniki / zmienne. Tylko wtedy, gdy brak jest spowodowany przez takie inne czynniki, a te czynniki niezależnie wpływają na wynik Y, całkowita analiza przypadku będzie stronnicza.
niestety, jak to zwykle bywa w przypadku analiz brakujących danych, to założenie o brakujących danych nie może być ostatecznie potwierdzone za pomocą danych pod ręką – aby to zrobić, musielibyśmy mieć brakujące dane dostępne. Jednak w niektórych przypadkach założenie, że brak jest niezależny od wyniku, po dostosowaniu do predyktorów, może być uznane za wiarygodne. W tym przypadku, chociaż Pełna analiza przypadku nie jest optymalnie wydajna (odrzuca dane z niekompletnych przypadków), jest co najmniej bezstronna.
wniosek
tak więc, dla konkretnej analizy, zanim porzucimy skromną kompletną analizę przypadków na rzecz bardziej wyrafinowanej metody, którą mogą wykonać wszystkie pakiety statystyk (w rzeczywistości jest to zazwyczaj domyślne podejście do obsługi brakujących wartości), powinniśmy zatrzymać się i zastanowić się, czy jest możliwe, że nasze pełne wyniki przypadków mogą być w porządku (z perspektywy błędu). Ważne jest jednak, aby powiedzieć, że nawet jeśli Pełna analiza przypadku jest bezstronna, jest nieefektywna – wyrzuca wszystkie informacje w niekompletnych przypadkach.
Październik 2015-artykuł, którego jestem współautorem może Cię zainteresować – asymptotycznie bezstronne szacowanie współczynników kursów ekspozycji w kompletnych rekordach regresja logistyczna
może cię również zainteresować:
- kurs Online-Analiza statystyczna z brakującymi danymi za pomocą R