When is complete case analysis unbased?
ensisijainen tutkimusalueeni on puuttuva tieto. Puuttuvat tiedot ovat yleinen kysymys empiirisessä tutkimuksessa. Biostatistiikassa puuttuvat tiedot ovat lähes kaikkialla-potilaat eivät usein palaa suunnitellusti käynteihin eri syistä. Kyselyissä osallistujat voivat liikkua tutkimusaaltojen välillä, menetämme yhteyden heihin niin, että heiltä jää vastaamatta kysymyksiin, joita olisimme halunneet heille esittää.
puuttuvat tiedot aiheuttavat aina vähäisemmässä tai suuremmassa määrin tietojen häviämisen. Tämän ilmentymiä ovat suuremmat keskivirheet ja laajemmat parametrien estimaattien luotettavuusvälit. Mutta todennäköisesti tärkeämpi seuraus on, että puuttuvat tiedot voivat aiheuttaa harhaa arvioissamme, ellei puuttumattomuus liity analyysimme muuttujiin (ns.puuttuva täysin sattumanvarainen oletus).
on olemassa laaja kirjo tilastollisia tekniikoita puuttuvien tietojen paikkaamiseksi (KS. www.missingdata.org.uk). Ehkä yleisimmin hyväksytty on yksinkertaisesti sulkea pois ne osallistujat meidän aineisto, jotka ovat mitään tietoja puuttuu (näissä muuttujissa olemme huolissaan) meidän analyysi. Tätä kutsutaan yleisesti “täydelliseksi tapausanalyysiksi” tai “listwise deletioksi” – analysoimme vain täydelliset tapaukset. Olen äskettäin antanut seminaarin (dioja täällä) klo LSHTM noin, kun täydellinen tapaus analyysi on puolueeton ja menetelmä parantaa tehokkuutta täydellinen tapaus analyysi. Tässä viestissä Minä kuvata ensimmäinen näkökohta, että kun täydellinen tapaus analyysi on puolueeton.
puuttuu täysin satunnaisesti
kuten aiemmin totesin, jos tiedot puuttuvat täysin satunnaisesti, mikä tarkoittaa, että mahdollisuus tietojen puuttumiseen ei liity mihinkään analyysimme muuttujiin, täydellinen tapausanalyysi on puolueeton. Tämä johtuu siitä, että täydellisten tapausten osajoukko edustaa satunnaista (vaikkakin suunniteltua pienempää) otosta perusjoukosta.
yleensä, jos täydelliset tapaukset ovat systemaattisesti erilaisia kuin otos kokonaisuudessaan (toisin sanoen erilaisia kuin epätäydelliset tapaukset), ts. tiedot eivät puutu täysin satunnaisesti, analysoimalla vain kokonaisia tapauksia johtaa puolueellisiin arvioihin.
Oletetaan esimerkiksi, että meitä kiinnostaa arvioida jonkin väestön mediaanituloja. Lähetämme sähköpostia, jossa pyydetään täyttämään kyselylomake, jossa osallistujia pyydetään kertomaan, kuinka paljon he ansaitsevat. Mutta vain osa kohdeotoksesta palauttaa kyselyn, joten jäljelle jääneiltä ihmisiltä puuttuvat tulot. Jos tulokysymykseen vastauksen palauttaneilla on systemaattisesti suuremmat tai pienemmät tulot kuin niillä, jotka eivät palauttaneet vastausta, kokonaisten tapausten mediaanitulo on puolueellinen.
täydellinen tapausanalyysi validiteetti, kun tiedot eivät ole MCAR
kuitenkin joissakin tapauksissa täydellinen tapausanalyysi voi antaa puolueettomia arvioita, vaikka tiedot eivät puuttuisikaan täysin satunnaisesti. Yksi näistä asetuksista on se, jossa analyysimme koostuu regressiomallin sovittamisesta, jonkin tuloksen Y (tai riippuvan muuttujan) jakautumisen liittämisestä yhteen tai useampaan ennustajaan (tai riippumattomaan muuttujaan) X (tässä X voi koostua useista ennustajista). Esimerkkejä tällaisista malleista ovat lineaarinen regressio jatkuville tuloksille ja logistinen regressio binäärisille tuloksille. Kun missingness esiintyy joko tulos Y, yksi tai useampi prediktoreista X, tai mahdollisesti molemmat, joka sopii regressiomallin kokonaisia tapauksia on puolueeton edellyttäen, että todennäköisyys on täydellinen tapaus on riippumaton Y, ehdollinen X (katso dioja tässä selitys miksi).
joissakin tilanteissa, kuten kohorttitutkimuksissa, joissa ihmisiä seurataan ajan mittaan, tämän tilan voidaan kohtuudella olettaa säilyvän. Oletetaan esimerkiksi, että X ovat tekijöitä, jotka mitataan koehenkilöistä rekrytoitaessa kohorttitutkimukseen, ja että tulos Y mitataan jonkin aikaa rekrytoinnin jälkeen. Oletetaan, että jollakin X: n ennustajista on puuttuvat arvot. Silloin X: n missingness ei voi olla suoraan Y: n aiheuttama, koska Y: n tuleva arvo on vielä määrittelemättä. Puutteellisuus X: ssä johtuu joko itse X: n arvosta tai muista tekijöistä/muuttujista. Vain jos puutteellisuus johtuu tällaisista muista tekijöistä, ja nämä tekijät vaikuttavat itsenäisesti lopputulokseen Y, täydellinen tapausanalyysi on puolueellinen.
valitettavasti, kuten yleensä puuttuvien tietojen analyyseissä, tätä olettamusta puuttumisesta ei voida lopullisesti vahvistaa käsillä olevan datan avulla – tätä varten puuttuvien tietojen olisi oltava saatavilla. Joissakin tapauksissa olettamusta siitä, että olemattomuus on riippumaton tuloksesta, voidaan kuitenkin pitää uskottavana sen jälkeen, kun ennustajia on mukautettu. Tässä tapauksessa täydellinen tapausanalyysi ei ole optimaalisesti tehokas (se heittää pois epätäydellisten tapausten tiedot), mutta se on ainakin puolueeton.
johtopäätös
niin, tietyn analyysin, ennen kuin Oja vaatimaton täydellinen tapaus analyysi hyväksi joitakin kehittyneempiä menetelmä, joka Kaikki tilastot paketit voivat suorittaa (itse asiassa se on tyypillisesti oletuksena lähestymistapa käsittelyyn puuttuvat arvot), meidän pitäisi pysähtyä ja miettiä, onko mahdollista, että meidän täydellinen tapaus tulokset saattavat todella olla ok (vinouden näkökulmasta). On tärkeää sanoa kuitenkin, että vaikka täydellinen tapaus analyysi on puolueeton, se on tehoton-se heittää pois kaikki tiedot epätäydellisissä tapauksissa.
s. Lokakuu 2015 – this paper I co-authororated may be of interest – asymptoottisesti puolueeton estimation of exposure odds rations in complete records logistic regression
You may also be interested in:
- Online course-Statistical Analysis with Missing Data using R