때 완전한 사례 분석은 편견이다?

내 주요 연구 분야는 누락 된 데이터입니다. 누락 된 데이터는 경험적 연구에서 일반적인 문제입니다. 생물 통계학 내에서 누락 된 데이터는 거의 유비쿼터스-환자는 종종 여러 가지 이유로,계획대로 다시 방문에 오지 않는다. 설문 조사에서 참가자들은 설문 조사 파도 사이에 이동할 수 있습니다,우리는 그들과의 접촉을 잃게,우리는 우리가 그들에게 물어 좋아했을 질문에 대한 응답을 누락되도록.

누락된 데이터는 항상 정보를 더 적게 또는 더 많이 손실시킵니다. 이 표현은 모수 추정치에 대한 더 큰 표준 오차 및 더 넓은 신뢰 구간입니다. 그러나 틀림없이 더 중요한 결과는 누락 된 데이터가 우리의 분석에 관련된 변수(소위 무작위 가정에서 완전히 누락 됨)와 관련이없는 한 누락 된 데이터가 우리의 추정에 편향을 유발할 수 있다는 것입니다.

누락 된 데이터를 수용하기위한 광범위한 통계 기법이 있습니다(참조 www.missingdata.org.uk). 아마도 가장 일반적으로 채택 된 것은 데이터 집합에서 누락 된 데이터(우리가 우려하는 변수)를 가진 참가자를 분석에서 단순히 제외하는 것입니다. 이것은 일반적으로’완전한 사례 분석’또는’목록 별 삭제’로 알려진 것입니다-우리는 완전한 사례 만 분석합니다. 나는 최근에 세미나를 준(여기에 슬라이드)완전한 사례 분석은 편견과 완전한 사례 분석의 효율성을 개선하기위한 방법에 대한 경우. 이 게시물에서는 완전한 사례 분석이 편견없는 경우의 첫 번째 측면을 설명하겠습니다.

무작위로 완전히 누락
앞에서 언급했듯이 데이터가 무작위로 완전히 누락되어 데이터 누락 가능성이 우리의 분석에 관련된 모든 변수와 관련이 없다는 것을 의미하는 경우 완전한 사례 분석은 편견이 없습니다. 이는 전체 사례의 하위 집합이 모집단의 무작위(의도 한 것보다 작음)샘플을 나타 내기 때문입니다.

일반적으로,전체 사례가 전체 샘플과 체계적으로 다른 경우(즉,불완전한 경우와 다른 경우),즉 데이터는 완전히 무작위로 누락되지 않으며 전체 사례 만 분석하면 편향된 추정치가 발생합니다.

예를 들어,일부 인구의 중간 소득을 추정하는 데 관심이 있다고 가정합니다. 우리는 설문지를 작성하는 이메일을 보내,그 사이에 참가자들은 그들이 적립 얼마나 많은 말을하라는 메시지가 표시됩니다. 그러나 대상 샘플의 비율은 설문지를 반환,그래서 우리는 나머지 사람들에 대한 누락 된 소득이. 소득 질문에 대한 답변을 반환 한 사람이 답변을 반환하지 않은 사람보다 체계적으로 높거나 낮은 소득을 갖는 경우 전체 사례의 중간 소득은 편향됩니다.그러나 어떤 경우에는 데이터가 완전히 무작위로 누락되지 않은 경우에도 완전한 사례 분석이 실제로 편견없는 추정치를 제공 할 수 있습니다. 이러한 설정 중 하나는 우리의 분석이 회귀 모델을 맞추는 것으로 구성되어 일부 결과의 분포를 관련시키는 것입니다 와이(또는 종속 변수)하나 이상의 예측 변수(또는 독립 변수)엑스(여기서 엑스 다수의 예측 변수로 구성 될 수 있음). 이러한 모델의 예로는 연속 결과에 대한 선형 회귀 분석과 이진 결과에 대한 로지스틱 회귀가 있습니다. 결과 중 하나에서 미스가 발생하는 경우 와이,하나 이상의 예측 변수 엑스,또는 잠재적으로 둘 다 회귀 모델을 전체 사례에 맞추는 것은 편견이 없습니다.

사람들이 시간이 지남에 따라 추적되는 코호트 연구와 같은 일부 환경에서이 상태는 합리적으로 유지 될 수 있습니다. 예를 들어,가정 엑스 이다 요인 측정 대상 모집에서 코호트 연구로,그리고 그 결과 와이 모집 후 얼마 동안 측정됩니다. 예측 변수 중 하나에 누락된 값이 있다고 가정합니다. 미래 가치는 아직 결정되지 않았기 때문이다. 누락 에 엑스 값 에 의해 발생 엑스 자체 또는 다른 요인/변수에 의해 발생합니다. 미스 팅이 그러한 다른 요인에 의해 야기되는 경우에만 이러한 요소는 독립적으로 결과에 영향을 미칩니다 와이,완료 사례 분석 편향됩니다.

불행히도,일반적으로 누락 된 데이터 분석의 경우와 마찬가지로,실종에 대한 이러한 가정은 당면한 데이터를 사용하여 확실하게 확인할 수 없습니다. 그러나 어떤 경우에는 예측 변수를 조정 한 후 미스가 결과와 독립적이라는 가정이 그럴듯한 것으로 간주 될 수 있습니다. 이 경우 완전한 사례 분석이 최적으로 효율적이지는 않지만(불완전한 사례에서 데이터를 버리는 것)적어도 편견이 없습니다.

결론
따라서 특정 분석을 위해 모든 통계 패키지가 수행 할 수있는 좀 더 정교한 방법에 찬성하여 겸손한 완전한 사례 분석을 포기하기 전에(실제로는 일반적으로 누락 된 값을 처리하는 기본 접근법 임),우리는 완전한 사례 결과가 실제로 괜찮을 수 있는지(편향적 관점에서)생각해 봐야합니다. 그러나 완전한 사례 분석이 편견이 없더라도 비효율적이라고 말하는 것이 중요합니다.

피.에스. 10 월 2015-내가 공동 저술 한이 논문은 관심이있을 수 있습니다-완전한 기록에서 노출 확률 비율의 점근 적으로 편견없는 추정 로지스틱 회귀

당신은 또한에 관심이있을 수 있습니다:

  • 온라인 코스-누락 된 데이터를 사용한 통계 분석

답글 남기기

이메일 주소는 공개되지 않습니다.