R-Blogger블로그·해설한국어2009-12-17
결측치 대체
Missing Data Imputation결측치를 처리하는 문제는 R 사용자에게 매우 흔하며, 포트폴리오 상관행렬 추정에서부터 복잡한 다요소 분석까지 다양한 상황에서 발생합니다. 결측치는 피할 수 없으며, 이를 무시하면 편향된 추정치를 얻을 수 있으므로 적절한 대체 방법이 필요합니다.결측치 처리 전략단순 삭제 전략: pairwise deletion과 listwise deletion이 있습니다. 전자는 일관성 없는 결과를 초래할 수 있고, 후자는 결측치가 거의 없을 때에만 사용이 권장됩니다.“작업 방어” 전략: 예를 들어 Full Information Maximum Likelihood (FIML)은 모델을 적합할 때 결측치를 통합해 처리합니다.대체(Imputation) 전략: 학계와 산업 현장에서 가장 널리 사용되는 방법입니다. 결측값을 실제 값의 추정치로 대체합니다. hot-deck imputation: 비슷한 다른 관측치에서 보관된 값을 사용합니다.평균 대체: 결측값을 해당 변수의 평균으로 대체합니다.Expectation Maximization (EM): 모델에 기반하여 가장 좋은 점 추정치를 얻습니다.회귀 평균 대체: 조건부 회귀 평균으로 결측값을 대체합니다.다중 대체: 단일 값을 대신 여러 개의 추정치를 생성합니다.Amelia II 소개Amelia II는 하버드 대학의 Gary King 교수님이 개발한 결측치 대체 도구입니다. 한 획을 그은 기능은 다음과 같습니다.단일 교차 섹션(설문), 시계열, 또는 시계열-교차 섹션 데이터셋 모두에 적용 가능.부트스트랩 기반 알고리즘을 사용해 IP나 EM과 동일한 결과를 빠르게 제공합니다.다른 통계적으로 엄격한 대체 소프트웨어와 달리 거의 충돌하지 않음.Amelia II는 R 언어 위에서 동작하므로 먼저 R을 설치해야 합니다. 설치는 Amelia실행 파일을 다운로드하여 실행하면 완료됩니다. 사용자 인터페이스가 친절하여 R을 직접 실행할 필요가 없습니다. Amelia II를 실행하면 입력 및 출력 메뉴가 표시되고, CSV 파일을 가져오면 결측치가 보정된 CSV 파일이 생성됩니다.해당 소프트웨어 및 도움말 문서는 관련 페이지에서 확인할 수 있습니다.
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2009-12-17