R-Blogger블로그·해설한국어2025-08-23
프러시아식 말발굽으로 배우는 일반화 선형 모델
Generalised Linear Models (GLMs)란 무엇인가요? 우선, 선형 모델(Linear Models)의 기본 개념을 정리해 보겠습니다. 선형 모델은 반응 변수가 예측 변수들의 선형 결합이라고 가정하는 모델입니다. 예를 들어, 종속 변수 y가 독립 변수 x1, x2 등과 선형 관계에 있다고 생각하면 다음과 같은 형태가 됩니다: y = β0 + β1 * x1 + β2 * x2 + ε 여기서 ε는 평균이 0이고 분산이 일정한 오차항을 의미합니다. 이러한 가정은 정규분포(가우시안)로 모델링할 때 가장 자연스럽습니다. GLM이란? Generalised Linear Models는 선형 모델을 확장한 개념으로, 반응 변수가 비정규 분포를 가질 수 있도록 하고, 그 분포의 평균을 선형 예측자와 연결하는 링크 함수(link function)를 도입합니다. 이렇게 함으로써 이항분포(0/1), 포아송분포(계수형 데이터), 감마분포(양수 연속형 데이터) 등 다양한 상황에 맞게 모델링할 수 있게 됩니다. 핵심 구성 요소 분포군(Distribution Family): Normal, Binomial, Poisson, Gamma 등 반응 변수의 분포를 정의합니다. 링크 함수(Link Function): μ(=E[Y])와 선형 예측자 η = Xβ 사이의 관계를 정의합니다. 예를 들어, logit(μ) = η, log(μ) = η, 등. 선형 예측자(Linear Predictor): η = β0 + β1x1 + β2x2 + … 와 같은 형태를 가집니다. 반응 변수가 비정규 분포를 가질 때도 평균 μ를 예측하고, 잔차는 분포의 특성에 따라 해석됩니다. R에서 GLM 사용하기 R의 기본 패키지 stats에 포함된 glm() 함수를 통해 GLM을 쉽게 적합할 수 있습니다. 아래 예시는 이항 데이터에 로지스틱 회귀를 적용한 것입니다: # 로지스틱 회귀 예시 glm_fit <- glm(success ~ age + income, family = binomial(link = "logit"), data = my_data) summary(glm_fit) 이때 family = binomial(link = "logit")은 이항분포와 로지스틱 링크를 지정한 것입니다. 다른 예로는 포아송 회귀: # 포아송 회귀 예시 glm_poisson <- glm(count ~ exposure + predictor, family = poisson(link = "log"), data = my_data) summary(glm_poisson) GLM의 장점 다양한 데이터 유형(연속형, 이항형, 계수형 등)에 적용 가능. 링크 함수를 바꾸어 같은 선형 구조를 다른 의미로 해석할 수 있음. R의 glm()는 통계적 추정(최대우도), 가설 검정, 예측 등을 모두 지원. 시작하기 위한 리소스 GLM에 대한 보다 깊은 이해를 위해 다음 자료를 참고하시기 바랍니다: R 공식 문서: glm() Statistical Methods: GLM R 패키지 lme4를 사용한 혼합효과 모델(Generalised Linear Mixed Models, GLMMs)도 고려해 보세요. GLM은 데이터 과학과 통계 분석에서 매우 강력한 도구이며, 실제 문제에 맞는 분포와 링크를 선택하면 훨씬 더 정확하고 해석하기 쉬운 모델을 구축할 수 있습니다. 이제 지식의 누수되는 지붕을 수리하고, GLM의 기초를 탄탄히 다져 보세요!
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2025-08-23