R-Blogger블로그·해설한국어2023-11-17
우도비 비용 해석
소개 지난 몇 달 동안 저는 법의학, 즉 범죄학에 응용되는 기계 학습 알고리즘에 대해 작업해 왔습니다. 이 분야에서 데이터 분석가가 흔히 수행하는 일은 사실을 결정하는 판사(또는 사실을 판단하는 사람들)에게 주어진 데이터가 다양한 가설에 대해 제공하는 증거의 강도를 수치적으로 평가해 제공하는 것입니다. 보다 친숙한 용어로는, 법의학 전문가는 경쟁 가설 아래에서 데이터의 가능도(또는 가능도 비율)를 계산하며, 이 값은 사실 판단자가 관심 있는 가설에 대해 베이지안 사후 확률을 도출하는 데 사용됩니다. 이와 관련하여 법의학자들은 두 대안 가설을 구분하는 가능도 비율 모델의 성능을 평가하기 위한 여러 기법을 개발해 왔습니다. 특히 저는 가능도 비율 비용(Likelihood Ratio Cost)이라는 용어를 접하게 되었습니다. 이는 일반적으로 다음과 같이 정의됩니다. \[ C_{\text{LLR}} = \frac{1}{2N_1} \sum _{Y_i=1} \log(1+r(X_i) ^{-1})+\frac{1}{2N_0} \sum _{Y_i=0} \log(1+r(X_i)), (\#eq:CLLR) \] 여기서 우리는 \(N_1+N_0\)개의 독립 동등분포 관측치 \((X_i,\,Y_i)\)로 구성된 데이터를 가정하며, \(Y\)는 이진 변수입니다. \(N_1\)과 \(N_0\)은 각각 양성(\(Y=1\))과 음성(\(Y=0\)) 사례의 수를 나타냅니다; 그리고 \(r(X)\)는 가능도 비율 모델 \(\Lambda(X) \equiv \frac{\text{Pr}(X\vert Y = 1)}{\text{Pr}(X\vert Y = 0)}\)를 나타냅니다. 이 메모를 쓰는 주된 이유는 Eq. @ref(eq:CLLR)를 최적화한다는 것이 실제로 무엇을 의미하는지 좀 더 잘 이해하기 위함이었습니다. 특히: Eq. @ref(eq:CLLR)의 모집단 최소화가 실제 가능도 비율과 같은가? 그리고 어떤 의미에서 낮은 \(C_\text{LLR}\) 값을 가진 모델이 높은 값의 모델보다 우수한가? 이 질문에 대한 짧은 답은 다음과 같습니다. 예; 그리고: \(C_\text{LLR}\) 최적화는 불특정 사전분포(즉, \(\text{Pr}(Y=1) = \text{Pr}(Y=0) = \frac{1}{2}\))를 가진 베이지안 추론 설정에서 가장 좋은 예측 성능을 갖는 모델을 찾으려는 것입니다. 수학적 세부 사항은 본문의 나머지에서 다룹니다. 무작위 가중치와 교차 엔트로피 우리는 먼저 수학적 부연 설명으로 시작합니다. 이것은 이후 개발에 유용할 것입니다. \(\{(X_i,\,Y_i)\}_{i=1,\,2,\,\dots,N}\)를 이진 \(Y_i \in \{0,\,1\}\)인 공동 분포에서의 독립 추출이라고 가정합시다. 대칭 함수 \(w=w(\boldsymbol Y)\)에 대해 무작위 함수형을 정의합니다. \[ \mathcal L_N^w[f] = -\frac{1}{N}\sum_{i=1} ^N \left[w(\boldsymbol Y)Y_i \log(f(X_i))+ w({\boldsymbol Y}^c)( Y_i^c) \log(f(X_i)^c)\right],(\#eq:WeightedLoss) \] 여기서 \(f=f(X)\)는 모든 \(X\)에 대해 \(f(X)\in [0,\,1]\)을 만족하는 임의의 함수이며, \(q^c = 1-q\)는 임의의 \(q \in [0,\,1]\)에 대해 정의됩니다. \(w(\boldsymbol{Y}) \equiv 1\)일 때 이는 일반적인 교차 엔트로피 손실이 됩니다. 이제 우리는 \(@ref(eq:WeightedLoss)\)의 모집단 최소화 함수 \(f_*\)를 찾습니다. 즉, 함수 \(f \mapsto \mathbb E(\mathcal L _N ^w [f])\)을 최소화하는 \(f_*\)를 구합니다. \[ f_*(X_i) = \frac{1}{1+r(X_i)^{-1}},\quad r_*(X_i) = \dfrac{E(Y_i\cdot w(\boldsymbol Y)\vert X_i)}{E(Y_i^c\cdot w(\boldsymbol Y^c)\vert X_i)}.(\#eq:PopMinimizer) \] 이와 함께 기대 손실은 다음과 같습니다. \[ \mathbb E(\mathcal L _N ^w [f_*]) = \mathbb E\left[ \mathbb E(Y_i\cdot w(\boldsymbol Y) + Y_i^c\cdot w(\boldsymbol Y^c)\vert X_i)\cdot \mathcal H(f_*(X_i))\right], \] 여기서 \(\mathcal H(p) = -p \log (p) -(1-p) \log(1-p)\)는 확률 \(p = \text{Pr}(Z=1)\)를 갖는 이진 랜덤 변수 \(Z\)의 엔트로피입니다. 이 기대값은 다음과 같이 간단히 표현될 수 있습니다. \[ \mathbb E(\mathcal L _N ^w [f_*]) = k \cdot H^\prime(Y\vert X), \] 여기서 \(k = \mathbb E(Y_i\cdot w(\boldsymbol Y) + Y_i^c\cdot w(\boldsymbol Y^c))(\#eq:DefKappa)\)이며, \(H'(Y\vert X)\)는 \(\text{Pr}^\prime\)라는 다른 확률 측정에 대한 조건부 엔트로피입니다. 이 \(\text{Pr}^\prime\)는 다음과 같이 정의됩니다. \[ \text{Pr}^\prime(E) = t \cdot \text {Pr}(E \vert Y = 1) + (1-t)\cdot \text {Pr}(E \vert Y = 0), (\#eq:DefPrPrime) \] 여기서 \(t=\text{Pr}^\prime(Y=1)\in [0,\,1]\)은 다음 요구 사항에 의해 고정됩니다. \[ \dfrac{\text {Pr}^\prime (Y=1)}{\text{Pr}^\prime (Y=0)}=\dfrac{\text {Pr} (Y=1)}{\text{Pr} (Y=0)}\cdot\dfrac{\mathbb E(w(\boldsymbol Y)\vert \sum _i Y_i 0)}{\mathbb E(w(\boldsymbol Y^c)\vert \sum _i Y_i^c 0)}. (\#eq:DefPrPrime2) \]
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2023-11-17