R-Blogger블로그·해설한국어2023-11-18
비정상성 랩핑 가우시안 공간 반응 모델
Background Circular data, 즉 단위 원 위에 정의된 데이터는 과학의 여러 분야에서 발견됩니다. 이러한 데이터의 독특한 특성 때문에 비순환 데이터에 대한 기존 방법은 Circular data에 적용되지 않습니다. 동시에 지리정보와 전세계위치시스템(GIS, GPS)의 발전으로 방대한 공간 데이터가 생성되어 이를 정확히 설명할 수 있는 공간 모델의 필요성이 증가했습니다. 예를 들어, 2019년 4월 1일부터 10일까지 독일에서 측정한 평균 풍향을 공간에 표시한 그림(왼쪽)과 순환 히스토그램(오른쪽)에 나타내면, Jona‑Lasinio, Gelfand, 그리고 Jona‑Lasinio(2012)와 Wang와 Gelfand(2014)이 처음으로 wrapped 및 projected Gaussian 분포를 공간과 시공간 설정에 도입한 사례를 볼 수 있습니다. 그럼에도 불구하고 현재 Circular data 모델은 공간 통계학의 최신 발전을 따라잡지 못하고 있습니다. 특히 지금까지 개발된 모델은 반응의 평균과 공분산이 공간에서 상수인 stationarity를 가정합니다. 우리 연구인 Marques, Kneib, 그리고 Klein(2022)은 이 격차를 메우고, 공간 도메인에 정의된 Circular 반응의 평균과 공분산에 대해 non‑stationarity를 허용하려고 합니다. Response Distribution Circular data의 분포를 구성하려면, 실수선에서 정의된 랜덤 변수 \(Y \in \mathbb{R}\)의 분포를 단위 원을 따라 감싸서 도메인을 \([0,2\pi]\) 구간에 맞추는 wrapping 원리를 활용합니다. 그 결과는 Circular, 또는 wrapped, 랜덤 변수 \(X \in [0,2\pi)\)이 됩니다. 그리고 unwrapped 변수 \(Y\)는 다음과 같이 표현됩니다. Y = X + 2 \pi K 여기서 \(K \in \mathbb{Z}\)는 \(Y\)가 단위 원을 감싼 횟수를 나타냅니다. 공간 도메인 \(S \subset \mathbb{R}^2\) 내의 공간 인덱스 변수 \(\mathbf{s}\)을 두고, Jona‑Lasinio, Gelfand, 그리고 Jona‑Lasinio(2012)는 이 wrapping 접근법이 공간 데이터에 확장될 수 있음을 처음으로 보였습니다. 우리는 그들의 프레임워크를 확장해 다음 모델을 고려합니다. X(\mathbf{s}_i) = \beta_0 + \mathbf{z}(\mathbf{s}_i)' \boldsymbol{\beta} +\gamma(\mathbf{s}_i, \mathbf{z}^\kappa(\mathbf{s}_i)) + 2 \pi K(\mathbf{s}_i) + \varepsilon_i ,\quad i=1, \ldots,n 여기서 \(\gamma(\mathbf{s}_i)\)는 평균이 0인 Gaussian random field(GRF)이며, \(\varepsilon_i \sim N(0, \sigma^2_\varepsilon)\)는 i.i.d. 오차 항입니다. 모델의 새로움은 다음과 같습니다. 평균이 \(\mathbf{z}(\mathbf{s}_i)' \boldsymbol{\beta}\)에 따라 non‑stationary합니다. 공분산이 \(\mathbf{z}^\kappa(\mathbf{s}_i)\)에 따라 non‑stationary합니다. 작은 규모의 노이즈 \(\varepsilon_i\)를 포함합니다. 1. Mean Non‑Stationarity Circular 반응의 평균에 선형 공변량을 포함하면 회귀 계수에 대한 Circular likelihood가 무한히 많은 최대값을 가질 수 있습니다. 일반적인 해결책은 고정 효과에 대해 도메인이 \(\mathbb{R}\)이면서 길이가 \(2\pi\)인 링크 함수를 사용하는 것입니다(예: 역탄젠트 링크 함수). 우리는 다음과 같이 주장합니다. \(K(\mathbf{s})\)가 GRF와 고정 효과의 결합을 조절하여 링크 함수를 필요로 하지 않습니다. stationary 평균으로 수렴하도록 prior 정보를 사용하고, 고정 효과의 길이가 약 \(2\pi\)가 되도록 강제합니다. 구체적으로, \(\beta_0 \sim N(0, 10)\)는 절편에 대한 diffuse prior이며, \(\boldsymbol{\beta} \vert \xi^2 \sim N(\mathbf{0}, \xi^2 \mathbf{I})\)를 둡니다. 베이스 모델이 \(\xi^2 \to 0\)일 때 PC‑prior 원칙(Simpson 등 2017)에 따라 \(\xi^2\)는 Weibull prior \(\text{Weibull}(\frac{1}{2}, \lambda)\)를 가집니다. \xi^2 \sim \text{Weibull}\bigl(\tfrac{1}{2}, \lambda\bigr) 여기서 \(\alpha \in (0, 1)\)일 때 \(\lambda\)는 다음 조건을 만족하도록 선택됩니다. P\bigl( \max_{\mathbf{s} \in S} \mid \mathbf{z}(\mathbf{s})'\boldsymbol{\beta} \mid \leq\, \pi \bigr) \geq 1 - \alpha 이 확률은 평균의 non‑stationary 효과가 \(\pi\)보다 작은 최대 노름을 갖는 확률이 \(1-\alpha\) 이상임을 의미합니다. 표현식의 \(\pi\) 값은 Klein과 Kneib(2016)의 권고값인 약 3과 가깝습니다. 2. Covariance Non‑Stationarity Stochastic partial differential equation(SPDE) 접근법(Lindgren, Rue, 그리고 Lindström 2011)은 GRF의 공분산에 대한 non‑stationarity를 계산 효율적으로 모델링할 수 있게 합니다. Matérn 공분산의 매개변수 중 smoothness \(1\)과 \(\kappa, \tau\)가 각각 GRF의 범위
원문 URL
전체 글은 원문 페이지에서 이어서 읽을 수 있습니다.
- 작성자
- R-Blogger
- 출처
- R-Blogger
- 플랫폼
- R-Blogger
- 분류
- 블로그·해설
- 언어
- 한국어
- 발행일
- 2023-11-18