통계학 (Statistics)
통계학은 데이터를 수집, 분석, 해석하는 방법을 연구하는 학문입니다. 크게 기술통계(Descriptive Statistics)와 추론통계(Inferential Statistics)로 나뉩니다. 기술통계는 데이터를 요약하고 시각화하는 데 집중하며, 추론통계는 표본으로부터 모집단의 특성을 추론합니다.
통계란 무엇인가?
통계학(Statistics)이란 데이터에서 의미 있는 정보를 끌어내는 학문입니다. 우리가 일상에서 마주치는 수많은 숫자들 — 시험 점수, 키, 몸무게, 기온, 판매량 — 은 그 자체로는 그저 나열된 숫자에 불과합니다. 통계학은 이 숫자들을 정리하고, 요약하고, 해석하여 의미 있는 결론을 이끌어내는 방법을 제공합니다.
왜 통계를 배워야 합니까?
현대 사회에서는 거의 모든 분야에서 데이터를 기반으로 의사결정을 합니다. 통계를 모르면 다음과 같은 상황에서 올바른 판단을 내리기 어렵습니다:
- 뉴스 해석: "이 약은 효과가 있다"는 뉴스가 나왔을 때, 실제로 믿을 만한 근거인지 판단할 수 있습니다.
- 광고 속 숫자: "사용자의 90%가 만족"이라는 광고에서, 표본이 10명인지 10,000명인지에 따라 신뢰도가 완전히 달라집니다.
- 학교 성적: 내 점수가 70점일 때, 반 평균이 50점이면 잘한 것이고 평균이 90점이면 못한 것입니다. 단순한 숫자보다 비교의 맥락이 중요합니다.
표본과 모집단
통계학에서 가장 근본적인 구분은 모집단(Population)과 표본(Sample)입니다.
| 개념 | 정의 | 예시 |
|---|---|---|
| 모집단 | 관심 있는 대상 전체의 집합 | 대한민국 전체 고등학생의 수학 점수 |
| 표본 | 모집단에서 뽑은 일부 | 서울의 한 학교에서 뽑은 100명의 수학 점수 |
| 모수(Parameter) | 모집단의 특성을 나타내는 값 | 전체 고등학생의 평균 점수 $\mu$ |
| 통계량(Statistic) | 표본의 특성을 나타내는 값 | 표본 100명의 평균 점수 $\bar{x}$ |
이런 곳에 쓰여요
- 여론조사: "지지율 45% ± 3%p, 신뢰수준 95%"가 의미하는 것을 정확히 해석
- 품질관리: 공장에서 불량률을 통계적으로 관리(6시그마)
- 임상시험: 신약이 실제로 효과가 있는지 가설검정으로 판단
- 마케팅: A/B 테스트로 어떤 광고가 더 효과적인지 데이터로 검증
선수 지식: 확률론
난이도: ★★★☆☆ (고등학교 심화)
기술통계
기술통계(Descriptive Statistics)는 데이터의 특성을 요약하고 기술하는 방법입니다. 중심 경향, 산포, 분포의 형태를 파악하는 것이 핵심입니다.
중심 경향 측도
"데이터를 대표하는 하나의 값"을 구하는 방법입니다. 상황에 따라 적합한 측도가 다릅니다.
| 측도 | 공식 | 특징 |
|---|---|---|
| 평균(Mean) | $\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$ | 이상치에 민감 |
| 중앙값(Median) | 정렬 후 중앙의 값 | 이상치에 강건 |
| 최빈값(Mode) | 가장 빈도가 높은 값 | 범주형 데이터에 적합 |
| 절사평균(Trimmed Mean) | 상하 일정 비율 제거 후 평균 | 이상치 영향 감소 |
평균, 중앙값, 최빈값 — 무엇이 다르고 언제 사용합니까?
다음 예시를 통해 세 가지 측도의 차이를 이해할 수 있습니다.
예시: 어떤 회사에 직원 5명이 있고, 월급이 다음과 같다고 합시다.
200만원, 250만원, 300만원, 350만원, 5000만원
| 측도 | 계산 | 결과 |
|---|---|---|
| 평균 | $(200 + 250 + 300 + 350 + 5000) \div 5$ | 1,220만원 |
| 중앙값 | 크기순 정렬 후 가운데(3번째) 값 | 300만원 |
| 최빈값 | 가장 자주 나타나는 값 (이 예에서는 모두 1번씩 등장) | 없음 |
각 측도를 언제 사용합니까?
- 평균: 데이터가 대칭적으로 분포하고 극단적인 값이 없을 때 가장 좋습니다. 예: 학급 시험 점수
- 중앙값: 소득, 집값처럼 극단적인 값(이상치)이 있을 때 적합합니다. 예: "한국의 중위 소득"
- 최빈값: 가장 흔한 값을 알고 싶을 때 사용합니다. 특히 범주형 데이터(예: 가장 인기 있는 색상)에 유용합니다.
산포 측도 — 데이터가 얼마나 퍼져 있는가?
평균만으로는 데이터의 모습을 알 수 없습니다. 예를 들어, 두 학급의 수학 시험 평균이 모두 70점이라고 합시다:
- A반: 68, 69, 70, 71, 72 → 평균 70점, 점수가 평균 근처에 모여 있음
- B반: 30, 50, 70, 90, 110 → 평균 70점, 점수가 넓게 퍼져 있음
두 반의 평균은 같지만, 실력 차이의 양상은 완전히 다릅니다. 이 "퍼짐"을 숫자로 표현하는 것이 산포 측도입니다.
- 분산(Variance): $s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ (표본 분산, $n-1$로 나눔)
- 표준편차(Standard Deviation): $s = \sqrt{s^2}$
- 범위(Range): 최댓값 - 최솟값
- 변동계수(CV): $\text{CV} = \frac{s}{\bar{x}} \times 100\%$ (단위 없는 상대적 산포)
분산과 표준편차를 직관적으로 이해하기
분산의 아이디어는 간단합니다: 각 데이터가 평균에서 얼마나 떨어져 있는지를 측정하는 것입니다.
단계별 계산 예시: B반의 점수 $30, 50, 70, 90, 110$ (평균 $\bar{x} = 70$)
| 데이터 $x_i$ | 평균과의 차이 $x_i - \bar{x}$ | 차이의 제곱 $(x_i - \bar{x})^2$ |
|---|---|---|
| $30$ | $-40$ | $1600$ |
| $50$ | $-20$ | $400$ |
| $70$ | $0$ | $0$ |
| $90$ | $+20$ | $400$ |
| $110$ | $+40$ | $1600$ |
| 합계: | $4000$ | |
표준편차 약 $31.6$점이란, "대략적으로 각 학생의 점수가 평균에서 약 31.6점 정도 떨어져 있다"는 뜻입니다.
분위수와 사분위수
분위수(Quantile)는 데이터를 크기순으로 정렬했을 때 특정 비율에 해당하는 값입니다.
| 분위수 | 기호 | 의미 |
|---|---|---|
| 제1사분위수 | $Q_1$ | 하위 $25\%$ 지점 |
| 제2사분위수(중앙값) | $Q_2$ | 하위 $50\%$ 지점 |
| 제3사분위수 | $Q_3$ | 하위 $75\%$ 지점 |
사분위수 범위(IQR): $\text{IQR} = Q_3 - Q_1$
IQR은 데이터의 중간 $50\%$가 퍼져 있는 범위를 나타내며, 이상치에 강건한 산포 측도입니다.
상자 그림 (Box Plot)
상자 그림은 데이터의 분포를 시각적으로 요약하는 그래프입니다.
- 상자: $Q_1$에서 $Q_3$까지 (IQR)
- 상자 안의 선: 중앙값 ($Q_2$)
- 수염(Whisker): $Q_1 - 1.5 \times \text{IQR}$ 이상, $Q_3 + 1.5 \times \text{IQR}$ 이하의 가장 먼 데이터 포인트까지
- 이상치(Outlier): 수염 바깥에 있는 점들을 개별적으로 표시
왜도와 첨도
분포의 형태(Shape)를 수치적으로 기술하는 측도입니다.
| 측도 | 공식 | 해석 |
|---|---|---|
| 왜도(Skewness) | $\gamma_1 = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{x_i - \bar{x}}{s}\right)^3$ | $\gamma_1 > 0$: 오른쪽 꼬리(양의 왜도) $\gamma_1 = 0$: 대칭 $\gamma_1 < 0$: 왼쪽 꼬리(음의 왜도) |
| 첨도(Kurtosis) | $\gamma_2 = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{x_i - \bar{x}}{s}\right)^4 - 3$ | $\gamma_2 > 0$: 뾰족한 분포(급첨, Leptokurtic) $\gamma_2 = 0$: 정규분포(중첨, Mesokurtic) $\gamma_2 < 0$: 완만한 분포(완첨, Platykurtic) |
확률분포
이산확률분포
이항분포 (Binomial Distribution)
$n$번의 독립 시행에서 성공 횟수 $X \sim B(n, p)$:
$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n$$기댓값: $E(X) = np$, 분산: $\text{Var}(X) = np(1-p)$
포아송분포 (Poisson Distribution)
단위 시간(또는 공간)에 발생하는 사건의 횟수 $X \sim \text{Poi}(\lambda)$:
$$P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \ldots$$기댓값: $E(X) = \lambda$, 분산: $\text{Var}(X) = \lambda$
기하분포 (Geometric Distribution)
첫 성공까지의 시행 횟수 $X \sim \text{Geo}(p)$:
$$P(X = k) = (1-p)^{k-1}p, \quad k = 1, 2, 3, \ldots$$기댓값: $E(X) = \frac{1}{p}$, 분산: $\text{Var}(X) = \frac{1-p}{p^2}$
연속확률분포
정규분포 (Normal Distribution)
정규분포(Normal Distribution)는 통계학에서 가장 중요한 분포입니다. 그래프가 종(bell) 모양을 이루기 때문에 종형곡선(Bell Curve)이라고도 부릅니다.
$X \sim N(\mu, \sigma^2)$의 확률밀도함수:
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty$$정규분포의 특징:
- 평균 $\mu$를 중심으로 좌우 대칭입니다.
- 평균 = 중앙값 = 최빈값, 세 가지가 모두 같습니다.
- 평균 $\mu$는 곡선의 중심 위치를, 표준편차 $\sigma$는 곡선의 폭(퍼짐)을 결정합니다.
68-95-99.7 규칙 (경험적 규칙)
정규분포를 따르는 데이터에 대해 다음이 성립합니다:
| 범위 | 포함되는 데이터 비율 | 의미 |
|---|---|---|
| $\mu \pm 1\sigma$ | 약 $68\%$ | 데이터의 약 $\frac{2}{3}$가 평균에서 표준편차 1개 이내에 있음 |
| $\mu \pm 2\sigma$ | 약 $95\%$ | 거의 대부분의 데이터가 이 범위에 있음 |
| $\mu \pm 3\sigma$ | 약 $99.7\%$ | 이 범위 밖의 데이터는 극히 드뭄 |
- $173 \pm 6$ = $167$~$179$cm 사이에 약 $68\%$의 남성이 있습니다.
- $173 \pm 12$ = $161$~$185$cm 사이에 약 $95\%$의 남성이 있습니다.
- $173 \pm 18$ = $155$~$191$cm 사이에 약 $99.7\%$의 남성이 있습니다.
- 키가 $191$cm 이상인 남성은 전체의 약 $0.15\%$, 즉 약 $700$명 중 $1$명꼴입니다.
왜 자연에서 정규분포가 많이 나타납니까?
키, 몸무게, 시험 점수, 측정 오차 등 자연 현상의 많은 것이 정규분포를 따릅니다. 그 이유는 중심극한정리(Central Limit Theorem)와 관련이 있습니다. 어떤 현상이 수많은 독립적인 작은 요인들의 합으로 결정된다면, 그 결과는 정규분포에 가까워집니다.
예를 들어, 사람의 키는 수백 개의 유전자, 영양 상태, 생활 환경 등 다양한 독립적 요인이 합쳐져서 결정됩니다. 이 많은 요인들이 합쳐지는 과정에서 중심극한정리에 의해 정규분포 형태가 나타나는 것입니다.
표준정규분포: 어떤 정규분포든 다음 변환을 통해 평균 $0$, 표준편차 $1$인 표준정규분포로 바꿀 수 있습니다:
$$Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$$이를 표준화(Standardization)라 하며, $Z$-값(Z-score)은 "평균에서 표준편차 몇 개 만큼 떨어져 있는가"를 나타냅니다.
균등분포 (Uniform Distribution)
$X \sim U(a, b)$:
$$f(x) = \frac{1}{b - a}, \quad a \leq x \leq b$$기댓값: $E(X) = \frac{a+b}{2}$, 분산: $\text{Var}(X) = \frac{(b-a)^2}{12}$
지수분포 (Exponential Distribution)
$X \sim \text{Exp}(\lambda)$:
$$f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$기댓값: $E(X) = \frac{1}{\lambda}$, 분산: $\text{Var}(X) = \frac{1}{\lambda^2}$. 무기억성(memoryless property)을 갖습니다: $P(X > s+t \mid X > s) = P(X > t)$
분포 사이의 관계
- $n$이 크고 $p$가 작으면 $B(n, p) \approx \text{Poi}(np)$ (포아송 근사)
- $n$이 충분히 크면 $B(n, p) \approx N(np, np(1-p))$ (정규 근사)
- $\text{Poi}(\lambda)$에서 $\lambda$가 크면 $\text{Poi}(\lambda) \approx N(\lambda, \lambda)$
- $\text{Exp}(\lambda)$는 $\text{Gamma}(1, \lambda)$의 특수한 경우
표본분포
표본분포(Sampling Distribution)는 통계량(표본평균, 표본분산 등)의 확률분포입니다. 추론통계의 기반이 됩니다.
중심극한정리 (CLT)
중심극한정리(Central Limit Theorem)는 통계학에서 가장 놀라운 정리 중 하나입니다. 모집단의 분포가 어떤 형태이든(정규분포가 아니어도!), 표본 크기 $n$이 충분히 크면 표본평균 $\bar{X}$의 분포는 근사적으로 정규분포를 따릅니다:
$$\bar{X} \sim N\left(\mu,\; \frac{\sigma^2}{n}\right) \quad \text{(근사)}$$즉, $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)$
$t$-분포 (Student's $t$-Distribution)
모분산 $\sigma^2$를 모를 때 표본분산 $S^2$으로 대체하면 $t$-분포를 따릅니다:
$$T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n-1)$$| 성질 | 내용 |
|---|---|
| 자유도 | $\nu = n - 1$ |
| 형태 | 표준정규분포와 유사하나 꼬리가 더 두꺼움 |
| 대칭성 | $0$을 중심으로 대칭 |
| 수렴 | $\nu \to \infty$이면 $t(\nu) \to N(0,1)$ |
| 기댓값 | $E(T) = 0$ ($\nu > 1$일 때) |
| 분산 | $\text{Var}(T) = \frac{\nu}{\nu - 2}$ ($\nu > 2$일 때) |
카이제곱 분포 ($\chi^2$-Distribution)
$Z_1, Z_2, \ldots, Z_k$가 독립인 표준정규 확률변수이면:
$$\chi^2 = \sum_{i=1}^{k} Z_i^2 \sim \chi^2(k)$$표본분산과의 관계: 정규모집단에서
$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$| 성질 | 내용 |
|---|---|
| 자유도 | $k$ (양의 정수) |
| 정의역 | $x \geq 0$ (비음수) |
| 기댓값 | $E(\chi^2) = k$ |
| 분산 | $\text{Var}(\chi^2) = 2k$ |
| 가법성 | $\chi^2(k_1) + \chi^2(k_2) \sim \chi^2(k_1 + k_2)$ (독립일 때) |
| 수렴 | $k$가 크면 $\chi^2(k) \approx N(k, 2k)$ |
$F$-분포
독립인 두 카이제곱 변수의 비로 정의됩니다:
$$F = \frac{\chi^2_1 / d_1}{\chi^2_2 / d_2} \sim F(d_1, d_2)$$두 모집단의 분산비를 검정할 때 사용합니다:
$$F = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1,\; n_2 - 1)$$| 성질 | 내용 |
|---|---|
| 자유도 | 분자 $d_1$, 분모 $d_2$ |
| 정의역 | $x \geq 0$ |
| 기댓값 | $E(F) = \frac{d_2}{d_2 - 2}$ ($d_2 > 2$일 때) |
| 역수 관계 | $\frac{1}{F} \sim F(d_2, d_1)$ |
| $t$와의 관계 | $T \sim t(\nu)$이면 $T^2 \sim F(1, \nu)$ |
점추정
점추정(Point Estimation)은 모수 $\theta$를 하나의 값 $\hat{\theta}$로 추정하는 것입니다.
좋은 추정량의 성질
| 성질 | 정의 | 설명 |
|---|---|---|
| 불편성(Unbiasedness) | $E(\hat{\theta}) = \theta$ | 추정량의 기댓값이 모수와 같음 |
| 효율성(Efficiency) | $\text{Var}(\hat{\theta})$가 최소 | 불편추정량 중 분산이 가장 작은 것이 효율적 |
| 일치성(Consistency) | $\hat{\theta}_n \xrightarrow{P} \theta$ ($n \to \infty$) | 표본이 커질수록 추정량이 모수에 수렴 |
| 충분성(Sufficiency) | $f(\mathbf{x}|\theta) = g(T|\theta)\,h(\mathbf{x})$ | 통계량 $T$가 모수에 대한 모든 정보를 담고 있음 |
크래머-라오 하한 (Cramér-Rao Lower Bound)
불편추정량 $\hat{\theta}$의 분산은 다음의 하한을 갖습니다:
$$\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} = \frac{1}{nI_1(\theta)}$$여기서 $I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2}\ln L(\theta)\right]$은 피셔 정보량(Fisher Information)입니다. 하한에 도달하는 추정량을 유효 추정량(Efficient Estimator)이라 합니다.
최대우도추정 (MLE: Maximum Likelihood Estimation)
관측된 데이터가 나올 확률(우도)을 최대화하는 모수 값을 추정합니다:
$$\hat{\theta}_{\text{MLE}} = \arg\max_{\theta}\; L(\theta \mid x_1, \ldots, x_n) = \arg\max_{\theta}\; \prod_{i=1}^{n} f(x_i \mid \theta)$$실무에서는 로그우도를 사용합니다:
$$\hat{\theta}_{\text{MLE}} = \arg\max_{\theta}\; \ell(\theta) = \arg\max_{\theta}\; \sum_{i=1}^{n} \ln f(x_i \mid \theta)$$풀이 절차:
- 우도함수 $L(\theta)$ 또는 로그우도 $\ell(\theta)$ 설정
- $\frac{\partial \ell}{\partial \theta} = 0$ 풀기 (스코어 방정식)
- $\frac{\partial^2 \ell}{\partial \theta^2} < 0$ 확인 (최대 조건)
적률추정 (Method of Moments)
모집단의 적률과 표본 적률을 같다고 놓고 모수를 구합니다:
$$E(X^k) = \frac{1}{n}\sum_{i=1}^{n} X_i^k, \quad k = 1, 2, \ldots$$예시: 정규분포 $N(\mu, \sigma^2)$의 적률추정
- 1차 적률: $E(X) = \mu \implies \hat{\mu} = \bar{X}$
- 2차 적률: $E(X^2) = \sigma^2 + \mu^2 \implies \hat{\sigma}^2 = \frac{1}{n}\sum X_i^2 - \bar{X}^2$
구간추정
구간추정(Interval Estimation)은 모수 $\theta$가 포함될 것으로 기대되는 구간 $[\hat{\theta}_L,\; \hat{\theta}_U]$를 구하는 것입니다. 점추정이 "모평균은 약 $70$점이다"라고 하나의 값만 제시하는 반면, 구간추정은 "모평균은 $65$점에서 $75$점 사이에 있을 것이다"처럼 범위를 제시합니다.
신뢰수준 $(1 - \alpha) \times 100\%$에서:
$$P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_U) = 1 - \alpha$$비유: 과녁(모수)은 고정되어 있고, 화살(신뢰구간)을 $100$번 쏩니다. $95\%$ 신뢰구간이란 "이 방법으로 쏘면 약 $95$발은 과녁에 맞는다"는 뜻이지, 이미 쏜 화살 하나가 과녁에 맞았을 확률이 $95\%$라는 뜻은 아닙니다.
주요 신뢰구간 공식
| 모수 | 조건 | 신뢰구간 |
|---|---|---|
| 모평균 $\mu$ | $\sigma$ 알려짐 | $\bar{x} \pm z_{\alpha/2} \dfrac{\sigma}{\sqrt{n}}$ |
| 모평균 $\mu$ | $\sigma$ 모름, 대표본 ($n \geq 30$) | $\bar{x} \pm z_{\alpha/2} \dfrac{s}{\sqrt{n}}$ |
| 모평균 $\mu$ | $\sigma$ 모름, 소표본 (정규모집단) | $\bar{x} \pm t_{\alpha/2}(n-1) \dfrac{s}{\sqrt{n}}$ |
| 모비율 $p$ | $n\hat{p} \geq 5$, $n(1-\hat{p}) \geq 5$ | $\hat{p} \pm z_{\alpha/2} \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$ |
| 모분산 $\sigma^2$ | 정규모집단 | $\left[\dfrac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)},\; \dfrac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)}\right]$ |
| 두 모평균 차 $\mu_1 - \mu_2$ | 독립 표본, $\sigma_1, \sigma_2$ 알려짐 | $(\bar{x}_1 - \bar{x}_2) \pm z_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1} + \dfrac{\sigma_2^2}{n_2}}$ |
| 두 모평균 차 $\mu_1 - \mu_2$ | 독립, 등분산 ($\sigma_1^2 = \sigma_2^2$) | $(\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2}(\nu)\; s_p\sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}$ $\nu = n_1 + n_2 - 2$, $s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}$ |
여기서 $z_{\alpha/2}$는 표준정규분포의 상위 $\alpha/2$ 분위수이며, 대표적인 값은 다음과 같습니다:
| 신뢰수준 $(1-\alpha)$ | $\alpha$ | $z_{\alpha/2}$ |
|---|---|---|
| $90\%$ | $0.10$ | $1.645$ |
| $95\%$ | $0.05$ | $1.960$ |
| $99\%$ | $0.01$ | $2.576$ |
표본 크기 결정
오차 한계(margin of error) $E$를 달성하기 위한 최소 표본 크기:
- 모평균 추정: $n \geq \left(\frac{z_{\alpha/2} \cdot \sigma}{E}\right)^2$
- 모비율 추정: $n \geq \left(\frac{z_{\alpha/2}}{E}\right)^2 \hat{p}(1-\hat{p})$. $\hat{p}$를 모르면 $\hat{p} = 0.5$로 놓으면 $n$이 최대(보수적 추정).
가설검정
가설검정(Hypothesis Testing)은 데이터를 바탕으로 가설의 타당성을 판단하는 통계적 방법입니다.
기본 용어
| 용어 | 설명 |
|---|---|
| 귀무가설 $H_0$ | 기존 주장, 효과가 없다는 가설 (예: $\mu = \mu_0$) |
| 대립가설 $H_1$ | 연구자가 입증하고자 하는 가설 (예: $\mu \neq \mu_0$, $\mu > \mu_0$, $\mu < \mu_0$) |
| 유의수준 $\alpha$ | 제1종 오류를 범할 최대 허용 확률 (보통 $0.05$ 또는 $0.01$) |
| 검정통계량 | $H_0$ 하에서 계산되는 통계량 ($z$, $t$, $\chi^2$, $F$ 등) |
| $p$-값 | $H_0$ 하에서 관측 결과 이상으로 극단적인 값을 얻을 확률 |
| 기각역 | $H_0$을 기각하는 검정통계량의 범위 |
$p$-값이란 무엇입니까?
$p$-값(p-value)은 가설검정에서 가장 많이 사용되면서도 오해가 많은 개념입니다. 직관적으로 설명하면:
비유: 동전을 10번 던졌는데 10번 모두 앞면이 나왔다고 합시다.
- $H_0$: "이 동전은 공정하다" (앞면 확률 $= 0.5$)
- 공정한 동전으로 10번 모두 앞면이 나올 확률: $0.5^{10} = 0.001$ ($0.1\%$)
- $p$-값 = $0.001$로 매우 작으므로, "이 동전은 공정하지 않다"고 결론 내릴 수 있습니다.
- 오해: "$p = 0.03$이면, 귀무가설이 참일 확률이 $3\%$이다."
- 사실: $p$-값은 귀무가설이 참일 확률이 아닙니다. "귀무가설이 참이라고 가정했을 때 이런 데이터를 관측할 확률"입니다. 이 두 가지는 전혀 다른 의미입니다.
- 오해: "$p > 0.05$이면 효과가 없다."
- 사실: $p > 0.05$는 "효과가 없다고 증명된 것"이 아니라 "효과가 있다는 충분한 증거를 찾지 못한 것"입니다. 표본이 작으면 실제 효과가 있어도 $p > 0.05$가 나올 수 있습니다.
검정 절차
- 가설 설정: $H_0$과 $H_1$ 명시
- 유의수준 결정: $\alpha$ 설정
- 검정통계량 선택 및 계산: 데이터와 가정에 맞는 통계량
- 판정: $p\text{-값} \leq \alpha$이면 $H_0$ 기각, 아니면 $H_0$을 기각하지 못함
- 결론: 문제 맥락에서 해석
구체적 예시 — 새 교수법의 효과 검정:
기존 교수법의 평균 점수가 $\mu_0 = 70$점이었습니다. 새 교수법으로 가르친 학생 $25$명의 평균 점수는 $\bar{x} = 75$, 표준편차 $s = 10$입니다. 새 교수법이 효과가 있는지 검정합니다.
- 가설: $H_0: \mu = 70$, $H_1: \mu > 70$ (우측 검정)
- 유의수준: $\alpha = 0.05$
- 검정통계량: $T = \frac{75 - 70}{10 / \sqrt{25}} = \frac{5}{2} = 2.5$
- 판정: 자유도 $24$인 $t$-분포에서 $t_{0.05}(24) = 1.711$. $T = 2.5 > 1.711$이므로 $H_0$ 기각
- 결론: 유의수준 $5\%$에서 새 교수법이 기존 교수법보다 효과가 있다고 판단할 수 있습니다.
오류의 종류
| $H_0$ 참 (실제) | $H_0$ 거짓 (실제) | |
|---|---|---|
| $H_0$ 기각 (판정) | 제1종 오류 ($\alpha$) | 올바른 결정 (검정력 $1 - \beta$) |
| $H_0$ 채택 (판정) | 올바른 결정 | 제2종 오류 ($\beta$) |
- 제1종 오류(Type I Error): 귀무가설이 참인데 기각하는 오류. 확률 = $\alpha$
- 제2종 오류(Type II Error): 귀무가설이 거짓인데 기각하지 못하는 오류. 확률 = $\beta$
- 검정력(Power): $1 - \beta$ = 대립가설이 참일 때 올바르게 기각할 확률
다양한 검정
$z$-검정 (Z-Test)
모분산 $\sigma^2$가 알려져 있거나 표본이 충분히 클 때 모평균을 검정합니다.
검정통계량:
$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$| 대립가설 | 기각역 ($\alpha = 0.05$) |
|---|---|
| $H_1: \mu \neq \mu_0$ (양측) | $|Z| > 1.960$ |
| $H_1: \mu > \mu_0$ (우측) | $Z > 1.645$ |
| $H_1: \mu < \mu_0$ (좌측) | $Z < -1.645$ |
$t$-검정 (T-Test)
모분산을 모를 때 사용하며, 정규 모집단을 가정합니다.
일표본 $t$-검정 (One-Sample)
단일 모집단의 평균이 특정 값 $\mu_0$인지 검정:
$$T = \frac{\bar{X} - \mu_0}{S / \sqrt{n}} \sim t(n-1)$$독립 이표본 $t$-검정 (Independent Two-Sample)
두 독립 모집단의 평균 차이를 검정합니다.
등분산 가정:
$$T = \frac{\bar{X}_1 - \bar{X}_2}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$$여기서 합동분산 $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$
이분산(Welch의 $t$-검정):
$$T = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}$$자유도는 Welch-Satterthwaite 근사를 사용합니다:
$$\nu \approx \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1} + \frac{(S_2^2/n_2)^2}{n_2-1}}$$대응 표본 $t$-검정 (Paired)
같은 대상에 대한 전후 측정 차이 $D_i = X_{1i} - X_{2i}$를 분석합니다:
$$T = \frac{\bar{D} - 0}{S_D / \sqrt{n}} \sim t(n-1)$$여기서 $\bar{D} = \frac{1}{n}\sum D_i$, $S_D$는 차이의 표본 표준편차.
카이제곱 검정 ($\chi^2$-Test)
적합도 검정 (Goodness-of-Fit Test)
관측 빈도 $O_i$와 기대 빈도 $E_i$의 일치 여부를 검정합니다:
$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \sim \chi^2(k - 1)$$여기서 $k$는 범주의 수. 자유도 = $k - 1 - (\text{추정된 모수의 수})$
독립성 검정 (Test of Independence)
$r \times c$ 분할표에서 두 범주형 변수의 독립성을 검정합니다:
$$\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \sim \chi^2((r-1)(c-1))$$기대 빈도: $E_{ij} = \frac{(\text{행 합}_i)(\text{열 합}_j)}{n}$
모비율 검정
모비율 $p$에 대한 검정 ($n$이 클 때):
$$Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$두 모비율의 차이 검정:
$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}$$여기서 합동비율 $\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}$
분산분석 (ANOVA)
분산분석(Analysis of Variance)은 세 개 이상 그룹의 평균 차이를 동시에 검정하는 방법입니다.
일원배치 분산분석 (One-Way ANOVA)
$k$개 그룹의 평균이 모두 같은지 검정합니다:
- $H_0: \mu_1 = \mu_2 = \cdots = \mu_k$
- $H_1:$ 적어도 하나의 $\mu_i$가 다름
분산 분해
$$\underbrace{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}_{SST} = \underbrace{\sum_{i=1}^{k} n_i (\bar{x}_i - \bar{x})^2}_{SSB} + \underbrace{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2}_{SSW}$$ANOVA 표
| 요인 | 제곱합 (SS) | 자유도 (df) | 평균제곱 (MS) | $F$-통계량 |
|---|---|---|---|---|
| 처리(Between) | $SSB$ | $k - 1$ | $MSB = \frac{SSB}{k-1}$ | $F = \frac{MSB}{MSW}$ |
| 오차(Within) | $SSW$ | $N - k$ | $MSW = \frac{SSW}{N-k}$ | |
| 전체(Total) | $SST$ | $N - 1$ |
여기서 $N = \sum n_i$는 전체 표본 크기. $F \sim F(k-1, N-k)$
ANOVA의 가정
- 정규성: 각 그룹의 데이터가 정규분포를 따름
- 등분산성: 모든 그룹의 분산이 같음 ($\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2$)
- 독립성: 관측값들이 서로 독립
회귀분석
회귀분석(Regression Analysis)은 변수들 사이의 관계를 모델링하는 통계 기법입니다. 쉽게 말해, "$X$가 변할 때 $Y$가 어떻게 변하는지"를 수식으로 표현하는 것입니다.
단순선형회귀 (Simple Linear Regression)
한 개의 독립변수 $X$로 종속변수 $Y$를 예측하는 가장 기본적인 모형입니다:
$$Y = \beta_0 + \beta_1 X + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2)$$여기서 $\beta_0$은 절편($X=0$일 때의 $Y$ 값), $\beta_1$은 기울기($X$가 1 증가할 때 $Y$의 평균 변화량), $\varepsilon$은 오차(모형으로 설명할 수 없는 변동)입니다.
최소제곱법의 직관적 의미
최소제곱법(OLS: Ordinary Least Squares)은 "데이터 점들에 가장 잘 맞는 직선을 찾는 방법"입니다.
산점도에 여러 점이 찍혀 있을 때, 직선을 하나 그을 수 있습니다. 각 데이터 점에서 직선까지의 세로 거리(잔차) $e_i = y_i - \hat{y}_i$를 구한 뒤, 이 거리들의 제곱합을 최소로 만드는 직선이 최소제곱 직선입니다.
$$\text{최소화할 양:} \quad \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2$$이 최소화 문제를 풀면 다음과 같은 공식을 얻습니다:
$$\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$구체적 계산 예시: 공부 시간($X$, 시간)과 시험 점수($Y$, 점)의 데이터가 다음과 같다고 합시다.
| $x$ (공부 시간) | $y$ (점수) |
|---|---|
| $1$ | $50$ |
| $2$ | $60$ |
| $3$ | $65$ |
| $4$ | $70$ |
| $5$ | $80$ |
풀이:
- 평균: $\bar{x} = 3$, $\bar{y} = 65$
- $S_{xy} = (1-3)(50-65) + (2-3)(60-65) + (3-3)(65-65) + (4-3)(70-65) + (5-3)(80-65) = 30+5+0+5+30 = 70$
- $S_{xx} = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 4+1+0+1+4 = 10$
- $\hat{\beta}_1 = \frac{70}{10} = 7$
- $\hat{\beta}_0 = 65 - 7 \times 3 = 44$
따라서 회귀 직선은 $\hat{Y} = 44 + 7X$입니다. 공부 시간이 1시간 증가할 때마다 점수가 평균 7점 상승한다고 해석할 수 있습니다.
회귀계수의 검정
$H_0: \beta_1 = 0$ (독립변수 $X$가 $Y$에 영향을 주지 않음):
$$T = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} \sim t(n-2), \qquad \text{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}}$$여기서 $s^2 = \frac{\sum(y_i - \hat{y}_i)^2}{n-2} = \frac{SSE}{n-2}$
결정계수 ($R^2$)
$R^2$는 회귀 모델이 데이터의 변동을 얼마나 설명하는지를 나타냅니다. 쉽게 말해, "$Y$의 변동 중 $X$로 설명할 수 있는 비율"입니다. $R^2 = 0.85$이면 "$Y$의 변동 중 $85\%$를 이 모형이 설명하고, 나머지 $15\%$는 설명하지 못한다"는 뜻입니다.
$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}, \qquad 0 \leq R^2 \leq 1$$여기서:
- $SST = \sum(y_i - \bar{y})^2$: 총제곱합 (Total Sum of Squares)
- $SSR = \sum(\hat{y}_i - \bar{y})^2$: 회귀제곱합 (Regression Sum of Squares)
- $SSE = \sum(y_i - \hat{y}_i)^2$: 잔차제곱합 (Error Sum of Squares)
- $SST = SSR + SSE$
수정결정계수: 독립변수가 많아지면 $R^2$가 무조건 증가하므로, 변수의 수를 보정한 수정결정계수를 사용합니다:
$$R^2_{\text{adj}} = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-p-1}$$여기서 $p$는 독립변수의 수.
다중선형회귀 (Multiple Linear Regression)
$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \varepsilon$$행렬 표기:
$$\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$$ $$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}$$전체 모형의 유의성 검정 ($F$-검정)
$H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0$ (모든 독립변수가 무의미):
$$F = \frac{SSR/p}{SSE/(n-p-1)} = \frac{MSR}{MSE} \sim F(p,\; n-p-1)$$잔차 분석 (Residual Analysis)
회귀 모형의 타당성을 검증하기 위해 잔차 $e_i = y_i - \hat{y}_i$를 분석합니다.
| 확인 항목 | 방법 | 위반 시 |
|---|---|---|
| 정규성 | 잔차의 Q-Q plot, Shapiro-Wilk 검정 | 변수 변환 |
| 등분산성 | 잔차 vs 적합값 산점도 | 가중 최소제곱(WLS) |
| 독립성 | Durbin-Watson 검정 | 시계열 모형 |
| 선형성 | 잔차 vs 적합값 패턴 | 다항 회귀, 비선형 모형 |
상관분석
피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 사이의 선형 관계의 강도와 방향을 $-1$에서 $1$ 사이의 숫자로 나타냅니다:
$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}, \quad -1 \leq r \leq 1$$| 상관계수 $r$ | 해석 | 예시 |
|---|---|---|
| $r = 1$ | 완벽한 양의 선형 관계 | 한쪽이 커지면 다른 쪽도 정확히 비례하여 커짐 |
| $0.7 \leq r < 1$ | 강한 양의 상관관계 | 키와 몸무게 |
| $0.3 \leq r < 0.7$ | 보통의 양의 상관관계 | 공부 시간과 성적 |
| $-0.3 < r < 0.3$ | 약한 상관 또는 무상관 | 신발 크기와 수학 점수 |
| $r = -1$ | 완벽한 음의 선형 관계 | 한쪽이 커지면 다른 쪽이 정확히 비례하여 작아짐 |
상관계수의 유의성 검정: $H_0: \rho = 0$
$$T = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t(n-2)$$단순선형회귀에서 $R^2 = r^2$가 성립합니다.
상관관계와 인과관계는 다릅니다
통계학에서 가장 중요한 경고 중 하나는 "상관관계(Correlation)는 인과관계(Causation)가 아니다"는 것입니다.
예시 1 — 아이스크림과 익사 사고: 아이스크림 판매량과 익사 사고 건수를 조사하면 강한 양의 상관관계가 나타납니다. 아이스크림을 많이 팔수록 익사 사고가 많아집니까? 물론 아닙니다. 진짜 원인은 기온입니다. 더운 날에는 아이스크림도 많이 팔리고 수영하는 사람도 많아지는 것입니다. 이처럼 두 변수 모두에 영향을 미치는 숨겨진 변수를 교란변수(Confounding Variable) 또는 잠복변수(Lurking Variable)라 합니다.
예시 2 — 허위 상관(Spurious Correlation): "미국에서 마가린 소비량이 줄어든 시기에 이혼율도 줄었다"는 데이터가 있습니다. 상관계수는 $r = 0.99$로 매우 높지만, 마가린이 이혼의 원인이라고 생각하는 사람은 없을 것입니다. 단순한 우연의 일치입니다.
인과관계를 증명하려면? 통제된 실험(예: 무작위 대조 시험, RCT)을 통해서만 인과관계를 주장할 수 있습니다. 단순한 관찰 데이터에서는 상관관계만 확인할 수 있을 뿐, 인과관계는 확인할 수 없습니다.
비모수 검정
비모수 검정(Nonparametric Test)은 모집단의 분포에 대한 강한 가정(예: 정규성)을 하지 않는 검정법입니다. 표본이 작거나 정규성 가정이 위배될 때 유용합니다.
부호 검정 (Sign Test)
중앙값 $M$에 대한 검정입니다. $n$개 관측값에서 $M_0$보다 큰 값의 개수 $S$를 이용합니다.
- $H_0: M = M_0$
- $S \sim B(n, 0.5)$ ($H_0$ 하에서)
- $n$이 크면 $Z = \frac{S - n/2}{\sqrt{n/4}}$로 근사
윌콕슨 부호순위 검정 (Wilcoxon Signed-Rank Test)
대응 표본 또는 일표본 중앙값 검정. 부호 검정보다 검정력이 높습니다.
- 차이 $D_i = X_i - M_0$ 계산 ($D_i = 0$인 것은 제외)
- $|D_i|$의 순위(rank)를 매김
- 양의 차이에 해당하는 순위의 합 $W^+$ 계산
- $H_0$ 하에서 $W^+$의 분포와 비교하여 판정
대표본 근사: $W^+$는 근사적으로 $E(W^+) = \frac{n(n+1)}{4}$, $\text{Var}(W^+) = \frac{n(n+1)(2n+1)}{24}$
윌콕슨 순위합 검정 (Wilcoxon Rank-Sum Test / Mann-Whitney U)
두 독립 표본의 분포가 같은지 검정합니다. 독립 이표본 $t$-검정의 비모수 대안입니다.
- 두 표본을 합쳐 전체 순위를 매김
- 한 그룹의 순위합 $W$를 구함
- $H_0$ 하에서의 기대치와 비교
크러스컬-월리스 검정 (Kruskal-Wallis Test)
세 개 이상의 독립 표본을 비교하는 비모수 검정. 일원배치 ANOVA의 비모수 대안입니다:
$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) \sim \chi^2(k-1) \;\text{(근사)}$$여기서 $R_i$는 $i$번째 그룹의 순위합.
베이즈 통계 기초
베이즈 통계(Bayesian Statistics)는 모수를 확률변수로 취급하여, 사전 정보와 데이터를 결합하여 추론합니다.
베이즈 정리
$$\underbrace{p(\theta \mid \mathbf{x})}_{\text{사후분포}} = \frac{\overbrace{f(\mathbf{x} \mid \theta)}^{\text{우도}} \cdot \overbrace{p(\theta)}^{\text{사전분포}}}{\underbrace{\int f(\mathbf{x} \mid \theta)\, p(\theta)\, d\theta}_{\text{주변우도}}} \;\propto\; f(\mathbf{x} \mid \theta) \cdot p(\theta)$$핵심 개념
| 개념 | 설명 |
|---|---|
| 사전분포 $p(\theta)$ | 데이터를 보기 전 모수에 대한 믿음을 나타내는 확률분포 |
| 우도 $f(\mathbf{x} \mid \theta)$ | 모수가 주어졌을 때 데이터가 관측될 확률 |
| 사후분포 $p(\theta \mid \mathbf{x})$ | 데이터를 관측한 후 갱신된 모수의 분포 |
| 무정보 사전분포 | 모수에 대한 사전 정보가 없을 때 사용 (예: 균등분포) |
| 켤레 사전분포 | 사전분포와 사후분포가 같은 분포족에 속하도록 하는 사전분포 |
켤레 사전분포 (Conjugate Prior) 예시
| 우도 | 사전분포 | 사후분포 |
|---|---|---|
| $\text{Bernoulli}(p)$ | $\text{Beta}(\alpha, \beta)$ | $\text{Beta}(\alpha + \sum x_i,\; \beta + n - \sum x_i)$ |
| $\text{Poisson}(\lambda)$ | $\text{Gamma}(\alpha, \beta)$ | $\text{Gamma}(\alpha + \sum x_i,\; \beta + n)$ |
| $N(\mu, \sigma^2)$ ($\sigma^2$ 알려짐) | $N(\mu_0, \sigma_0^2)$ | $N(\mu_n, \sigma_n^2)$ |
정규-정규 켤레의 경우:
$$\mu_n = \frac{\frac{\mu_0}{\sigma_0^2} + \frac{n\bar{x}}{\sigma^2}}{\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}}, \qquad \sigma_n^2 = \frac{1}{\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}}$$베이즈 구간추정: 신용구간 (Credible Interval)
사후분포에서 $\theta$가 $(1-\alpha) \times 100\%$ 확률로 포함되는 구간입니다:
$$P(\theta_L \leq \theta \leq \theta_U \mid \mathbf{x}) = 1 - \alpha$$빈도주의의 신뢰구간과 달리, "모수가 이 구간에 있을 확률이 $1-\alpha$"라는 직관적 해석이 가능합니다.
검정 방법 요약
| 상황 | 모수적 검정 | 비모수적 대안 |
|---|---|---|
| 일표본 평균(중앙값) | $z$-검정, $t$-검정 | 부호 검정, 윌콕슨 부호순위 |
| 독립 이표본 평균 | 독립 $t$-검정 | 윌콕슨 순위합(Mann-Whitney) |
| 대응 표본 평균 | 대응 $t$-검정 | 윌콕슨 부호순위 |
| 세 그룹 이상 평균 | 일원배치 ANOVA | 크러스컬-월리스 |
| 모비율 | $z$-검정 (비율) | 이항 검정 |
| 범주형 변수 관계 | $\chi^2$-검정 (독립성) | 피셔의 정확 검정 |
| 분포 적합도 | $\chi^2$-적합도 검정 | Kolmogorov-Smirnov |
| 두 분산 비교 | $F$-검정 | Levene 검정 |
점추정 심화 — 다양한 추정 방법 비교
같은 모수를 추정하더라도 방법에 따라 추정량의 형태와 성질이 달라집니다. 여기서는 같은 문제를 최대우도법(MLE), 적률법(MoM), 베이즈 추정의 세 가지 방법으로 풀어 비교합니다.
예제: 지수분포의 모수 추정
$X_1, X_2, \ldots, X_n \stackrel{\text{iid}}{\sim} \text{Exp}(\lambda)$일 때 모수 $\lambda$를 추정합니다. 확률밀도함수는 $f(x|\lambda) = \lambda e^{-\lambda x}$, $x \geq 0$입니다.
풀이 1: 최대우도추정(MLE)
1단계 — 우도함수 설정:
$$L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n \exp\left(-\lambda \sum_{i=1}^{n} x_i\right)$$2단계 — 로그우도 미분:
$$\ell(\lambda) = n\ln\lambda - \lambda \sum x_i$$ $$\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - \sum x_i = 0$$3단계 — 풀기:
$$\hat{\lambda}_{\text{MLE}} = \frac{n}{\sum x_i} = \frac{1}{\bar{X}}$$4단계 — 최대 확인: $\frac{d^2\ell}{d\lambda^2} = -\frac{n}{\lambda^2} < 0$ ✓
풀이 2: 적률추정(Method of Moments)
1차 적률을 이용합니다.
$$E(X) = \frac{1}{\lambda} = \bar{X} \implies \hat{\lambda}_{\text{MoM}} = \frac{1}{\bar{X}}$$이 경우 MLE와 MoM이 일치합니다. 그러나 항상 그런 것은 아닙니다.
풀이 3: 베이즈 추정
감마 사전분포 $\lambda \sim \text{Gamma}(\alpha_0, \beta_0)$를 설정합니다. 감마 분포는 지수분포의 켤레 사전분포이므로 사후분포도 감마 분포입니다.
$$p(\lambda \mid \mathbf{x}) \propto \lambda^n e^{-\lambda \sum x_i} \cdot \lambda^{\alpha_0 - 1} e^{-\beta_0 \lambda} = \lambda^{(\alpha_0 + n) - 1} e^{-(\beta_0 + \sum x_i)\lambda}$$ $$\therefore \;\lambda \mid \mathbf{x} \sim \text{Gamma}\left(\alpha_0 + n,\; \beta_0 + \sum x_i\right)$$베이즈 점추정(사후 평균):
$$\hat{\lambda}_{\text{Bayes}} = \frac{\alpha_0 + n}{\beta_0 + \sum x_i}$$- MLE: $\hat{\lambda} = \frac{1}{\bar{X}}$ — 데이터만 사용하며, 대표본에서 가장 효율적입니다.
- MoM: 이 경우 MLE와 동일하지만, 일반적으로 MLE보다 효율이 낮을 수 있습니다.
- Bayes: $\hat{\lambda} = \frac{\alpha_0 + n}{\beta_0 + n\bar{X}}$ — 사전 정보를 반영하며, $n \to \infty$이면 MLE에 수렴합니다.
예제: 정규분포에서 MLE와 MoM이 다른 경우
$X_1, \ldots, X_n \sim N(\mu, \sigma^2)$에서 $\sigma^2$를 추정할 때:
| 방법 | $\hat{\sigma}^2$ | 불편성 |
|---|---|---|
| MLE | $\frac{1}{n}\sum(X_i - \bar{X})^2$ | 편향 ($E[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2$) |
| MoM (2차 중심적률) | $\frac{1}{n}\sum(X_i - \bar{X})^2$ | MLE와 동일 (편향) |
| 불편추정량 ($S^2$) | $\frac{1}{n-1}\sum(X_i - \bar{X})^2$ | 불편 ($E[S^2] = \sigma^2$) |
충분통계량과 완비성
충분통계량(Sufficient Statistic)은 모수에 대한 정보를 데이터 전체만큼 담고 있는 통계량입니다. 데이터를 요약하되 정보 손실이 없는 최적의 요약입니다.
충분통계량의 정의
통계량 $T(\mathbf{X})$가 모수 $\theta$에 대해 충분하다 함은, $T$가 주어졌을 때 $\mathbf{X}$의 조건부 분포가 $\theta$에 의존하지 않는 것입니다:
$$P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t) \;\text{가}\; \theta\text{에 무관}$$피셔-네이만 인수분해 정리
$T(\mathbf{X})$가 $\theta$에 대한 충분통계량일 필요충분조건은 결합 확률(밀도)함수가 다음과 같이 분해되는 것입니다:
$$f(\mathbf{x} \mid \theta) = g(T(\mathbf{x}),\; \theta) \cdot h(\mathbf{x})$$여기서 $g$는 $T$와 $\theta$만의 함수, $h$는 $\theta$에 무관한 함수입니다.
예제: 정규분포의 충분통계량
$X_1, \ldots, X_n \sim N(\mu, \sigma^2)$ ($\sigma^2$ 알려짐)에서 $\mu$에 대한 충분통계량을 구합니다.
$$f(\mathbf{x}|\mu) = \prod_{i=1}^n \frac{1}{\sigma\sqrt{2\pi}} e^{-(x_i-\mu)^2/(2\sigma^2)}$$ $$= \underbrace{\left(\frac{1}{\sigma\sqrt{2\pi}}\right)^n \exp\left(-\frac{n\bar{x}^2 - 2n\mu\bar{x} + n\mu^2}{2\sigma^2}\right)}_{g(\bar{x},\,\mu)} \cdot \underbrace{\exp\left(-\frac{\sum x_i^2 - n\bar{x}^2}{2\sigma^2}\right)}_{h(\mathbf{x})}$$따라서 $T = \bar{X}$는 $\mu$에 대한 충분통계량입니다.
최소충분통계량
충분통계량 중에서 가장 많이 데이터를 요약하는(차원이 가장 낮은) 것을 최소충분통계량(Minimal Sufficient Statistic)이라 합니다.
판정법(Lehmann-Scheffé): $\frac{f(\mathbf{x}|\theta)}{f(\mathbf{y}|\theta)}$가 $\theta$에 무관할 필요충분조건이 $T(\mathbf{x}) = T(\mathbf{y})$이면, $T$는 최소충분통계량입니다.
완비성 (Completeness)
통계량 $T$가 완비(Complete)하다 함은, $T$의 함수 $g(T)$에 대해:
$$E_\theta[g(T)] = 0 \;\;\forall\,\theta \implies P(g(T) = 0) = 1 \;\;\forall\,\theta$$즉, $T$의 "자명하지 않은 불편 추정량"이 유일하다는 것을 의미합니다.
- 라오-블랙웰: 불편추정량 $U$의 충분통계량 $T$에 대한 조건부 기댓값 $E[U \mid T]$는 원래 추정량보다 분산이 작거나 같은 불편추정량입니다.
- 레만-쉐페: 완비충분통계량의 함수인 불편추정량은 유일한 최소분산 불편추정량(UMVUE)입니다.
네이만-피어슨 보조정리
네이만-피어슨 보조정리(Neyman-Pearson Lemma)는 단순가설 대 단순가설($H_0: \theta = \theta_0$ vs $H_1: \theta = \theta_1$) 검정에서 가장 강력한 검정(Most Powerful Test)을 제공합니다.
정리 내용
유의수준 $\alpha$에서 다음 기각역을 갖는 검정이 가장 강력합니다:
$$\text{기각역:} \quad \frac{L(\theta_1 \mid \mathbf{x})}{L(\theta_0 \mid \mathbf{x})} \geq k$$여기서 상수 $k$는 $P_{\theta_0}\left(\frac{L(\theta_1)}{L(\theta_0)} \geq k\right) = \alpha$를 만족하도록 결정합니다.
예제: 정규분포 평균 검정
$X_1, \ldots, X_n \sim N(\mu, 1)$에서 $H_0: \mu = 0$ vs $H_1: \mu = 1$을 검정합니다.
우도비 계산:
$$\frac{L(1)}{L(0)} = \frac{\prod e^{-(x_i-1)^2/2}}{\prod e^{-x_i^2/2}} = \exp\left(\sum x_i - \frac{n}{2}\right) = e^{n\bar{x} - n/2}$$이것이 $k$ 이상일 조건은 $\bar{x} \geq c$ (어떤 상수 $c$)와 동치입니다.
$H_0$ 하에서 $\bar{X} \sim N(0, 1/n)$이므로:
$$P_0(\bar{X} \geq c) = \alpha \implies c = \frac{z_\alpha}{\sqrt{n}}$$따라서 가장 강력한 검정은 $\bar{X} \geq z_\alpha / \sqrt{n}$이면 기각하는 것이며, 이는 표준적인 $z$-검정과 일치합니다.
우도비 검정
우도비 검정(Likelihood Ratio Test, LRT)은 네이만-피어슨 보조정리를 복합가설로 확장한 일반적인 검정 방법입니다.
일반화 우도비 검정통계량
$$\Lambda = \frac{\sup_{\theta \in \Theta_0} L(\theta \mid \mathbf{x})}{\sup_{\theta \in \Theta} L(\theta \mid \mathbf{x})} = \frac{L(\hat{\theta}_0)}{L(\hat{\theta})}$$여기서 $\hat{\theta}_0$는 $H_0$ 제약 하에서의 MLE, $\hat{\theta}$는 비제약 MLE입니다. $0 \leq \Lambda \leq 1$이며, $\Lambda$가 작을수록 $H_0$에 불리한 증거입니다.
윌크스 정리 (Wilks' Theorem)
정칙 조건 하에서 표본 크기 $n$이 충분히 크면:
$$-2\ln\Lambda \xrightarrow{d} \chi^2(r)$$여기서 $r = \dim(\Theta) - \dim(\Theta_0)$는 $H_0$에 의해 제한되는 모수의 수입니다.
예제: 정규분포의 분산 검정
$X_1, \ldots, X_n \sim N(\mu, \sigma^2)$ ($\mu$ 미지)에서 $H_0: \sigma^2 = \sigma_0^2$ vs $H_1: \sigma^2 \neq \sigma_0^2$
풀이:
- 비제약 MLE: $\hat{\mu} = \bar{X}$, $\hat{\sigma}^2 = \frac{1}{n}\sum(X_i - \bar{X})^2$
- 제약 MLE ($\sigma^2 = \sigma_0^2$ 고정): $\hat{\mu}_0 = \bar{X}$
$-2\ln\Lambda \stackrel{a}{\sim} \chi^2(1)$ 또는 동치적으로 $\frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)$을 직접 사용할 수 있습니다.
구간추정 심화 — 네 가지 방법 비교
같은 데이터로부터 구간추정을 수행할 때, 사용하는 방법에 따라 구간의 형태와 폭이 달라집니다. 여기서는 하나의 문제를 네 가지 방법으로 풀어봅니다.
문제 설정
어떤 공정에서 생산된 부품 $n = 16$개의 무게(g)를 측정한 결과, $\bar{x} = 50.2$, $s = 2.4$였습니다. 모평균 $\mu$의 $95\%$ 구간을 추정합니다. 정규성을 가정합니다.
방법 1: 정규분포 기반 ($\sigma$ 알려진 경우)
만약 $\sigma = 2.4$를 알고 있다고 가정하면:
$$\bar{x} \pm z_{0.025} \frac{\sigma}{\sqrt{n}} = 50.2 \pm 1.960 \times \frac{2.4}{\sqrt{16}} = 50.2 \pm 1.176$$ $$\therefore\; \mu \in [49.024,\; 51.376]$$방법 2: $t$-분포 기반 ($\sigma$ 모르는 경우, 정확한 방법)
$$\bar{x} \pm t_{0.025}(15) \frac{s}{\sqrt{n}} = 50.2 \pm 2.131 \times \frac{2.4}{\sqrt{16}} = 50.2 \pm 1.279$$ $$\therefore\; \mu \in [48.921,\; 51.479]$$방법 3: 부트스트랩 신뢰구간
부트스트랩(Bootstrap)은 분포를 가정하지 않고, 데이터 자체에서 반복 복원추출하여 구간을 구합니다.
- 원본 표본에서 복원추출로 크기 $n$인 표본을 $B$번 생성 ($B = 10000$ 등)
- 각 부트스트랩 표본의 평균 $\bar{x}_1^*, \bar{x}_2^*, \ldots, \bar{x}_B^*$ 계산
- 부트스트랩 평균들의 $2.5\%$, $97.5\%$ 백분위수를 구간의 양 끝으로 사용
백분위수 부트스트랩 구간:
$$[\bar{x}^*_{(0.025)},\; \bar{x}^*_{(0.975)}]$$방법 4: 베이즈 신용구간
$\sigma$ 알려짐, 무정보 사전분포 $p(\mu) \propto 1$ 가정:
$$\mu \mid \mathbf{x} \sim N\left(\bar{x},\; \frac{\sigma^2}{n}\right) = N\left(50.2,\; 0.36\right)$$$95\%$ 신용구간:
$$50.2 \pm 1.960 \times 0.6 = [49.024,\; 51.376]$$무정보 사전분포를 사용하면 빈도주의 신뢰구간과 수치적으로 일치합니다.
- $z$-구간은 $\sigma$를 안다고 가정하므로 가장 좁지만, 실제로 $\sigma$를 아는 경우는 드뭅니다.
- $t$-구간이 실무에서 가장 표준적이며, 소표본에서 $z$-구간보다 넓습니다.
- 부트스트랩은 분포 가정 없이 사용 가능하여 비정규 데이터에 유용합니다.
- 베이즈 신용구간은 직관적 확률 해석이 가능하며, 사전 정보를 반영할 수 있습니다.
가설검정 심화 — 같은 가설, 세 가지 검정
같은 가설을 $z$-검정, $t$-검정, 비모수 검정(윌콕슨 부호순위)으로 각각 풀어 결과를 비교합니다.
문제
한 음료 회사의 기존 캔 음료 용량은 $\mu_0 = 330$ml입니다. 소비자 불만이 접수되어 $n = 12$개를 무작위 추출하여 측정한 결과:
$325, 328, 327, 330, 326, 329, 324, 331, 328, 326, 327, 325$
$\bar{x} = 327.17$, $s = 2.17$. 용량이 부족한지($\mu < 330$) 검정합니다 ($\alpha = 0.05$).
풀이 1: $z$-검정 (모표준편차 $\sigma = 2.17$ 알려짐 가정)
$$Z = \frac{327.17 - 330}{2.17 / \sqrt{12}} = \frac{-2.83}{0.626} = -4.52$$$z_{0.05} = -1.645$이므로 $Z = -4.52 < -1.645$. $H_0$ 기각합니다.
풀이 2: $t$-검정 ($\sigma$ 모름, 정규 가정)
$$T = \frac{327.17 - 330}{2.17 / \sqrt{12}} = -4.52$$$t_{0.05}(11) = -1.796$이므로 $T = -4.52 < -1.796$. $H_0$ 기각합니다.
풀이 3: 윌콕슨 부호순위 검정 (비모수)
정규성을 가정하지 않으며, 분포의 대칭성만 가정합니다.
- $D_i = x_i - 330$을 계산: $-5, -2, -3, 0, -4, -1, -6, 1, -2, -4, -3, -5$
- $D_i = 0$인 관측값 제외 → $n' = 11$
- $|D_i|$의 순위를 매기고, 양의 부호에 해당하는 순위합 $W^+ = 2$ (순위 $2$에 해당하는 $D = +1$ 하나뿐)
- $n' = 11$, $\alpha = 0.05$ 단측에서 임계값 $W^+_{\text{crit}} = 14$. $W^+ = 2 < 14$이므로 $H_0$ 기각합니다.
- 세 방법 모두 같은 결론($H_0$ 기각)을 내렸습니다. 효과가 분명할 때는 방법에 관계없이 결론이 일치합니다.
- $z$-검정: 가장 검정력이 높지만 $\sigma$를 알아야 하는 비현실적 가정이 필요합니다.
- $t$-검정: 정규성 가정 하에서 소표본에 적합한 표준적 방법입니다.
- 윌콕슨: 정규성 가정이 의심될 때 안전한 대안이며, 정규분포일 때 $t$-검정 효율의 약 $95\%$를 유지합니다.
비모수 통계 심화
비모수 방법은 모집단 분포에 대한 강한 가정 없이 분석할 수 있어 실무에서 매우 유용합니다. 여기서는 핵심 비모수 검정들을 구체적 수치 예제와 함께 상세히 다룹니다.
부호 검정 (Sign Test) — 상세 풀이
문제: 다이어트 프로그램 참가자 $10$명의 전후 체중 차이(kg)가 다음과 같습니다:
$-2, -1, +3, -4, -1, 0, -2, -3, +1, -2$
프로그램이 체중 감소에 효과가 있는지($M < 0$) 검정합니다.
풀이:
- $D_i = 0$인 것 제외 → $n' = 9$
- 양의 차이 개수: $S^+ = 2$ (값 $+3$, $+1$)
- $H_0: M = 0$ 하에서 $S^+ \sim B(9, 0.5)$
- $P(S^+ \leq 2) = \sum_{k=0}^{2} \binom{9}{k} 0.5^9 = \frac{1 + 9 + 36}{512} = \frac{46}{512} = 0.0898$
- $p\text{-값} = 0.0898 > 0.05$이므로 $H_0$을 기각하지 못합니다.
만-휘트니 $U$ 검정 (Mann-Whitney U Test) — 상세 풀이
문제: 두 교수법 A, B의 시험 점수를 비교합니다.
| A조 ($n_1 = 5$) | B조 ($n_2 = 6$) |
|---|---|
| 72, 65, 81, 70, 68 | 85, 79, 90, 82, 88, 76 |
풀이:
- 전체 합쳐 순위를 매깁니다:
값 65 68 70 72 76 79 81 82 85 88 90 순위 1 2 3 4 5 6 7 8 9 10 11 그룹 A A A A B B A B B B B - A조 순위합: $R_A = 1+2+3+4+7 = 17$
- $U_A = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_A = 30 + 15 - 17 = 28$
- $U_B = n_1 n_2 - U_A = 30 - 28 = 2$
- $U = \min(U_A, U_B) = 2$
- $n_1 = 5$, $n_2 = 6$에서 $\alpha = 0.05$ 양측 임계값: $U_{\text{crit}} = 3$. $U = 2 \leq 3$이므로 $H_0$ 기각 — 두 그룹의 분포에 유의한 차이가 있습니다.
스피어만 순위상관 (Spearman's Rank Correlation)
피어슨 상관계수의 비모수적 대안으로, 순서 관계만을 이용합니다:
$$r_s = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)}$$여기서 $d_i$는 두 변수의 순위 차이입니다. $-1 \leq r_s \leq 1$
다변량 분석
다변량 분석(Multivariate Analysis)은 여러 변수를 동시에 분석하는 통계 기법입니다. 현실의 데이터는 대부분 여러 변수로 구성되어 있으므로, 이들 간의 관계를 종합적으로 파악하는 것이 중요합니다.
주성분분석 (PCA: Principal Component Analysis)
PCA는 고차원 데이터를 분산을 최대한 보존하면서 저차원으로 축소하는 방법입니다.
핵심 아이디어
$p$개의 변수를 가진 데이터에서, 서로 직교하는 새로운 축(주성분)을 찾아 데이터의 변동을 최대한 설명합니다.
- 공분산 행렬 $\boldsymbol{\Sigma}$를 구합니다 (또는 상관행렬 $\mathbf{R}$).
- $\boldsymbol{\Sigma}$의 고유값 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$과 고유벡터 $\mathbf{e}_1, \ldots, \mathbf{e}_p$를 구합니다.
- 제$k$주성분: $Y_k = \mathbf{e}_k^T \mathbf{X}$
- 제$k$주성분이 설명하는 분산의 비율: $\frac{\lambda_k}{\sum_{j=1}^p \lambda_j}$
주성분의 수 결정 기준:
- 누적 분산 비율: $\frac{\sum_{k=1}^m \lambda_k}{\sum_{j=1}^p \lambda_j} \geq 0.8 \sim 0.9$이 되는 $m$을 선택
- 카이저 기준: $\lambda_k \geq 1$ (상관행렬 사용 시)인 주성분만 선택
- 스크리 도표: 고유값을 크기순으로 그래프를 그려 "팔꿈치(elbow)" 지점 이전까지 선택
판별분석 (Discriminant Analysis)
판별분석(LDA: Linear Discriminant Analysis)은 그룹 간 차이를 최대화하는 선형 조합을 찾아 분류하는 방법입니다.
피셔의 선형 판별
두 그룹의 평균 벡터 $\boldsymbol{\mu}_1, \boldsymbol{\mu}_2$와 공통 공분산 행렬 $\boldsymbol{\Sigma}$가 주어졌을 때:
$$\mathbf{a} = \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)$$이 방향으로 사영하면 두 그룹이 최대로 분리됩니다. 판별 점수는:
$$D(\mathbf{x}) = \mathbf{a}^T \mathbf{x}$$판별 규칙:
$$\text{그룹 1로 분류} \iff D(\mathbf{x}) \geq \frac{D(\boldsymbol{\mu}_1) + D(\boldsymbol{\mu}_2)}{2}$$- PCA는 비지도 학습으로, 전체 데이터의 분산을 최대화합니다. 그룹 정보를 사용하지 않습니다.
- LDA는 지도 학습으로, 그룹 간 분산은 최대화하고 그룹 내 분산은 최소화합니다.
시계열 분석 기초
시계열(Time Series)은 시간 순서대로 관측된 데이터입니다. 주가, 기온, GDP 등이 대표적인 시계열 데이터입니다. 시계열 분석의 목표는 과거 패턴을 파악하여 미래를 예측하는 것입니다.
시계열의 구성 요소
| 구성 요소 | 설명 | 예시 |
|---|---|---|
| 추세(Trend) | 장기적인 증가/감소 방향 | 인구의 지속적 증가 |
| 계절성(Seasonality) | 일정 주기로 반복되는 패턴 | 여름마다 증가하는 아이스크림 판매 |
| 순환(Cycle) | 비정기적 장기 변동 | 경기 순환 (호황→불황) |
| 불규칙(Irregular) | 예측 불가능한 무작위 변동 | 예상치 못한 사건 |
정상성 (Stationarity)
시계열 모형의 핵심 가정은 정상성입니다. 정상 시계열은 시간에 따라 통계적 성질이 변하지 않습니다:
- $E(X_t) = \mu$ (평균이 일정)
- $\text{Var}(X_t) = \sigma^2$ (분산이 일정)
- $\text{Cov}(X_t, X_{t+h}) = \gamma(h)$ (공분산이 시차 $h$에만 의존)
자기상관함수 (ACF)와 편자기상관함수 (PACF)
자기상관함수(ACF)는 시차 $h$에서의 상관관계를 측정합니다:
$$\rho(h) = \frac{\gamma(h)}{\gamma(0)} = \frac{\text{Cov}(X_t, X_{t+h})}{\text{Var}(X_t)}$$편자기상관함수(PACF)는 중간 시차의 영향을 제거한 순수한 상관관계입니다.
| 모형 | ACF 패턴 | PACF 패턴 |
|---|---|---|
| AR($p$) | 지수적/진동적 감소 | 시차 $p$ 이후 절단 |
| MA($q$) | 시차 $q$ 이후 절단 | 지수적/진동적 감소 |
| ARMA($p,q$) | 지수적/진동적 감소 | 지수적/진동적 감소 |
AR 모형 (자기회귀 모형)
AR($p$) 모형은 현재 값을 과거 $p$개 값의 선형 결합으로 표현합니다:
$$X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \varepsilon_t$$여기서 $\varepsilon_t \sim \text{WN}(0, \sigma^2)$ (백색잡음). AR(1)의 정상성 조건: $|\phi_1| < 1$
MA 모형 (이동평균 모형)
MA($q$) 모형은 현재 값을 현재와 과거 $q$개 오차의 선형 결합으로 표현합니다:
$$X_t = \mu + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} + \cdots + \theta_q \varepsilon_{t-q}$$MA 모형은 항상 정상입니다.
ARIMA 모형
ARIMA($p, d, q$)는 비정상 시계열에 $d$번 차분을 적용하여 정상화한 뒤 ARMA($p, q$)를 적합하는 모형입니다:
- $p$: 자기회귀 차수
- $d$: 차분 차수 (보통 $0, 1, 2$)
- $q$: 이동평균 차수
1차 차분: $\nabla X_t = X_t - X_{t-1}$, 2차 차분: $\nabla^2 X_t = \nabla X_t - \nabla X_{t-1}$
- 식별: ACF/PACF 분석으로 $(p, d, q)$ 결정
- 추정: MLE 또는 최소제곱법으로 모수 추정
- 진단: 잔차의 백색잡음 여부 확인 (Ljung-Box 검정)
- 예측: 적합된 모형으로 미래 값 예측
베이즈 통계 심화
앞서 기초를 다루었으므로, 여기서는 켤레 사전분포의 구체적 유도, 사전분포의 선택, 그리고 MCMC를 심도 있게 다룹니다.
켤레 사전분포의 상세 유도: 베르누이-베타
동전 던지기를 $n$번 하여 앞면이 $k$번 나왔을 때 앞면 확률 $p$를 추정합니다.
우도:
$$f(k \mid p) = \binom{n}{k} p^k (1-p)^{n-k}$$사전분포 — 베타분포: $p \sim \text{Beta}(\alpha, \beta)$
$$\pi(p) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha, \beta)}, \quad 0 \leq p \leq 1$$사후분포 유도:
$$p(p \mid k) \propto p^k (1-p)^{n-k} \cdot p^{\alpha-1}(1-p)^{\beta-1} = p^{(\alpha+k)-1}(1-p)^{(\beta+n-k)-1}$$ $$\therefore \; p \mid k \sim \text{Beta}(\alpha + k,\; \beta + n - k)$$구체적 수치 예제: 동전을 $n = 20$번 던져 앞면이 $k = 14$번 나왔습니다.
| 사전분포 | $\alpha, \beta$ | 사후분포 | 사후 평균 $\hat{p}$ |
|---|---|---|---|
| 무정보 (균등) | $1, 1$ | $\text{Beta}(15, 7)$ | $\frac{15}{22} = 0.682$ |
| 약한 정보 | $2, 2$ | $\text{Beta}(16, 8)$ | $\frac{16}{24} = 0.667$ |
| 공정 동전 확신 | $50, 50$ | $\text{Beta}(64, 56)$ | $\frac{64}{120} = 0.533$ |
제프리스 사전분포 (Jeffreys Prior)
무정보 사전분포의 원칙적 선택 방법으로, 피셔 정보량에 기반합니다:
$$\pi(\theta) \propto \sqrt{I(\theta)} = \sqrt{-E\left[\frac{\partial^2 \ln f(X|\theta)}{\partial \theta^2}\right]}$$이 사전분포는 모수의 재매개변수화에 대해 불변(invariant)입니다.
- $\text{Bernoulli}(p)$: $\pi(p) \propto p^{-1/2}(1-p)^{-1/2}$ → $\text{Beta}(1/2, 1/2)$
- $N(\mu, \sigma^2)$ ($\sigma^2$ 알려짐): $\pi(\mu) \propto 1$ (균등분포)
- $\text{Poisson}(\lambda)$: $\pi(\lambda) \propto \lambda^{-1/2}$
마르코프 연쇄 몬테카를로 (MCMC)
사후분포가 닫힌 형태로 구해지지 않을 때, 사후분포로부터 표본을 추출하여 근사하는 방법입니다.
메트로폴리스-해스팅스 알고리즘
목표 분포 $p(\theta \mid \mathbf{x})$로부터 표본을 생성합니다:
- 초기값 $\theta^{(0)}$ 설정
- $t = 1, 2, \ldots$에 대해 반복:
- 제안분포 $q(\theta^* \mid \theta^{(t-1)})$에서 후보 $\theta^*$ 생성
- 수용 확률 계산: $\alpha = \min\left(1,\; \frac{p(\theta^* \mid \mathbf{x})\, q(\theta^{(t-1)} \mid \theta^*)}{p(\theta^{(t-1)} \mid \mathbf{x})\, q(\theta^* \mid \theta^{(t-1)})}\right)$
- $U \sim \text{Uniform}(0, 1)$에서 $U \leq \alpha$이면 $\theta^{(t)} = \theta^*$ (수용), 아니면 $\theta^{(t)} = \theta^{(t-1)}$ (기각)
- 충분히 많은 반복 후 (번인 기간 제거), $\{\theta^{(t)}\}$가 사후분포의 표본이 됩니다.
깁스 샘플링 (Gibbs Sampling)
다차원 모수 $\boldsymbol{\theta} = (\theta_1, \theta_2, \ldots, \theta_d)$에서 각 성분을 조건부 분포에서 순차적으로 추출합니다:
- $\theta_1^{(t)} \sim p(\theta_1 \mid \theta_2^{(t-1)}, \ldots, \theta_d^{(t-1)}, \mathbf{x})$
- $\theta_2^{(t)} \sim p(\theta_2 \mid \theta_1^{(t)}, \theta_3^{(t-1)}, \ldots, \theta_d^{(t-1)}, \mathbf{x})$
- $\vdots$
- $\theta_d^{(t)} \sim p(\theta_d \mid \theta_1^{(t)}, \ldots, \theta_{d-1}^{(t)}, \mathbf{x})$
조건부 분포가 표준적인 형태이면 메트로폴리스-해스팅스보다 효율적입니다.
- 트레이스 플롯(Trace Plot): 체인이 특정 범위를 안정적으로 탐색하는지 시각적 확인
- 겔만-루빈 진단($\hat{R}$): 여러 체인을 실행하여 $\hat{R} < 1.1$이면 수렴으로 판단
- 유효 표본 크기(ESS): 자기상관을 고려한 실질적 독립 표본 수
베이즈 모형 비교
두 모형 $M_1, M_2$의 상대적 적합도를 베이즈 인자(Bayes Factor)로 비교합니다:
$$BF_{12} = \frac{P(\mathbf{x} \mid M_1)}{P(\mathbf{x} \mid M_2)} = \frac{\int L(\theta_1 \mid \mathbf{x})\, \pi(\theta_1 \mid M_1)\, d\theta_1}{\int L(\theta_2 \mid \mathbf{x})\, \pi(\theta_2 \mid M_2)\, d\theta_2}$$| $BF_{12}$ | $M_1$에 대한 증거 |
|---|---|
| $1 \sim 3$ | 약한 증거 |
| $3 \sim 20$ | 긍정적 증거 |
| $20 \sim 150$ | 강한 증거 |
| $> 150$ | 매우 강한 증거 |
통계적 방법론 종합 비교
아래 표는 빈도주의, 우도주의, 베이즈주의의 세 가지 통계적 패러다임을 비교합니다.
| 항목 | 빈도주의 | 우도주의 | 베이즈주의 |
|---|---|---|---|
| 모수의 성격 | 고정된 미지의 상수 | 고정된 미지의 상수 | 확률변수 |
| 추론의 기반 | 표본분포 (반복 실험) | 우도함수 | 사후분포 |
| 사전 정보 | 사용하지 않음 | 사용하지 않음 | 사전분포로 반영 |
| 구간추정 | 신뢰구간 (절차적 확률) | 우도구간 | 신용구간 (직접적 확률) |
| 가설검정 | $p$-값, 기각역 | 우도비 | 베이즈 인자, 사후확률 |
| 장점 | 객관적, 사전 정보 불필요 | 우도원리 충실 | 직관적 해석, 사전 정보 활용 |
| 단점 | 해석이 반직관적 | 구간추정이 제한적 | 사전분포 선택의 주관성 |