통계학 (Statistics)

통계학은 데이터를 수집, 분석, 해석하는 방법을 연구하는 학문입니다. 크게 기술통계(Descriptive Statistics)와 추론통계(Inferential Statistics)로 나뉩니다. 기술통계는 데이터를 요약하고 시각화하는 데 집중하며, 추론통계는 표본으로부터 모집단의 특성을 추론합니다.

통계란 무엇인가?

통계학(Statistics)이란 데이터에서 의미 있는 정보를 끌어내는 학문입니다. 우리가 일상에서 마주치는 수많은 숫자들 — 시험 점수, 키, 몸무게, 기온, 판매량 — 은 그 자체로는 그저 나열된 숫자에 불과합니다. 통계학은 이 숫자들을 정리하고, 요약하고, 해석하여 의미 있는 결론을 이끌어내는 방법을 제공합니다.

비유로 이해하기: 통계학은 "데이터의 안경"과 같습니다. 수천, 수만 개의 숫자를 맨눈으로 보면 아무것도 보이지 않지만, 통계라는 안경을 쓰면 "전체적으로 어떤 경향이 있는지", "특이한 값은 없는지", "두 가지 현상이 관련이 있는지" 등이 선명하게 보이기 시작합니다.

왜 통계를 배워야 합니까?

현대 사회에서는 거의 모든 분야에서 데이터를 기반으로 의사결정을 합니다. 통계를 모르면 다음과 같은 상황에서 올바른 판단을 내리기 어렵습니다:

뉴스 해석: "이 약은 효과가 있다"는 뉴스가 나왔을 때, 실제로 믿을 만한 근거인지 판단할 수 있습니다.
광고 속 숫자: "사용자의 90%가 만족"이라는 광고에서, 표본이 10명인지 10,000명인지에 따라 신뢰도가 완전히 달라집니다.
학교 성적: 내 점수가 70점일 때, 반 평균이 50점이면 잘한 것이고 평균이 90점이면 못한 것입니다. 단순한 숫자보다 비교의 맥락이 중요합니다.

표본과 모집단

통계학에서 가장 근본적인 구분은 모집단(Population)과 표본(Sample)입니다.

개념	정의	예시
모집단	관심 있는 대상 전체의 집합	대한민국 전체 고등학생의 수학 점수
표본	모집단에서 뽑은 일부	서울의 한 학교에서 뽑은 100명의 수학 점수
모수(Parameter)	모집단의 특성을 나타내는 값	전체 고등학생의 평균 점수 $\mu$
통계량(Statistic)	표본의 특성을 나타내는 값	표본 100명의 평균 점수 $\bar{x}$

왜 표본을 사용합니까? 대한민국 모든 고등학생의 수학 점수를 조사하려면 엄청난 시간과 비용이 들어갑니다. 그래서 일부(표본)만 조사한 뒤, 그 결과로 전체(모집단)를 추정합니다. 통계학의 핵심 질문은 "일부를 보고 전체를 얼마나 정확하게 알 수 있는가?"입니다.

흔한 오해 — 표본이 크면 무조건 좋습니까? 단순히 표본이 크다고 좋은 것은 아닙니다. 편향된(biased) 표본은 아무리 크기가 커도 잘못된 결론을 내립니다. 예를 들어, 인터넷 설문조사로 "스마트폰 사용 시간"을 조사하면 인터넷을 많이 쓰는 사람들만 응답하므로 결과가 편향됩니다. 표본의 대표성이 크기보다 더 중요합니다.

이런 곳에 쓰여요

여론조사: "지지율 45% ± 3%p, 신뢰수준 95%"가 의미하는 것을 정확히 해석
품질관리: 공장에서 불량률을 통계적으로 관리(6시그마)
임상시험: 신약이 실제로 효과가 있는지 가설검정으로 판단
마케팅: A/B 테스트로 어떤 광고가 더 효과적인지 데이터로 검증

선수 지식: 확률론

난이도: ★★★☆☆ (고등학교 심화)

기술통계

기술통계(Descriptive Statistics)는 데이터의 특성을 요약하고 기술하는 방법입니다. 중심 경향, 산포, 분포의 형태를 파악하는 것이 핵심입니다.

기술통계의 핵심 질문: 데이터를 한눈에 파악하려면 두 가지를 알아야 합니다. 첫째, 데이터가 어디에 몰려 있는가(중심 경향). 둘째, 데이터가 얼마나 퍼져 있는가(산포). 이 두 가지만 알면 데이터의 대략적인 모습을 그릴 수 있습니다.

중심 경향 측도

"데이터를 대표하는 하나의 값"을 구하는 방법입니다. 상황에 따라 적합한 측도가 다릅니다.

측도	공식	특징
평균(Mean)	$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i$	이상치에 민감
중앙값(Median)	정렬 후 중앙의 값	이상치에 강건
최빈값(Mode)	가장 빈도가 높은 값	범주형 데이터에 적합
절사평균(Trimmed Mean)	상하 일정 비율 제거 후 평균	이상치 영향 감소

평균, 중앙값, 최빈값 — 무엇이 다르고 언제 사용합니까?

다음 예시를 통해 세 가지 측도의 차이를 이해할 수 있습니다.

예시: 어떤 회사에 직원 5명이 있고, 월급이 다음과 같다고 합시다.

200만원, 250만원, 300만원, 350만원, 5000만원

측도	계산	결과
평균	$(200 + 250 + 300 + 350 + 5000) \div 5$	1,220만원
중앙값	크기순 정렬 후 가운데(3번째) 값	300만원
최빈값	가장 자주 나타나는 값 (이 예에서는 모두 1번씩 등장)	없음

핵심 교훈: 평균 1,220만원이라는 숫자는 대부분의 직원(4명)의 실제 월급과 거리가 멉니다. 한 명의 고소득자(5,000만원)가 평균을 크게 끌어올린 것입니다. 이런 경우 중앙값(300만원)이 "보통 직원의 월급"을 더 잘 대표합니다. 뉴스에서 "평균 연봉"보다 "중위 연봉"을 볼 때가 있는 이유가 바로 이것입니다.

각 측도를 언제 사용합니까?

평균: 데이터가 대칭적으로 분포하고 극단적인 값이 없을 때 가장 좋습니다. 예: 학급 시험 점수
중앙값: 소득, 집값처럼 극단적인 값(이상치)이 있을 때 적합합니다. 예: "한국의 중위 소득"
최빈값: 가장 흔한 값을 알고 싶을 때 사용합니다. 특히 범주형 데이터(예: 가장 인기 있는 색상)에 유용합니다.

산포 측도 — 데이터가 얼마나 퍼져 있는가?

평균만으로는 데이터의 모습을 알 수 없습니다. 예를 들어, 두 학급의 수학 시험 평균이 모두 70점이라고 합시다:

A반: 68, 69, 70, 71, 72 → 평균 70점, 점수가 평균 근처에 모여 있음
B반: 30, 50, 70, 90, 110 → 평균 70점, 점수가 넓게 퍼져 있음

두 반의 평균은 같지만, 실력 차이의 양상은 완전히 다릅니다. 이 "퍼짐"을 숫자로 표현하는 것이 산포 측도입니다.

분산(Variance): $s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$ (표본 분산, $n-1$로 나눔)
표준편차(Standard Deviation): $s = \sqrt{s^2}$
범위(Range): 최댓값 - 최솟값
변동계수(CV): $\text{CV} = \frac{s}{\bar{x}} \times 100\%$ (단위 없는 상대적 산포)

분산과 표준편차를 직관적으로 이해하기

분산의 아이디어는 간단합니다: 각 데이터가 평균에서 얼마나 떨어져 있는지를 측정하는 것입니다.

단계별 계산 예시: B반의 점수 $30, 50, 70, 90, 110$ (평균 $\bar{x} = 70$)

데이터 $x_i$	평균과의 차이 $x_i - \bar{x}$	차이의 제곱 $(x_i - \bar{x})^2$
$30$	$-40$	$1600$
$50$	$-20$	$400$
$70$	$0$	$0$
$90$	$+20$	$400$
$110$	$+40$	$1600$
합계:		$4000$

$$s^2 = \frac{4000}{5-1} = \frac{4000}{4} = 1000$$ $$s = \sqrt{1000} \approx 31.6 \;\text{(점)}$$

표준편차 약 $31.6$점이란, "대략적으로 각 학생의 점수가 평균에서 약 31.6점 정도 떨어져 있다"는 뜻입니다.

왜 차이를 제곱합니까? 평균과의 차이를 그냥 더하면 양수와 음수가 상쇄되어 항상 $0$이 됩니다($(-40)+(-20)+0+20+40=0$). 이를 방지하기 위해 제곱을 하여 모든 차이를 양수로 만든 뒤 평균을 냅니다. 이것이 분산입니다. 그런데 제곱을 하면 단위도 제곱이 되므로(점수의 제곱), 원래 단위로 돌려놓기 위해 제곱근을 취한 것이 표준편차입니다.

베셀 보정 — 왜 $n$ 대신 $n-1$로 나눕니까? 표본 분산에서 $n$ 대신 $n-1$로 나누는 이유는 불편추정량(Unbiased Estimator)을 얻기 위해서입니다. 표본 평균 $\bar{x}$를 사용하면, 데이터가 $\bar{x}$ 쪽으로 약간 당겨져서 실제 분산보다 작게 추정됩니다. $n-1$로 나누면 이 편향을 보정하여 모분산을 더 정확하게 추정할 수 있습니다. 이를 베셀 보정(Bessel's Correction)이라 합니다.

분위수와 사분위수

분위수(Quantile)는 데이터를 크기순으로 정렬했을 때 특정 비율에 해당하는 값입니다.

분위수	기호	의미
제1사분위수	$Q_1$	하위 $25\%$ 지점
제2사분위수(중앙값)	$Q_2$	하위 $50\%$ 지점
제3사분위수	$Q_3$	하위 $75\%$ 지점

사분위수 범위(IQR): $\text{IQR} = Q_3 - Q_1$

IQR은 데이터의 중간 $50\%$가 퍼져 있는 범위를 나타내며, 이상치에 강건한 산포 측도입니다.

상자 그림 (Box Plot)

상자 그림은 데이터의 분포를 시각적으로 요약하는 그래프입니다.

상자: $Q_1$에서 $Q_3$까지 (IQR)
상자 안의 선: 중앙값 ($Q_2$)
수염(Whisker): $Q_1 - 1.5 \times \text{IQR}$ 이상, $Q_3 + 1.5 \times \text{IQR}$ 이하의 가장 먼 데이터 포인트까지
이상치(Outlier): 수염 바깥에 있는 점들을 개별적으로 표시

이상치 판별 기준: $x < Q_1 - 1.5 \times \text{IQR}$ 이거나 $x > Q_3 + 1.5 \times \text{IQR}$이면 이상치로 간주합니다. $3 \times \text{IQR}$을 초과하면 극단 이상치(Extreme Outlier)라 합니다.

왜도와 첨도

분포의 형태(Shape)를 수치적으로 기술하는 측도입니다.

측도	공식	해석
왜도(Skewness)	$\gamma_1 = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{x_i - \bar{x}}{s}\right)^3$	$\gamma_1 > 0$: 오른쪽 꼬리(양의 왜도) $\gamma_1 = 0$: 대칭 $\gamma_1 < 0$: 왼쪽 꼬리(음의 왜도)
첨도(Kurtosis)	$\gamma_2 = \frac{1}{n}\sum_{i=1}^{n}\left(\frac{x_i - \bar{x}}{s}\right)^4 - 3$	$\gamma_2 > 0$: 뾰족한 분포(급첨, Leptokurtic) $\gamma_2 = 0$: 정규분포(중첨, Mesokurtic) $\gamma_2 < 0$: 완만한 분포(완첨, Platykurtic)

초과 첨도: 위 공식에서 $-3$을 빼는 것은 정규분포의 첨도를 $0$으로 기준 잡기 위함입니다. $-3$을 빼지 않은 값을 단순 첨도(kurtosis), 뺀 값을 초과 첨도(excess kurtosis)라 합니다.

확률분포

이산확률분포

이항분포 (Binomial Distribution)

$n$번의 독립 시행에서 성공 횟수 $X \sim B(n, p)$:

$$P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n$$

기댓값: $E(X) = np$, 분산: $\text{Var}(X) = np(1-p)$

포아송분포 (Poisson Distribution)

단위 시간(또는 공간)에 발생하는 사건의 횟수 $X \sim \text{Poi}(\lambda)$:

$$P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \ldots$$

기댓값: $E(X) = \lambda$, 분산: $\text{Var}(X) = \lambda$

기하분포 (Geometric Distribution)

첫 성공까지의 시행 횟수 $X \sim \text{Geo}(p)$:

$$P(X = k) = (1-p)^{k-1}p, \quad k = 1, 2, 3, \ldots$$

기댓값: $E(X) = \frac{1}{p}$, 분산: $\text{Var}(X) = \frac{1-p}{p^2}$

연속확률분포

정규분포 (Normal Distribution)

정규분포(Normal Distribution)는 통계학에서 가장 중요한 분포입니다. 그래프가 종(bell) 모양을 이루기 때문에 종형곡선(Bell Curve)이라고도 부릅니다.

$X \sim N(\mu, \sigma^2)$의 확률밀도함수:

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty$$

정규분포의 특징:

평균 $\mu$를 중심으로 좌우 대칭입니다.
평균 = 중앙값 = 최빈값, 세 가지가 모두 같습니다.
평균 $\mu$는 곡선의 중심 위치를, 표준편차 $\sigma$는 곡선의 폭(퍼짐)을 결정합니다.

68-95-99.7 규칙 (경험적 규칙)

정규분포를 따르는 데이터에 대해 다음이 성립합니다:

범위	포함되는 데이터 비율	의미
$\mu \pm 1\sigma$	약 $68\%$	데이터의 약 $\frac{2}{3}$가 평균에서 표준편차 1개 이내에 있음
$\mu \pm 2\sigma$	약 $95\%$	거의 대부분의 데이터가 이 범위에 있음
$\mu \pm 3\sigma$	약 $99.7\%$	이 범위 밖의 데이터는 극히 드뭄

실생활 예시: 한국 성인 남성의 키가 평균 $\mu = 173$cm, 표준편차 $\sigma = 6$cm인 정규분포를 따른다고 합시다.

$173 \pm 6$ = $167$~$179$cm 사이에 약 $68\%$의 남성이 있습니다.
$173 \pm 12$ = $161$~$185$cm 사이에 약 $95\%$의 남성이 있습니다.
$173 \pm 18$ = $155$~$191$cm 사이에 약 $99.7\%$의 남성이 있습니다.
키가 $191$cm 이상인 남성은 전체의 약 $0.15\%$, 즉 약 $700$명 중 $1$명꼴입니다.

왜 자연에서 정규분포가 많이 나타납니까?

키, 몸무게, 시험 점수, 측정 오차 등 자연 현상의 많은 것이 정규분포를 따릅니다. 그 이유는 중심극한정리(Central Limit Theorem)와 관련이 있습니다. 어떤 현상이 수많은 독립적인 작은 요인들의 합으로 결정된다면, 그 결과는 정규분포에 가까워집니다.

예를 들어, 사람의 키는 수백 개의 유전자, 영양 상태, 생활 환경 등 다양한 독립적 요인이 합쳐져서 결정됩니다. 이 많은 요인들이 합쳐지는 과정에서 중심극한정리에 의해 정규분포 형태가 나타나는 것입니다.

표준정규분포: 어떤 정규분포든 다음 변환을 통해 평균 $0$, 표준편차 $1$인 표준정규분포로 바꿀 수 있습니다:

$$Z = \frac{X - \mu}{\sigma} \sim N(0, 1)$$

이를 표준화(Standardization)라 하며, $Z$-값(Z-score)은 "평균에서 표준편차 몇 개 만큼 떨어져 있는가"를 나타냅니다.

Z-score 예시: 시험 평균이 $60$점, 표준편차가 $10$점일 때, 내 점수가 $80$점이면 $Z = \frac{80-60}{10} = 2$입니다. 이는 "나는 평균보다 표준편차 $2$개만큼 높은 위치"에 있다는 뜻이며, 전체에서 상위 약 $2.3\%$에 해당합니다.

균등분포 (Uniform Distribution)

$X \sim U(a, b)$:

$$f(x) = \frac{1}{b - a}, \quad a \leq x \leq b$$

기댓값: $E(X) = \frac{a+b}{2}$, 분산: $\text{Var}(X) = \frac{(b-a)^2}{12}$

지수분포 (Exponential Distribution)

$X \sim \text{Exp}(\lambda)$:

$$f(x) = \lambda e^{-\lambda x}, \quad x \geq 0$$

기댓값: $E(X) = \frac{1}{\lambda}$, 분산: $\text{Var}(X) = \frac{1}{\lambda^2}$. 무기억성(memoryless property)을 갖습니다: $P(X > s+t \mid X > s) = P(X > t)$

분포 사이의 관계

$n$이 크고 $p$가 작으면 $B(n, p) \approx \text{Poi}(np)$ (포아송 근사)
$n$이 충분히 크면 $B(n, p) \approx N(np, np(1-p))$ (정규 근사)
$\text{Poi}(\lambda)$에서 $\lambda$가 크면 $\text{Poi}(\lambda) \approx N(\lambda, \lambda)$
$\text{Exp}(\lambda)$는 $\text{Gamma}(1, \lambda)$의 특수한 경우

표본분포

표본분포(Sampling Distribution)는 통계량(표본평균, 표본분산 등)의 확률분포입니다. 추론통계의 기반이 됩니다.

표본분포란? 모집단에서 표본을 여러 번 반복해서 뽑으면 매번 다른 표본이 나오고, 그 표본의 평균도 매번 달라집니다. 이렇게 "표본 평균이 어떻게 분포하는가"를 나타낸 것이 표본분포입니다. 예를 들어, 전체 학생 중 $30$명을 뽑아 평균을 구하는 실험을 $1000$번 반복하면, $1000$개의 서로 다른 표본 평균을 얻습니다. 이 $1000$개의 평균이 이루는 분포가 표본평균의 표본분포입니다.

중심극한정리 (CLT)

중심극한정리(Central Limit Theorem)는 통계학에서 가장 놀라운 정리 중 하나입니다. 모집단의 분포가 어떤 형태이든(정규분포가 아니어도!), 표본 크기 $n$이 충분히 크면 표본평균 $\bar{X}$의 분포는 근사적으로 정규분포를 따릅니다:

$$\bar{X} \sim N\left(\mu,\; \frac{\sigma^2}{n}\right) \quad \text{(근사)}$$

즉, $Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \xrightarrow{d} N(0, 1)$

왜 "놀라운" 정리입니까? 주사위를 던지면 $1$~$6$이 균등하게 나옵니다(정규분포가 아닙니다). 그런데 주사위를 $30$번 던져 평균을 구하는 실험을 수천 번 반복하면, 그 평균들의 분포는 종형 곡선(정규분포)에 가까워집니다. 원래 분포가 무엇이든 상관없이, 평균을 구하기만 하면 정규분포로 수렴하는 것입니다. 이것이 정규분포가 통계학 전반에 걸쳐 핵심적인 역할을 하는 근본적인 이유입니다.

실용 기준: 일반적으로 $n \geq 30$이면 중심극한정리가 잘 적용됩니다. 모집단이 정규분포이면 표본 크기에 관계없이 $\bar{X}$는 정확히 정규분포를 따릅니다. 또한 표본 크기가 커질수록 $\frac{\sigma^2}{n}$이 줄어들어 표본 평균의 산포가 작아집니다. 이는 표본이 클수록 표본 평균이 모평균에 더 가까워진다는 것을 의미합니다.

$t$-분포 (Student's $t$-Distribution)

모분산 $\sigma^2$를 모를 때 표본분산 $S^2$으로 대체하면 $t$-분포를 따릅니다:

$$T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t(n-1)$$

성질	내용
자유도	$\nu = n - 1$
형태	표준정규분포와 유사하나 꼬리가 더 두꺼움
대칭성	$0$을 중심으로 대칭
수렴	$\nu \to \infty$이면 $t(\nu) \to N(0,1)$
기댓값	$E(T) = 0$ ($\nu > 1$일 때)
분산	$\text{Var}(T) = \frac{\nu}{\nu - 2}$ ($\nu > 2$일 때)

카이제곱 분포 ($\chi^2$-Distribution)

$Z_1, Z_2, \ldots, Z_k$가 독립인 표준정규 확률변수이면:

$$\chi^2 = \sum_{i=1}^{k} Z_i^2 \sim \chi^2(k)$$

표본분산과의 관계: 정규모집단에서

$$\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$$

성질	내용
자유도	$k$ (양의 정수)
정의역	$x \geq 0$ (비음수)
기댓값	$E(\chi^2) = k$
분산	$\text{Var}(\chi^2) = 2k$
가법성	$\chi^2(k_1) + \chi^2(k_2) \sim \chi^2(k_1 + k_2)$ (독립일 때)
수렴	$k$가 크면 $\chi^2(k) \approx N(k, 2k)$

$F$-분포

독립인 두 카이제곱 변수의 비로 정의됩니다:

$$F = \frac{\chi^2_1 / d_1}{\chi^2_2 / d_2} \sim F(d_1, d_2)$$

두 모집단의 분산비를 검정할 때 사용합니다:

$$F = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1,\; n_2 - 1)$$

성질	내용
자유도	분자 $d_1$, 분모 $d_2$
정의역	$x \geq 0$
기댓값	$E(F) = \frac{d_2}{d_2 - 2}$ ($d_2 > 2$일 때)
역수 관계	$\frac{1}{F} \sim F(d_2, d_1)$
$t$와의 관계	$T \sim t(\nu)$이면 $T^2 \sim F(1, \nu)$

점추정

점추정(Point Estimation)은 모수 $\theta$를 하나의 값 $\hat{\theta}$로 추정하는 것입니다.

좋은 추정량의 성질

성질	정의	설명
불편성(Unbiasedness)	$E(\hat{\theta}) = \theta$	추정량의 기댓값이 모수와 같음
효율성(Efficiency)	$\text{Var}(\hat{\theta})$가 최소	불편추정량 중 분산이 가장 작은 것이 효율적
일치성(Consistency)	$\hat{\theta}_n \xrightarrow{P} \theta$ ($n \to \infty$)	표본이 커질수록 추정량이 모수에 수렴
충분성(Sufficiency)	$f(\mathbf{x}\|\theta) = g(T\|\theta)\,h(\mathbf{x})$	통계량 $T$가 모수에 대한 모든 정보를 담고 있음

크래머-라오 하한 (Cramér-Rao Lower Bound)

불편추정량 $\hat{\theta}$의 분산은 다음의 하한을 갖습니다:

$$\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} = \frac{1}{nI_1(\theta)}$$

여기서 $I(\theta) = -E\left[\frac{\partial^2}{\partial\theta^2}\ln L(\theta)\right]$은 피셔 정보량(Fisher Information)입니다. 하한에 도달하는 추정량을 유효 추정량(Efficient Estimator)이라 합니다.

최대우도추정 (MLE: Maximum Likelihood Estimation)

관측된 데이터가 나올 확률(우도)을 최대화하는 모수 값을 추정합니다:

$$\hat{\theta}_{\text{MLE}} = \arg\max_{\theta}\; L(\theta \mid x_1, \ldots, x_n) = \arg\max_{\theta}\; \prod_{i=1}^{n} f(x_i \mid \theta)$$

실무에서는 로그우도를 사용합니다:

$$\hat{\theta}_{\text{MLE}} = \arg\max_{\theta}\; \ell(\theta) = \arg\max_{\theta}\; \sum_{i=1}^{n} \ln f(x_i \mid \theta)$$

풀이 절차:

우도함수 $L(\theta)$ 또는 로그우도 $\ell(\theta)$ 설정
$\frac{\partial \ell}{\partial \theta} = 0$ 풀기 (스코어 방정식)
$\frac{\partial^2 \ell}{\partial \theta^2} < 0$ 확인 (최대 조건)

MLE의 성질: MLE는 일반적으로 일치추정량이며, 표본이 클 때 근사적으로 정규분포를 따릅니다: $\hat{\theta}_{\text{MLE}} \stackrel{a}{\sim} N\left(\theta,\; \frac{1}{I(\theta)}\right)$. 또한 불변성(invariance)을 가져, $g(\theta)$의 MLE는 $g(\hat{\theta}_{\text{MLE}})$입니다.

적률추정 (Method of Moments)

모집단의 적률과 표본 적률을 같다고 놓고 모수를 구합니다:

$$E(X^k) = \frac{1}{n}\sum_{i=1}^{n} X_i^k, \quad k = 1, 2, \ldots$$

예시: 정규분포 $N(\mu, \sigma^2)$의 적률추정

1차 적률: $E(X) = \mu \implies \hat{\mu} = \bar{X}$
2차 적률: $E(X^2) = \sigma^2 + \mu^2 \implies \hat{\sigma}^2 = \frac{1}{n}\sum X_i^2 - \bar{X}^2$

구간추정

구간추정(Interval Estimation)은 모수 $\theta$가 포함될 것으로 기대되는 구간 $[\hat{\theta}_L,\; \hat{\theta}_U]$를 구하는 것입니다. 점추정이 "모평균은 약 $70$점이다"라고 하나의 값만 제시하는 반면, 구간추정은 "모평균은 $65$점에서 $75$점 사이에 있을 것이다"처럼 범위를 제시합니다.

신뢰수준 $(1 - \alpha) \times 100\%$에서:

$$P(\hat{\theta}_L \leq \theta \leq \hat{\theta}_U) = 1 - \alpha$$

신뢰구간에 대한 흔한 오해: "$95\%$ 신뢰구간"은 "이 구간에 모수가 있을 확률이 $95\%$"라는 뜻이 아닙니다. 모수는 고정된 상수이므로, 특정 구간에 "들어 있거나" "들어 있지 않거나" 둘 중 하나입니다. 올바른 해석은: 같은 방법으로 구간을 $100$번 반복하여 만들면, 그 중 약 $95$개의 구간이 실제 모수를 포함한다는 의미입니다. 즉, 방법(절차)에 대한 신뢰이지, 특정 구간 하나에 대한 확률이 아닙니다.

비유: 과녁(모수)은 고정되어 있고, 화살(신뢰구간)을 $100$번 쏩니다. $95\%$ 신뢰구간이란 "이 방법으로 쏘면 약 $95$발은 과녁에 맞는다"는 뜻이지, 이미 쏜 화살 하나가 과녁에 맞았을 확률이 $95\%$라는 뜻은 아닙니다.

주요 신뢰구간 공식

모수	조건	신뢰구간
모평균 $\mu$	$\sigma$ 알려짐	$\bar{x} \pm z_{\alpha/2} \dfrac{\sigma}{\sqrt{n}}$
모평균 $\mu$	$\sigma$ 모름, 대표본 ($n \geq 30$)	$\bar{x} \pm z_{\alpha/2} \dfrac{s}{\sqrt{n}}$
모평균 $\mu$	$\sigma$ 모름, 소표본 (정규모집단)	$\bar{x} \pm t_{\alpha/2}(n-1) \dfrac{s}{\sqrt{n}}$
모비율 $p$	$n\hat{p} \geq 5$, $n(1-\hat{p}) \geq 5$	$\hat{p} \pm z_{\alpha/2} \sqrt{\dfrac{\hat{p}(1-\hat{p})}{n}}$
모분산 $\sigma^2$	정규모집단	$\left[\dfrac{(n-1)s^2}{\chi^2_{\alpha/2}(n-1)},\; \dfrac{(n-1)s^2}{\chi^2_{1-\alpha/2}(n-1)}\right]$
두 모평균 차 $\mu_1 - \mu_2$	독립 표본, $\sigma_1, \sigma_2$ 알려짐	$(\bar{x}_1 - \bar{x}_2) \pm z_{\alpha/2}\sqrt{\dfrac{\sigma_1^2}{n_1} + \dfrac{\sigma_2^2}{n_2}}$
두 모평균 차 $\mu_1 - \mu_2$	독립, 등분산 ($\sigma_1^2 = \sigma_2^2$)	$(\bar{x}_1 - \bar{x}_2) \pm t_{\alpha/2}(\nu)\; s_p\sqrt{\dfrac{1}{n_1} + \dfrac{1}{n_2}}$ $\nu = n_1 + n_2 - 2$, $s_p^2 = \frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}$

여기서 $z_{\alpha/2}$는 표준정규분포의 상위 $\alpha/2$ 분위수이며, 대표적인 값은 다음과 같습니다:

신뢰수준 $(1-\alpha)$	$\alpha$	$z_{\alpha/2}$
$90\%$	$0.10$	$1.645$
$95\%$	$0.05$	$1.960$
$99\%$	$0.01$	$2.576$

표본 크기 결정

오차 한계(margin of error) $E$를 달성하기 위한 최소 표본 크기:

모평균 추정: $n \geq \left(\frac{z_{\alpha/2} \cdot \sigma}{E}\right)^2$
모비율 추정: $n \geq \left(\frac{z_{\alpha/2}}{E}\right)^2 \hat{p}(1-\hat{p})$. $\hat{p}$를 모르면 $\hat{p} = 0.5$로 놓으면 $n$이 최대(보수적 추정).

가설검정

가설검정(Hypothesis Testing)은 데이터를 바탕으로 가설의 타당성을 판단하는 통계적 방법입니다.

가설검정을 비유로 이해하기: 가설검정은 "재판"과 비슷합니다. 재판에서 피고인은 "무죄"로 추정됩니다(귀무가설). 검사가 "유죄"라는 충분한 증거를 제시해야(대립가설) 유죄 판결을 내립니다. 증거가 불충분하면 "무죄"를 유지하는 것이지, "확실히 무죄"를 증명한 것은 아닙니다. 마찬가지로, 가설검정에서 귀무가설을 기각하지 못했다고 해서 귀무가설이 참이라고 "증명"된 것은 아닙니다.

기본 용어

용어	설명
귀무가설 $H_0$	기존 주장, 효과가 없다는 가설 (예: $\mu = \mu_0$)
대립가설 $H_1$	연구자가 입증하고자 하는 가설 (예: $\mu \neq \mu_0$, $\mu > \mu_0$, $\mu < \mu_0$)
유의수준 $\alpha$	제1종 오류를 범할 최대 허용 확률 (보통 $0.05$ 또는 $0.01$)
검정통계량	$H_0$ 하에서 계산되는 통계량 ($z$, $t$, $\chi^2$, $F$ 등)
$p$-값	$H_0$ 하에서 관측 결과 이상으로 극단적인 값을 얻을 확률
기각역	$H_0$을 기각하는 검정통계량의 범위

$p$-값이란 무엇입니까?

$p$-값(p-value)은 가설검정에서 가장 많이 사용되면서도 오해가 많은 개념입니다. 직관적으로 설명하면:

$p$-값의 직관적 의미: "$p$-값이 $0.03$이다"는 것은 "귀무가설이 참이라고 가정했을 때, 지금 관측한 결과(또는 더 극단적인 결과)를 얻을 확률이 3%"라는 뜻입니다. 이 확률이 매우 작으면(보통 $5\%$ 미만), "귀무가설이 참인데 이런 결과가 나올 리가 없다"고 판단하여 귀무가설을 기각합니다.

비유: 동전을 10번 던졌는데 10번 모두 앞면이 나왔다고 합시다.

$H_0$: "이 동전은 공정하다" (앞면 확률 $= 0.5$)
공정한 동전으로 10번 모두 앞면이 나올 확률: $0.5^{10} = 0.001$ ($0.1\%$)
$p$-값 = $0.001$로 매우 작으므로, "이 동전은 공정하지 않다"고 결론 내릴 수 있습니다.

$p$-값에 대한 흔한 오해:

오해: "$p = 0.03$이면, 귀무가설이 참일 확률이 $3\%$이다."
사실: $p$-값은 귀무가설이 참일 확률이 아닙니다. "귀무가설이 참이라고 가정했을 때 이런 데이터를 관측할 확률"입니다. 이 두 가지는 전혀 다른 의미입니다.
오해: "$p > 0.05$이면 효과가 없다."
사실: $p > 0.05$는 "효과가 없다고 증명된 것"이 아니라 "효과가 있다는 충분한 증거를 찾지 못한 것"입니다. 표본이 작으면 실제 효과가 있어도 $p > 0.05$가 나올 수 있습니다.

검정 절차

가설 설정: $H_0$과 $H_1$ 명시
유의수준 결정: $\alpha$ 설정
검정통계량 선택 및 계산: 데이터와 가정에 맞는 통계량
판정: $p\text{-값} \leq \alpha$이면 $H_0$ 기각, 아니면 $H_0$을 기각하지 못함
결론: 문제 맥락에서 해석

구체적 예시 — 새 교수법의 효과 검정:

기존 교수법의 평균 점수가 $\mu_0 = 70$점이었습니다. 새 교수법으로 가르친 학생 $25$명의 평균 점수는 $\bar{x} = 75$, 표준편차 $s = 10$입니다. 새 교수법이 효과가 있는지 검정합니다.

가설: $H_0: \mu = 70$, $H_1: \mu > 70$ (우측 검정)
유의수준: $\alpha = 0.05$
검정통계량: $T = \frac{75 - 70}{10 / \sqrt{25}} = \frac{5}{2} = 2.5$
판정: 자유도 $24$인 $t$-분포에서 $t_{0.05}(24) = 1.711$. $T = 2.5 > 1.711$이므로 $H_0$ 기각
결론: 유의수준 $5\%$에서 새 교수법이 기존 교수법보다 효과가 있다고 판단할 수 있습니다.

오류의 종류

	$H_0$ 참 (실제)	$H_0$ 거짓 (실제)
$H_0$ 기각 (판정)	제1종 오류 ($\alpha$)	올바른 결정 (검정력 $1 - \beta$)
$H_0$ 채택 (판정)	올바른 결정	제2종 오류 ($\beta$)

제1종 오류(Type I Error): 귀무가설이 참인데 기각하는 오류. 확률 = $\alpha$
제2종 오류(Type II Error): 귀무가설이 거짓인데 기각하지 못하는 오류. 확률 = $\beta$
검정력(Power): $1 - \beta$ = 대립가설이 참일 때 올바르게 기각할 확률

$\alpha$와 $\beta$의 관계: 표본 크기가 고정되면 $\alpha$를 줄이면 $\beta$가 커지고, $\alpha$를 키우면 $\beta$가 줄어듭니다. 두 오류를 동시에 줄이려면 표본 크기를 늘려야 합니다.

다양한 검정

$z$-검정 (Z-Test)

모분산 $\sigma^2$가 알려져 있거나 표본이 충분히 클 때 모평균을 검정합니다.

검정통계량:

$$Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}$$

대립가설	기각역 ($\alpha = 0.05$)
$H_1: \mu \neq \mu_0$ (양측)	$\|Z\| > 1.960$
$H_1: \mu > \mu_0$ (우측)	$Z > 1.645$
$H_1: \mu < \mu_0$ (좌측)	$Z < -1.645$

$t$-검정 (T-Test)

모분산을 모를 때 사용하며, 정규 모집단을 가정합니다.

일표본 $t$-검정 (One-Sample)

단일 모집단의 평균이 특정 값 $\mu_0$인지 검정:

$$T = \frac{\bar{X} - \mu_0}{S / \sqrt{n}} \sim t(n-1)$$

독립 이표본 $t$-검정 (Independent Two-Sample)

두 독립 모집단의 평균 차이를 검정합니다.

등분산 가정:

$$T = \frac{\bar{X}_1 - \bar{X}_2}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$$

여기서 합동분산 $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$

이분산(Welch의 $t$-검정):

$$T = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}}$$

자유도는 Welch-Satterthwaite 근사를 사용합니다:

$$\nu \approx \frac{\left(\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1} + \frac{(S_2^2/n_2)^2}{n_2-1}}$$

대응 표본 $t$-검정 (Paired)

같은 대상에 대한 전후 측정 차이 $D_i = X_{1i} - X_{2i}$를 분석합니다:

$$T = \frac{\bar{D} - 0}{S_D / \sqrt{n}} \sim t(n-1)$$

여기서 $\bar{D} = \frac{1}{n}\sum D_i$, $S_D$는 차이의 표본 표준편차.

카이제곱 검정 ($\chi^2$-Test)

적합도 검정 (Goodness-of-Fit Test)

관측 빈도 $O_i$와 기대 빈도 $E_i$의 일치 여부를 검정합니다:

$$\chi^2 = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} \sim \chi^2(k - 1)$$

여기서 $k$는 범주의 수. 자유도 = $k - 1 - (\text{추정된 모수의 수})$

독립성 검정 (Test of Independence)

$r \times c$ 분할표에서 두 범주형 변수의 독립성을 검정합니다:

$$\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}} \sim \chi^2((r-1)(c-1))$$

기대 빈도: $E_{ij} = \frac{(\text{행 합}_i)(\text{열 합}_j)}{n}$

주의: 카이제곱 검정을 적용하려면 모든 기대 빈도가 $5$ 이상이어야 합니다. 그렇지 않으면 범주를 합치거나 피셔의 정확 검정(Fisher's Exact Test)을 사용합니다.

모비율 검정

모비율 $p$에 대한 검정 ($n$이 클 때):

$$Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}$$

두 모비율의 차이 검정:

$$Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}$$

여기서 합동비율 $\hat{p} = \frac{x_1 + x_2}{n_1 + n_2}$

분산분석 (ANOVA)

분산분석(Analysis of Variance)은 세 개 이상 그룹의 평균 차이를 동시에 검정하는 방법입니다.

일원배치 분산분석 (One-Way ANOVA)

$k$개 그룹의 평균이 모두 같은지 검정합니다:

$H_0: \mu_1 = \mu_2 = \cdots = \mu_k$
$H_1:$ 적어도 하나의 $\mu_i$가 다름

분산 분해

$$\underbrace{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} - \bar{x})^2}_{SST} = \underbrace{\sum_{i=1}^{k} n_i (\bar{x}_i - \bar{x})^2}_{SSB} + \underbrace{\sum_{i=1}^{k}\sum_{j=1}^{n_i}(x_{ij} - \bar{x}_i)^2}_{SSW}$$

ANOVA 표

요인	제곱합 (SS)	자유도 (df)	평균제곱 (MS)	$F$-통계량
처리(Between)	$SSB$	$k - 1$	$MSB = \frac{SSB}{k-1}$	$F = \frac{MSB}{MSW}$
오차(Within)	$SSW$	$N - k$	$MSW = \frac{SSW}{N-k}$
전체(Total)	$SST$	$N - 1$

여기서 $N = \sum n_i$는 전체 표본 크기. $F \sim F(k-1, N-k)$

ANOVA의 가정

정규성: 각 그룹의 데이터가 정규분포를 따름
등분산성: 모든 그룹의 분산이 같음 ($\sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2$)
독립성: 관측값들이 서로 독립

사후 검정(Post-hoc Test): ANOVA에서 $H_0$을 기각하면, 어떤 그룹 간에 차이가 있는지 알기 위해 사후 검정(Tukey HSD, Bonferroni, Scheffé 등)을 수행합니다.

회귀분석

회귀분석(Regression Analysis)은 변수들 사이의 관계를 모델링하는 통계 기법입니다. 쉽게 말해, "$X$가 변할 때 $Y$가 어떻게 변하는지"를 수식으로 표현하는 것입니다.

일상 속 회귀분석: "공부 시간이 1시간 늘어나면 시험 점수가 평균적으로 몇 점 오르는가?" — 이런 질문에 답하는 도구가 바로 회귀분석입니다.

단순선형회귀 (Simple Linear Regression)

한 개의 독립변수 $X$로 종속변수 $Y$를 예측하는 가장 기본적인 모형입니다:

$$Y = \beta_0 + \beta_1 X + \varepsilon, \quad \varepsilon \sim N(0, \sigma^2)$$

여기서 $\beta_0$은 절편($X=0$일 때의 $Y$ 값), $\beta_1$은 기울기($X$가 1 증가할 때 $Y$의 평균 변화량), $\varepsilon$은 오차(모형으로 설명할 수 없는 변동)입니다.

최소제곱법의 직관적 의미

최소제곱법(OLS: Ordinary Least Squares)은 "데이터 점들에 가장 잘 맞는 직선을 찾는 방법"입니다.

산점도에 여러 점이 찍혀 있을 때, 직선을 하나 그을 수 있습니다. 각 데이터 점에서 직선까지의 세로 거리(잔차) $e_i = y_i - \hat{y}_i$를 구한 뒤, 이 거리들의 제곱합을 최소로 만드는 직선이 최소제곱 직선입니다.

$$\text{최소화할 양:} \quad \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i)^2$$

왜 "제곱"합을 최소화합니까? 단순히 거리의 합을 최소화하면, 위쪽 오차(+)와 아래쪽 오차(-)가 상쇄되어 의미 있는 결과를 얻기 어렵습니다. 제곱을 하면 모든 오차가 양수가 되고, 큰 오차에 더 큰 벌점을 주는 효과도 있습니다.

이 최소화 문제를 풀면 다음과 같은 공식을 얻습니다:

$$\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}, \qquad \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$

구체적 계산 예시: 공부 시간($X$, 시간)과 시험 점수($Y$, 점)의 데이터가 다음과 같다고 합시다.

$x$ (공부 시간)	$y$ (점수)
$1$	$50$
$2$	$60$
$3$	$65$
$4$	$70$
$5$	$80$

풀이:

평균: $\bar{x} = 3$, $\bar{y} = 65$
$S_{xy} = (1-3)(50-65) + (2-3)(60-65) + (3-3)(65-65) + (4-3)(70-65) + (5-3)(80-65) = 30+5+0+5+30 = 70$
$S_{xx} = (1-3)^2 + (2-3)^2 + (3-3)^2 + (4-3)^2 + (5-3)^2 = 4+1+0+1+4 = 10$
$\hat{\beta}_1 = \frac{70}{10} = 7$
$\hat{\beta}_0 = 65 - 7 \times 3 = 44$

따라서 회귀 직선은 $\hat{Y} = 44 + 7X$입니다. 공부 시간이 1시간 증가할 때마다 점수가 평균 7점 상승한다고 해석할 수 있습니다.

회귀계수의 검정

$H_0: \beta_1 = 0$ (독립변수 $X$가 $Y$에 영향을 주지 않음):

$$T = \frac{\hat{\beta}_1}{\text{SE}(\hat{\beta}_1)} \sim t(n-2), \qquad \text{SE}(\hat{\beta}_1) = \frac{s}{\sqrt{S_{xx}}}$$

여기서 $s^2 = \frac{\sum(y_i - \hat{y}_i)^2}{n-2} = \frac{SSE}{n-2}$

결정계수 ($R^2$)

$R^2$는 회귀 모델이 데이터의 변동을 얼마나 설명하는지를 나타냅니다. 쉽게 말해, "$Y$의 변동 중 $X$로 설명할 수 있는 비율"입니다. $R^2 = 0.85$이면 "$Y$의 변동 중 $85\%$를 이 모형이 설명하고, 나머지 $15\%$는 설명하지 못한다"는 뜻입니다.

$$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}, \qquad 0 \leq R^2 \leq 1$$

여기서:

$SST = \sum(y_i - \bar{y})^2$: 총제곱합 (Total Sum of Squares)
$SSR = \sum(\hat{y}_i - \bar{y})^2$: 회귀제곱합 (Regression Sum of Squares)
$SSE = \sum(y_i - \hat{y}_i)^2$: 잔차제곱합 (Error Sum of Squares)
$SST = SSR + SSE$

수정결정계수: 독립변수가 많아지면 $R^2$가 무조건 증가하므로, 변수의 수를 보정한 수정결정계수를 사용합니다:

$$R^2_{\text{adj}} = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)} = 1 - (1-R^2)\frac{n-1}{n-p-1}$$

여기서 $p$는 독립변수의 수.

다중선형회귀 (Multiple Linear Regression)

$$Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \varepsilon$$

행렬 표기:

$$\mathbf{Y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$$ $$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}$$

전체 모형의 유의성 검정 ($F$-검정)

$H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0$ (모든 독립변수가 무의미):

$$F = \frac{SSR/p}{SSE/(n-p-1)} = \frac{MSR}{MSE} \sim F(p,\; n-p-1)$$

잔차 분석 (Residual Analysis)

회귀 모형의 타당성을 검증하기 위해 잔차 $e_i = y_i - \hat{y}_i$를 분석합니다.

확인 항목	방법	위반 시
정규성	잔차의 Q-Q plot, Shapiro-Wilk 검정	변수 변환
등분산성	잔차 vs 적합값 산점도	가중 최소제곱(WLS)
독립성	Durbin-Watson 검정	시계열 모형
선형성	잔차 vs 적합값 패턴	다항 회귀, 비선형 모형

다중공선성(Multicollinearity): 독립변수들 사이에 높은 상관관계가 있으면 회귀계수 추정이 불안정해집니다. 분산팽창인자(VIF)가 $10$ 이상이면 다중공선성을 의심해야 합니다: $\text{VIF}_j = \frac{1}{1 - R_j^2}$

상관분석

피어슨 상관계수(Pearson Correlation Coefficient)는 두 변수 사이의 선형 관계의 강도와 방향을 $-1$에서 $1$ 사이의 숫자로 나타냅니다:

$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}}, \quad -1 \leq r \leq 1$$

상관계수 $r$	해석	예시
$r = 1$	완벽한 양의 선형 관계	한쪽이 커지면 다른 쪽도 정확히 비례하여 커짐
$0.7 \leq r < 1$	강한 양의 상관관계	키와 몸무게
$0.3 \leq r < 0.7$	보통의 양의 상관관계	공부 시간과 성적
$-0.3 < r < 0.3$	약한 상관 또는 무상관	신발 크기와 수학 점수
$r = -1$	완벽한 음의 선형 관계	한쪽이 커지면 다른 쪽이 정확히 비례하여 작아짐

상관계수의 유의성 검정: $H_0: \rho = 0$

$$T = \frac{r\sqrt{n-2}}{\sqrt{1-r^2}} \sim t(n-2)$$

단순선형회귀에서 $R^2 = r^2$가 성립합니다.

상관관계와 인과관계는 다릅니다

통계학에서 가장 중요한 경고 중 하나는 "상관관계(Correlation)는 인과관계(Causation)가 아니다"는 것입니다.

"상관관계 ≠ 인과관계"의 의미: 두 변수가 함께 변한다고 해서 한쪽이 다른 쪽의 원인이라고 단정할 수 없습니다.

예시 1 — 아이스크림과 익사 사고: 아이스크림 판매량과 익사 사고 건수를 조사하면 강한 양의 상관관계가 나타납니다. 아이스크림을 많이 팔수록 익사 사고가 많아집니까? 물론 아닙니다. 진짜 원인은 기온입니다. 더운 날에는 아이스크림도 많이 팔리고 수영하는 사람도 많아지는 것입니다. 이처럼 두 변수 모두에 영향을 미치는 숨겨진 변수를 교란변수(Confounding Variable) 또는 잠복변수(Lurking Variable)라 합니다.

예시 2 — 허위 상관(Spurious Correlation): "미국에서 마가린 소비량이 줄어든 시기에 이혼율도 줄었다"는 데이터가 있습니다. 상관계수는 $r = 0.99$로 매우 높지만, 마가린이 이혼의 원인이라고 생각하는 사람은 없을 것입니다. 단순한 우연의 일치입니다.

인과관계를 증명하려면? 통제된 실험(예: 무작위 대조 시험, RCT)을 통해서만 인과관계를 주장할 수 있습니다. 단순한 관찰 데이터에서는 상관관계만 확인할 수 있을 뿐, 인과관계는 확인할 수 없습니다.

비모수 검정

비모수 검정(Nonparametric Test)은 모집단의 분포에 대한 강한 가정(예: 정규성)을 하지 않는 검정법입니다. 표본이 작거나 정규성 가정이 위배될 때 유용합니다.

부호 검정 (Sign Test)

중앙값 $M$에 대한 검정입니다. $n$개 관측값에서 $M_0$보다 큰 값의 개수 $S$를 이용합니다.

$H_0: M = M_0$
$S \sim B(n, 0.5)$ ($H_0$ 하에서)
$n$이 크면 $Z = \frac{S - n/2}{\sqrt{n/4}}$로 근사

윌콕슨 부호순위 검정 (Wilcoxon Signed-Rank Test)

대응 표본 또는 일표본 중앙값 검정. 부호 검정보다 검정력이 높습니다.

차이 $D_i = X_i - M_0$ 계산 ($D_i = 0$인 것은 제외)
$|D_i|$의 순위(rank)를 매김
양의 차이에 해당하는 순위의 합 $W^+$ 계산
$H_0$ 하에서 $W^+$의 분포와 비교하여 판정

대표본 근사: $W^+$는 근사적으로 $E(W^+) = \frac{n(n+1)}{4}$, $\text{Var}(W^+) = \frac{n(n+1)(2n+1)}{24}$

윌콕슨 순위합 검정 (Wilcoxon Rank-Sum Test / Mann-Whitney U)

두 독립 표본의 분포가 같은지 검정합니다. 독립 이표본 $t$-검정의 비모수 대안입니다.

두 표본을 합쳐 전체 순위를 매김
한 그룹의 순위합 $W$를 구함
$H_0$ 하에서의 기대치와 비교

크러스컬-월리스 검정 (Kruskal-Wallis Test)

세 개 이상의 독립 표본을 비교하는 비모수 검정. 일원배치 ANOVA의 비모수 대안입니다:

$$H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) \sim \chi^2(k-1) \;\text{(근사)}$$

여기서 $R_i$는 $i$번째 그룹의 순위합.

베이즈 통계 기초

베이즈 통계(Bayesian Statistics)는 모수를 확률변수로 취급하여, 사전 정보와 데이터를 결합하여 추론합니다.

베이즈 정리

$$\underbrace{p(\theta \mid \mathbf{x})}_{\text{사후분포}} = \frac{\overbrace{f(\mathbf{x} \mid \theta)}^{\text{우도}} \cdot \overbrace{p(\theta)}^{\text{사전분포}}}{\underbrace{\int f(\mathbf{x} \mid \theta)\, p(\theta)\, d\theta}_{\text{주변우도}}} \;\propto\; f(\mathbf{x} \mid \theta) \cdot p(\theta)$$

핵심 개념

개념	설명
사전분포 $p(\theta)$	데이터를 보기 전 모수에 대한 믿음을 나타내는 확률분포
우도 $f(\mathbf{x} \mid \theta)$	모수가 주어졌을 때 데이터가 관측될 확률
사후분포 $p(\theta \mid \mathbf{x})$	데이터를 관측한 후 갱신된 모수의 분포
무정보 사전분포	모수에 대한 사전 정보가 없을 때 사용 (예: 균등분포)
켤레 사전분포	사전분포와 사후분포가 같은 분포족에 속하도록 하는 사전분포

켤레 사전분포 (Conjugate Prior) 예시

우도	사전분포	사후분포
$\text{Bernoulli}(p)$	$\text{Beta}(\alpha, \beta)$	$\text{Beta}(\alpha + \sum x_i,\; \beta + n - \sum x_i)$
$\text{Poisson}(\lambda)$	$\text{Gamma}(\alpha, \beta)$	$\text{Gamma}(\alpha + \sum x_i,\; \beta + n)$
$N(\mu, \sigma^2)$ ($\sigma^2$ 알려짐)	$N(\mu_0, \sigma_0^2)$	$N(\mu_n, \sigma_n^2)$

정규-정규 켤레의 경우:

$$\mu_n = \frac{\frac{\mu_0}{\sigma_0^2} + \frac{n\bar{x}}{\sigma^2}}{\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}}, \qquad \sigma_n^2 = \frac{1}{\frac{1}{\sigma_0^2} + \frac{n}{\sigma^2}}$$

빈도주의 vs 베이즈: 빈도주의 관점에서 모수는 고정된 미지의 상수이고 데이터가 확률적입니다. 베이즈 관점에서는 모수 자체가 확률변수이며, 사전 정보와 데이터를 결합하여 모수의 불확실성을 갱신합니다. 표본이 클수록 사전분포의 영향은 줄어들고 두 방법의 결과는 수렴합니다.

베이즈 구간추정: 신용구간 (Credible Interval)

사후분포에서 $\theta$가 $(1-\alpha) \times 100\%$ 확률로 포함되는 구간입니다:

$$P(\theta_L \leq \theta \leq \theta_U \mid \mathbf{x}) = 1 - \alpha$$

빈도주의의 신뢰구간과 달리, "모수가 이 구간에 있을 확률이 $1-\alpha$"라는 직관적 해석이 가능합니다.

검정 방법 요약

상황	모수적 검정	비모수적 대안
일표본 평균(중앙값)	$z$-검정, $t$-검정	부호 검정, 윌콕슨 부호순위
독립 이표본 평균	독립 $t$-검정	윌콕슨 순위합(Mann-Whitney)
대응 표본 평균	대응 $t$-검정	윌콕슨 부호순위
세 그룹 이상 평균	일원배치 ANOVA	크러스컬-월리스
모비율	$z$-검정 (비율)	이항 검정
범주형 변수 관계	$\chi^2$-검정 (독립성)	피셔의 정확 검정
분포 적합도	$\chi^2$-적합도 검정	Kolmogorov-Smirnov
두 분산 비교	$F$-검정	Levene 검정

점추정 심화 — 다양한 추정 방법 비교

같은 모수를 추정하더라도 방법에 따라 추정량의 형태와 성질이 달라집니다. 여기서는 같은 문제를 최대우도법(MLE), 적률법(MoM), 베이즈 추정의 세 가지 방법으로 풀어 비교합니다.

예제: 지수분포의 모수 추정

$X_1, X_2, \ldots, X_n \stackrel{\text{iid}}{\sim} \text{Exp}(\lambda)$일 때 모수 $\lambda$를 추정합니다. 확률밀도함수는 $f(x|\lambda) = \lambda e^{-\lambda x}$, $x \geq 0$입니다.

풀이 1: 최대우도추정(MLE)

1단계 — 우도함수 설정:

$$L(\lambda) = \prod_{i=1}^{n} \lambda e^{-\lambda x_i} = \lambda^n \exp\left(-\lambda \sum_{i=1}^{n} x_i\right)$$

2단계 — 로그우도 미분:

$$\ell(\lambda) = n\ln\lambda - \lambda \sum x_i$$ $$\frac{d\ell}{d\lambda} = \frac{n}{\lambda} - \sum x_i = 0$$

3단계 — 풀기:

$$\hat{\lambda}_{\text{MLE}} = \frac{n}{\sum x_i} = \frac{1}{\bar{X}}$$

4단계 — 최대 확인: $\frac{d^2\ell}{d\lambda^2} = -\frac{n}{\lambda^2} < 0$ ✓

풀이 2: 적률추정(Method of Moments)

1차 적률을 이용합니다.

$$E(X) = \frac{1}{\lambda} = \bar{X} \implies \hat{\lambda}_{\text{MoM}} = \frac{1}{\bar{X}}$$

이 경우 MLE와 MoM이 일치합니다. 그러나 항상 그런 것은 아닙니다.

풀이 3: 베이즈 추정

감마 사전분포 $\lambda \sim \text{Gamma}(\alpha_0, \beta_0)$를 설정합니다. 감마 분포는 지수분포의 켤레 사전분포이므로 사후분포도 감마 분포입니다.

$$p(\lambda \mid \mathbf{x}) \propto \lambda^n e^{-\lambda \sum x_i} \cdot \lambda^{\alpha_0 - 1} e^{-\beta_0 \lambda} = \lambda^{(\alpha_0 + n) - 1} e^{-(\beta_0 + \sum x_i)\lambda}$$ $$\therefore \;\lambda \mid \mathbf{x} \sim \text{Gamma}\left(\alpha_0 + n,\; \beta_0 + \sum x_i\right)$$

베이즈 점추정(사후 평균):

$$\hat{\lambda}_{\text{Bayes}} = \frac{\alpha_0 + n}{\beta_0 + \sum x_i}$$

세 방법의 비교:

MLE: $\hat{\lambda} = \frac{1}{\bar{X}}$ — 데이터만 사용하며, 대표본에서 가장 효율적입니다.
MoM: 이 경우 MLE와 동일하지만, 일반적으로 MLE보다 효율이 낮을 수 있습니다.
Bayes: $\hat{\lambda} = \frac{\alpha_0 + n}{\beta_0 + n\bar{X}}$ — 사전 정보를 반영하며, $n \to \infty$이면 MLE에 수렴합니다.

예제: 정규분포에서 MLE와 MoM이 다른 경우

$X_1, \ldots, X_n \sim N(\mu, \sigma^2)$에서 $\sigma^2$를 추정할 때:

방법	$\hat{\sigma}^2$	불편성
MLE	$\frac{1}{n}\sum(X_i - \bar{X})^2$	편향 ($E[\hat{\sigma}^2_{\text{MLE}}] = \frac{n-1}{n}\sigma^2$)
MoM (2차 중심적률)	$\frac{1}{n}\sum(X_i - \bar{X})^2$	MLE와 동일 (편향)
불편추정량 ($S^2$)	$\frac{1}{n-1}\sum(X_i - \bar{X})^2$	불편 ($E[S^2] = \sigma^2$)

MLE가 항상 불편추정량은 아닙니다: 정규분포 분산의 MLE는 $\frac{n-1}{n}\sigma^2$로 편향되어 있습니다. 그러나 $n$이 커지면 편향이 $0$에 수렴하므로 점근적으로 불편합니다. MLE의 진정한 강점은 불편성이 아니라 점근적 효율성(크래머-라오 하한 달성)에 있습니다.

충분통계량과 완비성

충분통계량(Sufficient Statistic)은 모수에 대한 정보를 데이터 전체만큼 담고 있는 통계량입니다. 데이터를 요약하되 정보 손실이 없는 최적의 요약입니다.

충분통계량의 정의

통계량 $T(\mathbf{X})$가 모수 $\theta$에 대해 충분하다 함은, $T$가 주어졌을 때 $\mathbf{X}$의 조건부 분포가 $\theta$에 의존하지 않는 것입니다:

$$P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t) \;\text{가}\; \theta\text{에 무관}$$

피셔-네이만 인수분해 정리

$T(\mathbf{X})$가 $\theta$에 대한 충분통계량일 필요충분조건은 결합 확률(밀도)함수가 다음과 같이 분해되는 것입니다:

$$f(\mathbf{x} \mid \theta) = g(T(\mathbf{x}),\; \theta) \cdot h(\mathbf{x})$$

여기서 $g$는 $T$와 $\theta$만의 함수, $h$는 $\theta$에 무관한 함수입니다.

예제: 정규분포의 충분통계량

$X_1, \ldots, X_n \sim N(\mu, \sigma^2)$ ($\sigma^2$ 알려짐)에서 $\mu$에 대한 충분통계량을 구합니다.

$$f(\mathbf{x}|\mu) = \prod_{i=1}^n \frac{1}{\sigma\sqrt{2\pi}} e^{-(x_i-\mu)^2/(2\sigma^2)}$$ $$= \underbrace{\left(\frac{1}{\sigma\sqrt{2\pi}}\right)^n \exp\left(-\frac{n\bar{x}^2 - 2n\mu\bar{x} + n\mu^2}{2\sigma^2}\right)}_{g(\bar{x},\,\mu)} \cdot \underbrace{\exp\left(-\frac{\sum x_i^2 - n\bar{x}^2}{2\sigma^2}\right)}_{h(\mathbf{x})}$$

따라서 $T = \bar{X}$는 $\mu$에 대한 충분통계량입니다.

최소충분통계량

충분통계량 중에서 가장 많이 데이터를 요약하는(차원이 가장 낮은) 것을 최소충분통계량(Minimal Sufficient Statistic)이라 합니다.

판정법(Lehmann-Scheffé): $\frac{f(\mathbf{x}|\theta)}{f(\mathbf{y}|\theta)}$가 $\theta$에 무관할 필요충분조건이 $T(\mathbf{x}) = T(\mathbf{y})$이면, $T$는 최소충분통계량입니다.

완비성 (Completeness)

통계량 $T$가 완비(Complete)하다 함은, $T$의 함수 $g(T)$에 대해:

$$E_\theta[g(T)] = 0 \;\;\forall\,\theta \implies P(g(T) = 0) = 1 \;\;\forall\,\theta$$

즉, $T$의 "자명하지 않은 불편 추정량"이 유일하다는 것을 의미합니다.

라오-블랙웰 정리와 레만-쉐페 정리:

라오-블랙웰: 불편추정량 $U$의 충분통계량 $T$에 대한 조건부 기댓값 $E[U \mid T]$는 원래 추정량보다 분산이 작거나 같은 불편추정량입니다.
레만-쉐페: 완비충분통계량의 함수인 불편추정량은 유일한 최소분산 불편추정량(UMVUE)입니다.

네이만-피어슨 보조정리

네이만-피어슨 보조정리(Neyman-Pearson Lemma)는 단순가설 대 단순가설($H_0: \theta = \theta_0$ vs $H_1: \theta = \theta_1$) 검정에서 가장 강력한 검정(Most Powerful Test)을 제공합니다.

정리 내용

유의수준 $\alpha$에서 다음 기각역을 갖는 검정이 가장 강력합니다:

$$\text{기각역:} \quad \frac{L(\theta_1 \mid \mathbf{x})}{L(\theta_0 \mid \mathbf{x})} \geq k$$

여기서 상수 $k$는 $P_{\theta_0}\left(\frac{L(\theta_1)}{L(\theta_0)} \geq k\right) = \alpha$를 만족하도록 결정합니다.

예제: 정규분포 평균 검정

$X_1, \ldots, X_n \sim N(\mu, 1)$에서 $H_0: \mu = 0$ vs $H_1: \mu = 1$을 검정합니다.

우도비 계산:

$$\frac{L(1)}{L(0)} = \frac{\prod e^{-(x_i-1)^2/2}}{\prod e^{-x_i^2/2}} = \exp\left(\sum x_i - \frac{n}{2}\right) = e^{n\bar{x} - n/2}$$

이것이 $k$ 이상일 조건은 $\bar{x} \geq c$ (어떤 상수 $c$)와 동치입니다.

$H_0$ 하에서 $\bar{X} \sim N(0, 1/n)$이므로:

$$P_0(\bar{X} \geq c) = \alpha \implies c = \frac{z_\alpha}{\sqrt{n}}$$

따라서 가장 강력한 검정은 $\bar{X} \geq z_\alpha / \sqrt{n}$이면 기각하는 것이며, 이는 표준적인 $z$-검정과 일치합니다.

핵심 의미: 네이만-피어슨 보조정리는 "주어진 유의수준에서 검정력을 최대화하는 검정은 우도비 검정"임을 보장합니다. 이는 최적 검정의 존재와 구성법을 제시하는 기초 정리입니다.

우도비 검정

우도비 검정(Likelihood Ratio Test, LRT)은 네이만-피어슨 보조정리를 복합가설로 확장한 일반적인 검정 방법입니다.

일반화 우도비 검정통계량

$$\Lambda = \frac{\sup_{\theta \in \Theta_0} L(\theta \mid \mathbf{x})}{\sup_{\theta \in \Theta} L(\theta \mid \mathbf{x})} = \frac{L(\hat{\theta}_0)}{L(\hat{\theta})}$$

여기서 $\hat{\theta}_0$는 $H_0$ 제약 하에서의 MLE, $\hat{\theta}$는 비제약 MLE입니다. $0 \leq \Lambda \leq 1$이며, $\Lambda$가 작을수록 $H_0$에 불리한 증거입니다.

윌크스 정리 (Wilks' Theorem)

정칙 조건 하에서 표본 크기 $n$이 충분히 크면:

$$-2\ln\Lambda \xrightarrow{d} \chi^2(r)$$

여기서 $r = \dim(\Theta) - \dim(\Theta_0)$는 $H_0$에 의해 제한되는 모수의 수입니다.

예제: 정규분포의 분산 검정

$X_1, \ldots, X_n \sim N(\mu, \sigma^2)$ ($\mu$ 미지)에서 $H_0: \sigma^2 = \sigma_0^2$ vs $H_1: \sigma^2 \neq \sigma_0^2$

풀이:

비제약 MLE: $\hat{\mu} = \bar{X}$, $\hat{\sigma}^2 = \frac{1}{n}\sum(X_i - \bar{X})^2$
제약 MLE ($\sigma^2 = \sigma_0^2$ 고정): $\hat{\mu}_0 = \bar{X}$

$$\Lambda = \left(\frac{\hat{\sigma}^2}{\sigma_0^2}\right)^{n/2} \exp\left(\frac{n}{2}\left(1 - \frac{\hat{\sigma}^2}{\sigma_0^2}\right)\right)$$

$-2\ln\Lambda \stackrel{a}{\sim} \chi^2(1)$ 또는 동치적으로 $\frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1)$을 직접 사용할 수 있습니다.

우도비 검정의 장점: 검정통계량의 정확한 분포를 모르더라도 윌크스 정리를 통해 근사적인 기각역을 구할 수 있습니다. 특히 다변량 문제나 복잡한 모형에서 유용합니다.

구간추정 심화 — 네 가지 방법 비교

같은 데이터로부터 구간추정을 수행할 때, 사용하는 방법에 따라 구간의 형태와 폭이 달라집니다. 여기서는 하나의 문제를 네 가지 방법으로 풀어봅니다.

문제 설정

어떤 공정에서 생산된 부품 $n = 16$개의 무게(g)를 측정한 결과, $\bar{x} = 50.2$, $s = 2.4$였습니다. 모평균 $\mu$의 $95\%$ 구간을 추정합니다. 정규성을 가정합니다.

방법 1: 정규분포 기반 ($\sigma$ 알려진 경우)

만약 $\sigma = 2.4$를 알고 있다고 가정하면:

$$\bar{x} \pm z_{0.025} \frac{\sigma}{\sqrt{n}} = 50.2 \pm 1.960 \times \frac{2.4}{\sqrt{16}} = 50.2 \pm 1.176$$ $$\therefore\; \mu \in [49.024,\; 51.376]$$

방법 2: $t$-분포 기반 ($\sigma$ 모르는 경우, 정확한 방법)

$$\bar{x} \pm t_{0.025}(15) \frac{s}{\sqrt{n}} = 50.2 \pm 2.131 \times \frac{2.4}{\sqrt{16}} = 50.2 \pm 1.279$$ $$\therefore\; \mu \in [48.921,\; 51.479]$$

방법 3: 부트스트랩 신뢰구간

부트스트랩(Bootstrap)은 분포를 가정하지 않고, 데이터 자체에서 반복 복원추출하여 구간을 구합니다.

원본 표본에서 복원추출로 크기 $n$인 표본을 $B$번 생성 ($B = 10000$ 등)
각 부트스트랩 표본의 평균 $\bar{x}_1^*, \bar{x}_2^*, \ldots, \bar{x}_B^*$ 계산
부트스트랩 평균들의 $2.5\%$, $97.5\%$ 백분위수를 구간의 양 끝으로 사용

백분위수 부트스트랩 구간:

$$[\bar{x}^*_{(0.025)},\; \bar{x}^*_{(0.975)}]$$

방법 4: 베이즈 신용구간

$\sigma$ 알려짐, 무정보 사전분포 $p(\mu) \propto 1$ 가정:

$$\mu \mid \mathbf{x} \sim N\left(\bar{x},\; \frac{\sigma^2}{n}\right) = N\left(50.2,\; 0.36\right)$$

$95\%$ 신용구간:

$$50.2 \pm 1.960 \times 0.6 = [49.024,\; 51.376]$$

무정보 사전분포를 사용하면 빈도주의 신뢰구간과 수치적으로 일치합니다.

비교 요약:

$z$-구간은 $\sigma$를 안다고 가정하므로 가장 좁지만, 실제로 $\sigma$를 아는 경우는 드뭅니다.
$t$-구간이 실무에서 가장 표준적이며, 소표본에서 $z$-구간보다 넓습니다.
부트스트랩은 분포 가정 없이 사용 가능하여 비정규 데이터에 유용합니다.
베이즈 신용구간은 직관적 확률 해석이 가능하며, 사전 정보를 반영할 수 있습니다.

가설검정 심화 — 같은 가설, 세 가지 검정

같은 가설을 $z$-검정, $t$-검정, 비모수 검정(윌콕슨 부호순위)으로 각각 풀어 결과를 비교합니다.

문제

한 음료 회사의 기존 캔 음료 용량은 $\mu_0 = 330$ml입니다. 소비자 불만이 접수되어 $n = 12$개를 무작위 추출하여 측정한 결과:

$325, 328, 327, 330, 326, 329, 324, 331, 328, 326, 327, 325$

$\bar{x} = 327.17$, $s = 2.17$. 용량이 부족한지($\mu < 330$) 검정합니다 ($\alpha = 0.05$).

풀이 1: $z$-검정 (모표준편차 $\sigma = 2.17$ 알려짐 가정)

$$Z = \frac{327.17 - 330}{2.17 / \sqrt{12}} = \frac{-2.83}{0.626} = -4.52$$

$z_{0.05} = -1.645$이므로 $Z = -4.52 < -1.645$. $H_0$ 기각합니다.

풀이 2: $t$-검정 ($\sigma$ 모름, 정규 가정)

$$T = \frac{327.17 - 330}{2.17 / \sqrt{12}} = -4.52$$

$t_{0.05}(11) = -1.796$이므로 $T = -4.52 < -1.796$. $H_0$ 기각합니다.

풀이 3: 윌콕슨 부호순위 검정 (비모수)

정규성을 가정하지 않으며, 분포의 대칭성만 가정합니다.

$D_i = x_i - 330$을 계산: $-5, -2, -3, 0, -4, -1, -6, 1, -2, -4, -3, -5$
$D_i = 0$인 관측값 제외 → $n' = 11$
$|D_i|$의 순위를 매기고, 양의 부호에 해당하는 순위합 $W^+ = 2$ (순위 $2$에 해당하는 $D = +1$ 하나뿐)
$n' = 11$, $\alpha = 0.05$ 단측에서 임계값 $W^+_{\text{crit}} = 14$. $W^+ = 2 < 14$이므로 $H_0$ 기각합니다.

세 검정의 비교:

세 방법 모두 같은 결론($H_0$ 기각)을 내렸습니다. 효과가 분명할 때는 방법에 관계없이 결론이 일치합니다.
$z$-검정: 가장 검정력이 높지만 $\sigma$를 알아야 하는 비현실적 가정이 필요합니다.
$t$-검정: 정규성 가정 하에서 소표본에 적합한 표준적 방법입니다.
윌콕슨: 정규성 가정이 의심될 때 안전한 대안이며, 정규분포일 때 $t$-검정 효율의 약 $95\%$를 유지합니다.

비모수 통계 심화

비모수 방법은 모집단 분포에 대한 강한 가정 없이 분석할 수 있어 실무에서 매우 유용합니다. 여기서는 핵심 비모수 검정들을 구체적 수치 예제와 함께 상세히 다룹니다.

부호 검정 (Sign Test) — 상세 풀이

문제: 다이어트 프로그램 참가자 $10$명의 전후 체중 차이(kg)가 다음과 같습니다:

$-2, -1, +3, -4, -1, 0, -2, -3, +1, -2$

프로그램이 체중 감소에 효과가 있는지($M < 0$) 검정합니다.

풀이:

$D_i = 0$인 것 제외 → $n' = 9$
양의 차이 개수: $S^+ = 2$ (값 $+3$, $+1$)
$H_0: M = 0$ 하에서 $S^+ \sim B(9, 0.5)$
$P(S^+ \leq 2) = \sum_{k=0}^{2} \binom{9}{k} 0.5^9 = \frac{1 + 9 + 36}{512} = \frac{46}{512} = 0.0898$
$p\text{-값} = 0.0898 > 0.05$이므로 $H_0$을 기각하지 못합니다.

만-휘트니 $U$ 검정 (Mann-Whitney U Test) — 상세 풀이

문제: 두 교수법 A, B의 시험 점수를 비교합니다.

A조 ($n_1 = 5$)	B조 ($n_2 = 6$)
72, 65, 81, 70, 68	85, 79, 90, 82, 88, 76

풀이:

전체 합쳐 순위를 매깁니다:

값 65 68 70 72 76 79 81 82 85 88 90

순위 1 2 3 4 5 6 7 8 9 10 11

그룹 A A A A B B A B B B B
A조 순위합: $R_A = 1+2+3+4+7 = 17$
$U_A = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_A = 30 + 15 - 17 = 28$
$U_B = n_1 n_2 - U_A = 30 - 28 = 2$
$U = \min(U_A, U_B) = 2$
$n_1 = 5$, $n_2 = 6$에서 $\alpha = 0.05$ 양측 임계값: $U_{\text{crit}} = 3$. $U = 2 \leq 3$이므로 $H_0$ 기각 — 두 그룹의 분포에 유의한 차이가 있습니다.

값	65	68	70	72	76	79	81	82	85	88	90
순위	1	2	3	4	5	6	7	8	9	10	11
그룹	A	A	A	A	B	B	A	B	B	B	B

스피어만 순위상관 (Spearman's Rank Correlation)

피어슨 상관계수의 비모수적 대안으로, 순서 관계만을 이용합니다:

$$r_s = 1 - \frac{6\sum d_i^2}{n(n^2 - 1)}$$

여기서 $d_i$는 두 변수의 순위 차이입니다. $-1 \leq r_s \leq 1$

다변량 분석

다변량 분석(Multivariate Analysis)은 여러 변수를 동시에 분석하는 통계 기법입니다. 현실의 데이터는 대부분 여러 변수로 구성되어 있으므로, 이들 간의 관계를 종합적으로 파악하는 것이 중요합니다.

주성분분석 (PCA: Principal Component Analysis)

PCA는 고차원 데이터를 분산을 최대한 보존하면서 저차원으로 축소하는 방법입니다.

핵심 아이디어

$p$개의 변수를 가진 데이터에서, 서로 직교하는 새로운 축(주성분)을 찾아 데이터의 변동을 최대한 설명합니다.

공분산 행렬 $\boldsymbol{\Sigma}$를 구합니다 (또는 상관행렬 $\mathbf{R}$).
$\boldsymbol{\Sigma}$의 고유값 $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$과 고유벡터 $\mathbf{e}_1, \ldots, \mathbf{e}_p$를 구합니다.
제$k$주성분: $Y_k = \mathbf{e}_k^T \mathbf{X}$
제$k$주성분이 설명하는 분산의 비율: $\frac{\lambda_k}{\sum_{j=1}^p \lambda_j}$

주성분의 수 결정 기준:

누적 분산 비율: $\frac{\sum_{k=1}^m \lambda_k}{\sum_{j=1}^p \lambda_j} \geq 0.8 \sim 0.9$이 되는 $m$을 선택
카이저 기준: $\lambda_k \geq 1$ (상관행렬 사용 시)인 주성분만 선택
스크리 도표: 고유값을 크기순으로 그래프를 그려 "팔꿈치(elbow)" 지점 이전까지 선택

판별분석 (Discriminant Analysis)

판별분석(LDA: Linear Discriminant Analysis)은 그룹 간 차이를 최대화하는 선형 조합을 찾아 분류하는 방법입니다.

피셔의 선형 판별

두 그룹의 평균 벡터 $\boldsymbol{\mu}_1, \boldsymbol{\mu}_2$와 공통 공분산 행렬 $\boldsymbol{\Sigma}$가 주어졌을 때:

$$\mathbf{a} = \boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_1 - \boldsymbol{\mu}_2)$$

이 방향으로 사영하면 두 그룹이 최대로 분리됩니다. 판별 점수는:

$$D(\mathbf{x}) = \mathbf{a}^T \mathbf{x}$$

판별 규칙:

$$\text{그룹 1로 분류} \iff D(\mathbf{x}) \geq \frac{D(\boldsymbol{\mu}_1) + D(\boldsymbol{\mu}_2)}{2}$$

PCA vs LDA:

PCA는 비지도 학습으로, 전체 데이터의 분산을 최대화합니다. 그룹 정보를 사용하지 않습니다.
LDA는 지도 학습으로, 그룹 간 분산은 최대화하고 그룹 내 분산은 최소화합니다.

시계열 분석 기초

시계열(Time Series)은 시간 순서대로 관측된 데이터입니다. 주가, 기온, GDP 등이 대표적인 시계열 데이터입니다. 시계열 분석의 목표는 과거 패턴을 파악하여 미래를 예측하는 것입니다.

시계열의 구성 요소

구성 요소	설명	예시
추세(Trend)	장기적인 증가/감소 방향	인구의 지속적 증가
계절성(Seasonality)	일정 주기로 반복되는 패턴	여름마다 증가하는 아이스크림 판매
순환(Cycle)	비정기적 장기 변동	경기 순환 (호황→불황)
불규칙(Irregular)	예측 불가능한 무작위 변동	예상치 못한 사건

정상성 (Stationarity)

시계열 모형의 핵심 가정은 정상성입니다. 정상 시계열은 시간에 따라 통계적 성질이 변하지 않습니다:

$E(X_t) = \mu$ (평균이 일정)
$\text{Var}(X_t) = \sigma^2$ (분산이 일정)
$\text{Cov}(X_t, X_{t+h}) = \gamma(h)$ (공분산이 시차 $h$에만 의존)

비정상 시계열을 그대로 분석하면? 추세나 분산이 변하는 비정상 시계열에 AR/MA 모형을 바로 적용하면 가성 회귀(Spurious Regression) 등의 문제가 발생합니다. 반드시 차분(Differencing)이나 변환을 통해 정상화한 후 모형을 적합해야 합니다.

자기상관함수 (ACF)와 편자기상관함수 (PACF)

자기상관함수(ACF)는 시차 $h$에서의 상관관계를 측정합니다:

$$\rho(h) = \frac{\gamma(h)}{\gamma(0)} = \frac{\text{Cov}(X_t, X_{t+h})}{\text{Var}(X_t)}$$

편자기상관함수(PACF)는 중간 시차의 영향을 제거한 순수한 상관관계입니다.

모형	ACF 패턴	PACF 패턴
AR($p$)	지수적/진동적 감소	시차 $p$ 이후 절단
MA($q$)	시차 $q$ 이후 절단	지수적/진동적 감소
ARMA($p,q$)	지수적/진동적 감소	지수적/진동적 감소

AR 모형 (자기회귀 모형)

AR($p$) 모형은 현재 값을 과거 $p$개 값의 선형 결합으로 표현합니다:

$$X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \cdots + \phi_p X_{t-p} + \varepsilon_t$$

여기서 $\varepsilon_t \sim \text{WN}(0, \sigma^2)$ (백색잡음). AR(1)의 정상성 조건: $|\phi_1| < 1$

MA 모형 (이동평균 모형)

MA($q$) 모형은 현재 값을 현재와 과거 $q$개 오차의 선형 결합으로 표현합니다:

$$X_t = \mu + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} + \cdots + \theta_q \varepsilon_{t-q}$$

MA 모형은 항상 정상입니다.

ARIMA 모형

ARIMA($p, d, q$)는 비정상 시계열에 $d$번 차분을 적용하여 정상화한 뒤 ARMA($p, q$)를 적합하는 모형입니다:

$p$: 자기회귀 차수
$d$: 차분 차수 (보통 $0, 1, 2$)
$q$: 이동평균 차수

1차 차분: $\nabla X_t = X_t - X_{t-1}$, 2차 차분: $\nabla^2 X_t = \nabla X_t - \nabla X_{t-1}$

Box-Jenkins 방법론: ARIMA 모형의 표준적인 구축 절차입니다.

식별: ACF/PACF 분석으로 $(p, d, q)$ 결정
추정: MLE 또는 최소제곱법으로 모수 추정
진단: 잔차의 백색잡음 여부 확인 (Ljung-Box 검정)
예측: 적합된 모형으로 미래 값 예측

베이즈 통계 심화

앞서 기초를 다루었으므로, 여기서는 켤레 사전분포의 구체적 유도, 사전분포의 선택, 그리고 MCMC를 심도 있게 다룹니다.

켤레 사전분포의 상세 유도: 베르누이-베타

동전 던지기를 $n$번 하여 앞면이 $k$번 나왔을 때 앞면 확률 $p$를 추정합니다.

우도:

$$f(k \mid p) = \binom{n}{k} p^k (1-p)^{n-k}$$

사전분포 — 베타분포: $p \sim \text{Beta}(\alpha, \beta)$

$$\pi(p) = \frac{p^{\alpha-1}(1-p)^{\beta-1}}{B(\alpha, \beta)}, \quad 0 \leq p \leq 1$$

사후분포 유도:

$$p(p \mid k) \propto p^k (1-p)^{n-k} \cdot p^{\alpha-1}(1-p)^{\beta-1} = p^{(\alpha+k)-1}(1-p)^{(\beta+n-k)-1}$$ $$\therefore \; p \mid k \sim \text{Beta}(\alpha + k,\; \beta + n - k)$$

구체적 수치 예제: 동전을 $n = 20$번 던져 앞면이 $k = 14$번 나왔습니다.

사전분포	$\alpha, \beta$	사후분포	사후 평균 $\hat{p}$
무정보 (균등)	$1, 1$	$\text{Beta}(15, 7)$	$\frac{15}{22} = 0.682$
약한 정보	$2, 2$	$\text{Beta}(16, 8)$	$\frac{16}{24} = 0.667$
공정 동전 확신	$50, 50$	$\text{Beta}(64, 56)$	$\frac{64}{120} = 0.533$

사전분포의 영향: 세 번째 경우처럼 "공정 동전"이라는 강한 사전 확신이 있으면, 데이터($14/20 = 0.7$)가 있어도 사후 평균은 $0.533$으로 끌려갑니다. 사전분포의 강도(모수 $\alpha + \beta$의 크기)는 가상의 사전 관측 수로 해석할 수 있습니다. $\alpha + \beta = 100$이면 마치 사전에 $100$번의 관측을 이미 한 것과 같은 효과입니다.

제프리스 사전분포 (Jeffreys Prior)

무정보 사전분포의 원칙적 선택 방법으로, 피셔 정보량에 기반합니다:

$$\pi(\theta) \propto \sqrt{I(\theta)} = \sqrt{-E\left[\frac{\partial^2 \ln f(X|\theta)}{\partial \theta^2}\right]}$$

이 사전분포는 모수의 재매개변수화에 대해 불변(invariant)입니다.

$\text{Bernoulli}(p)$: $\pi(p) \propto p^{-1/2}(1-p)^{-1/2}$ → $\text{Beta}(1/2, 1/2)$
$N(\mu, \sigma^2)$ ($\sigma^2$ 알려짐): $\pi(\mu) \propto 1$ (균등분포)
$\text{Poisson}(\lambda)$: $\pi(\lambda) \propto \lambda^{-1/2}$

마르코프 연쇄 몬테카를로 (MCMC)

사후분포가 닫힌 형태로 구해지지 않을 때, 사후분포로부터 표본을 추출하여 근사하는 방법입니다.

메트로폴리스-해스팅스 알고리즘

목표 분포 $p(\theta \mid \mathbf{x})$로부터 표본을 생성합니다:

초기값 $\theta^{(0)}$ 설정
$t = 1, 2, \ldots$에 대해 반복:
- 제안분포 $q(\theta^* \mid \theta^{(t-1)})$에서 후보 $\theta^*$ 생성
- 수용 확률 계산: $\alpha = \min\left(1,\; \frac{p(\theta^* \mid \mathbf{x})\, q(\theta^{(t-1)} \mid \theta^*)}{p(\theta^{(t-1)} \mid \mathbf{x})\, q(\theta^* \mid \theta^{(t-1)})}\right)$
- $U \sim \text{Uniform}(0, 1)$에서 $U \leq \alpha$이면 $\theta^{(t)} = \theta^*$ (수용), 아니면 $\theta^{(t)} = \theta^{(t-1)}$ (기각)
충분히 많은 반복 후 (번인 기간 제거), $\{\theta^{(t)}\}$가 사후분포의 표본이 됩니다.

깁스 샘플링 (Gibbs Sampling)

다차원 모수 $\boldsymbol{\theta} = (\theta_1, \theta_2, \ldots, \theta_d)$에서 각 성분을 조건부 분포에서 순차적으로 추출합니다:

$\theta_1^{(t)} \sim p(\theta_1 \mid \theta_2^{(t-1)}, \ldots, \theta_d^{(t-1)}, \mathbf{x})$
$\theta_2^{(t)} \sim p(\theta_2 \mid \theta_1^{(t)}, \theta_3^{(t-1)}, \ldots, \theta_d^{(t-1)}, \mathbf{x})$
$\vdots$
$\theta_d^{(t)} \sim p(\theta_d \mid \theta_1^{(t)}, \ldots, \theta_{d-1}^{(t)}, \mathbf{x})$

조건부 분포가 표준적인 형태이면 메트로폴리스-해스팅스보다 효율적입니다.

MCMC 수렴 진단:

트레이스 플롯(Trace Plot): 체인이 특정 범위를 안정적으로 탐색하는지 시각적 확인
겔만-루빈 진단($\hat{R}$): 여러 체인을 실행하여 $\hat{R} < 1.1$이면 수렴으로 판단
유효 표본 크기(ESS): 자기상관을 고려한 실질적 독립 표본 수

베이즈 모형 비교

두 모형 $M_1, M_2$의 상대적 적합도를 베이즈 인자(Bayes Factor)로 비교합니다:

$$BF_{12} = \frac{P(\mathbf{x} \mid M_1)}{P(\mathbf{x} \mid M_2)} = \frac{\int L(\theta_1 \mid \mathbf{x})\, \pi(\theta_1 \mid M_1)\, d\theta_1}{\int L(\theta_2 \mid \mathbf{x})\, \pi(\theta_2 \mid M_2)\, d\theta_2}$$

$BF_{12}$	$M_1$에 대한 증거
$1 \sim 3$	약한 증거
$3 \sim 20$	긍정적 증거
$20 \sim 150$	강한 증거
$> 150$	매우 강한 증거

통계적 방법론 종합 비교

아래 표는 빈도주의, 우도주의, 베이즈주의의 세 가지 통계적 패러다임을 비교합니다.

항목	빈도주의	우도주의	베이즈주의
모수의 성격	고정된 미지의 상수	고정된 미지의 상수	확률변수
추론의 기반	표본분포 (반복 실험)	우도함수	사후분포
사전 정보	사용하지 않음	사용하지 않음	사전분포로 반영
구간추정	신뢰구간 (절차적 확률)	우도구간	신용구간 (직접적 확률)
가설검정	$p$-값, 기각역	우도비	베이즈 인자, 사후확률
장점	객관적, 사전 정보 불필요	우도원리 충실	직관적 해석, 사전 정보 활용
단점	해석이 반직관적	구간추정이 제한적	사전분포 선택의 주관성

수렴의 원리: 표본 크기가 충분히 클 때, 세 패러다임의 결론은 대부분 일치합니다. 사전분포의 영향은 데이터가 많아질수록 사라지며, MLE는 베이즈 추정량의 극한과 같아집니다. 방법의 차이는 소표본이나 복잡한 모형에서 두드러집니다.

연습문제

문제 1. 다음 데이터의 평균, 분산, 표준편차를 구하십시오. $$5, \quad 7, \quad 9, \quad 11, \quad 13$$

정답 보기

정답:

평균: $\bar{x} = \frac{5+7+9+11+13}{5} = \frac{45}{5} = 9$

분산:

$$s^2 = \frac{(5-9)^2 + (7-9)^2 + (9-9)^2 + (11-9)^2 + (13-9)^2}{5} = \frac{16+4+0+4+16}{5} = \frac{40}{5} = 8$$

표준편차: $s = \sqrt{8} \approx 2.83$

문제 2. 어떤 시험 점수가 정규분포 $N(70, 10^2)$ 를 따른다. 다음 확률을 구하십시오.

80 점 이상일 확률
60 점에서 80 점 사이일 확률

(단, $P(0 \leq Z \leq 1) = 0.3413$)

정답 보기

정답:

표준화: $Z = \frac{X - \mu}{\sigma} = \frac{X - 70}{10}$

(1) 80 점 이상: $Z = \frac{80-70}{10} = 1$

$$P(X \geq 80) = P(Z \geq 1) = 0.5 - 0.3413 = 0.1587$$

(2) 60 점~80 점: $Z_1 = \frac{60-70}{10} = -1$, $Z_2 = 1$

$$P(60 \leq X \leq 80) = P(-1 \leq Z \leq 1) = 2 \times 0.3413 = 0.6826$$

약 68.26% (68-95-99.7 법칙에서 68% 에 해당)

문제 3. 100 명의 학생을 대상으로 한 시험에서 표본평균이 75 점, 표본표준편차가 12 점이었다. 모평균에 대한 95% 신뢰구간을 구하십시오. (단, $z_{0.025} = 1.96$)

정답 보기

정답:

신뢰구간 공식: $\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}}$

$$75 \pm 1.96 \cdot \frac{12}{\sqrt{100}} = 75 \pm 1.96 \cdot 1.2 = 75 \pm 2.352$$

신뢰구간: $[72.648, 77.352]$

해석: 모평균이 72.65 점에서 77.35 점 사이에 있을 확률이 95% 이다.

문제 4. 동전이 공정하다는 가설 $H_0: p = 0.5$ 를 검정하기 위해 동전을 100 번 던졌더니 앞면이 60 번 나왔다. 유의수준 5% 에서 귀무가설을 기각할 수 있는가? (단, $z_{0.025} = 1.96$)

정답 보기

정답:

1 단계 — 가설 설정:

$H_0: p = 0.5$ (동전은 공정하다)
$H_1: p \neq 0.5$ (동전은 공정하지 않다)

2 단계 — 검정통계량 계산:

$$\hat{p} = \frac{60}{100} = 0.6, \quad z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} = \frac{0.6 - 0.5}{\sqrt{\frac{0.5 \times 0.5}{100}}} = \frac{0.1}{0.05} = 2$$

3 단계 — 기각역 비교:

$|z| = 2 > 1.96$ 이므로 귀무가설을 기각한다.

결론: 유의수준 5% 에서 동전은 공정하지 않다고 할 수 있다.

문제 5. 다음 표는 공부 시간 ($x$, 시간/주) 과 시험 점수 ($y$) 의 관계이다.

$x$	2	4	6	8	10
$y$	50	60	70	80	90

단순선형회귀모형 $y = \beta_0 + \beta_1 x + \varepsilon$ 에서 최소제곱추정량 $\hat{\beta_0}$, $\hat{\beta_1}$ 을 구하십시오.

정답 보기

정답:

1 단계 — 평균 계산:

$$\bar{x} = \frac{2+4+6+8+10}{5} = 6, \quad \bar{y} = \frac{50+60+70+80+90}{5} = 70$$

2 단계 — $\hat{\beta_1}$ 계산:

$$\hat{\beta_1} = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sum(x_i - \bar{x})^2} = \frac{(-4)(-20) + (-2)(-10) + 0 + 2(10) + 4(20)}{(-4)^2 + (-2)^2 + 0 + 2^2 + 4^2} = \frac{80+20+0+20+80}{16+4+0+4+16} = \frac{200}{40} = 5$$

3 단계 — $\hat{\beta_0}$ 계산:

$$\hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x} = 70 - 5 \times 6 = 70 - 30 = 40$$

회귀직선: $\hat{y} = 40 + 5x$

해석: 공부 시간을 1 시간 늘릴 때마다 시험 점수가 5 점 상승한다.

참고자료

Wackerly, D. et al. — Mathematical Statistics with Applications, Cengage
Casella, G. & Berger, R. L. — Statistical Inference, Cengage
Hogg, R. V. et al. — Introduction to Mathematical Statistics, Pearson
Gelman, A. et al. — Bayesian Data Analysis, CRC Press
확률론 — 통계학의 수학적 기초
선형대수학 — 회귀분석의 행렬 표현