확률론 (Probability Theory)

확률론은 불확실한 현상을 수학적으로 분석하는 분야입니다. 콜모고로프(Kolmogorov)가 1933년에 측도론에 기반한 공리적 체계를 확립하였으며, 현대 통계학, 기계학습, 금융공학, 물리학 등 다양한 분야의 수학적 기반을 이루고 있습니다.

동전을 던지면 앞면이 나올까, 뒷면이 나올까? 주사위에서 6이 나올 가능성은? 확률은 이런 '불확실한 일'이 일어날 가능성을 숫자로 표현하는 방법입니다.

확률이란 무엇입니까?

일상에서 우리는 끊임없이 확률적 판단을 합니다. "오늘 비가 올 것 같다", "이번 시험은 쉬울 것 같다"처럼 말입니다. 확률론은 이러한 불확실성을 0과 1 사이의 숫자로 정밀하게 표현하는 학문입니다.

  • 확률 0: 절대로 일어나지 않는 사건 (예: 주사위에서 7이 나오는 것)
  • 확률 1: 반드시 일어나는 사건 (예: 주사위에서 1~6 중 하나가 나오는 것)
  • 확률 0.5: 반반의 가능성 (예: 공정한 동전의 앞면)

가장 직관적인 이해 방식은 이렇습니다. 동전을 100번 던지면 앞면이 대략 50번 나옵니다. 1000번 던지면 더 정확하게 500번에 가까워집니다. 이처럼 같은 실험을 무한히 반복했을 때 특정 결과가 나오는 비율이 바로 확률입니다.

이런 곳에 쓰여요

  • 게임 가챠: 5성 캐릭터 뽑을 확률 0.6%일 때 100번 안에 뽑을 확률 계산
  • 보험: 사고 확률과 손해액으로 적정 보험료를 산출
  • 의학: 코로나 검사 양성일 때 실제로 감염일 확률(베이즈 정리)
  • 날씨 예보: "비 올 확률 70%"가 실제로 의미하는 것

선수 지식: 수와 연산, 조합론

난이도: ★★★☆☆ (고등학교 심화)

표본공간과 사건

표본공간(Sample Space) $\Omega$는 실험에서 가능한 모든 결과의 집합입니다.

사건(Event)은 표본공간의 부분집합입니다.

비유로 이해하기: 표본공간은 "일어날 수 있는 모든 가능성이 적힌 메뉴판"이라고 생각하면 됩니다. 주사위를 던지는 실험에서 메뉴판에는 1, 2, 3, 4, 5, 6이 적혀 있습니다. 여기서 "짝수가 나온다"라는 사건은 메뉴판에서 {2, 4, 6}을 선택하는 것과 같습니다. 즉, 사건은 "우리가 관심 있는 결과들의 모음"입니다.

예시

실험표본공간 $\Omega$
동전 1회 던지기$\{H, T\}$
주사위 1회 던지기$\{1, 2, 3, 4, 5, 6\}$
동전 2회 던지기$\{HH, HT, TH, TT\}$
양의 정수 중 하나 선택$\{1, 2, 3, \ldots\}$ (가산 무한)
전구의 수명 측정$[0, \infty)$ (비가산 무한)
표본공간 S = {1, 2, 3, 4, 5, 6} 사건 A (짝수) 사건 B (3 초과) 1 2 3 4 5 6 A = {2, 4, 6} B = {4, 5, 6} A∩B = {4, 6}

사건의 연산

확률 공간의 엄밀한 정의

확률 공간은 세 쌍 $(\Omega, \mathcal{F}, P)$로 정의됩니다.

심화 내용: 시그마 대수는 확률을 수학적으로 엄밀하게 정의하기 위한 도구입니다. 고등학교 과정에서는 "사건은 표본공간의 부분집합"이라는 이해로 충분합니다. 대학 수학을 준비하는 학생은 읽어 보십시오.

시그마 대수 ($\sigma$-algebra)

표본공간 $\Omega$ 위의 시그마 대수 $\mathcal{F}$는 $\Omega$의 부분집합들의 모임으로 다음 조건을 만족합니다.

  1. $\Omega \in \mathcal{F}$
  2. $A \in \mathcal{F}$이면 $A^c \in \mathcal{F}$ (여집합에 대해 닫혀 있음)
  3. $A_1, A_2, \ldots \in \mathcal{F}$이면 $\bigcup_{i=1}^{\infty} A_i \in \mathcal{F}$ (가산 합집합에 대해 닫혀 있음)
직관: 시그마 대수는 "확률을 부여할 수 있는 사건들의 모임"입니다. 유한 표본공간에서는 모든 부분집합의 모임 $2^\Omega$를 사용하면 되지만, 연속 표본공간(예: $\mathbb{R}$)에서는 모든 부분집합에 확률을 일관되게 부여할 수 없으므로 보렐 시그마 대수 $\mathcal{B}(\mathbb{R})$를 사용합니다.

확률 측도 (Probability Measure)

확률 측도 $P: \mathcal{F} \to [0, 1]$는 다음을 만족하는 함수입니다.

  1. 비음성: 모든 $A \in \mathcal{F}$에 대하여 $P(A) \geq 0$
  2. 정규성: $P(\Omega) = 1$
  3. 가산 가법성: 서로 배반인 사건 $A_1, A_2, \ldots \in \mathcal{F}$에 대하여 $$P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$$

예시: 주사위의 확률 공간

확률의 공리와 기본 성질

왜 공리가 필요합니까?

"확률은 그냥 경우의 수를 세면 되지 않습니까?"라고 물을 수 있습니다. 동전이나 주사위처럼 간단한 경우에는 그렇습니다. 하지만 "내일 비가 올 확률", "주식이 오를 확률"처럼 경우의 수를 셀 수 없는 상황에서도 확률을 일관되게 다루려면 모든 확률이 지켜야 할 기본 규칙이 필요합니다. 이 규칙이 바로 콜모고로프 공리입니다.

비유하자면, 콜모고로프 공리는 "확률이라는 게임의 규칙서"입니다. 이 규칙서만 지키면 어떤 복잡한 상황에서도 논리적 모순 없이 확률을 계산할 수 있습니다.

콜모고로프 공리에 의하면 확률 함수 $P$는 다음을 만족합니다.

  1. 비음성: 모든 사건 $A$에 대하여 $P(A) \geq 0$
  2. 정규성: $P(\Omega) = 1$
  3. 가산 가법성: 서로 배반인 사건 $A_1, A_2, \ldots$에 대하여 $P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$

기본 성질

포함-배제 원리 일반화

$$P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i} P(A_i) - \sum_{i < j} P(A_i \cap A_j) + \sum_{i < j < k} P(A_i \cap A_j \cap A_k) - \cdots + (-1)^{n+1} P(A_1 \cap \cdots \cap A_n)$$

확률의 연속성

$A_1 \subseteq A_2 \subseteq \cdots$ (단조 증가)이면:

$$P\left(\bigcup_{i=1}^{\infty} A_i\right) = \lim_{n \to \infty} P(A_n)$$

$B_1 \supseteq B_2 \supseteq \cdots$ (단조 감소)이면:

$$P\left(\bigcap_{i=1}^{\infty} B_i\right) = \lim_{n \to \infty} P(B_n)$$
참고: 고전적 확률에서 표본공간이 유한하고 각 결과가 동일한 확률을 가지면 $P(A) = \frac{|A|}{|\Omega|}$입니다.

조건부 확률과 베이즈 정리

조건부 확률

실생활 예시: 비와 우산

"우산을 가져올 확률"과 "비가 오는 날에 우산을 가져올 확률"은 다릅니다. 평소에 우산을 가져올 확률이 30%라 하더라도, 아침에 하늘이 흐리면 우산을 챙길 확률은 80%로 높아질 것입니다. 이처럼 어떤 정보(조건)가 주어졌을 때 확률이 바뀌는 것을 조건부 확률이라 합니다.

$P(\text{우산} \mid \text{흐림})$은 "하늘이 흐린 날이라는 조건 하에서 우산을 가져올 확률"을 의미합니다. 세로선 "$\mid$"은 "~라는 조건 하에서"로 읽습니다.

사건 $B$가 주어졌을 때 사건 $A$의 조건부 확률(Conditional Probability):

$$P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad P(B) > 0$$

곱셈 법칙

조건부 확률의 정의로부터 직접 유도됩니다.

$$P(A \cap B) = P(A \mid B) \cdot P(B) = P(B \mid A) \cdot P(A)$$

일반화하면:

$$P(A_1 \cap A_2 \cap \cdots \cap A_n) = P(A_1) \cdot P(A_2 \mid A_1) \cdot P(A_3 \mid A_1 \cap A_2) \cdots P(A_n \mid A_1 \cap \cdots \cap A_{n-1})$$

전확률의 법칙

$B_1, B_2, \ldots, B_n$이 표본공간의 분할이면:

$$P(A) = \sum_{i=1}^{n} P(A \mid B_i) P(B_i)$$

베이즈 정리

$$\boxed{P(B_k \mid A) = \frac{P(A \mid B_k) P(B_k)}{\sum_{i=1}^{n} P(A \mid B_i) P(B_i)}}$$
핵심: 베이즈 정리는 새로운 증거(사건 $A$)가 관찰되었을 때, 원인(사건 $B_k$)의 확률을 갱신하는 방법을 제공합니다. 여기서 $P(B_k)$를 사전 확률(prior), $P(B_k \mid A)$를 사후 확률(posterior), $P(A \mid B_k)$를 우도(likelihood)라 합니다.
베이즈 정리를 일상 언어로:

베이즈 정리의 핵심 아이디어는 이렇습니다. 어떤 사건에 대한 "처음 믿음"(사전 확률)이 있을 때, 새로운 증거를 관찰하면 그 믿음을 갱신할 수 있습니다.

예를 들어, 친구가 오늘 지각했습니다(증거). 왜 지각했을까요? (1) 늦잠을 잤을 수도 있고 (2) 교통사고가 났을 수도 있습니다. 평소에 늦잠잘 확률은 30%, 교통사고를 겪을 확률은 0.1%라면, 지각이라는 증거를 보고 "아마 늦잠이겠지"라고 판단하는 것이 베이즈적 추론입니다.

$$\text{사후 확률} \propto \text{우도} \times \text{사전 확률}$$

실생활 응용: 질병 검사 예제

전체 0.001 0.999 질병 있음 질병 없음 0.99 0.01 0.05 0.95 양성 음성 양성 음성 0.00099 0.00001 0.04995 0.94905 1단계: 질병 여부 2단계: 검사 결과

어떤 질병의 유병률이 0.1% (1000명 중 1명)이고, 검사의 성능이 다음과 같다고 하자.

문제: 양성 판정을 받았을 때, 실제로 질병이 있을 확률은?

풀이: 베이즈 정리를 적용합니다.

$$P(\text{질병} \mid \text{양성}) = \frac{P(\text{양성} \mid \text{질병}) \cdot P(\text{질병})}{P(\text{양성})}$$

전확률의 법칙으로 분모를 계산합니다.

$$P(\text{양성}) = P(\text{양성} \mid \text{질병}) \cdot P(\text{질병}) + P(\text{양성} \mid \text{정상}) \cdot P(\text{정상})$$ $$= 0.99 \times 0.001 + 0.05 \times 0.999 = 0.00099 + 0.04995 = 0.05094$$

따라서:

$$P(\text{질병} \mid \text{양성}) = \frac{0.99 \times 0.001}{0.05094} \approx 0.0194 \approx 1.94\%$$
주목할 점: 검사 정확도가 99%/95%로 매우 높음에도 불구하고, 양성 판정 시 실제 질병일 확률은 약 2%에 불과합니다. 이는 유병률(사전 확률)이 매우 낮기 때문입니다. 이를 위양성의 역설(False Positive Paradox)이라 합니다.
10만 명으로 직관적 이해하기:

수식이 어렵게 느껴진다면, 구체적인 인원수로 생각해 보십시오.

  • 10만 명 중 실제 환자: 100명 (0.1%)
  • 100명의 환자 중 양성 판정: 99명 (민감도 99%)
  • 99,900명의 정상인 중 양성 판정: 4,995명 (위양성률 5%)
  • 양성 판정 받은 총 인원: 99 + 4,995 = 5,094명
  • 이 중 실제 환자: 99명

따라서 양성 판정자 중 실제 환자 비율 = $\frac{99}{5{,}094} \approx 1.94\%$입니다. 정상인이 압도적으로 많기 때문에, 소수의 위양성이라도 실제 환자보다 훨씬 많아지는 것입니다.

독립성

사건의 독립

독립이란?

하나의 사건이 일어나든 일어나지 않든, 다른 사건의 확률에 전혀 영향을 주지 않으면 두 사건은 독립입니다.

  • 독립의 예: 동전을 두 번 던질 때, 첫 번째 결과와 두 번째 결과는 독립입니다. 첫 번째에 앞면이 나왔다고 해서 두 번째에 뒷면이 나올 확률이 높아지지 않습니다.
  • 종속의 예: 카드 한 벌에서 카드를 한 장 뽑고 돌려놓지 않은 채 두 번째를 뽑으면, 첫 번째 결과가 두 번째 확률에 영향을 줍니다. 이 경우 두 사건은 종속입니다.

두 사건 $A$, $B$가 독립(Independent)이란:

$$P(A \cap B) = P(A) \cdot P(B)$$

이는 $P(A \mid B) = P(A)$와 동치입니다 (단, $P(B) > 0$). 즉, $B$가 일어났다는 정보가 $A$의 확률을 바꾸지 않습니다.

세 사건의 상호 독립

$A$, $B$, $C$가 상호 독립(Mutually Independent)이려면 다음 네 조건을 모두 만족해야 합니다.

주의: 쌍별 독립(pairwise independence)이 상호 독립을 보장하지 않습니다. 네 번째 조건이 추가로 필요합니다.

확률변수의 독립

확률변수 $X$와 $Y$가 독립이란, 모든 실수 $x$, $y$에 대하여:

$$P(X \leq x, Y \leq y) = P(X \leq x) \cdot P(Y \leq y)$$

즉 결합 누적분포함수가 주변 누적분포함수의 곱과 같습니다:

$$F_{X,Y}(x, y) = F_X(x) \cdot F_Y(y)$$

확률변수와 확률분포

확률변수란 무엇입니까?

확률변수는 이름에 "변수"가 들어 있지만, 사실은 실험 결과를 숫자로 바꿔주는 규칙(함수)입니다.

예를 들어 주사위를 두 개 던지는 실험을 생각해 보십시오. 표본공간은 (1,1), (1,2), ..., (6,6)으로 36가지입니다. 여기서 "두 눈의 합"이라는 규칙을 정하면, 각 결과가 2부터 12까지의 숫자에 대응됩니다. 이 규칙이 바로 확률변수 $X$입니다.

  • 이산 확률변수: 가능한 값이 띄엄띄엄 있는 경우입니다. 주사위 눈의 합(2, 3, 4, ..., 12)처럼 셀 수 있습니다.
  • 연속 확률변수: 가능한 값이 연속적인 구간을 채우는 경우입니다. 사람의 키(160.0cm, 160.1cm, 160.15cm, ...)처럼 어떤 실수값이든 가능합니다.

확률변수(Random Variable) $X$는 표본공간에서 실수로의 가측함수 $X: \Omega \to \mathbb{R}$입니다. 엄밀하게는, 모든 보렐 집합 $B \in \mathcal{B}(\mathbb{R})$에 대해 $X^{-1}(B) = \{\omega \in \Omega : X(\omega) \in B\} \in \mathcal{F}$를 만족합니다.

누적분포함수 (CDF)

확률변수 $X$의 누적분포함수(Cumulative Distribution Function):

$$F_X(x) = P(X \leq x), \quad x \in \mathbb{R}$$

CDF의 성질:

이산 확률변수

가능한 값이 셀 수 있는 확률변수입니다. 확률질량함수(PMF): $p(x) = P(X = x)$

연속 확률변수

가능한 값이 연속인 확률변수입니다. 확률밀도함수(PDF) $f(x)$:

$$P(a \leq X \leq b) = \int_a^b f(x)\,dx, \quad f(x) \geq 0, \quad \int_{-\infty}^{\infty} f(x)\,dx = 1$$

연속 확률변수에서 $P(X = x) = 0$임에 유의하십시오. 확률은 구간에 대해서만 의미를 가집니다.

이산 확률분포

각 분포는 어떤 상황에서 나타납니까?
  • 베르누이: 성공/실패 두 가지 결과만 있는 한 번의 시행 (예: 동전 한 번 던지기)
  • 이항: 베르누이 시행을 $n$번 반복했을 때 성공 횟수 (예: 자유투 10번 중 성공 횟수)
  • 기하: 처음 성공할 때까지 시행 횟수 (예: 가챠에서 SSR을 처음 뽑기까지 몇 번?)
  • 포아송: 단위 시간/공간에서 드문 사건의 발생 횟수 (예: 1시간 동안 콜센터에 걸려오는 전화 수)
  • 초기하: 비복원 추출에서의 성공 횟수 (예: 불량품 3개가 섞인 100개 제품에서 5개를 뽑았을 때 불량품 수)
분포PMF $P(X = k)$기댓값분산
베르누이
$\text{Bern}(p)$
$p^k(1-p)^{1-k}$, $k \in \{0, 1\}$ $p$ $p(1-p)$
이항
$\text{Bin}(n, p)$
$\binom{n}{k} p^k (1-p)^{n-k}$, $k = 0, 1, \ldots, n$ $np$ $np(1-p)$
기하
$\text{Geo}(p)$
$(1-p)^{k-1}p$, $k = 1, 2, \ldots$ $\dfrac{1}{p}$ $\dfrac{1-p}{p^2}$
음이항
$\text{NB}(r, p)$
$\binom{k-1}{r-1} p^r (1-p)^{k-r}$, $k = r, r+1, \ldots$ $\dfrac{r}{p}$ $\dfrac{r(1-p)}{p^2}$
포아송
$\text{Poi}(\lambda)$
$\dfrac{e^{-\lambda} \lambda^k}{k!}$, $k = 0, 1, 2, \ldots$ $\lambda$ $\lambda$
초기하
$\text{HG}(N, K, n)$
$\dfrac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}$ $\dfrac{nK}{N}$ $n\dfrac{K}{N}\dfrac{N-K}{N}\dfrac{N-n}{N-1}$
분포 간 관계:
  • 베르누이는 $n=1$인 이항분포의 특수한 경우입니다.
  • 기하분포는 $r=1$인 음이항분포의 특수한 경우입니다.
  • $n$이 크고 $p$가 작을 때, 이항분포 $\text{Bin}(n, p) \approx \text{Poi}(np)$로 근사합니다.
  • $N \to \infty$, $K/N \to p$일 때, 초기하분포는 이항분포에 수렴합니다.

포아송 분포의 유도

이항분포에서 $n \to \infty$, $p \to 0$, $np = \lambda$ (일정)일 때:

$$\binom{n}{k} p^k (1-p)^{n-k} \to \frac{e^{-\lambda} \lambda^k}{k!}$$

증명 개요:

$$\binom{n}{k} \left(\frac{\lambda}{n}\right)^k \left(1 - \frac{\lambda}{n}\right)^{n-k} = \frac{n!}{k!(n-k)!} \cdot \frac{\lambda^k}{n^k} \cdot \left(1 - \frac{\lambda}{n}\right)^n \cdot \left(1 - \frac{\lambda}{n}\right)^{-k}$$

$n \to \infty$일 때 $\frac{n!}{(n-k)! n^k} \to 1$, $\left(1 - \frac{\lambda}{n}\right)^n \to e^{-\lambda}$, $\left(1 - \frac{\lambda}{n}\right)^{-k} \to 1$이므로 극한값은 $\frac{e^{-\lambda} \lambda^k}{k!}$입니다.

연속 확률분포

연속 분포는 어떤 상황에서 나타납니까?
  • 균등분포: 모든 값이 동일한 가능성으로 나타나는 경우 (예: 원판을 돌려 멈추는 위치, 0~1 사이 난수 생성)
  • 지수분포: 다음 사건이 일어날 때까지의 대기 시간 (예: 다음 고객이 올 때까지의 시간, 전자부품의 수명)
  • 정규분포(가우스분포): 자연과 사회 현상에서 가장 흔하게 나타나는 분포입니다. 수많은 작은 요인이 합쳐져 만들어지는 값은 정규분포를 따르는 경향이 있습니다. (예: 학생들의 키, 측정 오차, 시험 점수)
  • 감마분포: 지수분포를 일반화한 것으로, $\alpha$번째 사건이 일어날 때까지의 대기 시간
  • 베타분포: 0과 1 사이의 비율이나 확률 자체를 모델링 (예: 야구 선수의 타율 추정)
분포PDF $f(x)$기댓값분산
균등
$\text{Unif}(a, b)$
$\dfrac{1}{b-a}$, $a \leq x \leq b$ $\dfrac{a+b}{2}$ $\dfrac{(b-a)^2}{12}$
지수
$\text{Exp}(\lambda)$
$\lambda e^{-\lambda x}$, $x \geq 0$ $\dfrac{1}{\lambda}$ $\dfrac{1}{\lambda^2}$
정규 (가우스)
$N(\mu, \sigma^2)$
$\dfrac{1}{\sigma\sqrt{2\pi}} \exp\!\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right)$ $\mu$ $\sigma^2$
감마
$\text{Gamma}(\alpha, \beta)$
$\dfrac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}$, $x > 0$ $\dfrac{\alpha}{\beta}$ $\dfrac{\alpha}{\beta^2}$
베타
$\text{Beta}(\alpha, \beta)$
$\dfrac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}$, $0 < x < 1$ $\dfrac{\alpha}{\alpha+\beta}$ $\dfrac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}$
분포 간 관계:
  • 지수분포는 $\alpha = 1$인 감마분포의 특수한 경우입니다.
  • $\text{Beta}(1, 1) = \text{Unif}(0, 1)$입니다.
  • 카이제곱분포 $\chi^2(k) = \text{Gamma}(k/2, 1/2)$입니다.
  • 정규분포의 선형 변환: $X \sim N(\mu, \sigma^2)$이면 $\frac{X - \mu}{\sigma} \sim N(0, 1)$

지수분포의 무기억성

지수분포의 독특한 성질인 무기억성(Memoryless Property):

$$P(X > s + t \mid X > s) = P(X > t), \quad s, t \geq 0$$

증명:

$$P(X > s + t \mid X > s) = \frac{P(X > s + t)}{P(X > s)} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X > t)$$
의미: 전구가 이미 $s$시간 동안 작동했다는 조건 하에서, 추가로 $t$시간 이상 작동할 확률은 처음부터 $t$시간 이상 작동할 확률과 같습니다. 연속 분포 중 무기억성을 가지는 유일한 분포가 지수분포입니다.

결합분포, 주변분포, 조건부분포

결합분포 (Joint Distribution)

두 확률변수 $X$, $Y$의 결합 확률질량함수 (이산):

$$p_{X,Y}(x, y) = P(X = x, Y = y)$$

결합 확률밀도함수 (연속):

$$P((X, Y) \in A) = \iint_A f_{X,Y}(x, y)\,dx\,dy$$

주변분포 (Marginal Distribution)

결합분포로부터 개별 확률변수의 분포를 구합니다.

$$p_X(x) = \sum_y p_{X,Y}(x, y) \quad \text{(이산)}$$ $$f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y)\,dy \quad \text{(연속)}$$

조건부분포 (Conditional Distribution)

$Y = y$가 주어졌을 때 $X$의 조건부분포:

$$p_{X \mid Y}(x \mid y) = \frac{p_{X,Y}(x, y)}{p_Y(y)} \quad \text{(이산)}$$ $$f_{X \mid Y}(x \mid y) = \frac{f_{X,Y}(x, y)}{f_Y(y)} \quad \text{(연속)}$$

예제: 이산 결합분포

$X$와 $Y$의 결합 PMF가 다음 표로 주어졌을 때:

$X \setminus Y$$Y=0$$Y=1$$p_X(x)$
$X=0$$0.2$$0.1$$0.3$
$X=1$$0.3$$0.4$$0.7$
$p_Y(y)$$0.5$$0.5$$1.0$

주변 PMF는 행/열의 합이고, 조건부 PMF는 예를 들어 $P(X=1 \mid Y=0) = \frac{0.3}{0.5} = 0.6$입니다.

독립성 검정: $P(X=0, Y=0) = 0.2 \neq 0.3 \times 0.5 = 0.15$이므로 $X$와 $Y$는 독립이 아닙니다.

기댓값과 분산

기댓값 (Expected Value)

"평균적으로 얼마를 기대할 수 있습니까?"

복권을 산다고 생각해 보십시오. 1등 상금이 10억 원이지만, 당첨 확률이 $\frac{1}{1{,}000{,}000}$입니다. 복권 한 장의 "기대 수익"은 $10억 \times \frac{1}{1{,}000{,}000} = 1{,}000$원입니다. 복권 가격이 1,000원보다 비싸다면, 평균적으로 손해라는 뜻입니다.

이처럼 기댓값은 각 결과에 그 확률을 곱하여 합산한 값으로, "이 실험을 무한히 반복하면 평균이 얼마에 수렴하는가"를 알려줍니다.

기댓값 $E[X]$는 확률변수의 평균적인 값입니다.

$$E[X] = \sum_x x \cdot p(x) \quad \text{(이산)}, \qquad E[X] = \int_{-\infty}^{\infty} x f(x)\,dx \quad \text{(연속)}$$

무의식적 통계학자의 법칙 (LOTUS)

확률변수 $X$의 함수 $g(X)$의 기댓값은 $g(X)$의 분포를 구하지 않고도 계산 가능합니다.

$$E[g(X)] = \sum_x g(x) \cdot p(x) \quad \text{(이산)}, \qquad E[g(X)] = \int_{-\infty}^{\infty} g(x) f(x)\,dx \quad \text{(연속)}$$

기댓값의 성질

분산 (Variance)

직관: 기댓값이 "평균적으로 어디에 있는가"라면, 분산은 "평균 주변에서 얼마나 흩어져 있는가"를 측정합니다. 예를 들어 두 학급의 시험 평균이 둘 다 70점이라 하더라도, A반은 60~80점에 몰려 있고 B반은 30~100점까지 넓게 퍼져 있을 수 있습니다. B반의 분산이 더 큽니다.

분산은 확률변수가 기댓값으로부터 얼마나 퍼져 있는지를 나타냅니다.

$$\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2$$

분산의 성질

공분산과 상관계수

공분산(Covariance)은 두 확률변수의 선형적 관련성을 측정합니다.

$$\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]$$

공분산의 성질:

상관계수(Correlation Coefficient):

$$\rho_{X,Y} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}, \quad -1 \leq \rho_{X,Y} \leq 1$$
해석:
  • $\rho = 1$: 완전 양의 선형 관계 ($Y = aX + b$, $a > 0$)
  • $\rho = -1$: 완전 음의 선형 관계 ($Y = aX + b$, $a < 0$)
  • $\rho = 0$: 선형 관계 없음 (비상관, uncorrelated). 단, 비선형 관계는 존재할 수 있음

적률생성함수 (MGF)

확률변수 $X$의 적률생성함수(Moment Generating Function)는 다음과 같이 정의됩니다.

$$M_X(t) = E[e^{tX}], \quad t \in (-h, h) \text{ (어떤 } h > 0 \text{에 대해 존재)}$$

적률과의 관계

MGF를 $t$에 대해 미분하고 $t=0$을 대입하면 적률(moment)을 얻습니다.

$$M_X^{(n)}(0) = E[X^n]$$

즉, $n$번째 적률은 MGF의 $n$차 도함수를 $t=0$에서 평가한 값입니다.

MGF의 핵심 성질

주요 분포의 MGF

분포$M_X(t)$
$\text{Bern}(p)$$(1-p) + pe^t$
$\text{Bin}(n, p)$$((1-p) + pe^t)^n$
$\text{Poi}(\lambda)$$\exp(\lambda(e^t - 1))$
$\text{Exp}(\lambda)$$\dfrac{\lambda}{\lambda - t}$, $t < \lambda$
$N(\mu, \sigma^2)$$\exp\!\left(\mu t + \dfrac{\sigma^2 t^2}{2}\right)$
$\text{Gamma}(\alpha, \beta)$$\left(\dfrac{\beta}{\beta - t}\right)^\alpha$, $t < \beta$

MGF를 이용한 증명 예시: 포아송 합

정리: $X \sim \text{Poi}(\lambda_1)$, $Y \sim \text{Poi}(\lambda_2)$이 독립이면 $X + Y \sim \text{Poi}(\lambda_1 + \lambda_2)$.

증명:

$$M_{X+Y}(t) = M_X(t) \cdot M_Y(t) = \exp(\lambda_1(e^t - 1)) \cdot \exp(\lambda_2(e^t - 1)) = \exp((\lambda_1 + \lambda_2)(e^t - 1))$$

이는 $\text{Poi}(\lambda_1 + \lambda_2)$의 MGF이므로, 유일성에 의해 $X + Y \sim \text{Poi}(\lambda_1 + \lambda_2)$입니다.

확률 부등식

마르코프 부등식 (Markov's Inequality)

$X \geq 0$인 확률변수에 대하여, 임의의 $a > 0$에 대해:

$$\boxed{P(X \geq a) \leq \frac{E[X]}{a}}$$

증명:

$$E[X] = \int_0^\infty x f(x)\,dx \geq \int_a^\infty x f(x)\,dx \geq a \int_a^\infty f(x)\,dx = a \cdot P(X \geq a)$$

체비셰프 부등식 (Chebyshev's Inequality)

유한한 기댓값과 분산을 가지는 확률변수 $X$에 대하여, 임의의 $k > 0$에 대해:

$$\boxed{P(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}}$$

동치 형태: 임의의 $\epsilon > 0$에 대해

$$P(|X - \mu| \geq \epsilon) \leq \frac{\text{Var}(X)}{\epsilon^2}$$

증명: $Y = (X - \mu)^2 \geq 0$으로 놓고 마르코프 부등식을 적용합니다.

$$P(|X - \mu| \geq \epsilon) = P((X-\mu)^2 \geq \epsilon^2) \leq \frac{E[(X-\mu)^2]}{\epsilon^2} = \frac{\text{Var}(X)}{\epsilon^2}$$

젠센 부등식 (Jensen's Inequality)

$\varphi$가 볼록 함수(convex function)이면:

$$\boxed{\varphi(E[X]) \leq E[\varphi(X)]}$$

$\varphi$가 오목 함수(concave function)이면 부등호 방향이 반대입니다.

젠센 부등식의 응용 예

대수의 법칙 (Law of Large Numbers)

직관적 의미: "많이 해보면 평균에 수렴합니다"

동전을 10번 던지면 앞면이 3번 나올 수도, 7번 나올 수도 있습니다. 하지만 10,000번 던지면 앞면 비율은 50%에 매우 가까워집니다. 100만 번 던지면 거의 정확히 50%입니다.

이것이 큰 수의 법칙(대수의 법칙)의 핵심입니다. 실험을 충분히 많이 반복하면, 표본 평균은 이론적 기댓값에 수렴합니다. 카지노가 항상 이기는 이유도 이것입니다. 한 명의 도박꾼은 운이 좋을 수 있지만, 수만 명의 도박꾼이 수백만 번 게임하면 카지노의 기대 수익은 거의 정확히 실현됩니다.

$X_1, X_2, \ldots$가 기댓값 $\mu$, 분산 $\sigma^2$인 독립 동일 분포(i.i.d.) 확률변수열이고, 표본 평균을 $\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i$라 하자.

약한 대수의 법칙 (Weak Law of Large Numbers, WLLN)

임의의 $\epsilon > 0$에 대하여:

$$\boxed{\lim_{n \to \infty} P(|\bar{X}_n - \mu| \geq \epsilon) = 0}$$

즉, $\bar{X}_n$은 $\mu$에 확률 수렴(convergence in probability)합니다. 표기: $\bar{X}_n \xrightarrow{P} \mu$.

체비셰프 부등식을 이용한 증명:

$E[\bar{X}_n] = \mu$이고, $\text{Var}(\bar{X}_n) = \frac{\sigma^2}{n}$이므로:

$$P(|\bar{X}_n - \mu| \geq \epsilon) \leq \frac{\text{Var}(\bar{X}_n)}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} \to 0 \quad (n \to \infty)$$

강한 대수의 법칙 (Strong Law of Large Numbers, SLLN)

$$\boxed{P\left(\lim_{n \to \infty} \bar{X}_n = \mu\right) = 1}$$

즉, $\bar{X}_n$은 $\mu$에 거의 확실하게 수렴(almost sure convergence)합니다. 표기: $\bar{X}_n \xrightarrow{a.s.} \mu$.

두 법칙의 차이:
  • 약한 법칙: 큰 $n$에 대해 $\bar{X}_n$이 $\mu$에서 멀리 떨어질 확률이 작다.
  • 강한 법칙: $\bar{X}_n$이 결국 $\mu$에 수렴하는 사건의 확률이 1이다.
  • 강한 법칙은 약한 법칙보다 엄밀히 더 강한 결과입니다. (거의 확실한 수렴 $\Rightarrow$ 확률 수렴, 역은 성립하지 않음)

중심극한정리 (Central Limit Theorem)

정리

$X_1, X_2, \ldots$가 기댓값 $\mu$, 분산 $\sigma^2 \in (0, \infty)$인 i.i.d. 확률변수열일 때:

$$\boxed{\frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} = \frac{\sum_{i=1}^n X_i - n\mu}{\sigma\sqrt{n}} \xrightarrow{d} N(0, 1)}$$

즉, 표준화된 표본 평균은 표준정규분포에 분포 수렴(convergence in distribution)합니다.

직관적 설명

개별 확률변수가 어떤 분포를 따르든 (정규분포가 아니어도), 충분히 많은 독립적인 확률변수의 합은 정규분포에 가까워집니다. 이것이 정규분포가 자연과 사회 현상에서 보편적으로 나타나는 이유입니다.

왜 키, 시험 점수, 측정 오차가 모두 종 모양입니까?

사람의 키를 생각해 보십시오. 키는 수백 개의 유전자, 영양 상태, 운동량, 수면 등 수많은 작은 요인의 합으로 결정됩니다. 중심극한정리에 의하면, 이렇게 많은 독립적 요인이 더해지면 그 합은 정규분포에 가까워집니다. 이것이 자연 현상에서 종 모양(bell curve) 분포가 그토록 흔한 이유입니다.

주사위 하나의 눈은 전혀 정규분포가 아닙니다 (1~6이 균등). 하지만 주사위 30개의 합은 놀랍도록 정규분포에 가까운 종 모양이 됩니다.

CLT의 근사 활용

$n$이 충분히 클 때 ($n \geq 30$이 경험적 기준):

$$\bar{X}_n \overset{\text{approx}}{\sim} N\left(\mu, \frac{\sigma^2}{n}\right)$$ $$\sum_{i=1}^n X_i \overset{\text{approx}}{\sim} N(n\mu, n\sigma^2)$$

응용 예제

문제: 주사위를 100번 던져서 눈의 합이 370 이상일 확률을 구하라.

풀이: 각 주사위 눈 $X_i$에 대해 $\mu = E[X_i] = 3.5$, $\sigma^2 = \text{Var}(X_i) = \frac{35}{12} \approx 2.917$.

$S = \sum_{i=1}^{100} X_i$로 놓으면, CLT에 의해:

$$S \overset{\text{approx}}{\sim} N(350, 291.67)$$ $$P(S \geq 370) = P\left(\frac{S - 350}{\sqrt{291.67}} \geq \frac{370 - 350}{\sqrt{291.67}}\right) \approx P(Z \geq 1.17) \approx 0.121$$
이항분포의 정규 근사: $X \sim \text{Bin}(n, p)$일 때, $np \geq 5$이고 $n(1-p) \geq 5$이면: $$\frac{X - np}{\sqrt{np(1-p)}} \overset{\text{approx}}{\sim} N(0, 1)$$ 이를 드무아브르-라플라스 정리(De Moivre-Laplace Theorem)라 하며, CLT의 특수한 경우입니다.

마르코프 체인 기초

정의

마르코프 체인(Markov Chain)은 이산 시간 확률 과정 $\{X_n\}_{n=0}^{\infty}$으로, 마르코프 성질(Markov Property)을 만족합니다:

$$P(X_{n+1} = j \mid X_n = i, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = j \mid X_n = i)$$

즉, 미래 상태는 현재 상태에만 의존하고 과거 이력에는 의존하지 않습니다.

전이확률과 전이행렬

전이확률(Transition Probability): $p_{ij} = P(X_{n+1} = j \mid X_n = i)$

상태 공간이 $\{1, 2, \ldots, m\}$일 때, 전이행렬(Transition Matrix):

$$\mathbf{P} = \begin{pmatrix} p_{11} & p_{12} & \cdots & p_{1m} \\ p_{21} & p_{22} & \cdots & p_{2m} \\ \vdots & \vdots & \ddots & \vdots \\ p_{m1} & p_{m2} & \cdots & p_{mm} \end{pmatrix}$$

각 행의 합은 1입니다: $\sum_{j=1}^m p_{ij} = 1$ (확률적 행렬, stochastic matrix).

$n$-단계 전이확률

$n$단계 후의 전이확률은 전이행렬의 거듭제곱으로 구합니다:

$$P(X_n = j \mid X_0 = i) = (\mathbf{P}^n)_{ij}$$

예제: 날씨 모델

날씨가 맑음(S)과 흐림(C) 두 상태만 가진다고 하자.

내일 S내일 C
오늘 S$0.7$$0.3$
오늘 C$0.4$$0.6$
$$\mathbf{P} = \begin{pmatrix} 0.7 & 0.3 \\ 0.4 & 0.6 \end{pmatrix}$$

정상분포 (Stationary Distribution)

확률 벡터 $\boldsymbol{\pi} = (\pi_1, \pi_2, \ldots, \pi_m)$가 정상분포(Stationary Distribution)이란:

$$\boxed{\boldsymbol{\pi} \mathbf{P} = \boldsymbol{\pi}}, \quad \sum_{i=1}^m \pi_i = 1, \quad \pi_i \geq 0$$

위 날씨 모델의 정상분포 계산:

$$\pi_S \cdot 0.7 + \pi_C \cdot 0.4 = \pi_S$$ $$\pi_S + \pi_C = 1$$

첫 번째 식에서 $0.3\pi_S = 0.4\pi_C$, 즉 $\pi_S = \frac{4}{3}\pi_C$.

$\frac{4}{3}\pi_C + \pi_C = 1$에서 $\pi_C = \frac{3}{7}$, $\pi_S = \frac{4}{7}$.

따라서 $\boldsymbol{\pi} = \left(\frac{4}{7}, \frac{3}{7}\right) \approx (0.571, 0.429)$.

해석: 충분히 긴 시간이 지나면, 날씨가 맑을 확률은 약 57.1%, 흐릴 확률은 약 42.9%에 수렴합니다. 이는 초기 상태에 무관합니다. (비주기적이고 기약인 마르코프 체인에서 성립)

에르고딕 정리 (Ergodic Theorem)

마르코프 체인이 기약(irreducible)이고 양재귀(positive recurrent)이면 유일한 정상분포 $\boldsymbol{\pi}$가 존재하며, 모든 상태 $j$에 대하여:

$$\lim_{n \to \infty} \frac{1}{n} \sum_{k=0}^{n-1} \mathbf{1}_{X_k = j} = \pi_j \quad \text{(거의 확실하게)}$$

즉, 상태 $j$를 방문하는 장기적 비율은 정상분포의 $\pi_j$에 수렴합니다.

수렴 개념 정리

확률변수열 $\{X_n\}$의 수렴 개념은 확률론에서 매우 중요하며, 다음과 같은 위계를 가집니다.

수렴 유형정의표기
거의 확실한 수렴 $P(\lim_{n\to\infty} X_n = X) = 1$ $X_n \xrightarrow{a.s.} X$
확률 수렴 $\forall \epsilon > 0$, $\lim_{n\to\infty} P(|X_n - X| > \epsilon) = 0$ $X_n \xrightarrow{P} X$
분포 수렴 $\lim_{n\to\infty} F_{X_n}(x) = F_X(x)$, $F_X$의 연속점에서 $X_n \xrightarrow{d} X$
$L^p$ 수렴 $\lim_{n\to\infty} E[|X_n - X|^p] = 0$ $X_n \xrightarrow{L^p} X$

수렴 간의 관계

$$\text{거의 확실한 수렴} \Rightarrow \text{확률 수렴} \Rightarrow \text{분포 수렴}$$ $$L^p \text{ 수렴} \Rightarrow \text{확률 수렴}$$

역방향은 일반적으로 성립하지 않습니다. 단, 분포 수렴의 극한이 상수이면 확률 수렴과 동치입니다.

확률 계산의 다양한 풀이

왜 여러 풀이를 배워야 합니까?

같은 확률 문제를 여러 방법으로 풀면, 각 방법의 장단점을 이해할 수 있으며 검산에도 유용합니다. 직접 세기, 여사건, 조건부 확률, 생성함수 등 다양한 접근을 비교해 봅시다.

문제: 주사위 3개를 던져 합이 10 이상일 확률

풀이 1: 직접 세기 (경우의 수 열거)

전체 표본공간의 크기는 $6^3 = 216$입니다. 합이 10 이상인 경우를 직접 셉니다.

$(x_1, x_2, x_3)$에서 $x_1 + x_2 + x_3 \geq 10$인 순서쌍의 수를 구합니다. 별과 막대 방법의 변형을 사용하면, $x_1 + x_2 + x_3 = k$ ($1 \leq x_i \leq 6$)인 해의 수는:

$$N(k) = \sum_{j=0}^{3} (-1)^j \binom{3}{j} \binom{k - 6j - 1}{2}$$

$k = 10, 11, \ldots, 18$에 대해 합산하면 $N = 108$이므로:

$$P(\text{합} \geq 10) = \frac{108}{216} = \frac{1}{2}$$

풀이 2: 여사건과 대칭성

주사위 3개의 합 $S$는 3 이상 18 이하입니다. 핵심 관찰: $S$의 분포는 $S = 10.5$에 대해 대칭입니다. 이는 $x_i \to 7 - x_i$ 변환을 적용하면 $S \to 21 - S$이기 때문입니다.

따라서 $P(S \geq 11) = P(S \leq 10)$이고, $P(S = 10) + P(S = 11) = P(21 - S = 10) + P(21 - S = 11)$에서 대칭성에 의해:

$$P(S \geq 10) = P(S \leq 11) = \frac{1}{2} + \frac{P(S = 10) + P(S = 11)}{2}$$

사실 더 간단하게, $P(S \geq k) = P(S \leq 21 - k)$이므로 $P(S \geq 10) = P(S \leq 11)$입니다. $P(S \leq 11) + P(S \geq 12) = 1$이고 $P(S \geq 12) = P(S \leq 9)$이므로 $P(S \leq 11) + P(S \leq 9) = 1$. 따라서 $P(S = 10) + P(S = 11) = P(S \leq 11) - P(S \leq 9) = 1 - 2P(S \leq 9)$. 직접 계산하면 $P(S \geq 10) = \frac{108}{216} = \frac{1}{2}$.

풀이 3: 확률생성함수

주사위 한 개의 확률생성함수는:

$$G(z) = \frac{z + z^2 + z^3 + z^4 + z^5 + z^6}{6} = \frac{z(1-z^6)}{6(1-z)}$$

3개 주사위 합의 생성함수는:

$$[G(z)]^3 = \frac{z^3(1-z^6)^3}{216(1-z)^3}$$

$z^{10}$부터 $z^{18}$까지의 계수 합이 $P(S \geq 10)$에 대응합니다. 전개하면 108/216 = 1/2을 얻습니다.

문제: 52장 카드에서 5장을 뽑을 때 페어(같은 숫자 2장) 정확히 하나일 확률

풀이 1: 조합론적 직접 계산

$$P(\text{원 페어}) = \frac{\binom{13}{1}\binom{4}{2}\binom{12}{3}\binom{4}{1}^3}{\binom{52}{5}} = \frac{13 \cdot 6 \cdot 220 \cdot 64}{2{,}598{,}960} = \frac{1{,}098{,}240}{2{,}598{,}960} \approx 0.4226$$

풀이 2: 조건부 확률로 단계별 분석

5장을 순서대로 뽑되, 정확히 하나의 페어가 형성되는 확률을 조건부로 분석합니다. 마지막에 순서를 제거하기 위해 적절한 조합 계수로 나눕니다. 이 방법은 복잡하지만 조건부 확률의 연습이 됩니다.

확률 문제의 다양한 접근법 직접 세기 경우의 수 열거 정확, 소규모 여사건 1 - P(반대) "적어도" 유형 조건부 확률 단계별 분해 순차적 과정 생성함수 대수적 변환 합/분포 계산 핵심: 문제의 구조에 따라 가장 효율적인 방법이 달라집니다 "적어도 하나" → 여사건 | 순서 있는 추출 → 조건부 | 합의 분포 → 생성함수

베이즈 정리 심화 응용

응용 1: 스팸 필터 (나이브 베이즈)

이메일에 "할인", "무료", "당첨" 등의 단어가 포함되어 있을 때 스팸일 확률을 계산합니다.

$$P(\text{스팸} \mid \text{"무료"}) = \frac{0.8 \times 0.3}{0.8 \times 0.3 + 0.1 \times 0.7} = \frac{0.24}{0.31} \approx 0.774$$

"무료"라는 단어가 포함된 이메일이 스팸일 확률은 약 77.4%입니다. 단어 하나만으로도 사전 확률 30%가 77.4%로 크게 갱신됩니다.

다중 단어 확장: "무료"와 "당첨"이 동시에 포함된 경우, 단어 간 독립을 가정하면 (나이브 베이즈):

$$P(\text{스팸} \mid \text{"무료"}, \text{"당첨"}) = \frac{P(\text{"무료"} \mid S) P(\text{"당첨"} \mid S) P(S)}{P(\text{"무료"} \mid S) P(\text{"당첨"} \mid S) P(S) + P(\text{"무료"} \mid N) P(\text{"당첨"} \mid N) P(N)}$$

$P(\text{"당첨"} \mid S) = 0.6$, $P(\text{"당첨"} \mid N) = 0.02$로 놓으면:

$$= \frac{0.8 \times 0.6 \times 0.3}{0.8 \times 0.6 \times 0.3 + 0.1 \times 0.02 \times 0.7} = \frac{0.144}{0.1454} \approx 0.990$$

응용 2: 연속적 갱신 (순차적 베이즈)

베이즈 정리는 한 번만 적용하는 것이 아니라 새로운 증거가 들어올 때마다 반복 적용할 수 있습니다.

동전이 공정한지($p = 0.5$) 편향된 것인지($p = 0.7$) 판별하는 문제를 봅시다.

$$P(\text{편향} \mid H_1, H_2) = \frac{0.7 \times 0.583}{0.7 \times 0.583 + 0.5 \times 0.417} = \frac{0.408}{0.617} \approx 0.662$$

앞면이 계속 나올수록 편향 동전일 확률이 점차 높아집니다. 이것이 베이즈 학습(Bayesian learning)의 핵심 원리입니다.

응용 3: 검사의 반복 시행

1차 양성 판정 후 2차 검사를 실시하면 어떻게 됩니까? 앞서 질병 검사 예제에서 1차 양성 후 $P(\text{질병} \mid \text{1차 양성}) \approx 0.0194$였습니다.

2차 검사에서도 양성이 나오면, 사전 확률을 0.0194로 갱신합니다:

$$P(\text{질병} \mid \text{2차 양성}) = \frac{0.99 \times 0.0194}{0.99 \times 0.0194 + 0.05 \times 0.9806} = \frac{0.01921}{0.06822} \approx 0.282$$

2차까지 양성이면 약 28.2%로 크게 상승합니다. 이것이 확진 검사를 반복하는 이유입니다.

확률변수 심화

확률변수의 함수 변환

$X$가 PDF $f_X(x)$를 가지고 $Y = g(X)$일 때, $g$가 단조이면:

$$f_Y(y) = f_X(g^{-1}(y)) \cdot \left|\frac{d}{dy} g^{-1}(y)\right|$$

예시: $X \sim \text{Exp}(\lambda)$이고 $Y = X^2$이면, $g^{-1}(y) = \sqrt{y}$ ($y > 0$)이므로:

$$f_Y(y) = \lambda e^{-\lambda\sqrt{y}} \cdot \frac{1}{2\sqrt{y}}, \quad y > 0$$

적률생성함수 심화: MGF 유도

정규분포의 MGF 유도:

$X \sim N(\mu, \sigma^2)$일 때:

$$M_X(t) = E[e^{tX}] = \int_{-\infty}^{\infty} e^{tx} \frac{1}{\sigma\sqrt{2\pi}} e^{-(x-\mu)^2/(2\sigma^2)} dx$$

지수 부분을 정리하면:

$$tx - \frac{(x-\mu)^2}{2\sigma^2} = -\frac{1}{2\sigma^2}\left[x^2 - 2(\mu + t\sigma^2)x + \mu^2\right]$$ $$= -\frac{(x - (\mu + t\sigma^2))^2}{2\sigma^2} + \mu t + \frac{\sigma^2 t^2}{2}$$

따라서 적분은 $N(\mu + t\sigma^2, \sigma^2)$의 PDF 적분(= 1)이 되어:

$$\boxed{M_X(t) = \exp\!\left(\mu t + \frac{\sigma^2 t^2}{2}\right)}$$

특성함수 (Characteristic Function)

MGF가 존재하지 않을 수 있는 분포(예: 코시 분포)에서도 항상 정의되는 도구입니다.

$$\varphi_X(t) = E[e^{itX}] = E[\cos(tX)] + iE[\sin(tX)], \quad t \in \mathbb{R}$$

특성함수의 성질:

주요 분포의 특성함수:

분포$\varphi_X(t)$
$N(\mu, \sigma^2)$$\exp\!\left(i\mu t - \dfrac{\sigma^2 t^2}{2}\right)$
$\text{Poi}(\lambda)$$\exp(\lambda(e^{it} - 1))$
$\text{Exp}(\lambda)$$\dfrac{\lambda}{\lambda - it}$
코시$(0, 1)$$e^{-|t|}$
MGF vs 특성함수: MGF는 실수 지수 $e^{tX}$를 사용하여 계산이 직관적이지만, 모든 분포에서 존재하지는 않습니다. 특성함수는 복소 지수 $e^{itX}$를 사용하며 항상 존재하므로 이론적으로 더 강력합니다. 중심극한정리의 엄밀한 증명에서는 특성함수가 사용됩니다.

결합확률분포 심화

독립성 판정의 다양한 방법

확률변수 $X$, $Y$의 독립성을 판정하는 동치 조건들입니다.

  1. 결합분포 = 주변분포의 곱: $f_{X,Y}(x,y) = f_X(x) f_Y(y)$ (모든 $x, y$에서)
  2. 결합 CDF 분해: $F_{X,Y}(x,y) = F_X(x) F_Y(y)$
  3. MGF 분해: $M_{X,Y}(s,t) = M_X(s) M_Y(t)$
  4. 특성함수 분해: $\varphi_{X,Y}(s,t) = \varphi_X(s) \varphi_Y(t)$
  5. 모든 함수에 대해: 임의의 유계 가측함수 $g$, $h$에 대해 $E[g(X)h(Y)] = E[g(X)]E[h(Y)]$
주의: 비상관 ≠ 독립

$\text{Cov}(X, Y) = 0$이라도 $X$, $Y$가 독립이 아닐 수 있습니다.

반례: $X \sim N(0,1)$, $Y = X^2$으로 놓으면:

$$E[XY] = E[X^3] = 0 = E[X]E[Y]$$

이므로 $\text{Cov}(X, Y) = 0$이지만, $Y$는 $X$의 함수이므로 분명히 종속입니다.

단, $(X, Y)$가 이변량 정규분포를 따르면 비상관과 독립이 동치입니다.

다변수 변환

$(X, Y)$에서 $(U, V) = (g_1(X,Y), g_2(X,Y))$로 변환할 때, 야코비안을 사용합니다:

$$f_{U,V}(u,v) = f_{X,Y}(x(u,v), y(u,v)) \cdot |J|^{-1}$$

야코비안 $J = \det\begin{pmatrix} \frac{\partial g_1}{\partial x} & \frac{\partial g_1}{\partial y} \\ \frac{\partial g_2}{\partial x} & \frac{\partial g_2}{\partial y} \end{pmatrix}$

예시: Box-Muller 변환

$U_1, U_2 \sim \text{Unif}(0,1)$ 독립일 때:

$$X = \sqrt{-2\ln U_1} \cos(2\pi U_2), \quad Y = \sqrt{-2\ln U_1} \sin(2\pi U_2)$$

이면 $X, Y \sim N(0,1)$ 독립입니다. 이는 균등 난수로부터 정규 난수를 생성하는 방법입니다.

조건부 기대값

정의

$Y$가 주어졌을 때 $X$의 조건부 기대값:

$$E[X \mid Y = y] = \sum_x x \, p_{X \mid Y}(x \mid y) \quad \text{(이산)}$$ $$E[X \mid Y = y] = \int_{-\infty}^{\infty} x \, f_{X \mid Y}(x \mid y)\,dx \quad \text{(연속)}$$

$E[X \mid Y]$는 $Y$의 함수, 즉 그 자체가 확률변수입니다.

탑 성질 (Tower Property, 반복 기대값의 법칙)

$$\boxed{E[E[X \mid Y]] = E[X]}$$

이를 전체 기대값의 법칙(Law of Total Expectation)이라고도 합니다.

증명 (이산의 경우):

$$E[E[X \mid Y]] = \sum_y E[X \mid Y = y] \cdot P(Y = y) = \sum_y \sum_x x \, P(X = x \mid Y = y) \, P(Y = y)$$ $$= \sum_x x \sum_y P(X = x, Y = y) = \sum_x x \, P(X = x) = E[X]$$

조건부 분산 공식 (Eve's Law)

$$\boxed{\text{Var}(X) = E[\text{Var}(X \mid Y)] + \text{Var}(E[X \mid Y])}$$

총 분산 = 그룹 내 분산의 평균 + 그룹 간 분산

응용 예제: 확률 $p$로 앞면이 나오는 동전을 먼저 $N \sim \text{Poi}(\lambda)$번 던진다고 하자. 앞면 횟수를 $X$라 하면:

따라서 $X \sim \text{Poi}(\lambda p)$임을 알 수 있습니다 (포아송의 간추림 성질).

확률 부등식 비교

세 가지 한계의 비교

같은 확률 $P(X \geq a)$를 상계로 제한하되, 사용하는 정보량이 다릅니다. 더 많은 정보를 사용할수록 더 정밀한 한계를 얻습니다.

확률 부등식 — 정보량과 정밀도 사용하는 정보량 → 마르코프 E[X]만 사용 P(X≥a) ≤ E[X]/a 가장 느슨 가장 일반적 체비셰프 E[X], Var(X) P(|X-μ|≥ε) ≤ Var(X)/ε² 중간 수준 체르노프 MGF 전체 사용 P(X≥a) ≤ min e⁻ᵗᵃM(t) 가장 정밀 (지수적)

체르노프 한계 (Chernoff Bound)

마르코프 부등식의 정교한 확장입니다. 임의의 $t > 0$에 대해:

$$P(X \geq a) = P(e^{tX} \geq e^{ta}) \leq \frac{E[e^{tX}]}{e^{ta}} = e^{-ta} M_X(t)$$

최적의 한계는 $t$를 최소화하여 얻습니다:

$$\boxed{P(X \geq a) \leq \min_{t > 0} e^{-ta} M_X(t)}$$

수치 비교 예제

$X \sim \text{Exp}(1)$일 때 $P(X \geq 5)$의 한계를 비교합니다. 실제값: $e^{-5} \approx 0.0067$.

한계계산상계실제값 대비
마르코프$\frac{E[X]}{5} = \frac{1}{5}$$0.200$약 30배 느슨
체비셰프$\frac{\text{Var}(X)}{(5-1)^2} = \frac{1}{16}$$0.0625$약 9배 느슨
체르노프$\min_{t<1} e^{-5t}/(1-t)$, $t^* = 4/5$$\approx 0.0335$약 5배 느슨
실제값$e^{-5}$$0.0067$정확
정리: 마르코프 → 체비셰프 → 체르노프 순으로 정보량이 늘고 한계가 정밀해집니다. 체르노프 한계는 지수적 감소를 보여주므로, 대규모 편차(large deviation) 분석에서 특히 유용합니다.

극한 정리 심화

약한 대수의 법칙: 체비셰프 증명 vs 특성함수 증명

체비셰프 부등식을 이용한 증명은 이미 다루었습니다. 특성함수를 이용한 증명은 분산의 존재를 가정하지 않아도 됩니다.

특성함수 증명 아이디어:

$\bar{X}_n$의 특성함수를 구하면:

$$\varphi_{\bar{X}_n}(t) = \left[\varphi_X\!\left(\frac{t}{n}\right)\right]^n$$

$\varphi_X(s) = 1 + i\mu s + o(s)$ ($s \to 0$)이므로:

$$\varphi_{\bar{X}_n}(t) = \left[1 + \frac{i\mu t}{n} + o\!\left(\frac{1}{n}\right)\right]^n \to e^{i\mu t}$$

$e^{i\mu t}$는 상수 $\mu$의 특성함수이므로 $\bar{X}_n \xrightarrow{d} \mu$이고, 극한이 상수이면 분포 수렴은 확률 수렴과 동치입니다.

중심극한정리: 적률생성함수를 이용한 증명 (유한 MGF 경우)

$X_i$가 평균 0, 분산 1인 i.i.d.이고 MGF $M(t)$가 존재한다고 가정합니다.

$Z_n = \frac{S_n}{\sqrt{n}}$의 MGF:

$$M_{Z_n}(t) = \left[M\!\left(\frac{t}{\sqrt{n}}\right)\right]^n$$

$M(s) = 1 + \frac{s^2}{2} + O(s^3)$ ($s \to 0$)이므로:

$$M_{Z_n}(t) = \left[1 + \frac{t^2}{2n} + O\!\left(\frac{1}{n^{3/2}}\right)\right]^n \to e^{t^2/2}$$

이는 $N(0,1)$의 MGF이므로 $Z_n \xrightarrow{d} N(0,1)$입니다.

중심극한정리: 특성함수를 이용한 증명 (일반적 경우)

MGF의 존재를 가정하지 않는 가장 일반적인 증명입니다.

$Z_n = \frac{S_n}{\sqrt{n}}$의 특성함수:

$$\varphi_{Z_n}(t) = \left[\varphi_X\!\left(\frac{t}{\sqrt{n}}\right)\right]^n$$

$\varphi_X(s) = 1 + i\mu s - \frac{\sigma^2 s^2}{2} + o(s^2)$이므로 (표준화 후 $\mu=0$, $\sigma=1$):

$$\varphi_{Z_n}(t) = \left[1 - \frac{t^2}{2n} + o\!\left(\frac{1}{n}\right)\right]^n \to e^{-t^2/2}$$

레비 연속 정리에 의해 $Z_n \xrightarrow{d} N(0,1)$이 성립합니다.

세 증명의 비교:
  • 체비셰프 방법: 가장 초등적이나 WLLN에만 적용 가능합니다.
  • MGF 방법: CLT의 직관적 증명이나 MGF 존재를 가정해야 합니다.
  • 특성함수 방법: 가장 일반적이며 최소한의 가정만 필요합니다. 레비 연속 정리가 핵심 도구입니다.

특수 분포 심화

이항분포의 MGF 유도

$X \sim \text{Bin}(n, p)$일 때:

$$M_X(t) = E[e^{tX}] = \sum_{k=0}^{n} e^{tk} \binom{n}{k} p^k (1-p)^{n-k} = \sum_{k=0}^{n} \binom{n}{k} (pe^t)^k (1-p)^{n-k}$$ $$= (pe^t + 1 - p)^n$$

이항 정리를 적용한 결과입니다.

포아송 분포의 특성함수 유도

$$\varphi_X(t) = E[e^{itX}] = \sum_{k=0}^{\infty} e^{itk} \frac{e^{-\lambda}\lambda^k}{k!} = e^{-\lambda} \sum_{k=0}^{\infty} \frac{(\lambda e^{it})^k}{k!} = e^{-\lambda} e^{\lambda e^{it}} = \exp(\lambda(e^{it} - 1))$$

감마분포의 MGF 유도

$X \sim \text{Gamma}(\alpha, \beta)$일 때:

$$M_X(t) = \int_0^{\infty} e^{tx} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x} dx = \frac{\beta^\alpha}{\Gamma(\alpha)} \int_0^{\infty} x^{\alpha-1} e^{-(\beta - t)x} dx$$

$\beta - t > 0$ (즉 $t < \beta$)일 때 적분은 $\frac{\Gamma(\alpha)}{(\beta - t)^\alpha}$이므로:

$$\boxed{M_X(t) = \left(\frac{\beta}{\beta - t}\right)^\alpha, \quad t < \beta}$$

카이제곱분포

$Z_1, \ldots, Z_k \sim N(0,1)$ 독립일 때 $\chi^2_k = \sum_{i=1}^k Z_i^2$는 자유도 $k$의 카이제곱분포를 따릅니다.

$Z^2 \sim \text{Gamma}(1/2, 1/2)$이므로 독립 합의 MGF에 의해:

$$\chi^2_k \sim \text{Gamma}(k/2, 1/2)$$

순서 통계량

정의

$X_1, X_2, \ldots, X_n$이 i.i.d.이고 CDF $F$, PDF $f$를 가질 때, 이를 크기 순으로 나열한 것:

$$X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)}$$

순서 통계량(Order Statistics)이라 합니다. $X_{(1)}$은 최솟값, $X_{(n)}$은 최댓값입니다.

개별 순서 통계량의 분포

$k$번째 순서 통계량 $X_{(k)}$의 PDF:

$$\boxed{f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} [F(x)]^{k-1} [1-F(x)]^{n-k} f(x)}$$

유도: $x$ 근방에서 $X_{(k)}$가 값을 가지려면, $n$개 중 $k-1$개는 $x$보다 작고, 1개는 $x$ 근방에 있고, $n-k$개는 $x$보다 커야 합니다. 다항 계수를 적용합니다.

최솟값과 최댓값

최솟값 $X_{(1)}$:

$$F_{X_{(1)}}(x) = 1 - [1 - F(x)]^n, \quad f_{X_{(1)}}(x) = n[1 - F(x)]^{n-1} f(x)$$

최댓값 $X_{(n)}$:

$$F_{X_{(n)}}(x) = [F(x)]^n, \quad f_{X_{(n)}}(x) = n[F(x)]^{n-1} f(x)$$

예시: $X_1, \ldots, X_n \sim \text{Unif}(0, 1)$일 때:

순서 통계량의 구조 (n = 5) 표본: X₁=0.7, X₂=0.2, X₃=0.9, X₄=0.1, X₅=0.5 ↓ 크기순 정렬 ↓ X₍₁₎=0.1 X₍₂₎=0.2 X₍₃₎=0.5 X₍₄₎=0.7 X₍₅₎=0.9 ● 최솟값 ● 최댓값 X₍₃₎ = 중앙값 (n 홀수)

순서 통계량의 결합분포

$(X_{(i)}, X_{(j)})$ ($i < j$)의 결합 PDF:

$$f_{X_{(i)}, X_{(j)}}(x, y) = \frac{n!}{(i-1)!(j-i-1)!(n-j)!} [F(x)]^{i-1} [F(y) - F(x)]^{j-i-1} [1-F(y)]^{n-j} f(x) f(y)$$

$x < y$일 때만 양수입니다.

확률적 방법론

에르되시의 확률적 방법(Probabilistic Method)

폴 에르되시(Paul Erdős)가 창시한 이 방법은 조합론에서 어떤 성질을 가진 대상의 존재성을 증명하는 강력한 도구입니다. 핵심 아이디어: "무작위로 고르면 좋은 성질을 가질 확률이 양수"임을 보이면, 그런 대상이 반드시 존재합니다.

기본 원리: 제1 순간 방법

확률변수 $X$에 대해 $E[X] < c$이면, $X < c$인 결과가 반드시 존재합니다.

마찬가지로, $E[X] > c$이면, $X > c$인 결과가 반드시 존재합니다.

예시: 라미지 수의 하계

정리: $R(k, k) > 2^{k/2}$ (2-색 라미지 수의 하한).

증명: $n = \lfloor 2^{k/2} \rfloor$명에 대해 완전 그래프 $K_n$의 각 변을 독립적으로 확률 $1/2$로 빨강 또는 파랑으로 칠합니다.

고정된 $k$명의 부분집합 $S$에 대해, $S$가 단색 완전 부분그래프(클릭)일 확률:

$$P(\text{$S$가 단색}) = 2 \cdot \left(\frac{1}{2}\right)^{\binom{k}{2}} = 2^{1 - \binom{k}{2}}$$

$X$를 단색 $k$-클릭의 수라 하면 기대값의 선형성에 의해:

$$E[X] = \binom{n}{k} \cdot 2^{1 - \binom{k}{2}} \leq \frac{n^k}{k!} \cdot 2^{1 - k(k-1)/2}$$

$n = 2^{k/2}$를 대입하면 $E[X] < 1$이 됩니다 ($k \geq 3$). 따라서 $X = 0$인 색칠(단색 $k$-클릭이 없는 색칠)이 존재하므로 $R(k,k) > n = 2^{k/2}$입니다.

확률적 방법의 놀라운 점: 이 증명은 특정 색칠을 구성하지 않습니다. 단지 "좋은 색칠이 존재한다"는 것만 보입니다. 비구성적(non-constructive) 증명의 대표적 사례입니다.

로벨 국소 보조정리 (Lovász Local Lemma)

많은 "나쁜 사건"이 있되 각각의 확률이 작고 상호 의존성이 제한적이면, 모든 나쁜 사건을 동시에 피할 수 있습니다.

대칭 버전: $A_1, \ldots, A_n$이 사건이고 각각 최대 $d$개의 다른 사건에만 의존하며, $P(A_i) \leq p$이고 $ep(d+1) \leq 1$이면:

$$P\!\left(\bigcap_{i=1}^n \overline{A_i}\right) > 0$$ 확률적 방법의 논리 흐름 1. 확률 공간 무작위 구조 정의 2. 기대값 계산 E[X] < c 증명 3. 존재성 결론 X < c인 대상 존재 핵심 논증: P(X < c) > 0이면 X < c인 ω ∈ Ω가 존재 "확률이 양수인 사건은 반드시 일어날 수 있다" → 구체적 대상을 구성하지 않고도 존재를 증명

참고자료