[확률과 통계] 확률변수, 확률분포

확률 변수 (Random Variable)

랜던함 실험 결과에 의존하는 실수(Real Number)을 의미한다. 즉, 표본 공간의 부분 집합에 대응하는 실수를 의미한다. 즉, 표본공간에서 실수로 대응되는 함수로 정의 된다. 보통 $X$나 $Y$같은 대문자로 표시한다.

예를 들어, 주사위 2개를 던지는 실험을 가정 해보자.

혹은 동전 10개를 던지는 실험을 가정해보자. 다음과 같이 확률 변수로 설정 가능하다.

이산 확률 변수

이산 확률 변수(discrete random variable)는 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우 이산 확률변수라고 정의한다. 예를 들어 주사위, 동전과 같은 확률 변수

연속 확률 변수

연속확률변수(continous random variable)는 셀 수 없는 경우를 정의할 때 사용된다. 예를 들어, 남학생의 키를 랜덤하게 선택할 경우 셀 수 없는 무수히 많은 값들이 존재한다.


확률 분포 (random distribution)

확률 분포(random distribution)란 확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계를 말한다.

예를 들어, 어떤 확률 변수 X가 가질 수 있는 값이 (0,1,3,8)이라고 가정 해보자. 이때 각 값이 나올 확률은 다음과 같다.

\[\begin{array}{l} P(X=0)=0.2 \\ P(X=1)=0.1 \\ P(X=3)=0.5 \\ P(X=8)=0.2 \end{array}\]

이렇게 확률로 대응 시켜 주는 것을 확률 분포라고 한다.


확률 분포의 표현

사실 확률 분포를 표현하는 방법은 매우 다양하다. 왜냐하면 확률 변수가 갖을 수 있는 값을에 대해서만 대응 시켜주면 되기 때문이다. 표, 그래프, 함수 등으로 표현이 가능하다.

예제

주사위 2개를 던지는 실험을 가정해 보자 이 때, 다음과 같이 확률 변수를 정의 할 수 있다.


사실, 위의 예제에서 살펴 보았듯이 주사위를 던질 떄마다 X의 값이 달라질 수 있다. $n$번 실험하면 $n$개의 숫자가 나온다. 이 $n$개의 숫자의 평균과 분산을 계산 가능 하다. 즉, 확률 변수 $X$는 평균과 분산을 가진다. 이를 우리는 모집단의 평균과 분산이라고 할 수 있다.


이산 확률 분포

이산 확률 변수의 확률 분포

이산 확률 변수의 확률 분포는 보통 함수로 주어진다. 다음은 확률 변수 X가 x라는 값을 갖을 확률을 뜻한다.

\[P(X=x)=f(x)\]

예제

확률 변수 X가 가질 수 있는 값: 0, 2, 5을 갖을 수 있고 다음과 같이 이산확률변수의 함수가 주어졌다.

$P(X=x)=f(x)=\frac{x+1}{10}$

\[\begin{array}{l} P(X=0)=0.1 \\ P(X=2)=0.3 \\ P(X=5)=0.6 \end{array}\]


이산확률변수의 평균

이산확률변수의 평균은 기댓값(expected value)라고도 한다.

\[E(X)=\sum_{x} x P(X=x)=\sum_{x} x f(x)\]

예를 들어 100,000번의 실험을 했다면,

따라서, 평균은 다음과 같이 구해진다.

\[\begin{array}{l} \frac{(0 \times 10,000+2 \times 30,000+5 \times 60,000)}{100,000} \\ =0 \times 0.1+2 \times 0.3+5 \times 0.6=3.6 \end{array}\]

즉, 위에서 설명한 이산확률변수의 평균과 일치하게 된다.


이산확률변수의 분산

확률 변수 이전에 우리는 분산을 다음과 같은 식으로 계산 했다.

\(\sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}\) 바꿔 말하면 우리는 $(X-\mu)^{2}$의 평균을 구한 것이다. 즉, 우리는 $E\left[(X-\mu)^{2}\right]$ 이것을 구하는 것이고, 위에서 구한 이산 확률 변수의 평균을 구하는 공식을 사용하면 $\sum_{x}(x-\mu)^{2} P(X=x)$ 을 구하는 것으로 식이 바뀌게 된다. 이를 정리하면 다음과 같다.

\[\sigma^{2}=E\left[(X-\mu)^{2}\right]=\sum_{x}(x-\mu)^{2} P(X=x)\]

분산을 $Var(X)$라고도 표현한다.


이산확률변수의 표준 편차

\[\sqrt{\sigma^{2}}=\sigma\]

위와 같이 구하고 $SD(X)$ 라고도 표기 한다.

예제

다음과 같이 확률변수 X의 확률분포가 표로 주어졌다고 가정 해보자

\[\begin{array}{|c|c|c|c|c|} \hline x & 0 & 1 & 2 & 3 \\ \hline P[X=x] & 0.2 & 0.3 & 0.1 & 0.4 \\ \hline \end{array}\]

다음과 같이 기댓값과 분산, 표준 편차를 구할 수 있다.

\[\begin{array}{l} E(X)&=\sum_{x} x P(X=x)\\ &=0 \times 0.2+1 \times 0.3+2 \times 0.1+ 3 \times 0.4=1.7 \\ \sigma^{2}&=\sum_{x}(x-\mu)^{2} P(X=x)\\ &=(0-1.7)^{2} \times 0.2+ (1-1.7)^{2} \times 0.3+(2-1.7)^{2} \times 0.1+(3-1.7)^{2} \times 0.4=1.41 \\ \sigma&=\sqrt{1.41}=1.187 \end{array}\]

확률 변수 X의 분산: 간편식

이산확률변수의 분산을 다음과 같이 정리하여 간편하게 구할 수 있다.

\[\begin{align} \sigma^{2}&=\sum_{x}(x-\mu)^{2} P(X=x)\tag{1}\\ &=\sum_{x}\left(x^{2}-2 \mu x+\mu^{2}\right) P(X=x)\tag{2} \\ &=\sum_{x} x^{2} P(X=x)-\sum_{x} 2 \mu x P(X=x)+\sum_{x} \mu^{2} P(X=x)\tag{3} \\ &=E\left(X^{2}\right)-2 \mu \sum_{x} x P(X=x)+\mu^{2} \sum_{x} P(X=x)\tag{4} \\ &=E\left(X^{2}\right)-2 \mu^{2}+\mu^{2\tag{5}}\\ &=E\left(X^{2}\right)-\mu^{2\tag{6}}\\ &=E\left(X^{2}\right)-\{E(X)\}^{2} \end{align}\]

(3)번 식의 경우, $\sum_{x} x^{2} P(X=x)$ 의 의미는 $x^2$ 과 확률을 곱한 것에 평균임으로 $E\left(X^{2}\right)$ 으로 표현이 가능하고.

(4)번식의 경우, $\mu^{2} \sum_{x} P(X=x)$ 의 의미는 단순히 확률값의 합에 평균 제곱을 곱한 의미이다. 확률 값을 다 더하면 1이므로 $\mu^{2}$ 만 남게 된다.


결합 확률 분포 (Joint probability disttribution)

두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계를 일 컷는다.

이 두 확률 변수를 다음과 같이 결합 확률 분포 표로 나타 낼 수 있다.

\[\begin{array}{|l|l|l|l|} \hline & 0 & 1 & 2 \\ \hline 0 & 0.1 & 0.2 & 0 \\ \hline 1 & 0 & 0.4 & 0.3 \end{array}\]

주변 확률 분포 (marginal probability distirbution)

결합 확률 분포를 통해 확률 변수의 확률 분호를 도출 해 낼 수 있다. 이를 주변 확률 분포라고 정의 한다.

X의 확률 분포

\[\begin{array}{|c|l|l|l|} \hline x & 0 & 1 & 2 \\ \hline P[X=x] & 0.1 & 0.6 & 0.3 \\ \hline \end{array}\]

Y의 확률 분포

\[\begin{array}{|c|l|l|} \hline y & 0 & 1 \\ \hline P[Y=y] & 0.3 & 0.7 \\ \hline \end{array}\]

공분산

위에서 구한 결합 확률 분포를 통해 두 확률 변수가 어떤 관계를 가지고 있는 지를 확인 해 볼 수 있다. 예를 들면 다음과 같이 고등학교 1학년 학생들을 다음과 같은 확률 변수로 정의한다고 가정 해보자

\[\begin{array}{l} \text { 확률 변수 } X \text { :키 } \\ \text { 확률 변수 } Y \text { : 몸무게 } \\ \text { 확률 변수 } Z \text { : 수학성적 } \end{array}\]

이때, 한 학생의 대해서(랜덤하게 뽑았을 때) $\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)$ 이 값은 과연 어떻게 될까? 상식적으로 생각해보면 키가 클 수록 몸무게가 작게 나오기 떄문에 양일 가능 성이 높다. 혹은, $\left(X-\mu_{X}\right)\left(Z-\mu_{Z}\right)$ 일 경우에는 어떨까? 키와와 성적이 관련이 있을까? 우리는 이 두곱의 관계가 궁금하다. 그러므로 이 두 관계를 확률 변수로 놓고 생각 해 볼 수 있다. 그 말은 각각 평균분산을 구할 수 있게 된다.

공분산의 정의

위에서 설명한, $\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)$ 의 평균을 뭐라고 표현 할까? 이를 바로 확률 변수 X와 Y의 공분산이라고 표현한다.

\[\begin{array}{r} \operatorname{Cov}(X, Y)=E\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ =E(X Y)-\mu_{X} \mu_{Y}=E[X Y]-E[X] E[Y] \end{array}\]

이 공분산을 구하면, 확률 변수 X와 Y의 관계를 쉽게 알 수 있다.

예제

다음과 같이 확률 변수 $X$(열)와 $Y$(행)가 주여 졌을 때 공분산을 구하라.

\[\begin{array}{|l|l|l|l|} \hline & 0 & 1 & 2 \\ \hline 0 & 0.1 & 0.2 & 0 \\ \hline 1 & 0 & 0.4 & 0.3 \\ \hline \end{array}\] \[\begin{array}{l} E[X Y]=1 \times 1 \times 0.4+2 \times 1 \times 0.3=1.0 \\ E[X]=1 \times 0.6+2 \times 0.3=1.2 \\ E[Y]=1 \times 0.7=0.7 \\ \operatorname{Cov}(X, Y)=E[X Y]-E[X] E[Y]=1.0-1.2 \times 0.7=0.16 \end{array}\]

상관계수 (corelation coefficient)

위에서 구한 공분산은 각 확률 변수의 절대적인 크기에 영향을 받는다. 그러므로, 단위에 의한 영행을 없앨 필요가 있따. 이를 상관계수 라고 한다.

\[\rho=\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}\left(X^{\prime}, Y\right)}{\sigma_{X} \sigma_{Y}}\]

예제

\[\begin{array}{l} \operatorname{Var}[X]=E\left[X^{2}\right]-[E(X)]^{2}=1^{2} \times 0.6+ \\ 2^{2} \times 0.3-(1.2)^{2}=0.36 \\ \sigma_{X}=\sqrt{\operatorname{Var}[X]}=\sqrt{0.36}=0.6 \\ \operatorname{Var}[Y]=E\left[Y^{2}\right]-[E(Y)]^{2}=1^{2} \times 0.7-(0.7)^{2}= \\ 0.21 \\ \sigma_{Y}=\sqrt{\operatorname{Var}[Y]}=\sqrt{0.21}=0.458 \\ \rho=\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}(X, Y)}{\sigma_{X} \sigma_{Y}}=\frac{0.16}{0.6 \times 0.458}=0.582 \end{array}\]