[확률과 통계] 확률변수, 확률분포
on
확률 변수 (Random Variable)
랜던함 실험 결과에 의존하는 실수(Real Number)을 의미한다. 즉, 표본 공간의 부분 집합에 대응하는 실수를 의미한다. 즉, 표본공간에서 실수로 대응되는 함수로 정의 된다. 보통 $X$나 $Y$같은 대문자로 표시한다.
예를 들어, 주사위 2개를 던지는 실험을 가정 해보자.
- 주사위 숫자의 합 $\Rightarrow$ ‘‘하나의 확률 변수’’ 로 볼 수 있고
- 주사의 숫자의 차 $\Rightarrow$ ‘‘하나의 확률 변수’’ 로 볼 수 있다.
혹은 동전 10개를 던지는 실험을 가정해보자. 다음과 같이 확률 변수로 설정 가능하다.
- 동전의 앞면의 수
- 첫번째 앞면이 나올 때까지 던지 횟수
이산 확률 변수
이산 확률 변수(discrete random variable)는 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우 이산 확률변수라고 정의한다. 예를 들어 주사위, 동전과 같은 확률 변수
연속 확률 변수
연속확률변수(continous random variable)는 셀 수 없는 경우를 정의할 때 사용된다. 예를 들어, 남학생의 키를 랜덤하게 선택할 경우 셀 수 없는 무수히 많은 값들이 존재한다.
확률 분포 (random distribution)
확률 분포(random distribution)란 확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계를 말한다.
예를 들어, 어떤 확률 변수 X가 가질 수 있는 값이 (0,1,3,8)이라고 가정 해보자. 이때 각 값이 나올 확률은 다음과 같다.
\[\begin{array}{l} P(X=0)=0.2 \\ P(X=1)=0.1 \\ P(X=3)=0.5 \\ P(X=8)=0.2 \end{array}\]이렇게 확률로 대응 시켜 주는 것을 확률 분포라고 한다.
확률 분포의 표현
사실 확률 분포를 표현하는 방법은 매우 다양하다. 왜냐하면 확률 변수가 갖을 수 있는 값을에 대해서만 대응 시켜주면 되기 때문이다. 표, 그래프, 함수 등으로 표현이 가능하다.
예제
주사위 2개를 던지는 실험을 가정해 보자 이 때, 다음과 같이 확률 변수를 정의 할 수 있다.
- 확률 변수 $X$: 주사위 숫자의 합
- $X$가 가질 수 있는 값 = {2, 3, …, 12}
- $P(X=12)=\frac{1}{36}$
- 확률 변수 $Y$: 주사위 숫자의 차
- $Y$가 가질 수 있는 값 = {0,1,2, … , 5}
- $P(Y=5)=\frac{2}{36}=\frac{1}{18}$
사실, 위의 예제에서 살펴 보았듯이 주사위를 던질 떄마다 X의 값이 달라질 수 있다. $n$번 실험하면 $n$개의 숫자가 나온다. 이 $n$개의 숫자의 평균과 분산을 계산 가능 하다. 즉, 확률 변수 $X$는 평균과 분산을 가진다. 이를 우리는 모집단의 평균과 분산이라고 할 수 있다.
이산 확률 분포
이산 확률 변수의 확률 분포
이산 확률 변수의 확률 분포는 보통 함수로 주어진다. 다음은 확률 변수 X가 x라는 값을 갖을 확률을 뜻한다.
\[P(X=x)=f(x)\]
예제
확률 변수 X가 가질 수 있는 값: 0, 2, 5을 갖을 수 있고 다음과 같이 이산확률변수의 함수가 주어졌다.
$P(X=x)=f(x)=\frac{x+1}{10}$
\[\begin{array}{l} P(X=0)=0.1 \\ P(X=2)=0.3 \\ P(X=5)=0.6 \end{array}\]이산확률변수의 평균
이산확률변수의 평균은 기댓값(expected value)라고도 한다.
\[E(X)=\sum_{x} x P(X=x)=\sum_{x} x f(x)\]
예를 들어 100,000번의 실험을 했다면,
- 0 이 대략적으로 10,000 번 나옴
- 2가 대략적으로 30,000 번 나옴
- 5가 대략적으로 60,000 번 나왔다고 가정해보자.
따라서, 평균은 다음과 같이 구해진다.
\[\begin{array}{l} \frac{(0 \times 10,000+2 \times 30,000+5 \times 60,000)}{100,000} \\ =0 \times 0.1+2 \times 0.3+5 \times 0.6=3.6 \end{array}\]즉, 위에서 설명한 이산확률변수의 평균과 일치하게 된다.
이산확률변수의 분산
확률 변수 이전에 우리는 분산을 다음과 같은 식으로 계산 했다.
\(\sigma^{2}=\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}\) 바꿔 말하면 우리는 $(X-\mu)^{2}$의 평균을 구한 것이다. 즉, 우리는 $E\left[(X-\mu)^{2}\right]$ 이것을 구하는 것이고, 위에서 구한 이산 확률 변수의 평균을 구하는 공식을 사용하면 $\sum_{x}(x-\mu)^{2} P(X=x)$ 을 구하는 것으로 식이 바뀌게 된다. 이를 정리하면 다음과 같다.
\[\sigma^{2}=E\left[(X-\mu)^{2}\right]=\sum_{x}(x-\mu)^{2} P(X=x)\]분산을 $Var(X)$라고도 표현한다.
이산확률변수의 표준 편차
\[\sqrt{\sigma^{2}}=\sigma\]위와 같이 구하고 $SD(X)$ 라고도 표기 한다.
예제
다음과 같이 확률변수 X의 확률분포가 표로 주어졌다고 가정 해보자
\[\begin{array}{|c|c|c|c|c|} \hline x & 0 & 1 & 2 & 3 \\ \hline P[X=x] & 0.2 & 0.3 & 0.1 & 0.4 \\ \hline \end{array}\]다음과 같이 기댓값과 분산, 표준 편차를 구할 수 있다.
\[\begin{array}{l} E(X)&=\sum_{x} x P(X=x)\\ &=0 \times 0.2+1 \times 0.3+2 \times 0.1+ 3 \times 0.4=1.7 \\ \sigma^{2}&=\sum_{x}(x-\mu)^{2} P(X=x)\\ &=(0-1.7)^{2} \times 0.2+ (1-1.7)^{2} \times 0.3+(2-1.7)^{2} \times 0.1+(3-1.7)^{2} \times 0.4=1.41 \\ \sigma&=\sqrt{1.41}=1.187 \end{array}\]확률 변수 X의 분산: 간편식
이산확률변수의 분산을 다음과 같이 정리하여 간편하게 구할 수 있다.
\[\begin{align} \sigma^{2}&=\sum_{x}(x-\mu)^{2} P(X=x)\tag{1}\\ &=\sum_{x}\left(x^{2}-2 \mu x+\mu^{2}\right) P(X=x)\tag{2} \\ &=\sum_{x} x^{2} P(X=x)-\sum_{x} 2 \mu x P(X=x)+\sum_{x} \mu^{2} P(X=x)\tag{3} \\ &=E\left(X^{2}\right)-2 \mu \sum_{x} x P(X=x)+\mu^{2} \sum_{x} P(X=x)\tag{4} \\ &=E\left(X^{2}\right)-2 \mu^{2}+\mu^{2\tag{5}}\\ &=E\left(X^{2}\right)-\mu^{2\tag{6}}\\ &=E\left(X^{2}\right)-\{E(X)\}^{2} \end{align}\](3)번 식의 경우, $\sum_{x} x^{2} P(X=x)$ 의 의미는 $x^2$ 과 확률을 곱한 것에 평균임으로 $E\left(X^{2}\right)$ 으로 표현이 가능하고.
(4)번식의 경우, $\mu^{2} \sum_{x} P(X=x)$ 의 의미는 단순히 확률값의 합에 평균 제곱을 곱한 의미이다. 확률 값을 다 더하면 1이므로 $\mu^{2}$ 만 남게 된다.
결합 확률 분포 (Joint probability disttribution)
두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계를 일 컷는다.
- 확률 변수 X: 한 학생이 가지는 휴대폰의 수(열)
- 확률 변수 Y: 한 학생이 가지는 노트북의 수(행)
이 두 확률 변수를 다음과 같이 결합 확률 분포 표로 나타 낼 수 있다.
\[\begin{array}{|l|l|l|l|} \hline & 0 & 1 & 2 \\ \hline 0 & 0.1 & 0.2 & 0 \\ \hline 1 & 0 & 0.4 & 0.3 \end{array}\]주변 확률 분포 (marginal probability distirbution)
결합 확률 분포를 통해 확률 변수의 확률 분호를 도출 해 낼 수 있다. 이를 주변 확률 분포라고 정의 한다.
X의 확률 분포
\[\begin{array}{|c|l|l|l|} \hline x & 0 & 1 & 2 \\ \hline P[X=x] & 0.1 & 0.6 & 0.3 \\ \hline \end{array}\]Y의 확률 분포
\[\begin{array}{|c|l|l|} \hline y & 0 & 1 \\ \hline P[Y=y] & 0.3 & 0.7 \\ \hline \end{array}\]공분산
위에서 구한 결합 확률 분포를 통해 두 확률 변수가 어떤 관계를 가지고 있는 지를 확인 해 볼 수 있다. 예를 들면 다음과 같이 고등학교 1학년 학생들을 다음과 같은 확률 변수로 정의한다고 가정 해보자
\[\begin{array}{l} \text { 확률 변수 } X \text { :키 } \\ \text { 확률 변수 } Y \text { : 몸무게 } \\ \text { 확률 변수 } Z \text { : 수학성적 } \end{array}\]이때, 한 학생의 대해서(랜덤하게 뽑았을 때) $\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)$ 이 값은 과연 어떻게 될까? 상식적으로 생각해보면 키가 클 수록 몸무게가 작게 나오기 떄문에 양일 가능 성이 높다. 혹은, $\left(X-\mu_{X}\right)\left(Z-\mu_{Z}\right)$ 일 경우에는 어떨까? 키와와 성적이 관련이 있을까? 우리는 이 두곱의 관계가 궁금하다. 그러므로 이 두 관계를 확률 변수로 놓고 생각 해 볼 수 있다. 그 말은 각각 평균과 분산을 구할 수 있게 된다.
공분산의 정의
위에서 설명한, $\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)$ 의 평균을 뭐라고 표현 할까? 이를 바로 확률 변수 X와 Y의 공분산이라고 표현한다.
\[\begin{array}{r} \operatorname{Cov}(X, Y)=E\left[\left(X-\mu_{X}\right)\left(Y-\mu_{Y}\right)\right] \\ =E(X Y)-\mu_{X} \mu_{Y}=E[X Y]-E[X] E[Y] \end{array}\]이 공분산을 구하면, 확률 변수 X와 Y의 관계를 쉽게 알 수 있다.
예제
다음과 같이 확률 변수 $X$(열)와 $Y$(행)가 주여 졌을 때 공분산을 구하라.
\[\begin{array}{|l|l|l|l|} \hline & 0 & 1 & 2 \\ \hline 0 & 0.1 & 0.2 & 0 \\ \hline 1 & 0 & 0.4 & 0.3 \\ \hline \end{array}\] \[\begin{array}{l} E[X Y]=1 \times 1 \times 0.4+2 \times 1 \times 0.3=1.0 \\ E[X]=1 \times 0.6+2 \times 0.3=1.2 \\ E[Y]=1 \times 0.7=0.7 \\ \operatorname{Cov}(X, Y)=E[X Y]-E[X] E[Y]=1.0-1.2 \times 0.7=0.16 \end{array}\]상관계수 (corelation coefficient)
위에서 구한 공분산은 각 확률 변수의 절대적인 크기에 영향을 받는다. 그러므로, 단위에 의한 영행을 없앨 필요가 있따. 이를 상관계수 라고 한다.
\[\rho=\operatorname{Corr}(X, Y)=\frac{\operatorname{Cov}\left(X^{\prime}, Y\right)}{\sigma_{X} \sigma_{Y}}\]