[확률과 통계] 추정

추정

모집판의 모수(모평균, 모분산…)을 예측 하는 것

표본 평균의 특성

모집단이 정규분포인 경우

대표본인 경우

점추정

표본 평균이 일종의 점 추청값 즉, 추정량이 된다. 우리가 관심 있는 것은 표본을 통해서 모집단의 모수를 파악 하고 싶다. 그에 대한 추정 하는 방법이 있고 지금 까지 표본 평균을 구하는 방식은 모집단의 모수를 점 추정을 통해 구하는 방식 이였다.

>>> import numpy as np
>>> samples = [9,4,0,8,1,3,7,8,4,2]
>>> np.mean(samples)
4.6


구간 추정

점 추정을 이용한 방법 뿐만 아니라, 구간을 추정하는 방법도 있다. 이에 대한 대표적인 방법론이 신뢰구간 이다.

예를 들어 모평균 $\mu$ 가 100이라고 가정해보자. 모집단에서 임의의 샘플을 뽑아서 표본 평균을 구했다고 가정해보자, 이때 뽑은 표본 평균이 $1 \leq \mu \leq 10000$ 이 법위 안에 들어 가는가? 라고 물어보면 100% 확실한 추정이지만, 추정의 가치가 없다 할수 있다. 왜냐하면 모평균으로 추정될 수 있는 값이 너무 많기 때문이다.

반면, $98 \leq \mu \leq 102$ 라고 추정범위를 줄여서 추정 한다면, 오차가 생길 가능성이 높아 지지만 추정 될 수 있느 값이 몇개 없으므로 추정으로서의 가치가 높다. 정리하면, 1. 유용한 추정범위(=신뢰구간) 2. 그 추정범위를 어느정도 믿을 수 있는지(=신뢰도)를 판단 해야 한다.


신뢰구간 (confidence interval)

표본 평균을 이용해서 구간을 추정하게 된다. 이 구간 안에 우리가 관심있는 모집단의 모수인 모평균($\mu$)가 존재 할 것이다를 확률로써 나타내 준다. 보통 95%, 99% 신뢰도로 많이 사용하고 임의의 신뢰도를 사용해도 된다.

$\alpha$%의 신뢰구간

$\alpha$%의 신뢰구간를 정리하면 위와 같고, 신뢰구간을 구하기위해 우선 신뢰도를 통해 범위를 구해보자. 신뢰도가 $\alpha$%일 때, 표준정규분포에서의 범위가 어디부터 어디까지인지 살펴보자.

95%의 신뢰구간을 표준 정규분포를 활용하여 나타내면 다음과 같이 나타낼 수 있다.

\[\begin{array}{c} P(0 \leq Z \leq 1.96)=0.475 \\ P(-1.96 \leq Z \leq 1.96)=0.95 \end{array}\\ P\left(-1.96 \leq \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \leq 1.96\right)=0.95\\ P\left(\bar{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96 \frac{\sigma}{\sqrt{n}}\right)=0.95\]


신뢰구간 95%에서 모평균 $\mu$는 $P\left(\bar{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96 \frac{\sigma}{\sqrt{n}}\right)=0.95$ 의 범위를 갖는다 라는 것을 식의 변형을 통해 알아 보았다. 이를 99%으로 신뢰도에 같은 방식으로 적용가능하다. 이를 정리하면 다음과 같다.


모평균 $\mu$ 의 $100(1-\alpha) \%$ 신뢰구간

\[\text { ( } \mu \text { 의 추정량) } \pm z_{\alpha / 2} \times \text { (추정량의 표준편차) }\]


정규 분포에서 $\sigma$ 를 알 때,

\[\left(\bar{x}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}, \quad \bar{x}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)\]

이렇게 해서 신뢰구간 즉, 구간을 추정 할 수 있다. 하지만, 이러한 방식에는 실용적이지 못한 측면이 있다. 정규분포가 아니거나 표준 편차가 알려져 있지 않은 상황에서는 사용하기 어렵다.


중심극한 정리 사용

표본의 크기가 클 때, 중심극한정리를 사용 할 수 있다. 즉, 모표준편차 $\sigma$를 모르는 경우, 표본표준편자 $S$를 이용할 수 있다.

\[( \mu \text{의 추정량}) \pm z_{\alpha / 2} \text{(추정량의 표준편차)} \\ \left(\bar{x}-z_{\alpha / 2} \frac{s}{\sqrt{n}}, \quad \bar{x}+z_{\alpha / 2} \frac{s}{\sqrt{n}}\right) \\ s, \text{표준표본편차}\]


신뢰구간의 의미

표본들의 신뢰구간 분포

표본들의 신뢰구간의 분포를 표시 해보자. 표본들의 평균, 표준편차가 다르므로 각 신뢰구간의 위치와 길이가 모두 다르다.

image-20210508103521567

“모평균 $\mu$ 의 신뢰도 95% 신뢰구간”의 의미

표본의 크기가 $n$인 표본을 계속 추출 해서 신뢰구간을 구하는 일을 반복 한다면, 그 신뢰 구간의 95% 정도가 모평균 $\mu$를 포함 한다.

표본을 추출하다 보면, 표본을 추출 할 때마다 샘플들이 바뀔 것이다. 그러다 보면 각 샘플의 평균과 분산도 달라지게 될 것이다. 그렇게 되면 최종적으로 각 샘플의 신뢰구간도 다르게 표현 될 것이다. 이를 그림으로 표현 하면 다음과 같다.

각 샘플의 신뢰구간 마다 모평균 $\mu$ 이 포함 되어 있으면 샘플의 신뢰구간이 모평균을 포함한다. 라고 말한다. 하지만, $\bar{X_3}$ 처럼 샘플의 신뢰구간이 모평균을 포함하지 못할 수도 있다.

image-20210508103754490

위 그림 처럼 100개의 샘플을 뽑았다고 가정해보자. “모평균 $\mu$ 의 신뢰도 95% 신뢰구간”의 의미는 표본의 신뢰구간 100개 중 95개 정도가 모평균 $\mu$ 을 포함한다는 의미이다.

모평균 추청 과정

지금 부터 모평균을 추정하는 과정을 살펴보자. 빨간 점선은 추정을 의미한다.

모평균을 포함하는 구간이 1개인 경우

image-20210508104743562

모평균을 포함하는 구간이 2개인 경우

image-20210508104950697

모평균을 포함하는 구간이 95개인 경우

image-20210508104935612

따라서, 지금 꼿은 95개의 샘플의 표본구간을 포함하는 저 저점이 모평균 $\mu$ 가 될 것이다고 추정하는 것이다.


모비율의 추정

점 추정

예제

대학교 1학년생의 흡연율을 조사하기 위해 150 명을 랜덤하게 선택하여 흡연여부를 조사하였다. 이 중 48 명이 흡연을 하고 있었다. 이 대학교 1학년생의 흡연율의 평균을 점추정하시오.

풀이

위 식을 통해 평균 흡연율을 32%으로 추정된다


구간 추정

$n$ 이 충분히 클 때

확률 변수 X의 표준화

\[Z=\frac{X-n p}{\sqrt{n \hat{p}(1-\hat{p})}}=\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\\ \text { 근사적으로 표준정규분포 } N(0,1) \text { 를 따름 }\]

신뢰 구간 유도

\[P\left(|Z| \leq z_{\alpha / 2}\right)=1-\alpha \\ P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)\\=P\left(-z_{\alpha / 2} \leq \frac{p-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \leq z_{\alpha / 2}\right) \\ =P\left(\hat{p}-z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)\\=1-\alpha\]

모비율 $p$의 100(1-$\alpha$)% 신뢰구간

\[\left(\hat{p}-z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)\]

예제 #1

대학교 1학년생의 흡연율을 조사하기 위해 150 명을 랜 덤하게 선택하여 흡연여부를 조사하였다. 이 중 48 명이 흡연을 하고 있었다. 흡연율 $p$ 의 $95 \%$ 신뢰구간 (confidence interval) 을 구하시오.

풀이

\[\begin{array}{l} \alpha=0.05, z \frac{\alpha}{2}=z_{0.025}=1.96, \hat{p}=0.32 \\ \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}=\sqrt{\frac{(0.32)(0.68)}{150}}=0.038 \\ (0.32-1.96 \times 0.038,0.32+1.96 \times 0.038)=(0.245,0.395) \end{array}\]

출처