[확률과 통계] 추정
on
추정
모집판의 모수(모평균, 모분산…)을 예측 하는 것
표본 평균의 특성
모집단이 정규분포인 경우
- 표본 평균(sample mean)이 사용
- $\bar{X}=\frac{X_{1}+X_{2}+\cdots+X_{n}}{n}=\frac{\sum_{i=1}^{n} X_{1}}{n}$
- $\bar{X}$ 는 모평균 $\mu$ 의 추정에 사용되는 통계량
대표본인 경우
- 중심극한 정리에 의해 표본 평균이 정규 분포를 따른 다고 가정한다.
점추정
표본 평균이 일종의 점 추청값 즉, 추정량이 된다. 우리가 관심 있는 것은 표본을 통해서 모집단의 모수를 파악 하고 싶다. 그에 대한 추정 하는 방법이 있고 지금 까지 표본 평균을 구하는 방식은 모집단의 모수를 점 추정을 통해 구하는 방식 이였다.
>>> import numpy as np
>>> samples = [9,4,0,8,1,3,7,8,4,2]
>>> np.mean(samples)
4.6
구간 추정
점 추정을 이용한 방법 뿐만 아니라, 구간을 추정하는 방법도 있다. 이에 대한 대표적인 방법론이 신뢰구간 이다.
예를 들어 모평균 $\mu$ 가 100이라고 가정해보자. 모집단에서 임의의 샘플을 뽑아서 표본 평균을 구했다고 가정해보자, 이때 뽑은 표본 평균이 $1 \leq \mu \leq 10000$ 이 법위 안에 들어 가는가? 라고 물어보면 100% 확실한 추정이지만, 추정의 가치가 없다 할수 있다. 왜냐하면 모평균으로 추정될 수 있는 값이 너무 많기 때문이다.
반면, $98 \leq \mu \leq 102$ 라고 추정범위를 줄여서 추정 한다면, 오차가 생길 가능성이 높아 지지만 추정 될 수 있느 값이 몇개 없으므로 추정으로서의 가치가 높다. 정리하면, 1. 유용한 추정범위(=신뢰구간) 2. 그 추정범위를 어느정도 믿을 수 있는지(=신뢰도)를 판단 해야 한다.
신뢰구간 (confidence interval)
표본 평균을 이용해서 구간을 추정하게 된다. 이 구간 안에 우리가 관심있는 모집단의 모수인 모평균($\mu$)가 존재 할 것이다를 확률로써 나타내 준다. 보통 95%, 99% 신뢰도로 많이 사용하고 임의의 신뢰도를 사용해도 된다.
$\alpha$%의 신뢰구간
- 95% 의 신뢰도 $\rightarrow$ 5%의 유의 수준
- 99% 의 신뢰도 $\rightarrow$ 1%의 유의 수준
$\alpha$%의 신뢰구간를 정리하면 위와 같고, 신뢰구간을 구하기위해 우선 신뢰도를 통해 범위를 구해보자. 신뢰도가 $\alpha$%일 때, 표준정규분포에서의 범위가 어디부터 어디까지인지 살펴보자.
95%의 신뢰구간을 표준 정규분포를 활용하여 나타내면 다음과 같이 나타낼 수 있다.
\[\begin{array}{c} P(0 \leq Z \leq 1.96)=0.475 \\ P(-1.96 \leq Z \leq 1.96)=0.95 \end{array}\\ P\left(-1.96 \leq \frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}} \leq 1.96\right)=0.95\\ P\left(\bar{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96 \frac{\sigma}{\sqrt{n}}\right)=0.95\]신뢰구간 95%에서 모평균 $\mu$는 $P\left(\bar{X}-1.96 \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+1.96 \frac{\sigma}{\sqrt{n}}\right)=0.95$ 의 범위를 갖는다 라는 것을 식의 변형을 통해 알아 보았다. 이를 99%으로 신뢰도에 같은 방식으로 적용가능하다. 이를 정리하면 다음과 같다.
모평균 $\mu$ 의 $100(1-\alpha) \%$ 신뢰구간
\[\text { ( } \mu \text { 의 추정량) } \pm z_{\alpha / 2} \times \text { (추정량의 표준편차) }\]정규 분포에서 $\sigma$ 를 알 때,
\[\left(\bar{x}-z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}, \quad \bar{x}+z_{\alpha / 2} \frac{\sigma}{\sqrt{n}}\right)\]이렇게 해서 신뢰구간 즉, 구간을 추정 할 수 있다. 하지만, 이러한 방식에는 실용적이지 못한 측면이 있다. 정규분포가 아니거나 표준 편차가 알려져 있지 않은 상황에서는 사용하기 어렵다.
중심극한 정리 사용
표본의 크기가 클 때, 중심극한정리를 사용 할 수 있다. 즉, 모표준편차 $\sigma$를 모르는 경우, 표본표준편자 $S$를 이용할 수 있다.
\[( \mu \text{의 추정량}) \pm z_{\alpha / 2} \text{(추정량의 표준편차)} \\ \left(\bar{x}-z_{\alpha / 2} \frac{s}{\sqrt{n}}, \quad \bar{x}+z_{\alpha / 2} \frac{s}{\sqrt{n}}\right) \\ s, \text{표준표본편차}\]신뢰구간의 의미
표본들의 신뢰구간 분포
표본들의 신뢰구간의 분포를 표시 해보자. 표본들의 평균, 표준편차가 다르므로 각 신뢰구간의 위치와 길이가 모두 다르다.
“모평균 $\mu$ 의 신뢰도 95% 신뢰구간”의 의미
표본의 크기가 $n$인 표본을 계속 추출 해서 신뢰구간을 구하는 일을 반복 한다면, 그 신뢰 구간의 95% 정도가 모평균 $\mu$를 포함 한다.
표본을 추출하다 보면, 표본을 추출 할 때마다 샘플들이 바뀔 것이다. 그러다 보면 각 샘플의 평균과 분산도 달라지게 될 것이다. 그렇게 되면 최종적으로 각 샘플의 신뢰구간도 다르게 표현 될 것이다. 이를 그림으로 표현 하면 다음과 같다.
각 샘플의 신뢰구간 마다 모평균 $\mu$ 이 포함 되어 있으면 샘플의 신뢰구간이 모평균을 포함한다. 라고 말한다. 하지만, $\bar{X_3}$ 처럼 샘플의 신뢰구간이 모평균을 포함하지 못할 수도 있다.
위 그림 처럼 100개의 샘플을 뽑았다고 가정해보자. “모평균 $\mu$ 의 신뢰도 95% 신뢰구간”의 의미는 표본의 신뢰구간 100개 중 95개 정도가 모평균 $\mu$ 을 포함한다는 의미이다.
모평균 추청 과정
지금 부터 모평균을 추정하는 과정을 살펴보자. 빨간 점선은 추정을 의미한다.
모평균을 포함하는 구간이 1개인 경우
모평균을 포함하는 구간이 2개인 경우
모평균을 포함하는 구간이 95개인 경우
따라서, 지금 꼿은 95개의 샘플의 표본구간을 포함하는 저 저점이 모평균 $\mu$ 가 될 것이다고 추정하는 것이다.
모비율의 추정
점 추정
- 확률 변수 $X$ : n개의 표본에서 특정 속성을 갖는 표본의 개수
- 모비율 p의 점 추정량: $\hat{p}=\frac{X}{n}$
예제
대학교 1학년생의 흡연율을 조사하기 위해 150 명을 랜덤하게 선택하여 흡연여부를 조사하였다. 이 중 48 명이 흡연을 하고 있었다. 이 대학교 1학년생의 흡연율의 평균을 점추정하시오.
풀이
- $n=150, X=48$
- $\hat{p}=\frac{X}{n}=\frac{48}{150}=0.32$
위 식을 통해 평균 흡연율을 32%으로 추정된다
구간 추정
$n$ 이 충분히 클 때
- $n \hat{p}>5, n(1-\hat{p})>5 \text { 일 때 }$
- $X \sim N(n p, n p(1-p))$ 이 것을 따른다고 가정 할 수 있다
확률 변수 X의 표준화
\[Z=\frac{X-n p}{\sqrt{n \hat{p}(1-\hat{p})}}=\frac{\hat{p}-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}}\\ \text { 근사적으로 표준정규분포 } N(0,1) \text { 를 따름 }\]신뢰 구간 유도
\[P\left(|Z| \leq z_{\alpha / 2}\right)=1-\alpha \\ P\left(-z_{\alpha / 2} \leq Z \leq z_{\alpha / 2}\right)\\=P\left(-z_{\alpha / 2} \leq \frac{p-p}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}} \leq z_{\alpha / 2}\right) \\ =P\left(\hat{p}-z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+z_{\alpha / 2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)\\=1-\alpha\]모비율 $p$의 100(1-$\alpha$)% 신뢰구간
\[\left(\hat{p}-z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+z_{\frac{\alpha}{2}} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)\]예제 #1
대학교 1학년생의 흡연율을 조사하기 위해 150 명을 랜 덤하게 선택하여 흡연여부를 조사하였다. 이 중 48 명이 흡연을 하고 있었다. 흡연율 $p$ 의 $95 \%$ 신뢰구간 (confidence interval) 을 구하시오.