통계학 해설

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

지식저장고

통계학 해설 본문

지식사전/기타

통계학 해설

과학주의자 2025. 12. 23. 18:48

통계학은 대량의 자료를 연구하는 수학 분과의 하나이다. 무수히 많은 데이터 속에서 패턴을 발견하고 진리를 향해 나아가는 학문이 바로 통계학이다. 그런 점에서 통계학은 무수히 많은 데이터로 진리를 향해 나아가는 과학과 비슷하고, 실제로 많은 과학 분야가 통계적 방법을 사용한다.

통계적 방법을 알기 위해 반드시 통계학을 이해할 필요는 없다. 대다수의 과학자는 그저 자신에게 필요한 정도의 통계만을 배운다. 그러나 이를 넘어 통계의 본질을 이해하고자 하는 당신과 같은 사람들은 그에 따른 보상을 톡톡히 받으리라 믿는다.

이 분야의 주요 저서로는 <통계학의 이해(이용구 & 김삼용, 율곡출판사,2016)>가 있다.

통계학은 나무위키에도 자세한 내용이 실려 있다. 그러니 나무위키 및 다른 사이트와 이 글을 함께 보면 도움이 될 것이다.

심리측정학

https://tsi18708.tistory.com/217

심리측정학은 사실상 고급응용통계학이기도 하다. 심리측정학의 연구는 대개 수학연구이며, 다루는 내용은 거의 통계학이다. 그래서 심리측정학 기법이 심리학에서 사용되긴 하지만, 다른 분야에서도 얼마든지 사용이 가능하다.

가설검정

https://tsi18708.tistory.com/386

가설검정은 가장 중요한 영역 중 하나이다. 대부분의 사회과학자들과 생물학자들은 가설을 검증하기 위해 통계를 활용하기 때문이다. 단순한 예측을 넘어 통계적 추론으로 참과 거짓을 판단하는 일은 가장 정교한 통계적 예술이기도 하다.

회귀분석

https://tsi18708.tistory.com/382

모수의 추정은 평균처럼 뻔한 정보만 알려준다는 한계가 있다. 가설검정은 어떤 이론이 타당한지만 알려주고, 두 변수의 관계가 정확히 얼마 정도인지는 알려주지 못한다는 한계가 있다. 한 변수를 중심으로 다른 변수를 예측하고, 그 예측의 방정식이 타당한지 검증하는 회귀분석은 그런 의미에서 고급통계의 시작이라고 할 수 있다.

1.개요

통계(statistic)란 데이터에 대한 요약된 표현을 말한다. 우리가 아는 평균은 조사한 집단이 보통 어느 수준 정도인지 요약해서 알려주고, 표준편차는 평균에서 어느 정도 벗어나 있는지 요약해서 알려준다. 특히 통계 중 조사하는 대상을 측정한 결과들인 원자료를 단순히 요약하는 통계를 기술통계(descriptive statistic)라 한다. 여론조사(poll)가 대표적인 기술통계로, 이러한 통계는 수치로도 보일 수 있고 그림으로 표현할 수도 있지만, 통계학에서는 보통 수치로 표현한다. 통계는 그 특성상 원자료의 손실이 발생하게 되는데, 통계학에서는 최대한 원자료를 간단하게 표현하면서도 원자료의 손실을 최소화하는 이중의 과제를 가지고 있다.

통계학(statistics)은 바로 이 통계를 연구하는 수학을 말한다. 정확히 말해 통계학은 통계를 정리 및 분석하는 방법(statistical analysis, statistical inference, 통계분석, 통계적 추론)을 연구하는 수학이다. 이용구와 김삼용^[각주:1]은 통계학을 '불확실한 현상을 대상으로 자료를 수집하고 정리해, 모집단에 대한 적절한 모형을 설정하고 추정, 검정, 예측을 하는 학문'이라고 정의하였다. 통계학은 다시 확률론, 가설검정 등 통계학의 기초 수학이론에 대해 연구하는 수리통계학과, 표본이론, 회귀분석 등 실제 데이터를 수집하고 분석하는 방법을 연구하는 응용통계학으로 나눌 수 있다.

모집단(population)이란 통계학에서 분석의 대상이 되는 집단을 말한다. 여기서 모집단에 속하는 개체를 집합에서와 마찬가지로 원소(element)라고 한다. 그리고 모집단의 특성을 나타내는 값을 모수(parameter)라고 한다. 평균(mean)과 분산(variance)이 이러한 모수에 해당하고, 보통 그리스 문자로 표기한다. 모수는 통계분석을 시행하는 과학 분야에서 찾고자 하는 값이기도 하며, 모집단을 직접 조사하여(census, 센서스, 총조사) 모수를 알아낼 수 있다.

그러나 실제 대부분의 통계조사는 비용과 현실적 한계로 모집단이 아닌 표본을 조사한다. 표본을 조사하여 모수를 완전하게 알아내는 것은 불가능하기 때문에, 대부분은 모수를 추정(estimation)할 뿐이다. 표본의 특성을 나타내는 값을 통계량(statistic)이라 하며, 이 중 모수를 추정하는 통계량을 estimator(추정치)라 하고 estimator의 값을 estimate(추정량)이라 하는데, 가령 모집단의 평균(population mean, μ, 모평균)을 추정하는 경우 표본평균(m)을 estimator라 하고 표본평균의 실제 값을 estimate라 한다.

모수(혹은 통계량)는 자료의 중심을 나타내는 모수와, 자료의 흩어짐을 나타내는 모수로 나눌 수 있다. 자료의 중심을 나타내는 값을 대푯값이라 하며, 평균과 중앙값, 최빈값이 여기 해당한다. 이 중 최빈값은 모수가 존재하지 않는 비수량적 자료에도 존재할 수 있다. 세 값 중 평균은 표본의 분포와 소수의 극단치에 영향을 받기 때문에 표본에 따라 평균의 차이가 크다는 한계가 있다. 하지만 동시에 셋 중 통계량으로 모수를 추론할 수 있는 값은 평균이 유일하기 때문에 통계분석에서는 주로 평균을 사용한다. 자료의 흩어짐을 나타내는 모수는 산포도(변산도)라고 하는데, 분산과 범위, 사분위수, 편차 등이 여기 속한다.

모수만큼 중요한 개념은 가설검정이다. 가설검정(hypothesis test, testing hypothesis)은 모집단에 대해 2개의 서로 다른 가설을 설정하고, 수집된 자료를 통해 가장 적절한 가설을 설정하는 수학적 과정이다. 가설검정은 모집단이 특정 분포를 따른다는 전제 하에 분포의 모수값을 추정하는 모수적 방법이 있고, 그러한 가정없이 실시하는 비모수적 방법이 있다.

통계적 분석은 분석하는 자료의 특성에 따라 다양하다. 측정 수준#에 따라 사용이 가능한 분석 방법이 있고 아닌 방법이 있다. 값을 수치로 제시할 수 없는 질적 자료(qualitiative data, categorical data, discrete data, 범주형 자료, 이산형 자료)에는 많은 통계분석 기법을 적용할 수 없다. 많은 통계분석 기법은 데이터가 수치를 가진 양적 자료(quantitative data, continuous data, 연속형 자료)를 대상으로 한다.

표본조사#

표본(sample, 샘플)이란 조사를 위해 자료를 수집하는 모집단의 일부를 말한다. 앞서 말했듯 현실적으로 모수를 알기 위해서는 표본을 조사해야 하며, 그렇기 때문에 표본이 모집단의 특성을 잘 반영하도록, 즉 잘 대표하도록 만들어야 모수에 대한 추정도 정확해질 수 있다. 표본의 추출 방법은 확률추출과 비확률추출로 나눌 수 있다. 확률추출(probability sampling)은 모집단의 개체(원소)가 표본으로 뽑힐 가능성이 동일하거나 수학적으로 정해진 경우이고, 그렇지 않은 경우 비확률추출(nonprobability sampling)이라 부른다.

단순랜덤추출법(simple random sampling, 단순확률추출법)은 대표적인 확률추출법 중 하나다. 단순랜덤추출은 말 그대로 랜덤하게 표본을 추출하는 방법으로, 정확히 말하면 모집단에 속한 각 원소가 표본으로 뽑힐 가능성이 동일한 추출법을 말한다. 개념상 가장 단순하고, 모든 원소가 표본으로 뽑힐 확률이 동일하다는 장점이 있다. 그러나 모집단의 형태에 따라 더 나은 방법이 있을 수 있고, 무엇보다 모집단이 매우 큰 경우에는 사실상 불가능하다. 보통 실시하는 경우 난수표를 활용해서 뽑힌 난수에 해당하는 번호의 원소를 추출한다.

계통추출법(systematic sampling)은 모집단에서 특정 간격을 두고 떨어진 원소만 추출하는 방법이다. 엄밀히 말하면 모집단의 처음 k개 원소들 중 하나를 랜덤으로 추출하고, 이후 추출한 원소에서 매 k번째 떨어진 원소들을 추출하는 방법이다. k는 보통 모집단크기(N)/표본크기(n)의 값을 사용하고, 공장에서 품질검사 시에 이런 방법을 종종 사용한다. 이외에 집락추출법도 확률추출에 속한다.

다단층화추출법(multistage stratified sampling)도 유명한 확률추출법 중 하나다. 다단층화추출법은 사회조사에서 사용되는 기법인데, 모집단의 인구학적 비율을 파악한 후 이 비율에 근거해 모집단을 하위집단으로 나눈다. 가령 모집단이 남/녀와 20/30/40대로 구성되어 있다면, 2x3으로 계산해서 각 인구학적 특성이 하나씩 할당된 6개 하위집단으로 모집단을 분할한다. 그리고 각 하위집단에서 무작위로 표본을 추출하여 표본을 만든다. 반면 하위집단 구성까진 동일하나 전화를 걸어 선착순으로 표본에 포함시키는 등 표본추출이 무작위가 아닌 경우 할당추출(quota sampling)이라고 부른다.

수학적으로 확률추출이 비확률추출보다 우수하다. 그러나 현실적으로 확률추출은 어려운데, 이는 대부분의 경우 모집단이 너무 크고, 조사대상이 사람인 경우 무작위로 대상자를 선발해도 그가 참여를 거부할 수 있기 때문이다. 때문에 통계를 사용하는 연구자들은 일반적으로 비확률추출을 사용하며, 대신 비확률추출로도 모수를 추정할 수 있도록 여러 다른 기준을 도입한다.

2.확률론

확률(probability)은 어떤 일이 일어날 가능성을 말한다. 주관적으로 결정되는 주관적 확률롸 객관적 확률로 나눌 수 있다. 주관적 확률은 직관적으로 사람이 판단하는 확률인데, '내일 한 50% 정도 비올듯.'이나 '너 못생겼을 확률 100%'등이 주관적 확률이다. 주관적 확률은 너무 주관적이고 객관적 성질은 없기 때문에 확률론에서는 다루지 않는다. 확률론에서 다루는 확률은 객관적 확률인데, 객관적 확률은 객관적으로 결정되는 확률을 말한다. 객관적 확률에는 고전적 확률과 장기적 상대도수 확률이 존재한다.

장기적 상대도수 확률(통계적 확률)은 수많은 시행을 통해 데이터를 축적해가는 상황에서의 확률이다. 가령 우리가 긴꼬리원숭이의 새끼가 성인이 될 때까지의 생존율을 구한다고 하자. 우리는 긴꼬리원숭이에 대해 아는 것도 없고, 자연에 대해서도 잘 알지 못하기 때문에 사전에 확률을 예측할 수는 없다. 그대신 우리는 새끼들을 일일이 따라다니고 죽었는지 살았는지 알아보면서 개개의 생존여부를 통합하여 생존율을 구해야 한다. 이처럼 장기적 상대도수 확률은 사전확률을 예측하기 어려운 자연적 상황에서 사용된다. 장기적 상대도수 확률은 아래와 같이 표현된다.

확률론에서 확률은 주로 고전적 확률을 말한다. 고전적 확률은 시행에서 나올 수 있는 결과와 분포가 모두 예측되는 상황에서의 확률로, 모든 가능한 경우의 수 중에 특정 사건이 일어날 경우의 수가 차지하는 비중이다. 가령 6연발 리볼버에 탄환 한 발을 장전했을 경우 탄이 발사될 확률은 6분의 1이다. 왜냐하면 리볼버가 6연발이라서 격발했을때 가능한 결과가 불발 5에 발사 1이기 때문이다. 이러한 상황은 가능한 결과가 연역적으로 도출되거나(앞에서처럼), 현상에 대해 충분한 정보가 모아져서 가능한 결과와 그 빈도를 충분히 예측할 수 있는 경우가 해당한다. 고전적 확률은 수학적으로 다음과 같이 표현된다.

P(A)=n(A)/n

P(A)=대상 사건의 고전적 확률

n=전체 가능한 결과들

확률은 표본공간을 전제한다. 표본공간(Ω)은 발생할 수 있는 모든 결과의 집합을 말한다. 가령 주사위를 던지는 경우, {1,2,3,4,5,6}이 표본공간이다. 표본공간의 부분집합을 사건(event, 사상)이라고 부르며, 서로의 교집합이 공집합인 사건을 서로에 대한 상호배반사건(mutually exclusive events)이라고 부른다. 콜모고로프 공리에 따라 확률은 0에서 1 사이고, 전체집합의 확률은 1이며, 상호배반사건들이 동시에 일어날 확률은 각 사건의 확률을 더한 값과 같다.

두 사건 a와 b에 대해, 두 사건 중 하나가 일어날 확률은 다음과 같다.

P(A∪B)=P(A)+P(B)-P(AB)

조합과 순열

확률을 계산하기 위해서는 보통 순열과 조합을 사용한다. 앞서 보았듯이 확률이란 어떤 사건이 일어날 경우의 수를 모든 가능한 경우의 수로 나눈 값이다. 고로 확률을 구하기 위해서는 각 경우의 수를 모두 구해야 하는데, 가능한 경우의 수를 구하는 방법이 순열과 조합이다.

표본을 복원추출하면 중복조합을, 비복원추출하면 그냥 조합을 사용한다. 복원추출(sampling with replacement)은 한번 추출한 원소를 또 추출할 수 있는 방법을 말한다. 반면 비복원추출법(sampling without replacement)은 한번 추출한 원소를 그대로 뽑은채 두고, 다음에는 다른 원소를 추출하는 방법을 말한다.

조건부확률

조건부확률은 어떤 환경 하에서 특정 사건이 나타날 확률로, 수학적으로 설명하면 사건 A가 나타났을때 사건 B가 나타날 확률을 말한다. 이는 A와 B가 공존하는 P(A∩B)를 P(A)로 나눠서 구할 수 있는데, 이를 P(BlA)라 표현한다. 수학적으로는 다음과 같이 표현된다.

이를 형태를 바꾸면 다음과 같은 식으로 표현할 수 있다.

P(A∩B)=P(A)P(BlA)

만약 사건 A와 B가 서로 아무 상관이 없을 경우, 이를 사건 A와 B가 서로 독립적이라고 한다. 내가 과자를 먹을 확률과 당신이 MBA에 진학할 확률은 조금도 상관이 없을 것이다. 이처럼 서로 아무 상관이 없는 사건으로 서로 독립적이라고 표현하며, 이 경우 두 사건이 동시에 일어날 확률은 두 사건이 일어날 확률을 곱해서 얻을 수 있다. 서로 독립인 두 동전을 던지면, 둘 다 앞면이 나올 확률은 반반 해서 25%가 될 것이다. 이를 아래와 같이 표현한다.

P(A∩B)=P(A)P(B)

두 사건이 독립이라면, 공식의 예측은 실제로 맞아 떨어질 것이다. 그러나 만약 두 사건이 서로 독립적이지 않고 연관되어 있다면, 둘은 같지 않을 것이다. 이를 통해 연구하는 두 사건이 서로 독립인지 알 수 있다. 한편 두 사건이 독립이면, 사건 A가 일어났을 때 사건 B가 일어날 확률은 P(A)다. 이를 응용하면 아래와 같은 식도 가능하다.

베이즈확률(베이즈정리)

베이즈정리는 베이즈에 의해 고안된 통계기법으로, 지금까지 축적한 데이터를 토대로 어떤 사건이 일어날 확률을 구하기 위해 고안된 정리이다. 이를 수학적으로 표현하면, 데이터 축적을 통해 알고 있는 사전확률을 통해, 알려지지 않은 사건의 확률인 사후확률을 알아내기 위해 필요한 정리이다. 보통 과학자들은 지금까지 축적된 데이터를 바탕으로 아직 연구되지 않은(그러나 이전에 연구된 것과 관련된) 어떤 사건이 일어날 확률을 계산하기 위해 사용한다. 베이즈정리는 다음과 같다.

증명은 아래와 같다.

한편 여기서

정리의 의미를 알기 위해 예를 들어보자. 어떤 의학자들이 신종 질병에 대응하기 위해 해당 질병을 진단하기 위한 키트를 개발했다. 이를 검증하기 위해 임상실험이 실시되었는데, 신종 질병에 걸린 사람은 전체 피험자의 10%였다. 실험결과 감염자의 95%가 양성 반응을 보였고, 비감염자의 10%가 양성반응을 보였다. 이로써 우리는 감염되었을때, 혹은 감염되지 않았을때 키트가 제대로 작동할지에 대한 데이터를 얻었다. 그렇다면 반대로 생각해보면, 검사결과 양성이 나왔을때 피검자가 실제 신종 질병에 걸렸을 확률은 얼마일까?

여기서 표본집단을 모집단이라 가정할 경우, P(감염자)=0.1이고 P(비감염자)=0.9이다. 그리고 감염자가 검사에서 양성이 나올 확률은 P(양성l감염자)=0.95이고 반대로 P(양성l비감염자)=0.1이다. 이를 A=감염자, B=양성반응으로 하여 위의 공식에 대입하면 식은 다음과 같은 상태가 된다.

P(감염자l양성)=(0.95x0.1)÷(0.95x0.1+0.1x0.9)

이렇게 베이즈정리를 활용하면 임상적으로 파악되는 특성을 바탕으로 검사의 유효도를 평가할 수 있다. 한편 알고자 하는 확률에 서로 독립적인 여러 요소들이 영향을 끼치는 경우 확장된 베이즈 정리를 통해 사후확률을 구할 수 있는데, 하나의 사건 Ax가 일어날 확률에 대해서 확장된 베이즈 정리는 아래와 같다.

확률변수

확률변수는 확률을 값으로 가지는 변수이다. 가령 특정한 변수 x를 n개의 동전이 모두 앞면이 나올 확률로 정의하면, x는 확률변수이다. 확률변수의 정의역은 표본공간이고, 치역은 실수다. 확률변수가 가지는 값과 그 값이 나타날 확률을 도수분포표나 그래프로 나타낸 것을 확률분포라 하는데, 확률분포도 확률변수가 이산적인지 연속적인지에 따라 달라진다.

이산확률분포는 확률변수의 값이 유한하고 불연속적인 경우 나타나는 확률분포이다. 통계학을 배울때 가장 처음 접하게 되는 이항분포가 대표적인 이산확률분포이며, 이외에도 베르누이 분포와 초기하 분포, 푸아송 분포도 이산확률분포에 속한다. 반면 연속확률분포는 확률변수의 값이 무한하고 연속적인 경우인데, 정규분포가 대표적인 연속확률분포이다.

확률분포의 각 값들은 확률변수를 나타내는데, 확률변수는 하나의 함수로 표현될 수 있다. 그럴 때 이산확률변수는 값이 불연속적인 확률질량함수(probability mass function, p.m.f)로, 연속확률변수는 값이 연속적인 확률밀도함수(probability density function, p.d.f)로 표현된다. 수학적으로 pmf는 P(x)로, pdf는 f(x)로 표현되고, pdf는 개별값이 의미가 없다.

pdf는 전구간에서 적분하면 그 값은 1이 된다. 왜냐하면 모든 가능한 확률의 총합은 언제나 1이기 때문이다.(pmf는 불연속이기 때문에 적분불가능) pdf에서 확률은 일정구간을 적분한 값으로 표현할 수 있는데, 가령 x가 a와 b 사이의 값을 가질 확률은 아래와 같이 정의할 수 있다.

확률밀도함수는 누적분포함수의 미분으로 구할 수 있다.

결합확률분포는 두 확률분포가 결합된 경우를 말한다. 가령 주사위를 던지면서 동시에 동전도 던질 때, 가능한 모든 경우의 수에 대한 확률값은 결합확률분포를 그린다. 두 확률함수가 결합된 결합확률질량함수의 경우 3차원 공간에 그려진다. 결합확률함수는 2개의 미지수를 가지며, 개개의 값은 (x.y)의 형태로 표기된다. 주변확률분포는 결합확률분포에서 합쳐진 확률함수를 다시 분리하는 것으로, 한 미지수에 대해서만 적분하여 구할 수 있다. 가령 F(x,y)에서 f(x)를 구하려는 경우 y에 대해서만 적분한다. 두 확률함수가 서로 독립이면, 두 함수의 결합확률함수는 두 함수의 곱과 같다.

평균과 분산, 공분산

평균은 확률분포에서 분포의 무게중심을 의미한다. E(x)라고 쓰며 기댓값(expected value)으로도 부르는데, 기대값은 모집단을 예측하는 변수라는 뉘앙스가 강하다. 확률론적으로 평균이란 각 값들에 확률을 가중한 가중평균으로도 볼 수 있다. 그래서 각 x값에 해당 값의 확률을 곱한 것을 모두 합치면 평균이 나온다. 확률함수에 k를 더하거나 곱하면 평균도 같은 방식으로 변한다. 이산형 확률함수나 연속형 확률함수에서 평균은 다음과 같다.

분산은 가장 널리 쓰이는 산포도로 V(x) 또는 Var(x)라고 쓴다. 확률함수에 k를 곱하면 분산도 k^2만큼 증가한다. 이산형 확률함수에서 분산은 다음과 같이 구할 수 있으며, 연속형 확률함수에서도 구조는 같다.

분산은 다음의 식으로도 구할 수 있다.

유도과정은 아래와 같다.

공분산은 두 확률변수의 관계를 보여주는 변수로, 두 확률변수의 편차(변량)를 분석해서 한 변수가 변하면 다른 변수가 어떻게 변하는지 보여주는 값이다. x와 y의 공분산을 Cov(x,y)라고 하고, 다음과 같이 구할 수 있다.

유도과정

두 변수가 서로 독립이면 공분산은 0이 된다. E(xy)가 E(x)E(y)가 되기 때문으로, 그렇다고 역이 성립하진 않는다. 여기서 E(xy)는 x의 값에 xy를 대입해서 구하면 된다. 가령 이산형 확률함수의 경우 E(xy)는 다음과 같다.

상관계수는 공분산을 활용해서 서로 다른 두 확률변수가 서로 가까운 정도를 나타내는 값이다. 공분산은 측정단위에 따라 매우 커질 수 있으며, 그래서 공분산이 크다고 반드시 두 변수의 값이 가깝다고 말할수는 없다. 그래서 각 변수의 분산으로 공분산을 통제한, 일종의 표준화된 공분산이 바로 상관계수다. 상관계수의 식은 보통 아래와 같다.

3.확률분포

https://tsi18708.tistory.com/373

통계학에서는 몇가지 확률분포를 기초로 가르친다. 가장 중요한 것은 정규분포이며, 대부분의 가설검정이 정규분포를 기초로 한다. 이러한 확률분포를 이해해야 이후에 나올 모수의 추정과 가설검정의 논리도 제대로 이해할 수 있다.

모수의 추정

확률론에서 표본(random sample, 확률표본)이란, 특정 확률분포에서 독립적으로 추출된 n개의 표본으로 정의된다. 각 xi는 서로 독립이고, 동일한 분포에서 추출되었다. 앞서 보았듯이 통계 실무자들은 표본에서 도출한 통계량으로 모수를 추정한다. 통계량은 항상 노이즈와 모수를 함께 담고 있기 때문에, 모수의 추정이란 노이즈로 인한 변량을 최소화하는 절차기도 하다. 여기서 변량의 최소화는 모수 추정의 가장 중요한 목표이며, 앞으로 보게 될 가설검정에서도 상당히 중요하다.^[각주:2]

추정은 모수값을 직접 추정하는 점추정(point estimation)과, 모수가 있는 구간을 추정하는 구간추정(interval estimation)으로 나뉜다. 구간추정을 하는 경우 모수가 들어있을 것으로 예상되는 구간을 신뢰구간(Confidence Interval, CI)이라 하며, 보통 모수가 들어있을 확률을 95%, 99% 정도로 잡는다.

수학적으로 추정량은 확률변수의 함수이고, 나름의 분포를 갖는다. 그리고 통계학자들은 추정량 중에 모수를 가장 잘 추정하는 추정량을 추구한다. 추정량의 확률분포 중심에 모수가 있는 추정량을 불편추정량(unbiased estimator)이라 하고, 분산이 가장 작은 추정량을 최소분산추정량(minimum variance estimator)이라 한다. 그리고 분산이 가장 작으면서 분포의 중심에 모수가 있는 추정량을 최소분산불편추정량(minimum variance unbiased estimator)이라 한다. 통계학자들은 최소분산불편추정량을 가장 좋은 추정량으로 여긴다.

대표적인 최소분산불편추정량으로 m이 있다. 표본평균(m)은 모평균의 최소분산불편추정량이다. 중심극한정리에 따라 n이 커질수록 m은 정규분포를 그리며, m의 평균은 μ에 수렴하고 분산은 σ/√n(standard error, 표준오차)의 제곱에 수렴한다. 모분산의 최소분산불편추정량은 표본분산(S^2)으로, 정확히는 편차(x-μ)를 제곱한 값의 총합(Sum of Squares, SS, 편차제곱합)을 n-1으로 나눈 값이다. 이 값은 표본분산에 비해 불편추정량이고, 자유도가 n-1인 카이제곱 분포를 따른다. 모비율의 경우 베르누이 분포에 기반하지만 모평균과 마찬가지로 표본비율이 최소분산불편추정량이며, 평균을 비율로 바꾸면 중심극한정리가 그대로 성립한다.

모평균의 신뢰구간은 다음과 같다. 모비율의 경우도 m을 표본비율로, 표준편차를 p(1-p)로 바꾸면 아래와 같이 성립한다.

여기서 z(confidence coefficient, 신뢰계수)는 신뢰구간의 크기에 대응하는 z값을 말한다. 가령 신뢰구간 크기가 95%인 경우, 신뢰구간 안에 모평균이 있을 확률이 95%다. 정규분포 상에서 중심으로 기준으로 전체 값의 95%가 들어가는 구간은 z≒±1.96인 구간인데, 이 경우 z≒1.96이 된다. 신뢰구간의 크기가 달라지면 z도 달라지며, 모표준편차를 알 수 없는 경우 모표준편차를 표본 표준편차(S)로, z를 t로, n을 n-1로 바꾼다. n이 30 이상이면 t분포가 정규분포에 근사하므로 n을 사용해도 무방하다.

모분산의 신뢰구간은 카이제곱 분포를 활용하여 추정한다. 모분산 추정에 사용되는 카이제곱 분포는 위에서 말한 s가 포함된 버전을 사용한다. 해당 문서에서 제시한 자유도 n-1의 카이제곱 분포를 조작하면 아래와 같은 모분산 신뢰구간이 도출된다.

이용구 & 김삼용. 통계학의 이해. 율곡출판사.2016,p9 [본문으로]
김용대. 데이터과학자의 사고법. 김영사.2021,pp72-74 [본문으로]

저작자표시 (새창열림)

'지식사전 > 기타' 카테고리의 다른 글

초심리학의 이해와 역사 (0)	2026.02.07
여러가지 확률분포 (0)	2026.01.29
여러 수학의 기초 (0)	2025.10.30
법학 총론 (0)	2025.03.18
수면과학 총론 (1)	2025.03.01