지식저장고

가설검정의 원리와 방법들 본문

지식사전/기타

가설검정의 원리와 방법들

과학주의자 2026. 2. 20. 16:26

가설검정은 가장 중요한 영역 중 하나이다. 대부분의 사회과학자들과 생물학자들은 가설을 검증하기 위해 통계를 활용하기 때문이다. 여러 과학 분야에서 통계를 중시하는 것은 보통 이때문이며, 그래서 회귀분석만큼 중요한게 가설검정이다.

 

 

1.가설검정의 원리

통계학에서 가설검정이란, 주어진 데이터를 바탕으로 서로 대립하는 영가설(귀무가설)과 대립가설 중 합리적인 가설을 선택하는 절차를 말한다. 영가설과 대립가설의 형태는 연구문제마다 다르지만, 기본적으로 영가설은 무언가 없다라고 주장하고, 대립가설은 무언가가 있다고 주장한다.

 

가설검증은 데이터가 영가설을 지지하는지에 대한 검증이다. 데이터가 영가설에 부합하면 영가설을, 부합하지 않으면 대립가설을 선택한다. 이러한 판단은 확률을 중심으로 이뤄진다. 영가설이 타당하다고 할 때, 주어진 데이터가 나타날 확률이 충분히 높으면 이는 영가설을 지지하는 증거이다. 반면 영가설의 예측에 따를 때 주어진 데이터가 나타날 확률이 너무 낮으면, 영가설을 버리고(reject, 기각) 대립가설을 선택(accept, 채택)한다.

 

영가설은 연구자가 주장하는 관계가 존재하지 않고, 데이터가 무작위의 산물이라고 주장한다. 이러한 주장은 과학적 주장의 출발점으로 삼기에 적당하다. 기본적으로 과학은 자연에 패턴이 있다는 주장이며, 이 주장은 근거를 필요로 한다. 오히려 자연의 많은 것은 정규분포를 그리며, 이는 패턴보다는 무작위가 더 자연스러운 상태임을 보여준다. 따라서 과학적 주장은 영가설을 이겨내고 더 큰 설명력을 보여줄 필요가 있으며, 이는 1종 오류를 줄이고 과학 이론의 타당성을 높이는 방법이기도 하다.

 

검정통계량(test statistic)은 가설검증에 활용하는 통계량을 말한다. 가설검정을 수행하는 연구자는 검정통계량을 산출하고, 검정통계량을 기반으로 영가설의 기각 여부를 판단한다. 검정통계량의 종류와 판단 방법은 통계 기법마다 다르다. 기본적으로 영가설에 기반해서 볼 때, 도출한 검정통계량이 나타날 확률이 특정 확률보다 낮으면 영가설을 기각하고 대립가설을 채택한다. 이때 그 기준이 되는 확률을 유의수준(significance level, α, 알파값)이라고 한다.

 

검정통계량이 나타날 확률이 유의수준보다 낮으면 대립가설이 채택된다. 이는 다시 말하면 검정통계량이 기각역에 속하면 대립가설을 채택한다는 말이다. 기각역(Critical region, C)은 영가설 하에서 나타날 확률이 유의수준보다 낮은 통계량의 집합으로, 검정통계량의 분포 그래프에 그릴 수 있다. 기각역의 여집합을 채택역(임계값)이라 하고, 검정통계량보다 희귀한 값이 나타날 확률을 p값(p value)이라고 한다.

 

검정통계량이 기각역 안에 들어가면 대립가설을 채택한다.

 

유의수준은 보통 통계를 사용하는 분야마다 다르고, 그 분야에서 경험적으로 적당하다고 여겨지는 값을 사용한다. 보통 1σ는 데이터의 노이즈에 너무 영향을 받아 잘 쓰이지 않는다. 의학과 생물학, 심리학에서는 유의수준이 5%(2σ)나 1%(3σ) 정도인데, 이는 로널드 피셔가 2σ(2시그마)를 기준으로 제시한 것에서 유래한다. 이 값은 1σ보다는 노이즈를 잘 걸러내면서 희귀한 검정통계량을 잘 변별할 수 있고, 그래서 해당 분야에서도 잘 사용한다. 물리학은 측정의 엄밀함이 앞의 분야보다 매우 크고 변산성도 낮은데다, 무엇보다 고난도 공정에서 오차가  6σ 이하로 발생해야 고장이 거의 안나기 때문에 6σ를 유의수준으로 사용하고 있다.

 

가설검정은 기각역의 형태에 따라 양측검정(two-tailed)과 단측검정(one-tailed)으로 나눌 수 있다. 단측검정은 위처럼 기각역이 전체 분포의 한 방향에 몰려있는 경우를 말한다. 반면 양측검정은 기각역이 분포의 양 끄트머리에 있다. 양측검정은 결과가 영가설에 부합하지 않으면 영가설을 기각한다는 아이디어에 충실한 반면, 단측검정은 결과가 어떤 방향으로 나타나야 한다는 예측을 포함한다. 그러나 21세기 이후로는 대부분 양측검정을 실시한다.

 

양측검정은 보통 기각역이 이런 식으로 할당된다.

 

z test와  t test

많은 가설검정은 평균을 통해 검정한다. 최소분산불편추정량이기 때문이다. 특히 단순한 집단간 비교는 t test가 활용된다. z test는 정규분포에 기반하여 실시하는 가설검정이다. 표본평균이 모평균과 동일한지, 혹은 두 집단의 평균이 사실 동일한지 검증하는데 사용할 수 있다. 표본평균이 모평균과 동일한지 검증하는 경우, 영가설과 대립가설은 아래와 같이 설정한다.

 

평균 검정에서의 가설

 

영가설에 따르면 표본평균은 모집단에서 추출한 표본의 평균이다. 고로 모평균과 표본평균은 같거나, 표본평균의 분포에서 평균에 가깝게 위치한다. 반면 표본평균이 어떤 외부변수 등에 의해 모집단과 특성이 다른 모집단에서 유래한 것이라면(즉 사실은 표본평균이 아니라면), 주어진 모집단의 표본평균 분포 하에서 주어진 표본평균이 나타날 확률이 상당히 낮을 것이다. 아래에서 볼 다른 가설검정도 기본적으로 이러한 논리를 따른다.

 

z test를 할때의 검정통계량은 표본평균의  z값이다. z test를 할 때, 표본평균의 분포는 계산의 편의를 위해 일단 표준정규분포로 전환한다. 이때 표본평균 분포의 표준편차는 σ/√n임을 주의하라. 주어진 표본평균을 z값으로 변환하고 나면, 이 값이 주어진 표본평균의 분포에서 기각역에 속하는지 비교한다. 유의수준이 p value보다 작으면 영가설을 채택하고, 유의수준이 p value보다 크면 영가설을 기각한다.

 

실험에서는 보통 차이검정을 사용한다. 가령 실험으로 실험군과 통제군을 비교하는 경우, 실험군의 평균과 통제군의 평균이 같은지 검증한다. 실제로 두 집단의 표본평균이 동일할 확률은 0에 수렴하기 때문에, 실제 검증은 두 집단간 평균의 차이가 0에서 얼마나 떨어져 있는지 계산한다. 만약 두 집단이 같다면 두 집단간 차이의 평균은 0이기 때문이다.

 

차이검정에서의 가설. 실제 검정은 모평균인 m1-m2=0을 기준으로 수행한다

 

 

같은 모집단에서 유래한(영가설에 따르면) 두 표본평균의 차이는 평균이 0이고 표준편차가 σ/√n인 정규분포를 따른다. 이때 n은 두 집단의 합으로, 두 집단의 표본수를 모두 더해야 한다. 여기에 더해 두 집단의 분산이 다른 경우도 상정할 수 있다. 이 경우 두 집단의 분산을 더해야 한다. 따라서 차이검정을 실시하는 경우 차이검정 평균의 분산은 다음과 같다.

 

차이 통계량의 분산

 

z test의 문제는 모표준편차를 알 수 없다는 점이다. 모평균은 차이검정에서는 명확하지만, 차이검정에서도 모표준편차는 도저히 알 수가 없다. 그래서 실제 연구에서는 z test 대신 t test를 많이 사용한다. t test(t검정)는 정규분포가 아닌 t분포에 기반하여 실시하는 가설검정으로, z test와 모든 면에서 같지만 모표준편차 대신 s(표본 표준편차)를 사용한다. 이때 사용하는 t분포의 자유도는 n-1이고, 차이검정의 경우 n1+n2-2다. 차이검정의 경우 두 표본의 모분산이 다르면 t test를 할 수 없다. 만약 같은 경우 표본 분산(합동 표본분산)은 다음과 같이 산출한다(이때 SS의 계산에는 n이 아닌 n-1을 사용).

 

합동 표본분산

 

t test는 t분포에 기반하기 때문에, 표본평균의 분포와 달라서 실제 표본평균의 p value를 알아낼 수 없다는 한계가 있다. 그러나 n≥30이면 t분포가 정규분포에 수렴하기 때문에 표본이 30 이상이면 문제없이 사용할 수 있다. 이 경우 두 표본의 분산이 달라도 문제가 되지 않는다. 이처럼 기초가정이 어긋나도 사용에 문제가 없는 가설검정 기법을 강건하다(robust)고 하며, 과학자들이 사용하는 주요 가설검정 기법은 대부분 강건하다.

 

paired t test는 비교하는 두 집단의 표본수가 같고 서로 관련되어 있는 경우 실시하는 t test로, 가령 약을 먹은 전후의 신체 지표를 비교하는 경우 paired t test를 사용한다. paired t test에서는 서로 관련이 있는 원소를 짝을 지은 후 두 값의 차이(d)에서 검정통계량을 산출하는데, d는 평균이 0이고 자유도가 n-1인 t분포를 그린다. 모비율 검정도 평균 검정과 같은 방식으로 이루어지는데, 단지 비율 검정의 경우 평균 대신 비율을 사용한다. 또한 모평균(모비율)을 알면 모분산도 자연스럽게 결정되기 때문에 t분포가 아닌 표준정규분포를 기반으로 실시한다.

 

모비율 차이통계량의 SD

 

분산 동일성 검정

분산을 비교하는 가설검증은 t test만큼 잘 쓰이진 않지만 그럼에도 쓰이긴 한다. 특히 t test를 할때 두 집단의 분산이 동일한지 여부를 검정할 때 사용된다. 이 경우 영가설은 두 집단의 모분산이 동일하다는 것이다. 표본분산이 모분산과 동일한지 검증하는 경우, 표본분산은 카이제곱 분포를 따르기 때문에 검정통계량은 자유도가 n-1인 카이제곱 분포에 기반하여 산출한다.

 

두 집단의 모분산이 동일한지 검증하는 경우에는 F분포에 기반하여 검정통계량을 산출한다. F분포는 서로 독립인 두 카이값의 비율의 분포인데, 분산 동일성 검정을 위해 사용하는 F값의 자유도는 n1-1, n2-1이다. 이 경우 n-1이 큰 카이값을 분자로 올리기 때문에 항상 n1-1>n2-1이다. 영가설에 따르면 두 집단의 모분산은 동일하기 때문에 분자와 분모에서 공통된 분모(모분산)를 제거할 수 있으며, 따라서 검정통계량은 s1/s2이다. 이 값의 p값이 낮다면 그만큼 모분산이 같다는 가정이 틀릴 가능성이 그만큼 높다는 의미이기 때문에, 모분산이 동일하다는 가설(대립가설)을 기각할 수 있다.

 

 

ANOVA

위에서 분산 동일성 검정을 위해 F값을 사용했지만, 사실 F값은 평균을 비교할 때 많이 사용된다. 정확히 F값은 anova에 유용하다. ANOVA(ANalysis Of VArience, 분산분석)는 여러 표본을 한번에 비교할 때 사용하는 방법으로, 전체 집단의 분산을 각 표본의 평균 간 분산과 비교하여 가설을 검정하는 방법이다. anova는 여러 집단을 한꺼번에 비교하거나, 2가지 이상의 기준(factor)으로 비교할 때 사용한다.

 

t test로 여러 집단을 비교하는 경우 type 1 error가 증가할 수 있다. 가령 4개 집단을 비교하는 경우, 네 집단이 모두 동일해도 집단간 차이가 하나라도 유의하게 나올 확률이 5%에서 26%로 증가한다. 거기다 각 집단의 ㄱ변수와 ㄴ변수를 비교한다면 실제 유의수준은 더 커질 수 있다. ANOVA는 이러한 경우를 예방할 수 있다.

 

anova를 하기 위해서는 몇가지 개념을 이해할 필요가 있다. 요인(factor)은 연구하는 대상에 일정한 영향을 끼치는 변수이다. 가령 아이들의 나이에 따라 지능이 얼마나 높아지는지 비교한다면, 여기서 지능은 요인이다. 요인은 높거나 낮은 등 특정한 수준(level)을 가지며, anova로 비교하는 집단의 수는 이 수준의 수와 일치한다. 처리(treatment)는 연구대상에게 가한 실험적 처치를 의미하는데, anova에서는 고유한 수준을 가진 각 표본을 의미하는 말이다. 이러한 표본들은 cell(셀)이라 부른다.

 

가령 지능과 거주지가 아이들의 학교적응에 끼치는 영향을 조사한다고 하자. 지능과 거주지는 아이들에게 어떤 영향을 끼치는 요인이다. 그리고 이 요인은 높거나 낮을 수 있는데, 그래서 아이들은 지능이 높거나 낮을 수 있고 거주지도 아파트, 단독주택 등 다를 수 있다. 여기서 나오는 고지능, 저지능, 아파트 거주, 단독주택 거주를 수준이라고 한다. 연구를 위해 아이들을 지능의 높낮이와 거주지(아파트, 단독주택)로 구분하면 총 4개의 집단이 나올 것이다. 이 각 집단을 cell이라 하고, 각 cell이 가진 수준의 조합을 처리라 한다. 

 

anova의 영가설은 각 cell의 모평균이 모두 동일하다는 것이다. 그리고 요인의 수에 따라 anova의 종류가 나뉜다. 요인이 하나인 경우 one-way anova(일원배치 분산분석, 일원분류 분산분석)라고 한다. 요인이 둘이면 2-way anova라고 한다. 요인이 k개면 k-way anova라고 하는데, 요인이 3개만 넘어가도 분석이 매우 복잡해지기 때문에 통상적으로는 2개 요인까지만 사용한다.

 

anova는 classical true-score model을 가정한다. 관찰되는 모든 값은 실제 값과 오차의 합이다. 그리고 통계학의 목표는 이 실제 값(T)을 알아내는 것이다. anova에서 관찰하고자 하는 T는 요인이 각 원소에 끼치는 영향으로, 이 영향을 처리효과(treatment effect)라 부른다. 반면 오차가 각 원소에 끼치는 영향, 즉 노이즈는 오차효과(error effect)라 부른다. 이를 수식으로 표현하면 다음과 같다.

 

Y= μ+T+ε

 

여기서 μ를 뺀 값은 편차이다. 고로 각 원소에서 T+ε을 모두 더하면 SS가 된다. 이를 바탕으로 위 식을 변형하면, 표본의 전체 SS는 처리효과에 의한 SS(SSr)와 오차에 의한 SS(SSe, residual Sum of Squares)의 합이다. 이를 아래의 수식처럼 나타낼 수 있다.

 

SS=SSr+SSe

 

SSr과 SSe는 모두 편차이므로 편차를 구하는 방법과 비슷하게 구한다. SSr은 처리효과로 인해 발생한 변량(편차)이므로 각 cell의 m에서 전체 m을 빼서 구한다. SSe는 처리효과로 설명되지 않은 오차항이므로 각 원소에서 각 cell의 m을 빼서 구한다. 그래서 처리효과에 의한 편차(m-μ)와 오차에 의한 편차(x-m)는 더하면 그냥 편차(x-μ)가 된다.

 

anova란 cell 간 분산과 전체 분산을 비교하여 그 값이 얼마나 큰지를 기준으로 가설을 검정한다. 이를 위해서 처리효과에 의한 분산과 오차에 의한 분산을 비교한다. 여기서 SS의 자유도는 n-1이고, SSr는 n집단-1, SSe는 n-n집단이다. 각 cell의 n이 동일하면 SSe의 자유도는 n집단(n-1)로도 나타낼 수 있다. 이를 바탕으로 SSr과 SSe를 각각 자유도로 나눠주면 처리효과와 오차의 분산(MS, 평균제곱합)이 도출된다. 이 두 MS, 즉 MSr을 MSe로 나눈 값이 F값이다.

 

영가설에 따르면 MSr과 MSe는 모두 똑같은 오차이며 사실상 같다. 때문에 이 값은 F분포를 그리면서 평균은 1이어야 한다. anova는 자유도 (n집단-1,n-n집단) 하에서 이 F값의 p value를 구하여 F값이 1인지 가설을 검정한다. 만약 처리효과가 유의하다면 그 값이 오차에 비해 클 것이고, 그렇다면 F는 1에서 상당히 멀 것이다. 설령 처리효과가 오차보다 작다고 해도, 미미한 오차보다도 더 미미한 처리효과는 의미가 없기 때문에(특히 power가 적당히 갖춰진 경우라면 더욱) anova를 통해 배제할 수 있다.

 

two-way anova도 one-way anova와 비슷하다. 단지 처리효과가 2개가 되었을 뿐이다. 또한 two-way anova에서는 두 요인이 상호작용한 결과로 나타나는 interaction effect가 추가되어, 결과적으로 3개의 처리효과가 존재한다. 확률화 블럭계획법을 사용하는 경우 블록화를 통해 통제한 가외변수의 처리효과(block effect)도 식에 포함되며, 그러나 F값의 계산에서는 제외한다. 한편 두 집단을 비교하는 경우 one-way anova는 t test와 목적이 겹친다. 그리고 실제 값도 그러하다. 두 집단을 비교하는 상황에서 t^2은 자유도가 (1,n집단)인 F분포를 따른다. 두 경우 모두 p value는 동일하다.

 

 

범주형 자료의 분석

t test와 anova 모두 연속변수를 대상으로 한다. 두 기법 모두 어떠한 모수가 있고, 이 모수를 중심으로 값이 연속으로 존재하는 경우에만 사용할 수 있는 기법이다. 반대로 서열척도나 명목척도처럼 값이 이산적인 자료에는 그러한 검정을 사용할 수 없다. 그러한 자료, 즉 값이 연속적이지 않으면서 베르누이 시행도 아닌 경우에 사용할 수 있는 가설검정 기법이 앞으로 다룰 기법들이다.

 

적합도 검정

적합도 검정(goodness of fit test)은 관측된 값의 비율(관측도수)을 기대되는 비율(기대도수)와 비교하는 기법이다. 적합도 검정은 관측도수가 영가설을 가정했을 때의 기대도수와 다른지 비교하여 유의성을 검증하거나, 이론의 예측에 따른 기대도수에 부합하는지 검정하는 식으로 사용한다. 그러나 기본적으로 영가설은 '관측도수가 기대도수를 따른다'로 설정한다.

 

기대도수는 카이제곱 분포를 따른다. 이때 기대도수란 이론적으로 각 범주에 포함될 것으로 기대되는 개체의 수다. 가령 민주당과 미래당, 개혁당에 대한 지지율을 검정하는 경우, 민주당의 기대도수란 조사에 응답한 사람의 1/3이다. 기대도수는 ei로 표기하며, ei=nP(x)이다. 적합도 검정의 검정통계량은 실제 관측도수에서 기대도수를 뺀 값인데, 다음과 같으며 자유도가 n집단-1인 카이제곱 분포를 따른다.

 

적합도 검정의 검정통계량. ni=관측도수

 

차원이 둘인 경우(multinomial distribution, 다항분포)도 마찬가지다. 가령 사과와 배에 대한 선호도가 남녀가 다른지 검증하는 경우, 차원은 성별과 과일 종류이다. 이 경우 앞의 경우(일차원표)와 달리 이차원표를 그려야 하는데, 이 경우 각 cell의 기대도수는 nP(xi)P(xj)이고(여기서 i와 j는 각 차원에서의 범주 번호)다. 그래서 여자가 사과를 좋아하는 경우의 기대도수는 표본수x여자일 확률x사과일 확률이다. 이때 기대도수를 결정하는 확률은 해당 차원에서의 범주가 실제로 전체의 몇퍼센트인지를 계산하여 사용한다. 검정통계량은 아까와 같으며, 자유도가 (r-1)(c-1)인 카이제곱 분포를 따르는데 여기서 r와 c는 각 차원에서의 범주 수를 말한다.

'지식사전 > 기타' 카테고리의 다른 글

과학사 총론  (1) 2026.03.12
회귀분석 해설  (0) 2026.02.15
초심리학의 이해와 역사  (0) 2026.02.07
여러가지 확률분포  (0) 2026.01.29
통계학 해설  (0) 2025.12.23
Comments