지식저장고

통계에서 분포도를 나타낸 척도 본문

자료실

통계에서 분포도를 나타낸 척도

과학주의자 2022. 5. 21. 00:22

통계에서 자료를 수집하면 그 자료가 얼마나 퍼져 있는지도 분석하게 된다. 자료가 퍼져 있는 정도를 산포도(dispersion)라고 하는데 보통 범위,IQR,편차 등을 통해 이를 나타낸다. 아래의 것들이 산포도를 나타내는 척도(scale)들의 예이다.

 

1.범위(range)

x=MAX-min

범위는 단순히 최대값에서 최소값을 뺀 것이며 위의 식처럼 계산한다. 가장 간단하여 이해가 쉽지만 극단적인 값(outlier)에 크게 흔들릴 수 있다.

 

2.IQR(interquartile range,사분위수)

x=Q(3)-Q(1)

IQR은 제 3 사분위수에서 제 1 사분위수를 뺸 것이다. 사분위수(quartiles)란 전체 자료를 4분하는 3개의 값을 의미한다. 전체 값이 100개라고 가정할 경우 25등인 값을 Q(1) 즉 제 1 사분위수라 칭하고, 50등인 값을 Q(2) 즉 제 2 사분위수나 중앙값(median)이라 칭하며, 75등인 값을 Q(3) 즉 제 3 사분위수라 칭한다. IQR은 전체 자료에서 50% 정도만을 고려하는데 덕분에 outlier에 크게 영향받지 않는다.

 

3.편차(deviation)

x=개별값-m

편차는 개개의 값과 평균값의 차이이다. 그래서 편차를 알면 개개의 값이 평균에서 얼마나 먼지 알 수 있다. 그러나 전체적인 dispersion을 알기에는 부족한데, 왜냐하면 편차를 모두 합하면 그 값은 0이기 때문이다. 그래서 편차를 중심으로 dispersion을 측정하는 다양한 scale들이 있다.

 

4.절대편차(absolute deviation 또는 MAD)

x=∑ l deviation l

절대편차는 deviation의 절대값을 모두 더한 것이다. 편차의 정도를 알 수 있는 확실한 방법이나 구하는 방법이 까다로워 잘 쓰이지 않는다.

 

5.SS(sum of square,편차제곱의 합)

x=∑ (deviation)^2

SS는 편차를 제곱하여 모두 합친 것이다. 실제로 dispersion을 나타낼때는 잘 쓰이지 않지만 훗날 사회통계에서 배우는 ANOVA같은 기법에서 사용된다.

 

6.분산(variance)

x=SS/n-1

분산은 SS를 자유도인 n-1로 나눈 것이다. 고등학교에서는 표본수인 n으로 나누라고 가르친다. 왜 n이 아니라 자유도로 나누어야 하는지는 이 글의 논지를 벗어난다. 암튼 분산은 널리 사용되는 dispersion의 scale 중 하나이다. 다만 실제 dispersion보다 큰 것을 비롯해 여러 단점이 있다.

 

7.표준편차(standard deviation)

x=√variance

표준편차는 분산의 제곱근이다. 가장 널리 쓰이는 dispersion의 scale로 통계량을 나타낼때는 항상 평균 옆에 딸려 나온다.

Comments