통계 분석에서 가장 기초가 되는 것은 조사 집단의 평균이 서로 차이가 있는가? 그리고 이전에 알려진 평균과 차이가 얼마나 나는가? 라는 질문일 것입니다. 이는 통계 분석의 가장 기본이 되기 때문에 보통 통계 관련 서적에서 평균, 분산, 표준편차 같은 기본 개념을 배운 후 가장 먼저 배우게 되는 통계적 방법이 될 것입니다.
일단 하나의 조사 집단의 평균이 이전에 알려진 평균과 차이가 나는지 보는 one-sample t-test (일표본 t 검정)를 알아보겠습니다. 흔히 알려져 있는 평균과의 비교로 불립니다. 여기서는 키가 평균 170cm이고 표준편차가 5인 15명으로 이뤄진 집단의 가상 데이터를 정규 분포로 만들어보겠습니다. 이를 테면 A반의 남자 학생 15명의 키라고 볼 수 있습니다.
> set.seed(1234)
> A<-rnorm span="">-rnorm>
> A
[1] 163.9647 171.3871 175.4222 158.2715 172.1456 172.5303 167.1263 167.2668 167.1777 165.5498 167.6140 165.0081 166.1187 170.3223 174.7975
앞서 언급했듯이 시드값 설정은 같은 난수를 만들기 위해입니다. 즉 매번 같은 숫자를 만들기 위해서이죠. 소수점 4자리 까지 표시된 이유는 R이 기본적으로 7자리를 표시하기 위해서입니다. 만약 이 숫자가 보기 싫다면 round() 함수를 사용할 수 있습니다. 여기서는 그냥 사용합니다.
만약 알려진 키의 평균이 171cm이라면 어떨까요. 함수 t.test를 이용해서 one-sample t-test를 진행할 수 있습니다. 과연 A반 남학생의 키는 알려진 평균보다 낮을까요? 그런데 그 전에 사실 정규 분포가 맞는지를 검증해야 합니다. 앞서 본 사피로 윌크 검정을 이용해서 모수적 방법을 사용해도 되는지 보겠습니다.
> shapiro.test(A)
Shapiro-Wilk normality test
data: A
W = 0.95713, p-value = 0.6426
이 데이터는 정규 분포하는 데이터로 모수적 방법인 t 검정을 적용해도 될 것입니다. 비모수적 방법에 대해서는 나중에 설명하겠습니다. 여기서는 통계에 대해서 기본적인 지식은 있다고 보고 R로 이를 어떻게 검증하고 해석하는지만 설명할 것입니다. 이제 알려진 평균과 비교해보기 위해서 평균 mu 를 설정합니다. 앞서 이야기했듯이 가정한 평균은 171cm를 일단 넣어보겠습니다.
> t.test(A,mu=171)
One Sample t-test
data: A
t = -2.3023, df = 14, p-value = 0.03719
alternative hypothesis: true mean is not equal to 171
95 percent confidence interval:
165.8108 170.8162
sample estimates:
mean of x
168.3135
결과는 t 통계량 -2.3023, 자유도 (df) 14, P 값은 <0 .05="" 170.8162="" 172cm="" 5="" 95="" nbsp="" span="">0>
> t.test(A,mu=172)
One Sample t-test
data: A
t = -3.1592, df = 14, p-value = 0.006963
alternative hypothesis: true mean is not equal to 172
95 percent confidence interval:
165.8108 170.8162
sample estimates:
mean of x
168.3135
값을 보니 나머지는 사실 같은데 t 통계량이 -3.1592로 커졌고 P 값도 더 작아졌습니다. 따라서 통계적으로 알려진 평균과 같을 가능성이 매우 낮다고 하겠습니다.
이렇게 일표본 t 검정의 방법과 해석에 대해서 설명했습니다. 그 다음은 두 개의 표본이 서로 차이가 있는지 보는 고전 검사인 스튜던트 t 검정에 대해서 알아보겠습니다.
마지막으로 지금 설명하는 t 검정에 대해서 참조하면 좋은 글입니다.
댓글
댓글 쓰기