앞서 t 검정이나 카이 검정과 마찬가지로 분산분석(ANOVA) 역시 샘플수에 민감하게 반응하는 특징이 있습니다. 따라서 샘플수가 커지면 아무리 작은 차이라도 유의한 결과 (P<0 .05="" nbsp="" p="" span="">0>
여기서는 키의 평균이 169, 170, 171cm 이고 표준 편차가 5cm 정도인 세 집단의 비교를 예로 들겠습니다. 각각 샘플수를 30, 300, 1000으로 하면 어떻게 될까요. 사실 각 집단의 키의 분포는 거의 차이가 없어보일 것입니다. 앞서 포스트에서 했던 것처럼 이들 역시 샘플 수를 달리해서 알아보겠습니다.
#n=30
set.seed(1234)
A<-rnorm span="">-rnorm>
set.seed(123)
B<-rnorm span="">-rnorm>
set.seed(12345)
C<-rnorm span="">-rnorm>
DFA<-data .frame="" class="" height="" span="">-data>
colnames(DFA)<-c height="" lass="" span="">-c>
DFB<-data .frame="" class="" height="" span="">-data>
colnames(DFB)<-c height="" lass="" span="">-c>
DFC<-data .frame="" class="" height="" span="">-data>
colnames(DFC)<-c height="" lass="" span="">-c>
DF2<-rbind span="">-rbind>
out=aov(height~Class, data=DF2)
summary(out)
#n=300
set.seed(1234)
A<-rnorm span="">-rnorm>
set.seed(123)
B<-rnorm span="">-rnorm>
set.seed(12345)
C<-rnorm span="">-rnorm>
DFA<-data .frame="" class="" height="" span="">-data>
colnames(DFA)<-c height="" lass="" span="">-c>
DFB<-data .frame="" class="" height="" span="">-data>
colnames(DFB)<-c height="" lass="" span="">-c>
DFC<-data .frame="" class="" height="" span="">-data>
colnames(DFC)<-c height="" lass="" span="">-c>
DF2<-rbind span="">-rbind>
out=aov(height~Class, data=DF2)
summary(out)
#n=1000
set.seed(1234)
A<-rnorm span="">-rnorm>
set.seed(123)
B<-rnorm span="">-rnorm>
set.seed(12345)
C<-rnorm span="">-rnorm>
DFA<-data .frame="" class="" height="" span="">-data>
colnames(DFA)<-c height="" lass="" span="">-c>
DFB<-data .frame="" class="" height="" span="">-data>
colnames(DFB)<-c height="" lass="" span="">-c>
DFC<-data .frame="" class="" height="" span="">-data>
colnames(DFC)<-c height="" lass="" span="">-c>
DF2<-rbind span="">-rbind>
out=aov(height~Class, data=DF2)
summary(out)
위의 코드를 입력하고 R에서 실행시키면 아래의 결과가 나옵니다.
샘플수가 30일때 P 값은 0.0364로 겨우 통계적 유의성을 만족시켰습니다. 하지만, 300일 때는 P<0 .001="" 1000="" 1cm="" 2e-16="" nbsp="" p="" span="">0>
이는 통계적 분석이 믿을 수 없다는 이야기가 아니라 P값을 해석할 때 주의해야 함을 의미합니다. 단순히 평균의 차이만을 보는 고전적인 통계적 분석은 유의한 결과를 얻기 위해 단지 샘플수만 많으면 된다는 단점이 있습니다. 샘플수가 많으면 통계적 검증력이 커지면서 작은 차이도 분명하게 나타나는 것이죠.
이 문제에 대해서 저도 리뷰어에게 지적을 받은 적이 있습니다. 숫자가 5만에 가까운 역학 조사에서 각그룹간의 나이의 평균 차이가 거의 없는데도 유의한 결과가 나온데에 대해서 확실히 맞는지 질문이 들어온 것입니다. 저의 답변은 그것이 옳다는 것과 이 경우 단순한 분산분석은 의미있는 정보를 주지 못한다는 점을 인정한다는 것입니다.
그러면서 근거로 든 레퍼런스가 있습니다.
The American Statistical Association's Statement on p-Values: Context, Process, and Purpose (Wasserstein, R. L. & Lazar, N. A. The ASA‘s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 2016; 70(2):129-133.)
미 통계협회에서 내놓은 P 값에 대한 공식 문서로 여기서 아무리 작은 효과라도 샘플 사이즈나 측정 방법이 정밀하면 작은 P값을 보일 수 있다 (any effect, no matter how tiny, can produce a small p-value if the sample size or measurement precision is high enough)라는 언급입니다. 해당 문헌은 한 번 정도 읽어보면 도움이 되는 내용이 있습니다.
연구 대상을 몇 개의 그룹으로 나눈 후 통계적으로 차이가 있는지 비교하는 것은 대개의 과학 논문에서 흔히 있는 일입니다. 그런데 이 경우 당연히 샘플수가 큰 영향을 미칩니다. 따라서 내 연구이든 남의 연구를 해석하든지 간에 이런 기본적인 내용을 반드시 이해할 필요가 있습니다.
다음에는 세 군 이상의 평균이 차이날 때 과연 어떤 그룹이 서로 차이가 있는지를 이야기해보겠습니다.
댓글
댓글 쓰기