다른 통계 방법과 마찬가지로 콕스 비례 위험 모형 역시 모형이 옳은지 검증이 필요합니다. 가장 기본적인 검증은 비례 위험 가정을 만족시키는지 입니다. 콕스 비례 위험 모형은 이름 그대로 위험도가 시간에 따라 일정하게 증가한다는 것이기 때문에 만약 위험도가 시간에 따라 다르다면 기본 가정을 위반하게 됩니다. 변수의 분포에서 대해서는 반드시 정규성을 유지할 필요는 없으나 만약 이벤트가 5년까지는 1.5배 더 많이 일어나다가 5년 후에는 0.8배가 된다면 이는 비례 위험 가정을 위반하는 것이기 때문에 해당 변수를 빼거나 다른 통계적 방법을 사용해야 합니다.
비례 위험 가정을 테스트하는 기본적인 방법은 생존 함수에 대한 그래프를 그려보는 것입니다. 여기서는 우선 KMsurv 패키지를 이용해서 그려보겠습니다. 로그 로그 플롯(log–log plot)과 누적 위험 (cumulative hazard) 그래프를 그려볼 것입니다. 앞서 사용한 kidney 데이터를 이용하겠습니다.
library(KMsurv)
library(survival)
data(kidney)
str(kidney)
fit=survfit(Surv(time, status)~sex, data=kidney, type='fleming')
plot(fit, mark.time=F, fun='cloglog',
lty=2:3,col=c('blue','red'),
xlab='time (days)',ylab="loglogSurvival")
legend("bottomright",lty=2:3,legend=c("male","female"),bty="n", text.font=2, lwd=2, col=c('blue','red'))
plot(fit, mark.time=F, fun='cumhaz',
lty=2:3,col=c('blue','red'),
xlab='time (days)',ylab="Cumulative Hazard")
legend("bottomright",lty=2:3,legend=c("male","female"),bty="n", text.font=2, lwd=2, col=c('blue','red'))
이 그래프의 해석은 남성이 여성보다 위험도가 대부분의 구간에서 비례적으로 높다는 것입니다. 로그 로그 생존 그래프에서 이점이 더 확실하게 나타나지만, 마지막 부분에서 서로 교차하는 부분이 있습니다. 보통 이런 경우는 갑자기 마지막 순간에 등장한 관측치 때문입니다. R에서 kindey 데이터를 날짜순으로 정렬하고 살펴보면 바로 이유를 알 수 있습니다.
마지막에 남성 한명이 끼어들면서 그래프 모양을 이렇게 만든 것인데, 이 경우 비례 위험 가정을 흔든다고 보기는 어려울 수 있습니다. 비례 위험 가정을 어기는 경우는 완전히 그래프가 교차하는 경우입니다. 여기서는 남성에서 30일을 더 더해서 인위적으로 이런 그래프를 만들어 보겠습니다.
kidney1=subset(kidney, sex==1)
kidney1$time2=kidney1$time+30
kidney2=subset(kidney, sex==2)
kidney2$time2=kidney2$time
kidney=rbind(kidney1,kidney2)
fit=survfit(Surv(time2, status)~sex, data=kidney, type='fleming')
plot(fit, mark.time=F, fun='cloglog',
lty=2:3,col=c('blue','red'),
xlab='time (days)',ylab="loglogSurvival")
legend("bottomright",lty=2:3,legend=c("male","female"),bty="n", text.font=2, lwd=2, col=c('blue','red'))
plot(fit, mark.time=F, fun='cumhaz',
lty=2:3,col=c('blue','red'),
xlab='time (days)',ylab="Cumulative Hazard")
legend("bottomright",lty=2:3,legend=c("male","female"),bty="n", text.font=2, lwd=2, col=c('blue','red'))
이 경우 분명하게 비례 위험 가정을 위반하고 있다고 할 수 있습니다. 이 문제를 해결하는 방법을 알아보기 전에 콕스 비례 위험 모형을 검정하는 방법을 더 알아보겠습니다.
댓글
댓글 쓰기