Translate

2018년 4월 15일 일요일

선형 회귀 분석 (10)


 다른 분석 기법과 마찬가지로 단순 선형 회귀 분석 역시 표본의 수에 많은 영향을 받습니다. 특히 표본 수가 많아지면 잔차 분석의 양상이 달라진다는 것이 특징입니다. 이를 알기 위해 앞서 예제에서 샘플 수를 250개, 2500개 등으로 늘려보면 이해가 쉬울 것입니다. 일단 샘플 수가 늘어나면 본래 선형 비례 관계가 아닌 본래의 표본의 모습이 나타나며 잔차도 등에 표시되는 값의 숫자도 크게 증가합니다. 


library("ggplot2")

set.seed(3311)
diamonds1<-sample 2500="" diamonds="" nrow="" span="">
D1<-diamonds diamonds1="" span="">
D1
summary(D1)


par(mfrow=c(1,1))
plot(D1$carat, D1$price)

model=lm(price~carat, data=D1)
summary(model)

par(mfrow=c(2,2))
plot(model)

influence.measures(model)

require("olsrr")
ols_cooksd_barplot(model)
ols_dfbetas_panel(model)
ols_dffits_plot(model)


 위의 코드를 실행하면








 위의 값을 얻을 수 있는데, 표본에 숫자가 늘어남에 따라 특정 값으로 몰린 표본의 특징 (대개 1캐럿 이하이고 가격도 상대적으로 저렴한 편)이 나타나면서 잔차의 가정들을 위반하고 있다는 것을 알 수 있습니다. 이정도라면 일부 값을 이상치로 제거하고 회귀식을 완성하려고 하기 보다는 일단 일차 선형 관계가 아니라는 점을 인정하는 수 밖에 없습니다. 또 olsrr 패키지에서 제공하는 여러 영향력 및 잔차 분석 도구는 샘플 수가 많아지면 효용성이 떨어진다는 점도 알 수 있습니다. 이를 확인하기 위해 정규 분포를 따르는 예제를 만들어 보겠습니다. 


set.seed(1234)
x<-rnorm span="">
set.seed(4567)
b<-rnorm span="">
y=3*x+b

model=lm(y~x)
summary(model)

plot(model)
ols_cooksd_barplot(model)
ols_dfbetas_panel(model)
ols_dffits_plot(model)








 이 모델은 y=3*x+b라는 값을 넣고 만들었기 때문에 무조건 선형 반응 관계와 정규 분포를 만족할 수 밖에 없습니다. 그래도 의외로 결과값에 영향을 주는 관측치가 제법 있다는 사실을 알 수 있습니다. 하지만 마지막 잔차도는 모두 가정을 위반하지 않는 정상적인 결과들입니다. 정규 분포를 따르더라도 평균보다 영향력을 많이 미치는 관측치는 있을 수 있으며 샘플 수가 많아지면 일정 비율로 늘어나게 될 것입니다. 


 이 경우 전체 잔차도에서 크게 벗어나는 것이 아니라면 굳이 제거할 필요는 없어집니다. 약간 모델에서 벗어나도 샘플 수 자체가 많으면 큰 영향을 미칠 수 없을 테니까요. 다만 이것이 실제로 있을 수 있는 값인지 (예를 들어 몸무게가 950kg 으로 표시되었거나 키가 183m로 잘못 입력된 것이 아닌지) 확인할 필요는 있습니다. 사실 문제 해결의 실마리는 데이터에 자체에 숨어 있는 경우가 많습니다. 


 아무튼 표본의 수가 수만개 이상으로 많아지면 각각의 값을 눈으로 확인한다는 것은 거의 불가능합니다. 잔차의 분포가 정규성을 만족하는지 좀 더 편리하게 확인하기 위해서 아래의 코드를 사용할 수 있습니다. 


residplot <- fit="" function="" nbreaks="100)" span="">
  z <- fit="" rstudent="" span="">
  hist(z, breaks=nbreaks, freq=FALSE,
       xlab="Studentized Residual",
       main="Distribution of Errors")
  rug(jitter(z), col="brown")
  curve(dnorm(x, mean=mean(z), sd=sd(z)),
        add=TRUE, col="blue", lwd=2)
  lines(density(z)$x, density(z)$y,
        col="red", lwd=2, lty=2)
  legend("topright",
         legend = c( "Normal Curve", "Kernel Density Curve"),
         lty=1:2, col=c("blue","red"), cex=.7)
}

residplot <- fit="" function="" nbreaks="100)" span="">
  z <- fit="" rstandard="" span="">
  hist(z, breaks=nbreaks, freq=FALSE,
       xlab="Standardized Residual",
       main="Distribution of Errors")
  rug(jitter(z), col="brown")
  curve(dnorm(x, mean=mean(z), sd=sd(z)),
        add=TRUE, col="blue", lwd=2)
  lines(density(z)$x, density(z)$y,
        col="red", lwd=2, lty=2)
  legend("topright",
         legend = c( "Normal Curve", "Kernel Density Curve"),
         lty=1:2, col=c("blue","red"), cex=.7)
}

 residplot 코드인데 두 개의 코드가 약간 차이가 있습니다. 위의 것은 스튜던트화 잔차인 반면 아래는 표준화 잔차라는 것입니다. 표본 수가 충분히 많다면 표준화 잔차를 사용하는 것이 좋을 것입니다. 이를 이용해서 예제를 분석해 보겠습니다. 


residplot <- fit="" function="" nbreaks="100)" span="">
  z <- fit="" rstandard="" span="">
  hist(z, breaks=nbreaks, freq=FALSE,
       xlab="Standardized Residual",
       main="Distribution of Errors")
  rug(jitter(z), col="brown")
  curve(dnorm(x, mean=mean(z), sd=sd(z)),
        add=TRUE, col="blue", lwd=2)
  lines(density(z)$x, density(z)$y,
        col="red", lwd=2, lty=2)
  legend("topright",
         legend = c( "Normal Curve", "Kernel Density Curve"),
         lty=1:2, col=c("blue","red"), cex=.7)
}

par(mfrow=c(1,1))
residplot(model)



 재미있는 것은 정규 분포를 따르는 예제인데도 완전한 정규 분포와 약간 차이가 있다는 점입니다. 이는 표준 편차에 따르는 변화 이외에도 가상의 오차항인 b를 넣었기 때문입니다. 아무튼 잔차의 분포는 정규 분포에 근사한다고 말할 수 있을 것입니다. 다이아몬드 예제와 비교하면 차이는 분명합니다. 


set.seed(3311)
diamonds1<-sample 2500="" diamonds="" nrow="" span="">
D1<-diamonds diamonds1="" span="">
model=lm(price~carat, data=D1)

residplot(model)



 다이아몬드 예제의 잔차의 분포는 정규 분포와 상당히 어긋난다는 점을 다시 확인할 수 있습니다. residplot 코드는 샘플의 숫자가 아무리 증가해도 한 눈에 쉽게 들어온다는 점에서 유용합니다. 

댓글 없음:

댓글 쓰기