결측값(NA)는 데이터 분서에서 매우 중요한 부분입니다. 여러 형태의 데이터를 수집하는 경우 100% 모든 값이 다 있는 경우보다는 그렇지 못한 경우가 더 많습니다. 예를 들어 설문 조사를 하는데 모든 항목에 다 응답을 하지 않는 경우가 생길 수 있습니다.
예를 들어 거주지나 소득, 교육 수준에 대한 질문 중 응답자가 꺼릴 만한 내용은 대답을 하지 않을 수 있습니다. 실험 데이터 역시 일부 값이 읽을 수 없게 나오거나 에러로 나와 측정을 못하는 경우가 생깁니다.
이와 같은 결측값을 제대로 다루는 것은 통계 분석에서 매우 중요한 문제입니다. 우선 결측값이 있는 간단한 데이터를 만들어보겠습니다. 결측치 입력은 NA로 하면 됩니다.
x<-c span="">-c>
그런데 이 데이터에 결측치가 있는지는 어떻게 확인할까요? is.na 함수는 결측치가 있으면 true 값을 반환합니다.
> is.na(x)
[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE
참고로 값을 합치는 경우 결측치가 있으면 이 값도 같이 결측치가 됩니다. 이는 데이터 프레임을 이용한 계산에서 주로 영향을 받습니다. 예를 들어 키와 몸무게를 이용해서 체질량지수(BMI)를 구하는 경우를 생각해 보면 키와 몸무게 중 하나가 없을 때 BMI 값은 당연히 결측치가 될 것입니다.
> NA+3
[1] NA
> NA*3
[1] NA
위에서 보듯이 NA를 곱하가 더하거나 모두 결측값이 되는 것입니다. 앞서 설명한 논리를 적용하면 쉽게 이해가 되는 이야기입니다. 결측값은 통계 분석을 하거나 데이터를 처리하는데 많은 어려움을 만들 수 있습니다. 결측치가 있는 데이터의 평균을 구하려면 어떻게 해야 할까요?
> mean(x)
[1] NA
결측치가 있으면 평균도 NA값으로 반환됩니다. 결측치를 처리할 가장 간단한 방법은 물론 이걸 빼고 계산하는 것입니다. na.rm 함수로 지정합니다.
> mean(x,na.rm=TRUE)
[1] 3.833333
> mean(x,na.rm=T)
[1] 3.833333
na.rm=TRUE를 입력하면 NA값을 제외하고 평균을 구하게 됩니다. TRUE 대신 T를 넣어도 같은 방식으로 처리합니다. 물론 제외하지 않으려면 FALSE나 F를 입력하면 되는데, 보통 그렇게 사용할 일은 많지 않을 것입니다.
한편 데이터 프레임에서 아예 결측치를 제거하는 방법도 있습니다. na.omit 혹은 na.exclude 함수를 사용합니다.
> y=na.omit(x)
> y
[1] 1 2 3 4 6 7
attr(,"na.action")
[1] 5
attr(,"class")
[1] "omit"
> y=na.exclude(x)
> y
[1] 1 2 3 4 6 7
attr(,"na.action")
[1] 5
attr(,"class")
[1] "exclude"
na.omit와 na.exclude는 사실 약간 사용법이 다르지만, 결측치를 제외한 데이터 프레임을 만들때는 동일하게 사용할 수 있습니다. 이 둘의 차이는 선형 회귀 분석을 다룰 때 다시 이야기할 기회가 있을 것 같네요.
댓글
댓글 쓰기