R에서 결측값(NA)의 기본 성질

결측값(NA)는 데이터 분서에서 매우 중요한 부분입니다. 여러 형태의 데이터를 수집하는 경우 100% 모든 값이 다 있는 경우보다는 그렇지 못한 경우가 더 많습니다. 예를 들어 설문 조사를 하는데 모든 항목에 다 응답을 하지 않는 경우가 생길 수 있습니다.

예를 들어 거주지나 소득, 교육 수준에 대한 질문 중 응답자가 꺼릴 만한 내용은 대답을 하지 않을 수 있습니다. 실험 데이터 역시 일부 값이 읽을 수 없게 나오거나 에러로 나와 측정을 못하는 경우가 생깁니다.

이와 같은 결측값을 제대로 다루는 것은 통계 분석에서 매우 중요한 문제입니다. 우선 결측값이 있는 간단한 데이터를 만들어보겠습니다. 결측치 입력은 NA로 하면 됩니다.

x<-c span="">

그런데 이 데이터에 결측치가 있는지는 어떻게 확인할까요? is.na 함수는 결측치가 있으면 true 값을 반환합니다.

> is.na(x)

[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE

참고로 값을 합치는 경우 결측치가 있으면 이 값도 같이 결측치가 됩니다. 이는 데이터 프레임을 이용한 계산에서 주로 영향을 받습니다. 예를 들어 키와 몸무게를 이용해서 체질량지수(BMI)를 구하는 경우를 생각해 보면 키와 몸무게 중 하나가 없을 때 BMI 값은 당연히 결측치가 될 것입니다.

> NA+3

[1] NA

> NA*3

[1] NA

위에서 보듯이 NA를 곱하가 더하거나 모두 결측값이 되는 것입니다. 앞서 설명한 논리를 적용하면 쉽게 이해가 되는 이야기입니다. 결측값은 통계 분석을 하거나 데이터를 처리하는데 많은 어려움을 만들 수 있습니다. 결측치가 있는 데이터의 평균을 구하려면 어떻게 해야 할까요?

> mean(x)

[1] NA

결측치가 있으면 평균도 NA값으로 반환됩니다. 결측치를 처리할 가장 간단한 방법은 물론 이걸 빼고 계산하는 것입니다. na.rm 함수로 지정합니다.

> mean(x,na.rm=TRUE)

[1] 3.833333

> mean(x,na.rm=T)

[1] 3.833333

na.rm=TRUE를 입력하면 NA값을 제외하고 평균을 구하게 됩니다. TRUE 대신 T를 넣어도 같은 방식으로 처리합니다. 물론 제외하지 않으려면 FALSE나 F를 입력하면 되는데, 보통 그렇게 사용할 일은 많지 않을 것입니다.

한편 데이터 프레임에서 아예 결측치를 제거하는 방법도 있습니다. na.omit 혹은 na.exclude 함수를 사용합니다.

> y=na.omit(x)

> y

[1] 1 2 3 4 6 7

attr(,"na.action")

[1] 5

attr(,"class")

[1] "omit"

> y=na.exclude(x)

> y

[1] 1 2 3 4 6 7

attr(,"na.action")

[1] 5

attr(,"class")

[1] "exclude"

na.omit와 na.exclude는 사실 약간 사용법이 다르지만, 결측치를 제외한 데이터 프레임을 만들때는 동일하게 사용할 수 있습니다. 이 둘의 차이는 선형 회귀 분석을 다룰 때 다시 이야기할 기회가 있을 것 같네요.

이 블로그의 인기 게시물

벨 V-280 Valor 시험 비행 성공

( The V-280 Valor flew for the first time at Bell Helicopter's Amarillo Assembly Center in Texas(Credit: Bell Helicopter/YouTube) ) 앞서 소개드린 V-280 발러가 첫 번째 비행 테스트에 성공했다는 소식입니다. V-22 오스프리의 소형화 버전이라고 할 수 있는 V-280 발러는 미 육군의 차세대 헬기 사업인 Future Vertical Lift (FVL)에 입찰을 시도하는 틸트로터기로 현재 미 육군이 주력으로 사용하는 블랙호크 헬기와 비슷한 체급입니다. 다만 틸트로터기인 만큼 최고 속도나 항속 거리면에서 더 유리합니다. 스펙은 이전 포스트를 참조해 주시기 이전 포스트: https://blog.naver.com/jjy0501/221115245986 (동영상) V-280 발러는 틸트로터기의 더 대중화 될 수 있을지를 검증하는 중요한 무대가 될 것입니다. V-22 오스프리의 경우 복잡한 구조로 인해 가격이 너무 비싸져서 사실 미국은 몰라도 그 동맹국에 널리 도입되기는 어려운 부분이 있습니다. V-280 역시 가격이 아주 저렴할 것 같지는 않지만, 좀 더 합리적인 대안은 될 수 있을 것 같습니다. 만약 성공적인 결과가 나오면 한국을 포함한 미국의 동맹국에서 도입을 검토할 수 있을지 모르겠다는 생각입니다. 참고 https://newatlas.com/bell-v-280-valor-maiden-flight/52663/

자세한 내용 보기

100 테슬라급 자기장 도달

미국의 로스 알라모스 국립 연구소 (Los Alamos National Laboratory) 에서 과학자들이 지금까지 인간이 개발한 가장 강력한 자기장을 발생시키는 장치 개발에 도전하고 있습니다. 자기장의 세기를 나타내는 방법으로 자기력선의 밀도를 나타내기 위해 단위 면적당 자기력선의 수를 표시하는 단위인 테슬라 (T) 가 있습니다. (1T = 1Wb/㎡ 웨버 (Wb) 는 자속의 단위) 의료용으로 사용되는 초전도체를 이용한 MRI 의 경우 1.5 - 3 테슬라급의 강력한 자기장으로 인체 내부를 볼 수 있게 만들지만 과학 연구용으로 이보다 더 강력한 자기장이 필요할 수 있습니다. 최근에 등장한 90 테슬라급 자기장에 이어 이번에 로스 알라모스 국립 연구소에서는 100 테슬라급인 100.75 T 를 실현 했다고 합니다. 이를 구현한 것은 18000 파운드 (8.16 톤 정도) 의 코일과 여기에 에너지를 공급할 1200 메가줄 (Megajoule) 급 모터 제네레이터등의 설비입니다. ( The 1,200-megajoule motor generator that powers the magnetic pulse. ) 이와 같은 연구를 통해 알아내고자 하는 것은 Quantum Phase transitions and new ultra high field magnetic states Electronic Structure determination Topologically protected states of matter 로 요약할 수 있다고 합니다. 아무튼 수 T 급 MRI 만 해도 자기장의 힘이 엄청난데 100 T 라니 엄청난 자기장이네요. 이는 지구 자기장 세기보다 200만배 강력한 (물론 좁은 범위에서 작용하는 자기장이라 지구 전체...

자세한 내용 보기

고대 양서류 이야기 (2) - 악어를 닮은 거대 양서류들

페름기에는 다양한 양막류가 진화해서 앞서 소개한 육상형 템노스폰딜리는 점차 설 자리를 잃게 됩니다. 하지만 양서류는 본래 자신의 서식지인 물과 습지에서 여전히 번성을 누렸습니다. 당시에는 악어류 같은 대형 양서형 파충류도 없던 시절이었기 때문에 이와 비슷한 생태학적 지위는 여전히 양서류의 몫이었습니다. 이들에 대한 이야기는 제 책인 포식자에서 비교적 간단히 다뤘는데, 오늘은 여기에 대한 보충 설명입니다. 책 정보: http://book.naver.com/bookdb/book_detail.nhn?bid=13347200 Yes 24: http://www.yes24.com/24/goods/58772859 11번가: http://books.11st.co.kr/product/SellerProductDetail.tmall?method=getSellerProductDetail&prdNo=1977867160 알라딘: http://www.aladin.co.kr/shop/wproduct.aspx?ItemId=134877825 교보문고: http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788970447988&orderClick=LAG&Kc= 인터파크 : http://book.interpark.com/product/BookDisplay.do?_method=detail&sc.prdNo=279593764&sc.saNo=003002003&bid1=search_auto&bid2=detail&bid3=prd_img&bid4=001 영풍문고: http://www.ypbooks.co.kr/book.yp?bookcd=100843205&gubun=NV ...

자세한 내용 보기

고든의 블로그 구글 분점

이 블로그 검색