한동안 연구와 분석 때문에 R 스튜디오만 열면 작업을 해서 R관련 포스트가 늦었습니다. 아무튼 오늘 이야기는 정규 분포에 대한 내용을 다루기 전에 더 추가로 설명할 내용입니다. 1,2,3,4,.... 하는 식으로 된 연속 변수를 범주형 자료로 바꾸는 일입니다. 키나 몸무게 같은 연속 변수는 사실 변수 그대로 사용하는 것이 가장 좋지만 분석을 위해서 범주형 변수로 바꾸는 것이 좋은 경우가 있습니다.
대표적인 예가 BMI를 기준으로 저체중, 정상, 과체중, 비만으로 나누는 경우죠. BMI이 1 증가할 때보다 고혈압 가능성이 5% 증가한다보다 (실제로 그렇다는 것이 아니라 예시입니다) 정상 체중 (BMI 18.5-23)보다 비만 (25이상)인 경우 고혈압 위험도가 1.5배 이상 증가한다고 설명하면 훨씬 그 의미를 이해하기 쉽습니다.
또 소득의 경우에도 소득 100만원이 늘 때마다 사교육비 지출이 9만원 증가한다보다 상위 10% 소득 가정의 사교육비 지출이 하위 10%보다 8.3배 하는 식의 설명이 더 이해가 쉬운 경우들이 있습니다. 물론 연속형 자료를 범주형 자료로 바꿀 때는 주의해야 할 점이 있습니다. 자료를 나누는 기준이 합당해야 인정을 받을 수 있다는 것이죠.
여기에서는 연속형 변수인 다이아몬드의 가격을 범주형으로 바꾸는 예제를 생각해보겠습니다. 우선 ggplots 패키지를 불러온 후 가격에 따라 low, middle, high, very high 의 네 가지 그룹으로 나눠보겠습니다.
library("ggplot2")
diamonds$price1[diamonds$price<500 low="" span="">500>
diamonds$price1[diamonds$price>=500&diamonds$price<2000 middle="" span="">2000>
diamonds$price1[diamonds$price>=2000&diamonds$price<5000 high="" span="">5000>
diamonds$price1[diamonds$price>=5000]="very high"
생각보다 간단하게 이름을 지정하고 범주형 변수로 바꿀 수 있다는 것을 알 수 있습니다. 확인을 위해서는 table 함수와 head 혹은 summary 함수를 사용하면 됩니다.
table(diamonds$price1)
high low middle very high
15010 1729 22474 14727
head(diamonds)
# A tibble: 6 × 11
carat cut color clarity depth table price x y z price1
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 low
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31 low
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31 low
4 0.29 Premium I VS2 62.4 58 334 4.20 4.23 2.63 low
5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75 low
6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48 low
500달러 미만은 저가, 500-2000달러는 중간, 2000-5000달러는 고가, 5000달러 이상은 초고가라고 한 것인데 확실히 다이아몬드가 비싸긴 하네요. 그런데 여기서 보면 low, middle, high, very high 식으로 가격군에 따라 순서가 맞게 나열되지 않았습니다. 이는 박스플롯을 그려보면 확실히 알 수 있습니다.
boxplot(carat~price1, outline=FALSE, data=diamonds)
이를 순서대로 바꾸려면 한 가지 명령어가 더 들어가야 합니다.
diamonds$price1=factor(diamonds$price1, levels=c("low","middle","high","very high"))
table(diamonds$price1)
low middle high very high
1729 22474 15010 14727
factor를 이용해서 순서를 지정해주고 가격군에 따른 캐럿의 차이를 보면 확실히 비싼 다이아몬드가 크다는 것을 알 수 있습니다.
diamonds$price1=factor(diamonds$price1, levels=c("low","middle","high","very high"))
boxplot(carat~price1, outline=FALSE, data=diamonds)
하지만 이 예제에는 문제가 있습니다. 어떤 근거로 가격군을 나눴는지 불분명하다는 것이죠. 예제에서는 별 문제가 되지 않은 일이지만, 만약 논문으로 발표를 해야 하는 문제라면 당연히 지적이 나올 수 있습니다. 그래서 흔히 하는 방법이 균등하게 3그룹, 4그룹, 5그룹, 10그룹 등으로 나누는 방식입니다. 상위 10%나 상위 20% 하는 식으로 비교하는 것과 같다고 하겠습니다.
다음에는 이 방법에 대해서 이야기해 보겠습니다.
댓글
댓글 쓰기