지금까지 로지스틱 회귀 분석 설명은 질병의 유무 처럼 이분형 자료에 대한 설명이었습니다. 하지만 세 가지 이상 범주형 자료 역시 로지스틱 회귀 분석이 가능합니다. 결과 변수가 단순히 질병의 발생이 아니라 질병의 종류나 혹은 경과에 따른 여러 가지 결과 (종양이 성장, 변화 없음, 감소 등)으로 나타나는 경우 이분형이 아니라 다항 로지스틱 회귀 분석 (Multinomial Logistic Regression)을 사용할 수 있습니다. 주의할 점은 다중 로지스틱 회귀 분석 (Mutiple Logistic Regression)과 혼동하지 말아야 한다는 점입니다. 다중 로지스틱 회귀 분석은 이름은 비슷해 보이지만, 그냥 이분형 로지스틱 회귀 분석입니다.
다항 로지스틱 회귀 분석은 사실 생각보다 널리 쓰이지 않는 분석 방법입니다. 결과 해석이 복잡하기 때문에 반드시 결과가 셋 이상으로 나타나는 경우를 제외하면 쓰기 꺼려지는 것이죠. 하지만 다양한 결과를 분류해야 하는 예측 모형이나 머신러닝 분야에서는 유용하게 사용될 수 있습니다. 그래서 R에서 다항 로지스틱 회귀 분석 예제가 대부분 nnet 패키지를 사용합니다. nnet 패키지는 앞서 신경망에서 사용한 적이 있는데, 이 신경망 학습의 목적이 올바른 분류라는 점을 생각하면 nnet에 다항 로지스틱 회귀 분석이 포함된 이유도 이해할 수 있을 것 같습니다. 구글에서 가장 쉽게 검색할 수 있는 nnet 예제는 역시 iris입니다.
여기서는 다른 예제를 통해 다항 로지스틱 회귀 분석에 대해서 알아보겠습니다. moonBook 패키지에 있는 acs 데이터는 불안정 협십증 (unstable angina), ST 분절 비상승 심근경색증(Non-ST elevation myo- cardial infarction: NSTEMI), ST 분절 상승 심근경색증(ST elevation myo- cardial infarction: STEMI)이 발생한 환자들의 임상 정보를 담고 있는 데이터 입니다. 구조를 확인하면 다음과 같습니다. (우선 moonbook 패키지와 nnet 패키지를 로드합니다)
require(moonBook)
require(nnet)
str(acs)
> str(acs)
'data.frame': 857 obs. of 17 variables:
$ age : int 62 78 76 89 56 73 58 62 59 71 ...
$ sex : chr "Male" "Female" "Female" "Female" ...
$ cardiogenicShock: chr "No" "No" "Yes" "No" ...
$ entry : chr "Femoral" "Femoral" "Femoral" "Femoral" ...
$ Dx : chr "STEMI" "STEMI" "STEMI" "STEMI" ...
$ EF : num 18 18.4 20 21.8 21.8 22 24.7 26.6 28.5 31.1 ...
$ height : num 168 148 NA 165 162 153 167 160 152 168 ...
$ weight : num 72 48 NA 50 64 59 78 50 67 60 ...
$ BMI : num 25.5 21.9 NA 18.4 24.4 ...
$ obesity : chr "Yes" "No" "No" "No" ...
$ TC : num 215 NA NA 121 195 184 161 136 239 169 ...
$ LDLC : int 154 NA NA 73 151 112 91 88 161 88 ...
$ HDLC : int 35 NA NA 20 36 38 34 33 34 54 ...
$ TG : int 155 166 NA 89 63 137 196 30 118 141 ...
$ DM : chr "Yes" "No" "No" "No" ...
$ HBP : chr "No" "Yes" "Yes" "No" ...
$ smoking : chr "Smoker" "Never" "Never" "Never" ...
이제 BMI가 급성 관상동맥 질환에 미치는 영향에 대해서 알아보겠습니다. 우선 boxplot을 그려봅니다.
boxplot(BMI~Dx, outline=FALSE, data=acs)
여기서 보면 사실 그룹간 유의한 차이는 없어 보입니다. 아무튼 acs 데이터 자체에 BMI 25를 기준으로 비만 여부를 구분했기 때문에 obesity를 기준으로 다항 회귀분석을 해볼 수 있습니다. 결과는 질병 분류이고 독립변수는 비만 유무입니다. 방법은 이항 로지스틱 회귀 분석과 비슷하나 glm 대신 multinom을 사용합니다.
out=multinom(Dx~factor(obesity),family=binomial,data=acs)
summary(out)
exp(coef(out))
exp(confint(out))
> out=multinom(Dx~factor(obesity),family=binomial,data=acs)
# weights: 9 (4 variable)
initial value 941.510731
final value 881.798002
converged
> summary(out)
Call:
multinom(formula = Dx ~ factor(obesity), data = acs, family = binomial)
Coefficients:
(Intercept) factor(obesity)Yes
STEMI 0.6789012 0.02482306
Unstable Angina 0.8659933 0.28106546
Std. Errors:
(Intercept) factor(obesity)Yes
STEMI 0.1192421 0.2145262
Unstable Angina 0.1157681 0.2035572
Residual Deviance: 1763.596
AIC: 1771.596
> exp(coef(out))
(Intercept) factor(obesity)Yes
STEMI 1.971710 1.025134
Unstable Angina 2.377366 1.324540
> exp(confint(out))
, , STEMI
2.5 % 97.5 %
(Intercept) 1.5607883 2.490819
factor(obesity)Yes 0.6732486 1.560938
, , Unstable Angina
2.5 % 97.5 %
(Intercept) 1.8947596 2.982896
factor(obesity)Yes 0.8887856 1.973937
그냥 보기에도 결과를 어떻게 정리할지 눈에 들어오지 않습니다. 아무튼 이 결과는 비만의 유무에 따라 NSTEMI에 비해 unstable angina나 STEMI가 생길 OR값 (exp(coef(out)))과 그 95% CI 값 (exp(confint(out)))을 보면 각각 1.324540 (95% CI 0.8887856 1.973937) 1.025134 (95% CI 0.6732486 1.560938) 입니다. 헷갈릴 수 있는데, 보통 95% CI 값 중간에 OR 값이 온다는 점을 참조하면 도움이 될 것입니다. (아래 사진 참조)
참고로 여기서는 NSTEMI를 기준으로 삼았지만, 만약 기준을 바꾸고 싶다면 0,1,2로 이름을 바꾸면 0을 기준으로 수치를 알려주게 됩니다.
하지만 다항 로지스틱 회귀 분석의 어려움은 결과 변수와 독립 변수의 숫자가 3보다 더 많을 때 발생합니다. 결과가 3x3, 4x4 하는 식으로 복잡해지기 때문이죠. 여기서는 obesity를 정상 (BMI 23이하), 과체중 (23-25) 비만 (25 이상)으로 세 군으로 나눠보겠습니다.
acs$obesity2[acs$BMI<23 span="">23>
acs$obesity2[acs$BMI>=23]=1
acs$obesity2[acs$BMI>=25]=2
table(acs$obesity2)
out=multinom(Dx~factor(obesity2),family=binomial,data=acs)
summary(out)
exp(coef(out))
exp(confint(out))
> exp(coef(out))
(Intercept) factor(obesity2)1 factor(obesity2)2
STEMI 1.90741 0.851940 1.059696
Unstable Angina 2.12963 1.138696 1.478629
> exp(confint(out))
, , STEMI
2.5 % 97.5 %
(Intercept) 1.3722523 2.651272
factor(obesity2)1 0.5098546 1.423547
factor(obesity2)2 0.6555833 1.712910
, , Unstable Angina
2.5 % 97.5 %
(Intercept) 1.5412883 2.942555
factor(obesity2)1 0.6975375 1.858866
factor(obesity2)2 0.9327947 2.343864
읽는 법은 앞서와 동일하지만, 결과가 두 배로 늘어났습니다. 이렇기 때문에 다항 로지스틱 회귀 분석은 반드시 써야 할 경우가 아니라면 잘 사용하지 않게 되는 것입니다. 차라리 결과를 심근 경색과 불안정 협심증으로 이분형으로 바꾸는 편이 결과가 더 깔끔할 수 있습니다. 아무튼 어떻게 사용하는지 알고 있으면 혹시라도 도움이 될지 모릅니다.
참고로 이항 로지스틱 회귀분석과는 달리 다항 로지스틱 회귀 분석은 모델을 평가할 수 있는 방법이 많지 않은 것 같습니다. 여러 모로 의학 연구에서는 잘 사용되지 않아 방법을 습득하는데도 다소 어려움이 있습니다.
댓글
댓글 쓰기