R에서 데이터 분석을 하기 위해선 여러 가지 그래프가 필수적입니다. 데이터 시각화는 데이터를 더 쉽게 이해할 수 있도록 도와줍니다. 더 나아가 선형 회귀 분석에서 모델 평가를 위해서는 반드시 잔차도를 비롯한 그래프를 비교 검토해야 합니다. 이 그래프를 저장하는 것은 R 스튜디오에서 기본으로 기능을 지원하기 때문에 R 스튜디오에서 시행해도 되지만, 당연히 R 콘솔에서 저장도 가능합니다. 오늘은 앞서 예제에서 나온 그래프를 저장하는 코드에 대해서 설명하겠습니다.
기본적으로 추천하는 그래픽 파일 포맷은 png나 pdf 입니다. jpeg도 물론 지원하지만, 사실 고해상도의 파일을 저장하는 용도로는 그렇게 추천하지 않으며 대개의 R 설명서에서 쓰지 말라고 이야기하고 있습니다. 그래도 R은 기본으로 아래 파일을 지원합니다. 명령어도 그냥 png나 jpeg를 사용할 수 있습니다. ?png 코드로 상세한 내용을 확인할 수 있습니다.
bmp(filename = "Rplot%03d.bmp",
width = 480, height = 480, units = "px", pointsize = 12,
bg = "white", res = NA, family = "", restoreConsole = TRUE,
type = c("windows", "cairo"), antialias)
jpeg(filename = "Rplot%03d.jpg",
width = 480, height = 480, units = "px", pointsize = 12,
quality = 75,
bg = "white", res = NA, family = "", restoreConsole = TRUE,
type = c("windows", "cairo"), antialias)
png(filename = "Rplot%03d.png",
width = 480, height = 480, units = "px", pointsize = 12,
bg = "white", res = NA, family = "", restoreConsole = TRUE,
type = c("windows", "cairo", "cairo-png"), antialias)
tiff(filename = "Rplot%03d.tif",
width = 480, height = 480, units = "px", pointsize = 12,
compression = c("none", "rle", "lzw", "jpeg", "zip", "lzw+p", "zip+p"),
bg = "white", res = NA, family = "", restoreConsole = TRUE,
type = c("windows", "cairo"), antialias)
여기서는 png 파일로 저장하는 것을 해보겠습니다. 예제는 잔차도입니다.
library("ggplot2")
set.seed(3311)
diamonds1<-sample 2500="" diamonds="" nrow="" span="">-sample>
D1<-diamonds diamonds1="" span="">-diamonds>
model=lm(price~carat, data=D1)
summary(model)
par(mfrow=c(2,2))
plot(model)
이 코드에서 나온 그래프를 어떻게 저장할 수 있을까요? H 디스크에 R post 폴더에 R graph 폴더를 넣고 residualPlot01이라는 이름의 파일을 만들어 보겠습니다.
png("H:R post\\R graph\\residualPlot01.png",width = 2000, height = 1500)
par(mfrow=c(2,2))
plot(model)
dev.off()
우선 png()을 열고 파일의 경로와 이름을 지정해 주어야 합니다. 이때 실제 콘솔에서는 \\ 대신 사선으로 나타난다는 점을 확인할 수 있습니다.
그 다음 몇 개의 그림을 하나에 담을 것인지를 결정해주어야 합니다. 여기서는 표준인 2x2 구성으로 했습니다. 다음 plot을 통해 그림을 그려주면 완성이지만, 여기서 디바이스를 닫아야 다음 그림에서 오류가 생기지 않습니다. dev.off()라고 해주면 됩니다. 사용자가 한 가지 더 결정해야 하는 중요한 변수는 해상도로 여기서는 2000x1500 픽셀로 했습니다. jpeg는 잘 쓰지는 않지만 같은 방법으로 저장할 수 있습니다.
또 다른 중요한 포맷은 pdf입니다. pdf의 장점은 여러 장의 사진을 하나의 파일에 고품질로 담을 수 있다는 점입니다. 비교를 위해서 두 개의 코드를 사용해 보겠습니다.
png("H:\\R post\\R graph\\residualPlot02.png",width = 2000, height = 1500)
par(mfrow=c(2,2))
plot(model)
par(mfrow=c(1,1))
ols_cooksd_barplot(model)
ols_dfbetas_panel(model)
ols_dffits_plot(model)
dev.off()
pdf("H:\\R post\\R graph\\residualPlot02.pdf",width = 16, height = 16)
par(mfrow=c(2,2))
plot(model)
par(mfrow=c(1,1))
ols_cooksd_barplot(model)
ols_dfbetas_panel(model)
ols_dffits_plot(model)
dev.off()
png는 크기에서 픽셀 기준이지만, pdf는 인치 기준이라는 점을 주의해야 합니다. 아무튼 png는 해보면 알겠지만, 마지막 파일만 남고 덮어쓰기가 이뤄집니다. 반면 pdf는 파일을 각 페이지에 저장합니다. 따라서 여러 장의 그래프를 하나의 파일에 저장하고 싶다면 pdf가 가장 유리한 방법입니다. 고품질 출력물의 기준이기도 하기 때문에 pdf는 여러 모로 유용한 포맷입니다.
R에서 다양한 pdf를 포함해서 다양한 문서를 만들 수 있는 방법에 대해서는 'R과 Knitr를 활용한 데이터 연동형 문서 만들기'같은 전문 서적을 추전합니다. 반대로 pdf나 문서 파일, 여러 이미지 파일에서 데이터를 추출해서 R에서 처리할 수 있는데, 나중에 다뤄보겠습니다.
댓글
댓글 쓰기