Translate

2016년 11월 7일 월요일

데이터 분석 입문 3



 일단 기본적인 데이터 분석을 위해 ggplots 패키지를 설치하고 로드해 봅니다. 사실 지금 제가 다루는 diamonds 데이터는 다양한 데이터 시각화를 위한 예제 설명에 사용됩니다. 하지만 오늘 하는 이야기는 그게 아니라 기본적인 데이터 시각화입니다. 


 아무튼 다이아몬드 데이터를 불러내기 위해 library("ggplot2") 를 사용합니다. 오늘 예시를 들 것은 히스토그램입니다. 도수분포표를 사용해서 데이터의 분포를 보는 가장 기본적인 방법이죠. 직관적으로 가장 쉽게 이해되는 그래프이기도 합니다. R에서 그리는 방법은 간단합니다. hist () 명령어를 사용합니다. 우선 다이아몬드 캐럿의 분포를 볼까요? 


 library("ggplot2")
 hist(diamonds$carat)


 R 스튜디오에서 위의 명령어를 입력해서 실행시키면 아주 단순한 히스토그램이 오른쪽 하단의 창에 나타납니다. 






 오른쪽 하단 메뉴 가운데 Export 메뉴를 사용하면 별도의 그림으로 저장할 수 있습니다. 





Save as Image 를 클릭해 봅니다. 




 역기서 저장 경로 및 파일 종류 (PNG가 기본), 파일 이름을 정한 후 save를 누르면 됩니다. 저장 자체는 간단한데, 문제는 그림이 너무 단순해서 충분한 정보를 전달하기 어려워 보이네요. 물론 그래프의 모양을 변경할 수 있는 다양한 옵션이 존재합니다. 보통 기본 상태에서 막대의 숫자는 10개에 불과합니다. 막대의 수를 조절하기 위해서 breaks 명령어를 이용합니다. 


 hist(diamonds$carat,breaks=50)




 아까보다 더 많은 정보가 나타나네요. 작은 다이아몬드가 많기는 하지만 구체적으로 어느 구간이 가장 많은지가 드러나고 있습니다. 그런데 흰색 그래프라 그런지 다소 밋밋해 보입니다. 색칠을 해보겠습니다. 색상 지정은 col 을 사용합니다. 

hist(diamonds$carat, col="red", breaks=50)



 이러면 뭔가 있어보입니다. 그런데 여기에 타이틀을 붙일 수 없을까요? 타이틀을 붙이는 것은 main 명령어를 사용합니다. main="Distribution of diamonds (Carat)" 라고 해보겠습니다. 


hist(diamonds$carat, col="red", main="Distribution of diamonds (Carat)", breaks=50)




 그런데 여전히 diamonds$Carat 이라는 설명이 눈에 거슬립니다. X 축 설명을 변경하기 위해서 xlab 명령어를 사용합니다. xlab=expression(Carat) 라는 식으로 가로 안에 원하는 글자를 넣어 줍니다. 


hist(diamonds$carat, col="red", main="Distribution of diamonds (Carat)", xlab=expression(Carat), breaks=50)



 이 정도면 어느 정도 만족할만한 그래프가 나왔네요. 하지만 아직 시작 단계에 불과합니다. 다음에 계속 이야기 하겠습니다. 

댓글 없음:

댓글 쓰기