앞서 R의 기본 연산자를 통해 R을 계산기처럼 쓸 수 있다고 설명드렸습니다. 하지만 사실 계산기로만 쓰는 경우는 별로 없을 것이고 보통 데이터 처리 용으로 사용하게 됩니다. 데이터 처리를 위해서는 일단 데이터를 입력해야 합니다.
하지만 R 콘솔에서 직접 데이터를 입력하는 경우는 테스트 및 교육 목적 이외에는 많지 않을 것이고 보통은 엑셀 같은 스프레드시트 프로그램에서 입력한 파일을 사용하게 됩니다. 하지만 이런 경우라도 변수에 값을 할당해서 다양한 연산을 시도하게 됩니다. 따라서 변수에 값을 대입하고 입력하는 것은 매우 기본이라고 할 수 있습니다.
R에서 변수 이름으로 정할 수 있는 것은 영문 알파벳과 숫자가 기본이며 이외에 _ 와 . 를 쓸 수 있습니다. 하지만 주의해야 할 점은 - (하이픈)은 쓸 수 없으며 알파벳과 숫자의 조합인 경우 반드시 알파벳이 가장 먼저 와야 한다는 것입니다. X는 변수명이 되지만 3은 변수명이 될 수 없다는 점을 생각하면 이해가 빠를 것입니다. - 역시 빼기 연산자와 혼동을 주므로 변수명으로 쓸 수 없습니다.
즉 X3, X_Y, X.Y 는 올바른 변수명이며 3X, X-Y는 잘못된 변수입니다. 변수의 할당은 보통 <- ctrl="" enter="" nbsp="" r="" run="" span="">->
----------------------------------------------------------------
> x3<-3 span="">-3>
> x3
[1] 3
> x_y<-3 span="">-3>
> x_y
[1] 3
> x.y=3
> x.y
[1] 3
> 3x=3
에러: 예상하지 못한 기호(symbol)입니다. in "3x"
> x-y=3
Error in x - y = 3 : 객체 'x'를 찾을 수 없습니다
>
------------------------------------------------------------------
R의 특징은 기본으로 벡터 형태의 데이터를 사용한다는 것입니다. 이는 마치 2차원 데이터처럼 보이는데, 엑셀 파일에서 X 축과 Y 축 상에 데이터가 입력되어 있는 모습을 생각하면 이해가 빠를 것입니다. 따라서 변수 입력 역시 그렇게 할 수 있습니다. 일단 설명을 위해서 1차원적으로 데이터를 입력하는 경우를 보여드립니다. c() 를 이용해서 여러 개의 변수를 입력할 수 있습니다.
---------------------------------------------------------------------
> x<-c span="">-c>
> x
[1] 1 2 3 4 5 6 7
>
----------------------------------------------------------------------
이렇게 여러 개의 변수 입력이 가능하므로 통계적인 처리 역시 가능합니다. 예를 들어 평균을 구하기 위해 mean 명령어나 표준 편차를 구하기 위한 sd 명령어 같은 경우입니다.
------------------------------------------------------------------------
> mean(x)
[1] 4
> sd(x)
[1] 2.160247
-------------------------------------------------------------------------
물론 변수에는 숫자가 아닌 문자도 할당할 수 있습니다. a,b,c,d.... 하는 식으로 말이죠. 다만 숫자가 아닌 문자열이라는 점을 표시하기 위해서 "" 를 써야 합니다. 만약 쓰지 않으면 에러가 나죠.
-------------------------------------------------------------------------
> y<-c a="" b="" c="" d="" e="" f="" span="">-c>
에러: 객체 'a'를 찾을 수 없습니다
> y<-c a="" b="" c="" span="">-c>
> y
[1] "a" "b" "c"
>
---------------------------------------------------------------------------
숫자도 사실은 문자나 기호일 수 있습니다. 가장 대표적인 예는 남자를 1, 여자는 0으로 코딩하는 경우일 것입니다. 이 경우 "1" 을 써주면 문자열로 인식합니다. 물론 명령어를 통해 팩터(factor)인지 여부를 확인하고 형태를 바꾸는 것도 가능한데, 나중에 설명하겠습니다.
일단 여기까지 간단한 변수 입력 방법이었습니다. 그런데 한 가지 중요한 것이 있습니다. <- nbsp="" r="" span="">->
-----------------------------------------------------------------------------
> mean(x<-c span="">-c>
[1] 3
> x
[1] 1 2 3 4 5
> mean(y=c(1,2,3,4,5))
Error in mean.default(y = c(1, 2, 3, 4, 5)) :
기본값이 없는 인수 "x"가 누락되어 있습니다
> y
에러: 객체 'y'를 찾을 수 없습니다
>
> y=c(1,2,3,4,5)
> mean(y)
[1] 3
>
------------------------------------------------------------------------------
즉 = 기호는 가장 높은 수준에서 사용해야 합니다. 안전한 방법은 변수를 할당하는 경우는 <- nbsp="" span="">->
사실 이 내용을 설명한 책이 별로 없어서 저는 차이점을 아는 데 많은 시간이 걸렸습니다. 알수 없는 오류가 발생하는 경우 혹시 이 문제에서 오류가 생긴 것은 아닌지 확인해볼 필요가 있을 것입니다.
댓글
댓글 쓰기