Translate

2016년 12월 26일 월요일

R에서 랜덤 샘플링하기




 무작위로 표본을 추출하는 일은 확률과 통계에서는 흔한 일입니다. 당연히 R에서도 랜덤하게 샘플을 추출할 수 있는 함수가 마련되어 있습니다. 기본 함수는 아주 당연하게도 sample 입니다. 일단 sample 함수를 통해 단순 임의 추출(simple random sampling)을 해보겠습니다. 단순 임의 추출이란 주머니에서 공을 무작위로 꺼내는 식의 추출 방법입니다. 여기에는 복원추출과 비복원추출이 있습니다.


1부터 10까지 숫자가 써있는 공을 넣은 주머니에서 무작위로 표본을 추출할 때 나온 공을 다시 집어넣으면 복원추출, 다시 넣지 않으면 비복원추출이 있습니다. 비복원추출에서는 같은 숫자가 두 번 나오지 않는 것이죠. 당연히 두 경우에 확률이 달라지기 때문에 구분해서 설명해야 합니다. sample 함수에서는 replace = TRUE 혹은 FALSE로 이를 지정할 수 있습니다. 


> sample(1:10,4)
[1] 5 2 6 7


 위의 예제에서는 1부터 10까지 숫자를 지정하고 이중 4개를 뽑으라는 의미입니다. 그런데 숫자 말고 문자도 지정이 가능합니다. 알파벳 26글자 가운데 임의의 알파벳을 지정하기 위해서 letters 명령어를 사용합니다. 


> sample(letters,10)
 [1] "s" "d" "p" "g" "v" "n" "c" "l" "f" "a"


여기서 좀 더 확장해서 복원 추출과 비복원추출을 지정해 보겠습니다. 지정하지 않으면 기본은 비복원추출입니다. 


> sample(1:10,10, replace=TRUE)
 [1]  7  6 10 10 10  4 10  6  5  3
> sample(1:10,10, replace=FALSE)
 [1]  2  8  4  5  9 10  1  7  3  6


 복원과 비복원추출외에 시드값을 지정해서 매번 같은 값이 추출되게 만드는 옵션도 있습니다. 


> set.seed(1)
> sample(1:10,10, replace=TRUE)
 [1]  3  4  6 10  3  9 10  7  7  1
> sample(1:10,10, replace=FALSE)
 [1]  3  2  6 10  5  7  8  4  1  9


 참고로 시드값은 앞서 설명했듯이 난수를 만드는 공식에 초기값을 주는 것이지 난수 자체를 지정하는 것이 아닙니다. set.seed(1)을 지정해도 1부터 나오는 것이 아니니 오해가 없으시기 바랍니다. 


 sample 함수에서도 몇 가지 조건을 줄 수 있습니다. 예를 들어 특정 값 이상만 추출하게 할 수 있습니다. [] 안에 조건을 주면 됩니다. 예를 들어 8 이상의 값만 추출하는 예제입니다. 


> x <- 1:20="" span="">
> sample(x[x>8],8)
[1] 15 17  9 13 14 19 11 20


 간단한 기본 표본 추출 방식을 알아봤습니다. 시뮬레이션을 위해서는 기본 함수만으로 충분하지만, 좀 더 상세한 조건으로 데이터프레임에서 일부 값을 추출하기 위해서는 확장 패키지가 필요합니다. 나중에 다뤄보겠습니다. 

댓글 없음:

댓글 쓰기