Translate

2016년 8월 15일 월요일

R에서 난수 형성하기와 시드값



 난수는 여러 가지 목적을 위해서 생성하게 됩니다. 주로는 시뮬레이션이나 혹은 예제를 설명하기 위한 테스트 파일 등을 형성하는 것이 목적입니다. 여기서 말하는 난수는 일양난수 (uniform random numbers)로 동전의 앞뒷면 던지기나 혹은 주사위의 눈처럼 결과에 규칙성이 없고 (무규칙성), 횟수를 늘리면 확률이 일정한 (등확률성) 난수입니다.  


 예를 들어 주사위가 조작된 것이 아니라면 던질때마다 1이 나올 확률은 1/6일 것입니다. 다만 1에서 6가운데 어떤 수가 나올지는 규칙성이 없고 횟수를 크게 늘리면 1에서 6까지 정확히 1/6씩의 확률을 지닐 것입니다. R에서는 사실 내부적으로 메르센 트위스터법 (Mersenne Twister)라는 방식으로 유사 난수를 만듭니다. 32비트 버전에서 이는 1/20억분의 1의 확률로 같은 수를 만들기 때문에 우연히 같은 수가 배열될 가능성은 거의 없다고 봐도 무방합니다. 


 R에서 난수 만들기의 기본 함수는 runif 입니다. runif () 에서 () 안에 원하는 수의 난수를 형성하도록 할 수 있습니다. 만드는 난수는 기본적으로 0과 1 사이의 임의의 수입니다. 기본적으로 R은 7자리 수를 표시한다는 것은 앞서 설명한대로입니다. 


> runif(10)
 [1] 0.7973274 0.6628566 0.2525148 0.4517695 0.2884910 0.6700911 0.4800454 0.5902301 0.6887335 0.3144737


 위에서 10개의 수를 지정했는데 이와 같은 결과가 나왔습니다. 그런데 다시 같은 함수를 돌리면 이번엔 다른 난수가 나옵니다. 


> runif(10)
 [1] 0.6629405 0.6337934 0.9406617 0.5592423 0.2213430 0.8140099 0.4750340 0.1804209 0.9003436 0.4341867

 한 눈에 보기에도 중복되는 난수가 없는데, 우연히 중복된 난수가 나올 가능성은 20억 분의 1 이하입니다.


 이렇게 생성된 난수는 여러 가지 목적으로 사용할 수 있습니다. 그런데 특별한 목적을 위해서 같은 순서의 난수를 만들 수는 없을까요? 여기서 시드값 (seed) 이라는 개념이 나옵니다. 시드값은 컴퓨터 내부에서 돌아가는 특정한 난수 생성 공식에서 처음 시작값을 주어 매번 같은 값이 나오게 만드는 것입니다. R에서는 set.seed 함수를 이용합니다. set.seed(원하는 시드값)을 주고 작동을 시키면 됩니다. 


> set.seed(1234)
> runif(5)
[1] 0.1137034 0.6222994 0.6092747 0.6233794 0.8609154
> set.seed(1234)
> runif(5)

[1] 0.1137034 0.6222994 0.6092747 0.6233794 0.8609154

 중요한 것은 set.seed와 난수를 생성하는 명령어를 같이 실행시켜야 한다는 것입니다. 따로 실행시키면 매번 다른 난수가 생성됩니다. 


 난수는 0-1까지를 생성할 수도 있지만, 정규분포를 따르는 형태의 난수를 만들 수 있습니다. rnorm 이 그것으로 장규분포를 따르는 원하는 난수의 숫자, 평균, 표준편차를 쓰면 됩니다. rnorm(10,0,1) 이면 10개의 정규분포를 따르는 난수를 생성하되 평균은 0이고 표준편차는 1이 되는 것입니다. 물론 set.seed 값을 주면 매번 같은 난수를 생성할 수 있습니다. 

> set.seed(123)
> rnorm(10,0,1)
 [1] -0.56047565 -0.23017749  1.55870831  0.07050839  0.12928774  1.71506499  0.46091621 -1.26506123 -0.68685285 -0.44566197
> set.seed(123)
> rnorm(10,0,1)

 [1] -0.56047565 -0.23017749  1.55870831  0.07050839  0.12928774  1.71506499  0.46091621 -1.26506123 -0.68685285 -0.44566197



 다음에는 이  난수 값을 응용해서 if else 구문과 간단한 시뮬레이션을 작성하는 방법을 알아보겠습니다. 



댓글 1개:

  1. 안녕하세요, 설명 감사합니다.
    질문이 한 가지 있습니다.
    혹시 컴퓨터의 환경에 변화를 주었을 때 (Ex: 하드디스크를 교체한 후에 새롭게 R studio를 설치) 동일한 set.seed 설정을 이용하여 난수를 생성하는 경우, 그 값이 달라질 수도 있나요?

    "여기서 시드값 (seed) 이라는 개념이 나옵니다. 시드값은 컴퓨터 내부에서 돌아가는 특정한 난수 생성 공식에서 처음 시작값을 주어 매번 같은 값이 나오게 만드는 것입니다. R에서는 set.seed 함수를 이용합니다. set.seed(원하는 시드값)을 주고 작동을 시키면 됩니다."

    set.seed(123)을 고정시킨 경우 이 컴퓨터에서 생성한 난수값과 다른 컴퓨터에서 생성한 난수 값이 항상 같게 나오는 지 궁금합니다.

    감사합니다.

    답글삭제