Translate

2012년 5월 20일 일요일

GK 110 아키텍처에 대한 소식




 2012 년 5월 엔비디아는 자사의 GPU Technology Conference (GTC) 를 통해 두개의 케플러 GK 104 를 이용한 테슬라 K10 제품과 한개의 케플러 아키텍처 기반 GK 110 을 사용한 테슬라 K20 을 공개했습니다. 여기서 GK 110 의 대략적 스펙이 엔비디아에 의해 확인되었습니다. 








 IT 칼럼리스트인 PCwatch 의 고토 히로시게에 의하면 GK 110 은 15 개의 SMX (Streaming Multiprocessor eXtreme) 유닛 및 71 억개 이상의 트랜지스터를 집적했으며 만약 모든 SMX 유닛이 활성화 된다면 2880 개의 CUDA 유닛을 가지게 될 것이라고 합니다. 그러나 수율등을 위해서 이전에 그랬듯이 한개 정도 줄이면 이보다 약간 작은 수의 CUDA 유닛을 가지게 된다고 합니다. 


 엔비디아는 배 정밀도 (Double Precision )  연산에서 GK 110 이 이전 세대인 페르미 GF 100/110 의 3배라고 이야기하고 있는데 이를 기반으로 생각해 보면 대략 K20 의 배정밀도 연산 능력은 2 TFLOPS 에 달해야 합니다. 만약 GK 104 와 GK 110 의 SMX 가 완전히 동일하다면 이와 같은 배정밀도 연산 능력은 확보하기 힘들기 때문에 (GK 104는 단일 정밀도 연산에 특화) SMX 의 구조에 다소 변화가 있을 것으로 예상해 볼 수 있습니다. 그 차이는 배 정밀도 연산을 위해 64 개의 DP 연산 유닛이 SMX 마다 추가된다는 것으로 (아래 그림에서 노란색) 다른 쿠다 코어는 동일하지만 이를 통해 배 정밀도 연산이 대폭 증가하게 됩니다.  





 엔비디아는 이전 페르미 세대에서도 GK 100/110 에는 GPGPU 연산에 필요한 거대한 칩을 만들고 그 이하 제품군에서는 이를 생략해 게임에서의 성능이 우수한 제품들을 만들었습니다. 이번 케플러 세대에서도 이는 마찬가지로 GK 104 는 이전 GTX 460/560 를 만드는데 사용한 GF 104/114 와 같은 포지션의 제품이라는 것을 알 수 있습니다. 즉 이전 루머상으로 들리던 것과 같이 엔비디아의 플래그쉽 제품은 GK 110 이며 올해 4분기에나 등장할 수 있는 것입니다. 


 GK110 은 CUDA 유닛의 증가에도 불구하고 다이가 워낙 거대해져 클럭은 상대적으로 낮을 것으로 (800 - 880 MHz ?) 알려져 있으며 게임에서의 성능은 GK 104 보다는 물론 빠르겠지만 전력대 성능비는 약간 낮을 것으로 생각됩니다. 다만 이는 실제 제품이 나와봐야 평가가 가능한 부분입니다. 


 GK 110 의 발표와 함께 CUDA 5 의 흥미롭게 새로운 기능들이 같이 소개되었습니다. 그 중에서 가장 주용한 것은 Dynamic Parallelism 으로 이는 케플러 세대에서 새롭게 추가된 기능입니다. Dynamic Parallelism 은 GPU 가 보다 CPU 에 독립적으로 복잡한 연산을 수행할 수 있도록 도와주기 때문에 GPGPU 를 이용한 연산에서 CPU 가 GPU 의 발목을 잡는 일을 크게 방지할 수 있다고 합니다. 






  




 이제까지의 GPU 는 자체적으로 커널을 시작할 수 없었기 때문에 새로운 커널을 시작할 때마다 CPU 로 처리를 돌려보내야 했습니다. 하지만 GK 110 에서는 GPU 스스로 커널을 시작할 수 있게 되어 종래에는 어려웠던 GPGPU 연산이 가능해짐은 물론이고 성능의 향상도 고려할 수 있게 되었다고 합니다. 예를 들어 정확도가 요구되는 부분에만 연산을 집중하는 유체 시뮬레이션이 그 예로 공개되었습니다. 


    


 그 외에도 안드로메다 은하와 우리 은하가 충돌하는 시뮬레이션도 다이나믹 패러렐리즘으로 구현되었습니다. 





CUDA 5 및 Dynamic Parallelism 은 GPU 연산 및 프로그래밍에 있어 큰 진전이라고 엔비디아는 선전하고 있습니다. 특히 CPU 로 연산을 다시 돌려보내는 과정을 크게 줄여서 GPU 의 빠른 연산 성능을 최대한 활용할 수 있게 되었다고 합니다. 





 (CUDA 5 에서 Dynamic Parallelism 을 이용안 코드의 예) 


 또 CUDA 5 는 이전의 페르미 세대의 CUDA 4 와는 달리 Dynamic Parallelism 을 통해 동적으로 개체를 호출하여 연결할 수 있다고 합니다. GPU 에서 실행중인 커널에서 다른 커널을 호출할 수 있기 때문에 라이브러리의 효율적 사용이 가능하다고 합니다. 






  


 2012 년 4분기가 과연 10월인지 12 월인지 혹은 아예 내년을 연기될 지는 알수 없지만 일단 GK 110 의 성능에 관심이 가는 것이 사실입니다. 현재 알려지기로는 TDP 가 300W 에 이르러 GTX 690 과 동일한 수준으로 전기를 소모할 것으로 보이는데 과연 성능도 비슷한 수준을 확보할 수 있을 지가 관건이라고 하겠습니다. 연말에는 TSMC 의 28 nm 공정도 성숙하게 될 것이므로 과연 어디까지 전력대 성능비를 달성하는 지 기대되는 시점이라고 하겠습니다. 다만 가격은 현재의 GTX 680 을 상회할 것으로 생각되네요. 


참고



댓글 없음:

댓글 쓰기