무어의 법칙은 끝났을까? (2)

이전 포스트: https://blog.naver.com/jjy0501/221192460907

앞서 언급했듯이 2006년에서 지금까지 GPU 부분에서는 괄목할만한 성능 향상이 일어났습니다. 물론 CPU 부분에서도 성능 향상이 이어졌지만, 소비자용 제품을 기준으로 했을 때 GPU 부분에서 성장이 더 두드러졌다는 데는 의문의 여지가 없을 것입니다.

여기에는 몇 가지 이유가 존재합니다. 첫 번째 이유는 GPU가 CPU 대비 병렬화에 따른 이점이 크다는 점입니다. 사실 듀얼코어에서 쿼드코어, 헥사코어, 옥타코어하는 식으로 코어의 숫자를 늘려도 이를 필요로하는 프로그램을 구동하지 않는 이상 체감 성능 향상은 누리기 어렵습니다. 대개의 PC 유저들에서 현재까지는 8코어 이상의 프로세서가 크지 않은 이유입니다. 물론 시간이 지날 수록 멀티코어 지원이 대세가 되는 데다 한번에 돌리는 응용 프로그램의 종류도 많아지므로 코어가 많을 수록 좋긴 하지만, 상대적인 이점이 적다는 이야기입니다.

반면 그래픽카드는 그 주목적인 게임에서 프로세서의 성능을 거의 다 사용하므로 이런 고민이 없습니다. 여러 개의 작은 스트림 프로세서 혹은 CUDA 코어가 그래픽 처리 작업을 분산해서 시행하므로 사실 GPU 한 개가 아니라 두 개, 세 개를 쓰면 더 처리 속도를 빠르게 할 수 있습니다. 비록 멀티 GPU 기술의 경우 효율이 좋지는 못하지만, 그래픽 처리에 있어서는 병렬화의 이점이 매우 크다는 점을 보여주는 사례입니다.

하지만 2006년에 콘로가 CPU 시장에 진입한 후 시장 변화는 경쟁 구도 역시 중요한 역할을 한다는 점을 보여줍니다. 그래서 2006년에 등장한 콘로와 GeForce 8800 를 기준으로 이야기를 풀어 나겠습니다. G80으로 알려진 GeForce 8800 시리즈는 2006년 등장했습니다. 당시 6억 8100만개의 트랜지스터를 집적해 듀얼 코어 콘로의 2억9100만개보다 더 큰 프로세서였습니다. 공정도 콘로처럼 65nm가 아닌 90nm공정이라 다이 사이즈도 480㎟으로 꽤 거대했습니다. 메모리는 GDDR3 768MB를 사용했습니다.

콘로와는 달리 당시 GeForce 8800은 경쟁자가 있었습니다. Radeon HD 2900이 그것으로 80nm공정에서 7억개의 트랜지스터를 집적했으며 다이 사이즈는 420㎟에 달했습니다. 물론 이 시기에도 엔비디아가 우세하긴 했지만, CPU 시장처럼 독점 상태는 아니었으며 GPU 부분은 AMD, 엔비디아의 경쟁 구도가 형성됩니다.

2007년에 엔비디아는 클럭을 높인 GeForce 8800 Ultra로 대응하는 한편 2008년에는 다시 G92 (9800시리즈)를 내놓으면서 경쟁에 돌입합니다. AMD와 엔비디아의 경쟁사는 그것만으로도 한 권의 책이 될 정도로 길기 때문에 중간에 대폭 생략하고 설명하면 이로 인해 그래픽 프로세서의 트랜지스터 집적도가 경쟁적으로 커졌다는 것입니다.

G92로는 충분하지 않다는 사실을 깨달은 엔비디아는 GT200-100-A2, 즉 GeForce GTX 260을 들고 나왔습니다. 2008년에 등장한 GTX 260은 14억개의 트랜지스터를 집적했고 65nm 공정에서 다이 사이즈가 576㎟나 됐습니다. 불과 2년 만에 트랜지스터 집적도가 두 배 이상 늘어난 것이죠. 하지만 엔비디아는 이것도 충분치 않을 것이라는 점을 알고 있었습니다. 같은 시기에 경쟁자가 HD4000 시리즈를 내놓았고 HD 5000 시리즈를 준비하고 있었기 때문입니다.

이에 엔비디아는 트랜지스터 30억개가 넘는 GPU를 2009년 출시하기 위해 준비했습니다. 그러나 당시 TSMC의 40nm 공정의 낮은 수율로 인해 정식 출시는 2010년에 이뤄졌습니다. 그래도 GF100은 불과 2년도 되지 않는 시기에 GT200보다 두 배가 넘는 트랜지스터를 집적해 시장에 출시되었습니다. 이렇게 트랜지스터 집적도가 올라간 이유는 사실 게이밍 성능 이외에 GPGPU라는 새로운 분야에 출시하기 위한 목적이 컸습니다. 아무튼 이렇게 무어의 법칙은 정작 이를 주창한 인텔이 아니라 GPU 업계에서 더 잘 맞는 아이러니한 상황이 연출되었습니다.

2012년에 등장한 GK104는 (600시리즈) 35.4억개의 트랜지스터로 한 템포 쉬는 듯한 모습을 보여줬는데, 이는 경쟁자인 AMD의 힘이 빠진 것과 더불어 제조 공정상의 어려움도 한 몫 했습니다. GPU가 더 크고 복잡해지면서 한 번에 실수 없이 제조하기가 점점 어려워졌는데다 경쟁자가 제 역할을 하지 못하면서 굳이 복잡한 빅칩을 먼저 출시할 이유가 줄어든 것이죠.

이런 이유로 케플러 빅칩인 GK110은 소비자용으로는 2013년에 등장했습니다. 70.8억개의 트랜지스터를 지닌 GTX 780 시리즈 및 Titan 시리즈는 28nm 공정으로 제조되었으며 561㎟의 면적을 지니고 있었습니다. 사실 2010년 이후로는 GPU 역시 미세 공정의 장벽에 부딪히게 된 것입니다. 소비자와 제조사 모두 더 큰 칩을 원했지만, 파운드리 반도체 업계는 공정 미세화에 큰 애로 사항을 겪었습니다. 이 문제에 대해서는 다음에 더 자세하게 이야기하기로 하고 GPU 이야기를 계속해 보겠습니다.

비록 공정 미세화의 지연에도 불구하고 더 빠른 GPU에 대한 요구가 컸기 때문에 제조사들은 빠르게 다음 제품을 준비했습니다. 이렇게 태어난 GM200 칩은 같은 28nm 공정으로 제조되었으며 80억개의 트랜지스터를 지니고 있었습니다. 다이 사이즈는 601㎟로 소비자용 GPU에서는 일반적으로 최대로 여겨지는 크기까지 커졌습니다. 동시대에 등장한 4코어 인텔 프로세서가 트랜지스터 20억개 미만인데도 크기도 200㎟ 이하인 점을 감안하면 더 빠른 GPU에 대한 소비자의 요구와 제조사의 경쟁이 얼마나 큰 차이를 만드는지를 알 수 있습니다.

40nm 공정처럼 오래간 28nm 공정을 뒤로 하고 16nm 미세 공정이 도입된 2016년에는 다시 한 번 트랜지스터 집적도가 증가하게됩니다. GeForce GTX 1080 Ti와 타이탄에 사용된 GP102 칩은 120억개의 트랜지스터를 집적했는데 이는 GeForce 8800과 비교시 10년간 대략 17.6배 정도 트랜지스터 집적도 증가로 볼 수 있습니다. 무어의 법칙에서 예측한 32배보다는 낮지만, CPU와는 현저하게 차이가 날 정도로 집적도가 증가했습니다.

성능 역시 크게 증가해 GeForce GTX 1080 Ti의 연산 능력은 단정밀도 기준 11TFLOPS에 달합니다. 이는 GeForce 8800 의 518GFLOPS 대비 20배가 넘습니다. 무어의 법칙만큼은 아니지만 2006년 이후 기술 정체가 일어나 프로세서 성능에 큰 변화가 없다는 주장에는 상당한 무리수가 있습니다.

(엔비디아 GPU의 와트당 성능 변화. 출처: 엔비디아)

이와 같은 차이는 물론 여러 가지 이유가 있습니다. 앞서 설명했듯이 GPU가 특히 병렬화에 따른 이점이 크다는 점과 GPGPU 및 인공지능처럼 고성능 GPU의 수요가 늘어난 것 등이 복합적으로 작용했습니다. 하지만 CPU 시장보다 강한 경쟁 구도가 중요한 원인 중 하나라는 점도 확실합니다. 물론 이는 산업계 전반에서 흔히 볼 수 있는 형태입니다. 경쟁이 치열한 시장일수록 신제품 출시 주기가 짧고 가격 경쟁이 치열할 것입니다.

하지만 이와 같은 경쟁 구도는 엔비디아가 점유율을 높게 유지하면서 점차 희석되고 있습니다. 특히 지난 몇 년간 AMD의 약세로 인해 GPU 시장의 모습이 CPU 시장을 닮아갈 우려가 커지고 있습니다.

최근 그래픽카드 가격은 출시 가격 자체과 과거보다 높아졌고 가상화폐 채굴붐까지 일어나 높은 가격에 유지되고 있습니다. 이런 상황에서는 엔비디아가 신제품을 새로 출시하거나 가격을 낮출 이유가 줄어들 것입니다. 실제로 현재 판매되는 GeForce 10xx 계열 제품들은 2016년에 등장한 것으로 2018년 초까지 더 빠른 신제품 출시는 사실상 이뤄지지 않고 있습니다. 과거 타이탄으로 등장한 1080Ti 정도가 소비자용으로 판매되는 수준입니다. 이는 공정 장벽과 채굴붐, 그리고 경쟁 구도의 희석 등이 복합적으로 작용한 결과로 보입니다.

아무튼 GPU 시장에서 보듯이 소비자는 더 빠른 컴퓨터에 대한 욕구가 없었던 적이 없습니다. 이 욕구를 채우기 위해 제조사들은 계속해서 신제품을 선보였지만, 아직도 새로운 그래픽카드에 대한 수요는 수그러들지 않고 있습니다. 오히려 슈퍼 컴퓨팅이나 인공지능 처럼 새로운 영역에 사용되면서 더 빠른 GPU에 대한 수요가 점점 커지고 있는게 현실입니다.

2017년 엔비디아는 인공지능 연산에 초점을 맞춘 볼타를 출시하면서 무려 220억개의 트랜지스터를 집적했습니다. 하지만 해당 산업이 빠르게 발전하면서 앞으로 이보다 더 고성능 제품에 대한 수요가 클 것이라는 점은 의심의 여지가 없습니다. 이보다 더 많은 트랜지스터를 집적하지 못한 것은 기술적 한계 때문이지 결코 수요가 없어서는 아닙니다.

2006년 이후에도 그전처럼 프로세서 기술은 크게 발전했고 GPU는 슈퍼컴퓨팅이나 인공지능 연산에 활용되면서 새로운 시장을 창출하고 있습니다. 물론 2010년 이후에는 미세 공정 장벽에 부딪히면서 트랜지스터 집적도 증가세가 둔화되고 있으나 더 이상 혁신이나 새로운 수요가 없어서 성장을 못한다는 이야기는 납득하기 힘든 이야기입니다.

미래엔 그럴지도 모르지만, 적어도 지금까지는 아닙니다. 오히려 GPU 기술이 발전이 인공지능 같은 다른 분야에 파급효과를 일으키고 있으며 다시 이것이 자율 주행차 같은 미래 기술의 발전을 촉진해서 시장 판도를 새롭게 바꿀 것으로 예상됩니다.

다음에는 x86 CPU 부분에서는 진짜 2006년 이후 눈에 띄는 성능 향상이 없었는지를 알아보고 미세 공정에 따른 장벽에 대한 이야기로 넘어가겠습니다.

고든의 블로그 구글 분점

이 블로그 검색

무어의 법칙은 끝났을까? (2)

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

세상에서 가장 큰 벌

몸에 철이 많으면 조기 사망 위험도가 높다?

사막에서 식물을 재배하는 온실 Ecodome