(출처: 엔비디아)
2015년 슈퍼컴퓨팅 컨퍼런스(SC 15)에서 유독 독보이는 기업은 인텔과 엔비디아 입니다. 이들은 공격적으로 차세대 슈퍼컴퓨팅 및 고성능 컴퓨팅(HPC)에 대한 제품과 미래 로드맵을 공개하고 있습니다. 이 회사들이 앞으로 시장에서 치열하게 격돌하게 될 것임을 시사하는 내용입니다.
그중에서 엔비디아는 파스칼에 대한 추가 정보를 공개했습니다. 새로 공개한 슬라이드에 의하면 파스칼은 대략 4 TFLOPS의 연산 최고 배정밀도 연산(Peak doubel precision FLOPS) 능력을 가지고 있으며 그 다음 GPU인 볼타의 경우 7 TFLOPS라는 매우 인상적인 성능을 가지고 있는 것으로 나타났습니다. 만약 단정밀도 연산을 기준으로 할 경우 파스칼은 10 TFLOPS를 넘을 수도 있다고 합니다.
물론 실제로도 그런 성능을 지녔는지는 나와봐야 검증이 가능하겠지만, 이미 파스칼 시제품은 나와있는 상태로 엔비디아는 정확한 성능을 알고 있는 상태이고 머지 않아 사실이 드러날 내용이므로 이런 컨퍼런스에서 거짓말을 하지는 않을 거라고 생각할 수 있습니다.
(참고로 한 가지 흥미로운 부분은 비교 대상이 AMD의 라데온 같은 전통적인 경쟁자가 아닌 x86 CPU라는 것입니다. 이점은 같은 컨퍼런스에서 가장 활발하게 신제품, 특히 나이츠 랜딩을 공개한 인텔을 의식한 것처럼 보입니다)
파스칼이 1TB/s의 HBM 메모리를 사용하고 용량은 16/32GB라는 내용은 새로울 것이 없습니다. 80GB/s의 대역폭을 가진 NV Link 역시 이미 몇 번이나 공개한 내용입니다. 다만 엔비디아가 앞으로 엑사스케일 슈퍼컴퓨터(1000 페타플롭스급 연산 능력)에 대한 언급을 한 점은 흥미롭습니다.
(출처: 엔비디아)
엔비디아는 16nm 공정으로도 1 제곱 센티미터의 다이 위에 20 TFLOPS 연산 능력을 지닌 프로세서를 만들수 있다고 보고 있습니다. double precision fused multiply add (DFMA) 유닛이라는 것으로 다른 모든 것을 제외한 배정밀도 연산 유닛이 2 GFLOPS 급 연산을 할 수 있기 때문입니다.
유닛당 크기는 0.01 ㎟에 불과하면 전력 소모도 10 pJ/OP에 불과하다고 합니다. 따라서 1x1cm 사이즈의 다이에 이런 유닛 만 개를 담으면 200W에서 20 TFLOPS의 배정밀도 연산이 가능하다는 것입니다. 이를 5만개 연결하면 10MW에서 엑사스케일 컴퓨팅이 가능하다는 것이죠.
하지만 엔비디아는 GPU 하나로 게이밍 시장에서 쿼드로, 테슬라 같은 전문가 및 HPC 시장까지 공략해야 하므로 현실적으로는 여러 가지 유닛을 모두 끼워 넣는 수밖에 없습니다. 이런 핸디캡을 감안해도 엔비디아는 2023년 쯤이면 엑사플롭스 컴퓨팅이 가능하다고 보고 있습니다.
하나 더 흥미로운 사실은 현재의 HBM이 1.2 TB/s 이상 속도에서는 상당한 전력을 소모한다는 것입니다. 만약 2세대 HBM 메모리를 2.5 TB/s로 올리면 120W, 3 TB/s로 대역폭을 올리면 무려 160W의 전력을 소모한다고 합니다. 당연히 이런 전력 소모는 감당할수가 없는 것이죠.
(출처: 엔비디아)
엔비디아는 이 문제를 해결하기 위해 새로운 메모리 아키텍처를 도입하는 것은 물론 데이터 전송을 더 쉽게 만들기 위해 Heterogeneous node 를 만들 계획입니다. 다만 아직은 미래의 일이라고 하겠습니다.
마지막으로 엔비디아는 파스칼이 16nm 공정에서 제조된다는 것을 분명히 했습니다. 이 공정을 현재 사용하는 제조사는 TSMC 뿐이므로 이전에 알려진 것처럼 다시 TSMC를 이용하기로 결정한 것이 분명해 보입니다.
이미 지금쯤이면 파스칼의 설계는 마무리 되었을 것입니다. 문제는 TSMC가 적당한 수율로 안정적으로 칩을 생산하는 것과 HBM 메모리의 가격이 저렴해지는 것이죠. 아마도 초기 파스칼 제품은 가격이 꽤 나갈 것으로 예상됩니다.
참고
댓글
댓글 쓰기