(출처: 엔비디아)
엔비디아가 차기 아키텍처인 볼타(Volta)에 대한 세부 사항을 공개했습니다. 볼타는 210억 개의 트랜지스터를 집적한 거대한 칩으로 다이 사이즈가 역대 최대급인 815㎟에 달합니다. TSMC의 12nm FFN 공정은 사실 16nm 공정의 개선 버전으로 트랜지스터 집적 밀도는 크게 증가하지 않았다는 것을 알 수 있습니다. 아마도 볼타 V100의 다이 제조 비용은 매우 고가일 것으로 생각되며 이 다이를 가지고 일반 소비자용 제품을 만들기는 다소 어렵지 않을까 생각됩니다.
V100은 5376의 CUDA 코어 외에 672개의 텐서 코어를 갖춰 인공 지능 연산에 특화된 것이 특징입니다. V100은 84개의 SM을 가지고 있고 각각의 SM 당 64개의 FP32 CUDA 코어 및 32개의 FP64 CUDA 코어를 지니고 있습니다. 여기에 8개의 텐서 코어가 4x4 매트릭스 형태로 붙어 있는 구조입니다. 이렇게 복잡한 구조 덕분에 트랜지스터 집적도가 210억 개까지 증가한 것으로 보입니다.
연산 능력은 FP64 (배정밀도) 기준 7.5 TFLOPS, FP32(단정밀도) 기준 15 TFLOPS 수준으로 생각보다 크게 향상된 건 아닌 것 같지만, 텐서 유닛에 의한 연산 능력이 120TFLOPS에 달해 구글의 텐서 플로(Tensor Flow)를 12배 빠른 속도로 처리할 수 있다고 합니다. 따라서 볼타는 요즘 급성장하는 딥 러닝에 특화한 GPU로 볼 수 있습니다. 아마도 일반 사용자용은 이런 부분을 제외시킨 컷칩 형태로 나오지 않을까 생각됩니다.
동시에 엔비디아는 기존의 DGX-1 시스템을 V100으로 교체해 최대 960TFLOPS의 텐서 플로 연산을 가능하게 만들었습니다. 이는 서버 400대 분량이라는 게 엔비디아의 주장입니다. 가격은 14만 9천 달러로 물론 일반 유저들을 위한 제품은 아닙니다.
이보다 더 저렴한 옵션으로 4개의 V100을 탑재한 DGX Station은 상자 모양의 데스크탑 PC와 유사한 외형을 가지고 69,000달러에 판매됩니다. 그리고 8개의 V100을 탑재한 클라우드 서버인 HGX-1 역시 같이 판매될 예정입니다. 모든 V100 기반 제품은 인공지능은 물론 그래픽 연산과 범용 연산에 사용될 수 있습니다.
이미 주문 예약을 받고 있으며 상기 제품들의 출시 일정은 2017년 3분기가 될 것이라고 합니다. 다만 일반 사용자용의 볼타 제품이 언제 나올지에 대해서는 언급이 없었습니다. 올해 하반기 라인업은 다소 유동적이지만, 일반 유저용의 볼타가 빨리 출시되거나 혹은 파스칼의 리프레쉬 버전이 등장하지 않을까 생각합니다.
한 가지 확실한 점은 엔비디아가 정말 꾸준하다는 점입니다. 최근 인공 지능 부분 수요 증가로 인해 매출이 급격히 증가하고 있고 계속해서 신제품을 내놓으면서 이 시장을 리드하고 있는 모습입니다.
참고
댓글
댓글 쓰기