(Source: Cambricon Technologies)
중국 화웨이/HiSilicon 이 개발한 Kirin 970에는 Cambricon-1A이라는 인공지능 연산 로직이 포함되어 있습니다. Cambricon-1A에 대해서는 많은 것이 알려져 있지 않지만, 아마도 구글의 TPU처럼 머신러닝 알고리즘 연산에 최적화된 하드웨어로 생각됩니다. 그런데 흥미롭게도 Cambricon Technologies라는 신생 기업에서 이를 이용한 머신러닝 전용 프로세서를 공개했습니다.
제품은 두 가지로 80W TDP를 지닌 베이스 모델과 110W TDP를 지닌 퍼포먼스 모델이 있습니다. MLUv01 아키텍처에 기반한 MLU100 프로세서는 스펙상 딥러닝에 널리 활용되는 엔비디아의 GPU 보다 연산 능력이 우수합니다. 머신러닝에서 중요한 반정밀도 연산 능력이 64/83.2 TFLOPS이고 8비트 정수 연산 능력은 128/166.4 TOPS에 달합니다. 스펙상으로는 엔비디아의 볼타를 능가하고 있습니다.
하지만 이는 아마도 구글 TPU처럼 머신러닝 연산에 필요한 로직만 넣었기 때문일 가능성이 큽니다. TSMC 16FF 공정으로 제조되어 특별히 공정상의 이점도 없는데다 메모리도 DDR4 3200을 사용하고 있어 메모리 대역폭도 102.4GB/sec에 불과해 사실 전체적인 연산 능력은 볼타에 크게 낮지만 대신 그래픽 및 범용 병렬 연산에 필요한 유닛 없이 오로지 머신러닝 연산 유닛만 넣어서 성능을 높인 것으로 보입니다. 물론 그렇다고 해도 실제 성능과 신뢰성이 어느 정도인지는 알려진 바가 없습니다.
이 미스터리한 AI 프로세서는 16/32GB DDR4 메모리와 함께 PCIe 카드 형태로 발표되었으며 레노버의 ThinkSystem SR650 듀얼 제온 서버에 에드온 카드로 붙여서 나올 것이라고 하지만, 구체적인 가격, 출시일자 등은 아직 알 수 없습니다. 소프트웨어는 자체적인 SDK 외에 TensorFlow, Caffe, MXNet 을 지원한다고 하는데, 실제로 잘 작동할지 여부도 아직은 알기 어렵습니다. 사실 엔비디아의 GPU가 딥러닝에서 인기가 좋은 이유는 관련 라이브러리가 많이 나와있기 때문인데 과연 이걸 이길 수 있을지는 다소 의문이네요.
그래도 첫술부터 배부르긴 어려울 것이고 계속해서 도전하면 성과가 나오지 말란 법이 없습니다. 이미 인공지능 부분에서는 중국이 크게 앞서가고 있다는 점은 분명한 사실이기도 합니다. Cambricon Technologies는 7nm 공정으로 2세대 제품을 개발할 계획입니다. 5 TOPS/Watt이라는 야심찬 목표를 세웠는데, 중국의 AI 굴기가 어떤 성과를 거둘 수 있을지 주목됩니다.
참고
댓글
댓글 쓰기