(Image credit: Baidu)
중국 바이두의 자체 AI 가속 칩인 쿤룬의 2세대 칩이 공개돼었습니다. 바이두의 스핀 오프 반도체 제조사인 쿤룬 칩 테크놀로지 (Kunlun Chip Technology Co)가 개발한 쿤룬 II (Kunlun II) 칩은 상세한 기술적 내용은 공개하지 않았지만, AI 가속 성능을 보면 엔비디아의 A100에 견줄 만한 성능을 지니고 있습니다. INT8 연산 기준 512 ~ 768 TOPS, INT/FP16 기준 128 ~ 192 TOPS, INT/FP32 기준 32 ~ 48 TOPS의 연산 능력을 지니고 있기 때문입니다. 스펙대로라면 2018년 공개한 1세대 쿤룬 칩 대비 2-3배 정도 성능이고 A100에 근접한 AI 연산 능력입니다.
Baidu Kunlun | Baidu Kunlun II | Nvidia A100 | |
INT8 | 256 TOPS | 512 ~ 768 TOPS | 624/1248* TOPS |
INT/FP16 | 64 TOPS | 128 ~ 192 TOPS | 312/624* TFLOPS (bfloat16/FP16 tensor) |
Tensor Float 32 (TF32) | - | - | 156/312* TFLOPS |
INT/FP32 | 16 TOPS | 32 ~ 48 TOPS | 19.5 TFLOPS |
FP64 Tensor Core | - | - | 19.5 TFLOPS |
FP64 | - | - | 9.7 TFLOPS |
(바이두 쿤룬/쿤룬 II/엔비디아 A100 비교 * 희소성 가속 (Sparsity Acceleration))
엔비디아 A100: https://blog.naver.com/jjy0501/221963445659
쿤룬 칩은 삼성의 14nm 공정으로 제조되었는데, 쿤룬 II는 아마도 이보더 미세한 공정으로 제조되었을 것으로 생각됩니다. 그리고 몇 배 정도 연산 유닛이 늘었을 것인데, 연산 성능이 두 배나 세 배가 아닌 2-3배가 된 이유는 정확하지 않습니다. AI 연산 능력은 A100과 견줄 만해 보이지만, 사실 몇 가지 연산 기능과 GPGPU 연산 기능을 포함하지 않았기 때문에 칩의 크기는 더 작을 것으로 추정해 볼 수 있습니다. 기본적으로 A100은 GPU이고 쿤룬 칩은 일부 AI 연산 유닛만 지닌 가속칩 개념이기 때문입니다.
아무튼 중국 역시 자체 AI 칩을 개발해 데이터 센터에서 사용하는 셈인데, 슈퍼 컴퓨터처럼 AI 관련 칩 역시 미국의 제재를 받을 수 있는 만큼 자체 개발에 힘을 쓴 것으로 보입니다. 다만 자체적으로만 사용한다는 점을 생각하면 실제 성능 면에서는 A100과 경쟁할 수준은 되지 않을 것으로 보입니다. A100 쪽이 훨씬 고성능의 연산 옵션과 AI 가속 이외의 연산 능력도 같이 제공하기 때문이죠. 아마도 경쟁이 된다고 생각했다면 내수용으로라도 판매했을 가능성이 높습니다.
참고
https://www.tomshardware.com/news/baidu-unveils-kunlun-ii-processor-for-ai
댓글
댓글 쓰기