(출처: 인텔)
인텔이 제온 6 그래나이트 래피즈와 함께 가우디 3 AI 가속기를 공개했습니다. 실물을 들고 나온 가우디 3는 앞서 소개한 것처럼 엔비디아의 블랙웰은 물론 H100이나 H200보다 낮은 성능을 지니고 있습니다. 하지만 인텔은 절반 정도에 불과한 가격으로 승부를 본다는 계획입니다.
가우디 3는 전작인 가우디 2의 24개보다 현저히 늘어난 64개의 텐서 프로세서 코어 (tensor processor core, TPC)를 지니고 있습니다. matrix multiplication engines (MME) 역시 2개에서 8개로 증가했습니다.
19.2 TB/s의 대역폭을 제공하는 96MB의 on-die SRAM을 탑재하고 있으며 주 메모리는 128GB의 HBM2E입니다. 특이한 점은 본래 GPU이기 때문에 H.265, H.264, JPEG, VP9 처리가 가능한 14개의 미디어 엔진도 지니고 있다는 것입니다. 이 목적으로는 거의 쓰이지 않는 아키텍처라는 점을 생각하면 이미지 학습 및 생성 같은 다른 이유가 있는지 궁금해지는 대목입니다.
가우디 3의 AI 연산 능력은 1856 BF16/FP8 matrix TFLOPS로 H100보다 약간 낮은 정도인데, (1,856 vs 1,979 TFLOPS) 기준을 FP8 매트릭스로 바꾸면 절반 정도 (1,856 vs 3,958 TFLOPS)이고 BF16 벡터 성능 기준으로는 현저히 낮습니다. (28.7 vs 1,979 TFLOPS)
그러면서도 TDP는 무려 900W에 달하기 때문에 인텔은 가격을 크게 낮추는 전략을 취하고 있습니다. 인텔에 따르면 가우디 3 프로세서 8개를 탑재한 보드의 가격은 12.5만 달러로 개당 가격은 15,000달러 선으로 보입니다. 이는 H100의 절반수준입니다.
하지만 낮은 가격에도 불구하고 시장의 반응은 미지수입니다. 엔비디아가 현재 AI 하드웨어 시장을 장악한 이유는 성능 뿐 아니라 쿠다 (CUDA)를 통한 GPU 가속기 시장 선점에 있기 때문입니다. 쉽게 말해 현재 나와 있는 AI 생태계가 엔비디아 기준으로 되어 있어 다른 회사가 이 생태계를 비집고 들어가기 어려운 상황입니다.
아무튼 어려운 와중에도 가우디 3를 포기하지 않았지만, 인텔이 지금처럼 계속 어려움을 겪는다면 적자인 GPU 및 AI 가속기 사업은 존폐 기로에 설 가능성이 높습니다. 과연 가우디가 생존할 수 있을지 아니면 먼저 간 (?) 옵테인 메모리의 뒤를 따라가게 될지 결과가 주목됩니다.
참고
댓글
댓글 쓰기