(출처: 아마존)
아마존이 AWS 리인벤트 2025 행사에서 차세대 AI 칩인 트레이니움3 (Trainium3)를 공개했습니다. AWS에 따르면 트레이니움3 울트라서버 (Trainium3 UltraServers)는 144개의 트레이니움3 칩을 하나의 클러스터에서 사용할 수 있으며 전세대 트레이니움2 기반 Trn2 인스턴스와 비교해서 4.4배의 연산 성능, 4배의 에너지 효율, 4배의 대역폭을 지녔다고 합니다. 다만 칩 하나로 보면 2배의 연산 능력과 40% 정도 높은 에너지 효율을 지닌 것으로 보입니다. 이는 아키텍처 개선과 3nm 공정 도입 덕분으로 풀이됩니다.
구체적인 다이 사이즈나 트랜지스터 집적도는 이야기하지 않았지만, 트레이니움3 칩 하나는 PF8 기준 2.52 PFLOPs의 연산 능력을 지니고 있으며 144GB의 HBM3e 메모리와 4.9TB/s의 대역폭을 지니고 있습니다. 따라서 144개의 칩이 모인 Trn3 UltraServers는 총 362 FP8 PFLOPs의 연산 능력을 지녔다는 이야기가 됩니다. 따라서 100만 토큰 이상의 처리 능력을 지니고 있습니다.
(트레이니움3 칩 소개)
(아마존 언박싱 영상)
여담이지만, AWS AI 부서에는 생각보다 인도계 비중이 높은 것으로 보입니다. IT 업계에서 인도계의 위상을 새삼 느끼게 하는 대목이네요. 아무튼 트레이니움3는 여러 개의 칩과 노드를 하나로 묶기 위해 NeuronSwitch-v1 이라는 기술을 사용하는데, 엔비디아의 NVLink와 유사한 기술이라고 합니다.
더 흥미로운 부분은 트레이니움4에서는 아예 NVLink를 지원해 트레이니움4와 엔비디아 GPU를 같이 활용할 수 있게 한다는 점입니다. 놀라운 접근임과 동시에 엔비디아의 협력을 이끌어 냈다는 점이 놀랍습니다.
트레이니움 4는 전 세대와 비교해 FP4 성능 6배, FP8 성능 3배, 메모리 대역폭 4배 향상을 목표로 개발되고 있습니다. 칩 자체의 성능 자체는 블랙웰과 비교해서 더 우수하다곤 할 수 없지만, 가격이 저렴하다면 갈수록 늘어나는 비용을 절감하는데 도움이 될 수 있습니다.
AWS에 의하면 앤트로픽을 비롯한 고객사들이 트레이니움을 사용해 훈련 및 추론 비용을 크게 절감했다고 합니다. AI GPU의 가격과 전력 소비가 치솟으면서 비용이 크게 올라가는 점을 생각하면 꽤 의미 있는 내용이 될 수 있습니다.
빅테크들의 자체 AI 칩 개발이 뜨거운 가운데 엔비디아가 계속 지금의 지위를 유지할 수 있을지 궁금합니다.
참고
https://wccftech.com/amazon-is-all-in-in-the-race-for-a-competitive-asic-portfolio/



댓글
댓글 쓰기