(출처: 엔비디아)
엔비디아가 GTC 2026에서 차세대 프로세서인 베라 루빈과 함께 추론 특화 가속기인 그록 3 LPX를 공개했습니다. Arm CPU와 베라 GPU는 각각 36개와 72개가 하나의 NLV72 랙 시스템에 통합되어 올해 출시될 예정입니다. 각각의 베라 GPU는 288GB HMB4 메모리를 탑재하고 있으며 최대 22TB/s의 대역폭과 50PFLOPS의 NVFP4 AI 연산 능력을 지니고 있습니다. 트랜지스터 집적도도 엄청나서 베라 GPU가 3360억 개의 트랜지스터를 집적하고 288GB의 HBM4 메모리는 추가로 2.5조 개의 트랜지스터를 제공합니다.
베라 CPU는 엔비디아의 베라 CPU는 에이전틱 AI용으로 설계된 88코어 커스텀 올림푸스 코어 Arm 기반 CPU로 88코어·176스레드·최대 1.5 TB LPDDR5X·메모리 대역폭 최대 1.2 TB/s를 제공합니다. 각각의 베라 CPU 1개와 루빈 GPU 2개가 짝을 이뤄 AI 워크로드를 수행하며 NVLink 6로 연결되어 있습니다.
하지만 이날 발표에서 더 눈길을 끈 것은 이미 잘 알려져 있던 베라 CPU나 루빈 GPU보다 작년 12월 인수한 추론 특화 칩 스타트업 그록 (Groq)의 기술을 사용한 그록 3 LPX3를 공개한 점입니다. 인수하자마자 통합 제품을 내놓은 셈인데, 그만큼 이들의 기술이 실제 AI 작업에서 유용하다는 판단에 따른 것으로 보입니다.
기술적 설명에 따르면 LPX는 초저지연 토큰 생성(디코드) 병목을 해결하기 위해 설계된 SRAM 기반 랙형 추론 가속기이며, Rubin GPU와 결합해 대규모 에이전트형 AI에서 실시간 응답성과 토큰 처리량을 크게 끌어올립니다. LPX는 디코드 단계의 반복적·대역폭 민감 연산을 분리해 예측 가능한 저지연으로 토큰을 생성하도록 Groq 3 LPU 256개를 랙에 집적한 장치입니다.
대형 언어모델의 추론은 prefill(컨텍스트 적재)과 decode(토큰 생성)로 나뉘는데, 디코드는 초저지연·반복적 연산이 요구되어 별도 하드웨어로 가속하는 편이 효율적이라고 합니다. Rubin GPU는 prefill·어텐션·대규모 컨텍스트 처리를 담당하고, LPX는 FFN·MoE 전문가 실행·디코드 가속을 맡아 전체 파이프라인 성능을 극대화하는 것이 이런 하이브리드 구조의 목적이라고 합니다.
기술적으로 상당히 난이도가 있는 설명이지만, 아무튼 이런 방식을 통해 토큰 생성 속도를 크게 높이고 답변 품질 역시 개선할 수 있어 AI 서비스에 더 유리하다는 게 엔비디아의 설명입니다. 그록 3 LPX는 삼성 파운드리가 생성한다고 해서 더 주목을 받고 있는데, 올해 3분기부터 출시할 예정입니다.
이미 AI의 성능이 상당한 수준인데, 베라 루빈과 그록 3 LPX가 도입된 이후에는 어떻게 진화할 지 궁금합니다.
참고
https://wccftech.com/nvidia-unveils-vera-rubin-with-groq-lpx-to-break-into-inference/
https://nvidianews.nvidia.com/news/nvidia-vera-rubin-platform
https://wccftech.com/nvidia-vera-rubin-achieves-40-million-times-more-compute-in-10-years/




댓글
댓글 쓰기