(출처: 엔비디아)
구글 딥마인드가 젬마 26B A4B 모델 (Gemma 26B A4B) 기반으로 개발한 디퓨전 젬마 26B A4B를 공개했습니다. 디퓨전 젬마의 특징은 병렬 토큰 생성 (Parallel generation) 기술입니다. 매 단계마다 단 하나의 토큰(텍스트 단위)을 순차적으로 예측하는 기존의 자동회귀(Autoregressive) 모델과 달리, 디퓨전 젬마는 한 단계에 최대 256개의 토큰을 동시에 병렬로 디노이징(denoising)하여 텍스트를 생성합니다. 병렬 처리 방식 덕분에 토큰 생성 속도가 4배 정도 빨라졌다는 게 엔비디아와 딥마인드의 설명입니다.
덕분에 H100 같은 고성능 GPU에서 로컬 AI 모델 토큰 속도가 초당 1000 이상으로 빨라졌으며 DGX 스테이션에서는 초당 800, DGX 스파크에서는 초당 150 정도의 속도를 지원합니다. 과거 텍스트 기반의 LLM이 하나씩 토큰을 순차적으로 생성하는 것과 달리 AI 이미지 생성의 디노이징처럼 여러 개를 동시 생성하는 방식으로 속도를 대폭 높인 것인데, 덕분에 로컬 모델에서 클라우드 서버에 맞먹는 빠른 속도를 경험할 수 있게 됐습니다.
여기서 흥미로운 사실은 디퓨전 젬마가 사실 젬마 4 26B A4B 기반이라는 사실입니다. 총 매개변수 25.2B (약 252억 개), 활성 매개변수 3.8B (약 38억 개), 컨텍스트 길이 최대 256K 토큰, 정밀도 포맷 (Precision format) BF16, NVFP4이라는 점은 동일하다는 뜻으로 속도만 빠른 것이지 기본적인 답변 품질은 기존의 젬마 4와 같을 것으로 예상할 수 있습니다. 또 모델 자체가 엔비디아 GPU에 최적화된 것으로 보입니다.
다만 로컬 컴퓨터에서는 용량 때문에 약간 제약이 따를 수 있는데 구글과 언슬로스(Unsloth)의 공식 개발자 가이드에 따르면, 디퓨전 젬마(26B MoE)를 양자화하여 로컬에서 원활하게 구동하기 위한 최소 권장 VRAM(또는 통합 메모리)은 18GB입니다. 4-bit 양자화 (UD-Q4_K_XL 등)로 압축된 모델 파일을 올리는 데만 순수하게 약 15~17GB의 메모리가 필요해서 VRAM이 부족한 경우에 다소 속도에서 손해를 볼 것으로 예상됩니다.
바로 직전에 공개한 Gemma 4 QAT 최적화 모델의 경우 이보다 크기가 작아 16GB VRAM 거의 다 올릴 수 있어 속도가 무척 빨라졌습니다. 개인적으로는 현존 최강 로컬 LLM이 아닐까 생각하는데, 디퓨전 젬마가 속도면에서 어떤 이점을 가져다줄지 궁금합니다. 제가 쓰는 RTX 4080에서도 QAT보다 속도 더 빨라질지가 가장 궁금합니다.


댓글
댓글 쓰기