(출처; AMD/google)
AMD가 구글의 새 LLM 모델인 젬마 4 (Gemma 4)에 맞춰 제로 데이 지원을 발표하고 전 라인업에서 구글의 새 모델을 지원한다고 공개했습니다. 앞서 구글은 젬마 4에서 엔비디아와 협업을 통해 로컬 LLM의 성능을 크게 끌어올렸다고 발표했는데, 실제로 체감 성능에서 Qwen 3.5와 비교해서 대등하거나 우월한 성능을 보이고 있습니다. 다만 그만큼 사양은 좀 올라간 것으로 보입니다. 개인적으로 해보니 26B 모델은 RTX 4080에서는 그래도 쾌적한 편이지만, 라이젠 7 AI 350 32GB 모델에서는 다소 세팅을 잘해야 겨우 돌아가는 모습입니다.
이전 포스트: https://blog.naver.com/jjy0501/224239616409
앞서 엔비디아와의 발표와 차이점은 구체적인 성능 벤치 결과가 없다는 점으로 아직 라데온 GPU에서 최적화된 건 아닌 것으로 생각됩니다. 다만 최근 AMD도 열심히 로컬 LLM을 지원하고 있어 과거보다 호환성이 개선된 것도 사실입니다. AMD는 전 라인업에서 지원을 제공합니다:
Instinct GPU (MI300X, MI325X, MI35X 등 데이터센터·엔터프라이즈용)
Radeon GPU (AI 워크스테이션용, 소비자·프로페셔널 Radeon 포함)
Ryzen AI 프로세서 (XDNA 2 NPU 포함, AI PC용)
주요 통합 프레임워크는 vLLM, SGLang, llama.cpp, LM Studio, Ollama, Lemonade Server 등입니다.
vLLM + ROCm을 통해 Instinct·Radeon 전체 GPU에서 멀티 리퀘스트 최적화 지원 (Docker 이미지 예: vllm/vllm-openai-rocm:gemma4 + TRITON_ATTN 백엔드).
SGLang으로 MI300X 등 고성능 서빙 가능 (단일 GPU에서 전체 컨텍스트 길이 지원).
Lemonade Server + ROCm 빌드 llama.cpp로 Radeon GPU 및 Ryzen AI NPU에서 로컬 실행 가능.
Ryzen AI NPU는 E2B·E4B 모델에 곧 OnnxRuntime API로 지원 추가 예정.
개인적으로는 라데온 860M의 성능이 그렇게 탁월하진 않다는 느낌이긴 하나 LM 스튜디오에서 심각한 호환성 문제 없이 LLM을 구동할 수 있어 과거보다 호한성이 크게 개선됐다는 점을 체감하고 있습니다. 엔비디아의 일방 독점은 GPU 부분은 물론 AI 산업 전반에도 좋은 일이 아닌 만큼 이렇게 호환성만 개선하고 새 모델에 대한 제로 데이 지원만 추가하는 모습은 매우 긍정적이라고 생각합니다.
참고
https://wccftech.com/amd-rolls-out-gemma-4-model-support-across-full-range-of-gpus-cpus/

댓글
댓글 쓰기