(출처: 엔비디아)
구글이 엔비디아와 협업한 LLM 최신 모델인 젬마 4 (Gemma 4)를 공개했습니다. 이번 모델의 특징은 소비자용 RTX 그래픽 카드에 최적 성능을 낼 수 있게 개발되었다는 것입니다. 젬마 4는 구글 딥마인드 (Google DeepMind)가 개발했으며, 이전 젬마 모델들보다 멀티모달(multimodal) 기능이 크게 강화되고, 추론(reasoning)·코딩·에이전트(agentic) 능력이 대폭 향상된 것이 특징입니다.
Gemma 4는 다양한 사용 환경(엣지 디바이스 ~ 고성능 PC/워크스테이션)에 맞춰 다음 4가지 변형으로 출시되었습니다:
E2B (Effective 2B): 초경량 모델. 저전력·저지연 추론에 최적화. 엣지 디바이스에서 완전 오프라인으로 동작.
E4B (Effective 4B): E2B보다 약간 강력하면서도 여전히 매우 효율적.
26B MoE (Mixture of Experts): 지연 시간이 중요할 때 적합. Arena AI 리더보드에서 상위권 성능.
31B Dense: 가장 강력한 dense 모델. 복잡한 추론과 고성능 작업에 최적.
작은 모델(E2B/E4B)은 128K 컨텍스트 윈도우, 중형 모델(26B/31B)은 최대 256K 컨텍스트를 지원합니다.
E2B 및 E4B 모델은 엣지 환경에서 초고효율, 저지연 추론을 위해 설계되었으며, 젯슨 나노 (Jetson Nano) 모듈을 포함한 다양한 장치에서 짧은 지연 시간으로 오프라인 실행됩니다.
반면 26B 및 31B 모델은 고성능 추론 및 개발자 중심 워크플로우에 최적화되어 있어 에이전트 기반 AI에 적합합니다. 최첨단 수준의 접근성 높은 추론 성능을 제공하도록 최적화된 이 모델들은 NVIDIA RTX GPU 및 DGX Spark에서 효율적으로 실행되어 개발 환경, 코딩 도우미, 에이전트 기반 워크플로우를 지원합니다.
또 최신 Gemma 4 모델은 OpenClaw와 호환되므로 사용자는 개인 파일, 애플리케이션 및 워크플로에서 컨텍스트를 추출하여 작업을 자동화하는 강력한 로컬 에이전트를 구축할 수 있습니다.
(출처: 딥마인드)
딥마인드가 공개한 벤치마크는 Y축을 크게 늘려놔 엄청난 차이처럼 보이게 만들긴 했지만, 아무튼 훨씬 큰 Qwen 3.5나 GPT-OSS 120B 모델보다 점수가 높게 나오기도 했습니다.
개인적으로는 RTX 4080 사용 중인데, Gemma 4 E4B가 좀 더 빠르긴 하겠지만, 연구 등 복잡한 추론을 위해서는 26B A4B를 Q4로 사용하는 방안을 생각해야 할 것 같습니다. Qwen 3.5 35B A3B와 비교 성능이 궁금해집니다.
참고
https://wccftech.com/google-gemma-4-model-can-now-be-deployed-on-nvidia-rtx-gpus/
https://deepmind.google/models/gemma/gemma-4/



댓글
댓글 쓰기