(출처: 엔비디아)
엔비디아가 자체 LLM 모델인 네모트론을 공개한 후 다시 얼마되지 않아 네모트론 3 나노 옴니 (Nemotron 3 Nano Omni)를 공개했습니다. 나노 옴니의 가장 큰 특징은 시각, 오디오 및 텍스트에 대해 각각 별도의 모델 스택을 사용하는 대신 하나의 모델로 모든 정보를 처리하고 추론한다는 것입니다.
엔비디아에 의하면 기존 LLM 모델은 음성, 이미지, 영상, 텍스트를 각각 처리했는데 이는 추론 단계와 통합 (오케스트레이션) 복잡성을 증가시켜 비용은 늘리고 각 모달 간 컨텍스트 일관성은 약화시킵니다.
네모트론 3 나노 옴니는 이를 극복하기 위해 30B-A3B 하이브리드 전문가 혼합(MoE) 아키텍처를 기반으로 구축되어 각 작업 및 모달리티에 필요한 전문가를 활성화하여 높은 처리량과 강력한 멀티모달 성능을 대규모로 제공합니다.
간단히 요약하면 음성 인식, 텍스트 인식, 영상 인식, 이미지 인식을 따로 하는 것이 아니라 하나의 모델에서 수행해 복잡한 작업을 한 단계로 해결해 시간과 컴퓨팅 자원을 아끼고 답변의 일관성도 유지한다는 것입니다.
그리고 전체 파라미터는 300억 개(30B) 규모이지만, 추론 시에는 약 30억 개(3B)의 활성 파라미터만 사용하는 효율적인 구조를 채택했습니다. (모델 이름이 30B-A3B인 이유) 이를 통해 모델의 크기는 줄이면서도 성능은 유지하여, 기업들이 낮은 비용으로 대규모 배포를 할 수 있게 합니다.
네모트론 3 나노 옴니는 발표와 동시에 허깅 페이스 등에 무료로 공개됐으며 LM 스튜디오 같은 로컬 LLM 구동 프로그램에서 이를 직접 사용해 볼 수 있습니다.
(소개 영상)
엔비디아에 의하면 네모트론 3 나노 옴니는 MMlongbench-Doc 및 OCRBenchV2 와 같은 문서 인식 성능 평가에서 최고 수준의 정확도를 제공하며 , 비디오 및 오디오 인식, WorldSense , DailyOmni , VoiceBench 에서도 선두를 달리고 있습니다 .
정확도 외에도, 실제 미디어 데이터와 제작 작업을 기반으로 비디오 이해 모델의 품질, 비용, 처리량을 평가하는 공개 업계 벤치마크인 MediaPerf에서 모든 작업에서 최고 수준의 처리량과 비디오 수준 태깅에 대한 최저 수준의 추론 비용을 달성한 것으로 나타났습니다.
엔비디아에 의하면 네모트론 3 나노 옴니는 단순히 데이터를 읽는 수준을 넘어, 실시간 에이전트로서 작동하기 위한 전용 기술이 탑재되었습니다.
3D 컨볼루션(Convolutional 3D): 비디오 프레임 사이의 움직임(Motion)을 포착하기 위해 3D 기반 시공간 처리 기술을 사용합니다.
EVS (Efficient Video Sampling) 레이어: 비디오의 방대한 시각 토큰을 압축하여 LLM의 컨텍스트 창이 과부하되지 않도록 핵심 정보만 추출합니다.
C-RADIOv4-H 인코더: 고해상도 이미지를 처리할 때 특정 패치(부분)에 집중하여, 문서 내의 작은 글자나 표(OCR)를 매우 정확하게 읽어냅니다.
따라서 다음과 같은 임무에 활용할 수 있습니다.
컴퓨터 사용 에이전트 (Computer Use): 1920x1080 고해상도 입력을 직접 처리하여 화면의 UI를 이해하고 조작합니다. 복잡한 그래픽 인터페이스를 탐색하는 능력이 크게 향상되었습니다.
문서 지능 (Document Intelligence): 차트, 표, 스크린샷 등이 섞인 복합 미디어 문서를 정확하게 해석합니다. 기업의 분석 및 컴플라이언스(준수) 업무에 유용합니다.
오디오-비디오 이해: 고객 서비스나 모니터링 환경에서 시각 정보와 음성 정보를 결합해 상황을 파악합니다.
마지막으로 이 모델은 엔비디아의 암페어 아키텍처부터 지원하며 FP8 및 NVFP4 양자화, 효율적인 비디오 샘플링, 그리고 NVIDIA 최적화 커널을 지원을 활용할 수 있습니다.
아무튼 이렇게 공개됐으니 한 번 써보고 영상 올려 보겠습니다.
참고





댓글
댓글 쓰기