기본 콘텐츠로 건너뛰기

엔비디아 네모트론 3 나노 옴니 - 이제 영상도 보고 이해한다.



 (출처: 엔비디아)

엔비디아가 자체 LLM 모델인 네모트론을 공개한 후 다시 얼마되지 않아 네모트론 3 나노 옴니 (Nemotron 3 Nano Omni)를 공개했습니다. 나노 옴니의 가장 큰 특징은 시각, 오디오 및 텍스트에 대해 각각 별도의 모델 스택을 사용하는 대신 하나의 모델로 모든 정보를 처리하고 추론한다는 것입니다.

엔비디아에 의하면 기존 LLM 모델은 음성, 이미지, 영상, 텍스트를 각각 처리했는데 이는 추론 단계와 통합 (오케스트레이션) 복잡성을 증가시켜 비용은 늘리고 각 모달 간 컨텍스트 일관성은 약화시킵니다.

네모트론 3 나노 옴니는 이를 극복하기 위해 30B-A3B 하이브리드 전문가 혼합(MoE) 아키텍처를 기반으로 구축되어 각 작업 및 모달리티에 필요한 전문가를 활성화하여 높은 처리량과 강력한 멀티모달 성능을 대규모로 제공합니다.

간단히 요약하면 음성 인식, 텍스트 인식, 영상 인식, 이미지 인식을 따로 하는 것이 아니라 하나의 모델에서 수행해 복잡한 작업을 한 단계로 해결해 시간과 컴퓨팅 자원을 아끼고 답변의 일관성도 유지한다는 것입니다.

그리고 전체 파라미터는 300억 개(30B) 규모이지만, 추론 시에는 약 30억 개(3B)의 활성 파라미터만 사용하는 효율적인 구조를 채택했습니다. (모델 이름이 30B-A3B인 이유) 이를 통해 모델의 크기는 줄이면서도 성능은 유지하여, 기업들이 낮은 비용으로 대규모 배포를 할 수 있게 합니다.

네모트론 3 나노 옴니는 발표와 동시에 허깅 페이스 등에 무료로 공개됐으며 LM 스튜디오 같은 로컬 LLM 구동 프로그램에서 이를 직접 사용해 볼 수 있습니다.

(소개 영상)







엔비디아에 의하면 네모트론 3 나노 옴니는 MMlongbench-Doc 및 OCRBenchV2 와 같은 문서 인식 성능 평가에서 최고 수준의 정확도를 제공하며 , 비디오 및 오디오 인식, WorldSense , DailyOmni , VoiceBench 에서도 선두를 달리고 있습니다 .

정확도 외에도, 실제 미디어 데이터와 제작 작업을 기반으로 비디오 이해 모델의 품질, 비용, 처리량을 평가하는 공개 업계 벤치마크인 MediaPerf에서 모든 작업에서 최고 수준의 처리량과 비디오 수준 태깅에 대한 최저 수준의 추론 비용을 달성한 것으로 나타났습니다.

엔비디아에 의하면 네모트론 3 나노 옴니는 단순히 데이터를 읽는 수준을 넘어, 실시간 에이전트로서 작동하기 위한 전용 기술이 탑재되었습니다.

3D 컨볼루션(Convolutional 3D): 비디오 프레임 사이의 움직임(Motion)을 포착하기 위해 3D 기반 시공간 처리 기술을 사용합니다.

EVS (Efficient Video Sampling) 레이어: 비디오의 방대한 시각 토큰을 압축하여 LLM의 컨텍스트 창이 과부하되지 않도록 핵심 정보만 추출합니다.

C-RADIOv4-H 인코더: 고해상도 이미지를 처리할 때 특정 패치(부분)에 집중하여, 문서 내의 작은 글자나 표(OCR)를 매우 정확하게 읽어냅니다.

따라서 다음과 같은 임무에 활용할 수 있습니다.

컴퓨터 사용 에이전트 (Computer Use): 1920x1080 고해상도 입력을 직접 처리하여 화면의 UI를 이해하고 조작합니다. 복잡한 그래픽 인터페이스를 탐색하는 능력이 크게 향상되었습니다.

문서 지능 (Document Intelligence): 차트, 표, 스크린샷 등이 섞인 복합 미디어 문서를 정확하게 해석합니다. 기업의 분석 및 컴플라이언스(준수) 업무에 유용합니다.

오디오-비디오 이해: 고객 서비스나 모니터링 환경에서 시각 정보와 음성 정보를 결합해 상황을 파악합니다.

마지막으로 이 모델은 엔비디아의 암페어 아키텍처부터 지원하며 FP8 및 NVFP4 양자화, 효율적인 비디오 샘플링, 그리고 NVIDIA 최적화 커널을 지원을 활용할 수 있습니다.

아무튼 이렇게 공개됐으니 한 번 써보고 영상 올려 보겠습니다.

참고

https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/?ncid=so-yout-179468

댓글

이 블로그의 인기 게시물

세상에서 가장 큰 벌

( Wallace's giant bee, the largest known bee species in the world, is four times larger than a European honeybee(Credit: Clay Bolt) ) (Photographer Clay Bolt snaps some of the first-ever shots of Wallace's giant bee in the wild(Credit: Simon Robson)  월리스의 거대 벌 (Wallace’s giant bee)로 알려진 Megachile pluto는 매우 거대한 인도네시아 벌로 세상에서 가장 거대한 말벌과도 경쟁할 수 있는 크기를 지니고 있습니다. 암컷의 경우 몸길이 3.8cm, 날개너비 6.35cm으로 알려진 벌 가운데 가장 거대하지만 수컷의 경우 이보다 작아서 몸길이가 2.3cm 정도입니다. 아무튼 일반 꿀벌의 4배가 넘는 몸길이를 지닌 거대 벌이라고 할 수 있습니다.   메가칠레는 1981년 몇 개의 표본이 발견된 이후 지금까지 추가 발견이 되지 않아 멸종되었다고 보는 과학자들도 있었습니다. 2018년에 eBay에 표본이 나왔지만, 언제 잡힌 것인지는 알 수 없었습니다. 사실 이 벌은 1858년 처음 발견된 이후 1981년에야 다시 발견되었을 만큼 찾기 어려운 희귀종입니다. 그런데 시드니 대학과 국제 야생 동물 보호 협회 (Global Wildlife Conservation)의 연구팀이 오랜 수색 끝에 2019년 인도네시아의 오지에서 메가칠레 암컷을 야생 상태에서 발견하는데 성공했습니다.   메가칠레 암컷은 특이하게도 살아있는 흰개미 둥지가 있는 나무에 둥지를 만들고 살아갑니다. 이들의 거대한 턱은 나무의 수지를 모아 둥지를 짓는데 유리합니다. 하지만 워낙 희귀종이라 이들의 생태에 대해서는 거의 알려진 바가 없습니다.  (동영상)...

몸에 철이 많으면 조기 사망 위험도가 높다?

 철분은 인체에 반드시 필요한 미량 원소입니다. 헤모글로빈에 필수적인 물질이기 때문에 철분 부족은 흔히 빈혈을 부르며 반대로 피를 자꾸 잃는 경우에는 철분 부족 현상이 발생합니다. 하지만 철분 수치가 높다는 것은 반드시 좋은 의미는 아닙니다. 모든 일에는 적당한 수준이 있게 마련이고 철 역시 너무 많으면 여러 가지 질병을 일으킬 수 있습니다. 철 대사에 문제가 생겨 철이 과다하게 축적되는 혈색소증 ( haemochromatosis ) 같은 드문 경우가 아니라도 과도한 철분 섭취나 수혈로 인한 철분 과잉은 건강에 문제를 일으킬 수 있습니다. 하지만 높은 철 농도가 수명에 미치는 영향에 대해서는 잘 알려지지 않았습니다.   하버드 대학의 이야스 다글라스( Iyas Daghlas )와 임페리얼 칼리지 런던의 데펜더 길 ( Dipender Gill )은 체내 철 함유량에 영향을 미치는 유전적 변이와 수명의 관계를 조사했습니다. 연구팀은 48972명의 유전 정보와 혈중 철분 농도, 그리고 기대 수명의 60/90%에서 생존 확률을 조사했습니다. 그 결과 유전자로 예측한 혈중 철분 농도가 증가할수록 오래 생존할 가능성이 낮은 것으로 나타났습니다. 이것이 유전자 자체 때문인지 아니면 높은 혈중/체내 철 농도 때문인지는 명확하지 않지만, 높은 혈중 철 농도가 꼭 좋은 뜻이 아니라는 것을 시사하는 결과입니다.   연구팀은 이 데이터를 근거로 건강한 사람이 영양제나 종합 비타민제를 통해 과도한 철분을 섭취할 이유는 없다고 주장했습니다. 어쩌면 높은 철 농도가 조기 사망 위험도를 높일지도 모르기 때문입니다. 그러나 임산부나 빈혈 환자 등 진짜 철분이 필요한 사람들까지 철분 섭취를 꺼릴 필요가 없다는 점도 강조했습니다. 연구 내용은 정상보다 높은 혈중 철농도가 오래 유지되는 경우를 가정한 것으로 본래 철분 부족이 있는 사람을 대상으로 한 것이 아니기 때문입니다. 낮은 철분 농도와 빈혈이 건강에 미치는 악영향은 이미 잘 알려져 있기 때문에 철...

eMMC 달고 가격 낮췄다. 마이크로소프트 서피스 랩탑 고 발표

  (출처: 마이크로소프트)   마이크소프트가 서피스 랩탑의 보급형 버전을 발표했습니다. 서피스 랩탑 고 ( Surface Laptop Go )는 서피스 랩탑 3의 13.5/15인치 보다 작은 12.45인치 픽셀 센스 ( 1536 x 1024 Resolution 148 PPI, 10포인트 멀티 터치 ) 디스플레이를 탑재하고  Core i5-1035G1 (4C / 8T 1.0-3.6 GHz, 32EU, 15W TDP)를 사용한 무게 1.1kg의 경량 노트북입니다. 여기까지는 흠잡을 때 없어 보이지만, 549달러의 기본 모델이 4GB LPDDR4x 메모리와 64GB eMMC를 탑재했다는 사실은 호불호가 갈릴 것 같습니다. 다른 스펙은 가격대비 우수하고 고급진 외형을 지니고 있으나 속도도 느린 eMMC에 용량도 64GB에 불과하다면 실사용에서 불편할 일이 적지 않을 것이기 때문입니다.  Component Laptop Go CPU Intel Core i5-1035G1 4C / 8T 1.0-3.6 GHz Gen 10 Graphics with 32 Eus 15W TDP Memory 4 / 8 GB LPDDR4x 16 GB LPDDR4x Available on Commercial Model Display 12.45-inch PixelSense 1536 x 1024 Resolution 148 PPI 3:2 Aspect Ratio 10-Point multitouch Storage 64 GB eMMC 128 GB or 256 GB SSDs Wireless Wi-Fi 6 Bluetooth 5.0 I/O 1 x USB Type-C 1 x USB Type-A Headset jack Surface Connect Webcam 720p f2.0 Battery Up to 13 hours 39-Watt adapter Dimensions 278 x 206 x 15.7 mm 10.95 x 8.10 x 0.62 inches Weight 1110 grams...