(출처: 엔비디아)
엔비디아는 RTX 50 슈퍼 대신 DLSS 4.5를 선보이며 이미 나와 있는 그래픽 카드를 더 유용하게 사용할 수 있는 방법을 제시했습니다. 그와 동시에 최근 그래픽 카드의 주요 사용처 가운데 하나인 AI 성능을 높일 수 있는 신기술도 추가했습니다.
NVFP4 (NVIDIA Floating Point 4)는 데연산과 가중치를 4비트 부동소수점 형식으로 표현해 메모리·연산량을 줄이는 방식으로 정밀도 희생하는 대신 돌릴 수 있는 모델의 크기와 속도를 더 빠르게 해 결과적으로 성능을 더 높일 수 있습니다. 과거 AI 모델을 돌릴 때 BF16(16비트)이나 INT8(8비트)를 주 사용해야 했던 것에 비해 선택의 폭이 넓어진 셈입니다.
엔비디아에 따르면 NVFP4/NVFP8 모델은 기존 BF16 모델보다 용량이 최대 60% 이상 작습니다. 그래서 예전에는 VRAM 24GB 모델(RTX 3090/4090)에서만 겨우 돌아가던 고사양 모델(Flux.1 등)을 이제 8GB나 12GB VRAM을 가진 메인스트림급 그래픽카드에서도 구동할 수 있게 됩니다.
덕분에 GPT-OSS, Nemotron Nano V2 등 주요 모델에서 최대 40% 성능 향상이 있고, NVFP4 지원을 통해 스테이블 디퓨전 ComfyUI 내 Flux.1, Flux.2 모델 성능이 최대 4.6배 높아진다고 합니다.
물론 하드웨어적으로 NVFP4를 가속할 수 있는 건 RTX 50 제품이지만 이전 모델도 혜택을 볼 수 있는 내용도 포함되어 있습니다. 새로운 RTX AI 업데이트에는 남는 작업을 시스템 메모리(RAM)로 효율적으로 분산(Offload)하는 최적화도 포함되어 있습니다. 즉 VRAM이 부족할 때 시스템 RAM을 활용할 수 있어 성능 저하를 최소화하면서 대형 모델을 실행할 수 있다는 이야기입니다. RTX 30/40 사용자나 16GB VRAM 사용자에게 가장 중요한 포인트가 될 수 있는 부분입니다.
RTX Video와 Super Resolution 기능 역시 RTX 이전 모델에서 사용할 수 있습니다. RTX AI는 720p로 빠르게 영상을 생성한 뒤, RTX Video 기술로 실시간 4K 업스케일링을 하는 방식으로 로컬 컴퓨터에서도 고해상도로 영상을 생성할 수 있습니다.
또 TensorRT-LLM 최적화를 통해 Windows 환경에서 LLM 성능을 극대화하는 가속 라이브러리를 다시 업데이트 했습니다. 이번 업데이트를 통해 오픈소스 모델들(GPT-OSS 등)이 RTX 하드웨어에 맞춰 코드가 자동 최적화됩니다. 덕분에 텍스트 생성 속도(Tokens per second)가 빨라져, 로컬 LLM 구동 시 혜택을 볼 수 있습니다.
다만 좋은 이야기가 전부 진실은 아니기 때문에 실제 성능 향상이 어느 정도인지는 실제로 나와봐야 평가가 가능할 것으로 보입니다. 개인적으로는 스테이블 디퓨전과 LM 스튜디어처럼 실제 사용하는 어플리케이션 성능이 조금이라도 올라간다는 점에서 긍정적입니다.
참고








댓글
댓글 쓰기