AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 자사 최신 추론 모델인 엔비디아 라마 네모트론 울트라(NVIDIA Llama Nemotron Ultra)가 인텔리전스와 코딩 벤치마크에서 오픈소스 모델 중 최고 수준의 정확도를 제공하는 동시에 컴퓨팅 효율성 또한 크게 향상됐다고 발표했다.
해당 모델과 가중치, 훈련 데이터는 허깅 페이스(Hugging Face)를 통해 확인할 수 있으며, 연구 보조, 코딩 코파일럿, 자동화된 워크플로우 등 다양한 분야에서 AI 도입을 가속화하도록 지원한다.
이는 텍스트와 이미지 생성을 넘어 비즈니스, 금융, 고객 서비스, 의료 분야 등 실제 애플리케이션을 위한 심층 추론, 정교한 문제 해결, 강력한 적응성이 요구되는 최신 AI 흐름에 부합하는 기술 혁신이다.
고급 과학 코딩과 수학 벤치마크에서 탁월한 성능 발휘
라마 네모트론 울트라는 과학적 추론과 코딩, 수학 벤치마크에서 AI 성능을 재정의하고 있다. 이 모델은 복잡한 추론, 인간 친화적인 채팅, 검색 증강 생성(retrieval-augumented generation, RAG), 도구 활용을 위해 사후 훈련됐다. 또한, 코파일럿, 지식 비서, 자동화된 워크플로우 등 실제 기업의 요구 사항에 맞게 구축됐으며, 고성능 AI에 요구되는 깊이와 유연성을 갖추고 있다.
라마 네모트론 울트라는 메타 라마 3.1(Meta Llama 3.1)을 기반으로 상용, 합성 데이터와 고급 훈련 기법을 사용해 개선됐다. 또한 에이전틱 워크플로우를 위해 설계돼 강력한 추론 기능과 접근 가능한 고성능 AI를 제공하면서도 비용을 절감할 수 있도록 지원한다. 아울러 엔비디아는 추론 모델의 광범위한 개발을 지원하기 위해 사후 훈련에 사용된 두 가지 고품질 훈련 데이터세트를 오픈소스로 공개했다.
이 데이터세트는 커뮤니티가 비용 효율적인 고성능 모델을 구축하는 데 유리한 출발점을 제공하는 리소스이다. 이는 최근 경쟁형 추론 벤치마크인 AI 수학 올림피아드(AI Mathematical Olympiad)에서 1위를 차지한 엔비디아 팀에 의해 그 효과가 입증됐다. 이후 해당 데이터, 기술, 인사이트는 라마 네모트론 울트라에 적용됐다.
GPQA 다이아몬드 벤치마크
라마 네모트론 울트라 추론 모델은 과학적 추론 벤치마크에서 다른 오픈소스 모델보다 우수한 성능을 보여준다. GPQA 다이아몬드(GPQA Diamond) 벤치마크는 생물학, 물리학, 화학 전반에 걸쳐 박사급 전문가들이 정교하게 설계한 198개의 문제로 구성돼 있다.
이러한 대학원 수준의 문제는 단순 암기나 표면적 추론을 넘어 다단계 추론과 깊은 이해력을 요구한다. 실제로 박사 학위를 보유한 사람들의 이 어려운 문항군 평균 정답률은 65% 정도이지만, 라마 네모트론 울트라는 76%를 달성하며 과학적 추론 분야에서 선도적인 개방형 모델로 자리 잡았다. 이 결과는 아티피셜 애널리시스(Artificial Analysis)와 벨럼(Vellum) 순위표에서 확인할 수 있다.
▲ GPQA 벤치마크에서 상위 오픈 가중치 모델들의 정확도 점수
▲ GPQA 벤치마크에서 상위 모델들의 정확도 점수
▲ GPQA 벤치마크에서 상위 모델들의 정확도 점수
라이브코드벤치 벤치마크
라마 네모트론 울트라는 고급 과학 벤치마크 외에도, 실제 코딩 능력을 평가하도록 설계된 강력한 벤치마크인 라이브코드벤치(LiveCodeBench)에서 놀라운 성능을 입증했다. 라이브코드벤치는 코드 생성, 디버깅, 자체 복구, 테스트 출력 예측, 실행과 같은 광범위한 코딩 작업에 중점을 두는 벤치마크다.
라이브코드벤치의 각 문제에는 날짜 스탬프가 찍혀 있어 공정하고 외부에 유출되지 않은 평가를 보장한다. 코드 출력보다 실제 문제 해결을 강조함으로써 진정한 일반화 성능을 테스트한다. 이 결과는 아티피셜 애널리시스와 깃허브(GitHub) – 라이브코드벤치 순위표에서 확인할 수 있다.
▲ 라이브코드벤치 벤치마크에서 상위 오픈 가중치 모델들의 정확도 점수
▲ 라이브코드벤치 벤치마크에서 상위 모델들의 정확도 점수
AIME 벤치마크
라마 네모트론 울트라는 수학적 추론 능력을 평가하는 벤치마크로 자주 사용되는 AIME 벤치마크에서도 다른 오픈 모델을 능가한다. 이는 실시간 LLM 순위표에서 확인할 수 있다.
▲ AIME 벤치마크에서 상위 모델들의 정확도 점수
오픈 데이터세트와 도구
라마 네모트론의 가장 중요한 기여 중 하나는 개방형 설계 철학이다. 엔비디아는 해당 모델뿐만 아니라, 추론 기술을 형성하는 데 핵심적인 역할을 한 상업적 활용이 가능한 두 가지 주요 데이터세트도 함께 공개했다. 이들은 현재 허깅 페이스 데이터세트(Hugging Face Datasets)에서 최상위권을 차지하고 있다.
오픈코드리즈닝(OpenCodeReasoning) 데이터세트: 인기 있는 경쟁 프로그래밍 플랫폼에서 제공된 약 2만 8천 개의 고유 질문에서 파생된 73만 5천 개 이상의 파이썬(Python) 샘플을 포함한다. 지도 학습 미세 조정(supervised fine-tuning, SFT)을 위해 특별히 설계된 이 데이터세트를 통해 기업 개발자는 고급 추론 기능을 모델에 적용할 수 있다. 조직은 오픈코드리즈닝을 활용해 AI 시스템의 문제 해결 능력을 강화해, 더욱 강력하고 지능적인 코딩 솔루션을 구축할 수 있다.
라마-네모트론-포스트-트레이닝 데이터세트(Llama-Nemotron-Post-Training Dataset): 공개적으로 사용 가능한 개방형 모델을 활용해 합성적으로 생성된 데이터이다. 라마, 네모트론 제품군, 큐원(Qwen) 제품군, 딥시크-R1(DeepSeek-R1) 등의 모델이 포함된다. 이 데이터세트는 수학, 코딩, 일반 추론, 지시 수행 등 주요 추론 작업에서 모델의 성능을 향상시키기 위해 설계됐다. 이는 복잡한 다단계 명령을 더 잘 이해하고 대응할 수 있도록 모델을 미세 조정하는 데 유용한 리소스를 제공해 개발자가 더욱 유능하고 일관된 AI 시스템을 구축하는 데 도움을 준다.
엔비디아는 이러한 데이터세트를 허깅 페이스에서 무료로 제공함으로써 추론 모델 훈련의 대중화를 목표로 하고 있다. 이제 스타트업, 연구실, 기업 등 누구나 엔비디아 내부 팀과 동일한 리소스를 활용할 수 있게 된다. 이로써 정교한 워크플로우 내에서 자율적으로 추론, 계획, 행동할 수 있는 에이전틱 AI의 광범위한 채택이 가속화될 것으로 기대된다.
속도, 정확성, 유연성을 갖춘 엔터프라이즈급 기능
라마 네모트론 울트라는 상업적으로 실행 가능한 모델이며 코딩 코파일럿, 고객 서비스 챗봇, 자율 연구 에이전트, 업무 지향적 어시스턴트 등 다양한 에이전트 AI 사용 사례에 사용할 수 있다. 이는 과학적 추론과 코딩 벤치마크에서 강력한 성능을 발휘해 정확성, 적응성 그리고 다단계 문제 해결을 요구하는 실제 애플리케이션을 위한 강력한 기반이 된다.
라마 네모트론 울트라는 동급 최고의 모델 정확도를 제공하는 동시에 개방형 추론 모델 수준에서 선도적인 처리량을 제공한다. 이 처리량 즉, 효율성은 곧 비용 절감으로 이어진다. 이 모델은 신경망 아키텍처 검색(Neural Architecture Search, NAS) 접근 방식을 사용해 모델의 성능을 유지하면서 메모리 사용량을 크게 줄였다. 이를 통해 데이터센터 환경에서 더 많은 워크로드를 처리하고 더 적은 수의 GPU로 모델을 실행할 수 있도록 지원한다.
▲ 라마 네모트론 울트라는 탁월한 정확도와 뛰어난 처리량을 동시에 제공한다.
이 과정을 거친 후, SFT과 강화 학습(RL)을 포함한 포괄적인 사후 훈련 파이프라인을 통해 모델의 기능을 보강해 추론과 비추론 작업 모두에서 뛰어난 성능을 발휘할 수 있게 됐다. 또한, 추론 ‘켜기(On)’와 ‘끄기(Off)’ 기능을 지원하므로 기업에서는 필요한 경우에만 추론을 활성화하고, 에이전트 기반이 아닌 간단한 업무에서는 대한 불필요한 리소스 사용을 줄일 수 있다.
이용 정보
엔비디아는 높은 처리량과 짧은 지연 시간을 위해 최적화된 엔비디아 NIM 추론 마이크로서비스로 라마 네모트론 울트라를 패키징했다. 엔비디아 NIM은 업계 표준 API를 활용해 온프레미스 또는 클라우드에서 원활하고 확장 가능한 AI 추론을 제공한다.
● 브라우저에서 직접 라마 네모트론 울트라 NIM을 사용할 수 있다.
● 허깅 페이스에서 라마 네모트론 울트라 모델을 다운로드할 수 있다.
● 사용 사례에 맞는 맞춤형 추론 모델을 훈련하려면 오픈코드리즈닝 데이터세트 또는 라마-네모트론-포스트-트레이닝 데이터세트를 다운로드하고 맞춤화할 수 있다.
등록순 최신순 댓글순