NVIDIA 在 SIGGRAPH 大會(huì)上宣布擴(kuò)展兩個(gè)支持推理功能的系列模型:NVIDIA Nemotron NVIDIA Cosmos,各行業(yè)的領(lǐng)導(dǎo)者都在使用這些模型,通過(guò) AI 智能體和人形機(jī)器人編隊(duì)來(lái)提高生產(chǎn)力。

CrowdStrike、Uber、Magna、NetApp 和 Zoom 等一些企業(yè)都在使用這些系列模型。

全新 NVIDIA Nemotron Nano 2 和 Llama Nemotron Super 1.5 模型在同等規(guī)模模型中的科學(xué)推理、數(shù)學(xué)、編碼、工具調(diào)用、指令遵循和對(duì)話方面展現(xiàn)出優(yōu)異的精度表現(xiàn)。借助這些新模型,AI 智能體能夠提高思考深度和工作效率,從而探索更廣泛的選項(xiàng)、加速研究并在設(shè)定時(shí)限內(nèi)提供更明智的結(jié)果。

模型能被視為 AI 智能體的“大腦”,它提供了核心智能。但要使這類“大腦”在企業(yè)中發(fā)揮作用,必須將其嵌入到能理解特定工作流以及行業(yè)和業(yè)務(wù)術(shù)語(yǔ),并能夠安全運(yùn)行的智能體中。NVIDIA 可通過(guò)領(lǐng)先的庫(kù)和 AI 藍(lán)圖幫助企業(yè)大規(guī)模部署、定制和管理 AI 智能體,從而彌合這一差距。

Cosmos Reason 是用于物理 AI 應(yīng)用的新型推理視覺語(yǔ)言模型 (VLM),擅長(zhǎng)了解現(xiàn)實(shí)世界的運(yùn)作機(jī)制,使用結(jié)構(gòu)化推理來(lái)理解物理學(xué)、客體永久性和時(shí)空對(duì)齊等概念。

Cosmos Reason 經(jīng)過(guò)量身定制,可作為機(jī)器人視覺語(yǔ)言動(dòng)作 (VLA) 模型的推理主干,或?yàn)闄C(jī)器人和智能汽車訓(xùn)練數(shù)據(jù)評(píng)論和注釋提供支持,并賦予運(yùn)行時(shí)視覺 AI 智能體在工廠或城市等環(huán)境中對(duì)時(shí)空理解和物理操作的推理能力。

Nemotron:更大限度地提高代理式企業(yè)級(jí) AI 精度和效率

隨著企業(yè)開發(fā) AI 智能體來(lái)處理復(fù)雜的多步驟任務(wù),能夠通過(guò)高效生成 token 來(lái)提供超高推理準(zhǔn)確性的模型將可實(shí)現(xiàn)大規(guī)模智能且自主的決策制定。

NVIDIA Nemotron 包含一系列先進(jìn)的開放式推理模型,可使用領(lǐng)先的模型、NVIDIA 精選的開放數(shù)據(jù)集和先進(jìn) AI 技術(shù),幫助 AI 智能體提高準(zhǔn)確性和效率。

最新 Nemotron 模型在以下三個(gè)方面實(shí)現(xiàn)了出色的效率:全新混合模型架構(gòu)、緊湊型量化模型以及可配置的思考預(yù)算,可幫助開發(fā)者控制 token 生成,從而將推理成本降低 60%。這種組合便于模型更深入地進(jìn)行推理并更快響應(yīng),無(wú)需投入更多時(shí)間或算力。這意味著能夠以更低成本取得更好的結(jié)果。

與其他同等規(guī)模的領(lǐng)先模型相比,Nemotron Nano 2 將 token 生成提速 6 倍。

Llama Nemotron Super 1.5 在同類產(chǎn)品中實(shí)現(xiàn)了領(lǐng)先性能和極高的推理準(zhǔn)確性,有助于 AI 智能體更高效地進(jìn)行推理,做出更明智決策并獨(dú)立處理復(fù)雜任務(wù)。它現(xiàn)以 NVFP4(即 4 位浮點(diǎn))格式提供,與 NVIDIA H100 GPU 相比,在 NVIDIA B200 GPU 上可將吞吐量提高 6 倍。

上圖顯示,在同一時(shí)段內(nèi)且計(jì)算預(yù)算相同的情況下,Nemotron 模型的推理實(shí)現(xiàn)了極高的準(zhǔn)確性,并實(shí)現(xiàn)了單位成本下的極佳準(zhǔn)確率。

在發(fā)布這兩個(gè)全新 Nemotron 模型的同時(shí),NVIDIA 還宣布推出首個(gè)開放 VLM 訓(xùn)練數(shù)據(jù)集 Llama Nemotron VLM 數(shù)據(jù)集 v1,該數(shù)據(jù)集包含 300 萬(wàn)個(gè)光學(xué)字符識(shí)別、視覺 QA 和字幕數(shù)據(jù)樣本,可支持之前發(fā)布的 Llama 3.1 Nemotron Nano VL 8B 模型。

除推理模型精度以外,智能體還依賴檢索增強(qiáng)生成 (RAG) 技術(shù),跨不同來(lái)源從聯(lián)網(wǎng)數(shù)據(jù)中獲取最新、最相關(guān)的信息,以便做出明智決策。最近發(fā)布的 Llama 3.2 NeMo Retriever 嵌入模型在三個(gè)視覺文檔檢索排行榜 (ViDoRe V1、ViDoRe V2 MTEB VisualDocumentRetrieval) 中均排名前列,可幫助提高智能體系統(tǒng)的準(zhǔn)確性。

借助這些推理和信息檢索模型,使用 AI-Q NVIDIA Blueprint 構(gòu)建的深度研究智能體目前在 DeepResearch Bench 上的開放可移植式智能體排行榜中排名首位。

NVIDIA NeMo NVIDIA NIM 可從開發(fā)、部署到智能體系統(tǒng)的監(jiān)管和優(yōu)化,支持整個(gè) AI 智能體生命周期。

Cosmos Reason:物理 AI 領(lǐng)域的突破

VLM 標(biāo)志著計(jì)算機(jī)視覺和機(jī)器人領(lǐng)域的突破,可助力機(jī)器識(shí)別物體和模式。但是,非推理的 VLM 缺乏理解現(xiàn)實(shí)世界并與之交互的能力,意味著它們既無(wú)法處理不確定性或新奇的情景,也無(wú)法執(zhí)行復(fù)雜的多步驟任務(wù)。

NVIDIA Cosmos Reason 是一種專為物理 AI 和機(jī)器人而打造的全新開放式可定制 70 億參數(shù)推理 VLM。借助 Cosmos Reason,機(jī)器人和視覺 AI 智能體能夠像人類一樣進(jìn)行推理,利用先驗(yàn)知識(shí)、物理理解和常識(shí)來(lái)了解物理世界并采取行動(dòng)。

Cosmos Reason 可為機(jī)器人和物理 AI 應(yīng)用提供高級(jí)功能,例如訓(xùn)練數(shù)據(jù)評(píng)論和字幕支持、機(jī)器人決策制定和視頻分析 AI 智能體。

它可以幫助自動(dòng)處理并標(biāo)注大型多樣化的訓(xùn)練數(shù)據(jù)集,加速高精度 AI 模型的開發(fā)。它也可以充當(dāng)用于機(jī)器人規(guī)劃的精密推理引擎,從而將復(fù)雜指令解析為即使在新環(huán)境也可供 VLA 模型執(zhí)行的步驟。

它還可為 NVIDIA Metropolis 平臺(tái)上基于視頻搜索和總結(jié) (VSS) NVIDIA Blueprint 構(gòu)建的視頻分析 AI 智能體提供支持,從大量存儲(chǔ)或?qū)崟r(shí)的視頻數(shù)據(jù)中獲取寶貴見解。這些視覺感知和交互式 AI 智能體可以通過(guò)查明異常,來(lái)幫助工廠、倉(cāng)庫(kù)、零售商店、機(jī)場(chǎng)、交叉路口等場(chǎng)所簡(jiǎn)化操作。

NVIDIA 的機(jī)器人研究團(tuán)隊(duì)將 Cosmos Reason 用于數(shù)據(jù)篩選和整理,并將其用作 VLA 模型(例如后續(xù)版本的 NVIDIA Isaac GR00T NX)背后的 “System 2” 推理 VLM。

現(xiàn)已推出:用于 AI 智能體和機(jī)器人的 NVIDIA 推理模型無(wú)處不在

多元化企業(yè)和咨詢行業(yè)領(lǐng)導(dǎo)者都在采用 NVIDIA 的最新推理模型。從網(wǎng)絡(luò)安全到電信,各行業(yè)的領(lǐng)導(dǎo)者都開始使用 Nemotron 來(lái)構(gòu)建企業(yè)級(jí) AI 智能體。

Zoom 計(jì)劃將 Nemotron 推理模型與 Zoom AI Companion 相結(jié)合,幫助做出決策并管理多步驟任務(wù),以便 Zoom Meetings、Zoom Chat 和 Zoom 文檔用戶執(zhí)行操作。

CrowdStrike 正在測(cè)試 Nemotron 模型,以便其 Charlotte AI 智能體在 CrowdStrike Falcon 平臺(tái)上寫入請(qǐng)求。

Amdocs 正在其 amAIz 套件中使用 NVIDIA Nemotron 模型,以支持 AI 智能體處理護(hù)理、銷售、網(wǎng)絡(luò)和客戶支持等領(lǐng)域的復(fù)雜、多步驟自動(dòng)化操作。

鑒于 Nemotron Nano 2 的高吞吐量,安永正采用該模型來(lái)支持大型企業(yè)組織中的代理式 AI,用于處理稅務(wù)、風(fēng)險(xiǎn)管理和金融用例。

NetApp 正在測(cè)試 Nemotron 推理模型,以便 AI 智能體能夠搜索和分析業(yè)務(wù)數(shù)據(jù)。

DataRobot 正在與 Nemotron 模型合作,用于其 Agent Workforce Platform,以實(shí)現(xiàn)端到端的智能體生命周期管理。

Tabnine 正使用 Nemotron 模型,為開發(fā)者提供編碼任務(wù)建議和實(shí)現(xiàn)自動(dòng)化編碼任務(wù)。

Automation Anywhere、CrewAIDataiku 等代理式 AI 軟件開發(fā)商都在其平臺(tái)中集成了 Nemotron 模型。

交通運(yùn)輸、安全和 AI 智能領(lǐng)域的領(lǐng)先企業(yè)正使用 Cosmos Reason 來(lái)加強(qiáng)輔助駕駛、視頻分析、道路和工作場(chǎng)所的安全。

Uber 正在探索如何使用 Cosmos Reason 來(lái)分析智能汽車的行為。此外,Uber 還在對(duì) Cosmos Reason 進(jìn)行后訓(xùn)練,以總結(jié)視覺數(shù)據(jù)并分析行人穿行高速公路等場(chǎng)景,進(jìn)而執(zhí)行質(zhì)量分析并指導(dǎo)輔助駕駛行為。

Cosmos Reason 也可以作為智能汽車的“大腦”。它讓機(jī)器人能夠解讀環(huán)境,在接收到復(fù)雜指令時(shí)將其分解為任務(wù),并使用常識(shí)去執(zhí)行任務(wù),即便在陌生環(huán)境中也是如此。

Centific 正在測(cè)試 Cosmos Reason,以增強(qiáng)其 AI 賦能的視頻智能平臺(tái)。運(yùn)用 VLM,該平臺(tái)能夠?qū)?fù)雜的視頻數(shù)據(jù)處理為可供行動(dòng)參考的見解,幫助減少誤報(bào)并提高決策制定的效率。

VAST 正采用 NVIDIA Cosmos Reason 及其 AI 操作系統(tǒng)來(lái)大規(guī)模處理海量視頻流,推動(dòng)實(shí)時(shí)城市智能發(fā)展。借助 VSS Blueprint,VAST 可構(gòu)建能夠識(shí)別突發(fā)事件并觸發(fā)響應(yīng)的智能體,將視頻流和元數(shù)據(jù)轉(zhuǎn)化為可操作的主動(dòng)式公共安全工具。

Ambient.ai 正使用 Cosmos Reason 的時(shí)間物理感知推理,自動(dòng)檢測(cè)丟失的個(gè)人防護(hù)設(shè)備并監(jiān)測(cè)危險(xiǎn)狀況,幫助改善建筑、制造、物流和其他工業(yè)環(huán)境中的環(huán)境健康與安全。

Magna 正在將 Cosmos Reason 集成至其 City Delivery Platform(一個(gè)高度自主、低成本即時(shí)配送解決方案),幫助車輛更快地適應(yīng)新城市。該模型為車輛的長(zhǎng)期軌跡規(guī)劃增添了對(duì)世界的理解能力。

這些模型預(yù)計(jì)將以 NVIDIA NIM 的形式提供,以便安全可靠地部署到任意 NVIDIA 加速基礎(chǔ)設(shè)施上,更大限度地提高隱私性和控制力。這些模型計(jì)劃不久后通過(guò) Amazon Bedrock 和 Amazon SageMaker AI (用于 Nemotron 模型),以及 Azure AI Foundry、Oracle Data Science Platform 和 Google Vertex AI 發(fā)布。

觀看 NVIDIA SIGGRAPH 的特別演講,了解圖形和仿真創(chuàng)新如何共同推動(dòng)工業(yè)數(shù)字化,并參與 NVIDIA 在大會(huì)上的活動(dòng),大會(huì)自今日起持續(xù)至 8 14 日星期四。

查閱相關(guān)軟件產(chǎn)品信息說(shuō)明。

分享到

zhupb

相關(guān)推薦