相比前代Genie 2僅能維持10-20秒的360P畫面,此次升級被英偉達科學家Jim Fan譽為 “游戲引擎2.0時代”的降臨。
谷歌DeepMind Genie 3與Genie 2、由神經(jīng)模型驅(qū)動的游戲引擎GameNGen、視頻生成模型Veo對比,最突出的特點是其生成時長翻倍增長,且能做到針對已生成的環(huán)境修改:
文字編輯|宋雨涵
1
三大核心技術(shù)突破:
重新定義AI世界模型
1
實時交互性:
Genie 3此次進化的一大顯著亮點,在于其具備實時響應的用戶交互能力,并且能在長達數(shù)分鐘的時間里保持場景(三維)的高度一致性。
為使Genie 3在可控性與實時交互性上達到高水平,谷歌在技術(shù)層面實現(xiàn)了多項重大突破。
在模型每幀的自回歸生成進程中,需持續(xù)考量隨時間推移而增加的軌跡信息。比如,當用戶在一分鐘之后重新回到某個地點時,模型要能夠追溯并調(diào)用一分鐘前生成的相關信息。
要達成真正的實時交互效果,這種計算必須每秒進行多次,如此才能及時響應源源不斷的用戶輸入。
2
環(huán)境一致性:
為讓AI生成的世界更具沉浸感,環(huán)境在長時間跨度內(nèi)必須維持物理層面的連貫性。不過,通過自回歸方式生成環(huán)境,相較于一次性生成整段視頻,技術(shù)難度要大得多,因為誤差會隨著時間逐步累積。
即便面臨這一難題,Genie 3所生成的環(huán)境在數(shù)分鐘內(nèi)依舊能保持高度一致,其視覺記憶能力最遠可追溯至一分鐘前的畫面狀態(tài)。
如上圖所示的“建筑物左側(cè)的樹木”,在互動過程中始終保持一致:
Genie 3的一致性是一項新興能力。NeRF和高斯分布等方法在實現(xiàn)一致的可導航3D環(huán)境同時,需要依賴于提供明確的3D表示,相比之下,Genie 3生成的世界是根據(jù)世界描述和用戶操作逐幀創(chuàng)建的,因此生成內(nèi)容更為豐富、真實。
Genie 3通過記憶已生成的內(nèi)容并進行長期推理,自學世界中的物體如何移動、下落和互動。該模型是自回歸的,這意味著它一次只生成一幀,其必須回顧之前生成的內(nèi)容,才能決定下一步要做什么。這是該架構(gòu)的關鍵部分。
3
可提示世界事件:
Genie 3引入了”可提示世界事件”功能,這是一個革命性的創(chuàng)新。用戶不僅可以在世界中導航,還能通過文本指令動態(tài)改變世界狀態(tài)。
下面的“面包店”場景中,演示出分別給出了走進攪拌機、前往冷卻架、走到玻璃柜前的任務:
在給定的“市場”環(huán)境中,案例分別演示了走進花攤、去面包師那里等任務:
在具身Agent的研究領域,研究人員就可以選擇一個世界設定,然后選擇希望Agent實現(xiàn)的目標并觀察它如何實現(xiàn)目標。
2
喜憂參半
Genie 3的局限性
盡管能力驚人,Genie 3仍面臨多重技術(shù)壁壘。
動作空間有限。盡管可提示的世界事件允許進行廣泛的環(huán)境干預,但這些干預不一定由agent自身執(zhí)行。agent可以直接執(zhí)行的動作范圍目前受到限制。
其他agent的交互與模擬。在共享環(huán)境中準確建模多個獨立agent之間的復雜交互仍然很難。
真實世界位置的準確表示。Genie 3目前無法以完美的地理精度模擬真實世界位置。
文本渲染。通常只有在輸入的世界描述中提供時,才能生成清晰易讀的文本。
交互時間有限。目前 Genie 3支持幾分鐘的連續(xù)交互,而非數(shù)小時。
此外DeepMind研究團隊在官方博客中坦言:實現(xiàn)數(shù)小時級的穩(wěn)定交互需要算法與算力的雙重突破?,F(xiàn)有模型已需數(shù)千塊GPU協(xié)同訓練,延長交互時間意味著計算成本指數(shù)級增長。
三、世界模型演進:
通往AGI的必經(jīng)之路
長久以來,“世界模型”始終被行業(yè)視為邁向通用人工智能(AGI)征程中至關重要的基石。原因在于,它能夠為AI智能體提供無限多樣且豐富的模擬環(huán)境用于訓練。
在過去十多年的時間里,谷歌DeepMind在模擬環(huán)境研究領域始終處于前沿地位,其研究范疇廣泛,從教導AI智能體精通即時戰(zhàn)略游戲,到為開放式學習以及機器人技術(shù)打造模擬環(huán)境,均有深入探索。
正是基于這些持續(xù)且深入的研究,谷歌DeepMind成功開發(fā)出了“世界模型”。
Genie 3的發(fā)布標志著世界模型發(fā)展進入新階段。從Genie 1的靜態(tài)場景生成,到Genie 2的短暫交互,再到如今分鐘級實時交互,技術(shù)演進呈現(xiàn)加速突破態(tài)勢。
DeepMind將Genie 3定位為 “通向AGI的關鍵基礎設施”。傳統(tǒng)AI訓練依賴有限數(shù)據(jù)集,而Genie 3能無限生成多樣化環(huán)境,為AI智能體提供試煉場。
產(chǎn)業(yè)層面,世界模型正驅(qū)動兩條技術(shù)路線的競合:谷歌的語言驅(qū)動生成(Genie 3)、英偉達的數(shù)字孿生平臺(Omniverse)、Meta的空間計算,以及小鵬汽車等企業(yè)探索的“云端世界模型工廠”——通過模擬交通場景蒸餾自動駕駛能力。
而DeepMind將Genie 3定位為“AGI基礎設施”,其價值不僅在于為機器人提供零成本試錯的倉庫火災訓練場,更在于逼迫AI建立行動-結(jié)果的因果鏈:風吹草動、火勢蔓延,這些基礎邏輯恰是通用智能的基石。
結(jié)語:
世界模型的終極意義,是讓AI從“統(tǒng)計規(guī)律擬合者”蛻變?yōu)椤耙蚬壿嬚瓶卣摺?。Genie 3的虛擬海浪拍岸時,我們看到的不僅是水的紋理,更是AI對流體動力學的內(nèi)化推演。
這不僅是技術(shù)升級,更是認知革命:當AI通過創(chuàng)造世界來理解世界,人類第一次有機會將智能的本質(zhì)封裝進代碼——那條通往AGI的幽深小徑,正被世界模型的火光逐漸照亮。