(機翻版Prompt:一位時髦的女士穿行在東京的街頭,街道兩旁是溫暖的霓虹燈和動態(tài)的城市標識。她身穿黑色皮夾克、一條長紅裙和黑靴,手拿黑色錢包。她佩戴著太陽鏡和紅色口紅,自信而隨意地走著。街道潮濕且能反射光,營造出彩色燈光的鏡像效果。許多行人來來往往。)
另外,我看到這個視頻甚至有兩段運鏡,一個是遠景,一個鏡頭拉的很近的特寫,甚至能看見女生臉上的痘痘。
打開OpenAI的官網,我找到了一些介紹內容,我把我的學習和理解的內容寫在這里。
OpenAI在官網介紹中提到,他們幫AI理解和模擬物理世界的運動,他們的目標是用這個模型,來解決需要與現實世界交互時會碰到的各種問題,比如,自動駕駛汽車就算一種。
簡單說,AI模型能更好地理解現實世界,能理解現實世界的人物和物體的運動方式,如果這種東西被用在智能駕駛領域,應該會很有前景。
Sora作為一個文生視頻模型,能生成最多1分鐘時長的視頻,這并不神奇,現在Runway早就可以做到。只不過,Sora輸出的視頻質量很高,同時,能緊跟著提示詞里輸入的內容來生成。
目前,Sora還沒有完全對外公開可用,只是面向安全測試人員還有部分視覺藝術家、設計師和電影制作人訪問來體驗這個模型,先看看專業(yè)人士的意見。
Sora擁有生成包含眾多角色、特定動作類型及主題與背景精確細節(jié)的復雜場景的能力。該模型不僅能理解用戶在提示中的請求,還能洞察這些元素在物理世界中的實際存在方式。從而讓人物和物體的動作更流程和自然。
Sora對語言有深刻的理解,能夠準確地理解提示詞,并生成引人入勝的角色。Sora還能在單個生成的視頻中創(chuàng)建多個鏡頭,準確地保持角色和視覺風格的連貫性。
現在的Sora模型也有明顯不足。
它在模擬復雜場景的物理特性上會有問題,可能不能很好地理解特定因果關系。例如,一個人可能會咬一口餅干,但餅干可能看不到咬過的痕跡。模型也可能搞錯空間細節(jié),例如,將左和右搞混。
在將Sora整合到OpenAI的產品中之前,OpenAI會邀請安全專家對模型進行對抗性測試,幫助處理錯誤信息、仇恨內容和偏見等問題。
OpenAI還在開發(fā)工具,幫助檢測誤導性內容,比如一個檢測分類器,能夠識別出一個視頻是由Sora生成的。未來,如果正式對外部署這一模型,還會在視頻中包含C2PA元數據。
C2PA是由內容真實性和來源聯(lián)盟(C2PA)定義的一種標準,旨在提高數字內容(如照片、視頻和文檔)的透明度和可信度。通過在內容中嵌入C2PA元數據,可以提供關于該內容創(chuàng)作和修改歷史的詳細信息,包括內容是如何、何時以及由誰創(chuàng)建或更改的。
這有助于驗證內容的真實性,打擊深度偽造和誤導性信息,為用戶提供關于數字內容來源和完整性的可靠信息。
出于安全和負責人方面的考慮,OpenAI把給DALL·E 3準備的安全手段也都會用在Sora模型上。
他們會阻止包含有極端暴力、性內容、仇恨等不合適的內容請求。同時,還會準備檢查視頻幀的服務,以確保生成的視頻內容符合相關政策。
盡管OpenAI做了很多工作來確保AI技術的安全,但還是無法完全預見技術潛在風險。因此,他們強調與社會各界合作并從實際應用中進行摸索,在推進AI技術發(fā)展的同時,也逐步提高系統(tǒng)的安全性。
稍微談一點技術細節(jié)部分。
Sora是一種(Diffusion)擴散模型,基本原理上,它通過從一個靜態(tài)噪聲的視頻開始,在隨后多個步驟中逐漸去除噪聲,從而生成視頻。
看起來就跟Stable Diffusion、Disco Diffusion一樣。
Sora能夠一次性生成一整個視頻,或者給已有視頻添加新的時長。通過讓模型一次性預見多幀,Sora解決了一個極具挑戰(zhàn)性的問題,即使主體暫時離開視野,也能保持不變,有很好的一致性。
與很多GPT模型一樣,Sora也采用了Transformer架構,從而獲得了更強的可擴展性。
在Sora模型中,視頻和圖像被表示為一系列更小的數據單元,稱為“補丁”(patches),每個補丁都類似于GPT中的一個“令牌”(token)。通過將數據的表示方式進行統(tǒng)一,Sora可以在更廣泛的視覺數據上進行訓練,這些數據包括不同的持續(xù)時間、分辨率和縱橫比。
Sora模型是在DALL·E和GPT模型的基礎上而構建的。它采用了DALL·E 3中的重新標注技術,它可以為視覺訓練數據生成高質量的數據標注。因此,模型能夠很好地遵從用戶輸入的文本指令。
Sora模型不僅能夠用文本生成視頻,還能夠用已有的靜態(tài)圖來生成視頻,準確地將圖片變成動畫,圖片中的細節(jié)也都會處理的很好。此外,模型還能夠延長已有視頻的內容,還能自動填補缺失的幀。
在OpenAI看來,Sora是那些能夠理解和模擬現實世界的模型的基礎,這一能力將是實現通用人工智能(AGI)的一個重要里程碑。
OpenAI公布了在視頻數據上訓練大規(guī)模生成式模型的方法,具體內容可以查看如下鏈接:
https://openai.com/research/video-generation-models-as-world-simulators
這部分介紹中,OpenAI直接將視頻生成模型看做是世界模擬器(Video generation models as world simulators)。
想想也是,如果讓AI模型來理解這個世界的一些規(guī)律,如果能給模型輸入足夠的數據,那么,AI的世界就能演繹真實的世界。
如果AI模型能理解世界更多規(guī)律,包括物理、化學、數學、醫(yī)藥等自然科學方面的規(guī)律,如果能給模型輸入足夠多的數據,那該是一種什么樣的未來?