Sora涌現(xiàn)：OpenAI又一次暴力美學(xué)的勝利

訪客 1年前 (2024-02-18) 閱讀數(shù) 253 #區(qū)塊鏈

文章標(biāo)簽前沿文章

作者：趙健??

年前的 1 月 27 日，「甲子光年」參加了一場 AI 生成視頻主題的沙龍，會(huì)上有一個(gè)有趣的互動(dòng)：AI 視頻生成多快迎來 “Midjourney 時(shí)刻”？

選項(xiàng)分別是半年內(nèi)、一年內(nèi)、1-2 年或更長。

昨天，OpenAI 公布了準(zhǔn)確答案：20 天。

OpenAI 昨天發(fā)布了全新的 AI 生成視頻模型 Sora，憑借肉眼可見的性能優(yōu)勢與長達(dá) 60s 的視頻生成時(shí)長，繼文本（GPT-4）和圖像（DALL·E 3）之后，也在視頻生成領(lǐng)域取得了“遙遙領(lǐng)先”。我們距離 AGI（通用人工智能）又近了一步。

值得一提的是，明星 AI 公司 Stability AI 昨天原本發(fā)布了一個(gè)新的視頻模型 SVD1.1，但由于與 Sora 撞車，其官方推文已被火速刪除。

AI 視頻生成的領(lǐng)頭羊之一 Runway 的聯(lián)合創(chuàng)始人、CEO Cristóbal Valenzuela 發(fā)推文表示：“比賽開始了（game on）?！?/p>

OpenAI 昨天還發(fā)布了一份技術(shù)文檔，但無論從模型架構(gòu)還是訓(xùn)練方法，都未發(fā)布什么天才級的創(chuàng)新技術(shù)，更多是現(xiàn)有技術(shù)路線的優(yōu)化。

但跟一年多以前橫空出世的 ChatGPT 一樣，OpenAI 的秘訣都是屢試不爽的 Scaling Law（縮放定律）——當(dāng)視頻模型足夠“大”，就會(huì)產(chǎn)生智能涌現(xiàn)的能力。

問題在于，大模型訓(xùn)練的“暴力美學(xué)”幾乎已經(jīng)人盡皆知，為什么這次又是 OpenAI ？

1.數(shù)據(jù)的秘密：從 token 到 patch

生成視頻的技術(shù)路線主要經(jīng)歷了四個(gè)階段：循環(huán)網(wǎng)絡(luò)（recurrent networks，RNN）、生成對抗網(wǎng)絡(luò)（generative adversarial networks，GAN）、自回歸模型（autoregressive transformers）、擴(kuò)散模型（diffusion models）。

今天，領(lǐng)先的視頻模型大多數(shù)是擴(kuò)散模型，比如 Runway、Pika 等。自回歸模型由于更好的多模態(tài)能力與擴(kuò)展性也成為熱門的研究方向，比如谷歌在 2023 年 12 月發(fā)布的 VideoPoet。

Sora 則是一種新的 diffusion transformer 模型。從名字就可以看出，它融合了擴(kuò)散模型與自回歸模型的雙重特性。Diffusion transformer 架構(gòu)由加利福尼亞大學(xué)伯克利分校的 William Peebles 與紐約大學(xué)的 Saining Xie 在 2023 年提出。

如何訓(xùn)練這種新的模型？在技術(shù)文檔中，OpenAI 提出了一種用 patch（視覺補(bǔ)?。┳鳛橐曨l數(shù)據(jù)來訓(xùn)練視頻模型的方式，這是從大語言模型的 token 汲取的靈感。Token 優(yōu)雅地統(tǒng)一了文本的多種模式——代碼、數(shù)學(xué)和各種自然語言，而 patch 則統(tǒng)一了圖像與視頻。

OpenAI 訓(xùn)練了一個(gè)網(wǎng)絡(luò)來降低視覺數(shù)據(jù)的維度。這個(gè)網(wǎng)絡(luò)接收原始視頻作為輸入，并輸出一個(gè)在時(shí)間和空間上都被壓縮的潛在表示（latent representation）。Sora 在這個(gè)壓縮的潛在空間上進(jìn)行訓(xùn)練，并隨后生成視頻。OpenAI 還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型，將生成的潛在表示映射回像素空間。

OpenAI 表示，過去的圖像和視頻生成方法通常會(huì)將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸，而這損耗了視頻生成的質(zhì)量，例如分辨率為 256x256 的 4 秒視頻。而將圖片與視頻數(shù)據(jù) patch 化之后，無需對數(shù)據(jù)進(jìn)行壓縮，就能夠?qū)Σ煌直媛省⒊掷m(xù)時(shí)間和長寬比的視頻和圖像的原始數(shù)據(jù)進(jìn)行訓(xùn)練。

這種數(shù)據(jù)處理方式為模型訓(xùn)練帶來了兩個(gè)優(yōu)勢：

第一，采樣靈活性。Sora 可以采樣寬屏 1920x1080p 視頻、垂直 1080x1920 視頻以及介于兩者之間的所有視頻，直接以其原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容，并且能夠在以全分辨率生成視頻之前，快速地以較低尺寸制作原型內(nèi)容。這些都使用相同的模型。

第二，改進(jìn)框架與構(gòu)圖。OpenAI 根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn)，以原始長寬比對視頻進(jìn)行訓(xùn)練可以改善構(gòu)圖和取景。比如，常見的將所有訓(xùn)練視頻裁剪為正方形的模型，有時(shí)會(huì)生成僅部分可見主體的視頻。相比之下，Sora 的視頻取景有所改善。

在方形作物上訓(xùn)練的模型（左），Sora 的模型（右）

在語言理解層面，OpenAI 發(fā)現(xiàn)，對高度描述性視頻字幕進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。

為此，OpenAI 應(yīng)用了 DALL·E 3 中引入的“重新字幕技術(shù)”（re-captioning technique）——首先訓(xùn)練一個(gè)高度描述性的字幕生成器模型，然后使用它為訓(xùn)練數(shù)據(jù)集中的視頻生成文本字幕。

此外，與 DALL·E 3 類似，OpenAI 還利用 GPT 將簡短的用戶提示轉(zhuǎn)換為較長的詳細(xì)字幕，然后發(fā)送到視頻模型。這使得 Sora 能夠生成準(zhǔn)確遵循用戶提示的高質(zhì)量視頻。

提示詞：a woman wearing blue jeans and a white t-shirt，taking a pleasant stroll in Mumbai India during a colorful festival.

除了文本生成視頻之外，Sora 也支持“圖像生成視頻”與“視頻生成視頻”。

提示詞：In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

此功能使 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù)，創(chuàng)建完美的循環(huán)視頻、動(dòng)畫靜態(tài)圖像、及時(shí)向前或向后擴(kuò)展視頻等。

2.計(jì)算的秘密：依舊是“暴力美學(xué)”

在 Sora 的技術(shù)文檔里，OpenAI 并沒有透露模型的技術(shù)細(xì)節(jié)（埃隆·馬斯克曾經(jīng)抨擊 OpenAI 不再像它成立時(shí)的初衷一樣“open”），而只是表達(dá)了一個(gè)核心理念——scale。

OpenAI 在 2020 年首次提出了模型訓(xùn)練的秘訣——Scaling Law。根據(jù) Scaling Law，模型性能會(huì)在大算力、大參數(shù)、大數(shù)據(jù)的基礎(chǔ)上像摩爾定律一樣持續(xù)提升，不僅適用于語言模型，也適用于多模態(tài)模型。

OpenAI 就是遵循這一套“暴力美學(xué)”發(fā)現(xiàn)了大語言模型的涌現(xiàn)能力，并最終研發(fā)出劃時(shí)代的 ChatGPT 。

Sora 模型也是如此，憑借Scaling Law，它毫無預(yù)兆地在 2024 年 2 月就打響了視頻的 “Midjourney 時(shí)刻”。

OpenAI 表示，transformer 在各個(gè)領(lǐng)域都表現(xiàn)出了卓越的擴(kuò)展特性，包括語言建模、計(jì)算機(jī)視覺、圖像生成以及視頻生成。下圖展示了訓(xùn)練過程中，在相同的樣本下，隨著訓(xùn)練計(jì)算規(guī)模的增加，視頻質(zhì)量顯著提高。

OpenAI 發(fā)現(xiàn)，視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的新興功能，使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。這些屬性的出現(xiàn)對 3D、物體等沒有任何明確的歸納偏差——純粹是模型縮放現(xiàn)象。

因此，OpenAI 將視頻生成模型，命名為“世界模擬器”（world simulators），或稱之為“世界模型”——可以理解為讓機(jī)器像人類理解世界的方式一樣學(xué)習(xí)。

英偉達(dá)科學(xué)家 Jim Fan 如此評價(jià)道：“如果您認(rèn)為 OpenAI Sora 是像 DALL·E 一樣的創(chuàng)意玩具......再想一想。 Sora 是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。它是對許多世界的模擬，無論是真實(shí)的還是幻想的。模擬器通過一些去噪和梯度數(shù)學(xué)來學(xué)習(xí)復(fù)雜的渲染、‘直觀’物理、長期推理和語義基礎(chǔ)。”

Meta 首席科學(xué)家楊立昆（Yann LeCun）曾在 2023 年 6 月提出世界模型的概念。2023 年 12 月，Runway 官宣下場通用世界模型，宣稱要用生成式 AI 來模擬整個(gè)世界。

而 OpenAI 僅僅通過早就熟稔于心的 Scaling Law，讓 Sora 具備了世界模型的能力。OpenAI 表示：“我們的結(jié)果表明，擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑?！?/p>

具體來看，Sora 世界模型有三個(gè)特點(diǎn)：

3D 一致性。Sora 可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn)，人和場景元素在三維空間中一致移動(dòng)。

遠(yuǎn)程相關(guān)性和物體持久性。視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在采樣長視頻時(shí)保持時(shí)間一致性。OpenAI 發(fā)現(xiàn) Sora 通常（盡管并非總是）能夠有效地對短期和長期依賴關(guān)系進(jìn)行建模。例如，模型可以保留人、動(dòng)物和物體，即使它們被遮擋或離開框架。同樣，它可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭，并在整個(gè)視頻中保持其外觀。

與世界互動(dòng)。Sora 有時(shí)可以用簡單的方式模擬影響世界狀況的動(dòng)作。例如，畫家可以在畫布上留下新的筆觸，并隨著時(shí)間的推移而持續(xù)存在。

模擬數(shù)字世界。?Sora 還能夠模擬人工過程——一個(gè)例子是視頻游戲。 Sora 可以同時(shí)通過基本策略控制《我的世界》中的玩家，同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。這些能力可以通過用提及“我的世界”的標(biāo)題提示 Sora 來實(shí)現(xiàn)零射擊。

不過，跟所有的大模型一樣，Sora 還不是一個(gè)完美的模型。OpenAI 承認(rèn)，Sora 還存在許多局限性，它不能準(zhǔn)確地模擬許多基本相互作用的物理過程，例如玻璃破碎。其他交互（例如吃食物）并不總是會(huì)產(chǎn)生對象狀態(tài)的正確變化。

3.算力才是核心競爭力？

為什么 OpenAI 能夠依靠“Scaling Law”屢試不爽，其他公司卻沒有呢？

我們或許能找到很多原因，比如對 AGI 的信仰、對技術(shù)的堅(jiān)持等。但一個(gè)現(xiàn)實(shí)因素是，Scaling Law 需要高昂的算力支出來支撐，而這正是 OpenAI 比較擅長的。

如此一來，視頻模型的競爭點(diǎn)就有點(diǎn)類似于語言模型，先是拼團(tuán)隊(duì)的工程化調(diào)參能力，拼到最后就是拼算力。

歸根到底，這顯然又是英偉達(dá)的機(jī)會(huì)。在這一輪 AI 熱潮的驅(qū)動(dòng)下，英偉達(dá)的市值已經(jīng)節(jié)節(jié)攀升，一舉超越了亞馬遜與谷歌。

視頻模型的訓(xùn)練會(huì)比語言模型更加耗費(fèi)算力。在算力全球緊缺的狀況下，OpenAI 如何解決算力問題？如果結(jié)合此前關(guān)于 OpenAI 的造芯傳聞，似乎一切就順理成章了。

去年起，OpenAI CEO 薩姆·奧爾特曼（Sam Altman）就在與為代號(hào)「Tigris」的芯片制造項(xiàng)目籌集 80 億至 100 億美元的資金，希望生產(chǎn)出類似谷歌TPU，能與英偉達(dá)競爭的 AI 芯片，來幫助 OpenAI 降低運(yùn)行和服務(wù)成本。

2024 年 1 月，奧爾特曼還曾到訪韓國，會(huì)見韓國三星電子和 SK 海力士高管尋求芯片領(lǐng)域的合作。

近期，根據(jù)外媒報(bào)道，奧爾特曼正在推動(dòng)一個(gè)旨在提高全球芯片制造能力的項(xiàng)目，并在與包括阿聯(lián)酋政府在內(nèi)的不同投資者進(jìn)行談判。這一計(jì)劃籌集的資金，達(dá)到了夸張的 5 萬億~ 7 萬億美元。

OpenAI 發(fā)言人表示：“OpenAI 就增加芯片、能源和數(shù)據(jù)中心的全球基礎(chǔ)設(shè)施和供應(yīng)鏈進(jìn)行了富有成效的討論，這對于人工智能和相關(guān)行業(yè)至關(guān)重要。鑒于國家優(yōu)先事項(xiàng)的重要性，我們將繼續(xù)向美國政府通報(bào)情況，并期待稍后分享更多細(xì)節(jié)?！?/p>

英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛對此略顯諷刺地回應(yīng)道：“如果你認(rèn)為計(jì)算機(jī)無法發(fā)展得更快，可能會(huì)得出這樣的結(jié)論：我們需要 14 顆行星、 3 個(gè)星系和 4 個(gè)太陽來為這一切提供燃料。但是，計(jì)算機(jī)架構(gòu)其實(shí)在不斷地進(jìn)步。”

到底是大模型的發(fā)展速度更快，還是算力成本的降低速度更快？它會(huì)成為百模大戰(zhàn)的勝負(fù)手嗎？

2024 年，答案會(huì)逐漸揭曉。

上一篇：無信用記錄網(wǎng)貸（征信報(bào)告沒有記錄的網(wǎng)貸是不是不會(huì)上征信）下一篇：可以同時(shí)網(wǎng)貸（網(wǎng)貸可以多家申請嗎）

相關(guān)文章

標(biāo)簽列表

快訊
前沿文章
區(qū)塊鏈資訊
[db:標(biāo)簽TAG]
大連天使投資
p2p投資
投資理財(cái)基礎(chǔ)知識(shí)
投資公司融資
愛投資風(fēng)投
基金公司和投資公司的區(qū)別
余額寶投資
如何學(xué)習(xí)投資理財(cái)
鼎暉投資基金管理公司招聘
50萬投資啥
北京理財(cái)投資
投資p2p網(wǎng)貸
投資理財(cái)知識(shí)
投資收益率多少合適
成都易貸投資有限公司
理財(cái)投資模式
個(gè)人投資理財(cái)方法
投資項(xiàng)目
長期投資
發(fā)展投資網(wǎng)貸
逾期買房