來(lái)源:AI范兒
8位谷歌員工偶然相遇,共同撰寫了開創(chuàng)性的“變換器”論文,這一技術(shù)突破徹底改變了人工智能領(lǐng)域,尤其在理解和生成類似人類的文本方面。
2017年春,一篇名為《Attention Is All You Need》的科學(xué)論文誕生,其上署名的八位作者均來(lái)自谷歌,盡管當(dāng)時(shí)已有一名成員離職。資深作者Noam Shazeer在看到初稿時(shí),意外地發(fā)現(xiàn)自己的名字排在首位,這似乎意味著他的貢獻(xiàn)最為重要。對(duì)此,他表示:“我并沒有刻意考慮過(guò)這個(gè)問題?!?/p>
在學(xué)術(shù)界,如何排列作者名字一直是個(gè)微妙的平衡問題——誰(shuí)的名字放在最前面,誰(shuí)的又放在最后。尤其是在這種每個(gè)人都在一個(gè)真正的團(tuán)隊(duì)合作中留下了獨(dú)特印記的情況下。在匆忙完成論文的過(guò)程中,研究團(tuán)隊(duì)最終決定打破常規(guī),不再對(duì)貢獻(xiàn)者進(jìn)行排名。他們?cè)诿總€(gè)名字旁加上了星號(hào)和腳注:“平等貢獻(xiàn)者”,并注明“排名順序是隨機(jī)的”。這篇論文隨后被提交到了一個(gè)享有盛譽(yù)的人工智能會(huì)議,并在那里引發(fā)了一場(chǎng)革命。
姓名:NOAM SHAZEER / 職業(yè):角色AI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
如今,隨著“Attention”論文即將迎來(lái)七周年,它已經(jīng)獲得了傳奇般的地位。這篇論文的作者們從一個(gè)蓬勃發(fā)展的人工智能技術(shù)——神經(jīng)網(wǎng)絡(luò)——出發(fā),將其提升到了一個(gè)新的高度:他們創(chuàng)造出了一個(gè)數(shù)字系統(tǒng),其強(qiáng)大到仿佛擁有外星智能。這種被稱為“變換器”(transformers)的架構(gòu),成為了所有令人驚嘆的AI產(chǎn)品背后的神秘力量,包括ChatGPT以及圖形生成器Dall-E和Midjourney等。
Shazeer開玩笑說(shuō),如果他早知道這篇論文會(huì)變得如此著名,他“可能會(huì)更加擔(dān)心作者名單的排序”。如今,所有八位作者都已經(jīng)成為了微型名人。Llion Jones(隨機(jī)排在第五位)說(shuō):“有人因?yàn)槲以?jīng)參與過(guò)一篇論文而向我索要自拍?!?/p>
姓名:LLION JONES/職業(yè):SAKANA AI的聯(lián)合創(chuàng)始人
“沒有變換器,我認(rèn)為我們今天不會(huì)在這里,”世界著名AI科學(xué)家Geoffrey Hinton說(shuō),盡管他并非論文的作者。他指的是我們所處的這個(gè)變革時(shí)代,OpenAI等公司正在構(gòu)建的系統(tǒng)在某些方面甚至超越了人類的產(chǎn)出。
這八位作者后來(lái)都離開了谷歌?,F(xiàn)在,他們和數(shù)百萬(wàn)人一樣,都在以某種方式使用他們2017年創(chuàng)造的技術(shù)。我采訪了這八位“變換器”作者,試圖拼湊出這一突破性成果的全貌——一群人類智慧的集合,創(chuàng)造出了一臺(tái)可能最終自我終結(jié)的機(jī)器。
變換器的故事始于名單上的第四個(gè)名字:Jakob Uszkoreit。他的父親Hans Uszkoreit是一位知名的計(jì)算語(yǔ)言學(xué)家。Hans在1960年代末因抗議蘇聯(lián)入侵捷克斯洛伐克而在東德被監(jiān)禁了15個(gè)月。出獄后,他逃到西德,并在柏林學(xué)習(xí)計(jì)算機(jī)和語(yǔ)言學(xué)。后來(lái)他來(lái)到美國(guó),在加利福尼亞州門洛帕克的SRI研究所工作,那時(shí)Jakob出生了。最終,他們一家回到了德國(guó),Jakob在那里上了大學(xué)。
姓名:JAKOB USZKOREIT / 職業(yè):INCEPTIVE的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
盡管他原本并未打算專注于語(yǔ)言,但在開始研究生學(xué)習(xí)時(shí),他在谷歌的山景城辦公室實(shí)習(xí),并加入了公司的翻譯團(tuán)隊(duì)。他放棄了博士計(jì)劃,2012年決定加入谷歌一個(gè)團(tuán)隊(duì),該團(tuán)隊(duì)致力于開發(fā)一個(gè)能夠在搜索頁(yè)面上直接回答用戶問題的系統(tǒng),而無(wú)需將用戶重定向到其他網(wǎng)站。當(dāng)時(shí),蘋果剛剛發(fā)布了Siri,一個(gè)承諾能在隨意對(duì)話中提供一次性答案的虛擬助手,谷歌高層認(rèn)為Siri可能會(huì)威脅到他們的搜索流量。他們開始更加關(guān)注Uszkoreit的新團(tuán)隊(duì)。
“這是一場(chǎng)虛假的恐慌,”Uszkoreit說(shuō)。Siri并沒有真正威脅到谷歌。但他歡迎有機(jī)會(huì)深入研究計(jì)算機(jī)與人類對(duì)話的系統(tǒng)。當(dāng)時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)——一度是學(xué)術(shù)界的邊緣領(lǐng)域——突然開始超越其他AI工程方法。這些網(wǎng)絡(luò)由多層構(gòu)成,信息在這些層中反復(fù)傳遞,以識(shí)別最佳響應(yīng)。
神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別等領(lǐng)域取得了巨大成功,AI復(fù)興運(yùn)動(dòng)突然興起。谷歌正在瘋狂地調(diào)整其勞動(dòng)力結(jié)構(gòu),以采用這些技術(shù)。公司希望建立能夠產(chǎn)生類似人類響應(yīng)的系統(tǒng)——比如在電子郵件中自動(dòng)完成句子,或創(chuàng)建相對(duì)簡(jiǎn)單的客戶服務(wù)聊天機(jī)器人。
然而,這個(gè)領(lǐng)域遇到了限制。循環(huán)神經(jīng)網(wǎng)絡(luò)難以處理較長(zhǎng)的文本塊。例如,理解句子“Joe is a baseball player, and after a good breakfast he went to the park and got two hits”中的“two hits”,語(yǔ)言模型需要記住關(guān)于棒球的信息。用人類的話說(shuō),它必須保持關(guān)注。
當(dāng)時(shí)的解決方案是一種名為“長(zhǎng)短期記憶”(LSTM)的技術(shù),它允許語(yǔ)言模型處理更大、更復(fù)雜的文本序列。但計(jì)算機(jī)仍然嚴(yán)格按順序處理這些序列——逐詞處理——并忽略了可能出現(xiàn)在文本后面的上下文線索。“我們正在應(yīng)用的方法基本上是權(quán)宜之計(jì),”Uszkoreit說(shuō)。“我們無(wú)法真正讓正確的東西按規(guī)模工作?!?/p>
大約在2014年,他開始構(gòu)思一種不同的方法,他稱之為自我關(guān)注。這種網(wǎng)絡(luò)可以通過(guò)引用文本的任何其他部分來(lái)翻譯一個(gè)詞。這些其他部分可以幫助澄清一個(gè)詞的意圖,并幫助系統(tǒng)產(chǎn)生一個(gè)好的翻譯?!八鼘?shí)際上考慮了一切,并為你提供了一種同時(shí)查看許多輸入的有效方式,然后以相當(dāng)選擇性的方式取出一些東西,”他說(shuō)。盡管AI科學(xué)家小心翼翼地不將神經(jīng)網(wǎng)絡(luò)的隱喻與生物大腦的實(shí)際工作方式混淆,但Uszkoreit似乎相信自我關(guān)注與人類處理語(yǔ)言的方式有些相似。
Uszkoreit認(rèn)為,自我關(guān)注模型可能比循環(huán)神經(jīng)網(wǎng)絡(luò)更快、更有效。它處理信息的方式也非常適合支持機(jī)器學(xué)習(xí)熱潮的大規(guī)模生產(chǎn)的并行處理芯片。它不是采用線性方法(按順序查看每個(gè)詞),而是采用更并行的方法(同時(shí)查看多個(gè)詞)。如果做得正確,Uszkoreit懷疑,你可以專門使用自我關(guān)注來(lái)獲得更好的結(jié)果。
并不是每個(gè)人都認(rèn)為這個(gè)想法會(huì)改變世界,包括Uszkoreit的父親,他在兒子為公司工作期間獲得了兩項(xiàng)谷歌教職研究獎(jiǎng)?!叭藗儗?duì)此表示懷疑,因?yàn)樗鼟仐壛怂鞋F(xiàn)有的神經(jīng)架構(gòu),”Jakob Uszkoreit說(shuō)。告別循環(huán)神經(jīng)網(wǎng)絡(luò)?這是異端!“我和爸爸在餐桌上的對(duì)話中,我們并不完全一致?!?/p>
Uszkoreit說(shuō)服了一些同事對(duì)自我關(guān)注進(jìn)行實(shí)驗(yàn)。他們的工作顯示出前景,并在2016年發(fā)表了一篇關(guān)于它的論文。Uszkoreit希望將他們的研究推向更遠(yuǎn)——團(tuán)隊(duì)的實(shí)驗(yàn)只使用了文本的微小部分——但他的合作者都沒有興趣。相反,他們像賭徒一樣,帶著適度的勝利離開了賭場(chǎng),將他們所學(xué)到的教訓(xùn)應(yīng)用于谷歌的各個(gè)不同領(lǐng)域,包括搜索和最終的廣告。在許多方面,這是一個(gè)驚人的成功,但Uszkoreit不想就此止步。
Uszkoreit認(rèn)為自我關(guān)注可以承擔(dān)更大的任務(wù)。他會(huì)向任何愿意傾聽的人,甚至一些不愿意的人,闡述他的愿景,并在谷歌校園北緣的查爾斯頓路1945號(hào)大樓中,用白板勾勒出他的愿景。
2016年的一天,Uszkoreit正在谷歌咖啡廳與一位名叫Illia Polosukhin的科學(xué)家共進(jìn)午餐。出生于烏克蘭的Polosukhin在谷歌工作了將近三年。他被分配到回答搜索領(lǐng)域直接提出的問題的團(tuán)隊(duì)。情況并不十分順利?!耙贕oogle.com上回答某些東西,你需要一些非常便宜且高性能的東西,”Polosukhin說(shuō)?!耙?yàn)槟阒挥泻撩爰?jí)的時(shí)間來(lái)響應(yīng)?!碑?dāng)Polosukhin表達(dá)了他的抱怨時(shí),Uszkoreit毫不猶豫地提出了一個(gè)解決方案?!八ㄗh,為什么不使用自我關(guān)注?”Polosukhin說(shuō)。
姓名:ILLIA POLOSUKHIN/職業(yè):NEAR的聯(lián)合創(chuàng)始人
Polosukhin有時(shí)與同事Ashish Vaswani合作。Vaswani出生在印度,在中東長(zhǎng)大,他去了南加州大學(xué)獲得了機(jī)器翻譯精英團(tuán)隊(duì)的博士學(xué)位。之后,他搬到山景城加入了谷歌——特別是一個(gè)名為谷歌大腦(Google Brain)的新組織。他將大腦描述為“一個(gè)激進(jìn)的團(tuán)隊(duì)”,相信“神經(jīng)網(wǎng)絡(luò)將推進(jìn)人類理解”。但他仍在尋找一個(gè)大項(xiàng)目來(lái)工作。他的團(tuán)隊(duì)在1945號(hào)大樓旁邊,即1965號(hào)大樓工作,他聽說(shuō)了自我關(guān)注的想法。那會(huì)是項(xiàng)目嗎?他同意著手進(jìn)行。
這三位研究人員共同起草了一份名為“變換器:迭代自我關(guān)注和處理各種任務(wù)”的設(shè)計(jì)文件。他們從“第一天”起就選擇了“變換器”這個(gè)名字,Uszkoreit說(shuō)。這個(gè)想法是,這種機(jī)制將轉(zhuǎn)換它所接收的信息,使系統(tǒng)能夠提取盡可能多的理解——或者至少給人這種印象。此外,Uszkoreit對(duì)童年時(shí)期與孩之寶動(dòng)作人物玩具一起玩耍有著美好的回憶?!拔倚r(shí)候有兩個(gè)小變形金剛玩具,”他說(shuō)。文件以一張卡通形象的六個(gè)變形金剛在山區(qū)地形中,相互發(fā)射激光的圖片結(jié)束。
姓名:ASHISH VASWANI/職業(yè):ESENTIAL AI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
論文開頭的句子也有些自大:“我們很棒。”
2017年初,Polosukhin離開谷歌創(chuàng)辦了自己的公司。到那時(shí),新的合作者加入了進(jìn)來(lái)。一位名叫Niki Parmar的印度工程師曾在印度為一家美國(guó)軟件公司工作,后來(lái)搬到美國(guó)。她在2015年從南加州大學(xué)獲得了碩士學(xué)位,并被所有大型科技公司招募。她選擇了谷歌。當(dāng)她開始工作時(shí),她加入了Uszkoreit并致力于改進(jìn)谷歌搜索的模型變體。
另一位新成員是Llion Jones。他在威爾士出生和長(zhǎng)大,他喜歡計(jì)算機(jī)“因?yàn)樗徽!薄T诓骱泊髮W(xué),他上了一門AI課程,并對(duì)作為歷史遺跡介紹的神經(jīng)網(wǎng)絡(luò)產(chǎn)生了好奇心。他在2009年7月獲得了碩士學(xué)位,由于在經(jīng)濟(jì)衰退期間找不到工作,他靠救濟(jì)金生活了幾個(gè)月。他在一家當(dāng)?shù)毓菊业搅斯ぷ?,然后作為“絕望之舉”申請(qǐng)了谷歌。他得到了這份工作,并最終進(jìn)入了谷歌研究部門,他的經(jīng)理是Polosukhin。
有一天,Jones從名叫Mat Kelcey的同事那里聽說(shuō)了自我關(guān)注的概念,并后來(lái)加入了變換器團(tuán)隊(duì)。(后來(lái),Jones遇到了Kelcey,并向他簡(jiǎn)要介紹了變換器項(xiàng)目。Kelcey并不買賬?!拔腋嬖V他,‘我不確定那會(huì)有效,’這基本上是我一生中最大的錯(cuò)誤預(yù)測(cè),”Kelcey現(xiàn)在說(shuō)。)
姓名:NIKI PARMAR / 職業(yè):ESSENTIAL AI的聯(lián)合創(chuàng)始人
變換器的工作吸引了其他也在試圖改進(jìn)大型語(yǔ)言模型的谷歌大腦研究人員。這第三波包括出生于波蘭的理論計(jì)算機(jī)科學(xué)家?ukasz Kaiser和他的實(shí)習(xí)生Aidan Gomez。Gomez在加拿大安大略省的一個(gè)小農(nóng)場(chǎng)村莊長(zhǎng)大,他的家人每年春天都會(huì)為楓糖漿敲擊楓樹。
作為多倫多大學(xué)的大三學(xué)生,他對(duì)AI“一見鐘情”,加入了機(jī)器學(xué)習(xí)小組——Geoffrey Hinton的實(shí)驗(yàn)室。他開始聯(lián)系在谷歌寫過(guò)有趣論文的人,提出擴(kuò)展他們工作的想法。Kaiser上鉤了,并邀請(qǐng)他實(shí)習(xí)。直到幾個(gè)月后,Gomez才知道這些實(shí)習(xí)是為博士生準(zhǔn)備的,而不是像他這樣的本科生。
Kaiser和Gomez很快意識(shí)到,自我關(guān)注看起來(lái)是解決他們正在解決的問題的一個(gè)有前途的、更激進(jìn)的方案?!拔覀冇幸庾R(shí)地討論了是否想要合并這兩個(gè)項(xiàng)目,”Gomez說(shuō)。答案是是的。
變換器團(tuán)隊(duì)開始構(gòu)建一個(gè)自我關(guān)注模型,將文本從一種語(yǔ)言翻譯成另一種語(yǔ)言。他們使用一個(gè)稱為BLEU的基準(zhǔn)來(lái)衡量其性能,該基準(zhǔn)將機(jī)器的輸出與人類翻譯者的工作進(jìn)行比較。從一開始,他們的新模型就做得很好。“我們從沒有概念證明到擁有至少與當(dāng)時(shí)LSTM的最佳替代方法相媲美的東西,”Uszkoreit說(shuō)。但與長(zhǎng)短期記憶相比,“它并不更好?!?/p>
他們達(dá)到了一個(gè)平臺(tái)——直到2017年的一天,Noam Shazeer偶然聽說(shuō)了他們的項(xiàng)目。Shazeer是一位資深谷歌員工——他于2000年加入公司——并是一個(gè)內(nèi)部傳奇,從他在公司早期廣告系統(tǒng)的工作開始。Shazeer已經(jīng)從事深度學(xué)習(xí)工作五年,最近對(duì)大型語(yǔ)言模型產(chǎn)生了興趣。但這些模型遠(yuǎn)遠(yuǎn)沒有產(chǎn)生他認(rèn)為可能的流暢對(duì)話。
據(jù)Shazeer回憶,他正在1965號(hào)樓的走廊里走過(guò)Kaiser的工作區(qū)。他發(fā)現(xiàn)自己在聽一場(chǎng)熱烈的討論?!拔矣浀肁shish正在談?wù)撌褂米晕谊P(guān)注的想法,Niki對(duì)此非常興奮。我想,哇,那聽起來(lái)是個(gè)好主意。這看起來(lái)是一個(gè)有趣、聰明的團(tuán)隊(duì),正在做一些有前途的事情。”Shazeer發(fā)現(xiàn)現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)“令人惱火”,并想:“讓我們?nèi)ヌ鎿Q它們!”
Shazeer加入團(tuán)隊(duì)是關(guān)鍵?!斑@些理論或直覺機(jī)制,如自我關(guān)注,總是需要非常謹(jǐn)慎的實(shí)施,通常由少數(shù)經(jīng)驗(yàn)豐富的‘魔術(shù)師’來(lái)展示任何生命跡象,”Uszkoreit說(shuō)。Shazeer立即開始施展他的魔法。他決定自己編寫變換器團(tuán)隊(duì)代碼的版本?!拔夷昧嘶鞠敕?,自己把它做出來(lái)了,”他說(shuō)。
偶爾他會(huì)向Kaiser提問,但大多數(shù)時(shí)候,他說(shuō),他“只是做了一段時(shí)間,然后回來(lái)說(shuō),‘看,它工作了?!笔褂脠F(tuán)隊(duì)成員后來(lái)用“魔法”、“煉金術(shù)”和“鈴鐺和哨子”等詞語(yǔ)描述的東西,他將系統(tǒng)提升到了一個(gè)新的水平。
“那引發(fā)了一場(chǎng)沖刺,”Gomez說(shuō)。他們有動(dòng)力,他們也想要趕上即將到來(lái)的截止日期——5月19日,這是在12月舉行的年度最大AI活動(dòng),神經(jīng)信息處理系統(tǒng)會(huì)議(Neural Information Processing Systems conference)上發(fā)表論文的提交日期。隨著硅谷的冬天轉(zhuǎn)變成春天,實(shí)驗(yàn)的步伐加快了。他們測(cè)試了兩種變換器模型:一種是用12小時(shí)訓(xùn)練生產(chǎn)的,另一種是更強(qiáng)大、被稱為Big的版本,經(jīng)過(guò)三天半的訓(xùn)練。他們讓它們開始進(jìn)行英語(yǔ)到德語(yǔ)的翻譯。
基本模型超越了所有競(jìng)爭(zhēng)對(duì)手——而Big獲得了一個(gè)BLEU分?jǐn)?shù),決定性地打破了以前的記錄,同時(shí)在計(jì)算上也更有效率?!拔覀冏龅搅?,比任何人都快,”Parmar說(shuō)?!岸夷侵皇情_始,因?yàn)閿?shù)字不斷在提高?!碑?dāng)Uszkoreit聽到這個(gè)消息時(shí),他拿出了他在山地探險(xiǎn)卡車?yán)镆恢狈胖囊黄坷舷銠墤c祝。
在截止日期前的最后兩周,團(tuán)隊(duì)的工作節(jié)奏變得瘋狂。盡管官方上一些團(tuán)隊(duì)成員仍然在1945號(hào)樓有辦公桌,但他們大多在1965號(hào)樓工作,因?yàn)槟抢锏奈⑿蛷N房里有一臺(tái)更好的濃縮咖啡機(jī)?!叭藗儙缀醪凰X,”Gomez回憶道,作為實(shí)習(xí)生,他忙于調(diào)試,同時(shí)還負(fù)責(zé)制作論文的可視化和圖表。在這類項(xiàng)目中,通常會(huì)進(jìn)行消融實(shí)驗(yàn)——移除某些部分以驗(yàn)證剩余部分是否足以完成任務(wù)。
“我們嘗試了所有可能的技巧和模塊組合——哪些有用,哪些無(wú)用。我們不斷地嘗試和替換,”Gomez說(shuō)。“為什么模型會(huì)以這種違反直覺的方式運(yùn)作?哦,因?yàn)槲覀兺浾_地進(jìn)行遮蔽?,F(xiàn)在它工作了嗎?好的,接下來(lái)繼續(xù)下一個(gè)。我們現(xiàn)在稱之為變換器的所有這些組成部分都是這種高速、迭代試錯(cuò)過(guò)程的產(chǎn)物?!痹赟hazeer的代碼實(shí)現(xiàn)的幫助下,消融實(shí)驗(yàn)產(chǎn)生了“某種簡(jiǎn)約的成果”,Jones評(píng)價(jià)道?!癗oam是個(gè)巫師?!?/p>
Vaswani記得有一次在辦公室沙發(fā)上過(guò)夜,當(dāng)時(shí)團(tuán)隊(duì)正在撰寫論文。他盯著分隔沙發(fā)和房間其余部分的窗簾,被上面的圖案吸引,那看起來(lái)像是突觸和神經(jīng)元。Gomez當(dāng)時(shí)也在場(chǎng),Vaswani告訴他,他們正在做的工作將超越機(jī)器翻譯?!白罱K,就像人腦一樣,你需要將所有這些模態(tài)——語(yǔ)音、音頻、視覺——統(tǒng)一在一個(gè)單一的架構(gòu)下,”他說(shuō)?!拔矣幸粋€(gè)強(qiáng)烈的預(yù)感,我們正在發(fā)現(xiàn)一些更普遍的東西。”
然而,在谷歌的高層,這項(xiàng)工作被視為只是另一個(gè)有趣的AI項(xiàng)目。作者們被問及他們的上司是否經(jīng)常召集他們更新項(xiàng)目進(jìn)展,答案并不多。但“我們知道這可能是相當(dāng)大的一件事,”Uszkoreit說(shuō)。“這導(dǎo)致我們實(shí)際上對(duì)論文末尾的一句話著迷了?!?/p>
那句話預(yù)示了接下來(lái)可能發(fā)生的事情——變換器模型應(yīng)用于基本上所有形式的人類表達(dá)?!拔覀儗?duì)基于注意力的模型的未來(lái)感到興奮,”他們寫道?!拔覀冇?jì)劃將變換器擴(kuò)展到涉及除文本以外的輸入和輸出模態(tài)的問題”,并研究“圖像、音頻和視頻。”
在截止日期前幾天的一個(gè)晚上,Uszkoreit意識(shí)到他們需要一個(gè)標(biāo)題。Jones指出,團(tuán)隊(duì)已經(jīng)對(duì)一種技術(shù)進(jìn)行了根本性的拒絕:注意力。披頭士樂隊(duì)曾經(jīng)給一首歌命名為“你需要的只是愛”。為什么不把論文命名為“Attention Is All You Need”呢?
“我是英國(guó)人,”Jones說(shuō)。“這真的只花了五秒鐘的思考。我沒想到他們會(huì)用它?!?/p>
他們繼續(xù)收集實(shí)驗(yàn)結(jié)果,直到截止日期。Parmar說(shuō):“我們提交論文前五分鐘,英法數(shù)字結(jié)果出來(lái)了?!薄拔耶?dāng)時(shí)坐在1965號(hào)樓的微型廚房里,拿到了最后一個(gè)數(shù)字。”他們只剩下兩分鐘的時(shí)間,匆忙地發(fā)送了論文。
谷歌和其他幾乎所有科技公司一樣,迅速對(duì)這項(xiàng)工作申請(qǐng)了臨時(shí)專利。原因不是為了阻止他人使用這些想法,而是為了建立其專利組合以用于防御目的。(公司的理念是“如果技術(shù)進(jìn)步,谷歌將收獲好處。”)
當(dāng)變換器團(tuán)隊(duì)聽到會(huì)議同行評(píng)審者的反饋時(shí),反應(yīng)是混合的?!耙粋€(gè)是積極的,一個(gè)是極其積極的,一個(gè)是,‘這還可以,’”Parmar說(shuō)。論文被接受在晚上的海報(bào)環(huán)節(jié)中展示。
到了12月,論文開始引起轟動(dòng)。他們12月6日的四小時(shí)會(huì)議擠滿了想要了解更多的科學(xué)家。作者們談到嗓子都啞了。到了晚上10點(diǎn)半,會(huì)議結(jié)束時(shí),還有一群人?!氨0膊坏貌桓嬖V我們離開,”Uszkoreit說(shuō)。對(duì)他來(lái)說(shuō),最滿意的時(shí)刻可能是計(jì)算機(jī)科學(xué)家Sepp Hochreiter走上前來(lái)贊揚(yáng)這項(xiàng)工作——考慮到Hochreiter是長(zhǎng)短期記憶的共同發(fā)明者,這是相當(dāng)大的贊美,而變換器剛剛將其作為AI工具箱中的首選工具所取代。
變換器并沒有立即接管世界,甚至沒有接管谷歌。Kaiser回憶說(shuō),在論文發(fā)表前后,Shazeer向谷歌高管提議,公司應(yīng)該放棄整個(gè)搜索索引,用變換器訓(xùn)練一個(gè)巨大的網(wǎng)絡(luò)——基本上是用變換器改變谷歌組織信息的方式。在那個(gè)時(shí)候,即使是Kaiser也認(rèn)為這個(gè)想法是荒謬的。現(xiàn)在,傳統(tǒng)智慧認(rèn)為這只是時(shí)間問題。
一個(gè)名為OpenAI的初創(chuàng)公司更快地抓住了機(jī)會(huì)。論文發(fā)表后不久,OpenAI的首席研究員Ilya Sutskever——在谷歌時(shí)期就認(rèn)識(shí)變換器團(tuán)隊(duì)——建議其科學(xué)家Alex Radford研究這個(gè)想法。結(jié)果就是第一批GPT產(chǎn)品。正如OpenAI首席執(zhí)行官Sam Altman去年告訴我的,“當(dāng)變換器論文出來(lái)時(shí),我認(rèn)為谷歌沒有人意識(shí)到它的意義。”
內(nèi)部情況更為復(fù)雜。“我們很清楚變換器可以做到真正神奇的事情,”Uszkoreit說(shuō)?!艾F(xiàn)在,你可能會(huì)問,為什么2018年谷歌沒有推出ChatGPT?實(shí)際上,我們本可以在2019年,也許2020年就有GPT-3甚至3.5。真正的問題不是,他們看到了嗎?問題是,為什么我們沒有利用我們已經(jīng)看到的事實(shí)做任何事情?答案是復(fù)雜的。”
許多科技評(píng)論家指出,谷歌從以創(chuàng)新為中心的游樂場(chǎng)轉(zhuǎn)變?yōu)橐缘拙€為中心的官僚機(jī)構(gòu)。正如Gomez告訴《金融時(shí)報(bào)》的那樣,“他們沒有現(xiàn)代化。他們沒有采用這項(xiàng)技術(shù)?!钡珜?duì)于一個(gè)技術(shù)領(lǐng)先行業(yè)數(shù)十年并獲得巨大利潤(rùn)的巨頭公司來(lái)說(shuō),這需要很大的膽量。谷歌確實(shí)開始在2018年將變換器集成到產(chǎn)品中,首先是其翻譯工具。同年,它引入了一個(gè)新的基于變換器的語(yǔ)言模型BERT,第二年開始應(yīng)用于搜索。
姓名:AIDAN GOMEZ/職業(yè):COHERE的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
但與OpenAI的飛躍和微軟大膽將基于變換器的系統(tǒng)整合到其產(chǎn)品線相比,這些幕后的變化似乎膽小。當(dāng)我問首席執(zhí)行官Sundar Pichai去年為什么他的公司沒有像ChatGPT那樣首先推出大型語(yǔ)言模型時(shí),他認(rèn)為在這種情況下,谷歌發(fā)現(xiàn)讓其他人領(lǐng)先是有利的。“我還不太確定它是否會(huì)像現(xiàn)在這樣成功。事實(shí)是,人們看到它是如何工作的之后,我們能做得更多,”他說(shuō)。
不可否認(rèn)的是,論文的八位作者都離開了谷歌。Polosukhin的公司Near建立了一個(gè)區(qū)塊鏈,其代幣市值約為40億美元。Parmar和Vaswani在2021年成為商業(yè)伙伴,共同創(chuàng)立了Adept(估值10億美元),現(xiàn)在正在運(yùn)營(yíng)他們的第二家公司,名為Essential AI(獲得800萬(wàn)美元投資)。
位于東京的Llion Jones的Sakana AI估值為2億美元。Shazeer于2021年10月離開后,共同創(chuàng)立了Character AI(估值50億美元)。實(shí)習(xí)生Aidan Gomez在2019年共同創(chuàng)立了位于多倫多的Cohere(估值22億美元)。Jakob Uszkoreit的生物技術(shù)公司Inceptive估值為3億美元。所有這些公司(除Near外)都基于變換器技術(shù)。
姓名:LUKASZ KAISER / 職業(yè):OPENAI的研究員
Kaiser是唯一一個(gè)沒有創(chuàng)立公司的人。他加入了OpenAI,并成為一項(xiàng)名為Q*的新技術(shù)的發(fā)明者,Altman去年說(shuō)這項(xiàng)技術(shù)將“推動(dòng)無(wú)知的面紗,并將發(fā)現(xiàn)的前沿推向前進(jìn)?!保ó?dāng)我試圖在我們的采訪中詢問Kaiser關(guān)于這個(gè)問題時(shí),OpenAI的公關(guān)人員幾乎跳過(guò)桌子來(lái)阻止他。)
谷歌是否想念這些逃兵?當(dāng)然,除了其他人從公司轉(zhuǎn)移到新的AI初創(chuàng)公司。(Pichai提醒我,當(dāng)我問他關(guān)于變換器離職的問題時(shí),行業(yè)寵兒OpenAI也看到了叛逃:“AI領(lǐng)域非常、非常動(dòng)態(tài),”他說(shuō)。)但谷歌可以夸耀的是,它創(chuàng)造了一個(gè)支持追求非傳統(tǒng)想法的環(huán)境。“在很多方面,谷歌一直領(lǐng)先——他們投資于正確的頭腦,并創(chuàng)造了一個(gè)我們可以探索和推動(dòng)極限的環(huán)境,”Parmar說(shuō)?!八藭r(shí)間才被采納并不奇怪。谷歌有更多的利害關(guān)系。”
如果沒有那個(gè)環(huán)境:就沒有變換器。不僅作者們都是谷歌員工,他們也在同一辦公室工作。走廊上的偶遇和午餐時(shí)的閑聊導(dǎo)致了重大時(shí)刻。該團(tuán)隊(duì)在文化上也是多元化的。八位作者中有六位出生在美國(guó)以外;另外兩位是兩位持有綠卡的德國(guó)人的孩子,他們暫時(shí)在加利福尼亞,以及一位家庭逃離迫害的一代美國(guó)人。
Uszkoreit從他在柏林的辦公室說(shuō),創(chuàng)新都是關(guān)于正確的條件。“這是讓那些對(duì)某事非常興奮的人在他們生活的合適時(shí)機(jī)聚集在一起,”他說(shuō)?!叭绻阌羞@個(gè),并且你在做事時(shí)有樂趣,你正在處理正確的問題——而且你很幸運(yùn)——魔法就會(huì)發(fā)生?!?/p>
Uszkoreit和他著名的父親之間也發(fā)生了一些神奇的事情。在所有那些餐桌辯論之后,Hans Uszkoreit,他的兒子報(bào)告說(shuō),現(xiàn)在共同創(chuàng)立了一家公司,正在構(gòu)建大型語(yǔ)言模型。當(dāng)然,使用的是變換器。