來源:AI范兒
8位谷歌員工偶然相遇,共同撰寫了開創(chuàng)性的“變換器”論文,這一技術(shù)突破徹底改變了人工智能領(lǐng)域,尤其在理解和生成類似人類的文本方面。
2017年春,一篇名為《Attention Is All You Need》的科學(xué)論文誕生,其上署名的八位作者均來自谷歌,盡管當(dāng)時已有一名成員離職。資深作者Noam Shazeer在看到初稿時,意外地發(fā)現(xiàn)自己的名字排在首位,這似乎意味著他的貢獻(xiàn)最為重要。對此,他表示:“我并沒有刻意考慮過這個問題。”
在學(xué)術(shù)界,如何排列作者名字一直是個微妙的平衡問題——誰的名字放在最前面,誰的又放在最后。尤其是在這種每個人都在一個真正的團(tuán)隊合作中留下了獨特印記的情況下。在匆忙完成論文的過程中,研究團(tuán)隊最終決定打破常規(guī),不再對貢獻(xiàn)者進(jìn)行排名。他們在每個名字旁加上了星號和腳注:“平等貢獻(xiàn)者”,并注明“排名順序是隨機(jī)的”。這篇論文隨后被提交到了一個享有盛譽(yù)的人工智能會議,并在那里引發(fā)了一場革命。
姓名:NOAM SHAZEER / 職業(yè):角色AI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
如今,隨著“Attention”論文即將迎來七周年,它已經(jīng)獲得了傳奇般的地位。這篇論文的作者們從一個蓬勃發(fā)展的人工智能技術(shù)——神經(jīng)網(wǎng)絡(luò)——出發(fā),將其提升到了一個新的高度:他們創(chuàng)造出了一個數(shù)字系統(tǒng),其強(qiáng)大到仿佛擁有外星智能。這種被稱為“變換器”(transformers)的架構(gòu),成為了所有令人驚嘆的AI產(chǎn)品背后的神秘力量,包括ChatGPT以及圖形生成器Dall-E和Midjourney等。
Shazeer開玩笑說,如果他早知道這篇論文會變得如此著名,他“可能會更加擔(dān)心作者名單的排序”。如今,所有八位作者都已經(jīng)成為了微型名人。Llion Jones(隨機(jī)排在第五位)說:“有人因為我曾經(jīng)參與過一篇論文而向我索要自拍。”
姓名:LLION JONES/職業(yè):SAKANA AI的聯(lián)合創(chuàng)始人
“沒有變換器,我認(rèn)為我們今天不會在這里,”世界著名AI科學(xué)家Geoffrey Hinton說,盡管他并非論文的作者。他指的是我們所處的這個變革時代,OpenAI等公司正在構(gòu)建的系統(tǒng)在某些方面甚至超越了人類的產(chǎn)出。
這八位作者后來都離開了谷歌。現(xiàn)在,他們和數(shù)百萬人一樣,都在以某種方式使用他們2017年創(chuàng)造的技術(shù)。我采訪了這八位“變換器”作者,試圖拼湊出這一突破性成果的全貌——一群人類智慧的集合,創(chuàng)造出了一臺可能最終自我終結(jié)的機(jī)器。
變換器的故事始于名單上的第四個名字:Jakob Uszkoreit。他的父親Hans Uszkoreit是一位知名的計算語言學(xué)家。Hans在1960年代末因抗議蘇聯(lián)入侵捷克斯洛伐克而在東德被監(jiān)禁了15個月。出獄后,他逃到西德,并在柏林學(xué)習(xí)計算機(jī)和語言學(xué)。后來他來到美國,在加利福尼亞州門洛帕克的SRI研究所工作,那時Jakob出生了。最終,他們一家回到了德國,Jakob在那里上了大學(xué)。
姓名:JAKOB USZKOREIT / 職業(yè):INCEPTIVE的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
盡管他原本并未打算專注于語言,但在開始研究生學(xué)習(xí)時,他在谷歌的山景城辦公室實習(xí),并加入了公司的翻譯團(tuán)隊。他放棄了博士計劃,2012年決定加入谷歌一個團(tuán)隊,該團(tuán)隊致力于開發(fā)一個能夠在搜索頁面上直接回答用戶問題的系統(tǒng),而無需將用戶重定向到其他網(wǎng)站。當(dāng)時,蘋果剛剛發(fā)布了Siri,一個承諾能在隨意對話中提供一次性答案的虛擬助手,谷歌高層認(rèn)為Siri可能會威脅到他們的搜索流量。他們開始更加關(guān)注Uszkoreit的新團(tuán)隊。
“這是一場虛假的恐慌,”Uszkoreit說。Siri并沒有真正威脅到谷歌。但他歡迎有機(jī)會深入研究計算機(jī)與人類對話的系統(tǒng)。當(dāng)時,循環(huán)神經(jīng)網(wǎng)絡(luò)——一度是學(xué)術(shù)界的邊緣領(lǐng)域——突然開始超越其他AI工程方法。這些網(wǎng)絡(luò)由多層構(gòu)成,信息在這些層中反復(fù)傳遞,以識別最佳響應(yīng)。
神經(jīng)網(wǎng)絡(luò)在圖像識別等領(lǐng)域取得了巨大成功,AI復(fù)興運動突然興起。谷歌正在瘋狂地調(diào)整其勞動力結(jié)構(gòu),以采用這些技術(shù)。公司希望建立能夠產(chǎn)生類似人類響應(yīng)的系統(tǒng)——比如在電子郵件中自動完成句子,或創(chuàng)建相對簡單的客戶服務(wù)聊天機(jī)器人。
然而,這個領(lǐng)域遇到了限制。循環(huán)神經(jīng)網(wǎng)絡(luò)難以處理較長的文本塊。例如,理解句子“Joe is a baseball player, and after a good breakfast he went to the park and got two hits”中的“two hits”,語言模型需要記住關(guān)于棒球的信息。用人類的話說,它必須保持關(guān)注。
當(dāng)時的解決方案是一種名為“長短期記憶”(LSTM)的技術(shù),它允許語言模型處理更大、更復(fù)雜的文本序列。但計算機(jī)仍然嚴(yán)格按順序處理這些序列——逐詞處理——并忽略了可能出現(xiàn)在文本后面的上下文線索。“我們正在應(yīng)用的方法基本上是權(quán)宜之計,”Uszkoreit說。“我們無法真正讓正確的東西按規(guī)模工作。”
大約在2014年,他開始構(gòu)思一種不同的方法,他稱之為自我關(guān)注。這種網(wǎng)絡(luò)可以通過引用文本的任何其他部分來翻譯一個詞。這些其他部分可以幫助澄清一個詞的意圖,并幫助系統(tǒng)產(chǎn)生一個好的翻譯。“它實際上考慮了一切,并為你提供了一種同時查看許多輸入的有效方式,然后以相當(dāng)選擇性的方式取出一些東西,”他說。盡管AI科學(xué)家小心翼翼地不將神經(jīng)網(wǎng)絡(luò)的隱喻與生物大腦的實際工作方式混淆,但Uszkoreit似乎相信自我關(guān)注與人類處理語言的方式有些相似。
Uszkoreit認(rèn)為,自我關(guān)注模型可能比循環(huán)神經(jīng)網(wǎng)絡(luò)更快、更有效。它處理信息的方式也非常適合支持機(jī)器學(xué)習(xí)熱潮的大規(guī)模生產(chǎn)的并行處理芯片。它不是采用線性方法(按順序查看每個詞),而是采用更并行的方法(同時查看多個詞)。如果做得正確,Uszkoreit懷疑,你可以專門使用自我關(guān)注來獲得更好的結(jié)果。
并不是每個人都認(rèn)為這個想法會改變世界,包括Uszkoreit的父親,他在兒子為公司工作期間獲得了兩項谷歌教職研究獎。“人們對此表示懷疑,因為它拋棄了所有現(xiàn)有的神經(jīng)架構(gòu),”Jakob Uszkoreit說。告別循環(huán)神經(jīng)網(wǎng)絡(luò)?這是異端!“我和爸爸在餐桌上的對話中,我們并不完全一致。”
Uszkoreit說服了一些同事對自我關(guān)注進(jìn)行實驗。他們的工作顯示出前景,并在2016年發(fā)表了一篇關(guān)于它的論文。Uszkoreit希望將他們的研究推向更遠(yuǎn)——團(tuán)隊的實驗只使用了文本的微小部分——但他的合作者都沒有興趣。相反,他們像賭徒一樣,帶著適度的勝利離開了賭場,將他們所學(xué)到的教訓(xùn)應(yīng)用于谷歌的各個不同領(lǐng)域,包括搜索和最終的廣告。在許多方面,這是一個驚人的成功,但Uszkoreit不想就此止步。
Uszkoreit認(rèn)為自我關(guān)注可以承擔(dān)更大的任務(wù)。他會向任何愿意傾聽的人,甚至一些不愿意的人,闡述他的愿景,并在谷歌校園北緣的查爾斯頓路1945號大樓中,用白板勾勒出他的愿景。
2016年的一天,Uszkoreit正在谷歌咖啡廳與一位名叫Illia Polosukhin的科學(xué)家共進(jìn)午餐。出生于烏克蘭的Polosukhin在谷歌工作了將近三年。他被分配到回答搜索領(lǐng)域直接提出的問題的團(tuán)隊。情況并不十分順利。“要在Google.com上回答某些東西,你需要一些非常便宜且高性能的東西,”Polosukhin說。“因為你只有毫秒級的時間來響應(yīng)。”當(dāng)Polosukhin表達(dá)了他的抱怨時,Uszkoreit毫不猶豫地提出了一個解決方案。“他建議,為什么不使用自我關(guān)注?”Polosukhin說。
姓名:ILLIA POLOSUKHIN/職業(yè):NEAR的聯(lián)合創(chuàng)始人
Polosukhin有時與同事Ashish Vaswani合作。Vaswani出生在印度,在中東長大,他去了南加州大學(xué)獲得了機(jī)器翻譯精英團(tuán)隊的博士學(xué)位。之后,他搬到山景城加入了谷歌——特別是一個名為谷歌大腦(Google Brain)的新組織。他將大腦描述為“一個激進(jìn)的團(tuán)隊”,相信“神經(jīng)網(wǎng)絡(luò)將推進(jìn)人類理解”。但他仍在尋找一個大項目來工作。他的團(tuán)隊在1945號大樓旁邊,即1965號大樓工作,他聽說了自我關(guān)注的想法。那會是項目嗎?他同意著手進(jìn)行。
這三位研究人員共同起草了一份名為“變換器:迭代自我關(guān)注和處理各種任務(wù)”的設(shè)計文件。他們從“第一天”起就選擇了“變換器”這個名字,Uszkoreit說。這個想法是,這種機(jī)制將轉(zhuǎn)換它所接收的信息,使系統(tǒng)能夠提取盡可能多的理解——或者至少給人這種印象。此外,Uszkoreit對童年時期與孩之寶動作人物玩具一起玩耍有著美好的回憶。“我小時候有兩個小變形金剛玩具,”他說。文件以一張卡通形象的六個變形金剛在山區(qū)地形中,相互發(fā)射激光的圖片結(jié)束。
姓名:ASHISH VASWANI/職業(yè):ESENTIAL AI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
論文開頭的句子也有些自大:“我們很棒。”
2017年初,Polosukhin離開谷歌創(chuàng)辦了自己的公司。到那時,新的合作者加入了進(jìn)來。一位名叫Niki Parmar的印度工程師曾在印度為一家美國軟件公司工作,后來搬到美國。她在2015年從南加州大學(xué)獲得了碩士學(xué)位,并被所有大型科技公司招募。她選擇了谷歌。當(dāng)她開始工作時,她加入了Uszkoreit并致力于改進(jìn)谷歌搜索的模型變體。
另一位新成員是Llion Jones。他在威爾士出生和長大,他喜歡計算機(jī)“因為它不正常”。在伯明翰大學(xué),他上了一門AI課程,并對作為歷史遺跡介紹的神經(jīng)網(wǎng)絡(luò)產(chǎn)生了好奇心。他在2009年7月獲得了碩士學(xué)位,由于在經(jīng)濟(jì)衰退期間找不到工作,他靠救濟(jì)金生活了幾個月。他在一家當(dāng)?shù)毓菊业搅斯ぷ鳎缓笞鳛椤敖^望之舉”申請了谷歌。他得到了這份工作,并最終進(jìn)入了谷歌研究部門,他的經(jīng)理是Polosukhin。
有一天,Jones從名叫Mat Kelcey的同事那里聽說了自我關(guān)注的概念,并后來加入了變換器團(tuán)隊。(后來,Jones遇到了Kelcey,并向他簡要介紹了變換器項目。Kelcey并不買賬。“我告訴他,‘我不確定那會有效,’這基本上是我一生中最大的錯誤預(yù)測,”Kelcey現(xiàn)在說。)
姓名:NIKI PARMAR / 職業(yè):ESSENTIAL AI的聯(lián)合創(chuàng)始人
變換器的工作吸引了其他也在試圖改進(jìn)大型語言模型的谷歌大腦研究人員。這第三波包括出生于波蘭的理論計算機(jī)科學(xué)家?ukasz Kaiser和他的實習(xí)生Aidan Gomez。Gomez在加拿大安大略省的一個小農(nóng)場村莊長大,他的家人每年春天都會為楓糖漿敲擊楓樹。
作為多倫多大學(xué)的大三學(xué)生,他對AI“一見鐘情”,加入了機(jī)器學(xué)習(xí)小組——Geoffrey Hinton的實驗室。他開始聯(lián)系在谷歌寫過有趣論文的人,提出擴(kuò)展他們工作的想法。Kaiser上鉤了,并邀請他實習(xí)。直到幾個月后,Gomez才知道這些實習(xí)是為博士生準(zhǔn)備的,而不是像他這樣的本科生。
Kaiser和Gomez很快意識到,自我關(guān)注看起來是解決他們正在解決的問題的一個有前途的、更激進(jìn)的方案。“我們有意識地討論了是否想要合并這兩個項目,”Gomez說。答案是是的。
變換器團(tuán)隊開始構(gòu)建一個自我關(guān)注模型,將文本從一種語言翻譯成另一種語言。他們使用一個稱為BLEU的基準(zhǔn)來衡量其性能,該基準(zhǔn)將機(jī)器的輸出與人類翻譯者的工作進(jìn)行比較。從一開始,他們的新模型就做得很好。“我們從沒有概念證明到擁有至少與當(dāng)時LSTM的最佳替代方法相媲美的東西,”Uszkoreit說。但與長短期記憶相比,“它并不更好。”
他們達(dá)到了一個平臺——直到2017年的一天,Noam Shazeer偶然聽說了他們的項目。Shazeer是一位資深谷歌員工——他于2000年加入公司——并是一個內(nèi)部傳奇,從他在公司早期廣告系統(tǒng)的工作開始。Shazeer已經(jīng)從事深度學(xué)習(xí)工作五年,最近對大型語言模型產(chǎn)生了興趣。但這些模型遠(yuǎn)遠(yuǎn)沒有產(chǎn)生他認(rèn)為可能的流暢對話。
據(jù)Shazeer回憶,他正在1965號樓的走廊里走過Kaiser的工作區(qū)。他發(fā)現(xiàn)自己在聽一場熱烈的討論。“我記得Ashish正在談?wù)撌褂米晕谊P(guān)注的想法,Niki對此非常興奮。我想,哇,那聽起來是個好主意。這看起來是一個有趣、聰明的團(tuán)隊,正在做一些有前途的事情。”Shazeer發(fā)現(xiàn)現(xiàn)有的循環(huán)神經(jīng)網(wǎng)絡(luò)“令人惱火”,并想:“讓我們?nèi)ヌ鎿Q它們!”
Shazeer加入團(tuán)隊是關(guān)鍵。“這些理論或直覺機(jī)制,如自我關(guān)注,總是需要非常謹(jǐn)慎的實施,通常由少數(shù)經(jīng)驗豐富的‘魔術(shù)師’來展示任何生命跡象,”Uszkoreit說。Shazeer立即開始施展他的魔法。他決定自己編寫變換器團(tuán)隊代碼的版本。“我拿了基本想法,自己把它做出來了,”他說。
偶爾他會向Kaiser提問,但大多數(shù)時候,他說,他“只是做了一段時間,然后回來說,‘看,它工作了。’”使用團(tuán)隊成員后來用“魔法”、“煉金術(shù)”和“鈴鐺和哨子”等詞語描述的東西,他將系統(tǒng)提升到了一個新的水平。
“那引發(fā)了一場沖刺,”Gomez說。他們有動力,他們也想要趕上即將到來的截止日期——5月19日,這是在12月舉行的年度最大AI活動,神經(jīng)信息處理系統(tǒng)會議(Neural Information Processing Systems conference)上發(fā)表論文的提交日期。隨著硅谷的冬天轉(zhuǎn)變成春天,實驗的步伐加快了。他們測試了兩種變換器模型:一種是用12小時訓(xùn)練生產(chǎn)的,另一種是更強(qiáng)大、被稱為Big的版本,經(jīng)過三天半的訓(xùn)練。他們讓它們開始進(jìn)行英語到德語的翻譯。
基本模型超越了所有競爭對手——而Big獲得了一個BLEU分?jǐn)?shù),決定性地打破了以前的記錄,同時在計算上也更有效率。“我們做到了,比任何人都快,”Parmar說。“而且那只是開始,因為數(shù)字不斷在提高。”當(dāng)Uszkoreit聽到這個消息時,他拿出了他在山地探險卡車?yán)镆恢狈胖囊黄坷舷銠墤c祝。
在截止日期前的最后兩周,團(tuán)隊的工作節(jié)奏變得瘋狂。盡管官方上一些團(tuán)隊成員仍然在1945號樓有辦公桌,但他們大多在1965號樓工作,因為那里的微型廚房里有一臺更好的濃縮咖啡機(jī)。“人們幾乎不睡覺,”Gomez回憶道,作為實習(xí)生,他忙于調(diào)試,同時還負(fù)責(zé)制作論文的可視化和圖表。在這類項目中,通常會進(jìn)行消融實驗——移除某些部分以驗證剩余部分是否足以完成任務(wù)。
“我們嘗試了所有可能的技巧和模塊組合——哪些有用,哪些無用。我們不斷地嘗試和替換,”Gomez說。“為什么模型會以這種違反直覺的方式運作?哦,因為我們忘記正確地進(jìn)行遮蔽。現(xiàn)在它工作了嗎?好的,接下來繼續(xù)下一個。我們現(xiàn)在稱之為變換器的所有這些組成部分都是這種高速、迭代試錯過程的產(chǎn)物。”在Shazeer的代碼實現(xiàn)的幫助下,消融實驗產(chǎn)生了“某種簡約的成果”,Jones評價道。“Noam是個巫師。”
Vaswani記得有一次在辦公室沙發(fā)上過夜,當(dāng)時團(tuán)隊正在撰寫論文。他盯著分隔沙發(fā)和房間其余部分的窗簾,被上面的圖案吸引,那看起來像是突觸和神經(jīng)元。Gomez當(dāng)時也在場,Vaswani告訴他,他們正在做的工作將超越機(jī)器翻譯。“最終,就像人腦一樣,你需要將所有這些模態(tài)——語音、音頻、視覺——統(tǒng)一在一個單一的架構(gòu)下,”他說。“我有一個強(qiáng)烈的預(yù)感,我們正在發(fā)現(xiàn)一些更普遍的東西。”
然而,在谷歌的高層,這項工作被視為只是另一個有趣的AI項目。作者們被問及他們的上司是否經(jīng)常召集他們更新項目進(jìn)展,答案并不多。但“我們知道這可能是相當(dāng)大的一件事,”Uszkoreit說。“這導(dǎo)致我們實際上對論文末尾的一句話著迷了。”
那句話預(yù)示了接下來可能發(fā)生的事情——變換器模型應(yīng)用于基本上所有形式的人類表達(dá)。“我們對基于注意力的模型的未來感到興奮,”他們寫道。“我們計劃將變換器擴(kuò)展到涉及除文本以外的輸入和輸出模態(tài)的問題”,并研究“圖像、音頻和視頻。”
在截止日期前幾天的一個晚上,Uszkoreit意識到他們需要一個標(biāo)題。Jones指出,團(tuán)隊已經(jīng)對一種技術(shù)進(jìn)行了根本性的拒絕:注意力。披頭士樂隊曾經(jīng)給一首歌命名為“你需要的只是愛”。為什么不把論文命名為“Attention Is All You Need”呢?
“我是英國人,”Jones說。“這真的只花了五秒鐘的思考。我沒想到他們會用它。”
他們繼續(xù)收集實驗結(jié)果,直到截止日期。Parmar說:“我們提交論文前五分鐘,英法數(shù)字結(jié)果出來了。”“我當(dāng)時坐在1965號樓的微型廚房里,拿到了最后一個數(shù)字。”他們只剩下兩分鐘的時間,匆忙地發(fā)送了論文。
谷歌和其他幾乎所有科技公司一樣,迅速對這項工作申請了臨時專利。原因不是為了阻止他人使用這些想法,而是為了建立其專利組合以用于防御目的。(公司的理念是“如果技術(shù)進(jìn)步,谷歌將收獲好處。”)
當(dāng)變換器團(tuán)隊聽到會議同行評審者的反饋時,反應(yīng)是混合的。“一個是積極的,一個是極其積極的,一個是,‘這還可以,’”Parmar說。論文被接受在晚上的海報環(huán)節(jié)中展示。
到了12月,論文開始引起轟動。他們12月6日的四小時會議擠滿了想要了解更多的科學(xué)家。作者們談到嗓子都啞了。到了晚上10點半,會議結(jié)束時,還有一群人。“保安不得不告訴我們離開,”Uszkoreit說。對他來說,最滿意的時刻可能是計算機(jī)科學(xué)家Sepp Hochreiter走上前來贊揚(yáng)這項工作——考慮到Hochreiter是長短期記憶的共同發(fā)明者,這是相當(dāng)大的贊美,而變換器剛剛將其作為AI工具箱中的首選工具所取代。
變換器并沒有立即接管世界,甚至沒有接管谷歌。Kaiser回憶說,在論文發(fā)表前后,Shazeer向谷歌高管提議,公司應(yīng)該放棄整個搜索索引,用變換器訓(xùn)練一個巨大的網(wǎng)絡(luò)——基本上是用變換器改變谷歌組織信息的方式。在那個時候,即使是Kaiser也認(rèn)為這個想法是荒謬的。現(xiàn)在,傳統(tǒng)智慧認(rèn)為這只是時間問題。
一個名為OpenAI的初創(chuàng)公司更快地抓住了機(jī)會。論文發(fā)表后不久,OpenAI的首席研究員Ilya Sutskever——在谷歌時期就認(rèn)識變換器團(tuán)隊——建議其科學(xué)家Alex Radford研究這個想法。結(jié)果就是第一批GPT產(chǎn)品。正如OpenAI首席執(zhí)行官Sam Altman去年告訴我的,“當(dāng)變換器論文出來時,我認(rèn)為谷歌沒有人意識到它的意義。”
內(nèi)部情況更為復(fù)雜。“我們很清楚變換器可以做到真正神奇的事情,”Uszkoreit說。“現(xiàn)在,你可能會問,為什么2018年谷歌沒有推出ChatGPT?實際上,我們本可以在2019年,也許2020年就有GPT-3甚至3.5。真正的問題不是,他們看到了嗎?問題是,為什么我們沒有利用我們已經(jīng)看到的事實做任何事情?答案是復(fù)雜的。”
許多科技評論家指出,谷歌從以創(chuàng)新為中心的游樂場轉(zhuǎn)變?yōu)橐缘拙€為中心的官僚機(jī)構(gòu)。正如Gomez告訴《金融時報》的那樣,“他們沒有現(xiàn)代化。他們沒有采用這項技術(shù)。”但對于一個技術(shù)領(lǐng)先行業(yè)數(shù)十年并獲得巨大利潤的巨頭公司來說,這需要很大的膽量。谷歌確實開始在2018年將變換器集成到產(chǎn)品中,首先是其翻譯工具。同年,它引入了一個新的基于變換器的語言模型BERT,第二年開始應(yīng)用于搜索。
姓名:AIDAN GOMEZ/職業(yè):COHERE的聯(lián)合創(chuàng)始人兼首席執(zhí)行官
但與OpenAI的飛躍和微軟大膽將基于變換器的系統(tǒng)整合到其產(chǎn)品線相比,這些幕后的變化似乎膽小。當(dāng)我問首席執(zhí)行官Sundar Pichai去年為什么他的公司沒有像ChatGPT那樣首先推出大型語言模型時,他認(rèn)為在這種情況下,谷歌發(fā)現(xiàn)讓其他人領(lǐng)先是有利的。“我還不太確定它是否會像現(xiàn)在這樣成功。事實是,人們看到它是如何工作的之后,我們能做得更多,”他說。
不可否認(rèn)的是,論文的八位作者都離開了谷歌。Polosukhin的公司Near建立了一個區(qū)塊鏈,其代幣市值約為40億美元。Parmar和Vaswani在2021年成為商業(yè)伙伴,共同創(chuàng)立了Adept(估值10億美元),現(xiàn)在正在運營他們的第二家公司,名為Essential AI(獲得800萬美元投資)。
位于東京的Llion Jones的Sakana AI估值為2億美元。Shazeer于2021年10月離開后,共同創(chuàng)立了Character AI(估值50億美元)。實習(xí)生Aidan Gomez在2019年共同創(chuàng)立了位于多倫多的Cohere(估值22億美元)。Jakob Uszkoreit的生物技術(shù)公司Inceptive估值為3億美元。所有這些公司(除Near外)都基于變換器技術(shù)。
姓名:LUKASZ KAISER / 職業(yè):OPENAI的研究員
Kaiser是唯一一個沒有創(chuàng)立公司的人。他加入了OpenAI,并成為一項名為Q*的新技術(shù)的發(fā)明者,Altman去年說這項技術(shù)將“推動無知的面紗,并將發(fā)現(xiàn)的前沿推向前進(jìn)。”(當(dāng)我試圖在我們的采訪中詢問Kaiser關(guān)于這個問題時,OpenAI的公關(guān)人員幾乎跳過桌子來阻止他。)
谷歌是否想念這些逃兵?當(dāng)然,除了其他人從公司轉(zhuǎn)移到新的AI初創(chuàng)公司。(Pichai提醒我,當(dāng)我問他關(guān)于變換器離職的問題時,行業(yè)寵兒OpenAI也看到了叛逃:“AI領(lǐng)域非常、非常動態(tài),”他說。)但谷歌可以夸耀的是,它創(chuàng)造了一個支持追求非傳統(tǒng)想法的環(huán)境。“在很多方面,谷歌一直領(lǐng)先——他們投資于正確的頭腦,并創(chuàng)造了一個我們可以探索和推動極限的環(huán)境,”Parmar說。“它花了時間才被采納并不奇怪。谷歌有更多的利害關(guān)系。”
如果沒有那個環(huán)境:就沒有變換器。不僅作者們都是谷歌員工,他們也在同一辦公室工作。走廊上的偶遇和午餐時的閑聊導(dǎo)致了重大時刻。該團(tuán)隊在文化上也是多元化的。八位作者中有六位出生在美國以外;另外兩位是兩位持有綠卡的德國人的孩子,他們暫時在加利福尼亞,以及一位家庭逃離迫害的一代美國人。
Uszkoreit從他在柏林的辦公室說,創(chuàng)新都是關(guān)于正確的條件。“這是讓那些對某事非常興奮的人在他們生活的合適時機(jī)聚集在一起,”他說。“如果你有這個,并且你在做事時有樂趣,你正在處理正確的問題——而且你很幸運——魔法就會發(fā)生。”
Uszkoreit和他著名的父親之間也發(fā)生了一些神奇的事情。在所有那些餐桌辯論之后,Hans Uszkoreit,他的兒子報告說,現(xiàn)在共同創(chuàng)立了一家公司,正在構(gòu)建大型語言模型。當(dāng)然,使用的是變換器。