首個OpenAI免費(fèi)推理模型o3-mini發(fā)布 DeepSeek讓奧特曼反思:不開源我們錯了

訪客 2個月前 (02-02) 閱讀數(shù) 9166 #區(qū)塊鏈
文章標(biāo)簽 前沿文章

DeepSeek真算是給大模型圈提了個速——

就在剛剛,OpenAI深夜緊急發(fā)布了最新推理模型,o3-mini系列。

一共包含三個版本:low、medium和high。

其中o3-mini和o3-mini-high已經(jīng)上線:

根據(jù)官方口徑,o3系列模型,目標(biāo)是推動低成本推理的邊界。

ChatGPT Plus、團(tuán)隊(duì)和Pro用戶從今天起可以訪問OpenAI o3-mini,企業(yè)級訪問將在一周后開放。

免費(fèi)用戶也可以通過選擇“Search+Reason”來使用o3-mini來體驗(yàn)搜索。

或許是被DeepSeek逼急了,這是OpenAI首次向用戶免費(fèi)推出的推理模型。

甚至在隨后的Reddit“有問必答”活動中,CEO奧特曼也罕見公開反思:

在開源權(quán)重AI模型這個問題上,(個人認(rèn)為)我們站在了歷史錯誤的一邊。

與此同時,短短數(shù)小時內(nèi),網(wǎng)友們已經(jīng)開始瘋狂實(shí)測ing……

針對STEM推理優(yōu)化,但價(jià)格相較DeepSeek-R1依舊貴出天際

還是先來看看技術(shù)報(bào)告都寫了啥。

去年年底,OpenAI上線了o3-mini預(yù)覽版,再次刷新小模型能力邊界。(在成本和低延遲上與o1-mini相當(dāng))

當(dāng)時CEO奧特曼預(yù)告稱,正式版將在今年1月發(fā)布。而卡在ddl的最后時刻,正式版o3-mini終于上桌。

整體而言,和前一代o1-mini類似,它也針對STEM(Science、Technology、Engineering、Mathematics)進(jìn)行了優(yōu)化,延續(xù)了mini系列小而美的風(fēng)格。

僅o3-mini(medium),不但在數(shù)學(xué)編碼上的表現(xiàn)與o1系列相當(dāng),而且響應(yīng)更快。

人類專家測評顯示,大多數(shù)情況下o3-mini比o1-mini產(chǎn)生更準(zhǔn)確、更清晰的答案,獲得了56%的偏好度,同時在處理復(fù)雜現(xiàn)實(shí)問題時的重大錯誤率更是降低了39%。

數(shù)學(xué)能力上,低推理強(qiáng)度下的o3-mini(low)達(dá)到了與o1-mini相當(dāng)?shù)乃剑恢械韧评韽?qiáng)度下能力媲美滿血版o1;而一旦推理強(qiáng)度拉滿(high),其表現(xiàn)直接超越o1系列一眾模型。

在由60多位頂尖數(shù)學(xué)家準(zhǔn)備的FrontierMath難題測試中,高推理強(qiáng)度下的o3-mini相較o1系列也有了大幅提升。

官方甚至特意注明,如果搭配Python工具使用,o3-mini(high)在第一次嘗試時就解決了超過32%的問題,其中包括28%以上的T3級問題。

科學(xué)能力方面,在PhD水平的物化生問題上,低推理強(qiáng)度下的o3-mini就已經(jīng)和o1-mini拉開了層級。

當(dāng)然,在編碼這項(xiàng)重要能力上,o3-mini更是在各層級上領(lǐng)先o1系列。

根據(jù)它們在LiveBench的表現(xiàn)可以看出,隨著推理強(qiáng)度升級,o3-mini的優(yōu)勢還在不斷擴(kuò)大。

而且需要提醒,o3-mini在取得上述領(lǐng)先的同時響應(yīng)更快,其平均響應(yīng)時間為7.7秒,較o1-mini的10.16秒提升了24%。

最后在安全評估方面,o3-mini在多項(xiàng)安全評估中明顯超過了GPT-4o。

價(jià)格方面,相比于輸入/輸出分別為0.14/0.55美元的DeepSeek-R1,o3-mini依舊貴出天際。

根據(jù)網(wǎng)友辣評,DeepSeek-R1目前還是性價(jià)比之王:更快、更好、更便宜。

BTW,OpenAI此次照例公布了o3-mini背后團(tuán)隊(duì)。可以看出,這一次是由奧特曼本人親自帶隊(duì),研究項(xiàng)目主管分別為Carpus Chang和Kristen Ying(名單中也有很多我們熟悉的老朋友如任鴻宇、趙盛佳等)。

網(wǎng)友瘋狂實(shí)測中

正如我們剛才所提到的,目前網(wǎng)友們已經(jīng)開始瘋狂實(shí)測中。

不過從評價(jià)上來看,大伙兒對o3-mini的表現(xiàn)褒貶不一。

例如在用Python實(shí)現(xiàn)“球在四維體內(nèi)部彈跳”的任務(wù)上,有人認(rèn)為o3-mini是最好的LLM:

效果是這樣的:

然后有網(wǎng)友嘗試用DeepSeek來做同樣的任務(wù),從效果上來看,認(rèn)為o3-mini稍微勝出一些:

更直接的對比,讓一個球在旋轉(zhuǎn)的六邊形內(nèi)彈跳,球應(yīng)受到重力和摩擦力的影響,o3-mini和DeepSeek R1的效果差距就比較明顯了:

包括更復(fù)雜的一些的任務(wù),在球體內(nèi)創(chuàng)建100個彈跳的黃色球,o3-mini現(xiàn)在也是可以做到:

再如讓o3-mini設(shè)計(jì)兩個貪吃蛇互相競爭的游戲:

除了DeepSeek之外,網(wǎng)友也用o1和o3-mini的效果做了對比,例如生成一座龐大、驚人的史詩級漂浮城市。

還有一位網(wǎng)友提出了令幾乎所有大模型都會出錯的迷惑性題目,但讓他較為震驚的是,o3-mini竟然答對了:

不過知名播客博主Lex Fridman對o3-mini的評價(jià)卻是:

OpenAI o3-mini是一個好模型,但DeepSeek R1性能相似,價(jià)格更低,并揭示了其推理過程。

更好的模型將會出現(xiàn)(迫不及待想要 o3-pro),但“DeepSeek 時刻”是真實(shí)的。我認(rèn)為五年后它仍會被記住,作為科技?xì)v史上的一個轉(zhuǎn)折點(diǎn)。

One More Thing

就在o3-mini上線幾小時后,奧特曼本人也攜團(tuán)隊(duì)參與了Reddit的“有問必答”活動。

考慮到開源DeepSeek最近攪動了AI圈,奧特曼罕見公開反思:

在開源權(quán)重AI模型這個問題上,(個人認(rèn)為)我們站在了歷史錯誤的一邊。

甚至也承認(rèn),OpenAI的領(lǐng)先優(yōu)勢不會像以前那么大了。

DeepSeek的確很優(yōu)秀,我們也會繼續(xù)研發(fā)更好的模型,但領(lǐng)先優(yōu)勢將更小。

與此同時,OpenAI的一些未來計(jì)劃也曝光了。

比如高級語音模式即將迎來更新,OpenAI會直接稱它為GPT-5,而不是GPT-5o,不過目前還沒有具體時間表。

另外,推理模型也將支持調(diào)用更多工具。

最后,滿血版o3也被提及,不過看起來距離還相當(dāng)遙遠(yuǎn)……

熱門
主站蜘蛛池模板: 毛片亚洲AV无码精品国产午夜| 黄色a级片在线| 性色av免费观看| 久久午夜夜伦鲁鲁片无码免费| 欧美性生恔XXXXXDDDD| 伊人久久大香线蕉综合热线| 美日韩在线观看| 国产又猛又黄又爽| 日日夜夜嗷嗷叫| 在线观看国产人视频免费中国| 一进一出60分钟免费视频| 日本在线视频www色| 国产另类ts人妖一区二区| 37pao成人国产永久免费视频| 天堂草原电视剧在线观看图片高清| 三级视频在线播放线观看| 日本五月天婷久久网站| 五月综合色婷婷影院在线观看| 欧美日韩生活片| 亚洲综合无码一区二区三区| 精品国产一二三产品价格| 国产91无套剧情在线播放| 香港三级午夜理伦三级99| 国产日韩av在线播放| 香蕉啪视频在线观看视频久| 国内精品国语自产拍在线观看55| eva樱花动漫网| 少妇厨房愉情理9仑片视频| 中文字幕亚洲一区二区三区| 日本50岁丰满熟妇xxxx| 久久国产劲暴∨内射新川| 日韩视频在线一区| 亚洲av永久无码精品三区在线 | 国产自产在线视频一区| av无码a在线观看| 女人张开腿日出白浆视频| 三上悠亚一区二区观看| 斗罗大陆动漫完整免费 | 精品久久久噜噜噜久久久| 午夜精品久久久久久毛片| 色偷偷av一区二区三区|