訂閱
糾錯(cuò)
加入自媒體

Transformer能否支撐下一代Agent?

圖片

作者 李越

編輯 重點(diǎn)君

12月18日,2025騰訊ConTech大會(huì)暨騰訊科技Hi Tech Day正式播出,中國(guó)工程院院士、知名專(zhuān)家和學(xué)者、頭部科技企業(yè)創(chuàng)始人及知名投資人齊聚一堂,共同探討智能時(shí)代的機(jī)遇與挑戰(zhàn)。

在圓桌論壇環(huán)節(jié),當(dāng)主持人把話筒遞給階躍星辰首席科學(xué)家張祥雨,詢(xún)問(wèn)關(guān)于模型架構(gòu)未來(lái)時(shí),這位學(xué)術(shù)大牛拋出了一枚“深水炸彈”:現(xiàn)有的Transformer架構(gòu)無(wú)法支撐下一代Agent。

而就在不久前,斯坦福大學(xué)教授、“AI教母”的李飛飛在一次深度訪談中,直言不諱地指出:現(xiàn)有的Transformer架構(gòu)可能難以產(chǎn)生如相對(duì)論般的高級(jí)抽象。在未來(lái)五年內(nèi),行業(yè)需要尋找一種新的架構(gòu)突破,讓AI從統(tǒng)計(jì)相關(guān)性跨越到真正的因果邏輯和物理推理。

作為GPT系列的核心締造者、前OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever,也在近日的一場(chǎng)深度訪談中表達(dá)了相同的判斷:單純依賴(lài)堆疊算力和數(shù)據(jù)的“規(guī)模化時(shí)代”正在遭遇瓶頸,行業(yè)正重新回歸注重底層創(chuàng)新的“研究時(shí)代”。

過(guò)去七年,從Google的BERT到OpenAI的GPT系列,再到橫空出世的DeepSeek,幾乎所有震撼世界的AI模型都基于Transformer。它讓英偉達(dá)的市值沖破天際,讓無(wú)數(shù)創(chuàng)業(yè)公司拿到巨額融資。

但現(xiàn)在,最懂它的人開(kāi)始質(zhì)疑。

人類(lèi)似乎又走到了一場(chǎng)范式革命的前夜。當(dāng)ScalingLaw(尺度定律)的邊際效應(yīng)開(kāi)始遞減,當(dāng)萬(wàn)億參數(shù)的模型依然不懂得如何像人類(lèi)一樣在物理世界中行走,我們不得不面對(duì)這個(gè)問(wèn)題:

原本能夠帶領(lǐng)我們通往AGI的Transformer,是否已經(jīng)觸碰到了天花板?

只會(huì)做題的優(yōu)等生

在2017年之前,AI自然語(yǔ)言處理(NLP)的主流方式還是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))和LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))。它們處理信息的方式像一個(gè)勤懇的閱讀者,必須按順序一個(gè)字一個(gè)字地讀,效率低下且難以捕捉長(zhǎng)距離的語(yǔ)義關(guān)聯(lián)。

2017年,Google論文《Attention Is All You Need》橫空出世,徹底改變了這一切。

Transformer架構(gòu)拋棄了循環(huán),引入了“自注意力機(jī)制”。它不再按順序閱讀,而是能同時(shí)關(guān)注句子中的所有詞,并計(jì)算它們之間的關(guān)聯(lián)權(quán)重。

這一架構(gòu)讓并行計(jì)算成為了可能。只要有足夠的算力(GPU)和數(shù)據(jù),模型就能展現(xiàn)出驚人的智能涌現(xiàn)能力。這就是后來(lái)的Scaling Law(尺度定律)。

Transformer與GPU的結(jié)合,就像是內(nèi)燃機(jī)遇上了石油,直接引爆了第三次工業(yè)革命級(jí)的人工智能浪潮。

然而,Transformer的歸根結(jié)底是一個(gè)極致的統(tǒng)計(jì)學(xué)家。

李飛飛指出:生成式AI最重大的突破之一,是發(fā)現(xiàn)了“下一個(gè)Token預(yù)測(cè)”這個(gè)目標(biāo)函數(shù)。這聽(tīng)起來(lái)很優(yōu)美,但也很局限。Transformer的核心邏輯是基于海量數(shù)據(jù)的概率預(yù)測(cè)。它讀了互聯(lián)網(wǎng)上所有的書(shū),所以當(dāng)你從懸崖跳下時(shí),它知道下一句該接墜落,而不是飛翔。

Ilya也給出了一個(gè)比喻:目前的模型就像是為了贏得編程比賽而練習(xí)了一萬(wàn)小時(shí)的學(xué)生。他背下了所有算法和技巧,見(jiàn)過(guò)所有可能的考題,通過(guò)數(shù)據(jù)增強(qiáng)覆蓋了所有盲區(qū)。他看起來(lái)很強(qiáng),能拿高分,但本質(zhì)上只是在進(jìn)行記憶提取。

相比之下,一個(gè)真正有天分的學(xué)生可能只練習(xí)了一百小時(shí),但他擁有深刻的品味和直覺(jué),具備真正的泛化能力。當(dāng)前的Transformer模型就像那個(gè)死記硬背的優(yōu)等生,一旦遇到未曾見(jiàn)過(guò)的領(lǐng)域,其表現(xiàn)就會(huì)大打折扣。

Ilya認(rèn)為,這正是因?yàn)槟P腿狈δ撤N特質(zhì)因素,讓它們學(xué)會(huì)了迎合評(píng)估標(biāo)準(zhǔn),卻未真正掌握推理。

李飛飛也給出了類(lèi)似判斷:“目前大多數(shù)生成式視頻中展現(xiàn)的水流或樹(shù)木擺動(dòng),并非基于牛頓力學(xué)計(jì)算,而是基于海量數(shù)據(jù)的統(tǒng)計(jì)學(xué)涌現(xiàn)。”

換句話說(shuō),AI只是看過(guò)無(wú)數(shù)次水流的樣子,并模仿了出來(lái)。它并沒(méi)有理解水分子之間的張力,也沒(méi)有理解重力加速度。

Transformer是一條完美的曲線擬合器,它能無(wú)限逼近現(xiàn)實(shí),但無(wú)法推導(dǎo)出現(xiàn)實(shí)背后的那套規(guī)則。因?yàn)樗挥邢嚓P(guān)性,沒(méi)有因果性。

長(zhǎng)上下文的詛咒與慢思考的缺失

2025年,AI行業(yè)的一個(gè)明顯趨勢(shì)是長(zhǎng)文本。但在張祥雨看來(lái),這可能是一個(gè)陷阱:“我們今天的Transformer,不管號(hào)稱(chēng)發(fā)布出來(lái)說(shuō)支持到多少Token,基本上到8萬(wàn)個(gè)就不可用了……即便上下文長(zhǎng)度可以很長(zhǎng),但是測(cè)試基本上也都是8萬(wàn)個(gè)就退化。”

這里所謂的退化,不是指模型記不住了,而是智商隨著文本變長(zhǎng)而快速下降。

張祥雨揭示了背后的數(shù)學(xué)邏輯——Transformer的信息流是單向的:“所有的信息只能從第L-1層流向第L層,不管context是多長(zhǎng),模型的深度是不會(huì)增加的,它只有L層。”它的思考深度是固定的,不會(huì)因?yàn)闀?shū)變厚了,腦子就變得更深邃。

這與Ilya所強(qiáng)調(diào)的價(jià)值函數(shù)類(lèi)似。他指出,人類(lèi)之所以高效,是因?yàn)槲覀儞碛袃?nèi)在的價(jià)值函數(shù)——你不需要下完一整盤(pán)國(guó)際象棋才知道自己丟了一個(gè)子是錯(cuò)誤的,在中間過(guò)程就能獲得信號(hào)。

目前的Transformer缺乏這種機(jī)制。它必須把所有信息平鋪開(kāi)來(lái),每次做一個(gè)決定都要去翻閱這一生的流水賬 。類(lèi)似于人類(lèi)的快思考直覺(jué)反應(yīng),脫口而出,卻無(wú)法進(jìn)行慢思考。

Ilya認(rèn)為,真正的智能不僅僅是預(yù)測(cè)下一個(gè)Token,而是在行動(dòng)之前就能通過(guò)內(nèi)部的價(jià)值函數(shù)預(yù)判路徑的優(yōu)劣 。對(duì)于未來(lái)的Agent而言,它需要在無(wú)限流的世界中生存,如果繼續(xù)沿用Transformer這種要把所有記憶平鋪的架構(gòu),不僅計(jì)算上不可持續(xù),邏輯上也行不通 。

視覺(jué)失語(yǔ)與物理盲區(qū)

Transformer的危機(jī),不僅僅局限于語(yǔ)言和邏輯,更在于它理解物理世界時(shí)的無(wú)力感 。

李飛飛認(rèn)為:“僅靠語(yǔ)言不足以構(gòu)建通用人工智能。” 現(xiàn)有的Transformer在處理視覺(jué)任務(wù)時(shí),往往簡(jiǎn)單粗暴地將預(yù)測(cè)下一個(gè)詞移植為預(yù)測(cè)下一幀,導(dǎo)致生成的視頻缺乏時(shí)空一致性 。

這里還存在一個(gè)更深層次的矛盾:樣本效率。

Ilya在訪談中提出了一個(gè)問(wèn)題:為什么一個(gè)青少年僅需十幾個(gè)小時(shí)就能學(xué)會(huì)開(kāi)車(chē),而AI卻需要海量的數(shù)據(jù)訓(xùn)練?

答案在于“先驗(yàn)知識(shí)”。人類(lèi)擁有進(jìn)化賦予的強(qiáng)大先驗(yàn)知識(shí)和直覺(jué)(即由情緒和本能構(gòu)成的價(jià)值函數(shù))。我們不需要看過(guò)一百萬(wàn)次車(chē)禍才能學(xué)會(huì)避讓?zhuān)覀兊纳锉灸茏屛覀儗?duì)物理世界的危險(xiǎn)有天然的感知。

何小鵬在大會(huì)上也表達(dá)了類(lèi)似的洞察:書(shū)本無(wú)法教你走路,物理世界的技能必須通過(guò)交互習(xí)得。

目前的Transformer模型缺乏這種基于物理和生物直覺(jué)的世界模型。它們?cè)噲D通過(guò)窮舉所有數(shù)據(jù)來(lái)掩蓋對(duì)物理規(guī)律認(rèn)知的匱乏。Ilya指出,預(yù)訓(xùn)練數(shù)據(jù)的紅利終將耗盡,數(shù)據(jù)是有限的。當(dāng)你把規(guī)模擴(kuò)大100倍后,單純的量變可能不再帶來(lái)質(zhì)變 。

物理AI需要的是一個(gè)內(nèi)置了3D結(jié)構(gòu)、因果邏輯和物理規(guī)律的“數(shù)字容器”,而不是一個(gè)只會(huì)基于概率猜測(cè)下一幀畫(huà)面的語(yǔ)言模型

回歸研究時(shí)代

如果Transformer可能是死胡同,那路在何方?

Ilya給出了宏觀的判斷:我們正在告別“規(guī);瘯r(shí)代”(2020-2025),重新回到“研究時(shí)代”(2012-2020)。這并不是歷史的倒退,而是螺旋式上升——我們現(xiàn)在擁有了巨大的算力,但我們需要尋找新的配方。

這個(gè)新配方,不會(huì)是單一技術(shù)的修修補(bǔ)補(bǔ),而是一場(chǎng)系統(tǒng)性重構(gòu)。

李飛飛的World Labs致力于構(gòu)建具有“空間智能”的模型,建立看、做和想象的閉環(huán) 。未來(lái)的架構(gòu)極可能是一種混合體:內(nèi)核是高度抽象的因果邏輯(隱式),接口是豐富多彩的感官世界(顯式) 。

張祥雨透露了極具前瞻性的“非線性RNN”方向。這種架構(gòu)不再是單向流動(dòng),而是可以在內(nèi)部進(jìn)行循環(huán)、反芻、推理。這正如Ilya所設(shè)想的,模型需要具備像人類(lèi)一樣的“價(jià)值函數(shù)”,在輸出結(jié)果前進(jìn)行多步的內(nèi)部思考和自我修正 。

Ilya認(rèn)為,未來(lái)的突破在于如何讓AI擁有像人類(lèi)一樣的“持續(xù)學(xué)習(xí)”能力,而非靜態(tài)的預(yù)訓(xùn)練成品。這需要更高效的強(qiáng)化學(xué)習(xí)范式,從單純的模仿(Student A)轉(zhuǎn)向具備直覺(jué)和品味的專(zhuān)家(Student B) 。

如果底層架構(gòu)發(fā)生劇變,整個(gè)AI產(chǎn)業(yè)鏈也將面臨一場(chǎng)洗牌。

目前的硬件基礎(chǔ)設(shè)施,從英偉達(dá)的GPU集群到各種通訊互聯(lián)架構(gòu),很大程度上是為T(mén)ransformer量身定做的。

一旦架構(gòu)從Transformer轉(zhuǎn)向非線性RNN或者其他圖算結(jié)合的模式,專(zhuān)用芯片可能會(huì)面臨挑戰(zhàn),而通用GPU的靈活性將再次成為護(hù)城河。

數(shù)據(jù)的價(jià)值也將被重估。視頻數(shù)據(jù)、物理世界的傳感器數(shù)據(jù)、機(jī)器人的交互數(shù)據(jù),將成為新的石油。

結(jié)語(yǔ)

訪談的結(jié)尾李飛飛說(shuō)了一段意味深長(zhǎng)的話:“科學(xué)是多代人思想的非線性傳承。

我們往往喜歡單一英雄神話,比如是牛頓發(fā)現(xiàn)了物理定律,是愛(ài)因斯坦發(fā)現(xiàn)了相對(duì)論,是Transformer開(kāi)啟了AI時(shí)代。但實(shí)際上,科學(xué)是一條河流,無(wú)數(shù)支流匯聚、改道、回流。

Transformer是一座豐碑,但它或許不是終點(diǎn)。它讓我們看到了智能的曙光,但在因果推理、物理理解和無(wú)限上下文上的先天缺陷,注定只是通往AGI道路上的一塊墊腳石,而不是最終的鑰匙。

李飛飛說(shuō)行業(yè)需要尋找新的架構(gòu)突破,Ilya說(shuō)Scaling時(shí)代已過(guò),張祥雨說(shuō)Transformer無(wú)法支撐下一代Agent,并非全盤(pán)否定它的歷史功績(jī),而是在提醒我們:不要在舒適區(qū)里沉睡。

未來(lái)五年,我們或許會(huì)看到Transformer逐漸退居幕后,成為一個(gè)子模塊,而一種全新的、融合了空間智能、具身交互和深度邏輯推理的新架構(gòu)將走上臺(tái)前。

對(duì)于身處其中的科技公司而言,這既是巨大的挑戰(zhàn),也是再一次難得的機(jī)遇。

       原文標(biāo)題 : Transformer能否支撐下一代Agent?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)