訂閱
糾錯
加入自媒體

年終盤點:誰會成為中國的"Nano Banana"?

圖片

©有界UnKnown原創(chuàng)

作者丨山茶

編輯|錢江

回顧2025年,AI行業(yè)最重要的變化不是模型,而是Agent真正進入工作流。

11月,Nano Banana一經發(fā)布就在創(chuàng)作工具賽道撕出一道缺口。它不是簡單地幫人做設計,而是重構了設計師的工作方式,讓AI第一次具備可用的、規(guī);漠a出能力。

可以說,Nano Banana將所有設計相關的工作方式都改了一遍。同樣,國內AI Agent也以迅雷之勢滲透進各行各業(yè)的辦公場景。寫一個文檔、做一套PPT、剪輯一個播客節(jié)目、整理數據報表——越來越多工作被Agent承接。

可以說,打工人的工作方式,這一年也被悄然改寫了一遍。

在海外,Microsoft Copilot、Google Gemini、Notion AI等多模態(tài)辦公與創(chuàng)作工具矩陣已成型;國內廠商同樣不甘落后,百度文庫和網盤聯合推出的GenFlow3.0、金山的WPS.AI、阿里的千問和夸克、字節(jié)的扣子空間等紛紛入局,將寫文檔、做PPT、數據處理、圖像生成、自動化分發(fā)等整合成一站式多模態(tài)Agent系統(tǒng)。

但問題隨之浮現——當AI觸手可及、無處不在時,用戶真正需要的Agent究竟是什么?是完全替代原有流程?還是在工作中主動設計方案?是自動化能力的疊加?還是創(chuàng)造力的擴張?

更關鍵的是,在所有大廠集體下場之后——誰會成為“中國的Nano Banana”,改造國人的工作方式?誰會真正定義下一代創(chuàng)作與辦公場景?

帶著這些問題,我們挑選了目前國內5家主流大廠系Agent進行實測:百度GenFlow3.0、騰訊ima、金山WPS.AI、扣子空間、夸克。而通過5款產品測評后,我們發(fā)現3次代際分層正在出現:

1、有能力生產完整工作流;

2、有能力形成數據閉環(huán);

3、有能力持續(xù)積累認知與記憶。

但目前僅兩家跨進第三階段,一個是GenFlow3.0,一個是扣子空間。

Agent的3個衡量標準

在回答問題之前,我們需要先理解:AI到底如何改變了當下的生產和創(chuàng)作方式。

過去,無論是早期的Office,還是后來興起的各類SaaS創(chuàng)作平臺(如Canva等),其結構本質都很簡單——底層是編輯套件,上層是創(chuàng)作模板、素材和協同工具。

在這一階段,生產力的核心仍然是“人”,創(chuàng)作平臺更多只是“工具箱”。

ChatGPT問世后,微軟率先將AI能力整合進Office,開啟了傳統(tǒng)創(chuàng)作工具的第一次轉型。但早期Agent只能做文本處理、潤色、擴寫,內容生成等,直到今年多模態(tài)模型成熟,Agent才開始深度介入創(chuàng)作全流程,并推動AI從單一工具,走向一站式“智能流水線”。

在這一背景下,Agent架構也變得更復雜;谖覀儗Χ嗫預gent產品的調研,目前的一站式Agent大致可以拆分為三個層級:

上層:交互與創(chuàng)作層——包括對話場景、智能體創(chuàng)作、協同編輯,是用戶直接接觸的界面;中層:知識與記憶層——包括知識庫、素材庫、用戶記憶,是平臺保持一致性和上下文理解的核心;底層:模型與工具層——大模型、多模態(tài)能力與工具調用,是整個系統(tǒng)的基礎動力。

這個三層結構,正是支撐未來AI Agent從輔助走向主導的關鍵框架。

圖片

在這個全新的結構下,有3個Agent的衡量標準非常重要:

首先是多模態(tài)一站式生成能力。AI應用正從“一個工具解決一個問題”的單點時代,邁向“一個產品解決多類任務”的通用時代。正如Sam Altman近期訪談提到:“通常情況下,大多數用戶都希望擁有一款單一且高效的AI服務,能夠貫穿其整個生活軌跡并持續(xù)提供價值,所以ChatGPT需要不斷增加更多功能。”今年初,Manus爆火也加速了這一趨勢,通用、多功能整合成為行業(yè)共識。

其次是知識庫打通程度。真正讓Agent之間拉開差距、形成壁壘的,不在于大模型,也不在prompt和工具,而在于它能在多大范圍調動數據。如果素材、語料、用戶偏好都能系統(tǒng)化沉淀成知識且跨素材調用、跨風格理解、跨任務遷移,那每次創(chuàng)作就都能建立在可學習、可進化的知識結構上,AI可以像人一樣,越做越好。

最后是人與AI的協作。這也是Agent與傳統(tǒng)AI工具最大的不同。傳統(tǒng)AI工具由人掌控,創(chuàng)作者意志可以直接貫徹到作品;Agent則是與人共同創(chuàng)作,AI是創(chuàng)作者的搭檔、助手、副駕駛。這也意味著,人類需要以更主動、全面的姿態(tài)介入到傳統(tǒng)的“AI黑盒”——人機協作編輯更加重要。

因此,我們可以對一款AI Agent是否具備競爭力做出科學的判斷,主要有以下三個核心判斷標準:

1、是否有足夠豐富的AI創(chuàng)作工具/Agent,能夠支持全模態(tài)、一站式的內容生成;

2、是否有強大的知識庫,能夠沉淀知識和記憶,并將這些數據反哺到創(chuàng)作當中;

3、是否有良好的人機協作框架,讓人與AI充分協作。

圍繞這些標準,我們對5家主流Agent進行了系統(tǒng)性測評,并把測試結果收斂整理,形成這張總覽圖:

圖片

產品實測:誰是中國的“Nano Banana”?

當AI真正走進創(chuàng)作與辦公場景,決定體驗差異的第一道分水嶺,并不在于模型參數或算法能力,而在于——它到底能不能把一件事完整的做完。

衡量這一點的首要指標,正是平臺功能的完備程度。下表展示了各平臺在創(chuàng)作深度與任務跨度上的支持情況:

圖片

從功能覆蓋度來看,GenFlow3.0是目前唯一具備全模態(tài)創(chuàng)作能力的平臺,基本覆蓋了主流AI創(chuàng)作平臺的所有核心能力;夸克WPS位列第二梯隊,能夠支撐起絕大多數常見的創(chuàng)作與辦公場景。相比之下,扣子空間ima在多模態(tài)能力、文檔工具鏈及專業(yè)功能上仍存在不同程度的缺口,整體產品形態(tài)尚處于持續(xù)完善的爬坡期。

然而,隨著各家AI的任務覆蓋面逐漸趨同,決定用戶體驗差異的第二道分水嶺已然出現:核心矛盾不再是AI“能不能生成”,而是人類“能不能隨時接管和修正”。

在這一維度上,決定協作深度的關鍵指標,正是對Office體系的兼容程度:

圖片

測試結果顯示,各平臺在這一維度上的表現涇渭分明。除去本身就是辦公軟件的WPS占據主場優(yōu)勢外,GenFlow3.0是唯一實現“原生級兼容”的AI平臺:它不僅支持直接輸出Office格式,更打通了跨工具、跨設備的編輯鏈路,真正實現了從“AI生成”到“落地執(zhí)行”的閉環(huán)。

在交互設計上,GenFlow3.0采用了獨特的“雙模態(tài)編輯”策略:

輕量微調:生成文檔或PPT時,右側預覽窗支持對話式修改,無論是Excel高亮制定列、生成雷達圖,還是調整PPT格式,一句指令即可完成。

深度精修:若需復雜的排版,一鍵切換至“高級編輯”模式即可進入高度還原Office的專業(yè)界面,操作習慣與功能體驗幾乎無縫銜接。

相比之下,扣子空間、夸克和ima雖然也配備了預覽窗口及基礎的圖文編輯功能,但其內核仍是“輕量級編輯器”,缺乏完整的Office工具套件支持,難以應對深度的文檔處理需求。

除生成能力外,人與Agent的協作順暢度構成了產品體驗的第三道分水嶺。這其中的核心命題在于:系統(tǒng)是否賦予了人類在執(zhí)行過程中隨時介入與調優(yōu)的權利。

真實的創(chuàng)作往往是非線性的——它是一個邊做邊想、隨著靈感涌現而不斷修正邏輯的動態(tài)演進過程。這種“螺旋式上升”的思維模式,才是人類工作的常態(tài)。

遺憾的是,目前大多數Agent仍沿用機械的“單向執(zhí)行”邏輯:一旦啟動便難以打斷,即便用戶中途發(fā)現方向跑偏,也只能被迫等待其執(zhí)行完畢后再推倒重來,造成了大量算力與時間的雙重浪費。

為了規(guī)避這種“過程黑盒”帶來的偏航風險,主流產品普遍采取了折中的“前置確認”策略。例如GenFlow3.0、扣子空間、ima和夸克等,在生成PPT或長文檔前,都會強制先生成提綱與視覺風格,待用戶“簽字畫押”后,才敢進入正式生成的環(huán)節(jié)。

當然,“前置溝通”并非行業(yè)標配。以WPS為代表的部分產品仍沿用傳統(tǒng)的指令邏輯:用戶下達需求后,AI便進入“黑盒執(zhí)行”狀態(tài),直至直接輸出完整結果。

值得一提的是,GenFlow3.0在這次測試中展現出了最具差異化的交互形態(tài)。它不僅具備標準的“前置確認”流程,更首創(chuàng)了“斷點續(xù)寫”能力——即允許用戶在生成過程中隨時按下暫停鍵進行干預。

實測中,我們在撰寫年終總結時故意遺漏了關鍵信息,中途暫停并補充指令要求“著重強調全年業(yè)績亮點”。GenFlow3.0接收指令后,并未機械地推倒重來,而是不僅理解了新需求,還能“接得住”之前的進度,在原有邏輯流上無縫繼續(xù)生成。

這種“動態(tài)糾偏”能力,標志著AI協作從“指令式”真正邁向了“交互式”。

至此,人機關系已發(fā)生質變:AI不再是單純的輸出工具,而是進入了被管理、被糾偏、深度協作的“員工形態(tài)”。

但當AI需要持續(xù)參與長鏈條任務,甚至面對用戶的反復打斷與修正時,一個底層技術命題隨之浮出水面:它憑什么能記得住上下文、接得住新指令、且越干越順手?

這就觸及到了AI的核心記憶中樞——知識庫。

如今,知識庫雖已成為Agent產品的標配,但真正的體驗鴻溝在于:它究竟是一個死板的“倉庫”,還是一套自然流動的“知識引擎”。理想的知識體系,不應成為用戶的額外負擔,而應在閱讀、思考與創(chuàng)作的過程中無感沉淀、自然生長。

因此,評測的焦點不再是“有沒有”,而在“怎么存(知識獲。”與“怎么用(知識應用)”這兩個關鍵閉環(huán)上。對此,我們對各家的表現進行了全景掃描:

圖片

在“知識獲取”這一環(huán)節(jié),各家的生態(tài)基因決定了三種截然不同的護城河:

首先是ima,它的優(yōu)勢在于對騰訊生態(tài)內容的深度整合。它不僅支持騰訊文檔的一鍵導入,更直接打通了微信公眾號文章的收藏鏈路。這意味著那些封閉在微信私域內的高價值內容,只有ima能將其便捷地轉化為可調用的知識資產。夸克的優(yōu)勢則建立在瀏覽器這一高頻入口上,通過截屏劃詞,夸克可以將碎片化信息的收集門檻降至最低。

相比之下,GenFlow3.0的優(yōu)勢不僅僅是全,更在于“專”。依靠百度文庫百度學術的龐大數據庫,它能獲取到海量別人搜不到的內容——比如各行業(yè)專家上傳的專業(yè)文檔、公文模板、考試題庫以及深度的學術論文。這些通常需要付費或特定權限才能看到的獨家干貨,構成了GenFlow3.0最硬核的知識底座。

此外,GenFlow3.0還構建了一套獨特的“內循環(huán)”機制:所有由AI生成的內容,都可以一鍵回流至知識庫,在畫布中被自由拖拽、重組,并再次參與創(chuàng)作。知識不再只是被存放,而是在反復使用中持續(xù)增值,真正實現了隨取隨用、越用越強。

當然,知識的獲取不是目的,讓獲取的知識為創(chuàng)作賦能才是目的。

當我們將視角轉向“知識應用”時,體驗的分水嶺隨之顯現:

夸克雖然在采集端表現出色,但目前存在明顯的“存儲-應用”斷層——其收藏的內容多以“書簽”形式存在,無法在創(chuàng)作中直接調用,這大大削弱了知識庫的實用價值。同樣,ima的知識庫底座雖然強大,但卻由于工具鏈過于單薄,能夠調用知識庫的場景寥寥無幾,導致沉淀的知識價值無法被充分發(fā)揮出來。

真正的閉環(huán)出現在GenFlow3.0WPS身上。

WPS依托云盤打通了手機、電腦、平板及微信等全端文件,支持實時上傳與調用,構建了“素材存儲-內容創(chuàng)作”的標準閉環(huán)。

GenFlow3.0則構建了更立體的“四重資料體系”:對外連接百度文庫、百度學術的專業(yè)知識,對內通過百度網盤同步各端數據;同時還能自動備份你的查閱歷史和AI生成內容,再加上自定義知識庫,同樣打通了“收、存、用”的完整閉環(huán)。相比WPS,GenFlow3.0勝在知識儲備更廣、應用場景更寬。

淘汰賽正式開始!

很多人說2025年是AI應用的元年,到了年底,AI應用卻已經邁入了下一階段。

一方面,單一的AI工具正在加速向一站式Agent創(chuàng)作平臺演進。另一方面,行業(yè)格局也在重排——大廠正迅速取代創(chuàng)業(yè)公司,成為這場競爭的真正主角。

這兩大變化相互疊加,清晰地勾勒出AI Agent的下一階段走向。

在此之前,Agent靠差異化生存——找到足夠細小的賽道就能立足;但在這之后,百川匯流,Agent正式進入正面戰(zhàn)爭。如果說過去是“晉級賽”,那現在接下來算是進入“淘汰賽”了。

淘汰賽的競爭是全方位的,這種全方位,不僅包含圖片、視頻、音頻、文字在內的多模態(tài)模型;也包括流量和入口在內的生態(tài)協同。這也是為什么大廠在這場游戲中逐漸占據優(yōu)勢的一個重要原因。

但問題也恰恰出現在這里,當牌桌上只剩下大廠,大家同樣資源雄厚時,真正可以拉開差距的地方,顯然還是產品。

那么,AI時代Agent的終極形態(tài)應該是什么樣?我不知道,但我可以確定的是:Agent的終極目標,絕不是在一套固定流程里替用戶完成幾項固定任務。

它應該成為一個“伙伴”,而不是“工具”;它也不應該只服務于具體的工作場景,而是貫穿你生活與創(chuàng)作始終。

正如李飛飛所說,AI的最終使命,是成為人類應對重大挑戰(zhàn)的得力伙伴,讓人類潛能得到更大的釋放,創(chuàng)造一個更美好的未來。

然而,這正是當下許多產品面臨的最大挑戰(zhàn)——許多產品依然停留在流程化思維中,把創(chuàng)作理解為可預設的步驟。但顯然,如果AI只是按照流程行事,那它終究又會回到傳統(tǒng)SaaS的老路,失去應有的創(chuàng)造力與可能性。

因此,未來Agent的核心賽點不再取決于單次的“生成驚艷度”,而在于它能否真正滲透進復雜的工作現場,并長期駐扎下來。

對絕大多數人而言,工作的本質并非對話框里的閑聊,而是對文檔、PPT與表格的反復打磨。如果AI止步于一次性交付,無法進入這些深度編輯場景,那它終究只能是游離于核心工作流之外。

所以,我們認為真正的下一代Agent,必須重構三大能力支柱:

全域收斂:能一站式調度圖文、數據與演示,將零散指令收斂為完整的工作流;

記憶復利:能沉淀你的偏好與歷史成果,讓每一次創(chuàng)作都站在過去積累的肩膀之上;

深度協同:必須允許人類隨時介入、打斷與修正,真正實現從“起草”到“交付”的閉環(huán)。

當Agent具備了這些素質,競爭便超越了模型接口的參數之爭,轉變?yōu)槿祟悊T工“長期協作伙伴”的生態(tài)位之爭。

在辦公和創(chuàng)作場景下,真正的中國版“Nano Banana”,不會誕生在某個炫技式的Demo中,而只會誕生在——那個你每天都離不開的,多模態(tài)創(chuàng)作的“超級員工”身上。

* 文中配圖來源于網絡

       原文標題 : 年終盤點:誰會成為中國的"Nano Banana"?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號