訂閱
糾錯(cuò)
加入自媒體

大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強(qiáng)大腦”

作者:Hongzhe Bi等

解讀:AI生成未來

亮點(diǎn)直擊

統(tǒng)一的基礎(chǔ)模型:Motus,一個(gè)統(tǒng)一的具身基礎(chǔ)模型,首次在一個(gè)生成式框架內(nèi)集成了五種主流范式(世界模型、逆動(dòng)力學(xué)模型、VLAs、視頻生成模型以及 視頻-動(dòng)作聯(lián)合預(yù)測(cè)模型),且未犧牲通用的多模態(tài)先驗(yàn)

MoT 架構(gòu)與聯(lián)合注意力:引入混合 Transformer (MoT) 架構(gòu),通過“三模態(tài)聯(lián)合注意力機(jī)制”連接預(yù)訓(xùn)練的視頻生成專家、動(dòng)作專家和理解專家

潛在動(dòng)作:利用光流學(xué)習(xí)“潛在動(dòng)作”,解決了大規(guī)模無標(biāo)簽視頻數(shù)據(jù)無法用于動(dòng)作預(yù)訓(xùn)練的難題

可擴(kuò)展的訓(xùn)練配方:提出一套“三階段訓(xùn)練流程”和“六層數(shù)據(jù)金字塔”,能利用異構(gòu)數(shù)據(jù)(互聯(lián)網(wǎng)視頻、人類視頻、多機(jī)器人數(shù)據(jù)等)學(xué)習(xí)跨具身智能體的可遷移運(yùn)動(dòng)知識(shí)

解決的問題

能力碎片化問題:現(xiàn)有的具身智能方法通常將感知、世界建模和控制隔離開來(例如 VLA 僅做靜態(tài)策略,WM 僅做預(yù)測(cè)),缺乏一個(gè)統(tǒng)一系統(tǒng)來整合場景理解、指令遵循、未來想象和動(dòng)作生成。

異構(gòu)數(shù)據(jù)利用難:不同機(jī)器人的動(dòng)作空間差異巨大,且海量的互聯(lián)網(wǎng)視頻數(shù)據(jù)缺乏動(dòng)作標(biāo)簽,F(xiàn)有的方法難以利用這些大規(guī)模無標(biāo)簽數(shù)據(jù)來學(xué)習(xí)通用的運(yùn)動(dòng)和物理交互先驗(yàn),限制了模型的泛化能力。

提出的方案

統(tǒng)一架構(gòu) Motus:基于 MoT 架構(gòu),集成了預(yù)訓(xùn)練的視頻生成模型(Wan 2.2 5B)和視覺語言模型(Qwen3-VL-2B)。采用類似 UniDiffuser 的調(diào)度器,通過分配不同的時(shí)間步和噪聲尺度,實(shí)現(xiàn)對(duì)邊緣分布、條件分布和聯(lián)合分布的統(tǒng)一建模,支持靈活切換推理模式。

動(dòng)作密集-視頻稀疏預(yù)測(cè):為了平衡視頻token和動(dòng)作token的數(shù)量,并在動(dòng)作分塊(Chunking)技術(shù)下提高效率,采用了視頻幀率低于動(dòng)作幀率的采樣策略。

基于光流的潛在動(dòng)作:使用深度壓縮自編碼器(DC-AE)重構(gòu)光流,將其編碼為低維潛在向量,并結(jié)合少量任務(wù)無關(guān)的動(dòng)作標(biāo)簽進(jìn)行監(jiān)督,使模型能從無標(biāo)簽視頻中學(xué)習(xí)物理動(dòng)態(tài)。

應(yīng)用的技術(shù)

Mixture-of-Transformer (MoT) :混合專家架構(gòu)。

Tri-model Joint Attention:三模態(tài)聯(lián)合注意力機(jī)制,用于跨模態(tài)知識(shí)融合。

Rectified Flow:基于整流流的生成目標(biāo),用于聯(lián)合預(yù)測(cè)視頻和動(dòng)作。

Optical Flow & DC-AE:利用 DPFlow 計(jì)算光流,并使用卷積變分自編碼器進(jìn)行壓縮,作為潛在動(dòng)作表征。

UniDiffuser-style Scheduler:用于多模態(tài)生成的噪聲調(diào)度策略。

達(dá)到的效果

仿真環(huán)境 (RoboTwin 2.0) :在包含 50+ 任務(wù)的基準(zhǔn)測(cè)試中,Motus 相比 X-VLA 提升了 15%,相比  提升了 45%,特別是在隨機(jī)化場景下表現(xiàn)優(yōu)異。

真實(shí)世界環(huán)境:在 AC-One 和 Agilex-Aloha-2 雙臂機(jī)器人上進(jìn)行了測(cè)試,涵蓋長視距規(guī)劃和精細(xì)操作任務(wù),成功率相比基線提升了 11%~48% 。

多模態(tài)能力:證明了模型不僅能作為策略控制機(jī)器人,還能作為高質(zhì)量的視頻生成器和世界模型預(yù)測(cè)未來。

問題闡述與挑戰(zhàn)

具身策略

本工作考慮語言條件下的機(jī)器人操作任務(wù)。對(duì)于每個(gè)具身智能體,任務(wù)定義了動(dòng)作 、觀測(cè) (視覺輸入)、語言指令  以及機(jī)器人的本體感知 ,其中  分別表示動(dòng)作空間、觀測(cè)空間和語言指令空間。任務(wù)通常提供一個(gè)專家數(shù)據(jù)集 ,其中包含專家在  個(gè)時(shí)間步內(nèi)收集的機(jī)器人本體感知、視覺觀測(cè)和動(dòng)作,以及每條軌跡對(duì)應(yīng)的語言標(biāo)注。本工作在  上訓(xùn)練一個(gè)由  參數(shù)化的策略。在每個(gè)時(shí)間步 ,策略基于當(dāng)前的觀測(cè)和本體感知預(yù)測(cè)接下來的  個(gè)動(dòng)作(即動(dòng)作分塊 action chunking),對(duì)分布  或  進(jìn)行建模。策略  的訓(xùn)練目標(biāo)是最大化似然目標(biāo):

此外,基于上述符號(hào)定義,可以推導(dǎo)出具身智能 5 種建模類型的概率分布,這些可以集成到一個(gè)單一的模型中進(jìn)行訓(xùn)練:

VLA: .WM (世界模型): .IDM (逆動(dòng)力學(xué)模型): .VGM (視頻生成模型): .視頻-動(dòng)作聯(lián)合預(yù)測(cè)模型: .

挑戰(zhàn) 1:統(tǒng)一多模態(tài)生成能力

一個(gè)有能力的具身智能體必須作為一個(gè)統(tǒng)一的整體,整合一系列認(rèn)知功能——從理解場景和指令、想象可能的未來,到預(yù)測(cè)后果和生成動(dòng)作。目前的模型是碎片化的,無法在一個(gè)系統(tǒng)中捕捉所有必要的能力。這就提出了一個(gè)挑戰(zhàn):如何在一個(gè)框架內(nèi)統(tǒng)一建模五個(gè)關(guān)鍵分布——VLA、世界模型、IDM、視頻生成模型和視頻-動(dòng)作聯(lián)合預(yù)測(cè)模型。雖然以前的工作(如 UWMs)取得了一些進(jìn)展,但仍存在一個(gè)關(guān)鍵局限:這些方法要么是從頭開始訓(xùn)練的,要么是建立在較小的基礎(chǔ)模型之上,或者——即使結(jié)合了一些先驗(yàn)——也總是缺乏全方位的知識(shí),要么缺少來自 VLM 的視覺理解先驗(yàn),要么缺少來自 VGM 的物理交互先驗(yàn)。因此,它們?nèi)狈Ψ(wěn)健和可泛化的具身智能所需的全面世界知識(shí)。因此,在一個(gè)統(tǒng)一框架內(nèi)聯(lián)合建模視覺、語言和動(dòng)作的各種分布這一非同尋常的挑戰(zhàn)仍未得到解決,這正是本工作所填補(bǔ)的空白。

挑戰(zhàn) 2:異構(gòu)數(shù)據(jù)的利用

具身智能的一個(gè)核心挑戰(zhàn)是如何有效利用大規(guī)模異構(gòu)數(shù)據(jù)。不同具身智能體的動(dòng)作空間在維度、范圍和語義上差異很大,機(jī)器人在形態(tài)、驅(qū)動(dòng)和傳感方面也各不相同。結(jié)果是,控制信號(hào)無法直接復(fù)用,策略難以學(xué)習(xí)可跨具身智能體遷移的通用先驗(yàn),F(xiàn)有的方法試圖通過使用帶有具身特定信息注入的通用骨干網(wǎng)絡(luò),或構(gòu)建強(qiáng)制統(tǒng)一不同具身智能體的高維動(dòng)作向量來解決這個(gè)問題。然而,它們?nèi)匀恢饕蕾囉谟袠?biāo)簽的機(jī)器人軌跡,無法將這些數(shù)據(jù)集與缺乏動(dòng)作標(biāo)注但包含豐富運(yùn)動(dòng)和物理交互線索的大規(guī);ヂ(lián)網(wǎng)視頻或以自我為中心的人類視頻整合在一起。這一局限性阻礙了動(dòng)作專家的大規(guī)模預(yù)訓(xùn)練,并降低了學(xué)習(xí)通用運(yùn)動(dòng)先驗(yàn)的能力。

方法論Motus

模型架構(gòu)。為了解決前面概述的統(tǒng)一多模態(tài)生成能力的挑戰(zhàn),本工作提出了 Motus,一個(gè)統(tǒng)一的潛在動(dòng)作世界模型。首先,Motus 被設(shè)計(jì)為一個(gè)通用的生成模型,在異構(gòu)多模態(tài)數(shù)據(jù)上進(jìn)行聯(lián)合學(xué)習(xí),從而在一個(gè)單一網(wǎng)絡(luò)中集成通用系統(tǒng)的多種能力(例如,建模 5 種分布)。其次,為了避免對(duì)海量對(duì)齊多模態(tài)數(shù)據(jù)的不切實(shí)際的需求,Motus 利用了現(xiàn)有基礎(chǔ)模型的豐富預(yù)訓(xùn)練先驗(yàn)。它在一個(gè)混合 Transformer (MoT) 架構(gòu)中(如圖 1 所示)集成了一個(gè)預(yù)訓(xùn)練的 VGM(生成專家)、一個(gè)帶有預(yù)訓(xùn)練 VLM 的理解專家和一個(gè)動(dòng)作專家,有效地融合了它們的互補(bǔ)優(yōu)勢(shì)——涵蓋場景理解、指令解釋、后果預(yù)測(cè)、未來視頻想象和動(dòng)作規(guī)劃——而無需完全從頭開始訓(xùn)練。

圖 1.Motus 架構(gòu)。 在這里,... 是動(dòng)作,...  是潛在動(dòng)作,τv 和 τa 分別是視頻生成模型和動(dòng)作專家的修正流時(shí)間步長。圖 1.Motus 架構(gòu)。 在這里,... 是動(dòng)作,...  是潛在動(dòng)作,τv 和 τa 分別是視頻生成模型和動(dòng)作專家的修正流時(shí)間步長。

與統(tǒng)一世界模型 (UWMs) 簡單地連接觀測(cè)token和動(dòng)作token并通過單一的  個(gè) UWM 塊(包含自注意力和前饋網(wǎng)絡(luò) (FFN) 層)處理不同,本工作的方法通過采用 MoT 結(jié)構(gòu)利用了預(yù)訓(xùn)練的 VLM 和 VGM。在該模型中,每個(gè)專家維護(hù)一個(gè)獨(dú)立的 Transformer 模塊,而多頭自注意力層是連接的,即**三模態(tài)聯(lián)合注意力 (Tri-model Joint Attention)**。這不僅保留了專家之間獨(dú)特的功能角色而不引起任務(wù)干擾,還實(shí)現(xiàn)了有效的跨模態(tài)特征融合,鼓勵(lì)多樣化的預(yù)訓(xùn)練知識(shí)相互補(bǔ)充。在訓(xùn)練期間,Motus 使用基于整流流 (rectified flow) 的目標(biāo)聯(lián)合預(yù)測(cè)視頻塊和動(dòng)作塊:

其中  是條件幀, 是隨后的觀測(cè)和動(dòng)作, 和  是分配的時(shí)間步, 是采樣的該高斯噪聲, 是統(tǒng)一模型預(yù)測(cè)的速度場, 分別是觀測(cè)和動(dòng)作的損失。通過為視頻和動(dòng)作分別分配不同的時(shí)間步和噪聲尺度,Motus 建立了一個(gè)類似 UniDiffuser 的調(diào)度器,以捕捉異構(gòu)數(shù)據(jù)分布,并在推理過程中自適應(yīng)地在各種具身基礎(chǔ)模型模式之間切換(例如,VLA、世界模型、IDM、VGM、聯(lián)合預(yù)測(cè))。最終模型在一個(gè)統(tǒng)一的多模態(tài)架構(gòu)內(nèi)實(shí)現(xiàn)了理解場景、遵循指令、預(yù)測(cè)結(jié)果、想象未來和輸出動(dòng)作。

動(dòng)作密集-視頻稀疏預(yù)測(cè) (Action-Dense Video-Sparse Prediction)。由于本模型建立在廣泛引用的動(dòng)作分塊 (action-chunking) 技術(shù)之上,Motus 需要預(yù)測(cè)未來的視頻塊和動(dòng)作序列 。這導(dǎo)致了幾個(gè)問題:(1) 訓(xùn)練和推理效率低,(2) 冗余的視頻幀預(yù)測(cè),以及 (3) 三模態(tài)聯(lián)合注意力機(jī)制中的不平衡——視頻token的數(shù)量顯著超過動(dòng)作token。這種不平衡導(dǎo)致模型過度擬合視頻預(yù)測(cè),從而削弱了其動(dòng)作預(yù)測(cè)能力。為了解決這些問題,本工作提出了動(dòng)作密集-視頻稀疏預(yù)測(cè)策略,如圖 2 所示。在訓(xùn)練和推理過程中,本工作對(duì)視頻幀進(jìn)行下采樣,使視頻token和動(dòng)作token的數(shù)量保持平衡——例如,將視頻幀率設(shè)置為動(dòng)作幀率的六分之一。

圖 2. 動(dòng)作密集視頻稀疏預(yù)測(cè).視頻幀和動(dòng)作的采樣率不同圖 2. 動(dòng)作密集視頻稀疏預(yù)測(cè).視頻幀和動(dòng)作的采樣率不同

專家細(xì)節(jié)

對(duì)于生成專家,本工作采用 Wan 2.2 5B 作為視頻基礎(chǔ)模型,因?yàn)樗子讷@取和使用。本工作擴(kuò)展了其自注意力上下文以創(chuàng)建跨模態(tài)的三模態(tài)聯(lián)合注意力機(jī)制。對(duì)于動(dòng)作專家,本工作構(gòu)建了一個(gè)與 Wan 深度相同的 Transformer 塊。每個(gè)塊包含用于注入整流流時(shí)間步的 AdaLN、一個(gè)前饋網(wǎng)絡(luò) (FFN) 和用于跨專家交互的三模態(tài)聯(lián)合注意力。本工作選擇 Qwen3-VL-2B 作為理解專家,因?yàn)樗?3D 接地 (grounding)、空間理解和精確物體定位方面具有固有能力,這對(duì)于機(jī)器人操作至關(guān)重要。該專家的輸入取自 VLM 對(duì)應(yīng)token的最后一層。理解專家本身由幾個(gè) Transformer 塊組成,每個(gè)塊包含層歸一化、一個(gè) FFN 和三模態(tài)聯(lián)合注意力。

潛在動(dòng)作

本工作進(jìn)一步解決了挑戰(zhàn) 2,通過直接從視覺動(dòng)態(tài)中學(xué)習(xí)可泛化的動(dòng)作模式來利用大規(guī)模異構(gòu)數(shù)據(jù)。具體而言,引入了**潛在動(dòng)作 (latent actions)**,它編碼了直接從像素學(xué)習(xí)到的運(yùn)動(dòng)。這些潛在動(dòng)作允許模型從互聯(lián)網(wǎng)視頻、以自我為中心的人類演示和多機(jī)器人軌跡等各種來源吸收運(yùn)動(dòng)知識(shí),從而增強(qiáng)動(dòng)作專家的預(yù)訓(xùn)練,即使是在沒有顯式動(dòng)作標(biāo)簽的數(shù)據(jù)上也是如此。

基于光流的表示

本工作采用光流作為運(yùn)動(dòng)的自然表示,它捕捉連續(xù)幀之間的像素級(jí)位移。具體來說,光流由 DPFlow 計(jì)算,然后轉(zhuǎn)換為 RGB 圖像。為了將這種高維表示壓縮到控制級(jí)空間,本工作采用了深度卷積變分自編碼器 (DC-AE),它在重構(gòu)光流的同時(shí)將其編碼為四個(gè) 512 維的token。然后,一個(gè)輕量級(jí)編碼器將這些連接的  特征投影到一個(gè) 14 維向量中,大致匹配典型機(jī)器人動(dòng)作空間的規(guī)模。整體架構(gòu)如圖 3 所示。這種維度對(duì)應(yīng)關(guān)系確保了潛在表示可以自然地與真實(shí)的機(jī)器人控制對(duì)齊,并充當(dāng)感知和動(dòng)作之間的橋梁。

圖3 Latent Action VAE圖3 Latent Action VAE

訓(xùn)練與分布對(duì)齊。為了幫助將潛在空間對(duì)齊到現(xiàn)實(shí)的動(dòng)作空間,遵循 AnyPos 的方法整合了任務(wù)無關(guān)數(shù)據(jù)。具體來說,任務(wù)無關(guān)數(shù)據(jù)使用 Curobo 通過以任務(wù)無關(guān)的方式隨機(jī)采樣目標(biāo)機(jī)器人的動(dòng)作空間來收集圖像-動(dòng)作對(duì)。這些數(shù)據(jù)提供了額外的真實(shí)動(dòng)作監(jiān)督,幫助 VAE 學(xué)習(xí)反映可行運(yùn)動(dòng)行為的嵌入,并將潛在動(dòng)作錨定到真實(shí)的控制分布。

在訓(xùn)練期間,本工作混合了 90% 的用于自監(jiān)督重構(gòu)的無標(biāo)簽數(shù)據(jù)和 10% 的用于弱動(dòng)作監(jiān)督的有標(biāo)簽軌跡,其中有標(biāo)簽部分包括任務(wù)無關(guān)數(shù)據(jù)和標(biāo)準(zhǔn)機(jī)器人演示。維度對(duì)應(yīng)和弱動(dòng)作監(jiān)督共同驅(qū)動(dòng)潛在動(dòng)作分布與真實(shí)動(dòng)作分布對(duì)齊,使得從視頻中學(xué)習(xí)到的運(yùn)動(dòng)先驗(yàn)自然地映射到可執(zhí)行的控制。

總損失結(jié)合了重構(gòu)、對(duì)齊和 KL 正則化:

其中  最小化光流重構(gòu)誤差,第二項(xiàng)對(duì)齊潛在動(dòng)作和真實(shí)動(dòng)作, 正則化潛在空間; 和  是超參數(shù)。

模型訓(xùn)練與數(shù)據(jù)

Motus 訓(xùn)練。Motus 分三個(gè)結(jié)構(gòu)化階段進(jìn)行訓(xùn)練(表 1),逐步將來自不同數(shù)據(jù)集的物理交互先驗(yàn)整合到可遷移至目標(biāo)機(jī)器人的策略中。每個(gè)階段解決一個(gè)關(guān)鍵挑戰(zhàn):

階段 1:學(xué)習(xí)視覺動(dòng)態(tài)。 為了將模型錨定在現(xiàn)實(shí)的物理交互中,本工作首先使用多機(jī)器人軌跡和人類視頻調(diào)整視頻生成模型 (VGM)。這使得 VGM 能夠根據(jù)語言指令和初始圖像生成任務(wù)的合理未來視頻序列。

階段 2:潛在動(dòng)作預(yù)訓(xùn)練。 在此階段,本工作利用潛在動(dòng)作 VAE 將光流編碼為“偽動(dòng)作”標(biāo)簽。這使得動(dòng)作專家能夠在不需要真實(shí)動(dòng)作標(biāo)注的情況下,在大規(guī)模視頻數(shù)據(jù)集(包括互聯(lián)網(wǎng)和人類視頻)上進(jìn)行預(yù)訓(xùn)練。這一過程在動(dòng)作專家中建立了通用的運(yùn)動(dòng)先驗(yàn)和對(duì)物理因果關(guān)系的理解。

階段 3:具身特定動(dòng)作微調(diào)。 最后,本工作在目標(biāo)機(jī)器人的特定數(shù)據(jù)集上微調(diào)整個(gè)模型(包括理解、生成和動(dòng)作專家)。此階段使模型適應(yīng)特定具身智能體的特定運(yùn)動(dòng)學(xué)和動(dòng)力學(xué),將通用的運(yùn)動(dòng)知識(shí)轉(zhuǎn)化為精確的控制策略。

六層數(shù)據(jù)金字塔。為了支持這種漸進(jìn)式學(xué)習(xí),本工作構(gòu)建了一個(gè)分層的數(shù)據(jù)金字塔,按規(guī)模和特異性組織:

Web-Scale Videos (網(wǎng)絡(luò)規(guī)模視頻) :提供廣泛的世界知識(shí)和多樣化的場景(例如,Ego4D, Something-Something v2)。

Human Egocentric Videos (人類以自我為中心的視頻) :提供類似機(jī)器人的第一人稱視角的豐富手-物交互(例如,Ego4D 子集)。

Simulation Data (仿真數(shù)據(jù)) :提供具有完美動(dòng)作標(biāo)簽的大規(guī)模、多樣化物理交互(例如,SimplerEnv, RoboTwin)。

Task-Agnostic Robotic Data (任務(wù)無關(guān)機(jī)器人數(shù)據(jù)) :橋接視覺運(yùn)動(dòng)和物理控制,無需特定任務(wù)語義。

Multi-Robot Trajectories (多機(jī)器人軌跡) :來自各種機(jī)器人平臺(tái)(例如,BridgeData V2, Open X-Embodiment)的演示,提供跨具身概括。

Target Robotic Data (目標(biāo)機(jī)器人數(shù)據(jù)) :目標(biāo)機(jī)器人的特定任務(wù)演示,用于最終微調(diào)。圖4。具身數(shù)據(jù)金字塔將數(shù)據(jù)分為六個(gè)層級(jí),從底部的1級(jí)到頂端的6級(jí)。數(shù)據(jù)量從下而上遞減,而數(shù)據(jù)質(zhì)量則在提升。3級(jí)和4級(jí)的順序有時(shí)會(huì)有所不同。圖4。具身數(shù)據(jù)金字塔將數(shù)據(jù)分為六個(gè)層級(jí),從底部的1級(jí)到頂端的6級(jí)。數(shù)據(jù)量從下而上遞減,而數(shù)據(jù)質(zhì)量則在提升。3級(jí)和4級(jí)的順序有時(shí)會(huì)有所不同。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

模型總參數(shù)量約為 8B (Wan 2.2 5B + Qwen3-VL 2B + 輕量級(jí) Action Expert)。

基線:對(duì)比了  (Pi-zero), X-VLA, Octo 等模型。

仿真實(shí)驗(yàn) (RoboTwin 2.0):

在包含 50+ 任務(wù)的基準(zhǔn)中,測(cè)試了“清潔場景”和“隨機(jī)化場景”(背景、光照、干擾物隨機(jī)化)。

結(jié)果:Motus 在隨機(jī)化設(shè)置下取得了 87.02% 的平均成功率,相比  (42.98%) 提升了約 45%,相比 X-VLA (72.84%) 提升了約 15%。這證明了 Motus 在處理分布外 (OOD) 場景時(shí)的強(qiáng)大魯棒性。

真實(shí)世界實(shí)驗(yàn)

平臺(tái):AC-One 和 Agilex-Aloha-2 雙臂機(jī)器人。

任務(wù):包括疊毛巾、煮咖啡、倒水、抓取物體等長視距任務(wù)。

結(jié)果:在 AC-One 上,Motus 平均成功率達(dá)到 63.22%(基線  為 14.79%);在 Aloha-2 上,Motus 達(dá)到 59.30%(基線  為 48.60%)。展示了模型在未見過的物體(OOD Cube)和復(fù)雜操作流程中的泛化能力。

消融研究

驗(yàn)證了預(yù)訓(xùn)練階段的重要性。無預(yù)訓(xùn)練的模型效果最差,僅階段 1 預(yù)訓(xùn)練(視覺動(dòng)態(tài))帶來一定提升,而完整的階段 2 預(yù)訓(xùn)練(潛在動(dòng)作)帶來了最大的性能飛躍。

多模態(tài)能力驗(yàn)證

VGM 模式:生成了高質(zhì)量的未來視頻幀。

WM 模式:準(zhǔn)確預(yù)測(cè)了基于動(dòng)作的未來狀態(tài)。

IDM 模式:在逆動(dòng)力學(xué)預(yù)測(cè)誤差 (MSE) 上優(yōu)于專門訓(xùn)練的 ResNet/DINOv2 IDM 基線 (0.014 vs 0.044/0.122)。

結(jié)論與局限性

Motus,這是一個(gè)統(tǒng)一的潛在動(dòng)作世界模型,它將具身基礎(chǔ)模型的主流能力集成到一個(gè)單一的生成框架中,即視覺-語言理解、視頻生成、逆動(dòng)力學(xué)、世界建模和視頻-動(dòng)作聯(lián)合預(yù)測(cè)。通過 MoT 連接預(yù)訓(xùn)練專家,使用 UniDiffuser 風(fēng)格的調(diào)度器協(xié)調(diào)多模態(tài)建模,并引入潛在動(dòng)作作為像素級(jí)“Delta Action”和運(yùn)動(dòng)表示,Motus 有效地從大規(guī)模異構(gòu)數(shù)據(jù)中學(xué)習(xí),并繼承了通用多模態(tài)先驗(yàn)和豐富的物理交互知識(shí)。在仿真和真實(shí)世界場景中的大量實(shí)驗(yàn)表明,統(tǒng)一建模所有功能和先驗(yàn)顯著有利于下游機(jī)器人任務(wù)。

局限性:盡管結(jié)果很有希望,但 Motus 需要大量的計(jì)算資源進(jìn)行訓(xùn)練和推理,這可能會(huì)限制其實(shí)時(shí)應(yīng)用。此外,雖然潛在動(dòng)作彌補(bǔ)了視覺和控制之間的差距,但在極其精細(xì)的操作任務(wù)中,其保真度可能仍不如直接的高頻本體感知控制。未來的工作將集中在優(yōu)化推理效率和探索更高保真度的潛在動(dòng)作表示上。

參考文獻(xiàn)

[1] Motus: A Unified Latent Action World Model

       原文標(biāo)題 : 大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量視頻喂出“最強(qiáng)大腦”

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)