訂閱
糾錯(cuò)
加入自媒體

24FPS實(shí)時(shí)生成!騰訊混元推出WorldPlay:打破“速度與記憶”悖論,720P無限流視頻隨意玩!

作者:Wenqiang Sun等

解讀:AI生成未來

亮點(diǎn)直擊

WorldPlay,一個(gè)針對(duì)通用場(chǎng)景的實(shí)時(shí)、長期一致的世界模型。

雙重動(dòng)作表示:提出了一種結(jié)合離散鍵盤輸入和連續(xù)攝像機(jī)姿態(tài)的雙重動(dòng)作表示方法。既實(shí)現(xiàn)了對(duì)用戶輸入的魯棒控制,又提供了精確的空間位置信息,解決了傳統(tǒng)方法在控制精度和訓(xùn)練穩(wěn)定性上的不足。

建上下文記憶和時(shí)間重構(gòu):為了解決長期幾何一致性的挑戰(zhàn),WorldPlay 引入了重建上下文記憶機(jī)制,它動(dòng)態(tài)地從歷史幀中重建上下文。

上下文強(qiáng)制:一種新穎的蒸餾方法,旨在解決內(nèi)存感知模型在實(shí)時(shí)生成中常見的誤差累積和分布不匹配問題。確保了蒸餾過程的有效性,使得學(xué)生模型在保持實(shí)時(shí)速度的同時(shí),能夠有效利用長程信息并防止誤差漂移。

這些創(chuàng)新共同使得 WorldPlay 能夠?qū)崿F(xiàn)實(shí)時(shí)、交互式的視頻生成,并在長期生成過程中保持卓越的幾何一致性。

總結(jié)速覽

解決的問題

WorldPlay 旨在解決當(dāng)前實(shí)時(shí)交互式世界模型中的一個(gè)根本性挑戰(zhàn):如何在兼顧實(shí)時(shí)生成速度的同時(shí),保持長期幾何一致性,F(xiàn)有的方法往往難以同時(shí)實(shí)現(xiàn)這兩點(diǎn),例如,一些方法為了追求速度而犧牲了在場(chǎng)景重訪時(shí)的一致性,而另一些方法雖然能保持一致性,但由于復(fù)雜的內(nèi)存機(jī)制而無法實(shí)現(xiàn)實(shí)時(shí)交互。此外,傳統(tǒng)的位置編碼在處理長序列時(shí)可能導(dǎo)致長程信息衰減和外推偽影,進(jìn)一步加劇了幾何一致性的挑戰(zhàn)。

提出的方案

WorldPlay 提出了一個(gè)流式視頻擴(kuò)散模型,通過自回歸預(yù)測(cè)未來的視頻幀或塊,以響應(yīng)用戶輸入。其核心方案是利用三項(xiàng)關(guān)鍵創(chuàng)新來解決速度與一致性的權(quán)衡問題,確保模型在實(shí)時(shí)交互中保持長期幾何連貫性。

應(yīng)用的技術(shù)

雙重動(dòng)作表示 (Dual Action Representation) :結(jié)合了離散按鍵輸入(提供魯棒、適應(yīng)尺度的運(yùn)動(dòng))和連續(xù)攝像機(jī)姿態(tài)(提供精確空間位置以進(jìn)行記憶檢索),解決了各自方法的局限性。

重建上下文記憶 (Reconstituted Context Memory):通過兩階段過程動(dòng)態(tài)重建記憶上下文,包括捕獲短期運(yùn)動(dòng)的時(shí)間記憶和防止長期幾何漂移的空間記憶,后者采樣自非相鄰的過去幀,并由幾何相關(guān)性分?jǐn)?shù)指導(dǎo)。

時(shí)間重構(gòu) (Temporal Reframing) :針對(duì) RoPE 中遠(yuǎn)距離 token 影響減弱的問題,該技術(shù)動(dòng)態(tài)地為所有上下文幀重新分配位置編碼,使其與當(dāng)前幀保持固定的、小的相對(duì)距離,從而使幾何重要的過去幀保持影響力。

上下文強(qiáng)制 (Context Forcing) :一種專為內(nèi)存感知模型設(shè)計(jì)的蒸餾方法。它通過在蒸餾過程中對(duì)齊教師模型和學(xué)生模型之間的記憶上下文,解決了因分布不匹配導(dǎo)致的性能下降,使得學(xué)生模型能在少量步去噪下實(shí)現(xiàn)實(shí)時(shí)生成,同時(shí)保持長期記憶并緩解誤差累積。

分塊自回歸生成:將全序列視頻擴(kuò)散模型微調(diào)為分塊自回歸模型,以實(shí)現(xiàn)無限長交互式生成。

達(dá)到的效果

實(shí)時(shí)交互性:能夠以24 FPS 的速度生成 720p 的流式視頻,實(shí)現(xiàn)低延遲的交互式體驗(yàn)。

卓越的長期幾何一致性:在用戶控制和場(chǎng)景重訪時(shí),模型能保持場(chǎng)景的連貫性和穩(wěn)定性,解決了以往模型中常見的幾何不一致問題。

強(qiáng)大的泛化能力:在多樣化的真實(shí)世界和風(fēng)格化世界場(chǎng)景中展現(xiàn)出顯著的泛化能力,無論是第一人稱還是第三人稱視角。

多功能應(yīng)用支持:支持3D重建、文本驅(qū)動(dòng)的動(dòng)態(tài)世界事件觸發(fā)(可提示事件)以及視頻續(xù)寫等多種應(yīng)用。

解決了誤差累積問題:通過上下文強(qiáng)制等機(jī)制,有效緩解了自回歸模型在長序列生成中常見的誤差累積問題。

方法

本文的目標(biāo)是構(gòu)建一個(gè)幾何一致且實(shí)時(shí)的交互式世界模型 ,其參數(shù)為,能夠根據(jù)過去的觀察 、動(dòng)作序列  和當(dāng)前動(dòng)作  生成下一個(gè)塊 (一個(gè)塊包含幾幀)。其中  是描述世界的文本提示或圖像。為簡化表示,后續(xù)章節(jié)將省略 。本文首先介紹相關(guān)預(yù)備知識(shí)。然后本文討論用于控制的動(dòng)作表示。隨后描述了本文的重建上下文記憶以確保長期幾何一致性,隨后介紹了本文的上下文強(qiáng)制,它緩解了曝光偏差并實(shí)現(xiàn)了少量步生成,同時(shí)保持了長期一致性。最后,詳細(xì)介紹了用于實(shí)時(shí)流式生成的額外優(yōu)化。其流程如下圖2所示。

用于控制的雙重動(dòng)作表示

現(xiàn)有方法使用鍵盤和鼠標(biāo)輸入作為動(dòng)作信號(hào),并通過MLP或注意力塊注入動(dòng)作控制。這使得模型能夠?qū)W習(xí)跨不同尺度場(chǎng)景(例如非常大和非常小的場(chǎng)景)的物理上合理的運(yùn)動(dòng)。然而,它們難以提供精確的先前位置以進(jìn)行空間記憶檢索。相比之下,攝像機(jī)姿態(tài)(旋轉(zhuǎn)矩陣和轉(zhuǎn)換向量)提供了精確的空間位置,有助于精確控制和記憶檢索,但僅使用攝像機(jī)姿態(tài)進(jìn)行訓(xùn)練由于訓(xùn)練數(shù)據(jù)中的尺度差異而面臨訓(xùn)練穩(wěn)定性的挑戰(zhàn)。為了解決這個(gè)問題,本文提出了如下圖3所示的雙重動(dòng)作表示,它結(jié)合了兩者的優(yōu)點(diǎn)。

這種設(shè)計(jì)不僅為記憶模塊緩存了空間位置,而且實(shí)現(xiàn)了魯棒和精確的控制。具體來說,本文采用PE和零初始化MLP來編碼離散按鍵,并將其并入時(shí)間步嵌入中,然后用于調(diào)制DiT塊。對(duì)于連續(xù)攝像機(jī)姿態(tài),本文利用相對(duì)位置編碼,即PRoPE,它比常用的光線圖具有更大的泛化能力,將完整的攝像機(jī)視錐體注入到自注意力塊中。原始自注意力計(jì)算如公式(2)所示:

其中  代表視頻潛變量的3D旋轉(zhuǎn)PE (RoPE)。為了編碼攝像機(jī)之間的視錐體關(guān)系,本文利用一個(gè)額外的注意力計(jì)算,如公式(3)所示:

此處, 是根據(jù)攝像機(jī)的內(nèi)參和外參導(dǎo)出的,如論文 [33] 中所述。最后,每個(gè)自注意力塊的結(jié)果是 。

用于一致性的重建上下文記憶

保持長期幾何一致性需要回憶過去的幀,確保在重新訪問先前位置時(shí)內(nèi)容保持不變。然而,天真地使用所有過去的幀作為上下文(如下圖4a所示)對(duì)于長序列來說在計(jì)算上是不可行的且冗余的。為了解決這個(gè)問題,本文為每個(gè)新塊  從過去的塊  重建記憶上下文 。本文的方法通過結(jié)合短期時(shí)間線索和長程空間參考,超越了先前的工作,如[67, 74]:

時(shí)間記憶 () 包含最近的  個(gè)塊 ,以確保短期運(yùn)動(dòng)平滑。

空間記憶 () 從非相鄰的過去幀中采樣,以防止長序列上的幾何漂移,其中 。此采樣由結(jié)合了視場(chǎng)重疊和攝像機(jī)距離的幾何相關(guān)性分?jǐn)?shù)指導(dǎo)。

一旦記憶上下文被重建,挑戰(zhàn)就轉(zhuǎn)移到如何應(yīng)用它們來強(qiáng)制一致性。有效使用檢索到的上下文需要克服位置編碼中的一個(gè)根本缺陷。使用標(biāo)準(zhǔn)RoPE(如上圖4b所示),當(dāng)前塊與過去記憶之間的距離隨時(shí)間無限增長。這種不斷增長的相對(duì)距離最終可能超過RoPE中訓(xùn)練的插值范圍,導(dǎo)致外推偽影。更關(guān)鍵的是,對(duì)這些早已過去的空間記憶的感知距離不斷增長會(huì)削弱它們對(duì)當(dāng)前預(yù)測(cè)的影響。為了解決這個(gè)問題,本文提出了時(shí)間重構(gòu)(如上圖4c所示)。本文放棄了絕對(duì)時(shí)間索引,并動(dòng)態(tài)地為所有上下文幀重新分配新的位置編碼,建立與當(dāng)前幀固定的、小的相對(duì)距離,無論它們實(shí)際的時(shí)間間隔如何。這種操作有效地將重要的過去幀在時(shí)間上“拉近”,確保它們保持影響力,并實(shí)現(xiàn)魯棒的外推以實(shí)現(xiàn)長期一致性。

上下文強(qiáng)制

自回歸模型在長視頻生成過程中常常遭受誤差累積,導(dǎo)致視覺質(zhì)量隨時(shí)間下降。此外,擴(kuò)散模型的多步去噪對(duì)于實(shí)時(shí)交互來說太慢了。最近的方法,如[8, 21, 43, 68] 通過將強(qiáng)大的雙向教師擴(kuò)散模型蒸餾成快速、少量步的自回歸學(xué)生模型來解決這些挑戰(zhàn)。這些技術(shù)強(qiáng)制學(xué)生模型的輸出分布  與教師模型對(duì)齊,從而通過使用分布匹配損失改進(jìn)生成質(zhì)量,如公式(4)所示:

其中,反向KL的梯度可以通過從教師模型導(dǎo)出的分?jǐn)?shù)差來近似。

然而,這些方法與內(nèi)存感知模型不兼容,因?yàn)榇嬖谝粋(gè)關(guān)鍵的分布不匹配。標(biāo)準(zhǔn)教師擴(kuò)散模型在短片段上進(jìn)行訓(xùn)練,本質(zhì)上是無記憶的。即使教師模型增加了記憶,其雙向性也必然不同于學(xué)生模型的因果自回歸過程。這意味著,如果沒有精心設(shè)計(jì)的內(nèi)存上下文來彌合這個(gè)差距,內(nèi)存上下文的差異將導(dǎo)致它們的條件分布  失調(diào),進(jìn)而導(dǎo)致分布匹配失敗。

因此,本文提出了如上圖5所示的上下文強(qiáng)制,它緩解了教師模型和學(xué)生模型在蒸餾過程中記憶上下文的失調(diào)。對(duì)于學(xué)生模型,本文在記憶上下文  的條件下,自我回滾(self-rollout)4個(gè)塊。

為了構(gòu)建教師模型 ,本文用記憶增強(qiáng)了一個(gè)標(biāo)準(zhǔn)雙向擴(kuò)散模型,并通過從學(xué)生模型的記憶上下文掩碼  來構(gòu)建其上下文,如公式(5)所示:

其中  表示對(duì)應(yīng)于學(xué)生模型的自我回滾  的所有上下文記憶塊。通過將記憶上下文與學(xué)生模型對(duì)齊,本文強(qiáng)制教師模型表示的分布盡可能接近學(xué)生模型,從而實(shí)現(xiàn)更有效的分布匹配。此外,這避免了在長視頻和冗余上下文上訓(xùn)練 ,從而促進(jìn)了長期視覺分布的學(xué)習(xí)。通過上下文強(qiáng)制,本文在4步去噪的情況下,實(shí)現(xiàn)了實(shí)時(shí)生成中的長期一致性,并緩解了誤差累積。

具有實(shí)時(shí)延遲的流式生成

本文通過一系列優(yōu)化增強(qiáng)了上下文強(qiáng)制,以最小化延遲,在8個(gè)H800 GPU上實(shí)現(xiàn)了24 FPS、720p分辨率的交互式流媒體體驗(yàn)。

DiT和VAE的混合并行方法。 與復(fù)制整個(gè)模型或在時(shí)間維度上適應(yīng)序列并行性的傳統(tǒng)并行方法不同,本文的并行方法結(jié)合了序列并行性和注意力并行性,將每個(gè)完整塊的 token 分配到不同的設(shè)備上。這種設(shè)計(jì)確保了生成每個(gè)塊的計(jì)算工作負(fù)載均勻分布,顯著減少了每個(gè)塊的推理時(shí)間,同時(shí)保持了生成質(zhì)量。

流式部署和漸進(jìn)式解碼。 為了最小化首幀時(shí)間并實(shí)現(xiàn)無縫交互,本文采用NVIDIA Triton Inference Framework的流式部署架構(gòu),并實(shí)現(xiàn)了漸進(jìn)式多步VAE解碼策略,以更小的批次解碼和流式傳輸幀。在從DiT生成潛在表示后,幀會(huì)逐步解碼,允許用戶在后續(xù)幀仍在處理時(shí)觀察生成的內(nèi)容。這種流式管道確保了即使在不同的計(jì)算負(fù)載下也能實(shí)現(xiàn)平滑、低延遲的交互。

量化和高效注意力。 此外,本文采用了全面的量化策略。具體來說,本文采用了Sage Attention、浮點(diǎn)量化和矩陣乘法量化來提高推理性能。此外,本文還使用KV-cache機(jī)制用于注意力模塊,以消除自回歸生成過程中的冗余計(jì)算。

實(shí)驗(yàn)

本文將WorldPlay模型在一個(gè)大規(guī)模、多樣化的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,該數(shù)據(jù)集包含約320K高質(zhì)量視頻樣本,這些樣本來源于真實(shí)世界錄像和合成環(huán)境。數(shù)據(jù)集包括真實(shí)世界動(dòng)態(tài)、真實(shí)世界3D場(chǎng)景(DL3DV)、合成3D場(chǎng)景(UE渲染)和模擬動(dòng)態(tài)(游戲視頻錄制),并且經(jīng)過精心篩選和處理,以確保動(dòng)作標(biāo)注的準(zhǔn)確性和訓(xùn)練的穩(wěn)定性。數(shù)據(jù)集中的攝像機(jī)軌跡如下圖10所示,具有復(fù)雜多樣的特點(diǎn),包括大量重訪軌跡,這有助于模型學(xué)習(xí)精確的動(dòng)作控制和長期幾何一致性。

評(píng)估協(xié)議:

測(cè)試集: 600個(gè)測(cè)試案例,來源于DL3DV、游戲視頻和AI生成圖像,涵蓋多種風(fēng)格。短期設(shè)置: 使用測(cè)試視頻中的攝像機(jī)軌跡作為輸入姿態(tài)。生成的視頻幀直接與真實(shí)(Ground-Truth, GT)幀進(jìn)行比較,以評(píng)估視覺質(zhì)量和攝像機(jī)姿態(tài)準(zhǔn)確性。長期設(shè)置: 使用各種自定義循環(huán)攝像機(jī)軌跡來測(cè)試長期一致性,這些軌跡旨在強(qiáng)制重訪。每個(gè)模型沿著自定義軌跡生成幀,然后沿著相同的路徑返回,通過比較返回路徑上的生成幀與初始通過期間生成的對(duì)應(yīng)幀來評(píng)估指標(biāo)。評(píng)估指標(biāo): LPIPS、PSNR、SSIM用于衡量視覺質(zhì)量; 和  用于量化動(dòng)作準(zhǔn)確性。

基線方法:

無記憶動(dòng)作控制擴(kuò)散模型: CameraCtrl [16]、SEVA [80]、ViewCrafter [77]、Matrix-Game 2.0 [17] 和 GameCraft [31]。有記憶動(dòng)作控制擴(kuò)散模型: Gen3C [52] 和 VMem [32]。

主要結(jié)果:

定量結(jié)果:如下表2所示,在短期方案中,WorldPlay在視覺保真度上表現(xiàn)出色,并保持了有競(jìng)爭力的控制精度。在更具挑戰(zhàn)性的長期方案中,WorldPlay仍然更穩(wěn)定并取得了最佳性能。在長期幾何一致性方面,Matrix-Game-2.0 [17] 和 GameCraft [31] 由于缺乏記憶機(jī)制而表現(xiàn)不佳。盡管VMem [32] 和 Gen3C [52] 采用顯式3D緩存來保持一致性,但它們受深度精度和對(duì)齊的限制,難以實(shí)現(xiàn)魯棒的長期一致性。受益于重建上下文記憶,WorldPlay實(shí)現(xiàn)了改進(jìn)的長期一致性。此外,通過上下文強(qiáng)制,WorldPlay進(jìn)一步防止了誤差累積,從而獲得了更好的視覺質(zhì)量和動(dòng)作準(zhǔn)確性。

定性結(jié)果:如下圖6所示,WorldPlay在長期一致性和視覺質(zhì)量方面取得了最先進(jìn)的成果,涵蓋了第一人稱和第三人稱的真實(shí)和風(fēng)格化世界等多種場(chǎng)景。Gen3C中使用的顯式3D緩存對(duì)中間輸出的質(zhì)量高度敏感,并受深度估計(jì)精度的限制。相比之下,WorldPlay的重建上下文記憶通過更魯棒的隱式先驗(yàn)保證了長期一致性,實(shí)現(xiàn)了卓越的場(chǎng)景泛化能力。Matrix-Game-2.0和 GameCraft由于缺乏記憶而無法支持自由探索。此外,它們?cè)诘谌朔Q場(chǎng)景中泛化能力不佳,使得在場(chǎng)景中控制智能體變得困難,限制了其適用性。相反,WorldPlay成功地將其效能擴(kuò)展到這些場(chǎng)景,并保持了高視覺保真度和長期幾何一致性。

消融實(shí)驗(yàn):

動(dòng)作表示:如下表3所示,驗(yàn)證了所提出的雙重動(dòng)作表示的有效性。僅使用離散按鍵作為動(dòng)作信號(hào),模型難以實(shí)現(xiàn)精細(xì)控制,導(dǎo)致  和  指標(biāo)性能不佳。使用連續(xù)攝像機(jī)姿態(tài)雖然結(jié)果更好,但由于尺度差異,收斂更困難。通過采用雙重動(dòng)作表示,本文實(shí)現(xiàn)了最佳的整體控制性能。

RoPE設(shè)計(jì):如下表4所示,展示了不同RoPE設(shè)計(jì)在記憶機(jī)制中的定量結(jié)果,表明重構(gòu)RoPE優(yōu)于樸素的對(duì)應(yīng)物,尤其是在視覺指標(biāo)上。如下圖7上半部分所示,RoPE更容易發(fā)生誤差累積。它還增加了記憶和預(yù)測(cè)塊之間的距離,導(dǎo)致幾何一致性較弱,如下圖7下半部分所示。

上下文強(qiáng)制:為驗(yàn)證記憶對(duì)齊的重要性,本文訓(xùn)練教師模型時(shí)遵循 [74],其中記憶是在潛在級(jí)別而非塊級(jí)別選擇。雖然這可能減少教師模型中的記憶上下文數(shù)量,但也會(huì)在教師模型和學(xué)生模型之間引入失調(diào)的上下文,導(dǎo)致如上圖8a所示的崩潰結(jié)果。此外,對(duì)于過去的塊 ,本文嘗試遵循 [68] 中的推理時(shí)間策略,將歷史塊自回滾作為上下文。然而,這可能導(dǎo)致雙向擴(kuò)散模型提供不準(zhǔn)確的分?jǐn)?shù)估計(jì),因?yàn)樗褂酶蓛舻膲K作為記憶進(jìn)行訓(xùn)練。因此,這種差異引入了如下圖8b所示的偽影。本文通過從真實(shí)視頻中采樣獲取歷史塊,這產(chǎn)生了如下圖8c所示的優(yōu)越結(jié)果。

記憶大小消融:如下表7所示,評(píng)估了不同記憶大小的效果。使用更大的空間記憶大小略微提高了PSNR指標(biāo),而更大的時(shí)間記憶大小更好地保留了預(yù)訓(xùn)練模型的時(shí)間連續(xù)性,從而獲得了更好的整體性能。此外,更大的空間記憶大小可能會(huì)顯著增加教師模型的記憶大小,因?yàn)橄噜弶K的空間記憶可能完全不同,而它們的時(shí)間記憶重疊。這不僅增加了訓(xùn)練教師模型的難度,也對(duì)蒸餾提出了挑戰(zhàn)。

應(yīng)用:

3D重建:如上圖1d和下圖17所示,受益于長期幾何一致性,WorldPlay可以集成3D重建模型以生成高質(zhì)量點(diǎn)云。

可提示事件:如下圖9和上圖1e以及下圖16上半部分所示,WorldPlay支持文本交互來觸發(fā)動(dòng)態(tài)世界事件,用戶可以隨時(shí)提示以響應(yīng)性地改變正在進(jìn)行的流。

視頻續(xù)寫:如上圖16下半部分所示,WorldPlay可以生成與給定初始視頻片段在運(yùn)動(dòng)、外觀和光照方面高度一致的后續(xù)內(nèi)容,從而實(shí)現(xiàn)穩(wěn)定的視頻續(xù)寫,有效地?cái)U(kuò)展原始視頻,同時(shí)保持時(shí)空一致性和內(nèi)容連貫性。

VBench和用戶研究:

VBench評(píng)估:如下圖14所示,WorldPlay在VBench的多項(xiàng)指標(biāo)上表現(xiàn)出色,尤其在一致性、運(yùn)動(dòng)平滑度和場(chǎng)景泛化能力等關(guān)鍵方面取得了突出成果。

用戶研究:如下圖15所示,通過對(duì)30名評(píng)估員進(jìn)行的用戶研究表明,WorldPlay在視覺質(zhì)量、控制準(zhǔn)確性和長期一致性等所有評(píng)估指標(biāo)上均優(yōu)于其他基線模型,充分證明了WorldPlay在實(shí)時(shí)交互和長期一致性方面的能力。

結(jié)論

WorldPlay是一個(gè)強(qiáng)大的世界模型,具有實(shí)時(shí)交互性和長期幾何一致性。它賦能用戶能夠做到:

卓越的幾何一致性:WorldPlay通過重建上下文記憶和時(shí)間重構(gòu)機(jī)制,有效地解決了傳統(tǒng)世界模型中場(chǎng)景重訪時(shí)出現(xiàn)的幾何不一致問題,即使在長期生成中也能保持環(huán)境的穩(wěn)定和連貫。

實(shí)時(shí)的交互性:利用上下文強(qiáng)制蒸餾方法和一系列優(yōu)化技術(shù)(如混合并行、流式部署、漸進(jìn)式解碼、量化和高效注意力),WorldPlay實(shí)現(xiàn)了24 FPS的720p視頻生成,為用戶提供了沉浸式的實(shí)時(shí)交互體驗(yàn)。

強(qiáng)大的泛化能力:在包含真實(shí)世界和合成數(shù)據(jù)的多樣化大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練,使得WorldPlay能夠廣泛應(yīng)用于第一人稱和第三人稱場(chǎng)景,以及各種風(fēng)格的世界,包括3D重建和文本驅(qū)動(dòng)的動(dòng)態(tài)事件。

創(chuàng)新的核心技術(shù):雙重動(dòng)作表示融合了離散按鍵和連續(xù)攝像機(jī)姿態(tài)的優(yōu)點(diǎn),實(shí)現(xiàn)了精確而魯棒的控制。重建上下文記憶動(dòng)態(tài)管理和重構(gòu)歷史幀,克服了長程信息衰減。上下文強(qiáng)制通過對(duì)齊教師模型和學(xué)生模型的記憶上下文,有效緩解了誤差累積和分布不匹配問題。

總的來說,WorldPlay在實(shí)時(shí)交互式世界建模領(lǐng)域取得了顯著進(jìn)展,為未來具身智能、游戲開發(fā)和虛擬環(huán)境構(gòu)建等應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。

參考文獻(xiàn)

[1] WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

       原文標(biāo)題 : 24FPS實(shí)時(shí)生成!騰訊混元推出WorldPlay:打破“速度與記憶”悖論,720P無限流視頻隨意玩!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)