24FPS實(shí)時(shí)生成！騰訊混元推出WorldPlay：打破“速度與記憶”悖論,720P無限流視頻隨意玩！

2025-12-18 15:05

作者：Wenqiang Sun等

解讀：AI生成未來

亮點(diǎn)直擊

WorldPlay，一個(gè)針對(duì)通用場(chǎng)景的實(shí)時(shí)、長期一致的世界模型。

雙重動(dòng)作表示：提出了一種結(jié)合離散鍵盤輸入和連續(xù)攝像機(jī)姿態(tài)的雙重動(dòng)作表示方法。既實(shí)現(xiàn)了對(duì)用戶輸入的魯棒控制，又提供了精確的空間位置信息，解決了傳統(tǒng)方法在控制精度和訓(xùn)練穩(wěn)定性上的不足。重

建上下文記憶和時(shí)間重構(gòu)：為了解決長期幾何一致性的挑戰(zhàn)，WorldPlay 引入了重建上下文記憶機(jī)制，它動(dòng)態(tài)地從歷史幀中重建上下文。

上下文強(qiáng)制：一種新穎的蒸餾方法，旨在解決內(nèi)存感知模型在實(shí)時(shí)生成中常見的誤差累積和分布不匹配問題。確保了蒸餾過程的有效性，使得學(xué)生模型在保持實(shí)時(shí)速度的同時(shí)，能夠有效利用長程信息并防止誤差漂移。

這些創(chuàng)新共同使得 WorldPlay 能夠?qū)崿F(xiàn)實(shí)時(shí)、交互式的視頻生成，并在長期生成過程中保持卓越的幾何一致性。

總結(jié)速覽

解決的問題

WorldPlay 旨在解決當(dāng)前實(shí)時(shí)交互式世界模型中的一個(gè)根本性挑戰(zhàn)：如何在兼顧實(shí)時(shí)生成速度的同時(shí)，保持長期幾何一致性�，F(xiàn)有的方法往往難以同時(shí)實(shí)現(xiàn)這兩點(diǎn)，例如，一些方法為了追求速度而犧牲了在場(chǎng)景重訪時(shí)的一致性，而另一些方法雖然能保持一致性，但由于復(fù)雜的內(nèi)存機(jī)制而無法實(shí)現(xiàn)實(shí)時(shí)交互。此外，傳統(tǒng)的位置編碼在處理長序列時(shí)可能導(dǎo)致長程信息衰減和外推偽影，進(jìn)一步加劇了幾何一致性的挑戰(zhàn)。

提出的方案

WorldPlay 提出了一個(gè)流式視頻擴(kuò)散模型，通過自回歸預(yù)測(cè)未來的視頻幀或塊，以響應(yīng)用戶輸入。其核心方案是利用三項(xiàng)關(guān)鍵創(chuàng)新來解決速度與一致性的權(quán)衡問題，確保模型在實(shí)時(shí)交互中保持長期幾何連貫性。

應(yīng)用的技術(shù)

雙重動(dòng)作表示 (Dual Action Representation) ：結(jié)合了離散按鍵輸入（提供魯棒、適應(yīng)尺度的運(yùn)動(dòng)）和連續(xù)攝像機(jī)姿態(tài)（提供精確空間位置以進(jìn)行記憶檢索），解決了各自方法的局限性。

重建上下文記憶 (Reconstituted Context Memory)：通過兩階段過程動(dòng)態(tài)重建記憶上下文，包括捕獲短期運(yùn)動(dòng)的時(shí)間記憶和防止長期幾何漂移的空間記憶，后者采樣自非相鄰的過去幀，并由幾何相關(guān)性分?jǐn)?shù)指導(dǎo)。

時(shí)間重構(gòu) (Temporal Reframing) ：針對(duì) RoPE 中遠(yuǎn)距離 token 影響減弱的問題，該技術(shù)動(dòng)態(tài)地為所有上下文幀重新分配位置編碼，使其與當(dāng)前幀保持固定的、小的相對(duì)距離，從而使幾何重要的過去幀保持影響力。

上下文強(qiáng)制 (Context Forcing) ：一種專為內(nèi)存感知模型設(shè)計(jì)的蒸餾方法。它通過在蒸餾過程中對(duì)齊教師模型和學(xué)生模型之間的記憶上下文，解決了因分布不匹配導(dǎo)致的性能下降，使得學(xué)生模型能在少量步去噪下實(shí)現(xiàn)實(shí)時(shí)生成，同時(shí)保持長期記憶并緩解誤差累積。

分塊自回歸生成：將全序列視頻擴(kuò)散模型微調(diào)為分塊自回歸模型，以實(shí)現(xiàn)無限長交互式生成。

達(dá)到的效果

實(shí)時(shí)交互性：能夠以24 FPS 的速度生成 720p 的流式視頻，實(shí)現(xiàn)低延遲的交互式體驗(yàn)。

卓越的長期幾何一致性：在用戶控制和場(chǎng)景重訪時(shí)，模型能保持場(chǎng)景的連貫性和穩(wěn)定性，解決了以往模型中常見的幾何不一致問題。

強(qiáng)大的泛化能力：在多樣化的真實(shí)世界和風(fēng)格化世界場(chǎng)景中展現(xiàn)出顯著的泛化能力，無論是第一人稱還是第三人稱視角。

多功能應(yīng)用支持：支持3D重建、文本驅(qū)動(dòng)的動(dòng)態(tài)世界事件觸發(fā)（可提示事件）以及視頻續(xù)寫等多種應(yīng)用。

解決了誤差累積問題：通過上下文強(qiáng)制等機(jī)制，有效緩解了自回歸模型在長序列生成中常見的誤差累積問題。

方法

本文的目標(biāo)是構(gòu)建一個(gè)幾何一致且實(shí)時(shí)的交互式世界模型，其參數(shù)為，能夠根據(jù)過去的觀察、動(dòng)作序列和當(dāng)前動(dòng)作生成下一個(gè)塊（一個(gè)塊包含幾幀）。其中是描述世界的文本提示或圖像。為簡化表示，后續(xù)章節(jié)將省略。本文首先介紹相關(guān)預(yù)備知識(shí)。然后本文討論用于控制的動(dòng)作表示。隨后描述了本文的重建上下文記憶以確保長期幾何一致性，隨后介紹了本文的上下文強(qiáng)制，它緩解了曝光偏差并實(shí)現(xiàn)了少量步生成，同時(shí)保持了長期一致性。最后，詳細(xì)介紹了用于實(shí)時(shí)流式生成的額外優(yōu)化。其流程如下圖2所示。

用于控制的雙重動(dòng)作表示

現(xiàn)有方法使用鍵盤和鼠標(biāo)輸入作為動(dòng)作信號(hào)，并通過MLP或注意力塊注入動(dòng)作控制。這使得模型能夠?qū)W習(xí)跨不同尺度場(chǎng)景（例如非常大和非常小的場(chǎng)景）的物理上合理的運(yùn)動(dòng)。然而，它們難以提供精確的先前位置以進(jìn)行空間記憶檢索。相比之下，攝像機(jī)姿態(tài)（旋轉(zhuǎn)矩陣和轉(zhuǎn)換向量）提供了精確的空間位置，有助于精確控制和記憶檢索，但僅使用攝像機(jī)姿態(tài)進(jìn)行訓(xùn)練由于訓(xùn)練數(shù)據(jù)中的尺度差異而面臨訓(xùn)練穩(wěn)定性的挑戰(zhàn)。為了解決這個(gè)問題，本文提出了如下圖3所示的雙重動(dòng)作表示，它結(jié)合了兩者的優(yōu)點(diǎn)。

這種設(shè)計(jì)不僅為記憶模塊緩存了空間位置，而且實(shí)現(xiàn)了魯棒和精確的控制。具體來說，本文采用PE和零初始化MLP來編碼離散按鍵，并將其并入時(shí)間步嵌入中，然后用于調(diào)制DiT塊。對(duì)于連續(xù)攝像機(jī)姿態(tài)，本文利用相對(duì)位置編碼，即PRoPE，它比常用的光線圖具有更大的泛化能力，將完整的攝像機(jī)視錐體注入到自注意力塊中。原始自注意力計(jì)算如公式(2)所示：

其中代表視頻潛變量的3D旋轉(zhuǎn)PE (RoPE)。為了編碼攝像機(jī)之間的視錐體關(guān)系，本文利用一個(gè)額外的注意力計(jì)算，如公式(3)所示：

此處，是根據(jù)攝像機(jī)的內(nèi)參和外參導(dǎo)出的，如論文 [33] 中所述。最后，每個(gè)自注意力塊的結(jié)果是。

用于一致性的重建上下文記憶

保持長期幾何一致性需要回憶過去的幀，確保在重新訪問先前位置時(shí)內(nèi)容保持不變。然而，天真地使用所有過去的幀作為上下文（如下圖4a所示）對(duì)于長序列來說在計(jì)算上是不可行的且冗余的。為了解決這個(gè)問題，本文為每個(gè)新塊從過去的塊重建記憶上下文。本文的方法通過結(jié)合短期時(shí)間線索和長程空間參考，超越了先前的工作，如[67, 74]：

時(shí)間記憶 () 包含最近的個(gè)塊，以確保短期運(yùn)動(dòng)平滑。

空間記憶 () 從非相鄰的過去幀中采樣，以防止長序列上的幾何漂移，其中。此采樣由結(jié)合了視場(chǎng)重疊和攝像機(jī)距離的幾何相關(guān)性分?jǐn)?shù)指導(dǎo)。

一旦記憶上下文被重建，挑戰(zhàn)就轉(zhuǎn)移到如何應(yīng)用它們來強(qiáng)制一致性。有效使用檢索到的上下文需要克服位置編碼中的一個(gè)根本缺陷。使用標(biāo)準(zhǔn)RoPE（如上圖4b所示），當(dāng)前塊與過去記憶之間的距離隨時(shí)間無限增長。這種不斷增長的相對(duì)距離最終可能超過RoPE中訓(xùn)練的插值范圍，導(dǎo)致外推偽影。更關(guān)鍵的是，對(duì)這些早已過去的空間記憶的感知距離不斷增長會(huì)削弱它們對(duì)當(dāng)前預(yù)測(cè)的影響。為了解決這個(gè)問題，本文提出了時(shí)間重構(gòu)（如上圖4c所示）。本文放棄了絕對(duì)時(shí)間索引，并動(dòng)態(tài)地為所有上下文幀重新分配新的位置編碼，建立與當(dāng)前幀固定的、小的相對(duì)距離，無論它們實(shí)際的時(shí)間間隔如何。這種操作有效地將重要的過去幀在時(shí)間上“拉近”，確保它們保持影響力，并實(shí)現(xiàn)魯棒的外推以實(shí)現(xiàn)長期一致性。

上下文強(qiáng)制

自回歸模型在長視頻生成過程中常常遭受誤差累積，導(dǎo)致視覺質(zhì)量隨時(shí)間下降。此外，擴(kuò)散模型的多步去噪對(duì)于實(shí)時(shí)交互來說太慢了。最近的方法，如[8, 21, 43, 68] 通過將強(qiáng)大的雙向教師擴(kuò)散模型蒸餾成快速、少量步的自回歸學(xué)生模型來解決這些挑戰(zhàn)。這些技術(shù)強(qiáng)制學(xué)生模型的輸出分布與教師模型對(duì)齊，從而通過使用分布匹配損失改進(jìn)生成質(zhì)量，如公式(4)所示：

其中，反向KL的梯度可以通過從教師模型導(dǎo)出的分?jǐn)?shù)差來近似。

然而，這些方法與內(nèi)存感知模型不兼容，因?yàn)榇嬖谝粋€(gè)關(guān)鍵的分布不匹配。標(biāo)準(zhǔn)教師擴(kuò)散模型在短片段上進(jìn)行訓(xùn)練，本質(zhì)上是無記憶的。即使教師模型增加了記憶，其雙向性也必然不同于學(xué)生模型的因果自回歸過程。這意味著，如果沒有精心設(shè)計(jì)的內(nèi)存上下文來彌合這個(gè)差距，內(nèi)存上下文的差異將導(dǎo)致它們的條件分布失調(diào)，進(jìn)而導(dǎo)致分布匹配失敗。

因此，本文提出了如上圖5所示的上下文強(qiáng)制，它緩解了教師模型和學(xué)生模型在蒸餾過程中記憶上下文的失調(diào)。對(duì)于學(xué)生模型，本文在記憶上下文的條件下，自我回滾（self-rollout）4個(gè)塊。

為了構(gòu)建教師模型，本文用記憶增強(qiáng)了一個(gè)標(biāo)準(zhǔn)雙向擴(kuò)散模型，并通過從學(xué)生模型的記憶上下文掩碼來構(gòu)建其上下文，如公式(5)所示：

其中表示對(duì)應(yīng)于學(xué)生模型的自我回滾的所有上下文記憶塊。通過將記憶上下文與學(xué)生模型對(duì)齊，本文強(qiáng)制教師模型表示的分布盡可能接近學(xué)生模型，從而實(shí)現(xiàn)更有效的分布匹配。此外，這避免了在長視頻和冗余上下文上訓(xùn)練，從而促進(jìn)了長期視覺分布的學(xué)習(xí)。通過上下文強(qiáng)制，本文在4步去噪的情況下，實(shí)現(xiàn)了實(shí)時(shí)生成中的長期一致性，并緩解了誤差累積。

具有實(shí)時(shí)延遲的流式生成

本文通過一系列優(yōu)化增強(qiáng)了上下文強(qiáng)制，以最小化延遲，在8個(gè)H800 GPU上實(shí)現(xiàn)了24 FPS、720p分辨率的交互式流媒體體驗(yàn)。

DiT和VAE的混合并行方法。 與復(fù)制整個(gè)模型或在時(shí)間維度上適應(yīng)序列并行性的傳統(tǒng)并行方法不同，本文的并行方法結(jié)合了序列并行性和注意力并行性，將每個(gè)完整塊的 token 分配到不同的設(shè)備上。這種設(shè)計(jì)確保了生成每個(gè)塊的計(jì)算工作負(fù)載均勻分布，顯著減少了每個(gè)塊的推理時(shí)間，同時(shí)保持了生成質(zhì)量。

流式部署和漸進(jìn)式解碼。 為了最小化首幀時(shí)間并實(shí)現(xiàn)無縫交互，本文采用NVIDIA Triton Inference Framework的流式部署架構(gòu)，并實(shí)現(xiàn)了漸進(jìn)式多步VAE解碼策略，以更小的批次解碼和流式傳輸幀。在從DiT生成潛在表示后，幀會(huì)逐步解碼，允許用戶在后續(xù)幀仍在處理時(shí)觀察生成的內(nèi)容。這種流式管道確保了即使在不同的計(jì)算負(fù)載下也能實(shí)現(xiàn)平滑、低延遲的交互。

量化和高效注意力。 此外，本文采用了全面的量化策略。具體來說，本文采用了Sage Attention、浮點(diǎn)量化和矩陣乘法量化來提高推理性能。此外，本文還使用KV-cache機(jī)制用于注意力模塊，以消除自回歸生成過程中的冗余計(jì)算。

實(shí)驗(yàn)

本文將WorldPlay模型在一個(gè)大規(guī)模、多樣化的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，該數(shù)據(jù)集包含約320K高質(zhì)量視頻樣本，這些樣本來源于真實(shí)世界錄像和合成環(huán)境。數(shù)據(jù)集包括真實(shí)世界動(dòng)態(tài)、真實(shí)世界3D場(chǎng)景（DL3DV）、合成3D場(chǎng)景（UE渲染）和模擬動(dòng)態(tài)（游戲視頻錄制），并且經(jīng)過精心篩選和處理，以確保動(dòng)作標(biāo)注的準(zhǔn)確性和訓(xùn)練的穩(wěn)定性。數(shù)據(jù)集中的攝像機(jī)軌跡如下圖10所示，具有復(fù)雜多樣的特點(diǎn)，包括大量重訪軌跡，這有助于模型學(xué)習(xí)精確的動(dòng)作控制和長期幾何一致性。

評(píng)估協(xié)議：

測(cè)試集： 600個(gè)測(cè)試案例，來源于DL3DV、游戲視頻和AI生成圖像，涵蓋多種風(fēng)格。短期設(shè)置： 使用測(cè)試視頻中的攝像機(jī)軌跡作為輸入姿態(tài)。生成的視頻幀直接與真實(shí)（Ground-Truth, GT）幀進(jìn)行比較，以評(píng)估視覺質(zhì)量和攝像機(jī)姿態(tài)準(zhǔn)確性。長期設(shè)置： 使用各種自定義循環(huán)攝像機(jī)軌跡來測(cè)試長期一致性，這些軌跡旨在強(qiáng)制重訪。每個(gè)模型沿著自定義軌跡生成幀，然后沿著相同的路徑返回，通過比較返回路徑上的生成幀與初始通過期間生成的對(duì)應(yīng)幀來評(píng)估指標(biāo)。評(píng)估指標(biāo)： LPIPS、PSNR、SSIM用于衡量視覺質(zhì)量；和用于量化動(dòng)作準(zhǔn)確性。

基線方法：

無記憶動(dòng)作控制擴(kuò)散模型： CameraCtrl [16]、SEVA [80]、ViewCrafter [77]、Matrix-Game 2.0 [17] 和 GameCraft [31]。有記憶動(dòng)作控制擴(kuò)散模型： Gen3C [52] 和 VMem [32]。

主要結(jié)果：

定量結(jié)果：如下表2所示，在短期方案中，WorldPlay在視覺保真度上表現(xiàn)出色，并保持了有競(jìng)爭力的控制精度。在更具挑戰(zhàn)性的長期方案中，WorldPlay仍然更穩(wěn)定并取得了最佳性能。在長期幾何一致性方面，Matrix-Game-2.0 [17] 和 GameCraft [31] 由于缺乏記憶機(jī)制而表現(xiàn)不佳。盡管VMem [32] 和 Gen3C [52] 采用顯式3D緩存來保持一致性，但它們受深度精度和對(duì)齊的限制，難以實(shí)現(xiàn)魯棒的長期一致性。受益于重建上下文記憶，WorldPlay實(shí)現(xiàn)了改進(jìn)的長期一致性。此外，通過上下文強(qiáng)制，WorldPlay進(jìn)一步防止了誤差累積，從而獲得了更好的視覺質(zhì)量和動(dòng)作準(zhǔn)確性。

定性結(jié)果：如下圖6所示，WorldPlay在長期一致性和視覺質(zhì)量方面取得了最先進(jìn)的成果，涵蓋了第一人稱和第三人稱的真實(shí)和風(fēng)格化世界等多種場(chǎng)景。Gen3C中使用的顯式3D緩存對(duì)中間輸出的質(zhì)量高度敏感，并受深度估計(jì)精度的限制。相比之下，WorldPlay的重建上下文記憶通過更魯棒的隱式先驗(yàn)保證了長期一致性，實(shí)現(xiàn)了卓越的場(chǎng)景泛化能力。Matrix-Game-2.0和 GameCraft由于缺乏記憶而無法支持自由探索。此外，它們?cè)诘谌朔Q場(chǎng)景中泛化能力不佳，使得在場(chǎng)景中控制智能體變得困難，限制了其適用性。相反，WorldPlay成功地將其效能擴(kuò)展到這些場(chǎng)景，并保持了高視覺保真度和長期幾何一致性。

消融實(shí)驗(yàn)：

動(dòng)作表示：如下表3所示，驗(yàn)證了所提出的雙重動(dòng)作表示的有效性。僅使用離散按鍵作為動(dòng)作信號(hào)，模型難以實(shí)現(xiàn)精細(xì)控制，導(dǎo)致和指標(biāo)性能不佳。使用連續(xù)攝像機(jī)姿態(tài)雖然結(jié)果更好，但由于尺度差異，收斂更困難。通過采用雙重動(dòng)作表示，本文實(shí)現(xiàn)了最佳的整體控制性能。

RoPE設(shè)計(jì)：如下表4所示，展示了不同RoPE設(shè)計(jì)在記憶機(jī)制中的定量結(jié)果，表明重構(gòu)RoPE優(yōu)于樸素的對(duì)應(yīng)物，尤其是在視覺指標(biāo)上。如下圖7上半部分所示，RoPE更容易發(fā)生誤差累積。它還增加了記憶和預(yù)測(cè)塊之間的距離，導(dǎo)致幾何一致性較弱，如下圖7下半部分所示。

上下文強(qiáng)制：為驗(yàn)證記憶對(duì)齊的重要性，本文訓(xùn)練教師模型時(shí)遵循 [74]，其中記憶是在潛在級(jí)別而非塊級(jí)別選擇。雖然這可能減少教師模型中的記憶上下文數(shù)量，但也會(huì)在教師模型和學(xué)生模型之間引入失調(diào)的上下文，導(dǎo)致如上圖8a所示的崩潰結(jié)果。此外，對(duì)于過去的塊，本文嘗試遵循 [68] 中的推理時(shí)間策略，將歷史塊自回滾作為上下文。然而，這可能導(dǎo)致雙向擴(kuò)散模型提供不準(zhǔn)確的分?jǐn)?shù)估計(jì)，因?yàn)樗褂酶蓛舻膲K作為記憶進(jìn)行訓(xùn)練。因此，這種差異引入了如下圖8b所示的偽影。本文通過從真實(shí)視頻中采樣獲取歷史塊，這產(chǎn)生了如下圖8c所示的優(yōu)越結(jié)果。

記憶大小消融：如下表7所示，評(píng)估了不同記憶大小的效果。使用更大的空間記憶大小略微提高了PSNR指標(biāo)，而更大的時(shí)間記憶大小更好地保留了預(yù)訓(xùn)練模型的時(shí)間連續(xù)性，從而獲得了更好的整體性能。此外，更大的空間記憶大小可能會(huì)顯著增加教師模型的記憶大小，因?yàn)橄噜弶K的空間記憶可能完全不同，而它們的時(shí)間記憶重疊。這不僅增加了訓(xùn)練教師模型的難度，也對(duì)蒸餾提出了挑戰(zhàn)。

應(yīng)用：

3D重建：如上圖1d和下圖17所示，受益于長期幾何一致性，WorldPlay可以集成3D重建模型以生成高質(zhì)量點(diǎn)云。

可提示事件：如下圖9和上圖1e以及下圖16上半部分所示，WorldPlay支持文本交互來觸發(fā)動(dòng)態(tài)世界事件，用戶可以隨時(shí)提示以響應(yīng)性地改變正在進(jìn)行的流。

視頻續(xù)寫：如上圖16下半部分所示，WorldPlay可以生成與給定初始視頻片段在運(yùn)動(dòng)、外觀和光照方面高度一致的后續(xù)內(nèi)容，從而實(shí)現(xiàn)穩(wěn)定的視頻續(xù)寫，有效地?cái)U(kuò)展原始視頻，同時(shí)保持時(shí)空一致性和內(nèi)容連貫性。

VBench和用戶研究：

VBench評(píng)估：如下圖14所示，WorldPlay在VBench的多項(xiàng)指標(biāo)上表現(xiàn)出色，尤其在一致性、運(yùn)動(dòng)平滑度和場(chǎng)景泛化能力等關(guān)鍵方面取得了突出成果。

用戶研究：如下圖15所示，通過對(duì)30名評(píng)估員進(jìn)行的用戶研究表明，WorldPlay在視覺質(zhì)量、控制準(zhǔn)確性和長期一致性等所有評(píng)估指標(biāo)上均優(yōu)于其他基線模型，充分證明了WorldPlay在實(shí)時(shí)交互和長期一致性方面的能力。

結(jié)論

WorldPlay是一個(gè)強(qiáng)大的世界模型，具有實(shí)時(shí)交互性和長期幾何一致性。它賦能用戶能夠做到：

卓越的幾何一致性：WorldPlay通過重建上下文記憶和時(shí)間重構(gòu)機(jī)制，有效地解決了傳統(tǒng)世界模型中場(chǎng)景重訪時(shí)出現(xiàn)的幾何不一致問題，即使在長期生成中也能保持環(huán)境的穩(wěn)定和連貫。

實(shí)時(shí)的交互性：利用上下文強(qiáng)制蒸餾方法和一系列優(yōu)化技術(shù)（如混合并行、流式部署、漸進(jìn)式解碼、量化和高效注意力），WorldPlay實(shí)現(xiàn)了24 FPS的720p視頻生成，為用戶提供了沉浸式的實(shí)時(shí)交互體驗(yàn)。

強(qiáng)大的泛化能力：在包含真實(shí)世界和合成數(shù)據(jù)的多樣化大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練，使得WorldPlay能夠廣泛應(yīng)用于第一人稱和第三人稱場(chǎng)景，以及各種風(fēng)格的世界，包括3D重建和文本驅(qū)動(dòng)的動(dòng)態(tài)事件。

創(chuàng)新的核心技術(shù)：雙重動(dòng)作表示融合了離散按鍵和連續(xù)攝像機(jī)姿態(tài)的優(yōu)點(diǎn)，實(shí)現(xiàn)了精確而魯棒的控制。重建上下文記憶動(dòng)態(tài)管理和重構(gòu)歷史幀，克服了長程信息衰減。上下文強(qiáng)制通過對(duì)齊教師模型和學(xué)生模型的記憶上下文，有效緩解了誤差累積和分布不匹配問題。

總的來說，WorldPlay在實(shí)時(shí)交互式世界建模領(lǐng)域取得了顯著進(jìn)展，為未來具身智能、游戲開發(fā)和虛擬環(huán)境構(gòu)建等應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。

參考文獻(xiàn)

[1] WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

原文標(biāo)題 : 24FPS實(shí)時(shí)生成！騰訊混元推出WorldPlay：打破“速度與記憶”悖論,720P無限流視頻隨意玩！