訂閱
糾錯(cuò)
加入自媒體

《黑客帝國(guó)》雛形已現(xiàn)?騰訊造出“可對(duì)話游戲宇宙”,實(shí)時(shí)生成、任意交互,世界為你改變!

作者:Junshu Tang等

解讀:AI生成未來

Hunyuan-GameCraft-2將生成式游戲世界模型從靜態(tài)游戲場(chǎng)景視頻合成提升到開放式、遵循指令的交互式模擬。

Hunyuan-GameCraft-2將生成式游戲世界模型從靜態(tài)游戲場(chǎng)景視頻合成提升到開放式、遵循指令的交互式模擬。合成交互視頻Pipeline展示

合成交互視頻Pipeline展示Pipeline of the Data Curation System

Pipeline of the Data Curation SystemPipeline of the Caption Generation SystemPipeline of the Caption Generation System

亮點(diǎn)直擊

提出了一個(gè)統(tǒng)一的可控視頻生成框架,該框架集成了文本、鍵盤和鼠標(biāo)信號(hào),以實(shí)現(xiàn)基于語(yǔ)義的交互操作。

利用自回歸蒸餾與隨機(jī)化長(zhǎng)視頻微調(diào)技術(shù),確保高效穩(wěn)定的長(zhǎng)時(shí)序視頻生成,并通過KV緩存重計(jì)算實(shí)現(xiàn)多輪推理優(yōu)化,結(jié)合工程優(yōu)化實(shí)現(xiàn)實(shí)時(shí)16幀/秒的性能。

通過大量的定量與定性實(shí)驗(yàn),全面驗(yàn)證了所提出框架的有效性,結(jié)果表明該框架在生成交互式視頻方面性能優(yōu)異,能夠忠實(shí)響應(yīng)用戶指令,同時(shí)保持視覺質(zhì)量和時(shí)序連貫性。

總結(jié)速覽

解決的問題

現(xiàn)有生成式世界模型在創(chuàng)建開放式游戲環(huán)境方面取得了進(jìn)展,但仍存在以下限制:

僵硬的動(dòng)作圖式和高標(biāo)注成本: 當(dāng)前方法依賴于固定的鍵盤輸入等動(dòng)作模式和大量的標(biāo)注數(shù)據(jù),這限制了它們建模多樣化游戲內(nèi)交互玩家驅(qū)動(dòng)的動(dòng)態(tài)的能力。

缺乏形式化的交互定義和可擴(kuò)展的構(gòu)建流程: 在世界模型的背景下,缺乏對(duì)“交互”的明確定義,以及將大規(guī)模非結(jié)構(gòu)化文本-視頻對(duì)轉(zhuǎn)化為交互式數(shù)據(jù)集的高效、可擴(kuò)展管道。

輪交互中的長(zhǎng)期一致性: 在生成長(zhǎng)視頻時(shí),保持視頻質(zhì)量交互準(zhǔn)確性方面的挑戰(zhàn),以及誤差積累問題。

提出的方案

文章提出了 Hunyuan-GameCraft-2,一種基于指令驅(qū)動(dòng)交互的生成式游戲世界建模新范式。

指令驅(qū)動(dòng)的靈活控制: 允許用戶通過自然語(yǔ)言提示、鍵盤鼠標(biāo)信號(hào)來控制游戲視頻內(nèi)容,實(shí)現(xiàn)靈活且具有語(yǔ)義豐富的交互。

交互式視頻數(shù)據(jù)(Interactive Video Data)的正式定義: 將世界模型中的交互定義為“由一個(gè)明確的代理執(zhí)行的、能夠觸發(fā)環(huán)境中具有清晰因果關(guān)系物理或邏輯有效性的狀態(tài)轉(zhuǎn)換的動(dòng)作”。

自動(dòng)化交互式數(shù)據(jù)構(gòu)建管道: 開發(fā)了兩個(gè)自動(dòng)化管道,能夠?qū)⒋笠?guī)模、非結(jié)構(gòu)化的文本-視頻對(duì)轉(zhuǎn)化為富含隱式因果標(biāo)簽的開放域交互式數(shù)據(jù)集。

統(tǒng)一的控制機(jī)制: 將基于文本的指令鍵盤/鼠標(biāo)動(dòng)作信號(hào)集成到一個(gè)統(tǒng)一的、可控的視頻生成器中。

新的評(píng)估基準(zhǔn): 引入 InterBench,一個(gè)以交互為中心的基準(zhǔn),用于系統(tǒng)地評(píng)估交互性能的關(guān)鍵維度(如交互完整性、動(dòng)作有效性、因果連貫性和物理合理性)。

應(yīng)用的技術(shù)

Hunyuan-GameCraft-2 模型建立在以下技術(shù)之上:

14B 圖像到視頻的 MoE(Mixture-of-Experts)基礎(chǔ)模型: 模型的基礎(chǔ)架構(gòu)。

文本驅(qū)動(dòng)的交互注入機(jī)制: 用于細(xì)粒度控制攝像機(jī)運(yùn)動(dòng)、角色行為和環(huán)境動(dòng)態(tài)。

自回歸蒸餾策略(Autoregressive Distillation): 將雙向視頻生成器轉(zhuǎn)化為因果自回歸模型,以支持高效的長(zhǎng)周期視頻生成。

隨機(jī)化的圖像到長(zhǎng)視頻擴(kuò)展調(diào)整方案(Randomized Image-to-Long-Video Extension Tuning): 用于緩解長(zhǎng)時(shí)程推演中的誤差積累問題,確保生成穩(wěn)定連貫的長(zhǎng)視頻。

KV-Recache 機(jī)制(參照 LongLive): 用于增強(qiáng)自回歸長(zhǎng)視頻生成中多輪交互的準(zhǔn)確性和穩(wěn)定性。

工程加速優(yōu)化: 提高了模型的推理速度。

達(dá)到的效果

通過廣泛的實(shí)驗(yàn)和 InterBench 上的評(píng)估,Hunyuan-GameCraft-2 取得了以下效果:

生成效果領(lǐng)先: 在 InterBench 和通用視頻質(zhì)量指標(biāo)上實(shí)現(xiàn)了最先進(jìn)(state-of-the-art)的性能。

高質(zhì)量和一致性: 能夠生成時(shí)間上連貫、具有因果基礎(chǔ)的交互式游戲視頻。

忠實(shí)響應(yīng)指令: 能夠忠實(shí)地響應(yīng)多樣化自由形式的用戶指令,例如“打開門”、“畫一個(gè)火把”或“觸發(fā)爆炸”。

實(shí)時(shí)交互能力: 模型的推理速度提升至 16 FPS,實(shí)現(xiàn)了實(shí)時(shí)交互式視頻生成。

方法

本文提出了 Hunyuan-GameCraft-2,這是一個(gè)專注于自由形式指令控制的交互式游戲視頻模型。整體框架如下圖 5 所示。具體而言,本工作將自然的動(dòng)作注入因果架構(gòu)、圖像條件自回歸長(zhǎng)視頻生成以及多樣化的多提示詞交互統(tǒng)一到了一個(gè)緊密的框架中。本節(jié)將介紹模型架構(gòu)、訓(xùn)練過程及推理過程。

模型架構(gòu)

本模型的主要架構(gòu)基于一個(gè) 14B 參數(shù)的圖生視頻混合專家(MoE)基礎(chǔ)視頻生成模型。本工作的目標(biāo)是將該圖生視頻擴(kuò)散模型擴(kuò)展為一個(gè)動(dòng)作可控的生成器。動(dòng)作空間包括鍵盤輸入和自由形式的文本提示詞。

對(duì)于鍵盤和鼠標(biāo)信號(hào)注入(W, A, S, D, , Space 等),本工作采用了 GameCraft-1的方法,將這些離散的動(dòng)作信號(hào)映射為連續(xù)的相機(jī)控制參數(shù)。在訓(xùn)練期間,標(biāo)注的相機(jī)參數(shù)被編碼為 Plücker 嵌入,并通過令牌相加(token addition)的方式集成到模型中。在推理時(shí),用戶輸入被轉(zhuǎn)換為相機(jī)軌跡以推導(dǎo)出這些參數(shù)。

關(guān)于基于提示詞的交互注入,本文觀察到基礎(chǔ)模型難以表達(dá)某些交互性動(dòng)詞,這主要是因?yàn)榻换ノ谋鞠啾葓?chǎng)景描述具有更高的語(yǔ)義和空間復(fù)雜性。此類文本通常與特定的視覺區(qū)域或?qū)ο髮?shí)例緊密耦合。為了緩解這一問題,本工作利用多模態(tài)大語(yǔ)言模型(MLLM)來提取、推理并將交互信息注入到主模型中。這能夠豐富與交互相關(guān)的文本指導(dǎo),提高模型在訓(xùn)練過程中區(qū)分通用文本指令和細(xì)粒度交互行為的能力。這種相機(jī)條件控制與基于文本的場(chǎng)景及交互輸入相結(jié)合,形成了一種統(tǒng)一的機(jī)制,使 Hunyuan-GameCraft-2 能夠在環(huán)境中無縫地導(dǎo)航和交互。

如上圖 5 所示,給定參考圖像及相應(yīng)的動(dòng)作、鍵盤/鼠標(biāo)信號(hào)和基于提示詞的指令,本工作將這些選項(xiàng)注入到主架構(gòu)中。在訓(xùn)練和推理過程中,利用 Self-Forcing 后訓(xùn)練進(jìn)行長(zhǎng)視頻擴(kuò)展,并利用 KV-cache/recache 進(jìn)行多動(dòng)作切換。為了保持長(zhǎng)視頻的質(zhì)量,設(shè)計(jì)了一種隨機(jī)化長(zhǎng)視頻微調(diào)方案。

訓(xùn)練過程

為了實(shí)現(xiàn)長(zhǎng)時(shí)長(zhǎng)且實(shí)時(shí)的交互式視頻生成,必須將基礎(chǔ)的雙向模型蒸餾為少步數(shù)的因果生成器。在本工作中,我們將綜合自回歸蒸餾技術(shù) Self-Forcing擴(kuò)展到了 14B MoE 圖生視頻模型上。該方案專為增強(qiáng)長(zhǎng)視頻生成的質(zhì)量和效率而定制,因?yàn)殚L(zhǎng)視頻生成通常具有大幅度且快速的場(chǎng)景變化。本文引入了隨機(jī)擴(kuò)展微調(diào)(random extension tuning)以減輕誤差累積。訓(xùn)練過程分為四個(gè)階段:(1)動(dòng)作注入訓(xùn)練,(2)指令導(dǎo)向的監(jiān)督微調(diào)(SFT),(3)自回歸生成器蒸餾,以及(4)隨機(jī)化長(zhǎng)視頻擴(kuò)展微調(diào)。

動(dòng)作注入訓(xùn)練

此階段的主要目標(biāo)是建立對(duì) 3D 場(chǎng)景動(dòng)態(tài)、光照和物理的基本理解。本工作加載預(yù)訓(xùn)練權(quán)重,并使用流匹配(flow-matching)目標(biāo)對(duì)模型進(jìn)行微調(diào)以適應(yīng)架構(gòu)調(diào)整。為了提高長(zhǎng)期一致性,采用了課程學(xué)習(xí)策略。具體而言,將訓(xùn)練分為三個(gè)階段,依次讓模型接觸 480p 分辨率下的 45、81 和 149 幀的視頻數(shù)據(jù)。這種階梯式的方法使模型能夠先鞏固對(duì)短期運(yùn)動(dòng)動(dòng)態(tài)的理解,然后逐漸調(diào)整其注意力機(jī)制以處理更長(zhǎng)持續(xù)時(shí)間連貫性所需的復(fù)雜依賴關(guān)系。此外,在訓(xùn)練期間隨機(jī)選擇長(zhǎng)和短的標(biāo)題,并拼接交互式標(biāo)題以進(jìn)行交互學(xué)習(xí)。此選項(xiàng)有助于模型初步感知交互信息的注入。

指令導(dǎo)向的監(jiān)督微調(diào)

為了增強(qiáng)模型的交互能力,本工作通過利用程序生成的合成視頻增強(qiáng)真實(shí)世界素材,構(gòu)建了一個(gè)包含 150K 樣本的數(shù)據(jù)集。這些合成序列可以提供跨多種交互類型(例如,狀態(tài)轉(zhuǎn)換、主體交互)的高保真監(jiān)督信號(hào),從而建立動(dòng)作與其視覺結(jié)果之間的緊密對(duì)應(yīng)關(guān)系。在隨后的階段中,凍結(jié)相機(jī)編碼器的參數(shù),僅微調(diào) MoE 專家層。此過程旨在優(yōu)化模型與語(yǔ)義控制線索的對(duì)齊。

自回歸生成器蒸餾

對(duì)于交互式世界模型而言,將定長(zhǎng)視頻生成器擴(kuò)展為高質(zhì)量的自回歸長(zhǎng)視頻生成至關(guān)重要。先前的工作在長(zhǎng)視頻生成方面已進(jìn)行了初步嘗試;诟咴肼暫偷驮肼 MoE 架構(gòu)及相機(jī)參數(shù)注入,本工作對(duì)注意力機(jī)制和蒸餾協(xié)議進(jìn)行了針對(duì)性的調(diào)整。這些修改專門用于優(yōu)化自回歸蒸餾過程中的性能。

Sink Token 與塊稀疏注意力(Block Sparse Attention):先前的技術(shù)使用直接滑動(dòng)窗口方法更新因果注意力的 KV 緩存。然而,這可能導(dǎo)致生成質(zhì)量隨時(shí)間下降,因?yàn)楹罄m(xù)步驟無法引用初始條件幀,導(dǎo)致漂移。本工作將初始幀指定為 Sink Token(錨點(diǎn)令牌),并始終保留在 KV 緩存中。這一修改有兩個(gè)關(guān)鍵作用:首先,它提高并穩(wěn)定了生成質(zhì)量。其次,在本工作的特定任務(wù)中,Sink Token 提供了坐標(biāo)系原點(diǎn)的信息。這確保了在自回歸過程中注入的相機(jī)參數(shù)始終與初始幀對(duì)齊,從而避免了因坐標(biāo)原點(diǎn)偏移而在每個(gè)自回歸步驟都需要重新緩存(recache)的問題。此外,本工作采用塊稀疏注意力進(jìn)行局部注意力計(jì)算,這更適合自回歸、分塊生成的流程。具體來說,正在生成的目標(biāo)塊可以關(guān)注一組先前的塊。這種局部注意力與上述 Sink 注意力相結(jié)合,構(gòu)成了完整的 KV 緩存,在提高生成質(zhì)量的同時(shí)也加速了生成速度。

蒸餾調(diào)度(Distillation Schedule):由于 MoE 架構(gòu)的獨(dú)特性,高噪聲專家在訓(xùn)練和收斂方面比低噪聲專家面臨更大的挑戰(zhàn),特別是在 SFT 或蒸餾期間。為了解決這個(gè)問題,本工作為每個(gè)專家分配了不同的學(xué)習(xí)率。同時(shí),根據(jù)分隔兩個(gè)專家的噪聲水平邊界,重新定義了用于蒸餾的去噪時(shí)間步目標(biāo)列表。這確保了教師模型和學(xué)生模型在蒸餾過程中選擇高噪聲或低噪聲專家時(shí)保持一致性(如下圖 6 所示)。

隨機(jī)化長(zhǎng)視頻擴(kuò)展微調(diào)

本工作實(shí)現(xiàn)長(zhǎng)視頻生成的方法受到了一個(gè)觀察的啟發(fā):盡管基礎(chǔ)模型是在短片段上預(yù)訓(xùn)練的,但它隱含地捕捉了全局視覺數(shù)據(jù)分布。先前的方法 從因果生成器中展開長(zhǎng)視頻序列,并在擴(kuò)展幀上應(yīng)用分布矩距離(DMD)對(duì)齊。該策略有效地減輕了自回歸生成過程中的誤差累積。

基于這一見解,本工作采用隨機(jī)化擴(kuò)展微調(diào)策略,使用超過 10 秒的長(zhǎng)時(shí)長(zhǎng)游戲視頻數(shù)據(jù)集。在這個(gè)階段,模型自回歸地展開  幀,并均勻采樣連續(xù)的  幀窗口以對(duì)齊預(yù)測(cè)分布和目標(biāo)分布(真實(shí)值或教師先驗(yàn))。此外,我們將預(yù)測(cè)視頻從因果生成器隨機(jī)擴(kuò)展到不同的長(zhǎng)度,以提高跨不同時(shí)間范圍的魯棒性。在實(shí)踐中,當(dāng)在窗口  展開時(shí),學(xué)生生成器使用 Sink Token 和 KV 緩存并自回歸地?cái)U(kuò)展長(zhǎng)視頻,而 Fake Score 教師模型使用前一個(gè)干凈預(yù)測(cè)塊中的最后一幀  作為圖像條件;Real Score 則使用原始視頻中的真實(shí)幀。

為了減輕少步數(shù)蒸餾固有的交互能力侵蝕,本工作采用了一種交錯(cuò)使用 Self-forcing(自身強(qiáng)制)與 Teacher-forcing(教師強(qiáng)制)的訓(xùn)練范式。這種方法的理由是迫使模型掌握狀態(tài)恢復(fù)并保持時(shí)間穩(wěn)定性。至關(guān)重要的是,這是通過在生成軌跡的任意點(diǎn)將其暴露于不同狀態(tài)來實(shí)現(xiàn)的,而不是將這種糾正訓(xùn)練僅限于初始階段。

多輪交互推理

自注意力 KV 緩存:為了保持與訓(xùn)練策略的一致性,推理過程采用了具有滾動(dòng)更新機(jī)制的固定長(zhǎng)度自注意力 KV 緩存,以促進(jìn)高效的自回歸生成,如下圖 7 所示。具體而言,Sink Token 永久保留在緩存窗口的開始處。隨后的部分作為局部注意力窗口,在整個(gè)多輪交互中保留目標(biāo)去噪塊之前的  幀。完整的 KV 緩存由這些 Sink Token 和局部注意力組件組成,通過塊稀疏注意力實(shí)現(xiàn)。這種設(shè)計(jì)不僅提高了自回歸效率,還有效防止了質(zhì)量漂移。

ReCache(重緩存)機(jī)制:本工作采用 Recache 機(jī)制來增強(qiáng)自回歸長(zhǎng)視頻生成中多輪交互的準(zhǔn)確性和穩(wěn)定性。在接收到新的交互提示詞后,模型提取相應(yīng)的交互嵌入以重新計(jì)算最后一個(gè)自回歸塊,并更新自注意力和交叉注意力 KV 緩存。該策略以最小的計(jì)算開銷為隨后的目標(biāo)塊提供了精確的歷史上下文,從而確保準(zhǔn)確和響應(yīng)迅速的反饋,以促進(jìn)更流暢的用戶體驗(yàn)。

實(shí)時(shí)交互加速

為了進(jìn)一步加速推理并最小化延遲,本工作結(jié)合了幾項(xiàng)系統(tǒng)級(jí)優(yōu)化:

FP8 量化: 減少內(nèi)存帶寬并利用 GPU 加速,同時(shí)保持視覺質(zhì)量;

并行化 VAE 解碼: 實(shí)現(xiàn)了潛在幀(latent-frame)的同步重建,緩解了長(zhǎng)序列解碼的瓶頸;

SageAttention: 用優(yōu)化的量化注意力內(nèi)核替換 FlashAttention,以加快 Transformer 計(jì)算;

序列并行(Sequence parallelism): 將視頻令牌分布在多個(gè) GPU 上,支持高效的長(zhǎng)上下文生成。

綜合這些技術(shù),推理速度提升至 16 FPS,實(shí)現(xiàn)了具有穩(wěn)定質(zhì)量和低延遲的實(shí)時(shí)交互式視頻生成。

實(shí)驗(yàn)

模型與數(shù)據(jù)集配置

實(shí)驗(yàn)將 Hunyuan-GameCraft-2 與幾種 SOTA 圖生視頻基礎(chǔ)模型進(jìn)行了對(duì)比,包括 HunyuanVideo、Wan2.2 A14B 和 LongCatVideo。所有基線模型均在官方推薦的配置下運(yùn)行。為了評(píng)估,構(gòu)建了一個(gè)包含三個(gè)核心交互維度的測(cè)試套件:(1) 環(huán)境交互,(2) 角色動(dòng)作,(3) 實(shí)體與物體出現(xiàn)。測(cè)試集包含 100 張覆蓋多種場(chǎng)景和風(fēng)格的圖片,所有模型統(tǒng)一生成分辨率為 、長(zhǎng)度為 93 幀的視頻。

評(píng)估指標(biāo)

評(píng)估使用了兩類指標(biāo):

通用指標(biāo): 包括 FVD(視頻真實(shí)感)、圖像質(zhì)量與美學(xué)評(píng)分、時(shí)間一致性以及動(dòng)態(tài)平均值(光流幅度)。此外還使用相對(duì)位姿誤差(RPE)評(píng)估相機(jī)控制精度。

InterBench(交互基準(zhǔn)): 本文提出的針對(duì)動(dòng)作級(jí)交互的六維度評(píng)估協(xié)議。使用 VLM 作為自動(dòng)評(píng)估器,涵蓋以下維度:交互觸發(fā)率(是否發(fā)生了動(dòng)作)提示詞-視頻對(duì)齊度(語(yǔ)義保真度)交互流暢度(時(shí)間自然度)交互范圍準(zhǔn)確性(空間影響是否合理)終態(tài)一致性(最終狀態(tài)是否穩(wěn)定)物體物理正確性(結(jié)構(gòu)完整性與運(yùn)動(dòng)學(xué))交互評(píng)估結(jié)果

定量結(jié)果:如下表 5 所示,GameCraft-2 在所有交互類別(環(huán)境、角色動(dòng)作、實(shí)體出現(xiàn))的各項(xiàng)指標(biāo)上均顯著優(yōu)于基線模型。

觸發(fā)率: GameCraft-2 的交互觸發(fā)率極高(環(huán)境交互 0.962,角色動(dòng)作 0.983),遠(yuǎn)超其他模型。物理與一致性: 在物理正確性方面,比次優(yōu)模型高出 0.52-0.68 分;在流暢度和終態(tài)一致性上也表現(xiàn)出大幅提升。綜合性能: 如下表 4 所示,在通用視頻質(zhì)量指標(biāo)(FVD、圖像質(zhì)量等)和實(shí)時(shí)性(16 FPS)方面,GameCraft-2 也達(dá)到了最佳平衡。

定性分析:通過可視化對(duì)比(文中圖 10, 11, 12, 13, 22-24),GameCraft-2 展現(xiàn)了更高的保真度:

環(huán)境交互: 如“降雪”能實(shí)現(xiàn)全局覆蓋和動(dòng)態(tài)積雪,而基線模型往往缺乏動(dòng)態(tài)演變。角色動(dòng)作: 生成的動(dòng)作(如“持槍射擊”)更加連貫,手物接觸準(zhǔn)確,且終態(tài)穩(wěn)定。物體出現(xiàn): 新生成的實(shí)體(如“龍”或“車輛”)能保持結(jié)構(gòu)完整性和身份一致性。

泛化能力:模型展示了超出訓(xùn)練分布的泛化能力。例如,盡管訓(xùn)練數(shù)據(jù)中沒有“人突然出現(xiàn)”或“龍出現(xiàn)”的具體實(shí)例,模型仍能處理這些未見過的交互,生成符合物理規(guī)律的狀態(tài)轉(zhuǎn)換(圖 15)。

消融實(shí)驗(yàn)

針對(duì)長(zhǎng)視頻微調(diào)和 KV-Cache 設(shè)置進(jìn)行了消融研究(文中圖 16):

長(zhǎng)視頻微調(diào): 引入隨機(jī)化擴(kuò)展長(zhǎng)視頻微調(diào)顯著提高了 450 幀以后的視頻保真度和運(yùn)動(dòng)一致性。

Cache 設(shè)置: 增加 Sink Token 和局部注意力的大小可以豐富細(xì)節(jié),但可能增加偽影。

總結(jié)

Hunyuan-GameCraft-2,一種交互式游戲世界模型,能夠響應(yīng)自由形式的文本指令和鍵盤/鼠標(biāo)動(dòng)作,生成高保真、可控的視頻。本工作正式定義了交互式視頻數(shù)據(jù),并提出了用于其策展和合成的自動(dòng)化流程,有效地解決了阻礙該領(lǐng)域發(fā)展的數(shù)據(jù)瓶頸問題。

本模型在一個(gè)穩(wěn)健的訓(xùn)練框架內(nèi)統(tǒng)一了多模態(tài)控制信號(hào),利用新穎的隨機(jī)化長(zhǎng)視頻微調(diào)方案和高效的推理機(jī)制(如 KV-recache),實(shí)現(xiàn)了穩(wěn)定、長(zhǎng)時(shí)長(zhǎng)且實(shí)時(shí)的交互式生成。為了嚴(yán)格評(píng)估本工作的貢獻(xiàn),引入了 InterBench,這是一個(gè)專門設(shè)計(jì)用于評(píng)估動(dòng)作級(jí)交互質(zhì)量的新基準(zhǔn)。廣泛的實(shí)驗(yàn)表明,GameCraft-2 在交互保真度、視覺質(zhì)量和時(shí)間一致性的所有維度上均顯著優(yōu)于現(xiàn)有的最先進(jìn)模型。通過將前沿技術(shù)從被動(dòng)的視頻合成推向主動(dòng)的、用戶驅(qū)動(dòng)的世界生成,本工作標(biāo)志著邁向創(chuàng)建真正可玩且沉浸式 AI 生成虛擬體驗(yàn)的重要一步。

參考文獻(xiàn)

[1] Hunyuan-GameCraft-2: Instruction-following Interactive Game World Model

       原文標(biāo)題 : 《黑客帝國(guó)》雛形已現(xiàn)?騰訊造出“可對(duì)話游戲宇宙”,實(shí)時(shí)生成、任意交互,世界為你改變!

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)