訂閱
糾錯
加入自媒體

1步頂100步!TwinFlow:無需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

作者:Zhenglin Cheng等

解讀:AI生成未來

亮點直擊

簡單而有效的一步生成框架。提出了一種一步生成框架,該框架不需要輔助訓(xùn)練模型(GAN 判別器)或凍結(jié)的教師模型(不同的/一致性蒸餾),從而消除了 GPU 內(nèi)存成本,允許在大模型上進行更靈活和可擴展的訓(xùn)練。

基于任意步框架,TWINFLOW 僅使用 1-NFE 就實現(xiàn)了強大的文本到圖像性能,GenEval 分數(shù)達到 0.83。

將 1/2-NFE 生成能力引入到 Qwen-Image-20B。在 1-NFE 時實現(xiàn)了 0.86 的 GenEval 分數(shù)和 86.52 的 DPG 分數(shù);在 2-NFE 時實現(xiàn)了 0.87 的 GenEval 和 87.64 的 DPG 分數(shù),具有高度競爭力。

總結(jié)速覽

解決的問題

推理效率低下:主流多模態(tài)生成模型(擴散、流匹配、一致性模型)依賴多步采樣(40–100 NFE),導(dǎo)致高延遲與高計算成本,難以滿足實際部署需求;

現(xiàn)有少步方法存在顯著缺陷

蒸餾類方法(如漸進式/一致性蒸餾)在極低步數(shù)(<4 NFE)時生成質(zhì)量嚴重下降;

對抗訓(xùn)練類方法(如DMD、SANA-Sprint)引入判別器或凍結(jié)教師模型,導(dǎo)致訓(xùn)練不穩(wěn)定、架構(gòu)復(fù)雜、GPU內(nèi)存開銷大,難以擴展至大模型;

缺乏簡潔、穩(wěn)定、可擴展的一步生成框架,尤其在20B級大模型上尚未實現(xiàn)1-NFE下的高質(zhì)量生成。

提出的方案

提出 TWINFLOW——一種無需教師模型、無需對抗網(wǎng)絡(luò)的一步生成訓(xùn)練框架,核心創(chuàng)新為:

雙軌跡(Twin Trajectory)設(shè)計:將時間維度擴展至 ,構(gòu)建兩條對稱路徑:

正分支():噪聲 → 真實數(shù)據(jù);

負分支():相同噪聲 → “偽”數(shù)據(jù);

自監(jiān)督速度場對齊目標(biāo):直接最小化兩條軌跡的速度場差異,迫使模型學(xué)習(xí)更魯棒、直接的噪聲→數(shù)據(jù)映射;

端到端訓(xùn)練范式:全程無需凍結(jié)教師模型、無需判別器等輔助模塊,支持全參數(shù)訓(xùn)練。

應(yīng)用的技術(shù)

流匹配(Flow Matching)理論擴展:將標(biāo)準(zhǔn)  時間流拓展為對稱  雙流空間;

速度場一致性約束:通過最小化正負軌跡間速度場的  距離實現(xiàn)自監(jiān)督優(yōu)化;

大模型高效適配:應(yīng)用于 Qwen-Image-20B(200億參數(shù)多模態(tài)生成模型),實現(xiàn)全參數(shù)微調(diào)與一步生成轉(zhuǎn)換;

評估體系:采用 GenEval(綜合生成質(zhì)量)、DPG-Bench(圖像保真度與多樣性)等權(quán)威基準(zhǔn)驗證效果。

達到的效果

推理效率飛躍:僅需 1-NFE 即可生成高質(zhì)量圖像,計算成本降低100倍(相比原100-NFE模型);

生成質(zhì)量領(lǐng)先:1-NFE:GenEval 0.86,DPG 86.52;2-NFE:GenEval 0.87,DPG 87.64;

→ 逼近原100-NFE模型性能(GenEval 0.87,DPG 88.32),質(zhì)量損失極。

在文本到圖像任務(wù)中,1-NFE下 GenEval = 0.83,顯著優(yōu)于 SANA-Sprint(0.72)與 RCGM(0.80);

工程優(yōu)勢顯著:訓(xùn)練穩(wěn)定、架構(gòu)簡潔、內(nèi)存開銷低;首次驗證了20B級多模態(tài)大模型可高效實現(xiàn)一步生成,具備強可擴展性與工業(yè)落地潛力。

方法

當(dāng)前任意步框架中的少數(shù)步驟方法在不依賴 GAN 損失的情況下難以實現(xiàn)高質(zhì)量的一步生成,而 GAN 損失會顯著增加復(fù)雜性。為了解決這個問題,本文提出了 TWINFLOW,一種簡單且自包含的方法,可以在任意步流匹配框架內(nèi)直接增強一步性能。本文的核心思想是引入雙軌跡,它創(chuàng)建了一個內(nèi)部自對抗信號,從而消除了訓(xùn)練過程中對外部 GAN 損失的需求。該方法通過最小化“假”和“真實”速度場之間的差異來實現(xiàn),理想情況下該差異應(yīng)為零。本文最后演示了如何將 TWINFLOW 集成到更廣泛的任意步框架中,并提供了實際設(shè)計。

用于自對抗訓(xùn)練的雙軌跡

本文方法的一個關(guān)鍵創(chuàng)新是引入了雙軌跡,其時間步長以  對稱(參見下圖 2a)。這種結(jié)構(gòu)創(chuàng)建了一個自包含、無判別器的對抗目標(biāo),旨在直接增強一步生成性能。

創(chuàng)建自對抗目標(biāo)。 標(biāo)準(zhǔn)學(xué)習(xí)過程在時間間隔  上操作:真實數(shù)據(jù)  被  擾動,其中 , 。為了創(chuàng)建本文的自對抗目標(biāo)(以及雙軌跡),本文將此時間間隔從  擴展到 。此間隔的負半部分,,指定用于學(xué)習(xí)從噪聲到模型自身生成的“假”數(shù)據(jù)的生成路徑。

具體來說,本文任務(wù)網(wǎng)絡(luò)學(xué)習(xí)到其自身輸出的生成路徑。本文采用模型生成的假樣本 ,即 ,并構(gòu)建相應(yīng)的“假軌跡”,其中其擾動版本定義為 ,,。這里  是不同的噪聲,不需要與  相同。然后,網(wǎng)絡(luò)在此軌跡上使用負時間輸入  進行以下流匹配目標(biāo)訓(xùn)練:

其中  是一個度量函數(shù)。最小化此損失教會網(wǎng)絡(luò)學(xué)習(xí)負時間條件和從噪聲到假數(shù)據(jù)分布的變換,為下一節(jié)中描述的校正損失奠定了基礎(chǔ)。

通過速度匹配校正真實軌跡

理想情況下,本文希望雙軌跡相互匹配。如前文所述,分布  和  分別對應(yīng)由負時間和正時間間隔參數(shù)化的軌跡。受 DMD的啟發(fā),本文可以將其視為一個分布匹配問題。對于任何擾動樣本 ,本文旨在最小化這兩個分布之間的 KL 散度:

速度匹配作為分布匹配。 對公式 (3) 求梯度,本文得到:

其中  是各自分布的分數(shù)。在線性傳輸下(),分數(shù)與速度場  的關(guān)系由下式給出:

將公式 (5) 中的此關(guān)系代入 KL 梯度 (4) 得到:

其中模型對于假軌跡以  為條件,對于真實軌跡以  為條件。為簡化起見,本文將此速度差(參見上圖 2a)表示為:

此推導(dǎo)將原始的分布匹配問題重鑄為一個更實用的速度匹配問題。本文現(xiàn)在展示如何將其表述為下面可處理的校正損失。

校正損失推導(dǎo)。 為了推導(dǎo)校正損失,本文首先使用第 3.1 節(jié)中的設(shè)置實例化梯度 (6)。在此設(shè)置中,網(wǎng)絡(luò)的預(yù)測  作為干凈的示例,因此,(6) 中的擾動變量  對應(yīng)于假樣本 。因此,(7) 中定義的速度差  被實例化為 。

在此設(shè)置下,(6) 中的雅可比項實例化為  并簡化為:

因此,(6) 中的 KL 梯度采用內(nèi)積  的形式。為了構(gòu)建產(chǎn)生這種梯度結(jié)構(gòu)的可處理損失,本文采用停止梯度算子 sg()。這激發(fā)了以下校正損失:

其中  是一個度量函數(shù)。最小化  鼓勵模型校直從噪聲到數(shù)據(jù)分布的生成軌跡。這種校正允許通過大步長精確近似整個積分過程,從而實現(xiàn)少步或 1 步生成。

TWINFLOW 目標(biāo)與實際設(shè)計

與任意步框架的整合。 本文方法 TWINFLOW 訓(xùn)練一個單一模型,使其在多步和少步生成方面都表現(xiàn)出色。這是通過結(jié)合兩個具有沖突需求的互補目標(biāo)實現(xiàn)的:

自對抗損失 ( 在公式 (2) 中) 通過將訓(xùn)練動態(tài)擴展到區(qū)間  來促進高保真度、多步生成。校正損失 ( 在公式 (9) 中) 通過直接校直從噪聲到數(shù)據(jù)的軌跡來優(yōu)化少步效率,從而實現(xiàn)快速、高質(zhì)量的合成。 這創(chuàng)建了一個雙重目標(biāo):模型必須既是一個精確的多步采樣器,又是一個高效的少步生成器。這導(dǎo)致了第 2 節(jié)中介紹的任意步框架的應(yīng)用,該框架統(tǒng)一了 (2) 和 (9) 的要求。本文采用 (1) 的  公式來增強訓(xùn)練穩(wěn)定性。本文的最終損失結(jié)合了基本目標(biāo)和本文提出的項,本文將其統(tǒng)稱為 。本文方法中的整體損失函數(shù)可以表示為:

混合損失的實際實現(xiàn)。 中的  和  目標(biāo)在任意步公式下對目標(biāo)時間  提出了不同的要求。具體來說, 要求  從  采樣,而  需要固定的目標(biāo)時間 。為了在單個訓(xùn)練步驟中同時滿足這兩個要求,本文將每個 mini-batch 分成兩個子集。平衡超參數(shù)  控制這些子集的相對大小。一部分批次用于計算  時的 ,而其余部分用于計算隨機采樣  時的 。因此, 的值平衡了兩個損失對梯度更新的影響。設(shè)置  禁用  項,而較大的值會增加其貢獻。關(guān)于  影響的消融研究可在下圖 4a 中找到。

實驗

本文通過兩個方面證明了本文方法 TWINFLOW 的有效性。首先,本文強調(diào)其多功能性和可擴展性,將 TWINFLOW 應(yīng)用于統(tǒng)一的多模態(tài)模型,例如 Qwen-Image-20B,如下表 2 所示。其次,本文將其與最先進 (SOTA) 的專用文本到圖像模型進行基準(zhǔn)測試,結(jié)果如下表 4 所示。

實驗設(shè)置

本節(jié)詳細介紹了本文提出的方法的實驗設(shè)置和評估協(xié)議。

多模態(tài)生成模型上的圖像生成。 本文對統(tǒng)一的多模態(tài)模型(即同時將文本和圖像作為條件并能夠生成文本和圖像)進行評估。(1) 網(wǎng)絡(luò)架構(gòu):本文在 Qwen-Image 上進行了 LoRA(上表 2)和全參數(shù)訓(xùn)練(下表 3)的 TWINFLOW。本文還在 OpenUni-512上進行了全參數(shù)訓(xùn)練實驗。(2) 基準(zhǔn):遵循近期工作,本文在文本到圖像生成任務(wù)中使用了基準(zhǔn)。對于文本到圖像生成,本文使用了 GenEval、DPG-Bench和 WISE。

文本到圖像生成。 對于文本到圖像生成,本文在專用文本到圖像模型(即主要以文本作為條件并僅生成圖像)上進行評估。(1) 網(wǎng)絡(luò)架構(gòu):本文在實驗中使用了 SANA-0.6B/1.6B。(2) 基準(zhǔn):遵循 SANA 系列,本文使用了GenEval和 DPG-Bench作為評估指標(biāo)。

多模態(tài)生成模型上的圖像生成

本文通過在 20B 參數(shù)的 Qwen-Image 系列上實現(xiàn)具有競爭力的 1-NFE 文本到圖像生成,展示了 TWINFLOW 的可擴展性。這一突破解決了該領(lǐng)域的一個關(guān)鍵空白,因為以前的少步方法由于 GAN 損失在規(guī)模上的不穩(wěn)定性,很少應(yīng)用于超過 3B 參數(shù)的模型。

本文方法比最先進的統(tǒng)一多模態(tài)生成模型具有兩個關(guān)鍵優(yōu)勢: (a) TWINFLOW 在 Qwen-Image-20B 上以 1-NFE 保持 >0.86 的 GenEval 分數(shù):超越了大多數(shù)多步模型(40-100 NFEs),例如 Bagel、MetaQuery。 (b) TWINFLOW 在沒有任何輔助組件或架構(gòu)修改的情況下實現(xiàn)了這一點,這與需要蒸餾或?qū)iT訓(xùn)練管道的競爭性少步方法不同。

本文評估了 Qwen-Image-TWINFLOW 在幾個標(biāo)準(zhǔn)基準(zhǔn)測試上的文本到圖像生成能力:GenEval、DPG-Bench和 WISE。本文模型在所有基準(zhǔn)測試中僅用 1-NFE 就表現(xiàn)出強大的性能,取得了既有競爭力又高效的結(jié)果。

在文本到圖像基準(zhǔn)上進行評估。 如上表 2 所示,Qwen-Image-TWINFLOW 在 GenEval 上取得了 0.86 分,在 DPG-Bench 上取得了 86.52% 的分數(shù),僅用 1-NFE 就與原始模型在 100-NFE 下的性能非常接近。與 Qwen-Image-Lightning (一個 4 步蒸餾模型)相比,本文模型在 GenEval 和 WISE 上僅用 1-NFE 就超越了它。此外,本文模型在 1-NFE 和 2-NFE 設(shè)置下,在 GenEval 和 DPG-Bench 上都優(yōu)于 Qwen-Image-RCGM ,在 1-NFE 設(shè)置下,GenEval 顯著提高了 0.34,DPG-Bench 提高了 27.0%,WISE 提高了 0.25。

本文還將 Qwen-Image-TWINFLOW 與其他著名的多步統(tǒng)一多模態(tài)生成模型進行了基準(zhǔn)測試,例如 MetaQuery-XL、BLIP3-o-8B和 Bagel。本文模型在所有評估指標(biāo)上,以 1 或 2-NFE 始終超越這些基線。除了 Qwen-Image,本文還將 TWINFLOW 應(yīng)用于 OpenUni,在 1-NFE 設(shè)置下取得了 0.80 的 GenEval 分數(shù)和 76.40 的 DPG-Bench 分數(shù),這也接近其原始性能。這些發(fā)現(xiàn)強調(diào)了 TWINFLOW 在不同架構(gòu)和規(guī)模上的多功能性和有效性。

對 Qwen-Image 進行 20B 全參數(shù)訓(xùn)練的進一步探索。 上表 3 展示了 TWINFLOW 在大規(guī)模 Qwen-Image-20B 上進行全參數(shù)訓(xùn)練的擴展性和性能優(yōu)勢,F(xiàn)有的分布匹配方法,如 VSD、DMD  和 SiD,通常需要維護三個獨立的模型副本(生成器、真實分數(shù)和假分數(shù)),導(dǎo)致顯著的內(nèi)存開銷。相比之下,TWINFLOW 通過統(tǒng)一設(shè)計脫穎而出: (a) 簡單性和效率: 通過將生成器、真實/假分數(shù)估計集成到一個模型中,TWINFLOW 消除了對冗余參數(shù)的需求。這允許在 20B 規(guī)模下進行全參數(shù)訓(xùn)練。 (b) 性能優(yōu)越性: 憑借這種統(tǒng)一設(shè)計,TWINFLOW 在 Qwen-Image-20B 上超越了所有基線。值得注意的是,與 8 NFE 下運行的 sCM和 MeanFlow相比,它僅用 1-2 NFE 就實現(xiàn)了卓越的生成質(zhì)量。

如下圖 3 所示,是 Qwen-Image 和 Qwem-Image-TWINFLOW 在不同 NFE 下生成的圖像的可視化結(jié)果。Qwen-Image-TWINFLOW 能夠以 1 NFE 生成高質(zhì)量圖像,其性能優(yōu)于原始 Qwen-Image 在 16 NFE 下的表現(xiàn)。此外,將 2 NFE 的結(jié)果與 Qwen-Image 的 32 NFE 輸出進行比較時,本文方法在視覺細節(jié)方面表現(xiàn)出更好的效果。

關(guān)于開源社區(qū)工作的討論。 據(jù)本文所知,Qwen-Image-Lightning是唯一一款在大模型上的開源少步模型。它是使用 DMD2開發(fā)的,但去除了 GAN 損失。這也間接反映了使用 GAN 損失的高成本。然而,本文觀察到 Qwen-Image-Lightning 存在嚴重的模式崩潰:當(dāng)給定相同的提示但不同的噪聲輸入時,生成的圖像在多次運行中幾乎保持一致。

圖像編輯的探索。 由于資源限制,本文對 TWINFLOW 在圖像編輯方面的能力進行了初步探索,使用了大約 15K 編輯對的小型微調(diào)數(shù)據(jù)集。盡管規(guī)模有限,本文的結(jié)果(參見下表 8)表明 TWINFLOW 可以將 Qwen-Image-Edit轉(zhuǎn)換為一個 4-NFE 編輯模型。這表明,如果能夠訪問更多樣化的編輯數(shù)據(jù)集,本文預(yù)計在編輯輸出的保真度和多功能性方面都會有實質(zhì)性的進一步改進。

專用文本到圖像模型上的圖像生成

為了驗證本文方法的多功能性,本文還在傳統(tǒng)的文本到圖像生成任務(wù)上進行了基準(zhǔn)測試。如上表 4 所示,本文首先與預(yù)訓(xùn)練的多步模型(通常需要 >40-NFE)進行了基準(zhǔn)測試。根據(jù)下表 1 中的分類,本文將與最先進的少步模型進行比較,根據(jù)它們對輔助組件的依賴性進行分組:使用輔助模型訓(xùn)練的和不使用輔助模型訓(xùn)練的。重要的是,SANA-0.6B/1.6B 骨干網(wǎng)上的全參數(shù)微調(diào)能夠在僅 1-2 NFE 內(nèi)實現(xiàn)高保真圖像生成。

(a) 1-NFE 設(shè)置: 本文方法的效力在要求更高的 1-NFE 推理設(shè)置中尤為突出。在這里,本文的模型(0.6B:0.83,1.6B:0.81 在 GenEval 上)顯著優(yōu)于其他領(lǐng)先的 1-NFE 方法,例如 SANA-RCGM (0.78)、SANA-Sprint (0.76) 、FLUX-Schnell (0.69) 和 SDXL-DMD2 (0.59)。值得注意的是,本文的 1-NFE TWINFLOW-0.6B (GenEval:0.83) 超過了 40-NFE SANA-1.5-4.8B模型的生成質(zhì)量,同時提供了顯著更高的計算效率。 (b) 2-NFE 設(shè)置: 在 2-NFE 配置中,TWINFLOW-0.6B 實現(xiàn)了 6.50 樣本/秒的吞吐量和 0.26 秒的延遲,性能指標(biāo)與最初報告的 SANA 值相當(dāng)。在 GenEval 基準(zhǔn)測試中,本文模型獲得了 0.84 分,不僅超越了 SANA-Sprint 系列(0.76 和 0.77),而且還超越了強大的多步模型,如 SANA-1.5 (0.81) 和 Playground v3 (0.76)。本文模型在 DPG-Bench 上也表現(xiàn)出有競爭力的性能,0.6B 變體和 1.6B 變體分別獲得了 79.7 和 79.6 的分數(shù)。

本文的 TWINFLOW-0.6B/1.6B 在 GenEval 基準(zhǔn)測試上僅使用 1-NFE 就實現(xiàn)了最先進的文本到圖像生成性能,超越了 SANA-Sprint 和 RCGM。雖然本文在 DPG-Bench 上的性能略低于 SANA-Sprint,但這是因為 SANA-Sprint 依賴于廣泛的專有訓(xùn)練數(shù)據(jù)。本文認為這一差距主要是數(shù)據(jù)驅(qū)動的,可以通過在更大、更高質(zhì)量的數(shù)據(jù)集上進行訓(xùn)練來有效彌補。

消融研究與分析

 的影響。 如前文所述, 旨在控制  和  的樣本分布。如上圖 4a 所示,本文可視化了 1-NFE 和 2-NFE 下 DPG-Bench 性能隨  的變化。本文觀察到,隨著  從 0 增加,DPG-Bench 的性能最初增加,然后下降,在大約  時達到峰值。這些結(jié)果表明,在局部批次中適當(dāng)平衡樣本有助于提高模型性能。

 對不同模型的影響。 本文進行了一項消融研究,以分析在不同模型上使用  對文本到圖像性能的影響。如上圖 4b 所示,引入  顯著提高了性能:它改善了 OpenUni、SANA,尤其是 Qwen-Image(從 59.50 到 86.52)在文本到圖像任務(wù)上的 1-NFE 性能。

訓(xùn)練步數(shù)與 NFE 的關(guān)系。 如上圖 4c 所示,實驗結(jié)果表明,隨著訓(xùn)練步數(shù)的增加,最佳采樣步數(shù)的“舒適區(qū)”也相應(yīng)地發(fā)生變化。值得注意的是,在 1 步和少步采樣場景中都觀察到了 GenEval 性能的改進,并且隨著訓(xùn)練的進行,取得了顯著的收益,這表明了  的有效性。

結(jié)論與局限性

TWINFLOW,一個用于訓(xùn)練大型少步連續(xù)生成模型的簡單而有效的框架。與 DMD 系列等其他少步方法相比,本文方法因其高度的簡單性而脫穎而出,因為它消除了對 GAN 判別器或凍結(jié)教師模型等輔助訓(xùn)練組件的需求。這種設(shè)計允許對大模型進行直接的 1 步或少步訓(xùn)練,使其特別易于訪問和高效。通過在不同規(guī)模和任務(wù)上進行的大量實驗,本文證明了 TWINFLOW 在大模型上的文本到圖像合成中提供了高質(zhì)量的生成能力。盡管取得了這些有希望的結(jié)果,但仍有幾個局限性需要解決。首先,TWINFLOW 對圖像編輯等更多樣化任務(wù)的可擴展性尚未得到有效探索。其次,其對視頻和音頻生成等更多樣化模態(tài)的適應(yīng)性需要進一步驗證。解決這些挑戰(zhàn)可以顯著提高 TWINFLOW 在更廣泛上下文中的適用性和性能,為更健壯和多功能的生成模型鋪平道路。

參考文獻

[1] TWINFLOW: REALIZING ONE-STEP GENERATION ON LARGE MODELS WITH SELF-ADVERSARIAL FLOWS

       原文標(biāo)題 : 1步頂100步!TwinFlow:無需教師模型,僅單步推理,Qwen-Image-20B生成速度漲100倍!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號