端到端像素?cái)U(kuò)散天降外掛！北大&華為等開源DeCo：生圖質(zhì)量超越SD3、OmniGen2等

2025-11-26 16:37

作者：Zehong Ma等

解讀：AI生成未來

亮點(diǎn)直擊

DeCo解耦框架：DiT專注低頻語義建模（采用下采樣輸入）；輕量級(jí)像素解碼器重建高頻信號(hào)。

創(chuàng)新頻率感知損失函數(shù)：通過DCT轉(zhuǎn)換至頻域；基于JPEG量化表分配自適應(yīng)權(quán)重；強(qiáng)化視覺顯著頻率，抑制高頻噪聲。

DeCo在像素?cái)U(kuò)散模型中取得領(lǐng)先性能：ImageNet上FID得分1.62（256×256）和2.22（512×512），縮小了與兩階段潛在擴(kuò)散方法的差距。本文預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級(jí)評(píng)估中同樣在GenEval（0.86）和DPG-Bench（81.4）上獲得SOTA結(jié)果。

通過架構(gòu)級(jí)解耦實(shí)現(xiàn)專業(yè)化分工，為像素?cái)U(kuò)散模型提供了新的設(shè)計(jì)范式，同時(shí)保持端到端訓(xùn)練的優(yōu)勢(shì)。

總結(jié)速覽

解決的問題

核心矛盾：像素?cái)U(kuò)散模型需要在一個(gè)單一的擴(kuò)散Transformer中同時(shí)建模高頻信號(hào)（細(xì)節(jié)、噪聲）和低頻語義（結(jié)構(gòu)、內(nèi)容），導(dǎo)致模型負(fù)擔(dān)過重、效率低下且生成質(zhì)量受損。

具體弊端：

高頻噪聲會(huì)干擾DiT對(duì)低頻語義的學(xué)習(xí)。

單一模型難以在巨大像素空間中兼顧兩種不同特性的任務(wù)。

傳統(tǒng)方法導(dǎo)致訓(xùn)練和推理速度慢，輸出圖像存在噪聲且質(zhì)量下降。

提出的方案

核心框架：提出名為DeCo的頻率解耦像素?cái)U(kuò)散框架。

核心思想：將高低頻組分的生成進(jìn)行解耦，讓不同組件各司其職。

具體措施：

讓DiT專注于低頻語義建模，使用下采樣輸入。

引入一個(gè)輕量級(jí)像素解碼器，在DiT提供的語義引導(dǎo)下，專門負(fù)責(zé)重建高頻信號(hào)。

提出一種頻率感知流匹配損失函數(shù)，以優(yōu)化訓(xùn)練。

應(yīng)用的技術(shù)

架構(gòu)解耦：采用DiT作為語義主干，配合輕量級(jí)像素解碼器的雙路徑架構(gòu)。

頻率感知損失：利用離散余弦變換將信號(hào)轉(zhuǎn)換到頻域，并基于JPEG量化表先驗(yàn)為不同頻率分量分配自適應(yīng)權(quán)重，以強(qiáng)調(diào)視覺顯著頻率、抑制高頻噪聲。

端到端訓(xùn)練：保持像素?cái)U(kuò)散端到端訓(xùn)練的優(yōu)勢(shì)，同時(shí)通過解耦設(shè)計(jì)提升效率。

達(dá)到的效果

性能領(lǐng)先：在ImageNet上取得了像素?cái)U(kuò)散模型中卓越的性能，F(xiàn)ID達(dá)到1.62（256×256）和2.22（512×512），顯著縮小了與主流潛在擴(kuò)散方法的差距。

全面優(yōu)異：預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級(jí)評(píng)估中，于GenEval（0.86）和DPG-Bench（81.4）上獲得領(lǐng)先成績(jī)。

質(zhì)量提升：通過解耦設(shè)計(jì)和頻率感知損失，有效提升了視覺保真度，并緩解了高頻噪聲的干擾。

驗(yàn)證有效：實(shí)驗(yàn)結(jié)果驗(yàn)證了在像素?cái)U(kuò)散中解耦高低頻組分建模這一思路的有效性。

方法

概述

本節(jié)首先回顧基線像素?cái)U(kuò)散中的條件流匹配，隨后介紹本文提出的頻率解耦像素?cái)U(kuò)散框架。

條件流匹配。 條件流匹配提供了一個(gè)連續(xù)時(shí)間生成建�？蚣�，其通過學(xué)習(xí)速度場(chǎng)，將樣本從簡(jiǎn)單先驗(yàn)分布（如高斯分布）傳輸?shù)揭詷?biāo)簽和時(shí)間為條件的數(shù)據(jù)分布。給定通過干凈圖像與噪聲間插值構(gòu)建的前向軌跡，條件流匹配的目標(biāo)是將模型預(yù)測(cè)速度與真實(shí)速度進(jìn)行匹配：

其中軌跡的線性插值定義為：

真實(shí)速度可通過對(duì)時(shí)間的導(dǎo)數(shù) 推導(dǎo)得出：

在像素?cái)U(kuò)散基線中，軌跡通常首先通過補(bǔ)丁嵌入層（而非VAE）進(jìn)行令牌化處理以實(shí)現(xiàn)圖像下采樣。在本文的基線及DeCo實(shí)驗(yàn)中，本文對(duì)DiT輸入統(tǒng)一采用16×16的補(bǔ)丁尺寸�；€方法將補(bǔ)丁化后的軌跡輸入DiT，通過解補(bǔ)丁層預(yù)測(cè)像素速度。該方案要求DiT同時(shí)建模高頻信號(hào)與低頻語義，而高頻信號(hào)（特別是高頻噪聲）難以建模，會(huì)干擾DiT對(duì)低頻語義的學(xué)習(xí)。

DeCo框架。 為實(shí)現(xiàn)高頻生成與低頻語義建模的分離，本文提出頻率解耦框架DeCo。如下圖3所示：

DiT被用于從下采樣的低分辨率輸入中生成低頻語義，具體過程如下：

其中為時(shí)間，為標(biāo)簽或文本提示。如后文所述，輕量級(jí)像素解碼器隨后以DiT輸出的低頻語義為條件，結(jié)合全分辨率密集輸入生成額外高頻細(xì)節(jié)，最終預(yù)測(cè)的像素速度如下所示：

該新范式利用像素解碼器生成高頻細(xì)節(jié)，使DiT能專注于語義建模。這種解耦機(jī)制將不同頻率的建模任務(wù)分離到不同模塊，從而加速訓(xùn)練并提升視覺保真度。

為進(jìn)一步強(qiáng)化視覺顯著頻率并忽略不重要的高頻分量，本文引入了頻率感知流匹配損失函數(shù) 。該損失函數(shù)通過源自JPEG感知先驗(yàn)的自適應(yīng)權(quán)重對(duì)不同頻率分量進(jìn)行重新加權(quán)。結(jié)合基線中的標(biāo)準(zhǔn)像素級(jí)流匹配損失與REPA對(duì)齊損失，最終目標(biāo)函數(shù)可表示為：

像素解碼器

如上圖3所示，像素解碼器是一個(gè)輕量級(jí)無注意力網(wǎng)絡(luò)，由個(gè)線性解碼塊和若干線性投影層構(gòu)成。所有操作均為局部線性運(yùn)算，可在無需自注意力計(jì)算開銷的前提下實(shí)現(xiàn)高效的高頻建模。

稠密查詢構(gòu)建。 像素解碼器直接以全分辨率含噪圖像作為輸入（不進(jìn)行下采樣）。所有含噪像素與其對(duì)應(yīng)的位置編碼拼接后，通過線性投影形成稠密查詢向量：

其中，和分別表示原始圖像的高度和寬度（例如256），代表像素解碼器的隱藏維度（例如32）。相關(guān)消融實(shí)驗(yàn)參見下表4(c)和(d)。

解碼器塊。 對(duì)于每個(gè)解碼器塊，DiT輸出經(jīng)過線性上采樣并調(diào)整形狀以匹配的空間分辨率，得到。隨后通過MLP生成自適應(yīng)層歸一化的調(diào)制參數(shù)：

其中為 SiLU 激活函數(shù)。本文采用 AdaLN-Zero [43] 對(duì)每個(gè)模塊中的稠密解碼器查詢進(jìn)行如下調(diào)制：

其中 MLP 包含兩個(gè)帶有 SiLU的線性層。

速度預(yù)測(cè)。 最后，通過線性投影及重排操作將解碼器輸出映射至像素空間，得到預(yù)測(cè)速度。該速度包含像素解碼器生成的高頻細(xì)節(jié)以及來自 DiT 的語義信息。

頻率感知 FM 損失

為進(jìn)一步促使像素解碼器聚焦于感知重要的頻率并抑制無關(guān)噪聲，本文引入了頻率感知流匹配損失。

空間-頻率變換。 本文首先將預(yù)測(cè)的和真實(shí)的像素速度從空間域轉(zhuǎn)換到頻域。具體流程為：將色彩空間轉(zhuǎn)換為 YCbCr 后，按照 JPEG標(biāo)準(zhǔn)執(zhí)行分塊 8×8 離散余弦變換。將該變換記為，則有：

感知加權(quán)。 為強(qiáng)化視覺顯著頻率并抑制次要頻率，本文采用JPEG量化表作為視覺先驗(yàn)生成自適應(yīng)權(quán)重。量化間隔越小的頻率具有越高的感知重要性。因此，本文使用質(zhì)量等級(jí)下縮放量化表的歸一化倒數(shù)作為自適應(yīng)權(quán)重，即。當(dāng)質(zhì)量等級(jí)介于50至100之間時(shí)，可根據(jù)JPEG預(yù)設(shè)規(guī)則獲取對(duì)應(yīng)的縮放量化表：

其中表示 JPEG 標(biāo)準(zhǔn)中定義的基礎(chǔ)量化表。基于自適應(yīng)權(quán)重，頻率感知流匹配損失定義如下：

實(shí)證分析

為驗(yàn)證DeCo有效實(shí)現(xiàn)頻率解耦，本文分析了DiT輸出與像素速度的DCT能量譜（下圖4）。

相較于基線方法，本文的像素解碼器成功保持了像素速度中的所有頻率分量。同時(shí)，DeCo中DiT輸出的高頻能量顯著低于基線，表明高頻組分已從DiT轉(zhuǎn)移至像素解碼器。這些觀測(cè)證實(shí)DeCo實(shí)現(xiàn)了有效的頻率解耦。上表4(c)(d)的結(jié)果進(jìn)一步表明，這一成功解耦得益于兩項(xiàng)關(guān)鍵架構(gòu)設(shè)計(jì)：

多尺度輸入策略。 多尺度輸入策略至關(guān)重要：通過該策略，像素解碼器可在高分辨率原始輸入上輕松建模高頻信號(hào)，同時(shí)使DiT能夠從高頻信號(hào)已被部分抑制的低分辨率輸入中專注建模低頻語義。值得注意的是，本方案DiT采用16×16的補(bǔ)丁尺寸，顯著大于PixelFlow[6]的4×4補(bǔ)丁，使其更適用于語義捕獲而非細(xì)節(jié)重建。

基于AdaLN的交互機(jī)制。 自適應(yīng)層歸一化為DiT與像素解碼器提供了強(qiáng)大的交互機(jī)制。在本框架中，DiT的作用類似于傳統(tǒng)文生圖模型中的文本編碼器，提供穩(wěn)定的低頻語義條件。AdaLN層隨后以DiT輸出為條件，對(duì)像素解碼器中的稠密查詢特征進(jìn)行調(diào)制。實(shí)驗(yàn)證實(shí)，該調(diào)制機(jī)制在融合低頻語義與高頻信號(hào)方面，比UNet等采用上采樣疊加低頻特征的簡(jiǎn)單方法更為有效。

實(shí)驗(yàn)

本文在ImageNet 256×256數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)與基線對(duì)比。針對(duì)類別到圖像生成任務(wù)，本文在ImageNet 256×256和512×512分辨率上提供詳細(xì)對(duì)比，并報(bào)告FID、sFID、IS、精確度與召回率；針對(duì)文本到圖像生成任務(wù)，本文報(bào)告在GenEval和DPG-Bench上的結(jié)果。

基線對(duì)比

實(shí)驗(yàn)設(shè)置。 基線對(duì)比中所有擴(kuò)散模型均在ImageNet 256×256分辨率下訓(xùn)練20萬步，采用大型DiT變體。相較于基線的核心架構(gòu)改進(jìn)是將最后兩個(gè)DiT塊替換為本文提出的像素解碼器。推理階段使用50步歐拉采樣且不采用無分類器引導(dǎo)。本文對(duì)比了需要VAE的兩階段DiT-L/2，以及PixelFlow、PixNerd等近期像素?cái)U(kuò)散模型，同時(shí)將DDT適配為像素?cái)U(kuò)散基線PixDDT，并集成JiT到本文的基線中（結(jié)合REPA）以進(jìn)行公平對(duì)比。

詳細(xì)對(duì)比。 如下表1所示，本文的DeCo框架在參數(shù)量更少的情況下，所有指標(biāo)均顯著超越基線，同時(shí)保持相當(dāng)?shù)挠?xùn)練與推理成本。值得注意的是，僅通過頻率解耦架構(gòu)，DeCo（未使用）即可將FID從61.10降至34.12，IS從16.81提升至46.44；結(jié)合頻率感知FM損失后，DeCo進(jìn)一步將FID降低至31.35并在其他指標(biāo)上持續(xù)提升。相較于兩階段DiT-L/2，本文的無VAE DeCo模型在達(dá)到相當(dāng)性能的同時(shí)顯著降低了訓(xùn)練與推理開銷。相比其他像素?cái)U(kuò)散方法：DeCo比多尺度級(jí)聯(lián)模型PixelFlow更高效且性能更優(yōu)；比基于單尺度注意力的PixDDT表現(xiàn)更卓越；相較近期PixNerd在取得更優(yōu)FID的同時(shí)降低了訓(xùn)練與推理成本。

JiT指出高維噪聲會(huì)干擾有限容量模型對(duì)低維數(shù)據(jù)的學(xué)習(xí)，通過預(yù)測(cè)干凈圖像并將生成過程錨定在低維數(shù)據(jù)流形，成功將FID從61.10降至39.06（上表1）。本文的DeCo具有相似動(dòng)機(jī)——防止含高維噪聲的高頻信號(hào)干擾DiT學(xué)習(xí)低頻語義的能力，但提出了架構(gòu)層面的解決方案：引入輕量級(jí)像素解碼器專注建模高頻信號(hào)，解放DiT學(xué)習(xí)低頻語義。DeCo還能緩解干凈圖像中高頻噪聲（如相機(jī)噪聲）的負(fù)面影響，因此實(shí)現(xiàn)了優(yōu)于JiT的FID（31.35對(duì)39.06）。

類別到圖像生成

實(shí)驗(yàn)設(shè)置。 在ImageNet上的類別到圖像生成實(shí)驗(yàn)中，本文首先在256×256分辨率下訓(xùn)練320輪，隨后在512×512分辨率下微調(diào)20輪。推理階段使用100步歐拉采樣配合CFG [18]與引導(dǎo)間隔[29]，在單張A800 GPU上測(cè)量推理延遲。

主要結(jié)果。 本文的DeCo在ImageNet 256×256和512×512上分別達(dá)到領(lǐng)先的FID 1.62和2.22。在256×256分辨率下，DeCo展現(xiàn)出卓越的推理效率：僅需1.05秒即可生成圖像（100推理步），而RDM需38.4秒、PixelFlow需9.78秒。訓(xùn)練效率方面（表1），單次迭代僅需0.24秒，遠(yuǎn)低于PixelFlow的1.61秒。在相同320輪訓(xùn)練后，本模型FID（1.90）顯著低于基線的2.79，并超越近期PixelFlow與PixNerd。如下圖5所示，DeCo僅用80輪（40萬步）即達(dá)到FID 2.57，超越基線800輪的表現(xiàn)，實(shí)現(xiàn)10倍訓(xùn)練效率提升。經(jīng)過800輪訓(xùn)練后，DeCo在像素?cái)U(kuò)散模型中以250采樣步數(shù)達(dá)到最優(yōu)FID 1.62，甚至可與兩階段潛在擴(kuò)散模型媲美。使用相同heun采樣器與50步推理在600輪時(shí)，DeCo達(dá)到FID 1.69，以更少參數(shù)量和FLOPs超越JiT的FID 1.86。在512×512分辨率下，DeCo顯著優(yōu)于現(xiàn)有基于像素的擴(kuò)散方法，創(chuàng)下領(lǐng)先的FID 2.22。此外，按照PixNerd方法將ImageNet 256×256模型在320輪后微調(diào)20輪，本文的FID和IS可與DiT-XL/2及SiT-XL/2經(jīng)過600輪訓(xùn)練后的結(jié)果相媲美。

文本到圖像生成

實(shí)驗(yàn)設(shè)置。 針對(duì)文本到圖像生成任務(wù)，本文在BLIP3o [5]數(shù)據(jù)集上訓(xùn)練模型（包含約3600萬預(yù)訓(xùn)練圖像和6萬高質(zhì)量指令微調(diào)數(shù)據(jù)），采用Qwen3-1.7B [65]作為文本編碼器。完整訓(xùn)練在8×H800 GPU上耗時(shí)約6天。

主要結(jié)果。 相較于兩階段潛在擴(kuò)散方法，本文的DeCo在GenEval基準(zhǔn)測(cè)試中獲得0.86的綜合評(píng)分，超越SD3 、FLUX.1-dev 等知名文生圖模型以及BLIP3o、OmniGen2等統(tǒng)一模型。值得注意的是，盡管使用與BLIP3o相同的訓(xùn)練數(shù)據(jù)，本模型仍實(shí)現(xiàn)更優(yōu)性能。在DPG-Bench上，DeCo取得與兩階段潛在擴(kuò)散方法相當(dāng)?shù)母?jìng)爭(zhēng)力平均分。相比其他端到端像素?cái)U(kuò)散方法，DeCo較PixelFlow和PixNerd具有顯著性能優(yōu)勢(shì)。這些結(jié)果表明，通過DeCo實(shí)現(xiàn)的端到端像素?cái)U(kuò)散能以有限訓(xùn)練/推理成本達(dá)到與兩階段方法相媲美的性能。文生圖DeCo的生成效果可視化見上圖1。

進(jìn)一步消融實(shí)驗(yàn)

本節(jié)針對(duì)像素解碼器設(shè)計(jì)、DiT與像素解碼器交互機(jī)制、頻率感知FM損失超參數(shù)進(jìn)行消融研究，所有實(shí)驗(yàn)均遵循前文設(shè)置。

像素解碼器隱藏維度。 如上表4(a)所示，當(dāng)隱藏維度時(shí)DeCo性能最優(yōu)：過小維度限制模型能力，更大維度未帶來增益。故默認(rèn)采用隱藏維度32。

像素解碼器深度。 上表4(b)顯示3層解碼器效果最佳：?jiǎn)螌幽芰Σ蛔悖?層可能引發(fā)優(yōu)化困難。采用32隱藏維與3層結(jié)構(gòu)時(shí)，本文的無注意力解碼器僅含850萬參數(shù)，能高效處理高分辨率輸入。

像素解碼器補(bǔ)丁尺寸。 上表4(c)表明當(dāng)解碼器補(bǔ)丁尺寸為1（直接處理全分辨率輸入）時(shí)性能最優(yōu)。對(duì)解碼器輸入進(jìn)行補(bǔ)丁化會(huì)降低效果，當(dāng)采用與DiT相同的16大補(bǔ)丁時(shí)性能最差，這驗(yàn)證了多尺度輸入策略的有效性。所有對(duì)比實(shí)驗(yàn)均保持相近參數(shù)量與計(jì)算成本。

DiT與像素解碼器交互機(jī)制。 上表4(d)顯示，采用UNet [46]式的簡(jiǎn)單上采樣疊加方案效果遜于基于AdaLN的交互。AdaLN [43]以DiT輸出作為語義條件指導(dǎo)速度預(yù)測(cè)，提供了更有效的交互機(jī)制。

損失權(quán)重。 上表4(e)表明當(dāng)損失權(quán)重為1時(shí)結(jié)果最優(yōu)，故設(shè)為默認(rèn)值。

中的JPEG質(zhì)量因子。上表4(f)研究了JPEG質(zhì)量因子影響：質(zhì)量為100（無損壓縮）時(shí)所有頻率等權(quán)處理，所得FID為33.84（與未使用的34.12接近）；常用質(zhì)量85表現(xiàn)最佳，在強(qiáng)調(diào)重要頻率同時(shí)適度弱化次要頻率以實(shí)現(xiàn)最優(yōu)平衡；質(zhì)量降至50會(huì)過度抑制高頻信號(hào)，輕微損害性能。因此所有實(shí)驗(yàn)采用JPEG質(zhì)量85。

結(jié)論

DeCo——一種面向像素?cái)U(kuò)散的頻率解耦創(chuàng)新框架。通過使用DiT建模低頻語義、輕量級(jí)像素解碼器建模高頻信號(hào)，DeCo顯著提升了生成質(zhì)量與效率。提出的頻率感知FM損失通過優(yōu)先處理感知重要頻率進(jìn)一步優(yōu)化視覺質(zhì)量。DeCo在類別到圖像與文本到圖像生成基準(zhǔn)測(cè)試中均達(dá)到像素?cái)U(kuò)散領(lǐng)先性能，縮小了與兩階段潛在擴(kuò)散方法的差距。

參考文獻(xiàn)

[1] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

原文標(biāo)題 : 端到端像素?cái)U(kuò)散天降外掛！北大&華為等開源DeCo：生圖質(zhì)量超越SD3、OmniGen2等