訂閱
糾錯(cuò)
加入自媒體

端到端像素?cái)U(kuò)散天降外掛!北大&華為等開源DeCo:生圖質(zhì)量超越SD3、OmniGen2等

作者:Zehong Ma等

解讀:AI生成未來

亮點(diǎn)直擊

DeCo解耦框架:DiT專注低頻語義建模(采用下采樣輸入);輕量級(jí)像素解碼器重建高頻信號(hào)。

創(chuàng)新頻率感知損失函數(shù):通過DCT轉(zhuǎn)換至頻域;基于JPEG量化表分配自適應(yīng)權(quán)重;強(qiáng)化視覺顯著頻率,抑制高頻噪聲。

DeCo在像素?cái)U(kuò)散模型中取得領(lǐng)先性能:ImageNet上FID得分1.62(256×256)和2.22(512×512),縮小了與兩階段潛在擴(kuò)散方法的差距。本文預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級(jí)評(píng)估中同樣在GenEval(0.86)和DPG-Bench(81.4)上獲得SOTA結(jié)果。

通過架構(gòu)級(jí)解耦實(shí)現(xiàn)專業(yè)化分工,為像素?cái)U(kuò)散模型提供了新的設(shè)計(jì)范式,同時(shí)保持端到端訓(xùn)練的優(yōu)勢(shì)。

總結(jié)速覽

解決的問題

核心矛盾:像素?cái)U(kuò)散模型需要在一個(gè)單一的擴(kuò)散Transformer中同時(shí)建模高頻信號(hào)(細(xì)節(jié)、噪聲)和低頻語義(結(jié)構(gòu)、內(nèi)容),導(dǎo)致模型負(fù)擔(dān)過重、效率低下且生成質(zhì)量受損。

具體弊端

高頻噪聲會(huì)干擾DiT對(duì)低頻語義的學(xué)習(xí)。

單一模型難以在巨大像素空間中兼顧兩種不同特性的任務(wù)。

傳統(tǒng)方法導(dǎo)致訓(xùn)練和推理速度慢,輸出圖像存在噪聲且質(zhì)量下降。

提出的方案

核心框架:提出名為DeCo的頻率解耦像素?cái)U(kuò)散框架。

核心思想:將高低頻組分的生成進(jìn)行解耦,讓不同組件各司其職。

具體措施

DiT專注于低頻語義建模,使用下采樣輸入。

引入一個(gè)輕量級(jí)像素解碼器,在DiT提供的語義引導(dǎo)下,專門負(fù)責(zé)重建高頻信號(hào)。

提出一種頻率感知流匹配損失函數(shù),以優(yōu)化訓(xùn)練。

應(yīng)用的技術(shù)

架構(gòu)解耦:采用DiT作為語義主干,配合輕量級(jí)像素解碼器的雙路徑架構(gòu)。

頻率感知損失:利用離散余弦變換將信號(hào)轉(zhuǎn)換到頻域,并基于JPEG量化表先驗(yàn)為不同頻率分量分配自適應(yīng)權(quán)重,以強(qiáng)調(diào)視覺顯著頻率、抑制高頻噪聲。

端到端訓(xùn)練:保持像素?cái)U(kuò)散端到端訓(xùn)練的優(yōu)勢(shì),同時(shí)通過解耦設(shè)計(jì)提升效率。

達(dá)到的效果

性能領(lǐng)先:在ImageNet上取得了像素?cái)U(kuò)散模型中卓越的性能,F(xiàn)ID達(dá)到1.62(256×256)和2.22(512×512),顯著縮小了與主流潛在擴(kuò)散方法的差距。

全面優(yōu)異:預(yù)訓(xùn)練的文本到圖像模型在系統(tǒng)級(jí)評(píng)估中,于GenEval(0.86)和DPG-Bench(81.4)上獲得領(lǐng)先成績(jī)。

質(zhì)量提升:通過解耦設(shè)計(jì)和頻率感知損失,有效提升了視覺保真度,并緩解了高頻噪聲的干擾。

驗(yàn)證有效:實(shí)驗(yàn)結(jié)果驗(yàn)證了在像素?cái)U(kuò)散中解耦高低頻組分建模這一思路的有效性。

方法

概述

本節(jié)首先回顧基線像素?cái)U(kuò)散中的條件流匹配,隨后介紹本文提出的頻率解耦像素?cái)U(kuò)散框架。

條件流匹配。 條件流匹配提供了一個(gè)連續(xù)時(shí)間生成建?蚣,其通過學(xué)習(xí)速度場(chǎng),將樣本從簡(jiǎn)單先驗(yàn)分布(如高斯分布)傳輸?shù)揭詷?biāo)簽和時(shí)間為條件的數(shù)據(jù)分布。給定通過干凈圖像與噪聲間插值構(gòu)建的前向軌跡,條件流匹配的目標(biāo)是將模型預(yù)測(cè)速度與真實(shí)速度進(jìn)行匹配:

其中軌跡  的線性插值定義為:

真實(shí)速度  可通過  對(duì)時(shí)間的導(dǎo)數(shù)  推導(dǎo)得出:

在像素?cái)U(kuò)散基線中,軌跡  通常首先通過補(bǔ)丁嵌入層(而非VAE)進(jìn)行令牌化處理以實(shí)現(xiàn)圖像下采樣。在本文的基線及DeCo實(shí)驗(yàn)中,本文對(duì)DiT輸入統(tǒng)一采用16×16的補(bǔ)丁尺寸;方法將補(bǔ)丁化后的軌跡  輸入DiT,通過解補(bǔ)丁層預(yù)測(cè)像素速度。該方案要求DiT同時(shí)建模高頻信號(hào)與低頻語義,而高頻信號(hào)(特別是高頻噪聲)難以建模,會(huì)干擾DiT對(duì)低頻語義的學(xué)習(xí)。

DeCo框架。 為實(shí)現(xiàn)高頻生成與低頻語義建模的分離,本文提出頻率解耦框架DeCo。如下圖3所示:

DiT被用于從下采樣的低分辨率輸入  中生成低頻語義 ,具體過程如下:

其中  為時(shí)間, 為標(biāo)簽或文本提示。如后文所述,輕量級(jí)像素解碼器隨后以DiT輸出的低頻語義  為條件,結(jié)合全分辨率密集輸入  生成額外高頻細(xì)節(jié),最終預(yù)測(cè)的像素速度如下所示:

該新范式利用像素解碼器生成高頻細(xì)節(jié),使DiT能專注于語義建模。這種解耦機(jī)制將不同頻率的建模任務(wù)分離到不同模塊,從而加速訓(xùn)練并提升視覺保真度。

為進(jìn)一步強(qiáng)化視覺顯著頻率并忽略不重要的高頻分量,本文引入了頻率感知流匹配損失函數(shù) 。該損失函數(shù)通過源自JPEG感知先驗(yàn)的自適應(yīng)權(quán)重對(duì)不同頻率分量進(jìn)行重新加權(quán)。結(jié)合基線中的標(biāo)準(zhǔn)像素級(jí)流匹配損失與REPA對(duì)齊損失,最終目標(biāo)函數(shù)可表示為:

像素解碼器

如上圖3所示,像素解碼器是一個(gè)輕量級(jí)無注意力網(wǎng)絡(luò),由個(gè)線性解碼塊和若干線性投影層構(gòu)成。所有操作均為局部線性運(yùn)算,可在無需自注意力計(jì)算開銷的前提下實(shí)現(xiàn)高效的高頻建模。

稠密查詢構(gòu)建。 像素解碼器直接以全分辨率含噪圖像作為輸入(不進(jìn)行下采樣)。所有含噪像素與其對(duì)應(yīng)的位置編碼拼接后,通過線性投影形成稠密查詢向量:

其中 , 和  分別表示原始圖像的高度和寬度(例如256), 代表像素解碼器的隱藏維度(例如32)。相關(guān)消融實(shí)驗(yàn)參見下表4(c)和(d)。

解碼器塊。 對(duì)于每個(gè)解碼器塊,DiT輸出經(jīng)過線性上采樣并調(diào)整形狀以匹配的空間分辨率,得到。隨后通過MLP生成自適應(yīng)層歸一化的調(diào)制參數(shù):

其中  為 SiLU 激活函數(shù)。本文采用 AdaLN-Zero [43] 對(duì)每個(gè)模塊中的稠密解碼器查詢進(jìn)行如下調(diào)制:

其中 MLP 包含兩個(gè)帶有 SiLU的線性層。

速度預(yù)測(cè)。 最后,通過線性投影及重排操作將解碼器輸出映射至像素空間,得到預(yù)測(cè)速度 。該速度包含像素解碼器生成的高頻細(xì)節(jié)以及來自 DiT 的語義信息。

頻率感知 FM 損失

為進(jìn)一步促使像素解碼器聚焦于感知重要的頻率并抑制無關(guān)噪聲,本文引入了頻率感知流匹配損失。

空間-頻率變換。 本文首先將預(yù)測(cè)的和真實(shí)的像素速度從空間域轉(zhuǎn)換到頻域。具體流程為:將色彩空間轉(zhuǎn)換為 YCbCr 后,按照 JPEG標(biāo)準(zhǔn)執(zhí)行分塊 8×8 離散余弦變換。將該變換記為 ,則有:

感知加權(quán)。 為強(qiáng)化視覺顯著頻率并抑制次要頻率,本文采用JPEG量化表作為視覺先驗(yàn)生成自適應(yīng)權(quán)重。量化間隔越小的頻率具有越高的感知重要性。因此,本文使用質(zhì)量等級(jí)下縮放量化表的歸一化倒數(shù)作為自適應(yīng)權(quán)重,即。當(dāng)質(zhì)量等級(jí)介于50至100之間時(shí),可根據(jù)JPEG預(yù)設(shè)規(guī)則獲取對(duì)應(yīng)的縮放量化表:

其中  表示 JPEG 標(biāo)準(zhǔn)中定義的基礎(chǔ)量化表。基于自適應(yīng)權(quán)重 ,頻率感知流匹配損失定義如下:

實(shí)證分析

為驗(yàn)證DeCo有效實(shí)現(xiàn)頻率解耦,本文分析了DiT輸出與像素速度的DCT能量譜(下圖4)。

相較于基線方法,本文的像素解碼器成功保持了像素速度中的所有頻率分量。同時(shí),DeCo中DiT輸出的高頻能量顯著低于基線,表明高頻組分已從DiT轉(zhuǎn)移至像素解碼器。這些觀測(cè)證實(shí)DeCo實(shí)現(xiàn)了有效的頻率解耦。上表4(c)(d)的結(jié)果進(jìn)一步表明,這一成功解耦得益于兩項(xiàng)關(guān)鍵架構(gòu)設(shè)計(jì):

多尺度輸入策略。 多尺度輸入策略至關(guān)重要:通過該策略,像素解碼器可在高分辨率原始輸入上輕松建模高頻信號(hào),同時(shí)使DiT能夠從高頻信號(hào)已被部分抑制的低分辨率輸入中專注建模低頻語義。值得注意的是,本方案DiT采用16×16的補(bǔ)丁尺寸,顯著大于PixelFlow[6]的4×4補(bǔ)丁,使其更適用于語義捕獲而非細(xì)節(jié)重建。

基于AdaLN的交互機(jī)制。 自適應(yīng)層歸一化為DiT與像素解碼器提供了強(qiáng)大的交互機(jī)制。在本框架中,DiT的作用類似于傳統(tǒng)文生圖模型中的文本編碼器,提供穩(wěn)定的低頻語義條件。AdaLN層隨后以DiT輸出為條件,對(duì)像素解碼器中的稠密查詢特征進(jìn)行調(diào)制。實(shí)驗(yàn)證實(shí),該調(diào)制機(jī)制在融合低頻語義與高頻信號(hào)方面,比UNet等采用上采樣疊加低頻特征的簡(jiǎn)單方法更為有效。

實(shí)驗(yàn)

本文在ImageNet 256×256數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)與基線對(duì)比。針對(duì)類別到圖像生成任務(wù),本文在ImageNet 256×256和512×512分辨率上提供詳細(xì)對(duì)比,并報(bào)告FID、sFID、IS、精確度與召回率;針對(duì)文本到圖像生成任務(wù),本文報(bào)告在GenEval和DPG-Bench上的結(jié)果。

基線對(duì)比

實(shí)驗(yàn)設(shè)置。 基線對(duì)比中所有擴(kuò)散模型均在ImageNet 256×256分辨率下訓(xùn)練20萬步,采用大型DiT變體。相較于基線的核心架構(gòu)改進(jìn)是將最后兩個(gè)DiT塊替換為本文提出的像素解碼器。推理階段使用50步歐拉采樣且不采用無分類器引導(dǎo)。本文對(duì)比了需要VAE的兩階段DiT-L/2,以及PixelFlow、PixNerd等近期像素?cái)U(kuò)散模型,同時(shí)將DDT適配為像素?cái)U(kuò)散基線PixDDT,并集成JiT到本文的基線中(結(jié)合REPA)以進(jìn)行公平對(duì)比。

詳細(xì)對(duì)比。 如下表1所示,本文的DeCo框架在參數(shù)量更少的情況下,所有指標(biāo)均顯著超越基線,同時(shí)保持相當(dāng)?shù)挠?xùn)練與推理成本。值得注意的是,僅通過頻率解耦架構(gòu),DeCo(未使用)即可將FID從61.10降至34.12,IS從16.81提升至46.44;結(jié)合頻率感知FM損失后,DeCo進(jìn)一步將FID降低至31.35并在其他指標(biāo)上持續(xù)提升。相較于兩階段DiT-L/2,本文的無VAE DeCo模型在達(dá)到相當(dāng)性能的同時(shí)顯著降低了訓(xùn)練與推理開銷。相比其他像素?cái)U(kuò)散方法:DeCo比多尺度級(jí)聯(lián)模型PixelFlow更高效且性能更優(yōu);比基于單尺度注意力的PixDDT表現(xiàn)更卓越;相較近期PixNerd在取得更優(yōu)FID的同時(shí)降低了訓(xùn)練與推理成本。

JiT指出高維噪聲會(huì)干擾有限容量模型對(duì)低維數(shù)據(jù)的學(xué)習(xí),通過預(yù)測(cè)干凈圖像并將生成過程錨定在低維數(shù)據(jù)流形,成功將FID從61.10降至39.06(上表1)。本文的DeCo具有相似動(dòng)機(jī)——防止含高維噪聲的高頻信號(hào)干擾DiT學(xué)習(xí)低頻語義的能力,但提出了架構(gòu)層面的解決方案:引入輕量級(jí)像素解碼器專注建模高頻信號(hào),解放DiT學(xué)習(xí)低頻語義。DeCo還能緩解干凈圖像中高頻噪聲(如相機(jī)噪聲)的負(fù)面影響,因此實(shí)現(xiàn)了優(yōu)于JiT的FID(31.35對(duì)39.06)。

類別到圖像生成

實(shí)驗(yàn)設(shè)置。 在ImageNet上的類別到圖像生成實(shí)驗(yàn)中,本文首先在256×256分辨率下訓(xùn)練320輪,隨后在512×512分辨率下微調(diào)20輪。推理階段使用100步歐拉采樣配合CFG [18]與引導(dǎo)間隔[29],在單張A800 GPU上測(cè)量推理延遲。

主要結(jié)果。 本文的DeCo在ImageNet 256×256和512×512上分別達(dá)到領(lǐng)先的FID 1.62和2.22。在256×256分辨率下,DeCo展現(xiàn)出卓越的推理效率:僅需1.05秒即可生成圖像(100推理步),而RDM需38.4秒、PixelFlow需9.78秒。訓(xùn)練效率方面(表1),單次迭代僅需0.24秒,遠(yuǎn)低于PixelFlow的1.61秒。在相同320輪訓(xùn)練后,本模型FID(1.90)顯著低于基線的2.79,并超越近期PixelFlow與PixNerd。如下圖5所示,DeCo僅用80輪(40萬步)即達(dá)到FID 2.57,超越基線800輪的表現(xiàn),實(shí)現(xiàn)10倍訓(xùn)練效率提升。經(jīng)過800輪訓(xùn)練后,DeCo在像素?cái)U(kuò)散模型中以250采樣步數(shù)達(dá)到最優(yōu)FID 1.62,甚至可與兩階段潛在擴(kuò)散模型媲美。使用相同heun采樣器與50步推理在600輪時(shí),DeCo達(dá)到FID 1.69,以更少參數(shù)量和FLOPs超越JiT的FID 1.86。在512×512分辨率下,DeCo顯著優(yōu)于現(xiàn)有基于像素的擴(kuò)散方法,創(chuàng)下領(lǐng)先的FID 2.22。此外,按照PixNerd方法將ImageNet 256×256模型在320輪后微調(diào)20輪,本文的FID和IS可與DiT-XL/2及SiT-XL/2經(jīng)過600輪訓(xùn)練后的結(jié)果相媲美。

文本到圖像生成

實(shí)驗(yàn)設(shè)置。 針對(duì)文本到圖像生成任務(wù),本文在BLIP3o [5]數(shù)據(jù)集上訓(xùn)練模型(包含約3600萬預(yù)訓(xùn)練圖像和6萬高質(zhì)量指令微調(diào)數(shù)據(jù)),采用Qwen3-1.7B [65]作為文本編碼器。完整訓(xùn)練在8×H800 GPU上耗時(shí)約6天。

主要結(jié)果。 相較于兩階段潛在擴(kuò)散方法,本文的DeCo在GenEval基準(zhǔn)測(cè)試中獲得0.86的綜合評(píng)分,超越SD3 、FLUX.1-dev 等知名文生圖模型以及BLIP3o、OmniGen2等統(tǒng)一模型。值得注意的是,盡管使用與BLIP3o相同的訓(xùn)練數(shù)據(jù),本模型仍實(shí)現(xiàn)更優(yōu)性能。在DPG-Bench上,DeCo取得與兩階段潛在擴(kuò)散方法相當(dāng)?shù)母?jìng)爭(zhēng)力平均分。相比其他端到端像素?cái)U(kuò)散方法,DeCo較PixelFlow和PixNerd具有顯著性能優(yōu)勢(shì)。這些結(jié)果表明,通過DeCo實(shí)現(xiàn)的端到端像素?cái)U(kuò)散能以有限訓(xùn)練/推理成本達(dá)到與兩階段方法相媲美的性能。文生圖DeCo的生成效果可視化見上圖1。

進(jìn)一步消融實(shí)驗(yàn)

本節(jié)針對(duì)像素解碼器設(shè)計(jì)、DiT與像素解碼器交互機(jī)制、頻率感知FM損失超參數(shù)進(jìn)行消融研究,所有實(shí)驗(yàn)均遵循前文設(shè)置。

像素解碼器隱藏維度。 如上表4(a)所示,當(dāng)隱藏維度時(shí)DeCo性能最優(yōu):過小維度限制模型能力,更大維度未帶來增益。故默認(rèn)采用隱藏維度32。

像素解碼器深度。 上表4(b)顯示3層解碼器效果最佳:?jiǎn)螌幽芰Σ蛔悖?層可能引發(fā)優(yōu)化困難。采用32隱藏維與3層結(jié)構(gòu)時(shí),本文的無注意力解碼器僅含850萬參數(shù),能高效處理高分辨率輸入。

像素解碼器補(bǔ)丁尺寸。 上表4(c)表明當(dāng)解碼器補(bǔ)丁尺寸為1(直接處理全分辨率輸入)時(shí)性能最優(yōu)。對(duì)解碼器輸入進(jìn)行補(bǔ)丁化會(huì)降低效果,當(dāng)采用與DiT相同的16大補(bǔ)丁時(shí)性能最差,這驗(yàn)證了多尺度輸入策略的有效性。所有對(duì)比實(shí)驗(yàn)均保持相近參數(shù)量與計(jì)算成本。

DiT與像素解碼器交互機(jī)制。 上表4(d)顯示,采用UNet [46]式的簡(jiǎn)單上采樣疊加方案效果遜于基于AdaLN的交互。AdaLN [43]以DiT輸出作為語義條件指導(dǎo)速度預(yù)測(cè),提供了更有效的交互機(jī)制。

損失權(quán)重。 上表4(e)表明當(dāng)損失權(quán)重為1時(shí)結(jié)果最優(yōu),故設(shè)為默認(rèn)值。

中的JPEG質(zhì)量因子。上表4(f)研究了JPEG質(zhì)量因子影響:質(zhì)量為100(無損壓縮)時(shí)所有頻率等權(quán)處理,所得FID為33.84(與未使用的34.12接近);常用質(zhì)量85表現(xiàn)最佳,在強(qiáng)調(diào)重要頻率同時(shí)適度弱化次要頻率以實(shí)現(xiàn)最優(yōu)平衡;質(zhì)量降至50會(huì)過度抑制高頻信號(hào),輕微損害性能。因此所有實(shí)驗(yàn)采用JPEG質(zhì)量85。

結(jié)論

DeCo——一種面向像素?cái)U(kuò)散的頻率解耦創(chuàng)新框架。通過使用DiT建模低頻語義、輕量級(jí)像素解碼器建模高頻信號(hào),DeCo顯著提升了生成質(zhì)量與效率。提出的頻率感知FM損失通過優(yōu)先處理感知重要頻率進(jìn)一步優(yōu)化視覺質(zhì)量。DeCo在類別到圖像與文本到圖像生成基準(zhǔn)測(cè)試中均達(dá)到像素?cái)U(kuò)散領(lǐng)先性能,縮小了與兩階段潛在擴(kuò)散方法的差距。

參考文獻(xiàn)

[1] DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation

       原文標(biāo)題 : 端到端像素?cái)U(kuò)散天降外掛!北大&華為等開源DeCo:生圖質(zhì)量超越SD3、OmniGen2等

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)