訂閱
糾錯
加入自媒體

僅960M參數(shù),不僅干翻百億大模型,速度還快了6倍!字節(jié)最新圖像編輯模型EditMGT開源啦

作者:Wei Chow,Linfeng Li等

解讀:AI生成未來

亮點直擊

提出了EditMGT,這是首個基于MGT的圖像編輯模型,它通過利用MGT的令牌翻轉(zhuǎn)特性來顯式地保留與編輯無關(guān)的區(qū)域,從而從根本上解決了擴散模型中存在的虛假編輯泄露問題。

提出了結(jié)合區(qū)域保持采樣的多層注意力整合方法,以實現(xiàn)對編輯相關(guān)區(qū)域的自適應(yīng)定位,從而解決了在無需手動預(yù)定義掩碼的情況下確定編輯應(yīng)用位置的挑戰(zhàn)。

構(gòu)建了CrispEdit-2M,這是一個包含7個不同類別、經(jīng)過嚴格篩選的200萬樣本的高分辨率(≥1024)圖像編輯數(shù)據(jù)集。

在四個流行基準測試上進行的大量實驗驗證了我們方法的有效性,緊湊的960M參數(shù)模型實現(xiàn)了比同類方法快6倍的編輯速度。

總結(jié)速覽

解決的問題

擴散模型(DMs)在圖像編輯中存在全局去噪動態(tài)性問題,導(dǎo)致對非目標區(qū)域的意外修改(編輯泄露)。

現(xiàn)有解決方案(如依賴高質(zhì)量數(shù)據(jù)、預(yù)定義掩碼或反轉(zhuǎn)技術(shù))存在靈活性不足、無法顯式保證非相關(guān)區(qū)域不變或推理速度慢等局限。

提出的方案

提出了首個基于掩碼生成Transformer(MGTs)的圖像編輯框架——EditMGT。

構(gòu)建了一個大規(guī)模高分辨率(≥1024)圖像編輯數(shù)據(jù)集CrispEdit-2M,涵蓋7個不同類別,用于訓(xùn)練模型。

應(yīng)用的技術(shù)

自適應(yīng)定位:利用MGT的交叉注意力機制提供定位信號,并設(shè)計了一種多層注意力整合方案,以細化注意力圖,實現(xiàn)細粒度、精確的編輯相關(guān)區(qū)域定位。

顯式區(qū)域保留:提出了區(qū)域保持采樣技術(shù),限制在低注意力區(qū)域進行令牌翻轉(zhuǎn),以抑制偽編輯,從而將修改限制在目標區(qū)域內(nèi),并保持周圍非目標區(qū)域的完整性。

高效適配:通過注意力注入的方式,將預(yù)訓(xùn)練的文本到圖像MGT模型適配為圖像編輯模型,無需引入額外參數(shù)。

達到的效果

性能領(lǐng)先:在四個標準基準測試上,模型(參數(shù)量<1B)取得了圖像相似度指標的最先進性能。在風(fēng)格變更和風(fēng)格遷移任務(wù)上分別提升了3.6%和17.6%。整體性能優(yōu)于多個更大規(guī)模(6B-8B)的基線模型。

效率顯著:實現(xiàn)了6倍的編輯速度提升(編輯1024×1024圖像僅需2秒),同時內(nèi)存占用僅為13.8 GB。

精確編輯:能夠自適應(yīng)定位編輯區(qū)域,并顯式地保留非目標區(qū)域,有效解決了編輯泄露問題。

EditMGT:邁向基于MGT的圖像編輯

首先介紹基于 MGT 的編輯架構(gòu)實現(xiàn),該架構(gòu)利用注意力注入(attention injection)在不引入額外參數(shù)的情況下實現(xiàn)圖像編輯。隨后闡述了推理過程。重點分析了 MGT 模型中的注意力機制,提出了多層注意力整合(multi-layer attention consolidation)結(jié)合區(qū)域保持采樣(region-hold sampling)的方法,以利用該機制確保在推理過程中保留無關(guān)區(qū)域。最后描述了 EditMGT 及其提出的 CrispEdit-2M 數(shù)據(jù)集的訓(xùn)練過程。

圖 2 EditMGT 概述。我們的方法通過原始圖像注意力注入來監(jiān)督編輯圖像的生成。 右圖說明了多模態(tài)轉(zhuǎn)換器塊內(nèi)的token交互,而單模態(tài)塊則采用類似的架構(gòu)。圖 2 EditMGT 概述。我們的方法通過原始圖像注意力注入來監(jiān)督編輯圖像的生成。 右圖說明了多模態(tài)轉(zhuǎn)換器塊內(nèi)的token交互,而單模態(tài)塊則采用類似的架構(gòu)。

架構(gòu)

預(yù)備知識。MGT 從一張所有視覺 token 都被掩蓋(masked)的空白畫布開始。在每次采樣迭代中,所有缺失的 token 都會并行采樣,并使用拒絕標準,模型似然度較低的 token 會被掩蓋,并在下一次細化迭代中重新預(yù)測。本文定義圖像和文本條件 token 分別為  和 ,其中  是嵌入維度, 和  分別是它們的 token 數(shù)量。

在 Meissonic 的實現(xiàn)中,每個 transformer 塊首先應(yīng)用旋轉(zhuǎn)位置編碼(RoPE)來編碼 token。對于圖像 token ,RoPE 根據(jù) token 在 2D 網(wǎng)格中的位置  應(yīng)用旋轉(zhuǎn)矩陣:,其中  表示位置  處的旋轉(zhuǎn)矩陣。文本 token  經(jīng)過相同的變換,其位置設(shè)置為 。多模態(tài)注意力機制隨后將連接后的位置編碼 token  投影為查詢(Query)、鍵(Key) 和值(Value) 表示。注意力權(quán)重計算如下:。然后, 和  的乘積在傳播到下一個模塊之前通過歸一化層。 被賦予了豐富的語義信息,隨后基于注意力權(quán)重納入額外的圖像條件,同時在推理過程中引入局部和全局引導(dǎo)。

**圖像條件集成 (Image Conditional Integration)**。為了讓原始圖像監(jiān)督圖像生成過程,本文進一步定義了圖像條件 token ,其形狀與  相同。具體而言,本文設(shè)定 RoPE 矩陣滿足:,這確保了原始圖像與編輯后圖像在空間上的對齊。如圖 2 右側(cè)所示, 與  共享參數(shù)并經(jīng)歷相同的迭代去噪步驟,但關(guān)鍵區(qū)別在于  的時間步長(timestep)在整個過程中始終固定為零。這一設(shè)計選擇防止了  發(fā)生漂移,從而使其保持作為穩(wěn)定調(diào)節(jié)信號的作用。

在訓(xùn)練階段,模型  的優(yōu)化目標是在大規(guī)模圖像-文本數(shù)據(jù)集  上,最小化在給定未掩蔽(unmasked)token 和條件 token 的情況下重建被掩蔽 token 的負對數(shù)似然,其中  代表被掩蔽的 token:

其中 , 是應(yīng)用于 token 的二進制掩碼,用于選擇索引  進行掩蔽, 指未被掩蔽的 token, 是 token  的預(yù)測概率。本文在訓(xùn)練中使用余弦調(diào)度策略,掩蔽率  采樣自截斷反余弦分布,其密度函數(shù)為 。

為了在推理過程中控制  的強度,遵循 [41] 的方法,本文在注意力權(quán)重中引入偏置項 ,即 ,其中  是調(diào)節(jié)拼接后的 token  之間注意力的偏置矩陣。該過程可表述如下:

該公式保留了每種 token 類型內(nèi)部的原始注意力模式,同時將  和  之間的注意力權(quán)重縮放 。在測試時,設(shè)置  會移除條件的影響,而  則會增強它。通過這種方法,本文利用注意力機制無縫嵌入了調(diào)節(jié)條件,從而在不引入額外參數(shù)的情況下實現(xiàn)了從文生圖(text-to-image)模型到圖像編輯模型的轉(zhuǎn)變。

推理

基于上述架構(gòu),本工作觀察到 EditMGT 中的交叉注意力機制自然地為編輯相關(guān)區(qū)域的自適應(yīng)定位提供了信息豐富的線索。如下圖3所示,本工作研究了迭代圖像  和指令  之間的交叉注意力機制(由于篇幅限制,省略了原始圖像  與這兩種模態(tài)之間的交叉注意力可視化)。

圖3:EditMGT 中的注意力機制。文生圖注意力圖編碼了豐富的語義對應(yīng)關(guān)系。本工作通過堆疊和過濾操作增強了其清晰度圖3:EditMGT 中的注意力機制。文生圖注意力圖編碼了豐富的語義對應(yīng)關(guān)系。本工作通過堆疊和過濾操作增強了其清晰度

分析表明,MGT 模型中的每個文生圖注意力權(quán)重都包含豐富的語義信息,建立了文本指令與視覺區(qū)域之間的有效對應(yīng)關(guān)系。值得注意的是,模型可以在初始迭代中預(yù)測編輯圖像中關(guān)鍵區(qū)域的樣式。例如,在“給狗戴上生日帽”的例子中,MGT 直接描繪了帽子形狀的輪廓。

多層注意力整合(Multi-layer Attention Consolidation)。來自單個中間塊的原始注意力權(quán)重表現(xiàn)出不夠突出且缺乏清晰焦點的問題,即使是從最連貫的層中提取也是如此。為了解決這一局限性,本工作提出了多層注意力整合,系統(tǒng)地增強注意力的清晰度。具體而言,聚合了從第 28 塊到第 36 塊的注意力權(quán)重,這些塊選自連貫的單模態(tài)處理層,以放大信號強度。然而,觀察發(fā)現(xiàn)聚合后的注意力權(quán)重仍然表現(xiàn)出不完整的激活區(qū)域,其特征是內(nèi)部不連續(xù)和邊界定義不清,這可能導(dǎo)致對象內(nèi)部的 token 分類錯誤。為了減輕這些偽影,本工作結(jié)合了自適應(yīng)過濾(Adaptive Filtering)以實現(xiàn)增強的清晰度和空間精度。

區(qū)域保持采樣(Region-Hold Sampling)。在注意力機制的分析中,觀察到 MGT 的注意力權(quán)重表現(xiàn)出豐富的語義信息,實現(xiàn)了良好對齊的文圖對應(yīng)關(guān)系。在圖像生成過程中,MGT 通過迭代 token 翻轉(zhuǎn)(token flipping)逐步細化目標圖像。如下圖4所示,EditMGT 準確地定位了編輯的關(guān)鍵區(qū)域。因此,本工作通過顯式地將低注意力區(qū)域翻轉(zhuǎn)回其原始 token 來保留未修改的區(qū)域。

定義  分別為第  層歸一化后的  和  的注意力圖。為了靈活控制翻轉(zhuǎn)頻率,引入閾值  來確定哪些 token 應(yīng)恢復(fù)為原始圖像。具體來說,可以按如下方式獲取定位圖:

其中  表示矩陣  的第  行切片, 是要選擇的所有行索引的集合,且 (當且僅當選擇整個  時等號成立)。如果僅使用指令中的關(guān)鍵詞(例如特定對象),則可以使用  提取相應(yīng)部分。在推理過程中,EditMGT 翻轉(zhuǎn)具有高置信度的 token,同時保留低置信度 token 作為 [MASK] 以供后續(xù)細化。通過引入的采樣方法,滿足  的 token 被恢復(fù)為其原始對應(yīng)物,從而保持采樣調(diào)度器的完整性以及與源圖像的一致性。

下圖4 展示了編輯圖像與  之間的關(guān)系——當  超過某個閾值時,輸出變得與原始圖像完全相同。

圖4:不同閾值  下的編輯結(jié)果可視化、GEdit Bench 語義分數(shù)以及與原始圖像的 L1 距離圖4:不同閾值  下的編輯結(jié)果可視化、GEdit Bench 語義分數(shù)以及與原始圖像的 L1 距離

訓(xùn)練細節(jié)

鑒于高分辨率圖像編輯數(shù)據(jù)集的稀缺,本工作構(gòu)建了涵蓋 7 個不同類別的 CrispEdit-2M 數(shù)據(jù)集。CrispEdit-2M 包含 200 萬個短邊  像素的樣本,使用開源模型生成,并采用嚴格的過濾程序以確保數(shù)據(jù)質(zhì)量。結(jié)合額外收集的 200 萬個高分辨率樣本,總共使用了 400 萬個圖像編輯數(shù)據(jù)樣本進行訓(xùn)練。

EditMGT 基于 Meissonic 實現(xiàn)。由于 Meissonic 表現(xiàn)出生成卡通風(fēng)格內(nèi)容的偏好,且采用 CLIP 作為文本編碼器,缺乏強大的語言理解能力(這是編輯模型的關(guān)鍵要求),因此將 EditMGT 的訓(xùn)練分為三個階段:

階段 1:基于 LLM 的基礎(chǔ)模型。利用約 100 萬個文本-圖像對,直接采用 Gemma2-2B-IT 作為文本編碼器,訓(xùn)練 5,000 步。

階段 2:編輯模型全量微調(diào)。在完整的 400 萬圖像編輯數(shù)據(jù)集上進行 50,000 步的全量微調(diào)。

階段 3:高質(zhì)量微調(diào)。使用更高質(zhì)量的編輯數(shù)據(jù)對模型進行 1,000 步的微調(diào),以增強模型輸出與人類偏好之間的對齊。實驗

為了驗證 EditMGT 的有效性,本工作在三個像素級基準測試(Emu Edit, MagicBrush, AnyBench)和一個基于 GPT 的評估基準(GEdit-EN-full)上進行了全面評估。

主要結(jié)果

本工作在四個基準數(shù)據(jù)集上對 EditMGT 與基線方法進行了定量比較。

Emu Edit & MagicBrush:如下表 1 所示,EditMGT 在圖像相似度(CLIP)方面在所有評估模型中取得了 SOTA 性能,在 MagicBrush 上有 1.1% 的顯著提升。在語義圖像相似度(DINO)方面,該方法分別取得了第二佳和 SOTA 的結(jié)果。指令依從性指標顯示了一致的強勁表現(xiàn)。盡管 L1 分數(shù)未顯示顯著優(yōu)勢,但這可能歸因于 EditMGT 與預(yù)定目標圖像之間固有的多樣性差異。

AnyBench:如下圖 6(a)(b) 所示,按任務(wù)類型分類時,EditMGT 在 AnyBench 評估的所有任務(wù)中均取得了最佳或接近最佳的性能。特別是在風(fēng)格更改(style change)任務(wù)中,EditMGT 比第二名的方法大幅提升了 3.6%。對于隱式指令(implicit instruction)任務(wù),EditMGT 始終取得 SOTA 結(jié)果,超過第二名 1.7%,表明該模型在處理隱式指令引導(dǎo)方面具有卓越能力。詳細分數(shù)見表 6 和表 7。

GEdit-EN-full:如下表 2 所示,盡管模型大小僅為 960MB,但它實現(xiàn)了與 12B 參數(shù)量的 FluxKontext.dev 模型相當?shù)母偁幜,并表現(xiàn)出優(yōu)于 VAREdit-8B、GoT-6B 和 OmniGen2 (7B) 的整體性能。值得注意的是,該模型在背景更改、顏色更改、人像編輯和風(fēng)格遷移(style transfer)等幾個具有挑戰(zhàn)性的任務(wù)上優(yōu)于 FluxKontext.dev,其中風(fēng)格遷移提升了 17.6%。

定性結(jié)果

除定量指標外,如下圖 5 所示,本工作將 EditMGT 與 UltraEdit (SD3)、GoT-6B、OmniGen2-7B 和 VAREdit-8B 進行了定性比較。觀察結(jié)果如下:

卓越的指令理解能力:例如,對于“照片看起來有點發(fā)黃,請調(diào)整顏色”,其他模型錯誤地增加了黃色調(diào),只有 EditMGT 正確地減少了暖色調(diào)以實現(xiàn)美白。

強大的對象屬性理解:在“點亮所有蠟燭”的例子中,只有 EditMGT 成功點亮了所有蠟燭;對于“添加黑色長筒襪”,它準確理解了形容詞“長”。

有效的結(jié)構(gòu)保留:在生成皮克斯風(fēng)格動畫時,EditMGT 不僅成功渲染了角色,還保持了拍攝對象的原始姿勢和位置。

深入分析

數(shù)據(jù)擴展(Data Scaling):如前圖 6 所示,不同訓(xùn)練步驟的實驗表明,即使更換文本編碼器,模型架構(gòu)也能保持一致的可擴展性。

架構(gòu)消融(Architecture Ablation):主要研究了文本編碼器的選擇(見附錄表 5)。經(jīng)驗分析表明,Gemma2-IT-2B 在評估的選項中取得了最佳性能。

推理算法有效性:如圖 4 所示,增加  值會逐漸減少圖像內(nèi)的編輯區(qū)域。隨著  增加,L1 距離減小,而語義分數(shù)先略微提高后急劇下降,證明了閾值控制的有效性。

速度優(yōu)勢:如下圖 1(b) 所示,在 1024×1024 分辨率下,EditMGT 實現(xiàn)了比性能相似的模型快 6 倍的編輯速度(每次編輯僅需 2 秒)。EditMGT 和 CrispEdit-2M 概述EditMGT 和 CrispEdit-2M 概述

結(jié)論

EditMGT,首個基于掩碼生成 Transformer(MGT)的圖像編輯框架,利用 MGT 的局部解碼范式來解決擴散模型中固有的編輯泄漏(editing leakage)問題。通過提出的多層注意力整合(multi-layer attention consolidation)和區(qū)域保持采樣(region-hold sampling),EditMGT 實現(xiàn)了精確的編輯定位,同時顯式地保留了非目標區(qū)域。盡管僅使用了 9.6 億(960M)參數(shù),該模型在四個基準測試中均達到了最先進的圖像相似度性能,在風(fēng)格更改和風(fēng)格遷移任務(wù)上分別有 3.6% 和 17.6% 的顯著提升。此外,EditMGT 提供了 6 倍的編輯速度,證明了 MGT 為圖像編輯提供了一種極具競爭力的替代方案。

參考文獻

[1] EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

       原文標題 : 僅960M參數(shù),不僅干翻百億大模型,速度還快了6倍!字節(jié)最新圖像編輯模型EditMGT開源啦

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號