僅960M參數(shù)，不僅干翻百億大模型，速度還快了6倍！字節(jié)最新圖像編輯模型EditMGT開源啦

2025-12-26 14:45

作者：Wei Chow，Linfeng Li等

解讀：AI生成未來

亮點直擊

提出了EditMGT，這是首個基于MGT的圖像編輯模型，它通過利用MGT的令牌翻轉(zhuǎn)特性來顯式地保留與編輯無關(guān)的區(qū)域，從而從根本上解決了擴散模型中存在的虛假編輯泄露問題。

提出了結(jié)合區(qū)域保持采樣的多層注意力整合方法，以實現(xiàn)對編輯相關(guān)區(qū)域的自適應(yīng)定位，從而解決了在無需手動預(yù)定義掩碼的情況下確定編輯應(yīng)用位置的挑戰(zhàn)。

構(gòu)建了CrispEdit-2M，這是一個包含7個不同類別、經(jīng)過嚴格篩選的200萬樣本的高分辨率（≥1024）圖像編輯數(shù)據(jù)集。

在四個流行基準測試上進行的大量實驗驗證了我們方法的有效性，緊湊的960M參數(shù)模型實現(xiàn)了比同類方法快6倍的編輯速度。

總結(jié)速覽

解決的問題

擴散模型（DMs）在圖像編輯中存在全局去噪動態(tài)性問題，導(dǎo)致對非目標區(qū)域的意外修改（編輯泄露）。

現(xiàn)有解決方案（如依賴高質(zhì)量數(shù)據(jù)、預(yù)定義掩碼或反轉(zhuǎn)技術(shù)）存在靈活性不足、無法顯式保證非相關(guān)區(qū)域不變或推理速度慢等局限。

提出的方案

提出了首個基于掩碼生成Transformer（MGTs）的圖像編輯框架——EditMGT。

構(gòu)建了一個大規(guī)模高分辨率（≥1024）圖像編輯數(shù)據(jù)集CrispEdit-2M，涵蓋7個不同類別，用于訓(xùn)練模型。

應(yīng)用的技術(shù)

自適應(yīng)定位：利用MGT的交叉注意力機制提供定位信號，并設(shè)計了一種多層注意力整合方案，以細化注意力圖，實現(xiàn)細粒度、精確的編輯相關(guān)區(qū)域定位。

顯式區(qū)域保留：提出了區(qū)域保持采樣技術(shù)，限制在低注意力區(qū)域進行令牌翻轉(zhuǎn)，以抑制偽編輯，從而將修改限制在目標區(qū)域內(nèi)，并保持周圍非目標區(qū)域的完整性。

高效適配：通過注意力注入的方式，將預(yù)訓(xùn)練的文本到圖像MGT模型適配為圖像編輯模型，無需引入額外參數(shù)。

達到的效果

性能領(lǐng)先：在四個標準基準測試上，模型（參數(shù)量<1B）取得了圖像相似度指標的最先進性能。在風(fēng)格變更和風(fēng)格遷移任務(wù)上分別提升了3.6%和17.6%。整體性能優(yōu)于多個更大規(guī)模（6B-8B）的基線模型。

效率顯著：實現(xiàn)了6倍的編輯速度提升（編輯1024×1024圖像僅需2秒），同時內(nèi)存占用僅為13.8 GB。

精確編輯：能夠自適應(yīng)定位編輯區(qū)域，并顯式地保留非目標區(qū)域，有效解決了編輯泄露問題。

EditMGT：邁向基于MGT的圖像編輯

首先介紹基于 MGT 的編輯架構(gòu)實現(xiàn)，該架構(gòu)利用注意力注入（attention injection）在不引入額外參數(shù)的情況下實現(xiàn)圖像編輯。隨后闡述了推理過程。重點分析了 MGT 模型中的注意力機制，提出了多層注意力整合（multi-layer attention consolidation）結(jié)合區(qū)域保持采樣（region-hold sampling）的方法，以利用該機制確保在推理過程中保留無關(guān)區(qū)域。最后描述了 EditMGT 及其提出的 CrispEdit-2M 數(shù)據(jù)集的訓(xùn)練過程。

圖 2 EditMGT 概述。我們的方法通過原始圖像注意力注入來監(jiān)督編輯圖像的生成。右圖說明了多模態(tài)轉(zhuǎn)換器塊內(nèi)的token交互，而單模態(tài)塊則采用類似的架構(gòu)。圖 2 EditMGT 概述。我們的方法通過原始圖像注意力注入來監(jiān)督編輯圖像的生成。右圖說明了多模態(tài)轉(zhuǎn)換器塊內(nèi)的token交互，而單模態(tài)塊則采用類似的架構(gòu)。

架構(gòu)

預(yù)備知識。MGT 從一張所有視覺 token 都被掩蓋（masked）的空白畫布開始。在每次采樣迭代中，所有缺失的 token 都會并行采樣，并使用拒絕標準，模型似然度較低的 token 會被掩蓋，并在下一次細化迭代中重新預(yù)測。本文定義圖像和文本條件 token 分別為和，其中是嵌入維度，和分別是它們的 token 數(shù)量。

在 Meissonic 的實現(xiàn)中，每個 transformer 塊首先應(yīng)用旋轉(zhuǎn)位置編碼（RoPE）來編碼 token。對于圖像 token ，RoPE 根據(jù) token 在 2D 網(wǎng)格中的位置應(yīng)用旋轉(zhuǎn)矩陣：，其中表示位置處的旋轉(zhuǎn)矩陣。文本 token 經(jīng)過相同的變換，其位置設(shè)置為。多模態(tài)注意力機制隨后將連接后的位置編碼 token 投影為查詢（Query）、鍵（Key）和值（Value）表示。注意力權(quán)重計算如下：。然后，和的乘積在傳播到下一個模塊之前通過歸一化層。被賦予了豐富的語義信息，隨后基于注意力權(quán)重納入額外的圖像條件，同時在推理過程中引入局部和全局引導(dǎo)。

**圖像條件集成 (Image Conditional Integration)**。為了讓原始圖像監(jiān)督圖像生成過程，本文進一步定義了圖像條件 token ，其形狀與相同。具體而言，本文設(shè)定 RoPE 矩陣滿足：，這確保了原始圖像與編輯后圖像在空間上的對齊。如圖 2 右側(cè)所示，與共享參數(shù)并經(jīng)歷相同的迭代去噪步驟，但關(guān)鍵區(qū)別在于的時間步長（timestep）在整個過程中始終固定為零。這一設(shè)計選擇防止了發(fā)生漂移，從而使其保持作為穩(wěn)定調(diào)節(jié)信號的作用。

在訓(xùn)練階段，模型的優(yōu)化目標是在大規(guī)模圖像-文本數(shù)據(jù)集上，最小化在給定未掩蔽（unmasked）token 和條件 token 的情況下重建被掩蔽 token 的負對數(shù)似然，其中代表被掩蔽的 token：

其中，是應(yīng)用于 token 的二進制掩碼，用于選擇索引進行掩蔽，指未被掩蔽的 token，是 token 的預(yù)測概率。本文在訓(xùn)練中使用余弦調(diào)度策略，掩蔽率采樣自截斷反余弦分布，其密度函數(shù)為。

為了在推理過程中控制的強度，遵循 [41] 的方法，本文在注意力權(quán)重中引入偏置項，即，其中是調(diào)節(jié)拼接后的 token 之間注意力的偏置矩陣。該過程可表述如下：

該公式保留了每種 token 類型內(nèi)部的原始注意力模式，同時將和之間的注意力權(quán)重縮放。在測試時，設(shè)置會移除條件的影響，而則會增強它。通過這種方法，本文利用注意力機制無縫嵌入了調(diào)節(jié)條件，從而在不引入額外參數(shù)的情況下實現(xiàn)了從文生圖（text-to-image）模型到圖像編輯模型的轉(zhuǎn)變。

推理

基于上述架構(gòu)，本工作觀察到 EditMGT 中的交叉注意力機制自然地為編輯相關(guān)區(qū)域的自適應(yīng)定位提供了信息豐富的線索。如下圖3所示，本工作研究了迭代圖像和指令之間的交叉注意力機制（由于篇幅限制，省略了原始圖像與這兩種模態(tài)之間的交叉注意力可視化）。

圖3：EditMGT 中的注意力機制。文生圖注意力圖編碼了豐富的語義對應(yīng)關(guān)系。本工作通過堆疊和過濾操作增強了其清晰度圖3：EditMGT 中的注意力機制。文生圖注意力圖編碼了豐富的語義對應(yīng)關(guān)系。本工作通過堆疊和過濾操作增強了其清晰度

分析表明，MGT 模型中的每個文生圖注意力權(quán)重都包含豐富的語義信息，建立了文本指令與視覺區(qū)域之間的有效對應(yīng)關(guān)系。值得注意的是，模型可以在初始迭代中預(yù)測編輯圖像中關(guān)鍵區(qū)域的樣式。例如，在“給狗戴上生日帽”的例子中，MGT 直接描繪了帽子形狀的輪廓。

多層注意力整合（Multi-layer Attention Consolidation）。來自單個中間塊的原始注意力權(quán)重表現(xiàn)出不夠突出且缺乏清晰焦點的問題，即使是從最連貫的層中提取也是如此。為了解決這一局限性，本工作提出了多層注意力整合，系統(tǒng)地增強注意力的清晰度。具體而言，聚合了從第 28 塊到第 36 塊的注意力權(quán)重，這些塊選自連貫的單模態(tài)處理層，以放大信號強度。然而，觀察發(fā)現(xiàn)聚合后的注意力權(quán)重仍然表現(xiàn)出不完整的激活區(qū)域，其特征是內(nèi)部不連續(xù)和邊界定義不清，這可能導(dǎo)致對象內(nèi)部的 token 分類錯誤。為了減輕這些偽影，本工作結(jié)合了自適應(yīng)過濾（Adaptive Filtering）以實現(xiàn)增強的清晰度和空間精度。

區(qū)域保持采樣（Region-Hold Sampling）。在注意力機制的分析中，觀察到 MGT 的注意力權(quán)重表現(xiàn)出豐富的語義信息，實現(xiàn)了良好對齊的文圖對應(yīng)關(guān)系。在圖像生成過程中，MGT 通過迭代 token 翻轉(zhuǎn)（token flipping）逐步細化目標圖像。如下圖4所示，EditMGT 準確地定位了編輯的關(guān)鍵區(qū)域。因此，本工作通過顯式地將低注意力區(qū)域翻轉(zhuǎn)回其原始 token 來保留未修改的區(qū)域。

定義分別為第層歸一化后的和的注意力圖。為了靈活控制翻轉(zhuǎn)頻率，引入閾值來確定哪些 token 應(yīng)恢復(fù)為原始圖像。具體來說，可以按如下方式獲取定位圖：

其中表示矩陣的第行切片，是要選擇的所有行索引的集合，且（當且僅當選擇整個時等號成立）。如果僅使用指令中的關(guān)鍵詞（例如特定對象），則可以使用提取相應(yīng)部分。在推理過程中，EditMGT 翻轉(zhuǎn)具有高置信度的 token，同時保留低置信度 token 作為 [MASK] 以供后續(xù)細化。通過引入的采樣方法，滿足的 token 被恢復(fù)為其原始對應(yīng)物，從而保持采樣調(diào)度器的完整性以及與源圖像的一致性。

下圖4 展示了編輯圖像與之間的關(guān)系——當超過某個閾值時，輸出變得與原始圖像完全相同。

圖4：不同閾值下的編輯結(jié)果可視化、GEdit Bench 語義分數(shù)以及與原始圖像的 L1 距離圖4：不同閾值下的編輯結(jié)果可視化、GEdit Bench 語義分數(shù)以及與原始圖像的 L1 距離

訓(xùn)練細節(jié)

鑒于高分辨率圖像編輯數(shù)據(jù)集的稀缺，本工作構(gòu)建了涵蓋 7 個不同類別的 CrispEdit-2M 數(shù)據(jù)集。CrispEdit-2M 包含 200 萬個短邊像素的樣本，使用開源模型生成，并采用嚴格的過濾程序以確保數(shù)據(jù)質(zhì)量。結(jié)合額外收集的 200 萬個高分辨率樣本，總共使用了 400 萬個圖像編輯數(shù)據(jù)樣本進行訓(xùn)練。

EditMGT 基于 Meissonic 實現(xiàn)。由于 Meissonic 表現(xiàn)出生成卡通風(fēng)格內(nèi)容的偏好，且采用 CLIP 作為文本編碼器，缺乏強大的語言理解能力（這是編輯模型的關(guān)鍵要求），因此將 EditMGT 的訓(xùn)練分為三個階段：

階段 1：基于 LLM 的基礎(chǔ)模型。利用約 100 萬個文本-圖像對，直接采用 Gemma2-2B-IT 作為文本編碼器，訓(xùn)練 5,000 步。

階段 2：編輯模型全量微調(diào)。在完整的 400 萬圖像編輯數(shù)據(jù)集上進行 50,000 步的全量微調(diào)。

階段 3：高質(zhì)量微調(diào)。使用更高質(zhì)量的編輯數(shù)據(jù)對模型進行 1,000 步的微調(diào)，以增強模型輸出與人類偏好之間的對齊。實驗

為了驗證 EditMGT 的有效性，本工作在三個像素級基準測試（Emu Edit, MagicBrush, AnyBench）和一個基于 GPT 的評估基準（GEdit-EN-full）上進行了全面評估。

主要結(jié)果

本工作在四個基準數(shù)據(jù)集上對 EditMGT 與基線方法進行了定量比較。

Emu Edit & MagicBrush：如下表 1 所示，EditMGT 在圖像相似度（CLIP）方面在所有評估模型中取得了 SOTA 性能，在 MagicBrush 上有 1.1% 的顯著提升。在語義圖像相似度（DINO）方面，該方法分別取得了第二佳和 SOTA 的結(jié)果。指令依從性指標顯示了一致的強勁表現(xiàn)。盡管 L1 分數(shù)未顯示顯著優(yōu)勢，但這可能歸因于 EditMGT 與預(yù)定目標圖像之間固有的多樣性差異。

AnyBench：如下圖 6(a)(b) 所示，按任務(wù)類型分類時，EditMGT 在 AnyBench 評估的所有任務(wù)中均取得了最佳或接近最佳的性能。特別是在風(fēng)格更改（style change）任務(wù)中，EditMGT 比第二名的方法大幅提升了 3.6%。對于隱式指令（implicit instruction）任務(wù)，EditMGT 始終取得 SOTA 結(jié)果，超過第二名 1.7%，表明該模型在處理隱式指令引導(dǎo)方面具有卓越能力。詳細分數(shù)見表 6 和表 7。

GEdit-EN-full：如下表 2 所示，盡管模型大小僅為 960MB，但它實現(xiàn)了與 12B 參數(shù)量的 FluxKontext.dev 模型相當?shù)母偁幜�，并表現(xiàn)出優(yōu)于 VAREdit-8B、GoT-6B 和 OmniGen2 (7B) 的整體性能。值得注意的是，該模型在背景更改、顏色更改、人像編輯和風(fēng)格遷移（style transfer）等幾個具有挑戰(zhàn)性的任務(wù)上優(yōu)于 FluxKontext.dev，其中風(fēng)格遷移提升了 17.6%。

定性結(jié)果

除定量指標外，如下圖 5 所示，本工作將 EditMGT 與 UltraEdit (SD3)、GoT-6B、OmniGen2-7B 和 VAREdit-8B 進行了定性比較。觀察結(jié)果如下：

卓越的指令理解能力：例如，對于“照片看起來有點發(fā)黃，請調(diào)整顏色”，其他模型錯誤地增加了黃色調(diào)，只有 EditMGT 正確地減少了暖色調(diào)以實現(xiàn)美白。

強大的對象屬性理解：在“點亮所有蠟燭”的例子中，只有 EditMGT 成功點亮了所有蠟燭；對于“添加黑色長筒襪”，它準確理解了形容詞“長”。

有效的結(jié)構(gòu)保留：在生成皮克斯風(fēng)格動畫時，EditMGT 不僅成功渲染了角色，還保持了拍攝對象的原始姿勢和位置。

深入分析

數(shù)據(jù)擴展（Data Scaling）：如前圖 6 所示，不同訓(xùn)練步驟的實驗表明，即使更換文本編碼器，模型架構(gòu)也能保持一致的可擴展性。

架構(gòu)消融（Architecture Ablation）：主要研究了文本編碼器的選擇（見附錄表 5）。經(jīng)驗分析表明，Gemma2-IT-2B 在評估的選項中取得了最佳性能。

推理算法有效性：如圖 4 所示，增加值會逐漸減少圖像內(nèi)的編輯區(qū)域。隨著增加，L1 距離減小，而語義分數(shù)先略微提高后急劇下降，證明了閾值控制的有效性。

速度優(yōu)勢：如下圖 1(b) 所示，在 1024×1024 分辨率下，EditMGT 實現(xiàn)了比性能相似的模型快 6 倍的編輯速度（每次編輯僅需 2 秒）。EditMGT 和 CrispEdit-2M 概述

結(jié)論

EditMGT，首個基于掩碼生成 Transformer（MGT）的圖像編輯框架，利用 MGT 的局部解碼范式來解決擴散模型中固有的編輯泄漏（editing leakage）問題。通過提出的多層注意力整合（multi-layer attention consolidation）和區(qū)域保持采樣（region-hold sampling），EditMGT 實現(xiàn)了精確的編輯定位，同時顯式地保留了非目標區(qū)域。盡管僅使用了 9.6 億（960M）參數(shù)，該模型在四個基準測試中均達到了最先進的圖像相似度性能，在風(fēng)格更改和風(fēng)格遷移任務(wù)上分別有 3.6% 和 17.6% 的顯著提升。此外，EditMGT 提供了 6 倍的編輯速度，證明了 MGT 為圖像編輯提供了一種極具競爭力的替代方案。

參考文獻

[1] EditMGT: Unleashing Potentials of Masked Generative Transformers in Image Editing

原文標題 : 僅960M參數(shù)，不僅干翻百億大模型，速度還快了6倍！字節(jié)最新圖像編輯模型EditMGT開源啦