北航&美團(tuán)等最新EditThinker：給AI修圖裝上“大腦”，F(xiàn)lux、OmniGen2瞬間智商暴漲！

2025-12-09 15:32

作者：Hongyu Li等

解讀：AI生成未來

圖1。EditThinker 概述。子圖（a）展示了多輪思考編輯流程，該流程迭代批評、優(yōu)化和重復(fù)編輯指令，子圖（b）報告了四個圖像編輯基準(zhǔn)測試的結(jié)果，展示了三種現(xiàn)有編輯方法的顯著提升，我們使用了FLUX.1 Kontext開發(fā)版（圖中標(biāo)示為FLUX.1 Kontext）

亮點直擊

突破單輪指令范式：針對現(xiàn)有單輪指令遵循模式的局限，創(chuàng)新性地提出"邊思考邊編輯"新范式，將圖像編輯任務(wù)重構(gòu)為迭代式推理過程。

構(gòu)建推理驅(qū)動模型：EditThinker——一個通過監(jiān)督微調(diào)與強化學(xué)習(xí)聯(lián)合訓(xùn)練的推理驅(qū)動多模態(tài)大語言模型，能夠?qū)庉嬛噶钸M(jìn)行迭代式的批判、優(yōu)化與重規(guī)劃。

創(chuàng)建大規(guī)模數(shù)據(jù)集：推出包含14萬樣本的THINKEDIT-140k多輪對話數(shù)據(jù)集，該數(shù)據(jù)集提供統(tǒng)一的指令優(yōu)化監(jiān)督信號，專為基于推理的訓(xùn)練流程設(shè)計。

驗證廣泛適用性：在四個廣泛使用的基準(zhǔn)測試上進(jìn)行大量實驗，證明方法在多樣化編輯場景與不同編輯模型中均具卓越效果。

總結(jié)速覽

解決的問題

現(xiàn)有基于指令的圖像編輯方法受限于單輪執(zhí)行范式，難以有效應(yīng)對模型固有的隨機(jī)性與缺乏推理機(jī)制的問題，導(dǎo)致指令遵循準(zhǔn)確率低、編輯結(jié)果與用戶意圖存在偏差，尤其在復(fù)雜或多步編輯任務(wù)中表現(xiàn)不足。

提出的方案

提出一種“邊思考邊編輯”（Think-while-Edit）的迭代式推理框架，將圖像編輯重構(gòu)為一個可循環(huán)優(yōu)化的認(rèn)知過程：在每輪編輯后自動評估結(jié)果、批判不足、優(yōu)化原始指令，并重復(fù)生成，直至滿足用戶需求。該框架以統(tǒng)一的推理引擎 EditThinker 為核心，實現(xiàn)指令的動態(tài)精煉與再執(zhí)行。

應(yīng)用的技術(shù)

構(gòu)建并訓(xùn)練一個多模態(tài)大語言模型（MLLM）EditThinker，聯(lián)合輸出批判評分、自然語言推理過程和改進(jìn)后的編輯指令；

采用監(jiān)督微調(diào)與強化學(xué)習(xí)相結(jié)合的訓(xùn)練策略，使模型的“思考”（推理與批判）與“編輯”行為對齊；

發(fā)布 THINKEDIT-140k 多輪對話數(shù)據(jù)集（含14萬樣本），提供結(jié)構(gòu)化的多輪指令優(yōu)化監(jiān)督信號，支持推理驅(qū)動的模型訓(xùn)練。

達(dá)到的效果

在四個主流圖像編輯基準(zhǔn)上的大量實驗表明，該方法顯著且大幅度地提升了各類圖像編輯模型的指令遵循能力，無論編輯任務(wù)復(fù)雜度或底層模型架構(gòu)如何，均展現(xiàn)出強泛化性與廣泛適用性，為高保真、高語義對齊的指令式圖像編輯提供了新范式。

思考即編輯

為了解決當(dāng)前編輯模型在單輪指令遵循方面的固有局限性，本文提出了“思考即編輯”框架，模仿人類在創(chuàng)作過程中“批判、反思和編輯”的認(rèn)知過程。

整體框架

以前的方法主要以單輪方式操作：給定源圖像和原始指令，編輯模型直接生成最終編輯圖像。這個過程缺乏迭代細(xì)化輸出或從失敗編輯中恢復(fù)的能力。

圖2。邊思考邊編輯的流程。EditThinker 是一個多輪指令迭代優(yōu)化框架。第一輪中，原始圖像Isrc和指令T輸入編輯器，生成初始編輯圖像，進(jìn)行編輯。這張編輯后的圖片連同原始圖片和指令，隨后被輸入 EditThinker，生成編輯分?jǐn)?shù) St、精細(xì)提示 Tt 以及相應(yīng)的推理過程 Rt。如果分?jǐn)?shù)低于閾值，框架將進(jìn)入下一次迭代，使用精煉后的提示，直到達(dá)到滿意結(jié)果。

為了解決這一限制，本文引入了一個基于 MLLM 的思考者，它將單遍編輯轉(zhuǎn)換為迭代的多輪過程。本文的框架將編輯工作流明確地解耦為兩個不同的角色：一個用于判斷和推理的思考者，一個用于執(zhí)行的編輯器，其中思考者通過 SFT 和 RL 進(jìn)行訓(xùn)練，編輯器是任何現(xiàn)有的圖像編輯模型（例如，Qwen-Image-Edit，F(xiàn)lux-Kontext）。具體來說，在每次迭代中，思考者評估先前的輸出并同時生成指令遵循分?jǐn)?shù) 、細(xì)化指令和推理過程，如以下公式所示：

然后，編輯器在源圖像上執(zhí)行新指令，生成更新結(jié)果，如以下公式所示：

這個迭代過程，被稱為“批判-改進(jìn)-重復(fù)”循環(huán)，一直持續(xù)到實現(xiàn)編輯目標(biāo)。

EditThinker 的設(shè)計

本文將 EditThinker 建模為一個雙重角色模型，同時進(jìn)行評估和規(guī)劃。與使用單獨模型進(jìn)行評估（基于 MLLM 的評分器）和規(guī)劃（基于 LLM 的重寫器）的解耦方法不同，EditThinker 在一次前向傳播中執(zhí)行這兩個任務(wù)。

本文的關(guān)鍵見解是，有效的規(guī)劃需要深入評估：模型必須首先批判先前的輸出（生成分?jǐn)?shù) 和推理），然后才能生成細(xì)化指令。通過在生成之前生成，EditThinker 創(chuàng)建了一個明確的思維鏈，將指令細(xì)化基于對和的視覺批判。

為了實現(xiàn)這種雙重角色設(shè)計，本文定義了一個結(jié)構(gòu)化的輸入-輸出格式，明確編碼了評估然后規(guī)劃的過程。

輸入元組。 EditThinker 在每次迭代接收一個多模態(tài)元組，提供編輯狀態(tài)的完整上下文：和代表原始參考，是當(dāng)前要批判的結(jié)果，是生成它的先前指令。

結(jié)構(gòu)化輸出格式。 輸出是一個結(jié)構(gòu)化文本字符串，它序列化了 EditThinker 的推理過程：

其中，是的感知質(zhì)量，是與原始指令相對于的語義對齊。兩個分?jǐn)?shù)范圍都為 0 到 10。

EditThinker 的訓(xùn)練

訓(xùn)練 EditThinker 執(zhí)行這種雙重角色任務(wù)需要專門的數(shù)據(jù)集和多階段訓(xùn)練策略。本文采用兩階段方法：首先是監(jiān)督微調(diào) (SFT)，以學(xué)習(xí)輸出格式和基本推理，然后是強化學(xué)習(xí) (RL)，根據(jù)實際編輯反饋優(yōu)化指令細(xì)化。

監(jiān)督微調(diào) (冷啟動)

使用專家 (GPT-4.1) 演示數(shù)據(jù)集（詳見第 4 節(jié)），基礎(chǔ) MLLM 學(xué)習(xí)采用本文的結(jié)構(gòu)化 I/O 格式（例如，、、），模仿專家的推理風(fēng)格，并理解批判和細(xì)化指令的原則。

強化學(xué)習(xí)微調(diào) (RLT)

SFT 模型學(xué)習(xí)專家理想的推理方式，但這種推理并未基于實際編輯器的實際限制。該模型從未觀察到實際的編輯失敗，也未學(xué)習(xí)哪些類型的指令容易被特定編輯器誤解。因此，對于 SFT 模型來說，一個看似最優(yōu)的指令在由實際編輯器（如 Qwen-Image-Edit）執(zhí)行時仍然可能失敗。這在理想推理和實際執(zhí)行之間造成了差距。

為了彌合這一差距，本文引入了一個 RL 階段，該階段根據(jù)實際編輯反饋優(yōu)化 EditThinker。本文采用標(biāo)準(zhǔn) GRPO（組相對策略優(yōu)化），并設(shè)計了一個精心設(shè)計的獎勵函數(shù)。如前文所述，EditThinker 充當(dāng)雙重角色代理（即，評論者和細(xì)化者），本文設(shè)計了一個多組件獎勵，為這兩個方面提供學(xué)習(xí)信號，如下所示：

評論者獎勵。 該組件訓(xùn)練 EditThinker 成為一個更準(zhǔn)確的評論者。模型輸出預(yù)測分?jǐn)?shù) （包括和），這些分?jǐn)?shù)應(yīng)與編輯結(jié)果的實際質(zhì)量保持一致。本文使用 GPT-4.1 作為評論專家 (E) 來評估結(jié)果圖像。評論者獎勵懲罰預(yù)測誤差，如下所示：

該獎勵鼓勵 EditThinker 校準(zhǔn)其自我評估：高估質(zhì)量（實際分?jǐn)?shù)為 5 時預(yù)測為 9）或低估都會受到懲罰。通過這種反饋，模型學(xué)會將其內(nèi)部批判與實際編輯結(jié)果保持一致。

編輯獎勵。 這是訓(xùn)練 EditThinker 成為更好的細(xì)化者的主要獎勵。它激勵模型生成一個指令，該指令導(dǎo)致圖像質(zhì)量和指令遵循方面的可衡量改進(jìn)。本文使用差分獎勵，使用相同的專家 E 比較“之前”狀態(tài) () 和“之后”狀態(tài) ()，如下所示：

僅當(dāng)生成的指令成功促使編輯器生成比前一步更好的圖像時，該獎勵才為正。這直接將 EditThinker 的規(guī)劃能力基于實際執(zhí)行結(jié)果。

最終獎勵如下：

其中是基本推理格式獎勵，且。

THINKEDIT 數(shù)據(jù)集

為了訓(xùn)練 EditThinker，本文需要一個高質(zhì)量的數(shù)據(jù)集來捕獲多輪“思考即編輯”循環(huán)。如下圖 3 所示，本文設(shè)計了一個自動化數(shù)據(jù)構(gòu)建管道來模擬這個過程，包括四個順序步驟：軌跡生成、軌跡過濾、分步過濾和數(shù)據(jù)劃分。這個管道使本文能夠構(gòu)建 THINKEDIT-140k 數(shù)據(jù)集。下面詳細(xì)介紹每個步驟。

軌跡生成

第一階段側(cè)重于模擬多輪“思考即編輯”循環(huán)。該管道從包含各種 (, ) 對的編輯數(shù)據(jù)池開始。在每個步驟，編輯思考者專家 (GPT-4.1) 評估當(dāng)前狀態(tài)（基于、和）并生成新指令 ()、推理過程 () 和標(biāo)記。

值得注意的是，專家不輸出分?jǐn)?shù) ()。相反，它通過發(fā)出標(biāo)記直接決定何時停止該過程。這種設(shè)計選擇源于本文的發(fā)現(xiàn)，即單個專家難以在任務(wù)細(xì)化和輸出評分方面同時保持高性能。如果未發(fā)出標(biāo)記，圖像編輯器將使用新的生成。此循環(huán)持續(xù)進(jìn)行，直到專家觸發(fā) 條件（或達(dá)到最大迭代限制 N），從而完成完整軌跡。

軌跡過濾

由于編輯思考者專家只生成精煉指令和標(biāo)記而不提供質(zhì)量分?jǐn)?shù)，本文采用一個額外的編輯評分器來評估每個步驟并分配一個分?jǐn)?shù) 。在對所有步驟 () 進(jìn)行評分后，本文應(yīng)用一個兩階段過濾過程：

過濾失敗軌跡。 本文只保留至少一個后續(xù)步驟 () 獲得的分?jǐn)?shù)高于或等于初始步驟的軌跡（即，）。不符合此條件的軌跡將被丟棄。

截斷保留軌跡。 對于保留的軌跡，本文識別分?jǐn)?shù)最高的步驟 () 并將軌跡截斷為僅包含從 1 到的步驟。所有后續(xù)步驟 () 都將被丟棄。

分步過濾

最后，本文處理來自軌跡過濾的精心策劃的軌跡，通過兩個步驟創(chuàng)建最終訓(xùn)練數(shù)據(jù)：

樣本提取。 首先，本文展開截斷的軌跡。軌跡中的每個單獨步驟都轉(zhuǎn)換為一個不同的訓(xùn)練樣本。此樣本將輸入元組 (, , , ) 與其相應(yīng)的地面實況專家輸出 (, ) 配對。該步驟的分?jǐn)?shù) 作為元數(shù)據(jù)保留，用于后續(xù)過濾。

分布平衡。 本文應(yīng)用最終過濾步驟，沿兩個維度平衡數(shù)據(jù)集：

任務(wù)分布： 本文在不同任務(wù)類型（例如，對象移除、顏色修改、添加項目）之間平衡樣本，以確保均勻覆蓋。

分?jǐn)?shù)分布： 本文在分?jǐn)?shù)級別之間標(biāo)準(zhǔn)化樣本，以確保編輯質(zhì)量的平衡表示。

SFT 和 RL 數(shù)據(jù)劃分

在軌跡過濾之后，本文獲得了大量精選的高質(zhì)量軌跡。從這個集合中，本文為監(jiān)督微調(diào) (SFT) 和強化學(xué)習(xí) (RL) 階段創(chuàng)建了兩個不同的數(shù)據(jù)集。劃分原則是 SFT 需要穩(wěn)定、高質(zhì)量的示例，而 RL 最受益于動態(tài)改進(jìn)示例。

RL 數(shù)據(jù)集。 本文首先識別對強化學(xué)習(xí)最有價值的軌跡。關(guān)鍵標(biāo)準(zhǔn)是高軌跡內(nèi)分?jǐn)?shù)方差（即，“高波動”分?jǐn)?shù)，Var() > ）。這些軌跡代表了模型最初遇到困難但隨后設(shè)法改進(jìn)的挑戰(zhàn)性案例，為學(xué)習(xí)提供了豐富的獎勵信號。本文篩選了 10k 這樣高方差的軌跡，同時確保該集合在不同任務(wù)類型和分?jǐn)?shù)分布之間保持平衡。展開后，這些軌跡產(chǎn)生了 27k 個分步樣本，構(gòu)成了本文的 RL 數(shù)據(jù)集。

SFT 數(shù)據(jù)集。 SFT 數(shù)據(jù)集旨在教授模型正確、穩(wěn)定的細(xì)化行為。因此，本文選擇了具有低分?jǐn)?shù)方差或持續(xù)高質(zhì)量的樣本。這些“低波動”步驟通常代表更直接、正確和可靠的細(xì)化示例。這個過程產(chǎn)生了一個單獨的 140k 個分步樣本數(shù)據(jù)集用于 SFT。

實驗

實驗設(shè)置總結(jié)

本節(jié)詳細(xì)介紹了 EditThinker 框架的實驗設(shè)置。EditThinker 基于 Qwen3-VL-8B-Instruct 構(gòu)建。訓(xùn)練分為兩個階段：

監(jiān)督微調(diào) (SFT) ：在本文新構(gòu)建的 THINKEDIT-SFT-140k 數(shù)據(jù)集上進(jìn)行一個 epoch 的訓(xùn)練。關(guān)鍵超參數(shù)包括學(xué)習(xí)率為 2 10，批大小為 32。

強化學(xué)習(xí) (RL) ：在 THINKEDIT-RL-10k 數(shù)據(jù)集上進(jìn)行一個 epoch 的訓(xùn)練。關(guān)鍵超參數(shù)包括學(xué)習(xí)率為 2 10，全局批大小為 128，生成的回滾數(shù) (N) 為 8，KL 散度懲罰系數(shù)為 1 10。最大像素數(shù)設(shè)置為 1024 1024。

整個訓(xùn)練過程在 8 塊 H800 GPU 上進(jìn)行，大約需要 48 小時。在推理階段，本文的“思考即編輯”范式與 OmniGen2、Flux Kontext [dev]和 Qwen-Image-Edit結(jié)合使用。

基準(zhǔn)和基線：為了全面驗證“思考即編輯”范式的有效性，本文在四個不同的基準(zhǔn)上進(jìn)行了綜合評估：ImgEdit-Bench、GEdit-Bench 、RISEBench和 KRIS-Bench。選擇這套基準(zhǔn)是為了進(jìn)行多方面的評估，其中 RISEBench 和 KRIS-Bench 專門側(cè)重于評估編輯模型的推理能力。

主要結(jié)果總結(jié)

本節(jié)總結(jié)了 EditThinker 框架在通用編輯和推理編輯任務(wù)上的評估結(jié)果，如下表 1 和表 2 所示。

通用編輯性能：如上表 1 所示，本文的“思考即編輯”框架在 ImgEdit-Bench 和 GEdit-Bench-EN 數(shù)據(jù)集上，顯著且持續(xù)地提升了所有基礎(chǔ)模型的性能。

在 ImgEdit-Bench 上，EditThinker 將 FLUX.1-Kontext [Dev] 的總體分?jǐn)?shù)從 3.44 提高到 3.98，OmniGen2 從 3.4 提高到 3.5，Qwen-Image-Edit 從 4.36 提高到 4.37。這些結(jié)果超越了一些最先進(jìn)的模型。

在 GEdit-Bench-EN 數(shù)據(jù)集上，本文的方法同樣取得了穩(wěn)定的增益，將 FLUX.1-Kontext [Dev] 的分?jǐn)?shù)從 6.18 提高到 7.05，OmniGen2 從 6.19 提高到 6.28，Qwen-Image-Edit 從 7.49 提高到 7.73。

推理編輯性能：本文的方法在需要深度推理的任務(wù)上同樣提供了持續(xù)的改進(jìn)，如上表 2 所示。

在 RISE-Bench 上，EditThinker 框架為所有模型提供了穩(wěn)定的性能提升。FLUX.1-Kontext [Dev] 從 5.8 提高到 14.4，OmniGen2 從 3.1 提高到 3.4，Qwen-Image-Edit 從 8.9 提高到 17.8。

專家模型能力的影響：本文觀察到框架的性能與 EditThinker (專家模型) 本身的能力呈正相關(guān)。如上表 1 所示，EditThinker-8B 將 FLUX 分?jǐn)?shù)提高到 3.98，而更強大的 EditThinker (GPT-4.1) 進(jìn)一步將其提高到 4.13。這種模式在其他模型和基準(zhǔn)上也成立，表明使用更強大的專家模型作為“思考者”直接轉(zhuǎn)化為最終編輯結(jié)果的更大性能提升。

消融研究總結(jié)

本節(jié)總結(jié)了對 EditThinker 框架中關(guān)鍵組件的消融研究結(jié)果。以 FLUX.1-Kontext [Dev] 模型為基線，并在 GEdit-Bench-EN 和 ImgEdit-Bench 上進(jìn)行評估。

思考模式分析：

如下表 3 所示，本文將模型編輯思考范式分為兩種主要方法：“思考再編輯”（Think before Edit）和“思考即編輯”（Think while Edit）。“思考再編輯”僅使用源圖像重寫優(yōu)化后的提示，而“思考即編輯”是本文提出的迭代推理和編輯框架。

“思考再編輯”提供了顯著改進(jìn)，但始終不如“思考即編輯”。

用“思考再編輯”步驟初始化“思考即編輯”會導(dǎo)致性能下降，這可能是因為首次“思考再編輯”在第一輪推理中引入了偏差，導(dǎo)致信息傳輸不完整。

思考輪次的效果：

如下表 4 所示，基線模型（相當(dāng)于單次通過，即“Turn 1”）的 G O 分?jǐn)?shù)為 6.18。

引入“思考即編輯”框架，最大兩輪（Turn 2），立即將 G O 分?jǐn)?shù)大幅提升至 6.95。

隨著最大允許輪次的增加，G O 分?jǐn)?shù)持續(xù)攀升，在 4 輪時達(dá)到 7.13，在 6 輪時達(dá)到 7.16，在 8 輪時達(dá)到 7.30。這表明本文的框架有效利用了更深層次的多步推理。

此外，下表 8 顯示了 EditThinker-8B 的多輪推理性能。從基線到 Turn 8，性能持續(xù)改進(jìn)，從 6.18 提高到 7.03。在 Turn 2 觀察到最大的性能提升，分?jǐn)?shù)從 6.18 躍升至 6.90。

訓(xùn)練階段分析：

如下表 5 所示，SFT 階段本身（+ EditThinker-8B-SFT）帶來了顯著的性能提升，將 G O 分?jǐn)?shù)從 6.18 提高到 6.93，ImgEdit-Bench 的總體分?jǐn)?shù)從 3.44 提高到 3.57。

隨后的強化學(xué)習(xí) (RL) 階段（+ EditThinker-8B-RL）提供了額外且關(guān)鍵的優(yōu)化。雖然在 GEdit-Bench 上取得了適度增益（7.02 G O），但其影響在 ImgEdit-Bench 基準(zhǔn)上最為顯著，將總體分?jǐn)?shù)從 3.57 (SFT) 提高到 3.95 (RL)。這表明 SFT 對于傳授基礎(chǔ)細(xì)化能力至關(guān)重要，而 RL 在優(yōu)化專家判斷和微調(diào)決策策略方面非常有效。

不同 EditThinker 專家模型的影響：

如上表 6 所示，本文通過替換訓(xùn)練好的 EditThinker-8B，探究了框架的可擴(kuò)展性。

基線 FLUX 模型的 G O 分?jǐn)?shù)為 6.00。當(dāng)本文簡單地用像 GPT 4.1 這樣強大的現(xiàn)成專有模型替換專家時，G O 分?jǐn)?shù)躍升至 7.19。

這證實了兩個關(guān)鍵見解：1) 本文的“思考即編輯”框架是一個通用且高度可擴(kuò)展的范式，不限于本文特定的訓(xùn)練專家。2) 框架的性能與所采用的專家模型的底層推理和批判能力直接且呈正相關(guān)。

結(jié)論

本文提出了一個深思熟慮的編輯框架 EditThinker，它使圖像編輯模型能夠在編輯時“思考”，解決了現(xiàn)有單輪方法中由于固有的隨機(jī)性和缺乏深思熟慮而導(dǎo)致的指令遵循能力有限的問題。本文的框架通過模擬迭代的“批判-改進(jìn)-重復(fù)”循環(huán)來模仿人類的認(rèn)知過程，從而實現(xiàn)自我糾正的圖像編輯。通過將 EditThinker 訓(xùn)練為一個統(tǒng)一的多模態(tài)大語言模型 (MLLM)，它能夠聯(lián)合生成批判分?jǐn)?shù)、詳細(xì)推理過程和改進(jìn)后的指令。本文還引入了 THINKEDIT-140k，一個用于監(jiān)督微調(diào) (SFT) 和強化學(xué)習(xí) (RL) 的大規(guī)模、多輪數(shù)據(jù)集，以將 EditThinker 的規(guī)劃能力與實際編輯器的限制對齊。在 ImgEdit-Bench、GEdit-Bench、RISE-Bench 和 Kris-Bench 等四個廣泛使用的基準(zhǔn)上進(jìn)行的綜合實驗表明，EditThinker 顯著提高了現(xiàn)有圖像編輯模型的指令遵循能力，特別是在需要復(fù)雜推理的任務(wù)中。消融研究進(jìn)一步證實了“思考即編輯”范式、迭代推理輪次、兩階段訓(xùn)練策略和專家模型能力的關(guān)鍵貢獻(xiàn)。本文的研究結(jié)果強調(diào)了將深思熟慮和迭代推理整合到圖像編輯工作流中的重要性，為開發(fā)更智能、更穩(wěn)健的交互式視覺系統(tǒng)鋪平了道路。本文計劃發(fā)布所有數(shù)據(jù)集和模型，以促進(jìn)該領(lǐng)域的進(jìn)一步研究。

參考文獻(xiàn)

[1] EditThinker: Unlocking Iterative Reasoning for Any Image Editor

原文標(biāo)題 : 北航&美團(tuán)等最新EditThinker：給AI修圖裝上“大腦”，F(xiàn)lux、OmniGen2瞬間智商暴漲！