潍坊做网站软件深圳公司网站备案需要什么资料-吉安市网站建设公司-Seo优化

潍坊做网站软件,深圳公司网站备案需要什么资料,电商创业,医程通网站做的太论文链接#xff1a;https://arxiv.org/pdf/2510.16888 Git 链接#xff1a;https://github.com/PKU-YuanGroup/Edit-R1亮点直击Edit-R1框架#xff1a;结合DiffusionNFT技术与预训练多模态大模型#xff08;MLLM#xff09;构建免训练奖励机制#xff0c;实现对扩散模型…论文链接https://arxiv.org/pdf/2510.16888Git 链接https://github.com/PKU-YuanGroup/Edit-R1亮点直击Edit-R1框架结合DiffusionNFT技术与预训练多模态大模型MLLM构建免训练奖励机制实现对扩散模型的指令驱动图像编辑微调。验证奖励信号优越性证明该框架提供的奖励信号具备更高的人类偏好对齐度可生成稳定、低成本、低幻觉的反馈信号有效提升训练稳定性。实证性能突破实验表明该方法显著提升UniWorld-V2、Qwen-Image-Edit和FLUX.1-Kontext等模型在多样化编辑基准上的性能表现。总结速览解决的问题当前基于指令的图像编辑模型通常依赖于监督微调训练这导致模型在标注模式上过拟合限制了它们在训练分布之外的探索和泛化能力。此外编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案引入Edit-R1框架该框架基于策略优化结合了扩散负面感知微调DiffusionNFT和多模态大语言模型MLLM以提供免训练的奖励机制帮助解决模型在不同指令环境下的泛化问题。应用的技术使用了DiffusionNFT技术这是一种无似然的策略优化方法能够兼容流匹配前向过程允许使用更高阶的采样器以提高训练效率。同时采取多模态大语言模型MLLM作为统一的、免训练的奖励模型利用其输出logits提供细致反馈。此外设计了低方差群体过滤机制以降低MLLM评分的噪声并稳定优化过程。达到的效果通过Edit-R1框架训练的UniWorld-V2模型在ImgEdit和GEdit-Bench基准上取得了最先进成绩分别得分4.49和7.83。该框架与模型无关展示了在不同基础模型如Qwen-Image-Edit和FLUX-Kontext上的显著性能提升证明了其广泛适用性。代码和模型已公开以支持进一步研究支持研究者进行更广泛的应用。方法初步准备流匹配。给定一个数据样本与一个对应的条件例如类别标签或文本嵌入。从真实分布和高斯噪声样本校正流将插值噪声样本定义为:其中。给定作为文本嵌入通过训练神经网络来逼近目标速度场通过最小化流匹配目标推理是通过为前向过程求解确定性常微分方程来执行的扩散负面感知微调 (DiffusionNFT)。与基于策略梯度框架的强化学习算法不同DiffusionNFT 直接通过流动匹配目标在前向扩散过程中进行策略优化。该方法利用奖励信号来定义对比损失从而将模型的速度预测器引导向高奖励策略并远离低奖励策略。核心策略优化损失定义为其中是目标速度场。隐式正负策略和是旧策略和训练策略的组合由超参数加权最优概率是由无约束的原始奖励信号转换而来的其中是一个归一化因子例如全局奖励的标准差。无需训练的 MLLM 评分本文方法利用预训练的 MLLM 作为无需训练的奖励模型来评估编辑的准确性。一个编辑任务由输入序列定义包含原始图像、编辑后的图像和文本指令。MLLM 的响应生成被建模为一个逐个令牌生成的过程。设。下一个令牌的生成是基于先前令牌的条件在这里表示一个 MLLM其输出是对应于序列最后一个令牌的 logits 向量。本文从两个维度探索 MLLM 的评估框架Chain-of-Thought (CoT) 与非CoT 评分以及基于采样离散的与基于 logits连续的评分。CoT 与非CoT这一维度探讨 MLLM 在提供最终分数前是否应生成解释性推理。在非CoT评分中MLLM 直接生成分数而不进行推理响应长度为。相反CoT 评分要求 MLLM 在给出分数前生成 CoT 推理导致响应长度。基于采样与基于 logits这一维度探讨如何将 MLLM 的输出转换为奖励信号。首先MLLM 基于预定义的模板生成文本响应。基于采样的评分通过确定性规则从中提取明确的数值分数。这种方法虽然简单但产生的是稀疏信号在评分时忽略了模型的不确定性。基于 logits 的评分提供了更细化的奖励计算方法为分数字符的期望数值其中是符号的数值代表用于评分的符号集合。这个分数体现了模型在不同分数上的信心分布。然后本文将分数规范化到 [0, 1] 范围内在 Edit-R1 中本文使用非 CoT 和基于 logits 的评分方法并设定。此外本文还对比了其他评分机制以验证其有效性包括基于样本的方法和在评分前提示 MLLM 进行推理的 CoT 变体。另外本文还参考了现有工作的预训练奖励模型进行基准测试。低标准差群体过滤一个潜在的限制来自于在低奖励方差条件下的归一化操作。当 MLLM 为群体样本分配的概率非常相似时例如均超过 0.95它们之间的微小差异无法可靠地指示真实的质量差距。然而在低方差情景下通过标准差进行划分会放大这些微小的评分差异如下图 3 所示。由此产生的奖励信号反映的主要是噪声而非真实质量可能会误导训练过程。过滤掉这些带噪声的群体对维持训练稳定性至关重要。因此本文旨在过滤掉在原始奖励中均值高且方差低的群体。具体来说本文引入了两个超参数和它们分别表示均值和方差的阈值。在训练过程中来自于那些均值奖励超过且方差低于的群体的梯度将被舍弃不参与优化过程。Edit-R1 的流程为增强图像编辑模型利用 DiffusionNFT 并采用 MLLM 的奖励信号。这种方法使奖励信号普遍适用于任何编辑任务通过政策优化生成来自同一分布的稳定奖励同时消除对特定领域奖励模型的依赖。如下图 2 所示该过程包括三个主要部分采样、MLLM 评分和扩散负关于感知微调这三个部分逐步将模型与最优策略对齐。部分 1采样得益于策略优化与数据采样的解耦DiffusionNFT 允许充分利用任何黑盒求解器进行采样。因此本文特别采用 DPM-Solver对给定的源图像和编辑指令进行快速展开生成一组从旧策略采样的个图像。部分 2MLLM 评分根据 MLLM 的隐式反馈评估生成的图像组以衡量其与编辑指令的契合度和整体图像质量。基于原始图像、编辑后的图像和评估提示MLLM 为生成一系列原始奖励分数。为便于细粒度评分评估提示结构化为两个部分基础提示概述基本的编辑要求和指令以及任务提示特别针对具体的编辑任务类型量身定制。部分 3DiffusionNFT通过群体计算原始 MLLM 分数被转换为最优性奖励。这些奖励随后用于使用 DiffusionNFT 目标在公式 4 中定义更新策略模型。该过程引导模型的速度预测器朝向高奖励结果同时远离低奖励结果有效地微调模型以更好地遵循用户指令并产生更高质量的编辑结果。实验数据集本文整理了一个包含 27,572 个基于指令的编辑样本的数据集如下图5所示这些样本来自 LAION、LexArt 和 UniWorldV1。为了增强任务多样性加入了额外的文本编辑和红框控制任务共形成九种不同的任务类型。利用在线学习模式本文的方法仅依赖于原始图像及其相应的编辑指令这消除了对高质量编辑结果图像的需求。对于 LAION 子集使用 ImgEdit 提供的现有对象注释和边界框。预处理管道包括1过滤掉过小或过大的边界框2使用 Qwen2.5-VL-32B 模型评估编辑指令的合理性。对于文本编辑任务基于 LexArt 子集随机更改单词中的字符以生成训练样本。在红框控制任务中从处理后的 LAION 数据中提取一个子集在目标对象周围画出红色边界框并生成三种类型的编辑指令调整、移除和替换。对于参考和提取任务使用来自 UniWorld-V1 的高质量试穿数据。由于该数据集的多样性有限本文仅为这两个任务使用 600 个样本。实验设置为了评估本文方法的有效性本文从两个角度进行实验1不同 MLLM 评分方法与人类判断之间的一致性以及 2通过本文的方法进行后期训练后编辑模型的性能提升。训练本文使用 FLUX.1-Kontext [Dev]、Qwen-Image-Edit [2509] 和 UniWorld-V2 作为基础模型。训练时本文为 FLUX.1-Kontext [Dev] 分配 3 个节点为 Qwen-Image-Edit [2509] 分配 6 个节点为 UniWorld-V2 分配 9 个节点每个节点包含 8 个 A100 GPU。本文在单个节点上使用 vLLM 进行 MLLM 评分。为了优化 GPU 内存利用率在训练 Qwen-Image-Edit [2509] 和 UniWorld-V2 时本文为文本编码器采用全面分片数据并行FSDP并使用梯度检查点。评估对于定量评估本文采用两个综合基准测试ImgEdit该测试将多种专门任务统一为一个通用框架以进行全面模型比较以及 GEdit-Bench该测试通过丰富的自然语言指令评估通用图像编辑。主要结果本文在 ImgEdit 和 GEdit-Bench 基准上评估这些模型以评估它们的编辑能力和泛化能力。定量结果分别展示在下表 1 和下表 2 中下图 4 中展示了定性的比较。本文的方法释放了模型的潜力并显著提高了其性能。如上表 1 所示本文的方法显著增强了所有基础模型在 ImgEdit 基准上的表现。对于 FLUX.1-Kontext [Dev]整体分数显著提高从 3.71 上升到 4.02超过了较强的 Pro 版本4.00。同样在应用于 Qwen-Image-Edit [2509] 时本文的方法将其分数从 4.35 提升到令人印象深刻的 4.48实现了开源模型中的最先进性能并超越了顶级闭源模型如 GPT-Image-1。除了总得分的提升之外UniWorld-FLUX.1-Kontext 在“调整”、“提取”和“移除”维度上表现出显著的性能提升而 UniWorld-Qwen-Image-Edit则在“提取”和“混合”维度上表现优异。此外UniWorld-V2达到了最佳性能。这一现象表明本文的方法能够解锁和显著提高基础模型中之前未开发的潜力。本文的方法在域外数据集上展示了强大的泛化能力。在域外 GEdit-Bench上表2上Edit-R1 为三种模型展示了强大的泛化性能。它使 FLUX.1-Kontext [Dev] 模型的总分从 6.00 提升到 6.74表现超越了 Pro 版本6.56。对于 Qwen-Image 模型其得分从 7.54 增加到 7.76。同时UniWorld-V2在这一基准测试中建立了新的最先进水平超越了所有列出的模型包括 Qwen-Image-Edit7.56和 GPT-Image-17.53。这一结果确认本文的方法有效地保留和增强了在未见数据分布上的核心编辑能力展示了强大的泛化能力。本文的方法在人工偏好评估中证明了其有效性。为了全面评估本文对 FLUX.1 和 Qwen系列进行了人工偏好研究参与者将本文的微调模型与其基础模型和更强大的版本进行比较。他们被要求在两个维度上选择最佳结果指令对齐和图像质量。如图6所示用户在所有标准中更倾向于选择 UniWorld-FLUX.1-Kontext 而不是 FLUX.1-Kontext [Dev]。此外它在编辑能力上表现出较强的优势尤其是在与更强大的官方版本 FLUX.1-Kontext [Pro]的比较中。总体而言UniWorld-FLUX.1-Kontext因其优越的指令遵循能力而获得更多的喜欢尽管官方模型在图像质量上稍微胜出。这证实了本文的方法能够有效地引导模型生成更符合人类偏好的输出。消融研究本文进行了消融研究以验证本文的核心组件。如下图7所示本文在 FLUX.1 Kontext [Dev] 上采用 DiffusionNFT 作为策略优化方法。在 ImgEdit 基准测试中它的表现优于包括 Flow-GRPO 及其使用局部标准差的变体在内的基线。此外如下表3所示将 DiffusionNFT 应用于 Qwen-Image-Edit [2509] 基线模型其在 GEdit-Bench 上的得分显著从 7.54 提高到 7.72。引入组过滤机制后得分进一步提升至 7.76。分析人类对齐。为了验证本文的奖励机制选择本文评估了不同评分方法与人工判断的对齐情况。结果表明本文采用的基于 logits 的方法在所有评估的奖励机制中与人类偏好的相关性最高。如下表4所示该方法实现了 74.74% 的整体配对准确率显著超越其他方法。此外如下图9所示优越的对齐在多样的编辑任务中是一致的。奖励模型扩展。为了评估奖励模型扩展对策略模型性能的影响本文在相同步数下使用不同参数规模的奖励模型对 Qwen-Image-Edit 进行微调以便进行公平比较。如上表3所示随着奖励模型规模的增加策略模型的总体得分提高表明扩展奖励模型有助于性能的持续提升。奖励 hacking 和奖励方差。如下图8左所示在 3B 模型上微调的策略模型表现出显著的奖励 hacking其编辑结果偏离源图像。相比之下在更大的 7B 模型上微调的模型缓解了这一问题。为了进一步调查本文分析了训练奖励曲线并将这一现象归因于奖励分数的方差。如下图8右所示本文展示了平滑的奖励轨迹实线、原始奖励波动阴影线和奖励方差气泡大小作为探索强度的指示。本文观察如下i) 小规模模型中的奖励 hacking较小的奖励模型如 3B 和 7B在训练初期奖励方差迅速缩减表明有效探索的过早中止。ii) 大规模模型中的持续探索相比之下32B 模型在整个训练过程中保持高奖励方差展示出持续的探索能力即使在后期阶段也能发现更优的解决方案。该现象也在另一项研究中进行了分析。这些动态表明扩大奖励模型可以有效减轻奖励 hacking 并维持强有力的探索。结论Edit-R1这是一个新颖的后训练框架旨在克服基于指令的图像编辑模型的泛化限制。本文的核心创新是使用 MLLM 作为无训练需求的奖励模型该模型直接从输出 logits 提供细粒度、连续的反馈并结合了高效的 DiffusionNFT这是一种符合流匹配正向过程的无似然策略优化方法。广泛的实验表明本文的框架通过显著提升各种基础模型包括 UniWorld-V2、FLUX.1-Kontext 和 Qwen-ImageEdit在 ImgEdit 和 GEdit-Bench 上达到了最先进的性能。本文的分析证实由 MLLM 得出的奖励信号与人类偏好高度相关有效地引导模型输出更高质量的结果同时减轻奖励 hacking。参考文献[1] Uniworld-V2: Reinforce Image Editing with Diffusion Negative-aware Finetuning and MLLM Implicit Feedback

潍坊做网站软件深圳公司网站备案需要什么资料

设计作品网站wordpress文档模板

如何做电影网站资源天津哪里建网站好

始兴县建设局网站北京美容网站建设

兼职做网站挣钱么商标设计网软件

200元自助网站建设wordpress php教程 pdf

钓鱼网站网址大全自己做一个app难吗