南大 & 吉大 & 移动优化Pipeline设，VLM 和 LLM 助力提升物体图像修复效果！

在图像修复领域，尤其是通过扩散建模的最新进展，已经取得了令人鼓舞的成果。然而，在涉及基于前景物体完成图像的场景中，目前旨在以端到端方式修复图像的方法遇到了诸如“过度想象”、前景与背景之间的不一致以及多样性有限等挑战。为此，作者推出了Anywhere，这是一个开创性的多代理框架，旨在解决这些问题。Anywhere采用了一个复杂的流水线框架，包含视觉语言模型（VLM）、大型语言模型（LLM）和图像生成模型等各种代理。该框架主要由三个主要组成部分构成：提示生成模块、图像生成模块和结果分析器。提示生成模块对输入的前景图像进行语义分析，利用VLM预测相关的语言描述，并使用LLM推荐最佳的语言提示。在图像生成模块中，作者采用了一个基于文本引导的canny到图像生成模型，根据前景图像的边缘图和语言提示创建一个模板图像，并使用图像细化器通过融合输入前景和模板图像来生成结果。结果分析器使用VLM评估图像内容的合理性、审美分数以及前景与背景的相关性，根据需要触发提示和图像的重新生成。广泛的实验表明，作者的Anywhere框架在前景条件图像修复方面表现出色，减少了“过度想象”，解决了前景与背景之间的差异，并增强了多样性。它成功地将前景条件图像修复提升到了一个新的水平，产生了更可靠和多样化的结果。请访问作者的项目页面https://anywheremultiagent.github.io。

1 Introduction

扩散模型的快速发展已经革命化了图像修复[1]。文本到图像生成模型使用户能够利用文本或多模态信息控制扩散过程，从而通过将文本或其他模态作为附加线索，允许更个性化的图像修复。同时，研究行人正在尝试更具挑战性的修复任务，如背景条件下的目标幻觉或前景条件下的图像完整性。特别是，HD-painter 引入了一种无需训练的方法，通过引入新颖的Prompt-Aware Introverted Attention（PAInA）层，精确遵循提示，并无缝扩展到高分辨率图像修复。BrushNet 提出了一种新颖的即插即用的双分支模型，旨在将像素级 Mask 图像特征集成到任何预训练的扩散模型中，确保修复结果的连贯性和改进。LayerDiffussion 使大规模预训练的潜在扩散模型能够通过学习“潜在透明度”生成单张透明图像或多层透明图像，从而实现前景或背景条件下的图像修复。

然而，关于前景条件下的图像修复，现有方法仍然遇到诸如“过度想象”、“前景-背景不一致”和有限多样性等问题：见图1。“过度想象”指的是在前景目标周围生成多余或过度的内容，损害前景的完整性（例如，给椅子添加不必要区域）。其次，前景-背景不一致包括将前景目标放置在不适当或无关的环境中（例如，营火旁的拖鞋），不一致的视角或空间关系（例如，水平背景中的鸟瞰目标，房间中漂浮的手表），以及前景目标与背景设置的不适当的相对大小（例如，杯子比桌子大）。第三，有限多样性指的是修复模型无法生成多样化的结果，导致背景主要是统一或视觉上相似。

在应对这些挑战时，作者注意到端到端模型通常难以准确理解前景内容，缺乏创造性地填充缺失信息的能力，以及缺乏防止“过度想象”的机制。为了解决这些挑战，作者引入了Anywhere，这是一个新颖的多代理框架，采用了包括VLM，LLM，SDXL，和控制Net等在内的各种代理的复杂流程。

该框架包括三个组件：提示生成模块，图像生成模块，和结果分析器。提示生成模块对输入的前景图像进行语义分析，利用VLM预测相关的语言描述和LLM推荐最佳的语言提示。

这些提示进一步用于指导图像生成模块，确保避免生成不相关的内容并促进多样性。在图像生成模块中，作者使用基于前景图像边缘图和语言提示的文本引导的canny到图像生成模型，如ControlNet Canny模型，来创建一个模板图像。此外，作者还使用 Copy-Paste 工具来保持前景的完整性，以及图像融合代理来确保前景-背景的和谐。此外，当自动检测工具检测到“过度想象”时，使用文本引导的图像修复模型作为重新修复代理来处理“过度想象”的情况。结果分析器使用VLM评估图像内容的合理性、审美分数和前景-背景的相关性，根据需要触发提示和图像的重新生成。结果分析器可以通过多轮迭代使用，确保反馈机制下产生更可靠的结果。

广泛的实验证明了作者的Anywhere框架在前景条件下的图像修复中的有效性，减轻了“过度想象”和前景-背景差异，并增强了多样性。定性和定量的评估表明，作者的多代理框架比现有的端到端图像修复方法在生成可靠和多样化的修复结果方面显著更优。

总结来说，本文的主要贡献包括：

作者引入了一个新颖的多代理框架，整合了先进的VLM，LLM和图像生成模型，以解决前景条件下的图像修复任务，显著超越了现有端到端方法在生成可靠和多样性的修复结果方面的性能。
作者提出了一种新颖的机制，用于自动检测“过度想象”和图像模板重新修复，以减轻“过度想象”的问题。
作者采用了一个新颖的多轮可迭代的成果分析器，以触发语言提示和修复结果的重新生成，从而产生更可靠的结果。

2 Related work

作者将相关工作分为两个主要领域进行回顾：首先，作者讨论了用于视觉识别的神经网络架构的发展；其次，作者涵盖了模型优化和评估的技术。

Diffusion-based Controllable Image Generation

稳定扩散，一个著名的开源文本到图像（T2I）模型，最近取得了快速进展。然而，用户的需求往往超出了文本描述的范畴。研究者们尝试添加额外的控制信号来影响扩散过程，比如添加主体图像和风格。一些研究专注于额外的特定控制信号，如布局条件，边缘图，分割 Mask ，视角。LayerDiffusion关注于在透明层上生成图像，生成的前景或背景可以作为控制条件来引导文本到图像的扩散过程。

Diffusion-based Image Inpainting

图像修复是计算机视觉中的一个关键任务，它关注基于周围未 Mask 内容来恢复 Mask 区域。最近在扩散建模方面的进展极大地推动了图像修复领域的发展。值得注意的技术包括Palette [31] 和 Repaint [32]，它们利用原始图像以及未 Mask 区域来增强去噪。Blended Diffusion [33, 34] 使用已知区域在扩散过程中替换未 Mask 区域。此外，Stable Diffusion Inpainting [6] 在文本到图像（T2I）过程中引入随机 Mask 进行训练，并通过辅助文本输入实现精确控制。Smartbrush [8] 展现了通过操作 Mask 类型定制图像结果的能力，而 HD-Painter [9] 和 PowerPaint [10] 通过额外的训练进一步提升了SDI的能力。BrushNet [11] 是一个前沿的修复模型，具有即插即用的功能。尽管这些方法取得了良好的效果，但在前景条件下的图像修复仍然存在许多困难。

Large Language Model for Vision Task

自然语言处理领域在过去一段时间内经历了戏剧性的转变，各种大型语言模型的参数和模型能力达到了历史新高，甚至接近或超过了人类水平。在视觉问答（VQA）领域也出现了许多高性能模型。然而，高昂的训练成本阻碍了视觉语言模型的进一步发展。利用现有的大型语言模型进行视觉任务已经成为一个重要的研究方向[35]，LLaVA[17]，Bliva[36]尝试将LLM与视觉特征对齐，而一些研究将LLM作为规划器，根据不同的提示为下游视觉任务分配任务。Woodpecker，SIRI通过LLM的知识增强了VLM的推理能力。已经出现了一种趋势，即将大型模型的能力应用于多模态任务。

3 Method

Anywhere是一个包含多种模态代理的多代理图像生成框架，如大型语言模型、视觉语言模型、可控图像生成模型和修复模型。其工作流程包括三个模块：提示生成模块、图像生成模块和结果分析器，如图2所示。Anywhere通过使用不同代理的模块处理图像来实现背景生成。

Prompt Generation Module

生成提示模块旨在理解和关联前景以推导出背景提示。首先，由视觉-语言模型（VLM）代理的形象叙述者提供关于前景外观属性的文本描述，包括颜色、纹理、类型和视角。作者维护一系列用作VLM提示的问题，以收集关于前景目标的有价值见解。其次，由大型语言模型（LLM）代表的不同思考者充当创造性的头脑风暴者，根据提供的描述构想前景可能被放置的潜在场景。它生成与前景相关的场景描述集合。作者为与LLM的高效头脑风暴准备了一系列提示模板。

接下来，由LLM代表的提示生成器评估场景描述与前景描述之间的相关性，对场景与前景描述的兼容性可能性进行排名。最终，它选择排名最高的场景描述作为提示。此外，前景的类型和视角词汇被整合到提示中，作为最终的提示。提示生成的过程在算法1中概述。

算法1 提示生成

图像生成模块

该模块接收前景图像和提示作为输入，为前景图像生成合适的场景。模板生成器，由文本引导的边缘到图像扩散模型实现，以前景条件的方式根据提示创建场景图像（模板图像）。通常，模板图像包括与前景相似的科目（伪前景），作为场景中前景的映射。

随后，模板图像通过重绘代理进行处理，该代理对前景周围的无关内容进行内绘，确保在合成后前景与模板图像之间的和谐。模板图像被分割以获得伪前景，在边缘图条件下代表前景图像在新的场景中。通常，伪前景图像与输入前景图像并不完全重叠，未覆盖的区域将以模板图像作为输入供内绘模型重绘。此过程在图2中说明。

然而，在输入前景图像的 Copy-Paste 操作之后，重绘代理的结果常常出现模糊问题和边缘伪影，使其不适合作为最终成果。因此，由图像到图像扩散模型操作图像精修器，纠正合成图像中的缺陷，如颜色差异、阴影不一致或分辨率调整。

值得注意的是，作者基于 Pipeline 设计的图像生成模块优先使用端到端的文本引导图像内绘模型，从而产生更高质量的成果并改善了“过度想象”的缓解。

Tool Agents

工具代理指的是在该框架中使用的工具或模型，它们针对各种任务。作者的框架包括三种类型的工具，每种工具承担特定的职责（如图2所示）。分割工具负责分割前景图像，起到双重作用。首先，在提示生成模块中，它从前景图像中移除背景，生成仅包含前景的图像。其次，在图像生成模块中，它帮助比较前景图像与从模板图像分割出的伪前景图像。自动检测工具用于识别模板图像中围绕前景的外来内容。它通过评估模板图像的伪 Mask 与输入前景图像的 Mask 之间的重叠来实现这一点。理想情况下，两个 Mask 完全重叠表示不存在“过度想象”。在需要时，图像修复模型应用于恢复模板图像的非重叠区域。

Outcome Analyzer

由VLM操作的成果分析器对图像生成模块的结果进行分析，为下一轮迭代提供反馈。它评估视角一致性、前景-背景相关性、审美分数和图像内容合理性。作者精心挑选了一系列相关问题，作为提示，以征集有价值的反馈。这有助于对结果进行综合分析。这种反馈作为迭代改进的基础，具有发散性思维的个体将从前一轮的反馈中整合信息，以增强场景关联。这种迭代反馈机制逐步提高了提示的质量，从而影响了最终结果。

4 Experiments

作者在三个基准数据集上进行了大量实验，以验证作者方法的有效性。这些数据集包括 NYUD-v2、SUNRGBD 和 Matterport3D，它们被广泛用于深度估计任务。作者将作者的方法与几种最先进的方法进行了比较，并使用标准指标如平均绝对误差（MAE）、均方根误差（RMSE）和来评估性能。

Setup

设置：在作者的框架中，作者使用 Gemini-Pro 作为 LLM，Gemini-Pro-Vision 作为 VLM。作者选择 RMBG-1.42 作为分割工具，LaMa 也可用。作者利用 ControlNet_sdxl_canny3 作为模板生成器，并使用 SDXL_inpainting4 作为修复代理中的修复模型。作者选择 SDXL refiner5 作为图像优化器。数据集：为了评估作者的框架，作者从互联网上收集了各种实体的照片，包括猫、狗、汽车、船、鞋、人、书、手表等常见实体。作者优先选择前景清晰、界限分明的图像，以避免错误的 foreground 分割。最终，作者收集了25个实体的前景图像用于实验。对于开源模型，作者使用这25个前景图像为每个前景生成4个结果，总共生成100个结果图像。对于商业模型，作者将前景图像上传到相应网站，为每个前景生成2个结果，总共生成50个结果。

** Baseline ：作者将作者的方法与当前的 SOTA 修复模型进行了比较：BrushNet ，HD-Painter ，LayerDiffusion 。此外，为了进行更广泛的比较，作者还尝试了一些商业产品，包括 Phot.ai6，Mokker.ai7，Flair.ai8。评价指标**：为了评估结果的质量，作者建立了三个指标：审美分数、多样性分数和不良案例率。

审美分数在1到5分之间评估结果的满意度水平。1分表示图像中存在多个明显问题，如前景与背景不一致或明显的“过度想象”。2分表示图像中有一个明显问题，而3分表示总体没有显著问题，但细节上有小瑕疵，如不自然的光照、阴影或边缘边界，或轻微的“过度想象”。4分表示质量良好，适合展示，5分表示视觉效果非常引人入胜，效果惊人。
多样性分数衡量在保持前景和背景一致性时生成结果的多样性。它从1到3分不等，1分表示在结果中生成单一场景，如单色或相似场景。2分表示结果中的场景有一些相似性，而3分表示结果中的所有场景都非常新颖。
不良案例比率衡量结果的可用性。每个结果都经过评估，以确定是否为不良案例，标记为是或否。如果结果中有一个或多个明显问题，则被视为不良案例。

Qualitative Result

比较结果与开源模型如图3所示。作者的框架在几个方面表现出色：它生成的背景更适合前景，背景生成多样化，并且在修复过程中有效地解决了“过度想象”问题。在图3的第三行中，其他方法显示出“过度想象”的实例，例如椅子显示出多余的“腿”或额外组件。作者的方法成功避免了这类情况的发生。在图3的第一行中，尽管其他方法在为厨房搅拌机生成相关的背景场景时遇到困难，但作者的框架却能熟练地理解厨房场景。

与商业产品的比较结果如图4所示。对于这些商业系统，仅提供前景图像信息。从结果中可以看出，这些商业产品只能在给定的模板场景下生成单一背景，并且出现了心理意象现象的实例。例如，在图4中搅拌机行的第6和第7列，错误地为搅拌机添加了腿或支架。同样，在椅子行的第3、第4和第5列，给椅子强加了不需要的附件。相比之下，作者的框架在生成富有想象力的背景的同时，能够适应不同类型的前景并保持前景的完整性。

Quantitative Result

作者利用人类评估者根据上述标准来评估生成结果。随后，作者计算了所有测试案例在美学和多样性上的平均分数。不良案例率是通过统计所有生成样本中的不良案例发生次数来确定的。在数据集上的定量结果展示在表1中。

如表1所示，作者框架所达到的美学分数和多样性分数优于开源模型和商业产品，同时实现了最低的不良案例率。值得注意的是，商业产品在多样性上的分数较低，这可能是因为它们为了可靠的结果而采用了固定的模板，但代价是牺牲了多样性。另一方面，开源模型可以提供相对较高的多样性，但往往产生不可靠的结果。作者的方法在确保可靠性的同时，提供了多样化的结果。

消融研究

为了评估作者框架设计的效果，作者对三个不同的模块和功能进行了消融研究，分别是提示生成模块、重绘模块和结果分析器。

提示生成模块

为了评估移除提示生成模块的影响，作者关闭了该模块，并为图像生成模块提供了一个通用的描述，如“一张照片”或“一个虚构的场景”。图5展示了有无提示生成模块的结果，指出了移除提示生成模块的影响。从图5作者可以得出，提示生成模块不仅为结果带来了多样性，而且在一定程度上帮助减轻了“过度想象”的发生：请见图5第四行的弓形。

重绘代理

为了评估重绘代理的重要性，作者将其从过程中排除，直接将模板图像输入到图像精修器中。图6展示了有无重绘代理的结果。如图所示，没有重绘代理的结果可能会表现出“过度想象”，而此工具有效地解决了由此产生的不一致性问题。

反馈机制

为了评估结果分析器的反馈循环的影响，作者将绕过它，直接在一次通过中评估图像生成模块的原始输出。图7展示了有无结果分析器反馈机制的结果。如图所示，最初，可能出现前景-背景不一致或不当的视角等问题。然而，经过结果分析器的迭代反馈后的结果，从之前的问题中学习，并产生了改进的成果。

5 Conclusion and Future Work

在本文中，作者介绍了一种新颖的多代理框架，用于健壮且多样的前景条件图像修复。作者的方法相较于最先进的方法，在不良案例率上降低了12%，在多样性得分上提高了0.16，在美学得分上提高了0.54。此外，与开创性的商业系统相比，作者的框架在不良案例率上减少了2%，在美学得分上提高了0.12，在多样性得分上提高了0.97，这代表着在前景条件图像修复领域取得了重大进展。

然而，作者的方法面临某些局限性。首先，它在前景物体包含透明或半透明组件（例如，玻璃杯，放大镜）时遇到困难。其次，结果分析器在预测与光照和阴影相关的图像合理性时遇到挑战，导致一些不满意的结果。随着VLM、LLM和图像生成器的进步，作者框架的结果可能会进一步改进。同时，作者将在未来的研究中通过优化 Pipeline 设计来努力提高作者方法在这些挑战上的处理能力。

参考

[1].Anywhere: A Multi-Agent Framework for Reliable and Diverse Foreground-Conditioned Image Inpainting.

pipeline 代理模型优化 LLM

0 人点赞

南大 & 吉大 & 移动 优化Pipeline设，VLM 和 LLM 助力提升物体图像修复效果 ！