Transformers 4.37 中文文档（八十五）

原文：huggingface.co/docs/transformers

CLIPSeg

原始文本：huggingface.co/docs/transformers/v4.37.2/en/model_doc/clipseg

概述

CLIPSeg 模型是由 Timo Lüddecke 和 Alexander Ecker 在使用文本和图像提示进行图像分割中提出的。CLIPSeg 在冻结的 CLIP 模型之上添加了一个最小的解码器，用于零样本和一样本图像分割。

论文摘要如下：

图像分割通常通过训练一个固定对象类别的模型来解决。随后合并额外类别或更复杂查询是昂贵的，因为需要在包含这些表达的数据集上重新训练模型。在这里，我们提出了一个系统，可以根据测试时的任意提示生成图像分割。提示可以是文本或图像。这种方法使我们能够为三种常见的分割任务创建一个统一的模型（仅训练一次），这些任务具有不同的挑战：指代表达分割、零样本分割和一样本分割。我们基于 CLIP 模型作为骨干，扩展了一个基于 transformer 的解码器，实现了密集预测。在扩展的 PhraseCut 数据集上训练后，我们的系统可以根据自由文本提示或表达查询的附加图像为图像生成二进制分割图。我们详细分析了不同变体的基于图像的提示。这种新颖的混合输入不仅可以动态适应上述三种分割任务，还可以适应任何可以制定文本或图像查询的二进制分割任务。最后，我们发现我们的系统能够很好地适应涉及功能或属性的广义查询

CLIPSeg 概述。取自原始论文。

这个模型是由nielsr贡献的。原始代码可以在这里找到。

使用提示

CLIPSegForImageSegmentation 在 CLIPSegModel 之上添加了一个解码器。后者与 CLIPModel 相同。
CLIPSegForImageSegmentation 可以根据测试时的任意提示生成图像分割。提示可以是文本（作为input_ids提供给模型）或图像（作为conditional_pixel_values提供给模型）。还可以提供自定义的条件嵌入（作为conditional_embeddings提供给模型）。

资源

列出了官方 Hugging Face 和社区（由

函数模型配置索引语音

0 人点赞