原文:
huggingface.co/docs/transformers
GroupViT
原文:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/groupvit
概述
GroupViT 模型是由 Jiarui Xu、Shalini De Mello、Sifei Liu、Wonmin Byeon、Thomas Breuel、Jan Kautz、Xiaolong Wang 在GroupViT: Semantic Segmentation Emerges from Text Supervision中提出的。受 CLIP 启发,GroupViT 是一种可以对任何给定词汇类别执行零调校语义分割的视觉语言模型。
论文摘要如下:
分组和识别是视觉场景理解的重要组成部分,例如目标检测和语义分割。在端到端深度学习系统中,图像区域的分组通常是通过来自像素级别识别标签的自上而下监督隐式发生的。相反,在本文中,我们提出将分组机制重新引入深度网络中,这允许语义段仅通过文本监督自动出现。我们提出了一种分层分组视觉 Transformer(GroupViT),它超越了常规的网格结构表示,并学会将图像区域分组成逐渐变大的任意形状的段。我们通过对比损失在大规模图像文本数据集上联合训练 GroupViT 和文本编码器。仅通过文本监督且没有任何像素级注释,GroupViT 学会将语义区域组合在一起,并成功地以零调校的方式转移到语义分割任务,即无需进一步微调。在 PASCAL VOC 2012 数据集上实现了 52.3%的零调校 mIoU 准确率,在 PASCAL Context 数据集上实现了 22.4%的 mIoU,并且与需要更高级别监督的最先进的迁移学习方法竞争力相当。
该模型由xvjiarui贡献。TensorFlow 版本由ariG23498与Yih-Dar SHIEH、Amy Roberts和Joao Gante的帮助下贡献。原始代码可以在这里找到。
使用提示
- 您可以在
GroupViTModel
的前向传递中指定output_segmentation=True
以获取输入文本的分割 logits。
资源
一系列官方 Hugging Face 和社区(由