原文:
huggingface.co/docs/transformers
X-CLIP
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/xclip
概述
X-CLIP 模型是由 Bolin Ni、Houwen Peng、Minghao Chen、Songyang Zhang、Gaofeng Meng、Jianlong Fu、Shiming Xiang、Haibin Ling 在扩展语言-图像预训练模型以用于通用视频识别中提出的。X-CLIP 是对视频的 CLIP 的最小扩展。该模型包括文本编码器、跨帧视觉编码器、多帧集成 Transformer 和视频特定提示生成器。
论文摘要如下:
对比语言-图像预训练在从网络规模数据中学习视觉-文本联合表示方面取得了巨大成功,展示了在各种图像任务中出色的“零样本”泛化能力。然而,如何有效地将这种新的语言-图像预训练方法扩展到视频领域仍然是一个悬而未决的问题。在这项工作中,我们提出了一种简单而有效的方法,将预训练的语言-图像模型直接适应于视频识别,而不是从头开始预训练一个新模型。更具体地说,为了捕捉沿时间维度的帧之间的长距离依赖关系,我们提出了一个跨帧注意机制,明确地在帧之间交换信息。这种模块轻量级且可以无缝地插入预训练的语言-图像模型中。此外,我们提出了一个视频特定的提示方案,利用视频内容信息生成具有区分性的文本提示。大量实验证明我们的方法是有效的,并且可以推广到不同的视频识别场景。特别是,在完全监督的设置下,我们的方法在 Kinectics-400 上实现了 87.1%的 top-1 准确率,与 Swin-L 和 ViViT-H 相比,FLOPs 减少了 12 倍。在零样本实验中,我们的方法在两种流行协议下的 top-1 准确率方面超过了当前最先进的方法 7.6%和 14.9%。在少样本场景下,我们的方法在标记数据极为有限时,比以前最佳方法提高了 32.1%和 23.1%。
提示:
- X-CLIP 的使用与 CLIP 相同。
X-CLIP 架构。摘自原始论文。
该模型由nielsr贡献。原始代码可以在这里找到。
资源
以下是官方 Hugging Face 和社区(由