CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Language Model Beats Diffusion -- Tokenizer is Key to Visual Generation
标题:语言模型战胜扩散——分词器是视觉生成的关键
作者:Lijun Yu, José Lezama, Nitesh B. Gundavarapu, Luca Versari, Kihyuk Sohn, David Minnen
文章链接:https://arxiv.org/abs/2310.05737
项目代码:https://rl-at-scale.github.io/
摘要:
虽然大型语言模型 (LLM) 是语言生成任务的主要模型,但它们在图像和视频生成方面的表现不如扩散模型。为了有效地使用 LLM 进行视觉生成,一个关键组件是视觉标记器,它将像素空间输入映射到适合 LLM 学习的离散标记。在本文中,我们介绍了 MAGVIT-v2,这是一种视频标记器,旨在使用通用标记词汇为视频和图像生成简洁且富有表现力的标记。配备了这个新的分词器,我们证明 LLM 在标准图像和视频生成基准(包括 ImageNet 和 Kinetics)上优于扩散模型。此外,我们证明我们的分词器在另外两项任务上超越了之前表现最好的视频分词器:(1)根据人类评估,视频压缩可与下一代视频编解码器(VCC)相媲美,以及(2)学习动作识别任务。
2.TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance
标题:TinyCLIP:通过亲和力模仿和权重继承进行 CLIP 蒸馏
作者:Kan Wu, Houwen Peng, Zhenghong Zhou, Bin Xiao, Mengchen Liu, Lu Yuan, Hong Xuan, Michael Valenzuela, Xi (Stephen)Chen, Xinggang Wang, Hongyang Chao, Han Hu
文章链接:https://arxiv.org/abs/2309.12314
项目代码:https://github.com/microsoft/Cream/tree/main/TinyCLIP
摘要:
在本文中,我们提出了一种新颖的跨模态蒸馏方法,称为 TinyCLIP,用于大规模语言图像预训练模型。该方法引入了两个核心技术:亲和力模仿和权重继承。亲和模仿探索了蒸馏过程中模态之间的相互作用,使学生模型能够模仿教师在视觉语言亲和空间中学习跨模态特征对齐的行为。权重继承将预训练的权重从教师模型传输到学生模型,以提高蒸馏效率。此外,我们将该方法扩展到多级渐进蒸馏,以减轻极端压缩期间信息权重的损失。综合实验证明了 TinyCLIP 的功效,表明它可以将预训练的 CLIP ViT-B/32 的大小减少 50%,同时保持可比较的零样本性能。在以可比较的性能为目标的同时,与从头开始训练相比,具有权重继承的蒸馏可以将训练速度加快 1.4 - 7.8 × 。此外,我们的 TinyCLIP ViT-8M/16 在 YFCC-15M 上训练,在 ImageNet 上实现了令人印象深刻的 41.1% 的零样本 top-1 准确率,比原始 CLIP ViT-B/16 提高了 3.5%,同时仅使用 8.9% 的参数。最后,我们展示了 TinyCLIP 在各种下游任务中良好的可移植性。代码和模型将在此 https URL 开源。
3.Ferret: Refer and Ground Anything Anywhere at Any Granularity
标题:Ferret:以任何粒度参考和接地任何地方的任何内容
作者:Haoxuan You, Haotian Zhang, Zhe Gan, Xianzhi Du, Bowen Zhang, Zirui Wang, Liangliang Cao, Shih-Fu Chang, Yinfei Yang
文章链接:https://arxiv.org/abs/2310.07704
项目代码:https://github.com/apple/ml-ferret
摘要:
我们引入了 Ferret,一种新的多模态大语言模型 (MLLM),能够理解图像中任何形状或粒度的空间指代,并准确地建立开放词汇描述。为了统一 LLM 范式中的引用和基础,Ferret 采用了一种新颖且强大的混合区域表示,将离散坐标和连续特征联合集成来表示图像中的区域。为了提取多功能区域的连续特征,我们提出了一种空间感知视觉采样器,擅长处理不同形状的不同稀疏性。因此,Ferret 可以接受不同的区域输入,例如点、边界框和自由形状。为了增强 Ferret 的所需功能,我们策划了 GRIT,这是一个全面的参考和基础指令调整数据集,其中包括 110 万个样本,其中包含丰富的分层空间知识,并具有 95K 硬负数据以提高模型的鲁棒性。由此产生的模型不仅在经典的参考和基础任务中实现了卓越的性能,而且在基于区域和本地化需求的多模态聊天中也大大优于现有的 MLLM。我们的评估还表明,描述图像细节的能力显着提高,物体幻觉也显着减轻。