Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1

2024-07-01 15:01:56 浏览数 (1)

纽约大学的谢赛宁教授和Yann LeCun团队最近发布了一种开源的多模态大型语言模型(MLLM),名为“Cambrian-1”。这一研究重点探讨了视觉表征学习对于理解语言的重要性,并提出了一种以视觉为中心的方法来设计多模态模型。该团队全面开源了模型权重、代码、数据集以及详细的指令微调和评估方法,这一举措在学术界和工业界均引起了广泛关注。

寒武纪1号的开发是基于一种认识,即视觉感知的提高对于动物(包括人类)的演化至关重要。同样,在AI领域,强化视觉表征的能力被认为能够显著增强模型处理复杂任务的能力。谢赛宁教授和LeCun教授的团队通过将现代多模态学习理论与视觉表征研究相结合,推出了这一新的多模态语言模型。

Cambrian-1的设计围绕五个关键方面:视觉表征、连接器设计、指令微调数据、指令调优配方和基准测试。其中,视觉表征探索了不同的视觉编码器及其组合,连接器设计引入了一种新的动态空间感知连接器,这种连接器可以将多个模型的视觉特征与LLM集成在一起。

此外,该团队还介绍了一个全新的以视觉为中心的基准测试CV-Bench,用于评估视觉表征的效果。这一基准测试通过VQA(视觉问答)格式,更好地指导未来视觉表征的开发。

论文的一作Shengbang Tong是马毅教授以前在伯克利带的学生,目前在NYU读博士一年级。他表示,这个模型是在过去几个月借助谷歌的TPU训练的,显示了从业界到学术界的无缝合作的可能性。

这项研究的实施不仅提高了视觉表征的能力,还推动了多模态学习的研究前沿。这种新的多模态大语言模型在处理视觉和语言的交互任务中表现出了卓越的性能,可能会成为未来AI研究的一个重要方向。

0 人点赞