最新 最热

利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !

细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细...

2024-07-31
1

OpenSU3D 利用2D基础模型,构建实例级3D场景表示,超越当前所有3D场景理解水平!

人工智能技术的迅速发展已经引发了一系列社会、经济和文化变革。在众多领域中,这项技术已经成为了创新和增长的关键驱动力。然而,随着人工智能技术的广泛应用,作者也必须面对一系列挑战和问题。本文将探讨人工智能技...

2024-07-31
1

HLO:通过 Hadamard 低秩量化快速高效地反向传播,解决了大型多模态模型在理解长视频时所面临的调整!

到目前为止,大多数模型优化的努力都集中在降低推理成本上,而对模型训练成本的重视较少,因为这些成本只需承担一次。虽然优化重复使用的推理过程至关重要,但由于训练优化必须满足更具挑战性的条件,因此相对而言被忽视了。在...

2024-07-31
1

浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !

近期大型语言模型(LLM)的进展显著提高了它们在各类自然语言处理任务中的性能。这些模型能够进行语言理解和逻辑推理,使它们能够处理复杂的语言功能,如总结文本、回答问题、处理对话以及撰写新的文章或论文。然而,LLM本质上...

2024-07-31
1

斯坦福提出 ExPLoRA 高效扩展预训练 Transformer 在无监督领域的突破 !

预训练基础模型[1]用于自然语言和自然图像在历史上一直是计算密集型的,通常仅限于拥有大量资源的组织。然而,近期参数高效微调(PEFT)技术的进步,包括低秩适应(LoRA)等,激发了极大的兴趣。这些方法旨在基于这样的假设:对预训练...

2024-07-31
1

当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !

大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航...

2024-07-31
1

NODE-Adapter:神经常微分方程助力更优视觉-语言推理!

这些挑战将阻碍它们将视觉-语言模型(VLMs)适应于下游任务的能力。受到这一关键观察的启发,作者提出了一种新颖的方法,称为NODE-Adapter,该方法利用神经常微分方程进行更优的视觉-语言推理。为了充分利用视觉和文本模态,并更...

2024-07-31
1

Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!

大规模预训练是人工智能领域的一种领先方法,通用型模型(如大型语言模型和多模态模型)已经在许多任务中超过了专业深度学习模型的表现。大型语言模型(LLM)的卓越能力激发了人们将它们与其他基于模态的模型融合以增强多模态...

2024-07-31
1

基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!

异常检测(AD),识别不规则或显著偏离正常性的实例,在多个领域中都是一个积极研究的课题。在标准的视觉AD基准测试中,"不规则性"通常由以下因素引起:高 Level (或语义)变化,如出现未见过的类别目标;物体上的缺陷,如划痕、凹痕;颜色...

2024-07-31
1

中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !

近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率处理图像,通常是,这限制了它们捕捉详细视觉信息的能力。这种局限性常常导致对...

2024-07-31
1