“ 微软发布了具备视觉功能的 GPT-4V 模型相关的研究报告,详细探究了这一模型在不同领域和任务上的卓越表现。该报告涵盖了广泛的视觉和视觉语言场景,包括图像描述、多模态知识、场景文本理解以及情感理解等。这一重要的里程碑标志着大型模型的快速发展,同时也引领了新的人机交互方法,将机器的自主行动和推理能力带入了百姓的日常生活。”
01、上个月底,OpenAI发布了具有视觉功能的GPT-4V(ision)。几天后,微软发布了关于这个模型的研究报告。
今天分享的这个报告是中英文对照版,文件比较大,56.9M,放在公众号的「AI学习资料」网盘,关注公号后,自动发送网盘链接,《微软_GPT4v_双语对照》在“8.AI模型介绍”部分。
报告重点探索了GPT-4V 在不同领域和任务上的能力质量和通用性。
第 4 节提供了涵盖广泛视觉(a wide range of vision)和视觉语言场景(vision-language scenarios)的全面分析。
包括不同领域的图像描述和识别、密集视觉理解(dense visual understanding)、多模态知识(multimodal knowledge)、常识(commonsense)、场景文本理解(scene text understanding)、文档推理(document reasoning)等等。
第 6 节研究 GPT-4V 在时间(temporal)、动画(motion)和视频理解(video understanding)方面的能力。第 7 节探讨抽象视觉理解(abstract visual understanding)和推理能力(reasoning capability)。
第 8 节则研究了情绪(emotion)和情感理解(sentiment understanding)。
第10节设想了可以基于GPT-4V构建的强大的未来系统,例如多模态插件(multimodal plugins)、多模态链(multimodal chains)、自我反思(self-reflection)、自我一致性(self-consistency)和检索增强(retrieval-augmented)的LMM等。
02、感觉大模型发展得太快,相应模型评测的标准都快跟不上了。
前一阵刚刚看过多模态的评估标准:《MM-Vet的多模态评估标准如何评估大型多模态模型(LMM)在复杂任务上的表现》,这次就在微软的报告中看到了这个评估标准的一个评估项:“空间关系的理解 - 人比车大吗?”
在我看来,具有视觉功能的GPT4V,一项重要的里程碑意义就是开创了新的人机交互方法。
从计算机诞生起,从打孔的纸带开始,到可以接受键盘字符和语音指令的输入。而到了大模型时代,机器可以直接接受视觉的输入,并产生相应的逻辑、推理以及反馈。
GPT4V给大模型装上了眼睛,如果给它一个物理世界的躯体,可控制的身体部位以及各种工具,使得它可以去影响真实的物理世界,它能做什么?它会做什么?
而这一点的实现,也进一步证实了《大模型应用发展的方向|代理 Agent 的兴起及其未来(上)》文章中提到,具有较强自主行动和推理能力的机器人走入百姓平常生活。
嗯,当然,也有另外一种可能。。。。。。
阅读推荐:
StreamingLLM 框架:利用最新标记让 AI 记住你的话、创作长篇小说,探索无限长度文本
大规模语言模型从理论到实践:模型基础、数据、强化学习、应用、评估
AI技术的思考与实践:AI大模型、技术细节、应用发展
AI大模型LLM可以帮助企业做什么?
推荐一个金融分析的开源大模型项目FinGLM
大模型应用发展的方向|代理 Agent 的兴起及其未来(下)
推荐三个搭建专有知识库 大模型智能助手开源项目
国外报告90%的AI类产品公司已经实现盈利,而国内大模型和AIGC的访谈说太卷了