多模态大模型技术原理及实战(5)

国内外多模态大模型对比

国内

LLaMA-Adapter V2

香港中文大学

双语输出

输入

•图像

•语音

•文本

•视频

• 3D 点云

起源：LLaMA-Adapter

•在线性层上进行偏差调整

•提出了一种简单的早期融合策略。旨在阻止输入视觉提示与自适应提示直接相互作用，产生负面影响

•利用字幕、检测和 OCR ( Optical Character Recognition，光学字符识别)等专家系统来增强视觉指令遵循能力。

VisualGLM-6B

清华大学

输入

•图形

•中英文

训练模型

•BLIP2-Qformer

•Qformer：轻量级Transformer

62亿个参数

基模型：ChatGLM

•产生

• KEG 实验室

•智谱 AI

•VisualGLM-6B基于 ChatGLM4处改进

•1、重新调整归一化和残差连接的顺序，可以有效地防止数字错误

•2、仅使用单一的线性层来输出令牌预测。

•3、用 GeLU 激活函数取代了 ReLU 函数。

•4、ChatGLM-6B 在 GLM 框架下，专门针对中文问答和对话进行了优化

mPLUG-Owl

阿里巴巴达摩研究院

2023年5月

架构

•视觉基础模块(采用开源的VTL-L)

•视觉抽象模块

•预训练的语言模型(LLaMA-7B)

支持输入

•图片

•英文

•视频

基模型： LLaMA

国外

Visual ChatGPT

微软亚洲研究院

2023 年 3 月9 日

在文本和图像之与 ChatGPT并执行更复杂的视觉命令

基模型： ChatGPT

22个视觉模型的知识

InstructBLIP

BLIP 模型的研究团队

MiniGPT-4

开放源代码的聊天机器人

组成

•1、带有预训练的 VT 和 QFormer 视觉编码器

•2、单独的线性层。

•3、 Vicuna LLM。

多模态大模型评测数据集

国内评测数据集

OwlEval

•基于mPLUG-Owl模型发布

• 包含

•50 张图片

•82 个回题

•功能

•故事生成

•广告生成

•代码生成

MME

•开发

•腾讯优图实验室

•厦门大学

国外评测数据集

COCO：Common Objects in Context

•微软

•检测任务

• Object Detection ( 主要用于目标检测 )

•DenscPosc(主要用于姿态密度检测 )

•Key points( 主要用于关键点检测）

•Stuff(主要用于其他物品检测，处理草、墙、天等 )

•Panoptic ( 王要用于场景分割）

•Captions(主要用于字幕标注)

VQA(Visual Question Answer，视觉问答 )

•图像的开放式问题

•265 016张图片。

•结构

•265 016张图片

•每张图片至少有 3 个问题(平均 5.4个每个问题）

•每个问题

•有 10 个基本事实答案

•有 3 个合理(但可能不正确)的答案

多模态大模型的评测标准

国内评测标准

OwIEva

•人工标注

•A=“正确且令人满意"

•B=“有一些不完美，但可以接受”

•C-“理解了指令但是回复内容存在明显错误”

•D=“完全不相关或者不正确的回复内容”

MME

•二分类的“是”或“否”

•精度 (Accuracy)

•精度 (Accuracy )

国外评测标准

CoCo

•采用

•mAP (mean Average Precision.平为精度的平均值)

•AP (Average Precision，平均精度)

目标检测领域

•lOU(用交并比 Intersection Over Union)

•第一种方法是将 IOU以0.5到0.95设置0.05的间隔，分别计算出 mAP，最后平均数

•第二种方法是根据IOU分别为0.5和0.75的阀值来计算特定的平均精度

•还在对不同尺寸物体的多个 mAP，它们分别表示小物体、中等物体和大物体

•平均召回率Average Recall，AR)也是一种常见的度量方式。

VQA 数据集

• PLCC (Pearson Linear Correlation Coefficient，皮尔逊线性相关系数 )

•SROCC(Spearman Rank Order Correlation Coefficient，斯皮尔曼秩相关系数)

•KROCC( Kendall Rank Order Correlation Coefficient，肯德尔秩相关系数)

•RMSE( Root Mean Square Error,均方根误差 )

多模态大模型对比

感知能力评测

排名

•1 BLIP-2 1293.84

•2 InstructBLIP 1212.82

•3 LLMAAdapter-V2 972.67

•4 mPLUG-Owl 967.35

•5 LaVIN 963.61

粗粒度识别任务

•判断(Existence )

•计数( Count)

•位置判断( Position)

•颜色识别 (Color)

细粒度识别任务

•海报识别 (Poster)

•名人识别(Celebrity)

•场景识别(Scene )

•地标识别(Landmark)

•艺术品识别(Artwork)

认知能力评测

即识推理 (Commonsense Reasoning)。

数值计算( Numerical Calculation )

文本翻译(Text Translation）

代码推理(Code Reasoning)

函数模型视频数据原理

0 人点赞