从奥运梗图,实测明星产品MiniCPM-V 2.6

2024-08-12 23:55:18 浏览数 (2)

这次巴黎奥运会,奥运健儿创造历史的速度太快了,导致每天早上都会有不同的热搜,普通人根本就看不过来。除了关注奥运健儿在赛场上的表现之外,本次巴黎奥运会最出圈的可能就要数各种名场面的出现了。

比如开幕式中的各种各样的梗图,看得网友知乎过瘾

这些梗图的流传,给广大网友带来了无尽的欢乐与娱乐。它们不仅展示了网友们丰富的创意和幽默感,还成为了人们交流的一种新方式。因此,这次就用奥运会的梗图,来测试一下最近比较火爆的明星产品MiniCPM-V 2.6。

MiniCPM-V2.6是面壁智能新开源的端侧多模态模型,它参数量仅有8B,但是在对比20B以下其他大模型中,其单图、多图、视频理解等三项能力都获得了SOTA(State of the Art,即当前最佳水平)的成绩。这个成绩已经能够比肩目前最火的多模态大模型GPT-4o

总结起来它有以下特点:

  • 最前的端侧多模态模型:单图、多图、视频理解等三项能力都获得了SOTA,超越GPT-4V
  • 最高多模态像素密度:类比知识密度,MiniCPM-V2.6取得了两倍于 GPT-4o 的单 token 编码像素密度(token density)
  • 易于部署可用:量化后端侧 6G 内存可用;端侧推理速度达 18 tokens / s,相比上代模型快 33%。

奥运梗图实测

1.奥运开模式的《最后的晚餐》

首先让我们测试一下下面这张图片,图片中反映了两个不同时代的女性形象。2024年奥运会开模式时的这张图片,被网友称为《最后的晚餐》

MiniCPM-V 2.6和GPT-4o都能够很好的识别出这张图片是由两个图片进行对比。同时他们都认为这种变化展示了文化的多样性。

在进一步询问到:“这是一种进步,还是一种倒退?”的时候,MiniCPM-V 2.6认为这是一种进步思想的体现:

这种变化可以进步,因为现代奥运会展示了对包容性和多样性的承诺。

这种回答很有zzzq的意味,看来MiniCPM-V 2.6数据集中应该也包含了很多国外的训练数据集,导致目前的回答思维逻辑偏向于西方的思维。

而GPT-4o秉承着“一碗水端平”的思想

0 人点赞