它能看到东西了-动手体验GPT的多模态API

2023-11-09 18:41:33 浏览数 (1)

openai官方在11月6日的开发者大会上公布了一些消息,概括起来如下图:

(感谢这位网友的提炼)

我感兴趣的多模态支持了,于是动手做demo体验了下。

因为是接口调用方式,所以十几二十分钟就能做出demo,马上拿最近很火的一个游戏的宣传图测试一下。

不得不说,是真的厉害,比如:

这张它能力理解到其中的幽默。

这张它猜到了是音乐专辑封面,且把艺术字读出来了。

这张他还能说出风格和故事剧情的关系。

对实物理解也很到位。

测试了下一些网页截图,他很容易准备读出相关的数字。

对一些游戏的截图也能理解到关键点。

对流程图能识别,但逻辑不一定到位。

对思维导图理解得倒是很准确。

总得来说,相当厉害了。接下来简单mark一下技术侧如何调度:

方法很简单,用的是原来的chat接口,只不过在构造message参数时用这种方式传图,且前只有gpt-4-vision-preview模型支持多模态。

另外提醒下,目前每个openai key对应的gpt-4-vision-preview模型有每天调用次数限制的,一天100次,用完就报错。

而资费方面,这次官方直接降价到原来gpt4的三分之一,多模态上传时,图片也要折算到token里,大致的折算方式如下:

算下来,也还好。

但目前gpt-4-vision-preview还不能直接用,应该只是用于预览和体验功能。

期待未来正式版。

0 人点赞