openai官方在11月6日的开发者大会上公布了一些消息,概括起来如下图:
(感谢这位网友的提炼)
我感兴趣的多模态支持了,于是动手做demo体验了下。
因为是接口调用方式,所以十几二十分钟就能做出demo,马上拿最近很火的一个游戏的宣传图测试一下。
不得不说,是真的厉害,比如:
这张它能力理解到其中的幽默。
这张它猜到了是音乐专辑封面,且把艺术字读出来了。
这张他还能说出风格和故事剧情的关系。
对实物理解也很到位。
测试了下一些网页截图,他很容易准备读出相关的数字。
对一些游戏的截图也能理解到关键点。
对流程图能识别,但逻辑不一定到位。
对思维导图理解得倒是很准确。
总得来说,相当厉害了。接下来简单mark一下技术侧如何调度:
方法很简单,用的是原来的chat接口,只不过在构造message参数时用这种方式传图,且前只有gpt-4-vision-preview模型支持多模态。
另外提醒下,目前每个openai key对应的gpt-4-vision-preview模型有每天调用次数限制的,一天100次,用完就报错。
而资费方面,这次官方直接降价到原来gpt4的三分之一,多模态上传时,图片也要折算到token里,大致的折算方式如下:
算下来,也还好。
但目前gpt-4-vision-preview还不能直接用,应该只是用于预览和体验功能。
期待未来正式版。