这更新速度简直了~ openai研发人员原来每天在干这个......
只有你想不到,没有ChatGPT做不到。
根据 OpenAI 官网宣布:ChatGPT 即将推出新的语音和图像功能,并将于未来两周内面向 Plus 和 Enterprise 用户推出。另外语音功能也将在 iOS 和 Android 上推出(可在设置中选择加入),而图像功能将在所有平台上推出。
前两天我们讲,ChatGPT 也有自己的绘画板块,现在不光能画,还能“看、听和“说话”。
如何使用新语音和图像功能
你设想这样一种场景,在国庆旅游时,你看到一些好的风景和地标性建筑的照片,你可以与ChatGPT 聊聊其有趣之处。
亦或是拍下冰箱里的照片,让GPT给你设计出晚餐的菜谱
吃完晚饭,你在帮孩子做一道数学题,可以拍下来让ChatGPT给出提示并帮助孩子解决问题
通过语音和ChatGPT对话
据介绍,ChatGPT 新增的语音功能由一个新文本到语音模型提供支持,能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”,OpenAI 也请了专业配音演员合作创作了 5 种声音。与此同时,OpenAI 还用了其开源语音识别系统 Whisper 将语音转录为文本。
因此整体上来说,ChatGPT 的这个语音功能,使用方法跟手机上的语音助手类似,即用户点击按钮说话,ChatGPT 就会自动将其转换为文本,然后生成对应回答并将其转为语音。
如果你想使用语音功能,可以在手机的 ChatGPT App 的“设置”中找到“新功能”,选择“语音对话”后,点击屏幕右上角的耳机按钮,即可从 5 种不同的声音中选择你最喜欢的声音,进行来回对话。
视频:http://mpvideo.qpic.cn/0b2emuabgaaaqaamckqwo5svazodcnsqaeya.f10002.mp4?
(本视频来源于CSDN)
除此之外,ChatGPT 还支持把已有文字转为对应语音,用户可下载这段语音或对其进行调速。
用图像向GPT提问
想使用 ChatGPT 图像功能的用户,可点击照片按钮拍照或选择本地图片,如果你使用的是 iOS 或 Android 系统,可点击加号按钮进行选择。
OpenAI 表示新增的图像功能由多模态 GPT-3.5 和 GPT-4 模型支持,可将语言推理能力应用于各种图像,如照片、屏幕截图以及包含文字和图像的文档。该功能上线后,用户可在提问中向 ChatGPT 展示一张或多张图片。如果想让 ChatGPT 注意到图片中的特定部分,也可以使用 App 中的绘图工具进行标注。
参考链接:
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
https://news.ycombinator.com/item?id=37642335
https://mp.weixin.qq.com/s/-Y-Fso5tgpHQ8C2w-G6CIQ
推荐阅读 点击标题可跳转
- Tkinter绘制股票K线图
- Python 制作疫情信息查看工具
- 用 Python 制作一个桌面宠物,好玩!
- Tkinter制作股票数据抓取小程序,有点秀!