文章推荐
AI简单提问就能实现学习弯道超车!如何使用AI加速学习?
一键生成PPT?讯飞智文2.0迎来重磅升级!马斯克宣布人工智能模型Grok 2测试版即将发布
今日热点
Google制造2024:通过Gemini、Android和Pixel产品组合,将最好的Google AI带给更多人和更多手机
在第九届Made by Google活动上,谷歌分享了如下与AI有关的内容:
Gemini让你的移动设备成为强大的AI助手
Gemini Live是谷歌针对OpenAI高级语音模式推出的一款产品,其功能与ChatGPT几乎相同,之前一直处于测试阶段的Gemini Live,目前可以与Gemini进行自由对话,以英语向Android手机上的高级订阅者开放。
另一方面,Gemini可以与目前所使用的Google应用和工具一起帮助用户完成任务。无需用户在应用和服务之间切换。
新款Pixel 9系列设备带来Google AI的最佳功能
通话记录总结了您的对话。Pixel 9系列设备提供通话记录功能,可保存通话后的对话摘要。详细信息文字记录均保存到手机通话记录中。
Pixel Studio是Pixel 9、Pixel 9 Pro和Pixel 9 Pro Fold设备独有的一款图像生成应用,Pixel Studio可让您输入提示来生成任何让您产生创意的东西,并在事后添加贴纸并进行编辑和更改。
Pixel Screenshots使用AI分析屏幕截图的内容,包括任何捕获的文本、人物和物体,并且还可以在照片中搜索门禁密码和地址等信息。
https://blog.google/products/platforms-devices/made-by-google-2024-collection/
xAI正式发布Grok-2,在X上添加图像生成功能
埃隆·马斯克旗下的Grok-2和Grok-2 mini今日发布测试版,其推理能力有所提升。
xAI在关于Grok-2的博客文章表示:Grok-2比型号Grok-1.5有更重大的进步,具有聊天、编码和推理方面的前沿功能。同时,xAI推出了Grok-2 mini,它是Grok-2 的一款体型虽小但功能强大的兄弟产品。
新的Grok AI模型现在可以在X社交网络上生成图像,不过Grok的访问权限目前仅限于X上的Premium和Premium 用户。
用户生成的早期图像表明,Grok 的图像生成功能在创建政治人物图像方面没有任何限制,许多用户正在用这一点生成在其他平台无法生成的图片。
然而,随着美国总统大选的临近,该公司可能会面临对这些功能进行限制的压力。
https://x.ai/blog/grok-2
Cosine AI推出Genie,称其为迄今为止世界上最好的AI软件工程师
Cosine AI称推出的Genie是迄今为止世界上最好的 AI 软件工程师。Genie能够完全自主地或与用户配对,解决错误、构建功能、重构代码等,就像与同事一起工作。
Cosine AI采取与竞争对手完全不同的方法:如果用户希望模型表现得像软件工程师,就需要教会它人类工程师的工作方式。
这种方法让Cosine AI能够构建出像人类软件工程师一样行事的产品。
Cosine AI设计了新技术,从软件工程师工作的真实例子中获取人类推理。其数据代表了代表了人类工程师逻辑上所做的一切。
通过这个数据集训练模型,Cosine AI不再只是生成随机代码直到某些代码起作用,而是像人类一样解决问题。
https://cosine.sh/blog/state-of-the-art
我国完成备案并上线、能为公众提供服务的生成式AI服务大模型达180多个
据“工信微报”消息,在日前召开的第十二届互联网安全大会上,中央网络安全和信息化委员会办公室副主任、国家互联网信息办公室副主任王京涛介绍,截至目前,我国已经完成备案并上线、能为公众提供服务的生成式人工智能服务大模型达180多个,注册用户数已突破5.64 亿。
据介绍,近年来我国人工智能发展取得显著成效。
一方面,初步构建了较为全面的人工智能技术产业体系,相关企业超过 4500 家,产业规模持续扩大;
另一方面,人工智能与实体经济融合不断深化,人工智能应用加速探索,建成 2500 多个数字化车间和智能工厂,经过人工智能改造,研发周期平均缩短 20%,生产效率提升 35%。
同时,人工智能也在加速政务、金融、能源等领域的数字化进程。
https://www.ithome.com/0/788/008.htm
阿里通义宣布开源音频语言模型Qwen2-Audio
为了实现构建AGI系统的目标,模型应该能够理解来自不同模态的信息。阿里通义发布Qwen-Audio的下一个版本Qwen2-Audio,它能够接受音频和文本输入并生成文本输出。
Qwen2-Audio具有以下特点:
- 语音聊天:用户首次可以使用语音向无需ASR模块的音频语言模型发出指令。
- 音频分析:该模型能够分析音频信息,包括语音、声音、音乐等,并附带文本指令。
- 多语言:该模型支持8种以上的语言和方言,例如中文、英语、粤语、法语、意大利语、西班牙语、德语和日语。
在不久的将来,阿里通义计划在更大的预训练数据集上训练改进的 Qwen2-Audio 模型,使模型能够支持更长的音频(超过 30 秒)。
阿里通义还计划构建更大的Qwen2-Audio模型,以探索音频语言模型的缩放规律。
https://qwenlm.github.io/blog/q