AI Agent涌向移动终端,手机智能体开启跨端跨应用业务连接新场景

2024-03-07 02:19:02 浏览数 (2)

  • AI Agent涌向移动终端,手机智能体势不可挡
  • 还没搞清楚什么是AI Agent,手机Agent就已经横空出世
  • AIGC为何涌向移动端?背后有哪些逻辑?什么是手机智能体?一文看明白
  • 科技大厂、手机厂商、企服领域都在发力,手机智能体成AI Agent新趋势
  • AI Agent迎来移动端大爆发,手机智能体将成企业AIGC新标配
  • AI Agent移动应用大升级,手机智能体开启跨端跨应用业务连接新场景

文/王吉伟

春节期间OpenAI推出的AI视频模型Sora火出天际,到处都是文生视频模型如何厉害如何改变真实世界的信息,以至于OpenAI在AI Agent方面的最新动向都被掩盖了。

春节前的2月8日,科技媒体The Information报道OpenAI正开发两款革命性的Agent软件,其中一款能够有效接管客户的设备来自动执行复杂的任务。

据说,这个Agent能够自动执行点击、光标移动、文本输入等操作,与人类操作软件无异。例如,把文档中的数据传输到电子表格中进行分析,或者自动填写费用报告并将其输入会计软件,或者根据一定的预算制定行程或预订机票。

这个能够直接操纵个人电脑自动完成各种任务的智能体,现在被更多媒体称作AI Agent 2.0。

这些报道没有具体说明这款Agent所接管的设备是PC还是手机,不过ChatGPT有移动端,能够在手机或者平板上调用这个Agent是迟早的事。

想要在移动端构建AI Agent的大语言模型(LLM,Large Language Models)厂商,远不止OpenAI这一家。

去年12月,腾讯与德州大学达拉斯分校合作推出了一个名为AppAgent的项目。该项目可以通过自主学习和模仿人类的点击和滑动手势,在手机上执行各种任务。

项目地址: https://github.com/mnotgod96/AppAgent

论文地址: https://arxiv.org/abs/2312.13771

包括在社交媒体上发帖、帮助用户撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑。AppAgent在50个任务上进行了广泛测试,涵盖了10种不同的应用程序。

2月初,阿里巴巴与北京交通大学联合推出了一款全新的手机操作智能体框架Mobile-Agent。该框架的核心优势在于其纯视觉解决方案。传统的手机操作方式往往需要依赖XML等标记语言以及系统元数据,而Mobile-Agent则完全摒弃了这些需求。

项目地址: https://github.com/X-PLUG/MobileAgent

论文地址: https://arxiv.org/abs/2401.16158v1

这意味着,用户无需进行复杂的设置或修改,只需通过直观的视觉指示即可完成操作。

除了科技大厂,LLM创业团队也推出了相应的Agent项目。比如在去年12月,清华&智谱AI团队推出的CogAgent-Chat。CogAgent是一个基于180亿参数规模的视觉语言模型(VLM)的图形用户界面(GUI)智能体,专注于GUI图形交互界面的理解和导航。

0 人点赞