胡晓萌、陈楚仪 腾讯研究院
AI Agent无疑是当下大模型最激动人心的发展主线,被称为“大模型下一场战事”“最后的杀手产品”“开启新工业革命时代的Agent-centric”。11月7日,OpenAI首届开发者大会(OpenAI DevDay)引爆了AI Agent。OpenAI发布了AI Agent初期形态产品GPTs,并推出了相应的制作工具GPT Builder。用户仅仅通过跟GPT Builder聊天,把想要的GPT功能描述一遍,就能生成专属GPT。专属GPT可以在日常生活、特定任务、工作或家庭中更为适用。为此,OpenAI还开放了大量的新API(包括视觉、图像DALL·E3、语音),以及新推出的Assistants API,让开发者可以更便捷地开发自己专属的GPT。比尔·盖茨最新发表一篇文章明确提出,5年内AI Agent将大行其道,每个用户都将拥有一个专属AI Agent。用户不需要再因为不同的功能需求而使用不同的APP,他只需用日常语言告诉他的Agent想做什么就可以。[1]
GPTs发布后在一周内,已经累计超过17500多个
那么,AI Agent究竟是什么?为什么如此重要,以至于业界有这么高的关注度,甚至有学者断言“美国Agent Store(智能体商店)发展得好,这会令中美大模型差距持续拉大”[2]
AI Agent是什么?
在计算机、人工智能专业技术领域,一般将agent译为“智能体”,其定义是在一定的环境中体现出自治性、反应性、社会性、预动性、思辨性(慎思性)、认知性等一种或多种智能特征的软件或硬件实体。[3]
OpenAI将AI Agent定义为,以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。[4]AI Agent基本框架如下图:
基于LLM驱动的Agent基本框架[5]
它具有记忆、规划、行动和使用工具四个主要模块:
(1)记忆(Memory)。记忆模块负责存储信息,包括过去的交互、学习到的知识,甚至是临时的任务信息。对于一个智能体来说,有效的记忆机制能够保障它在面对新的或复杂的情况时,调用以往的经验和知识。例如,一个具备记忆功能的聊天机器人可以记住用户的偏好或先前的对话内容,从而提供更个性化和连贯的交流体验。它分为短期记忆和长期记忆:a.短期记忆,所有的上下文学习都是利用短期记忆来学习;b.长期记忆,这为智能体提供了长时间保留和回忆(无限)信息的能力,通常是通过利用外部向量数据库和快速检索,比如某个行业领域沉淀的大量数据和知识。有了长期记忆,很多数据可以被积累下来,使得智能体的可用性更加强大,更具行业深度、个性化、能力专业化等优势。
(2)规划(Planning)。规划模块具有事前规划和事后反思两个阶段。在事前规划阶段,这里涉及对未来行动的预测和决策制定,如执行复杂任务时,智能体将大目标分解为更小的、可管理的子目标,从而能够高效地规划一系列步骤或行动,以达到预期结果。在事后反思阶段,智能体具有检查和改进制定计划中不足之处的能力,反思错误不足并吸取经验教训进行完善,形成和加入长期记忆,帮助智能体之后规避错误、更新其对世界的认知。
(3)工具使用(Tool use)。工具使用模块指的是智能体能够利用外部资源或工具来执行任务。如学习调用外部API来获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等,以此来补足LLM自身弱项。例如LLM的训练数据不是实时更新的,这时可以使用工具访问互联网来获取最新信息,或者使用特定软件来分析大量数据。现在市场上已经存在大量数字化、智能化的工具,智能体使用工具比人类更为顺手和高效,通过调用不同的API或工具,完成复杂任务和输出高质量结果,这种使用工具的方式也代表了智能体的一个重要特点和优势。
(4)行动(Action)。行动模块是智能体实际执行决定或响应的部分。面对不同的任务,智能体系统有一个完整的行动策略集,在决策时可以选择需要执行的行动,比如广为熟知的记忆检索、推理、学习、编程等。
总的来说,这四个模块相互配合使智能体能够在更广泛的情境中采取行动和作出决策,以更智能、更高效的方式执行复杂任务。[6]
AI Agent将带来
更为广泛的人机融合
基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,带来更为广泛的人机融合。生成式AI的智能革命演化至今,从人机协同呈现了三种模式:
(1)嵌入(embedding)模式。用户通过与AI进行语言交流,使用提示词来设定目标,然后AI协助用户完成这些目标,比如普通用户向生成式AI输入提示词创作小说、音乐作品、3D内容等。在这种模式下,AI的作用相当于执行命令的工具,而人类担任决策者和指挥者的角色。
(2)副驾驶(Copilot)模式。在这种模式下,人类和AI更像是合作伙伴,共同参与到工作流程中,各自发挥作用。AI介入到工作流程中,从提供建议到协助完成流程的各个阶段。例如,在软件开发中,AI可以为程序员编写代码、检测错误或优化性能提供帮助。人类和AI在这个过程中共同工作,互补彼此的能力。AI更像是一个知识丰富的合作伙伴,而非单纯的工具。
实际上,2021年微软在GitHub首次引入了Copilot(副驾驶)的概念。GitHub Copilot是一个辅助开发人员编写代码的AI服务。2023年5月,微软在大模型的加持下,Copilot迎来全面升级,推出Dynamics 365 Copilot、Microsoft 365 Copilot和Power Platform Copilot等,并提出“Copilot是一种全新的工作方式”的理念。工作如此,生活也同样需要“Copilot”,“出门问问”创始人李志飞认为大模型的最好工作,是做人类的“Copilot”。
(3)智能体(Agent)模式。人类设定目标和提供必要的资源(例如计算能力),然后AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。
人类与AI协同的三种方式[7]
从前文对智能体记忆、规划、行动和使用工具四个主要模块的功能分析来看,智能体模式相较于嵌入模式、副驾驶模式无疑更为高效,或将成为未来人机协同的主要模式。
基于Agent的人机协同模式,每个普通个体都有可能成为超级个体。超级个体是拥有自己的AI团队与自动化任务工作流,基于Agent与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。Github平台上有一些基于Agents的自动化团队——GPTeam项目。GPTeam利用大模型创建多个被赋予角色和功能的智能体,多智能体协作以实现预定目标。比如,Dev-GPT是一个自动化开发和运维的多智能体协作团队,包含了产品经理Agent、开发人员Agent和运维人员Agent等角色分工。这个多智能体团队可以满足和支撑一个初创营销公司的正常运营,这便是一人公司。又如,号称是世界上第一个AI自由职业者平台的NexusGPT。[8]该平台整合了开源数据库中的各种AI原生数据,并拥有800多个具有特定技能的AI智能体。在这个平台上,你可以找到不同领域的专家,例如设计师、咨询顾问、销售代表等。雇主可以随时在这个平台上选择一个AI智能体帮助他们完成各种任务。
AI Agent将改变软件的游戏规则
促进AI基础设施化
AI Agent正在重新定义软件。比尔·盖茨认为,AI Agent将彻底颠覆软件行业,将影响我们如何使用软件以及如何编写软件。[9]
AI Agent将使软件架构的范式从面向过程迁移到面向目标。现有的软件(包括APP)通过一系列预定义的指令、逻辑、规则和启发式算法将流程固定下来,以满足软件运行结果符合用户的预期,即用户按照指令逻辑一步一步操作达成目标。这样一种面向过程的软件架构具有高可靠性、确定性。但是,这种面向目标的架构只能应用于垂直领域,而无法普遍应用到所有领域,因此标准化和定制化之间如何平衡也成为SaaS行业面对的难题之一。
软件架构范式迁移[10]
AI Agent范式将原本由人类主导的功能开发,逐渐迁移为以AI为主要驱动力。以大模型为技术基础设施,Agent为核心产品形态,把传统软件预定义的指令、逻辑、规则和启发式算法的任务层级演变成目标导向的智能体自主生成。这样一来,原本的架构只能解决有限范围的任务,未来的架构则可以解决无限域的任务。[11]未来的软件生态,不仅是最上层与所有人交互的媒介是Agent,整个产业的发展,无论是底层技术,商业模式,中间组件,甚至是人们的生活习惯和行为都会围绕Agent来改变,这就是Agent-Centric时代的开启。[12]
RPA范式(Robotic Process Automation)与APA范式(Agentic Process Automation)的比较[13]
以面壁智能发布的首个“大模型 Agent”SaaS级产品ChatDev智能软件开发平台为例。该平台就像一家完全由AI Agents组成的软件开发公司,里面会有CEO、CTO、开发经理、产品经理、测试专员、监督员等各类Agent角色。用户只需要把明确的需求告诉CEO角色的Agent,这个CEO就会基于用户的需求,组织整个软件开发流程。最后交付给用户的包含了软件产品和整个开发过程中的代码,并且所有流程都是自动化的。[14]这将使软件行业降低生产成本、提高定制化能力,进入软件的“3D 打印”时代。
AI Agent的展望与挑战
AI Agent是人工智能成为基础设施的重要推动力。回顾技术发展史,技术的尽头是成为基础设施,比如电力成为像空气一样不易被人们察觉,但是又必不可少的基础设施,还如云计算等。当然这个要经历以下三个阶段:创新与发展阶段--新技术被发明并开始应用;普及与应用阶段--随着技术成熟,它开始被广泛应用于各个领域,对社会和经济产生深远影响;基础设施阶段--当技术变得普及到几乎无处不在,它就转变成了一种基础设施,已经成为人们日常生活中不可或缺的一部分。几乎所有的人都认同,人工智能会成为未来社会的基础设施。而智能体正在促使人工智能基础设施化。这不仅得益于低成本的Agent软件生产优势,而且因为Agent能够适应不同的任务和环境,并能够学习和优化其性能,使得它可以被应用于广泛的领域,进而成为各个行业和社会活动的基础支撑。
人工智能智能体应用一览图[15]
Agent下一步可能会朝着两个方向同时迭代。一是与人协助的智能体,通过执行各种任务来协助人类,侧重工具属性;二是拟人化方向的迭代,能够自主决策,具有长期记忆,具备一定的类人格特征,侧重于类人或超人属性。
从技术优化迭代和实现上来看,AI Agent的发展也面临一些瓶颈:
首先,我们通过OpenAI的GPTs也能看到,LLM的复杂推理能力不够强、延迟过高等问题抑制了Agent应用的真正成熟。这也是接下来业界工程优化和技术科研突破的方向。
其次,多智能体(Multi-agent)发展仍面临较大困境。多智能体是一个非常复杂的学术研究方向,随着智能体开始普及到大众市场,已经成为重要的技术现实问题。例如,斯坦福的虚拟小镇就包含了25个智能体的多智能体研究。但是小镇框架开源之后,根据开发者的测试一个Agent一天需要消耗20美金价格的token数,因为其需要记忆和行动的思考量非常大。这一价格是比很多人类工作者更高的,需要后续Agent框架和LLM推理侧的双重优化。
突破多智能体的发展困境,是未来智能体社会(Agent Society)建立的重要前提。多智能体协同可以组成智能体社会这一最高形态的技术社会系统。智能体社会具有复杂、动态,自组织和自适应的特性,能够协作、竞争、不断进化。在这个社会系统中,智能体能够根据目标和环境变化执行复杂灵活的任务,并与人类及其他智能体进行高级别、多维度的互动和协作。智能体社会不仅有助于人类探索和拓展物理及虚拟世界,还能增强和扩展人类的能力与体验。
同时,这些发展趋势预示着AI Agent可能面临诸如安全性与隐私性、伦理与责任、经济和社会就业影响等多方面的挑战。
(1)安全性和隐私性是智能体的关键特性,对其稳定运行和对用户及社会的保护至关重要。这两个因素直接影响AI代理的信任度和控制力。若AI代理出现漏洞、遭受攻击或数据泄露等问题,则可能导致对用户或社会的损害。比如,OpenAI的GPTs在发布后不久,出现了安全漏洞,导致了用户上传的数据泄露。
(2)伦理和责任是智能体的核心原则,决定其价值观和目标,以及对用户和社会的尊重与保护。这些原则直接影响智能体的可信度和可控性。若智能体表现出不公平、不透明或不可靠等问题,可能引发用户或社会对技术的排斥。责任归属也是智能体的关键议题,人与智能体协同中的责任归属不清晰或不公正也会带来严重后果。
(3)经济和社会就业影响。未来工作中的一个重要挑战是人类与智能体之间的竞争。例如,AI自由职业者平台NexusGPT的出现便是对传统自由职业者的冲击。未来的社会工作协同中,也会出现越来越多的智能体,雇主基于效率和效益考虑,可能会尽量减少人力投入。随着智能体技术的成熟,我们必须提前思考这些技术发展对社会和个人职业生涯的长期影响。
以ChatGPT的发布为分水岭,全球自由职业平台上的写作/编辑类从业者的数量和收入都进入了断崖式下跌的轨道[16]
参考资料来源:
[1]https://www.gatesnotes.com/AI-agents
[2]https://mp.weixin.qq.com/s/EWvw83Gch_xWmAcT7dVV5A
[3]全国科学技术名词审定委员会.《计算机科学技术名词(第三版)》[M].北京:科学出版社,2018年12月.
[4]如果从AI Agent概念入手,将它翻译为“AI代理”,这是不准确的。“agent”这个词源自拉丁语动词“agere”,意为“做”或“行动”(“to do”),涵盖了广泛的行为和活动。从这个词演变而来名词形式“agents”直译为“行动者”或“执行者”,用于描述那些执行动作或具有行动能力的实体。
[5]https://lilianweng.github.io/posts/2023-06-23-agent