端侧AI的终极形态

李瑞龙 腾讯研究院

腾讯研究院AGI路线图系列专题研究

作为争夺下一代流量入口的关键机遇，端侧AI（运行在手机等设备端的生成式AI模型）已然成为各大厂商必争之地。虽然，站在当下的时间点，除了少数工程样机之外，我们仍难以在终端设备上获得理想的AI体验，这主要是因为大模型在终端设备落地时，仍然面临诸多挑战。比如，短期内，从突破难度来排序，电池续航和散热问题>显存带宽>GPU算力和显存容量，成为一系列亟待解决的难点。尽管如此，终端生态多方的信心并没有受到影响，大家正在使尽浑身解数共同促进端侧AI的实现。

大模型“压缩”极限不断下探

7B的预期端侧门槛正在被进一步打破。

从2023年底高通骁龙峰会上第一批手机终端侧生成式 AI 演示至今，7B端侧模型在很长一段时间内被认为是端侧模型的入门门槛，且很难通过量化、微调等方式进一步压缩。

直到我们看到Apple Intelligence通过一系列巧妙操作，将3B模型成功压缩进苹果手机中，根据苹果官网的介绍，Apple Intelligence包括两个模型：一个是参数量为3B、可在手机上直接运行的纯端侧模型Apple On-Device；另一个是参数量未知的、与GPT-4对标的云端模型Apple Server；其中，Apple On-Device这个3B模型虽然并非绝对领先，但足够实用。它通过专项任务小模型的生成、适配器的动态加载与交换、以及端侧模型的整体量化压缩，配合特定的JSON结构化提示词工程，使得这个3B的小模型在特定的端侧任务上表现出色，足以媲美像Mistral-7B和Gemma-7B等一批较大的7B模型；同时，通过调度云端模型Apple Server来应对高阶任务，Apple Intelligence实际上已经具备了目前终端AI落地的基本雏形。

不可否认，Apple Intelligence的3B模型确实有一些取巧之处，实际上，它进行了大量的定向优化，将大模型的能力局限在特定任务的范围内。然而，在接下来的不到两个月时间里，谷歌DeepMind更新发布了Gemma 2 2B，再次将通用端侧大模型的极限推到了2.6B这个新的“下限”，从上级模型中蒸馏而来的轻量级小模型Gemma 2 2B在大模型竞技场LMSYS上获得了1130的高分；有网友测试发现，哪怕是在iPhone 15 Pro上，量化压缩后的Gemma 2 2B在MLX Swift上的响应速度完全不输当前大规模算力支持下的云端大模型。此外，与Apple On-Device不同，Gemma 2 2B是一个开源模型，可以广泛应用于本地工作站、PC、手机等边缘设备，用途更为广泛，而针对高度量化后的端侧模型在稳定性方面的问题，Gemma 2 2B提出了一种与Apple Intelligence的结构化提示词略有不同的解决方案，它选择通过构建ShieldGemma分类器，确保AI的输出具有吸引力、安全且包容的内容，稳定输出质量。

腾研AGI路线图图谱截选：Gemma 2 2B；Apple Intelligence

控制模型规模的前提下向多模态演进。

基于7B这个参考坐标，端侧大模型“压缩”有两个方向：一是如上述根据特定的专业化任务，通过蒸馏与微调来打造具备某些专长的小模型，持续探索压缩的下限；二是在保持大约7B参数规模的前提下，尽可能地融入更多的功能与多模态能力。

对于手机和PC而言，所需完成的任务相对有限。例如，Apple Intelligence的Apple On-Device主要专注于智能回复、辅助撰写、邮件回复、计算器和表格制作等，这些任务基本上可以通过文字作为中介来完成，考核的重点是文本和泛文本生成的能力。而对于更多的终端类型，比如自动驾驶车辆或应用于医疗、教育等领域的智能机器人，端侧模型的多模态能力则是刚需（这一点在部分智能汽车上已经有所体现）。未来，AI硬件如果希望孕育出超越手机的新机会，多模态端侧小模型将是关键。

大家或许还记得，曾经有一件热门事件，充分反映了人们对多模态端侧小模型的“渴望”。5月29日，斯坦福的一个研究团队发布了一款宣称能够“改变现状”的产品：Llama3-V。该产品号称只需500美元，便可以基于Llama3微调出一个强大的多模态模型，效果堪比GPT-4V等一线模型，而参数规模仅为8B。该产品在推特上发布后迅速走红，并跻身「HuggingFace Trending」Top 5。然而，不到两天时间，该项目被指大量剽窃了清华与面壁智能合作开发的多模态模型MiniCPM-Llama3-V 2.5。

作为这场事件的主角，面壁智能公司在谷歌发布Gemma 2 2B后一周左右，也成功推出了新版的面壁小钢炮MiniCPM-V 2.6，刷新了多模态端侧模型的多项指标。在7～8B的参数规模下，该模型的功能优化堪称“诚意十足”，一举将单图、多图、视频理解三项核心能力成功“压缩”至端侧，性能表现与GPT-4V看齐。量化后的端侧内存约6GB，推理速度可达18 tokens/s，达到可用的标准。与Apple Intelligence的Apple On-Device 3B端侧模型和谷歌Gemma 2 2B模型主要用于手机、PC等轻量设备不同，国产小钢炮MiniCPM-V 2.6能够覆盖更多的终端类型与应用场景。比如，当前，智能汽车的终端算力并不逊色于旗舰手机和PC，8B参数的端侧模型在智能汽车上，由于电池和算力资源更为充足，可以获得出更为优异的性能与用户体验。

腾研AGI路线图图谱截选：MiniCPM-V 2.6与多终端

Agent 是端侧AI成立的基础

Agent能力在端侧更应该得到充分发挥。

大模型的出现，让一本书重新走红，那就是诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考，快与慢》。书中深入探讨了人类思维的两种模式，也称为两个系统：系统一和系统二。系统一是一种快速、无意识、自动化的思维方式，负责处理简单、熟悉的任务，如走路、开车等。系统二则是缓慢、有意识、需要集中注意力的思维方式，负责处理复杂、不熟悉的任务，如解决数学问题、做决策等。

人们也将大模型与人类思维的这两种模式进行了类比。在当前的时间点上，关于大模型的技术应用，存在两派观点：一派认为，如果系统一足够强大，就不再需要系统二，基础模型应最大限度地追求AGI，通过单一系统来实现所有任务，不论代价如何，包括算力和能源成本等，例如特斯拉的自动驾驶FSD V12的端到端方案；另一派则认为，系统一与系统二应该有机结合，AGI是一个长期演进的过程，当务之急是“解决问题”。通过主动工作流的配置，不论模型大小，能够解决问题的模型才是好模型。这两种观点没有绝对的对错，然而，从端侧应用的角度来看，后者可能是更可行的方向，而主动工作流的配置离不开Agent技术的应用。

一方面，从电池容量的角度来看，通过工作流优化任务的实现是刚需。

目前，由于手机和PC的保有量占据绝对优势，它们理所当然地成为了端侧AI的最佳落地方向，但在落地过程中面临的芯片和电池挑战也是显而易见的。为了实现大模型的终端落地，需要进行大量的适配工作。

微软作为端侧模型的有力竞争者Phi-3/3.5的开发者，除了模型本身，还提供了一套名为Agents的工具（Copilot的自定义版）。通过Microsoft Copilot Studio的升级，Copilot PC不仅可以调用Windows附带的40多个端侧AI模型提供支持，还可以构建成百上千的自动化业务流程，在客户需求下独立工作，从而实现长期运行的业务流程自动化。未来，我们在手机和PC端体验到的端侧AI，大部分将是通过适配器和分类器挑选的微调小模型，以及经过自定义开发的Agents，以满足我们的需求，而无需调用全量的模型参数，是更具性价比的方案。

腾研AGI路线图图谱截选：微软Copilot PC

另一方面，从生态搭建的维度，需要Agent调用多方资源以实现繁荣。

无论是端侧还是云端AI，大模型都只是底层计算；要实现用户价值，还需要一个繁荣的应用生态和强大的工具集来提供支持。不论是现有的APP形态，还是未来可能实现的“去皮化”（指无需通过原有平台或APP，直接获取资源与服务）的API形态，除了底层计算，还需要通过Agent来实现价值的连接。在6月的Apple Intelligence发布会上，苹果表示，Siri的全新形态将改变交互规则，大量AI新功能将很快上线；此外，屏幕读取以及App内与App之间的操作等能力预计明年到位，这将使AI真正串联起苹果生态下的诸多应用。苹果提前承诺的这项能力，源自其在4月份发布的一项名为“Ferret-UI”的新技术。Ferret-UI能够“看懂”手机屏幕，建立对UI元素的基本理解，奠定了执行复杂任务的基础，并通过分层次的任务设计，最终实现对用户指令的理解和响应。这本质上是一种通过视觉方式来构建主动工作流Agent的思路。底层模型本身并不能直接创造价值，苹果需要维持其最强的盈利因素：生态位。类似的项目还有Mobile-Agent-v2。这些项目均以视觉理解为基础，构建多智能体协作的架构，从而实现更强的任务拆解和跨应用操作能力，这是未来端侧AI的关键组成部分。

端侧AI的终极混合形态

专业化端侧与全知全能云端协同或是最优解。

Scaling Law法则下，云端模型永远比端侧模型先进一个数量级。虽然许多小模型在特定能力上已经具备了媲美十倍甚至百倍参数大模型的实力，GPT-4经常被用作这些端侧小模型的比较对象，并且“偶有失手”。但事实上，当前基础模型的综合能力依然基本遵循Scaling Law法则。千亿、万亿参数的大模型以及实验版本模型，作为探索AGI的最前沿模型，其整体智力水平无疑会持续领先。云端大模型始终比端侧大模型先进一个以上的数量级。例如，8月份谷歌发布的轻量级小模型Gemma 2 2B，就是从6月份发布的Gemma 27B和9B Gemma 2模型中蒸馏而来的；微软开发的AI小语言模型（SLMs）Phi-3系列有多个版本，包括mini（3.8B）、small（7B）和medium（14B）。根据微软公布的不同表现水平，在同一时间段内，参数规模仍然是决定大模型综合能力的关键因素。苹果的Apple Intelligence通过一个对标GPT-4的云端模型Apple Server来处理复杂任务，这不仅是因为终端设备受限于芯片、电池和发热等因素的选择，更是为端侧提供“无所不知、无所不能”的云端支持保留了重要的接口。

未来Agent和数据（包括隐私数据）大部分或将存储在云端。

端侧AI，一直以来有一个强假设：用户数据全部存储在本地，端侧AI在隐私保护和个性化服务方面具有天然的优势，它通过在设备上本地处理数据，显著降低了数据泄露的风险，并能够通过学习用户行为和偏好，提供更个性化的服务，等等。

但真实的情况是，随着过去十年云计算的发展，无论是个人数据还是工作数据，相当大的一部分都存储在云端。苹果iCloud的用户和使用量近年来持续增长；在国内，许多人也越来越多地通过在线文档完成工作。在线文档通过跨设备的浏览和编辑，逐渐取代了传统的离线办公套件。此外，大量的个人照片和应用内的个人信息也同样，并未完全保存在用户的本地终端上。因此，未来各大厂商在进行端侧适配时，各类自定义工作流的Agents配置，事实上很难完全实现本地化。今年5月，ChatGPT推出了一项新功能，支持从Google Drive和Microsoft OneDrive上传数据文件，并提供实时数据分析与图表定制，功能一经推出便受到了广泛好评，网友们表示数据的接入更加的“丝滑”了；除这个数据分析的例子外，未来其他大量的Agent的开发将同样难以避免使用云端数据。

腾研AGI路线图图谱截选：Private Cloud Compute (PCC)

数据本地化处理并非隐私保护的唯一解。

隐私保护是端侧AI最核心的诉求之一。苹果发布Apple Intelligence时，正是因为隐私问题，其股价出现了一次先降后升的波动。当部分媒体误解苹果提到的“powered by GPT-4”，并声称苹果将其核心数据“出卖”给了OpenAI时，这一说法一度导致苹果股价下跌；随后，苹果官方紧急发布了一篇博客，正式宣布Apple Intelligence背后的设备端和服务器端基础模型是苹果自主研发的，股价才得以恢复。此外，苹果还为用户数据隐私提供了一个超出预期的方案，即开发了一个“隐私云计算系统”（Private Cloud Compute，PCC），运行在其自有服务器与专用芯片上。通过PCC，苹果设计了一种“全新的端到端AI架构”和“iPhone的私人云扩展”方案，使用户对数据拥有更大的控制权。通过PCC，用户可以在线处理请求，且全过程加密，甚至苹果公司也无法访问这些数据。处理完成后，所有数据都会被永久删除。尽管，具体的技术细节尚未完全披露，但苹果通过封闭系统实现隐私保护的方式一直广受公众认可。PCC为端侧AI的实现提供了一套能够给予公众信心、可落地的数据安全和用户隐私保护方案。

当然，不是每家公司都能够生产自己独有的芯片和应用生态，其它类型的企业同样在努力解决这一问题。例如，Cohere需要为企业开发高性能、高安全性的AI模型，其云端隐私方案必须达到企业级的数据隐私和安全要求。因此，Cohere向用户提供了多种数据安全部署选项，确保企业数据可以在客户现有的云环境、虚拟私有云（VPC）甚至本地进行部署，以满足不同公司对数据隐私和灵活性的需求。无论是通过云服务提供商还是虚拟私有云，均采用的是第三方托管的方案，用户的数据永远不会发送到Cohere，而是保留在用户自己的环境中，从而确保数据隐私。在隐私这个无法回避的问题上，这也是开放生态厂商所做的其中一次有益尝试。

总的来说，端侧AI正处于一个积极探索的过程。纯端侧AI 虽然是各大厂商追求的终极形态，但它并不会太快到达，甚至不一定会到来；就像大模型通往AGI的过程，这大概会是一个相当漫长的过程。然而，这并不妨碍端侧AI体验的提前实现，通过高质量数据、专业化目标任务训练以及云端隐私方案的混合协同与优化，端侧AI，也可以逐渐从“可用”发展到“好用”。

（感谢腾讯研究院曹士圯、袁晓辉在本文撰写中提供的帮助。）

参考资料：腾讯研究院AGI图谱数据库、#腾讯研究院AI速递、#AI每周关键词Top50

人工智能

0 人点赞