如果你的手机,拥有与你共同的记忆,懂得你的习惯,能帮你自主安排日程、交友、工作会议......你的体验将会如何?
这很容易让人联想到12年前苹果推出Siri的场景,当时手机智能助手这个概念第一次走入大众的视线。但是,众多的手机智能助手,并未成为得力的个人助理,却成为了被用户吐槽最多的“鸡肋”应用,除了刚需场景未被清晰定义之外,“智障”也是最根本的一个原因。
解决“智障”问题,大模型(LLM)的爆发让智能手机行业看到了新的曙光。大语言模型的重要突破就是,大规模学习了几乎全世界的知识,“涌现”出惊人的处理各种问题的通用能力。把大模型装入手机,让手机变得更智能,正在成为手机行业一致的新尝试。
更加智能的手机助手,能够感知用户习惯、自主决策执行、根据用户的反馈进行自我迭代。AI智能体具备类似人的智能能力和行为,比如学习、推理、决策和执行能力,人类自身可以被看做做强大的智能体(Agents)。但这并不是一个新鲜的概念。早在1944年,冯·诺依曼(John von Neuman)在博弈论 (Game Theory)中,就开始研究智能体之间的策略学习问题。大语言模型的突破,把行业对AI智能体的关注提升到了新的高度。
当1944年就被提及的智能体(AI Agents)、智能手机遇上语言大模型,我们完全可以期待,拥有更智能大脑的新创新形态有可能出现。当手机行业纷纷跟进手机大模型研发的时候,vivo一口气发布了5个大模型,组成大模型矩阵,并于行业中首次提出了手机智能体的概念。
手机终端厂商重金投入大模型研究,并将产品与大模型深度融合,大模型似乎已经被手机厂商认定为一个值得长期投入的重点赛道。2023年11月1日,vivo在开发者大会上发布OriginOS 4,同时也展示包含五个量级模型的蓝心大模型矩阵,并将10亿级和70亿级参数量级的大模型运行到了端侧,vivo大胆预测“大模型是手机行业新创新周期的开始”。腾讯科技《AI未来指北》手机大模型系列的第二期走进vivo,并深度对话了vivo副总裁、OS产品副总裁、vivo AI全球研究院院长——周围。
周围自2018年开始担任vivo AI全球研究院院长,进行人工智能领域的基础科学和颠覆式技术创新研究,并于2022年开始负责OriginOS的研发工作。腾讯科技也从实际应用的角度与周围针对行业问题进行了深度探讨:
● 从产品创新体验来看,曾经的手机语音助手被诟病为“鸡肋”,大模型 手机发展到什么程度,才能给用户带来相对惊艳的体验?
● 从产品设计来的角度,为什么很多厂商选择将语音助手作为手机大模型的用户交互入口?
● 现阶段各厂商在手机大模型投入的成本最少是多少?是否值得?用户会买单吗?
● 从行业发展来看,每家都在自研大模型,是否会形成数据孤岛,这对行业发展和用户体验,是否会造成负面影响?
以下为对话内容:
01
大模型“上端”面临很多难解的现实问题
腾讯科技:你理解的手机大模型到底是什么?是手机 大模型吗?
周围:这里面其实有两个问题,一个是大模型本身,另外是大模型要为手机这样的产品去做哪些量身的设计和定制。
我们看到目前云端的大模型普遍都是千亿参数规模的,一旦回到手机上来,我觉得有几个实实在在的问题需要解决,手机这个行业需要为大模型做更多的思考。
第一个是成本问题。大模型一次对话差不多要1.2分到1.5分人民币,如果有两三亿用户,一天用十次,一年下来要超过上百亿的开销。高昂的成本制约了大模型的很多应用可能。
在手机上使用频率可能会更频繁,所以我们就会思考,是否能用手机端侧的算力来分担云端的成本。但是一旦上端的话,就有很现实的几个问题摆在面前:
算力要求不能太高;
功耗不能太高;
对内存的占用不能太大,否则会影响产品整体的使用体验。
综合下来,我们认为手机端侧应该有三个模型:10亿级模型,响应速度20毫秒到100毫秒,应用场景类似于文档的归纳总结;但是10亿级短板还是很明显的,理解能力肯定不如参数量级大的模型,所以我们在此之上还选择了70亿的模型。
这个参数量大小的模型,有较好的任务理解能力,且手机的算力和内存等能够比较好的支持。但是如果追求模型更强的能力,其实70亿也还不太够,130亿参数左右的模型在端侧运行更完美,但这也会带来更多的问题。
但是我们知道,一般大模型涌现的基础门槛在500亿参数左右,所以之前提到的三个大模型在智能涌现上效果都不太好,都不能承担起一个能够帮我们去做决策的模型的职责,所以我们就需要500亿以上的模型来做基础模型。
vivo选择的是700亿,综合成本和智能涌现能力来考虑,我们选择让它来当做蓝心大模型的云端主力模型。但是对于一些场景比较复杂的任务比较复杂的一些场景,还需要更高的模型,所以我们又做了1300亿和1750亿两个模型。
vivo的大模型矩阵其实就能体现我们对于大模型的理解,大模型肯定是要往上做的,但是对于手机这个行业,我们又要平衡成本、性能、功耗,所以又要往下修。综合来讲,为了用户体验并能兼顾更多场景,我们认为大模型对于手机一定是一个矩阵。
腾讯科技:虽然基于端侧,vivo做了三个大模型,比云端的参数量要小。但是这是否是因为硬件或技术的限制,未来手机端侧大模型也是越大越好吗?还是端侧和云侧大模型是完全不同的定位?
周围:我们现在更多首先考虑的是,用10亿和70亿去承担起为用户提供一个高安全和隐私数据保护的这么一个机制,是从这个方向来考虑的。
我们同时也看到说大模型很珍贵的,智能涌现在500亿以下的话还是我觉得不够,所以我们自然在云端要提供这样的能力。
我个人认为现在云和端要协同,但是如果我长远的来看的话,我觉得还是基于成本,基于隐私,基于性能,基于这些角度去考虑端侧可能会更合理一点。
腾讯科技:手机端侧的算力,真的能支撑大模型的推理吗?
周围:我觉得手机端的算力其实还算够,无外乎可能是速度的问题,比如说我们画一幅画,是7秒完成还是10秒完成,这个地方可能差了两三秒。
所以我觉得在算力层面目前不是最大的挑战,更大的挑战恰恰是在内存上,1B亿模型对应过来,我们现在优化到最好,大概就是1G的内存占用,7B的模型大概要占用4G内存,vivo目前对7B的模型已经全部完成了产品化。
为什么我们要坚持把内存占用限制在4G以内,因为我们现在高端的产品,包含24G的、16G的、12G的(内存),我觉得还有一个档位就是8G的(内存)。最低档位8G(内存)的机型,拿出4G空间来给到大模型,已经是一个极限的资源调拨了。7B的模型控制在4G以下,这样对于12G以上内存配置的旗舰机,肯定能够保证一个高端手机的使用体验。但是再往上突破,比如13B的,对于内存的占用,还没有达到理想状态。
腾讯科技:所以目前对vivo来说,手机端侧接入70亿参数的模型是最优解决方案?
周围:对,是一个最优的解决方案,但是未来的更高规格的这些产品,可能用得上130亿参数的端侧模型。
02
手机智能体仅仅是手机助手的升级版吗?
腾讯科技:各大智能手机厂商都在对手机大模型进行尝试和探索,但是vivo可能是行业内第一个提出“手机智能体”这个概念的厂商,如何定义手机智能体呢?
周围:大家可能都记得16年,AlphaGo战胜了人类的围棋冠军李世石,这其实得益于强化学习的突破。强化学习之父叫Richard S. Sutton,他就提出过智能体的概念。他认为,如果我们去做一个AI系统,它能够感知周围的环境、能够识别意图、能够自主做出决策,最重要的一点是,能够设立一个奖励机制,让这个系统进行自进化自完善。这是比较接近我们今天语境的智能体的定义。
实际上当我们把今天的大模型用在手机上的时候,你会发现自然而然就会在期待AI智能体(AI Agents)的出现。为什么?因为今天大模型最珍贵的,我认为它学习了庞大的上下五千年的所有知识,你像vivo的大模型,我们差不多压缩了15T就是2.5个中国国家图书馆的知识量在里面,庞大的数据量学习,让大模型具有了智能涌现的能力。我们自然而然地也会去期待AI智能体的出现。
其实对于手机智能体的实现路径,我们团队在做大模型的时候就仔细考虑过,也有过争议,就在于我们是用多个大模型做一个智能体,还是说把一个大模型做到足够丰富强大,来支持智能体。现在我们更倾向于用多个大模型去组合,实现一个智能体,底层的大模型,可能不仅仅包括我们的,还包括行业内各个厂商的。
我们也沿着严格的智能体的定义,在做智能体的实践。
在这其中,我们发现还是有非常多的有意思的东西是值得大家期待的。比如说当我们想去做执行的时候,我们就要把数字世界的能力让智能体执行出来,我们想到的马上就是phone-GPT加上plugin,然后能熟练的使用460万个手机里面的应用,
它其实是让GPT可以去使用手机里面的应用,包括下载、安装、注册和使用,提供解决方案。并不是说我们要做一个东西具有所有的能力,而是让一个GPT具有像人一样使用应用的能力,我觉得这是Phone Agent(手机智能体)要做到的。
当我们把应用做完的时候,我们自然就想到去设计一个奖励机制,然后让智能体知道自己哪些东西应该做,哪些地方应该去更多地完善自己,整个做下来,我觉得对接下来手机里面内置智能体(Agent),我觉得还是挺期待的。
腾讯科技:手机内的App属于不同的开发者,调用起来没有壁垒吗?
周围:你说的壁垒背后,应该指的是APP本身的开发者,不希望自己的生态被破坏,不希望自己的应用被免费调用。
但我觉得手机智能体它不是去构建一个与APP应用本身构成竞争关系的生态或应用,而是帮助手机的用户去更好地使用应用。所以对于现在的APP来说,手机智能体是一个像真人一样的“用户”,我们通过智能体,打造一个能够自己自动使用APP的解决方案。
腾讯科技:基于大语言模型的手机智能体,和之前的手机助手有什么区别呢?其实苹果推出siri已经12年了,但是用户可能会觉得这个功能很鸡肋?
周围:我觉得这个问题是做人工智能的人很愿意去探讨的,就是在人工智能的第一阶段,早在1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,包括香农(Claude Shannon)的几十位科学家就聚在一起,讨论如何用机器来模仿人类学习以及其它方面的智能。
那个时候大家对人工智能的憧憬就是可以解决复杂问题。那个时候学界就开始尝试用知识库加规则匹配的方式去解决医疗诊断的问题,但是效果不太好。
从80年代一直到2018年,AlphaGo引起世人关注,在那之后,深度机器学习其实蓬勃发展,解决了很多问题。就在这个阶段,大家开始去讨论,我们要去做一个人工智能的助手。
但是现在不同的是,有了大语言模型的突破,大模型学习了几乎全世界的知识,成为了智能体的大脑,会让所谓的手机助手变得更加智能。
未来的手机智能体,首先它应该是一个很好的智能助理,它一定是人格化的,比如说它要有很好地去帮你管理生活的能力。第二它要有记忆的能力,和用户有共同的回忆,这样才能够很好地充当起智能体助理的角色。同样的道理,既然智能助理也是私人助理,他可能是深得我们信任的。另外它还应该有感知和管理的能力,既然是智能体,就不能是一问一答,而应该是主动服务的。
主动服务怎么触发?我觉得除了基于基础数据的计算,我们还要通过人与人之间的关系和时空关系,比如说你去到了哪里,用的是什么时区的时间,以及你身边人的关系怎么样,就算你出差到杭州,深圳家里下雨了,作为智能体也应该去做一些相应的提醒。
所以你看到从智能体验应用倒推过来的话,我觉得我们对于智能体的构建应该是各不相同的。但是现在做智能体的构建,还是一个比较早的阶段,我觉得至少还要一年。
腾讯科技:为什么大部分手机品牌还是选择把大模型集成到之前的手机语音助手?
周围:其实当下所有的厂商在应用的时候都还没有到智能体的阶段,就像我刚刚说的,我觉得应该是一年后的来对话和考虑的问题。
当下大家都是希望用大模型应用于自己的手机结合,第一个几乎不约而同地都选择了去提升自己的语音助手的体验,我觉得这个也完全能够理解。
其实大模型如何和手机结合,有两个思路,一种是站在系统外、功能外,比如公版的APP;另外一种就是copilot,语音助手,微软的办公软件助手,都是典型的这种思路。
我们这次推出了两个AI产品,一个是刚刚说的蓝心小V,它可以理解为是手机上的copilot(智能助手),另外一个就是蓝心千询,它是一个公版的APP,可以在应用商店下载。
除了这两个产品之外,我们其实还带来一系列的创新,所以我们这次叫做1 2 n,就是“蓝心矩阵”。
“1”是指的蓝心大模型矩阵,“2”就是我们刚才说的两大基于大模型的创新产品蓝心千询和蓝心小V,第三个n其实是我们希望大模型对手机进行深度的融合之后带来一系列的创新,我认为这个地方其实是用户更值得期待的。
腾讯科技:为什么?用户能直接感受到大模型带来的本质改变吗?
周围:手机里面的功能都会被大模型重构,比如我们会重构系统中的73个模块,把它们全部原子化,然后让大模型“天生”就能够比较顺畅地帮我去自主做一些执行的事情:比如帮我调一下亮度、帮我改一下壁纸。这在之前都需要用户自己去点击设置模块,但是今天只需要对大模型下一个文字或语音指令。
手机中用户使用较多的功能都被重构过了,比如说以前我在拍照的时候,旁边多了一个路人,你想把路人去掉。之前可能手动用擦除功能,原有场景被破坏了,大模型可以帮你去掉不想要的,并利用AIGC的能力保持原有构图。
03
手机大模型未来再进化,难点在哪
腾讯科技:自研大模型真的有必要吗?
周围:我们觉得还是基于对要做好一个极致体验的产品的角度,我们遇到了实实在在的问题,比如说价值观的对齐,针对一些敏感问题,可能每一个大模型都有自己的价值观。作为一个手机厂商面对这么多用户,一定要解决价值观对齐的问题,那就要自研。
第二就是我们要解决成本的问题,要去让AI更普适、要给更多人用,同时又要解决性能体验,比如说像出词的快速响应,当我们有细分需求的时候,我们发现公版的开源大模型做不到。
另外还有一个很现实的问题就是现在开源的大模型,它的数据更新时间是很慢的。对vivo来说,我们自研了一个增量训练的框架,几乎能保证到每一个大模型在一个月左右就会更新。
另外就是,我们如果在手机里做一个智能体,这就需要有些东西是Always-on(常开的),这个时候你就要有省电的需求。另外还有性能、任务拆解等定制化的需求,这时候公版大模型是完全无法满足我们对未来规划的。所以综上我们就知道大模型一定要自研的,要完整的。
腾讯科技:手机端大模型再进化,硬件和算法,哪些才是最大的难点?
周围:从硬件来讲,其实大模型的端侧化是需要和芯片厂商密切合作的,最大的问题在于端侧指令集的兼容,我大概介绍一下端侧化的工作都有哪些部分:
首先我们要进行蒸馏或是模型裁剪,得到一个够小、但是能力又够强的大模型。这个大模型我们一般都会自己去做CPU版的端侧化,这个时候我们跑的算力,我们叫指令集,用的其实是CPU。
第二我们还希望这个大模型可以跑在GPU和NPU上面,最终我们是跑在NPU上面,这个才能让大模型在端侧的时候有很好的性能表现。
NPU指令级是由CPU公司实现的,然后大模型的蒸馏和能力增强是我们自己大模型的开发来实现的,这是一个合作的问题。
大模型继续迭代,这是整个产业链要来一起解决的问题。我们现在也跟芯片厂商在联合定制,下一代的CPU、NPU、指令集、DDR的带宽和缓存应该怎么做,我认为这些都是我们要和芯片厂商一起来研究,来做更好的产品规格设计的。回到我们终端厂商的角度来说,我觉得我们要站在更长远的角度,提出我们对于产品的一些典型的功能的规划,然后和芯片厂商一起来规划设计。
腾讯科技:各家都在做自己的大模型,是不是会形成数据孤岛?对行业开放70亿大模型的能力,如何开放?
周围:准确地说是开源,开源蓝心7B大模型。我们意识到大模型的应用,其实站在一个百年开局的起点,它不是说一年两年就能达到成熟。走得早的人也不一定就能一直领先。
所以我们一定要共建共赢,你先走一步,那就先拿出成果来共享,大家一起来共建。开源出来之后,还要把模型的优化,模型配套的一些工具都要开源。另外真正的开源就是有好多种license,我们是允许商业化的。开源之后,我们开发者才能够基于大模型去构建符合自己商业利益的生态,这是我们的一种良好的愿望。
我们开发者得至少分三类,一类就是普通开发者,没有能力去构建大模型或者微调大模型,蓝心大模型就可以以开发套件的形式开放给他们,他们拿到这个之后,就能够免费使用大模型的接口和能力。
第二种是中大型的公司,希望拿到一个真正开源又能力领先的大模型自己去微调,其实还有第三种形式:还有一种开发者,他觉得我也不拿开源了,我要自己做,我们就把系统的最小权限做模型的热插拔,在这个方向上足够开放。
所以vivo开源还是来自于很高维度的这种价值认知和规则定义的,是从这个角度来看开源。
那么接下来我们也希望基于开源的氛围能够共建共赢,我们信奉叫做独行快,众行远,就一个人去走可能是快一点,但是要一起抱团走才能走得更远。
腾讯科技:大家都说手机赛道很卷,各家都在做自己的大模型,这样会不会形成一个个数据孤岛?
周围:我其实觉得手机行业不卷,这个卷是站在行业外的角度来看,行业内看好像是大家在各领风骚数个月的那种感觉。
其实站在vivo的角度,我觉得我们不是在卷,我们也无意去这样做,像在大模型上面,我们只想做好自己,做好我们在这个行业里面应尽的义务和责任。