作者 | 褚杏娟
“追赶 OpenAI ”,是智谱 AI CEO 张鹏对外分享时屡次提到的一句话。坦然面对不如别人需要勇气,但公开承诺要追上行业标杆,则需要实力。那么,才成立四年的智谱 AI 凭什么?
积淀与机遇, 一个也不能少
众所周知,智谱 AI 是清华系出身的学院派创业公司。
1996 年,清华大学计算机系知识工程实验室申请成立,这是人工智能下的一个分支,以机器学习、数据挖掘为主要研究方向。2006 年,实验室开始做工程化,并推出了 AMiner 系统。在这之后的 10 年里,实验室一直进行工程方面的研究。2016 年左右,随着相关技术的成熟,实验室开始进行应用转化。直至 2019 年,智谱 AI 成立。
刚成立的智谱一方面延续之前的研究,一方面积极进入市场,将实验室积累的科技成果和产品系统用于实际项目并商业化。如果没有意外,这个路线会持续一段时间。但企业战略方向往往是由技术本身和行业应用领域的热点共同决定的。
2020 年成为智谱 AI 发展的一个关键拐点。
GPT-3 的发布给了大家非常明确的信号,即大型模型真正具备了实际可用性。但“要不要跟进大模型”却是一个问题。
创业公司战略做错一次就是致命的,虽然此刻看来当时智谱 AI 的选择没错,表现之一就是风投态度:此后智谱 AI 每年都能拿到数亿融资,目前单 2023 年已累计融资额达到 25 亿人民币。但当时情景下,这依然是一项极其冒险的事情,创始团队无法轻易决定。
那如果跟进大模型呢?智谱 AI 也并非完全从零开始。创始团队多年积累,大模型可以看作是团队积极学习和扩充高速挖掘的延续。因此,在反复纠结和讨论后,智谱 AI 终于决定全面投身大模型。
但在通用大模型和行业小模型的选择上,智谱 AI 虽然有参考 OpenAI,但还是决定坚持走通用大模型这条路。
一是技术方面。张鹏认为,行业模型必须建立在通用模型的基础之上,否则独立发展的行业模型由于商业规模较小,其智能水平将受到明显的限制。此外,行业模型很容易被通用模型的能力快速超越。
将行业模型建立在通用模型之上有好有坏。好处是可以节省基础模型预训练的成本和周期,享受到基础模型本身智能提升好处的同时,降低被通用模型取代的风险。坏处则是通用模型本身在行业场景中可能并不完美,因此需要专业知识积累。就像一个专业学校毕业的研究生要成为行业专家也需要时间来不断积累专业知识和经验。
因此,在张鹏看来,行业模型被看作是在当前技术水平和时间点下为解决行业应用需求而催生的一种形态。虽然这种形态具有历史意义,但从更长远的角度看,它只是一个阶段性的产物。
二是社会方面。模型之所以不能掌握行业专业知识,部分原因是因为行业知识的数据不完整或受到限制。这与过去十多年大数据和人工智能发展面临的问题类似,即存在数据孤岛和数据壁垒。这就导致了模型的能力必须迁就数据。
这个问题的根源不是技术层面的决策,而是与当前社会发展、信息化水平、行业信息化程度、数据安全以及各种制度和机制有关的问题。
对标 OpenAI, 相似但不同
同属通用模型赛道,是外界要拿智谱 AI 和 OpenAI 比,还是智谱 AI 自己要和 OpenAI 比?实际上,两者都有。国内需要有“自己的 OpenAI”,而智谱 AI 的目标恰好也是 OpenAI。
“OpenAI 公司一直在领跑,所以最直接的方式是先达到他们的水平。”张鹏说道。在技术选型和解决方案方面,智谱 AI 选择直接对标 OpenAI:
但智谱 AI 并没有完全依赖 OpenAI 的技术经验。
GPT 的问题是注意力是单向的,无法充分捕捉 NLU 任务中上下文词之间的依赖关系。虽然在 GLM 模型的早期研发阶段,GPT-3 已经非常出色,但智谱 AI 选择从底层算法原理入手,将自己的理解融入进去,最终需要通过实验和应用来验证。
张鹏及其团队在 2017 年开始关注预训练模型,那时候大模型还没有出现,市面上主要是一些几千万数量级的、相对较小的模型。
团队发现,当时的模型尽管架构相似,但在算法框架方面存在许多不同,比如 encoder-decoder 模型、auto-encoding 自编码模型、auto-regressive 自回归模型等。虽然前人尝试通过多任务学习结合它们的目标来统一不同的框架,但由于自编码和自回归目标在本质上的不同,简单的统一并不能充分继承两个框架的优势。
2021 年,智谱 AI 开始自主开发训练框架,着手训练一个拥有百亿参数的模型,并在年底启动了千亿模型的训练。智谱 AI 的 GLM 模型将自回归生成和自回归填空集成,即将 NLU 任务构建为包含任务描述的填空题,这些问题通过自回归生成来回答。通过将这两种模式的优点结合起来,模型在下游任务中能够完成更多任务。因此,这个预训练模型的显著特点是单一模型能够处理多个任务,从而用更低的成本来支持更多上层任务。
大模型主要被关注的是性能。这里的性能有两方面:一是各种评估指标上的表现,甚至是人工评估标准,二是推理效率和硬件基础成本。这两个方面的性能都非常重要,前者涉及到了模型的潜在极限水平,后者则涉及到了模型的可用性,即在产业链中使用该模型需要付出什么成本以及预期的回报是多少。
对于 GLM 模型,智谱 AI 除了在解决精度、稳定性和效率上进行改进,包括算法层面的修改、算子和加速方法的选择,还有工程层面的决策,如商业集群和网络的选择以及性能优化。
在早期某个阶段,模型训练的质量与数据之间存在密切的关系。为此,智谱 AI 也花费了一些时间和精力来获取更高质量的数据。
智谱 AI 内部有一个专门的数据处理团队,进行数据清洗和过滤,将数据进行校准和转化等工作。智谱 AI 训练大模型的数据主要来自公开数据、团队多年来积累的数据、交换或采购合作伙伴数据。
作为一个中英双语模型,GLM 数据处理的复杂性略有增加。在模型训练中,文本需要分割成 token,只有一种语言的话,token 的数量是固定的,但如果涉及另一种语言,token 的数量就会显著增加,整个扩展的词汇表会更大。另外,中英文混合数据的处理也是一个问题,模型需要在中英文上都表现良好,有效地跨语言工作。对此,智谱 AI 主要在设计训练算法以及损失函数的计算等方面做了些额外工作。
对于“高质量的中文语料相对英文语料较少”的观点,张鹏并不赞同,“中文用户的数量全球最多,互联网用户也最多、活跃度也高,为什么中文数据的质量会有问题呢?”张鹏反问道。
他认为,问题的根本在于数据的封闭和存在获取壁垒。可能有大量的中文用户在互联网上没有贡献高质量的内容,也可能是他们贡献了高质量的内容,但这些内容不是公开可获取的。
智谱 AI 内部通常采用逐渐改进的方法,更倾向与自己之前的版本或标准版本进行比较,追求模型的性能,特别是某一方面上,能有明显提升。
可以看到,智谱 AI 的产品更新频率很快。在今年 3 月首次推出 ChatGLM 基座模型后,智谱 AI 又在 10 月底将其迭代到了第三代。
ChatGLM3 采用了智谱 AI 独创的多阶段增强预训练方法、集成了自研的 AgentTuning 技术,并瞄向 GPT-4V 做技术升级。此外,智谱 AI 还推出了可手机部署的端测模型 ChatGLM3-1.5B 和 3B,支持包括 Vivo、小米、三星在内的多种手机以及车载平台,甚至支持移动平台上 CPU 芯片的推理。
此外,对于神经网络算法的核心问题,业内在过去的六七年里一直在寻找更高效的技术架构来解决计算和智能水平问题。这是一个偏向理论和基础性研究的长期工作,智谱 AI 更多通过投资或支持清华大学等基础性研究团队和机构,也会参与做前瞻性或预期性的研究工作,参与到这一命题的研发中。
做大模型,没有好走的路
在 2020 年之前,智谱 AI 主要从事算法研究工作,研究是团队的强项,这部分工作相对容易。但到了 2021 年,情况有所不同。研究出身的创始成员在如何将研究成果落地上,开始遇到许多问题。
具体来说,团队缺乏处理大规模数据和资源项目的经验,因此,许多事情实际上需要靠智谱 AI 自己摸索,一边学习一边实践。实际上也是如此,比如智谱 AI 训练 GLM-130B 时,整个研发和训练过程总共花费了 8-9 个月的时间,但最终稳定的训练其实只花费了不到 2 个月的时间,团队大部分精力都用在了适应性调整和系统调整上。
不仅如此,早期的智谱 AI 并没有现在的“吸金”能力,资源缺乏是其起步阶段不得不面对的问题。2021 年,智谱 AI 决定真正开发一个拥有 130 亿参数的大模型,这个项目的投资金额已经超过首年合同金额。
如何解决资源困境?用张鹏的话就是到处“化缘”。团队与国家科研机构及超算中心等联系,获得支持、渡过难关。
对内,智谱 AI 一直注意在研发过程中合理分配和利用资源。尤其在初期,团队更加节约,租用计算资源后就以最短的时间完成工作,尽量让每一分钱花得物有所值。
团队需要在不浪费资源的前提下,找到训练速度、精度和稳定性的最佳平衡点。这是一项复杂的工作:提高精度可能会使训练过程容易出问题,从而耗费额外时间和资源;反之,如果牺牲精度以保持稳定性,最终的结果可能不如预期。
虽然当时缺乏可供参考的标准,但智谱 AI 根据一些开源项目和技术报告,设计了适合自己需求的解决方案,包括混合精度、流水线工作方式、加速方法等等。这种自定义的方法帮助智谱 AI 提高了资源利用率,也还需要一些时间来完善。
众所周知,英伟达的 GPU 价格上涨,直接导致硬件成本增加。原本 100 万元的硬件如今需要花费 1.5 倍甚至 1.6~1.7 倍的价格来购买,大大提高了研发和应用成本。
在解决硬件成本问题方面,智谱 AI 选择用国产芯片替代,对模型做了各种国产 GPU 等硬件设备的适配。自 2022 年初,GLM 系列模型已支持在昇腾、神威超算、海光 DCU 架构上进行大规模预训练和推理。张鹏表示,国产芯片虽然在价格和性能方面可能距国外芯片有些距离,但在某些特定应用场景,尤其是在边缘计算等领域是可以满足需求的。
通过高效动态推理和显存优化,智谱 AI 表示,对比伯克利大学推出的 vLLM 以及 Hugging Face TGI 的最新版本,自己的推理速度提升了 2-3 倍,推理成本降低一倍,每千 tokens 仅 0.5 分。
“一旦你经历过一次,积累了全面的经验,不管是遇到了问题还是进展顺利,你都会从中学到很多。你将不再是一张白纸,而是会根据以往的经验不断改进和完善。所以那个时候的困难主要在于缺乏经验,一旦积累了经验,后续的工作就会变得更容易。”张鹏总结道。
商业化?开源?
作为一家从研究机构出来的公司,智谱 AI 要比 OpenAI 更关注商业化。
OpenAI 总部位于美国硅谷,其科技创新生态系统和组织方式与国内有很大的不同。OpenAI 更多是依赖资本支持积累大量资源,如微软等大公司提供资源、人才和数据,以快速实现目标。早期的 OpenAI 拥有足够的资源,因此并不太关心推理成本等问题。当然,OpenAI 现在也开始关注加速和优化等方面的平衡问题,并且更多地依赖微软等公司来进行商业化。
而智谱 AI 则是从成立之初便就在思考商业化的问题,“带着客户入场”也是被资本看好的因素之一。
智谱 AI 的商业化路径主要面向企业和机构的 B 端用户。一方面,创始团队在 B 端的经验比较多。早期在学校的科技情报分析、数据挖掘等研究经历帮助智谱 AI 接触到了国内的科研机构、科技型企业、互联网企业,甚至一些国际顶尖科技企业,他们也成为智谱 AI 的首批客户来源。
另一方面,向 C 端用户收费是比较有挑战的。智谱 AI 只为 C 端用户开发了一个免费使用的 APP 工具。
不过在张鹏看来,无论是 ToB 还是 ToC,两者最终都会融合,即服务企业最终也会影响到终端用户,因此两种选择本质上没有太大的区别,只是路径优先级的不同。
在创业早期,智谱 AI 不会强迫自己去接复杂的客户需求,因为这些需求很可能让团队陷入其中无法自拔。“更复杂的问题需要暂时搁置、等到能力更成熟时再解决。”智谱 AI 会坦诚自己的能力在什么水平上,在该水平上可以创造什么样的价值。
智谱 AI 也不会特别限定目标客户。张鹏表示,这一轮由大型模型引领的 AI 技术革新比上一代技术强大得多,具有更广泛的通用性,提供了巨大的创新空间,会影响到很多甚至之前意想不到的领域。
张鹏举了一个民航的例子。民航飞行控制行业使用国际标准的数据报文来编制飞行信息,编码方式非常晦涩难懂,专业人士有时也难以理解。为了减少通信数据量和解决带宽等问题,业内通常会压缩数据,在实际使用时再将其还原。之前,企业需要庞大的团队手工编程将这些数据翻译成可读格式,非常繁琐。但将这些数据输入后让 AI 解释,AI 能理解八九不离十。
在 IT 行业,与商业对应的就是开源。Meta 无意打开了大模型开源的“潘多拉魔盒”,影响了很多大模型厂商对于“封闭还是开放”的选择。
“我认为开源和商业化并不矛盾。事实上,已经有许多成功的开源和商业化项目,如 Linux、Hadoop 等,这些项目都表现出色,所以这两者并不互斥。”张鹏说道。
目前,智谱 AI 已经开源了 ChatGLM3-6B 模型、多模态 CogVLM-17B 和智能体 AgentLM 等能力。开源对智谱 AI 来说主要有两个好处:一方面,开源社区主要依赖社区成员的共同努力和影响,项目开源后可以吸引更多的人使用,从而提高项目的质量和成熟度;另一方面,企业提供中文语境下的模型和技术,能在全球开源项目中发出中国声音,同时也能够学习和借鉴国外的先进技术和经验,这种跨文化的合作和知识共享有助于推动整个领域的发展。
“在相当长的一段时间内,开源和商业化版本会并存,而且它们并不矛盾,而是相互促进、形成良性循环。”张鹏说道,“开源在保障生态多样性方面扮演着重要角色,而商业应用则关注稳定性、安全性和生态的持续性。只要能够建立良性循环,这种并存的格局将持续存在很长时间。”
不过,虽然开源是免费的,但企业商业化还是需要一些成本的,资金能力不同的企业需要在成本和质量之间寻求自己的平衡。厂商则需要为不同预算范围的客户设计不同的解决方案和产品,并考虑不同的定价策略,从而使用户的成本降低。
“现在更需要商业化人才”
智谱 AI 和 OpenAI 的团队构成在某种程度上是相似的,OpenAI 研究团队主要来自世界顶级大学,而智谱 AI 的团队主要来自清华大学。
在智谱 AI 早期,团队构建比较简单。最初的团队起源于实验室,由一些老师、学生以及工程师组成。研究人员和科学家在实验室里带领学生一起工作,研发新技术。然后,工程师将这些技术转化为系统和应用程序,而少数商业人员与客户互动。初期,商业化工作也由工程师或研究人员来担任,他们在多个领域兼职担任不同的职责。
智谱 AI 组织架构的发展是渐进式的:从内部研究开始,然后逐渐扩展到工程、系统平台、应用和商业化等领域,各部门之间不是独立的实体,而是相互协作、信息流畅的整体。这种紧密的团队协作方式减少了信息传递的损失,使团队能够更高效地应对快速变化的市场需求。
现在,智谱 AI 已经有大约 400 名正式员工,其中约 70% 从事研发工作。
管理方法上,智谱 AI 与一般的互联网企业相似。每个人都有自己的日常任务,但当需要集中精力处理某些事情时,如客户交付、产品开发或技术研究,公司就会从各个团队中选择适合的人负责。
团队的负责人在整个团队中发挥着管理和协调的关键作用,他们的职责包括确保各部门之间的高效协作。比如,在一个重要的商业化项目中,负责人的角色涵盖了项目从研究、开发到最终的市场推广的整个生命周期,这需要团队中的博士研究员、科学家、分级经理、工程师、系统专家和应用程序开发人员等人的共同协作。
同样,在研究性项目中,负责人也需要协调不同层次和专业领域的团队成员,以确保项目的成功。无论是商业项目还是研究项目,都需要各方面的知识和专业技能的有机结合来解决复杂的问题和推动项目取得成功。
随着公司的发展,智谱 AI 的团队构成也在随之变化。在早期,智谱 AI 要解决很多研究性问题,因此主要集中在研究团队。发展中期,团队增加了工程方面的人才,以优化模型的研发和训练,需要解决系统和应用相关的问题,并将应用推向市场。现在,智谱 AI 的团队更加需要商业方面的人才。
“大规模模型的商业化是一个新兴领域,需要面对一些独特的挑战,尤其是在教育客户和应对客户的各种问题时。”张鹏说道。
在张鹏看来,大模型时代的商业化人才需要具备强大的学习能力来快速掌握新技术和概念、需要有一定的技术敏感度、优秀的沟通能力和解决问题的能力,还要有具备市场洞察能力,以便制定有效的推广策略。
对于当下智谱 AI 的主题是将大型模型产业化并落地应用。这一阶段要求更广泛的技能和角色,技术方面主要包括以下:
- 数据分析师:整理、分析和处理大量数据,以确保数据的质量和有用性,以供模型的训练和应用。
- 提示词工程师:这是一个新兴的角色,专注与大型模型进行高效沟通,以产生客户所需的数据和回应。这个角色可能不需要深入研究和训练模型,但需要懂得如何有效地使用模型。
- 在特定领域或应用中的专家:能够为各种行业和领域提供个性化解决方案。
“这个时代对 IT 行业来说既是幸运,也具有挑战。因为技术变化如此之快,你必须保持高效地不断了解和深入研究新技术。今天掌握的知识在短短一个月内可能就会变得过时。”张鹏说道,“持续学习是一项非常重要的任务。”
结束语
目前,大家对大模型技术的认识参差不齐,这也导致了落地上的一些问题。比如有的客户对这项技术不太了解,不清楚厂商在做什么,因此会根据他们的理解提出很多问题。而也有客户则认为他们非常了解这项技术,因此会期望过高,并设定更高的目标。实际上,大家需要在一个相对合理的范围内达成一致。这也是张鹏最近分享的原因之一。
比尔盖茨曾说:“无论对谁来说,640K 内存都足够了”。然而,现在随处可见大内存的手机。未来,对于任何人来说都很难预测。
在张鹏看来,AIGC 未来发展会很像云计算的轨迹,成为基础设施,而不是互联网生态下的应用。
“在互联网应用中,有很多并行存在的应用,每个应用专注于特定场景。但基础设施领域的情况不同。基础设施的特点是随着规模的增加变得更加集中,资源的利用率越高、整体性能更高,产出投入比也更高。因此,基础设施需要规模效应,大型模型也具备这种特性。”张鹏解释道。
但在当前的成本和回报条件下,基础的通用模型仍需要足够大的数据、足够低的成本、足够多的计算能力来进行训练。因此,未来可能会出现几家公司将通用模型的智能水平提升到一定程度,其他公司在此基础上做行业模型和应用的情况。
谁能最终成为通用模型的“大家长”?这个问题还需要留给时间来回答。
本文节选自《中国卓越技术团队访谈录 & 架构师特刊》