作者 | 凌敏
11 月 27 日,浪潮信息正式发布千亿级基础大模型“源 2.0”。该系列模型全面开源可商用,共包括参数值 102B(1026 亿)、51B(518 亿)、2B(21 亿)三个版本。与源 1.0 相比,源 2.0 在编程、推理、逻辑等方面均有提升。在 HumanEval、AGIEval、GMS8K 榜单中,源 2.0 可比肩 GPT4。
1 聚焦算法、数据和算力,源 2.0 如何再升级?
2021 年,浪潮信息曾发布中文巨量模型“源 1.0”,其参数规模为 2457 亿,该模型在语言智能方面表现优异,获得中文语言理解评测基准 CLUE 榜单的零样本学习(zero-shot)和小样本学习(few-shot)两类总榜冠军。
据浪潮信息人工智能软件研发总监吴韶华博士介绍,与源 1.0 相比,本次发布的源 2.0 在算法、数据和算力三大方向上均有升级创新。
在算法创新方面,源 1.0 的结构是一个典型的 Transformer 结构,而在源 2.0 中,团队在模型结构算法方面进行了重大创新,在 Transformer 结构中完全替换了自注意力层,创新型地提出新型 Attention 结构:局部注意力过滤增强机制 LFA(Localized Filtering-based Attention),通过先强化相邻词之间的关联性,然后再计算全局关联性的方法,模型能够更好地处理自然语言的语序排列问题,对于中文语境的关联语义理解更准确、更人性,为大模型创业者和开发者提供更加丰富、全面的助力,和更加开放的技术创新空间。
之所以设计这样的模型结构,是因为在经典的 Transformer 结构中,主要依赖自注意力机制来学习输入词之间的关系。以“我想吃中国菜”为例,当这句话输入模型时,首先需要进行分词,分词后可能会得到“我”、“想”、“吃”、“中国”、“菜”这几个词。然而,在自然语言中,“中国”和“菜”这两个词之间存在更强的关系和局部依赖性,“中国”直接修饰“菜”,而不修饰其他词。这种局部依赖性是自然语言中的一种强烈特性或模式。因此,浪潮信息团队设计了 LFA 结构来更好地捕捉这种局部依赖性,从而提高模型的效果和性能。
“在提出 LFA 结构的过程中,我们进行了一系列实验以寻找最佳结构。其中,最大的 Attention basic 实际上采用了 LLaMA 结构,消融实验中的模型也都基于 LLaMA 结构,唯一的区别在于 Attention 部分的实现方式。”吴韶华博士提到,相关研究表明,EMA 算法可以提高精度,降低测试损失值。但 EMA 在时序上全相关,计算逻辑复杂,需要使用快速傅里叶变换求解,导致计算开销非常大。因此,团队选择改进 EMA 结构。
“我们的改进方向是考虑 EMA 的局部性。最初,我们引入了卷积形式,通过变换卷积内核来实现全局结构和局部结构的互补。实验表明,随着卷积内核的提升,精度持续提升,但模型参数量和训练耗时也随之增加。由于参数量增加会导致更大的内存开销和训练成本,我们尝试保证更高精度的情况下降低参数量。我们将一层卷积改为两层,卷积尺寸保持不变,从而在计算量、内存开销和精度之间找到更好的平衡。为确保稳定计算,我们引入了 RMSNorm 机制。虽然这会增加一定计算耗时,但也带来了更高的精度表现。源 2.0 最终采用的算法结构是全卷积加上 RMSNorm 构建的 LFA 结构。”吴韶华博士补充道。
据介绍,源 2.0 的训练损失曲线表明,新结构可以有效提升精度、降低损失值。此外,源 2.0 在训练过程中的实际 tokens 数为 288Btokens,最大参数只有 1026 亿。与参数量为 2457 亿的源 1.0 相比,源 2.0 的训练损失值更低,说明源 2.0 对训练数据的特征学习能力更强。而这种改进主要归功于模型结构方面的优化。
在数据创新方面,源 1.0 主要使用了从互联网爬取的数据,团队通过构建一套海量数据清洗系统,对过去五年的中国互联网数据进行清洗,采用多种手段提纯数据,从 800 多 TB 压缩到 5TB,但这 5TB 的数据质量仍有提升空间。
在源 2.0 中,团队从两个角度构建数据集:一方面,从互联网上搜集本身质量较高的数据,如百科、书籍等;另一方面,筛选和翻译论文数据。此外,团队还引入了一部分独特的数据,包括社群数据和代码数据。为了获取高质量的中文社群数据,团队清洗了从 2018 年到 2023 年互联网上所有中文网页中的社群数据。经过清洗后发现,原始数据源约为 12PB,最终得到的中文社群数据量却只有不到 10GB,数据压缩比非常高。即便如此,其质量仍然不够高。
“我们采用了一种基于大模型生成高质量数据的方法,将这部分高质量数据用于预训练过程。具体构建策略是选取一批种子数据,进行扩充并放入大模型中生成合适的问题,再将问题送入模型生成合适的答案。在这个过程中,我们建立了一套自洽的逻辑来筛选数据。尽管这些数据是由大模型生成的,但我们仍然构建了一套额外的数据清洗流程来确保数据质量。我们将这些社群数据和代码数据应用于进一步的预训练的微调过程中。”吴韶华博士表示,这套数据构建方法能有效地解决互联网海量数据清洗中,即便投入大量精力也难以获得高质量数据的问题。当源 2.0 模型构建完成后,团队的后续计划是利用自己的模型生成更高质量的数据,形成一个数据循环,持续迭代并提升大模型能力。
在算力创新方面,为了使模型在各类计算设备上都有出色的性能表现,团队提出了一种创新的分布式计算方法,该方法结合了非均匀流水并行、优化器参数并行、数据并行以及损失计算分块。这种计算方法能够显著降低大模型训练过程中节点内 AI 芯片之间的通讯带宽需求。与传统的以张量并行为主的三维并行方法相比,这种方法具有更广泛的适应性,对带宽需求更小,同时能获得更高的性能表现。
为了对算法能力进行定量分析,团队还构建了两个性能模型。第一个是针对经典的张量并行、流水并行和数据并行构建的计算模型,这个模型考虑了训练过程中每一步迭代的耗时与各个参数之间的关系。在源 2.0 中,团队使用了分布式训练方法,并构建了第二种计算性能模型。这个模型考虑了流水并行、数据并行和优化器参数并行对整个计算时间的影响。
2 “百模大战”进入下半场,开源才是“最优解”
大模型的开源开放可以使不同的模型之间共享底层数据、算法和代码,有利于打破大模型孤岛,促进模型之间协作和更新迭代,并推动 AI 开发变得更加灵活和高效。同时,开源开放有利于推进“技术 行业”的闭环,以更丰富的高质量行业数据反哺模型,打造更强的技术产品,加速商业化进程。
浪潮信息董事长彭震曾公开表示,面对“AI 时代”的来临,“单打独斗”已不适应大科学时代的科技创新。随着“百模大战”进入下半场,经过众多科技探索和市场试错,业界共识也已经逐渐明晰:繁荣的开源模型生态体系是吸纳、培养用户的重要途经,也是避免当下 AI 大模型企业重复造轮子的商业新范式。
首先,大模型需要巨量资金的持续投入,B 端市场同样面临这个问题,从这一点说,大公司做大模型更有优势和可持续性,能够保持长期的重型投入,不断迭代,这个能力对于 B 端市场十分重要;其次,“众人拾柴火焰高”,以优秀的开源模型性能汇聚技术创新力量,以技术创新反哺大模型数据、工具、应用的迭代升级,才能为全球开发者、研究机构、科技企业提供坚实的底座和成长的土壤,激发无穷创新力。
自 2021 年发布开源开放计划以来,浪潮信息通过强大的通用智能和全栈的工具链服务能力,助力千行百业的开发者孵化出更多的爆款应用。此前浪潮信息发布的“源 1.0”大模型作为一种算法基础设施,构建了完善的开源平台和社区生态,方便开发者能够将自己的创意快速落地。据介绍,有开发者基于浪潮中文巨量模型“源 1.0”训练,用 B 站评论训练出一个反诈 AI;也有开发者基于“源 1.0”开发了一个“AI 剧本杀平台”,目前,业内还没有完全开源可商用的千亿大模型。本次全面开源的源 2.0 可以助力更多开发者打造生产工具,让大模型在更多场景中落地应用。
此外,在 11 月 29 日的 AICC 2023 人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及 1~2 条示例,由源团队来进行数据准备、模型训练并开源。
浪潮信息高级副总裁刘军认为,大模型的开源能够促进整个产业的协同发展,回顾过去所有成功的开源项目,它们都是整个社区的共同贡献所取得的成果。这就是开源的核心精神,即“我为人人,人人为我”。“我们希望这个产业能够百花齐放、更加丰富。因此,我们开源了我们的工作和整个代码、模型,以便其他人可以在我们的模型上取得出色的表现。虽然我们的模型可能无法在每个方面与 GPT-4 相媲美,但在某些重要方面,我们展示了先进的能力。这样,我们的开发者和用户可以在我们的模型上产生出色的用户端应用体验,这对于生态的发展至关重要。”
当前,中国做大模型的公司与 OpenAI 仍存在较大差距,而开源能够释放整个社区的智慧,一起进行生态和能力的建设,这也是我们尽快追赶国外领先公司的可行路径。刘军提到,当前很多模型都选择开源,未来的生成式 AI 是一个多元化的生态,每个模型都可能有其最擅长的能力。比如,A 模型擅长这些部分,B 模型擅长那些部分,C 模型擅长其他部分。大家加在一起可能就是一个非常出色的能力集合。“这个场景一定会出现的,在行业用户最终部署时,可能会有不同的模型在背后支撑。这就是我们对开源的思考。开源不是有你无我的关系,而是共同发展、共同服务客户的生态。”