及时雨！《多模态大模型：技术原理与实战》首发上市

近期，OpenAI首次开发者日上，不仅向大家演示了如何完全靠自然语言的输入创造出属于自己的GPTs，发布了帮助开发者在自己程序中构建Agent的Assistants API，同时表示多模态作为当前模型团队重点关注和发展的技术，开发者可以通过文本转语音 API 从文本生成人类质量的语音。

其实，多模态一直是科学界研究的重点方向之一，只是自2023年3月15日以来，OpenAI发布了GPT-4多模态大模型，便再次掀起了行业对多模态大语言模型（Multimodal Large Language Model，MLLM）的研究浪潮，这同时也预示着全民多模态时代即将到来。

在OpenAI发布多模态大模型之前，业界的大模型，更多的是指LLM（Large Language Model，大语言模型）！

而现在，全面融合文本信息、图像信息、语音信息、视频信息的多模态大模型将成为AI的基础设施，并有望将整个AIGC产业推向辉煌。

在阿里巴巴达摩院发布的《2023十大科技趋势》中，实现文本-图像-语音-视频“大统一”的多模态预训练大模型占据榜首。

什么是多模态

不同于对单一类别的数据进行处理、训练和推理的单模态学习，多模态学习指的是同时使用多个类别的数据，如文本、图像、语音、视频模态的数据，共同处理、训练和推理。

其实，多模态与我们的生活息息相关，我们每天都通过语言、文字来感知这个世界，并有数不尽的文本、图像、语音、视频信息每时每刻都在传播和存储。

多模态大模型赋予了用户不一样的内容生成能力，即输入一种模态的数据能生成其他模态的内容。

由于模态涵盖文本、图像、视频、语音等多种形态的数据，极大地满足了用户跨模态内容生成的需求，所以对多模态大模型的研发一直是商业和学术界的热点。

也因此，大家认为多模态大模型是AI技术未来发展的重要方向。

未来的机会在哪里？

2022年年底，ChatGPT的发布标志着对话大模型时代的到来。

对话大模型已经开始对工业界产生巨大影响。

这一影响是不可逆的，无论你是否有准备，大模型时代都到来了。

在这个大背景下，每个企业都应该有自己关于大模型研发或应用的计划，路径相对比较明确，要么重新训练一个大模型，要么在开源的大模型基础上做二次优化，要么采购第三方解决方案。

对于大模型的定义，目前学术界和工业界并没有统一，但普遍认为，大模型的参数至少要达到几十亿个级别。

面对如此多的参数，在训练大模型时，为了提高效率，一方面要尽可能优化训练过程，另一方面要尽可能压缩模型的大小，尤其中小公司对这两个方面的需求更显得无比强烈，这有助于大幅降低研究和应用成本。

面对这些问题，行业已经做了大量的研究，《多模态大模型：技术原理与实战》一书便从以上两方面详细介绍了中小公司应该如何高效地使用大模型。

中小公司在训练大模型时常常会面临一个问题，到底是完全自研还是在现有开源大模型的基础上进行二次开发？

在充分考虑成本和风险的情况下，中小公司一般会选择后者，其原因主要有以下几个。

（1）重新训练，消耗非常巨大。如果没有一大批非常优秀的技术人员而选择重新训练一个大模型，就显得毫无意义，只会浪费人力、物力和时间，而且效果也不一定比使用开源的大模型好。

（2）现有的大模型体系已经非常丰富，足够满足各方需求。GPT从提出到现在已有5年多，这段时间内产生了大量的大模型，总有一个大模型可以满足用户的需求。

（3）对话大模型的竞争已经白热化，可以说三天出现一个小应用，一周出现一个新模型；每一个企业都迫切地想落地应用自己的对话大模型，而对开源的大模型二次开发就是站在巨人的肩膀上，无疑是快速、高效的方法。

（4）中小公司的技术实力相对薄弱，且大模型的研发人员更稀缺，这让中小公司研发大模型难以实现。

中小公司微调大模型，最常见的是走SFT（有监督微调）的路线。当前的微调方式主要是采用LoRA（低秩适配）技术，行业还有针对性地开发出一系列LoRA工具套件，这些工具套件已经成为中小公司微调大模型的首选。

此外，除了LoRA工具套件，全量的微调对于几十亿个参数或者百亿个级参数的模型来说也是不错的选择。配合DeepSpeed等技术和工具，几十亿个参数的大模型可以直接在4块RTX A100型号的显卡上微调。

但是因为微调千亿个级参数的大模型消耗的资源很多、时间很长，所以对于大部分中小公司来说可行性不高。

另外，微调后的大模型仍然很大，动辄占用十多GB的显存，这对于许多商业应用来说十分不友好。

为了降低大模型所需显存的容量，还需要对大模型的大小进行压缩，以保证大模型可以应用到较小显存的GPU中，从而保障在线应用的效率。

常见的压缩方法主要包含量化压缩、剪枝、知识蒸馏，这些方法可以在有效地降低显存容量要求的同时，保证大模型仍然拥有十分优异的性能。

《多模态大模型：技术原理与实战》一书中便有对微调技术和压缩技术进行详细介绍，争取让每一位读者都能用较小容量的显存轻松地运行大模型，让更多的中小公司能够快速上马大模型，并尽快在垂直领域开花结果。

内容简介

本书详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。

为了让读者更好地进行大模型的应用实战，本书还详细介绍了使用大模型为商业赋能的3个应用案例。

期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。

本书适用于从事人工智能工作的专业技术人员，比如算法工程师、研发工程师等，也适用于对多模态大模型感兴趣的各类从业者，比如产品经理、项目经理和各级管理人员等。

作者寄语

ChatGPT和GPT-4这两个知名大模型的发布，让大模型迅速成为爆点，重新点燃了人们对通用人工智能的热情。

很多国家和地区都开始致力于大模型的研发、应用和推广。

我们认为，以大数据和人工智能为核心技术驱动的新的科技革命即将到来，数字赋能一切的新的数字经济范式也即将到来。

面对数字经济的时代大背景，无论从业者来自哪个行业（互联网行业、通信行业、金融行业、传统制造行业或服务行业等）、从事哪种职业（研发人员、工程师、设计师、编辑等），都会受到数字经济的影响。

大模型研发更像一场遍布全球的科技“军备竞赛”，模型的效果如果“差之毫厘”，面临的结局可能就是“谬以千里”。

从技术发展的角度来看，我们认为，单模态大模型只是过渡型技术，多模态大模型将成为通用人工智能赋能各行各业的重要技术底座。

当前国内详细介绍多模态大模型的发展历史、技术要点和应用方面的书籍少之又少，很多从业者即使想深入学习，也难以找到体系化的教材。

所以，我们撰写了本书。

大模型的核心特征是“大数据、大算力和大参数量”，这几个“大”字无疑极大地提高了人工智能大模型的研发、训练、部署和应用门槛。

中小公司有点玩不起人工智能大模型了，这是中小公司面临的难题。

基于此，本书详细介绍了中小公司的大模型构建之路，阐述了如何通过微调、量化压缩等技术构建垂直领域的轻量级大模型。

另外，为了更好地让来自不同领域的读者熟悉多模态大模型的价值，我们还详细阐述了多模态大模型在六大领域（分别是金融领域、出行与物流领域、电商领域、工业设计与生产领域、医疗健康领域和教育培训领域）的应用，帮助读者更好地理解多模态大模型的应用场景和可能产生的商业价值。

我们希望读者能够通过对本书的学习，更好、更快地拿起多模态大模型这个“强大武器”，高效地促进所在产业的数智化转型和变革。

同时，我们也希望通过本书的创作可以与研究和应用多模态大模型的专业人士深入、广泛地交流和合作。

行业模型研发语音原理

0 人点赞