大家好呀!这里是码农后端。近些年来,AI技术的持续火爆,无不印证了AI将引领下一场工业革命。认识AI并发展使用AI,是顺应时代和技术变革的需要。今天来简单聊一聊什么是生成式AI、什么是AIGC,及其背后的工作原理和关键技术。
一、背景引入
过去十年以来,AI 一直是热门技术话题,但生成式 AI,尤其是 2022年ChatGPT 的出现,使 AI 成为全球头条新闻,并掀起了前所未有的 AI 创新和采用浪潮。
生成式 AI 为个人和组织提供了巨大的工作效率优势,同时也产生了非常现实的挑战和风险,但企业正在向前迈进,深入了解该技术如何能改善其内部工作流程,并丰富其产品和服务。
管理咨询公司 McKinsey 的研究显示,三分之一的组织至少已经在一项业务职能中定期使用生成式 AI。行业分析机构 Gartner 预计,截至 2026 年,超过 80% 的组织将部署生成式 AI 应用程序,或使用生成式 AI 应用程序编程接口 (API)。
二、什么是生成式 AI?
回归正题,那么到底什么是生成式 AI呢?
生成式 AI,也称作 gen AI,是一种人工智能 (AI),能够创建原创内容,如文本、图像、视频、音频或软件代码来响应用户的提示或请求。
生成式 AI 依赖于复杂的机器学习模型,即深度学习模型,模拟人脑学习和决策过程的算法。这些模型的工作原理是识别大量数据中的模式和关系并对其进行编码,然后使用这些信息来理解用户的自然语言请求或问题,并以相关的新内容进行响应。
三、生成式 AI 的工作原理
大部分情况下,生成式 AI 分三个阶段运行:
- 训练,创建基础模型,作为多个生成式 AI 应用程序的基础。
- 调整,以针对特定的 gen AI 应用程序量身定制基础模型。
- 生成、评估和重新调整,评估生成式 AI 应用程序的输出,并不断提高其质量和准确性。
1、训练
生成式 AI 始于一个基础模型 – 深度学习模型,是多种不同类型生成式 AI 应用程序的基础。当下最常见的基础模型,是为文本生成应用程序而创建的大型语言模型 (LLM),也有用于图像生成、视频生成以及声音和音乐生成的基础模型,还有可以支持多种内容生成的多模态基础模型。
为了创建基础模型,需要在大量原始、非结构化、未标记的数据上训练深度学习算法,例如,从互联网或其他一些庞大的数据源中挑选出的 TB 级数据。在训练过程中,算法可执行和评估数百万次“填空”练习,尝试预测序列中的下一个元素。
例如,句子中的下一个词汇、图像中的下一个元素、代码行中的下一个命令,并不断调整自身,以最小化其预测与实际数据之间的差异。
这种训练的结果是一个由参数构成的神经网络,即数据中实体、模式和关系的编码表示,可以根据输入或提示自主生成内容。
但从时间和成本的角度来看,这是一种计算密集型、耗时且昂贵的训练流程,需要数千个集群图形处理单元 (GPU) 和数周的处理时间,所有这些将花费数百万美元。开源基础模型项目,例如 Meta 的 Llama-2,支持生成式 AI 开发人员避免这一步骤及其成本。
2、调整
2.1 为什么需要调整?
基础模型就像是一个多面手,它对很多类型的内容都有所了解,但通常无法以所需的准确性或精确度生成特定类型的输出
。为此必须针对特定的内容生成任务调整模型。
2.2 如何调整?
比如,某开发团队尝试创建客服聊天机器人,它将创建数百或数千个包含已标记客户服务问题和正确答案的文档,然后将这些文档提供给模型。
所以,调整主要是向模型反馈和输送特定于内容生成应用程序的标记数据(即应用程序可能收到的问题或提示,以及所需格式的相应正确答案)
在 RLHF(具备人类反馈的强化学习) 中,人类用户通过评估来响应生成的内容,此类评估可以帮助模型进行更新,以提高其准确性和相关性。通常,RLHF 涉及相关人员根据相同的提示对不同的输出进行“评分”。但这也可以很简单,比如让人员输入文字或通过语音回复聊天机器人或虚拟助手,以纠正其输出结果。
由于调整是一项劳动密集型工作。开发人员通常会将任务外包给拥有大量数据标记人员团队的公司。
3、生成、评估和重新调整
开发人员和用户会不断评估其生成式 AI 应用程序的输出,并进一步调整模型(甚至每周一次),以提高准确性或相关性。相比之下,基础模型本身的更新频率要低得多,可能每年或每 18 个月更新一次。
提高生成式 AI 应用程序性能的另一种方式是检索增强生成 (RAG)。RAG 是用于扩展基础模型的框架,以便使用训练数据之外的相关来源,作为原始模型中的参数或表示的补充并加以完善。
RAG 可以确保生成式 AI 应用程序始终能够访问最新信息。另外,通过 RAG 获取的额外资源对于用户而言公开透明,而原始基础模型中的知识则并不透明。
四、生成式 AI 可以创造哪些内容?
生成式 AI 可以在各种不同领域创建多种类型的内容。
- 文本。如博客、文章、报告、论文甚至是创意写作。
- 图片和视频。DALL-E、Midjourney 和 Stable Diffusion 等图像生成功能可以创建逼真的图像或原创艺术作品,并可以执行风格转换、图像到图像转换以及其他图像编辑或图像增强任务。
- 声音、语音和音乐。生成式模型可以为支持语音的 AI 聊天机器人和数字助理、有声读物旁白以及其他应用程序合成声音自然的语音和音频内容。同样的技术可生成模仿专业作品结构和声音的原创音乐。
- 软件代码。生成式 AI 可以生成原始代码、自动完成代码片段、在编程语言之间进行转换并总结代码功能。支持开发人员快速对应用程序进行原型设计、重构和调试,同时为编码任务提供自然语言界面。
- 设计和艺术。生成式 AI 模型可以生成独特的艺术和设计作品或协助进行图形设计。
- 模拟和合成数据。例如,将生成式 AI 应用于药物发现,以生成具有所需特性的分子结构,并帮助设计新的制药化合物。
五、生成式 AI 的优势
生成式 AI 较为明显的整体优势是效率更高。生成式 AI 可以按需生成内容和答案,因此有可能加速或自动化劳动密集型任务、降低成本并让员工腾出时间从事更高价值的工作。
同时,生成式 AI 也有其他一些益处。
1、增强创造力
生成式 AI 可以通过自动执行头脑风暴激发创造力,生成多个新颖内容版本。这些变体也可以作为起点或参考,帮助作者、艺术家、设计师和其他创作者越过创意障碍。
2、改进(并加速)决策
生成式 AI 擅长分析大型数据集、识别模式和提取有意义的洞察,然后根据这些洞察生成假设和建议,以支持高管、分析师、研究人员和其他专业人士做出更明智的数据驱动型决策。
3、动态个性化
在推荐系统和内容创建等应用场景中,生成式 AI 可以分析用户偏好和历史记录,并实时生成个性化内容,从而提供量身定制、更具吸引力的用户体验。
4、持续可用性
生成式 AI 可连续运行,不会疲劳,并为客户支持聊天机器人和自动响应等任务提供全天候可用性。
六、AIGC产业结构
AIGC(Artificial Intelligence Generated Content,生成式人工智能),是指基于生成对抗网络、大型预训练模型等人工智能的技术方法,通过已有数据的学习和识别,以适当的泛化能力生成相关内容的技术。
AI产业链主要由基础层、技术层、应用层三大层构成。其中基础层侧重于基础支撑平台的搭建,包含传感器、Al芯片、数据服务和计算平台;技术层侧重核心技术的研发,主要包括算法模型、基础框架、通用技术;应用层注重产业应用发展,主要包含行业解决方案服务、硬件产品和软件产品。
目前,国内AIGC产业链结构主要由基础大模型、行业/场景中模型、业务/领域小模型,Al基础设施、AIGC配套服务五部分构成,并且已经形成了丰富的产业链。
七、AIGC商业模式
目前AlGC主要的商业模式为MaaS (Model as a service),MaaS是一种云与大模型深度绑定后的新商业模式,以云为基础、模型为中心,提供众多预训练基础模型,只需针对具体场景作调整优化,就能够快速投入使用。
MaaS与云计算各层的商业结合,将会引发企业市场一场新的商业模式变革。
八、AIGC关键技术及配套服务
1、AIGC关键技术
实现AIGC更加智能化、实用化的三大要素是:数据、算力和算法。
1.1 数据
包括存储(集中式数据库、分布式数据库、云原生数据库、向量数据库)、来源(用户数据、公开域数据、私有域数据)、形态(结构化数据、非结构化数据)、处理(筛选、标注、处理、增强...)
1.2 算力
为AlGC提供基础算力的平台,包括半导体(CPU、GPU、DPU、TPU、NPU)、服务器、大模型算力集群、基于IaaS搭建分布式训练环境、自建数据中心部署。
1.3 算法
通过模型设计、模型训练、模型推理、模型部署步骤,完成从机器学习平台、模型训练平台到自动建模平台的构建,实现对实际业务的支撑与覆盖。
2、配套服务
围绕大模型,提供建模工具、安全服务、内容检测、基础平台等服务。
AIGC产业链上游主要提供AI技术及基础设施,包括数据供给方、数据分析及标注、创造者生态层、相关算法等。中游主要针对文字、图像、视频等垂直赛道,提供数据开发及管理工具,包括内容设计、运营增效、数据梳理等服务。下游包括内容终端市场、内容服务及分发平台、各类数字素材以及智能设备,AIGC内容检测等。