一、LLM基本概念
大模型LLM(Large Language Model)是指具有大规模参数和复杂计算结构的机器学习模型。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。大模型在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、语音识别和推荐系统等。大模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。
大模型本质上是一个使用海量数据训练而成的深度神经网络模型,其巨大的数据和参数规模,实现了智能的涌现,展现出类似人类的智能。
LLM的使用场景非常广泛。首先,LLM可以用于文本生成,可以生成连贯的段落、文章、对话等,可以应用于自动写作、机器翻译等任务中。其次,LLM可以用于问答系统,可以回答复杂的问题,甚至进行对话式问答。再者,LLM可以用于语义理解和推理,可以进行情感分析、命名实体识别、文本分类等任务。此外,LLM还可以用于智能助理、机器人交互、自动摘要、信息提取等应用领域。总的来说,LLM在自然语言处理和人工智能领域都有很大的潜力,可以提供更加智能和自然的人机交互体验。
二、名词解释:
大模型:一般指1亿以上参数的模型,但是这个标准一直在升级,目前万亿参数以上的模型也有了。大语言模型(Large Language Model,LLM)是针对语言的大模型。
175B、60B等:这些一般指参数的个数,B是Billion/十亿的意思,175B是1750亿参数,这是ChatGPT大约的参数规模。
强化学习:(Reinforcement Learning)一种机器学习的方法,通过从外部获得激励来校正学习方向从而获得一种自适应的学习能力。
基于人工反馈的强化学习(RLHF):(Reinforcement Learning from Human Feedback)构建人类反馈数据集,训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。
涌现:(Emergence)或称创发、突现、呈展、演生,是一种现象。许多小实体相互作用后产生了大实体,而这个大实体展现了组成它的小实体所不具有的特性。研究发现,模型规模达到一定阈值以上后,会在多步算术、大学考试、单词释义等场景的准确性显著提升,称为涌现。
泛化:(Generalization)模型泛化是指一些模型可以应用(泛化)到其他场景,通常为采用迁移学习、微调等手段实现泛化。
微调:(FineTuning)针对大量数据训练出来的预训练模型,后期采用业务相关数据进一步训练原先模型的相关部分,得到准确度更高的模型,或者更好的泛化。
指令微调:(Instruction FineTuning),针对已经存在的预训练模型,给出额外的指令或者标注数据集来提升模型的性能。
思维链:(Chain-of-Thought,CoT)。通过让大语言模型(LLM)将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。需指出,针对复杂问题,LLM直接给出错误答案的概率比较高。思维链可以看成是一种指令微调。
三、LLaMA
大语言模型 Meta AI (LLaMA) 是 Meta AI(属于 Meta Platforms Inc. 的一个人工智能实验室,前身为 Facebook, Inc.)从 2023 年 2 月开始开发的一系列大语言模型。
LLaMA 的第一个版本有四个模型大小,分别训练了 7、13、33 和 650 亿个参数。LLaMA 的开发者报告说,在大多数 NLP 基准测试中,130 亿个参数模型的性能超过了拥有 1750 亿个参数的更大得多的 GPT-3。
2023 年 7 月,Meta 宣布与 Microsoft 合作推出 Llama 2。
Llama 2 有三个模型大小,分别有 7、13 和 700 亿个参数。该模型架构与 Llama 1 模型基本保持不变,但用于训练的数据增加了 40%。
与 GPT-3 相比,LLaMA 具有以下主要区别:
LLaMA 使用 SwiGLU 激活函数,而不是 ReLU。
LLaMA 使用旋转位置嵌入,而不是绝对位置嵌入。
LLaMA 使用均方根层归一化,而不是标准层归一化。
LLaMA 将上下文长度从 2048(在 Llama 1 中)个标记增加到 4096(在 Llama 2 中)个标记。
与许多其他仍为专有的 LLM 不同,Meta 已根据非商业许可向研究界发布了 LLaMA 的模型权重。
四、大模型等级与能力
根据 DeedMind 的创始人兼首席 AGI 科学家 Shane Legg 的定义,AGI 能够执行一般人类可完成的认知任务、甚至超越这个范围。具体而言,AGI 应能够学习广泛任务,能够执行复杂、多步骤的任务。
DeepMind 根据 AI 模型性能和学习处理任务的广泛性对 AGI 水平进行分类,从 Level-0 无人工智能,到 Level-5 超越人类共 6 个等级。
现阶段大模型在处理任务的广泛性上还有很大提升空间,即使是国际顶尖的大模型也仍处于 Level-1Emerging AGI 阶段。各类大模型成熟度:语言大模型 > 多模态大模型 > 具身智能类大模型。
语言大模型: 能力相对完备,底层技术路线大多选择 Transformer Decoder-only 架构,结合MOE和多模态embedding,算法细节优化方向区别较小。
多模态大模: 已经能够面向 BC 端提供商业化产品,底层技术路线主要采用 Diffusion Transformer,但细节优化空间较大,高质量和成规模的数据集仍在发展初期;
具身智能类大模型: 还在探索阶段,底层技术路线尚不清晰,数据收集、训练方法、测评方法等都处于发展初期。在实际应用场景中准确率较低。
五、早期预训练神经语言模型
在探索大型语言模型(LLMs)的历史中,我们首先关注的是早期的预训练神经语言模型,它们可以视为现代LLMs的先驱。在这个领域中,特别引人注目的是GPT、LlaMA和PaLM这三大主要家族。每个家族都代表了LLMs的独特方向和突破。为了更深入地理解这些模型,我们准备了一张详细的对比表格。通过这张表格,我们可以清晰地看到各个模型的特性,进而了解它们之间的差异和各自的优势所在。