尽管大模型非常强大,但仍然有着自身的局限。大模型可以生成看起来非常值得信赖的内容并引用外部资源,但是,大模型本身并不能直接访问互联网也不能访问互联网的资源。偏见往往会使大模型产生某些定型的内容。当被问到一个不知道答案的问题时,大模型有时会产生“幻觉”或者产生错误的信息, 很多时候,即使是最简单的数学或常识的问题, 大模型仍然要挣扎一番。另外,通过操纵提示词,以忽略开发人员的指令并生成特定的内容。
大多数提示技术主要解决幻觉和解决数学/常识问题,而偏见和提示词攻击是需要单独讨论的话题。提示技术离不开提示词的编写,一些常见的规则可以帮助我们写出清晰而具体的提示词,例如:
- 准确地说出要做什么(写、总结、提取信息) ;
- 避免说什么不该做,而是说什么该做;
- 具体描述,不要说“几句话”,要说“两三句话”;
- 添加标记或分隔符以结构化提示符;
- 如果需要,请求结构化输出(JSON,HTML) ;
- 要求模型验证是否满足条件(例如: 如果你不知道答案,请说”没有相关资料“) ;
- 要求模型首先解释,然后提供答案(否则模型可能会试图证明一个不正确的答案)。
通过提示工程技术,我们可以引入更多的时间和空间以及内容的属性,有助于更好地生成提示词。那么,提示工程技术有哪些呢?我们如何更好地使用它们呢?
分类是认知的开始。现有的大多数提示技术可以分为三类:
- 单一提示技术:旨在优化一个提示的响应
- 多重提示技术:为了解决任务而多次查询模型(或模型)
- 大模型与外部工具结合的技术
1 单一提示技术
LLM 非常擅长一次性学习,但是他们仍然可能在复杂的任务中失败。单一提示技术是提示工程的基础,常见的技术手段有:
- Zero-Shot:使用自然语言指令的最简单的技术。
- One-shot:一次性学习
- Few-Shot:用正确的答案向模型演示类似的任务,提供一些关于标签空间、输入测试的分布和序列的整体格式的示例
- Chain of Thought(CoT):思想链的提示通过中间的推理步骤使复杂的推理能力成为可能。这种技术旨在使模型对每个步骤进行迭代和推理。
- Program-Aided Language Models (PAL):一种通过使用代码将解释扩展为自然语言来扩展思维链提示的方法,可以将LangChain中的 PALChain 作为参考实现。
2. 多重提示技术
基于不同的策略,将一个或几个提示技术组合在一起的,主要包括:
- 投票排名:应用投票来得到正确的答案,例如, 自我一致性的方法(Self-Consistency)。
- 分而治之:一组提示基于将复杂任务划分为几个提示,例如: 定向激励提示,知识生成,提示链,表链提示以及 Least-to-Most 的提示。
- 自我评估:将检查输出是否符合指令的步骤纳入框架,例如,思维树等。
2.1 投票排名
投票排名策略中的自我一致性方法基于这样的直觉: “一个复杂的推理问题通常需要多种不同的思维方式才能得到独一无二的正确答案”。它要求相同的思维链提示几次,从而产生一组不同的推理路径,然后通过应用投票选择最一致的答案.
一般地,对算术和常识任务而言,应用自我一致性的效果在常规基准测试中为4% -18% 。
2.2 分而治之
分治是算法设计中使用最为频繁的技术之一,在许多经典算法中都可以发现分治策略的影子。排序中的归并排序、快速排序,查找中的二分查找都是用分治策略来实现的。分治策略的思想是将一个复杂的问题分解为两个或更多的相同或相似的子问题,再把子问题分成更小的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。
定向激励提示
在定向激励提示中有两个步骤: 产生提示(例如,关键字)和使用它们来提高响应的质量。定向提示用于总结、对话响应应生成和思维链推理任务,包括两种模式:
- 一个小型可调整的策略模型被训练成产生提示(例如,一个暗示) ;
- 基于前一步的问题和提示,利用一个黑盒大模型来生成一个摘要。
其中,策略模型可以通过监督下的微调来优化,使用标注数据和线下或基于 LLM 输出的在线奖励来强化学习,为 LLM 提供针对特定输入的指导,以达到期望的目标。
知识生成
知识生成的提示技术使用一个单独的提示来首先生成知识,然后使用它来获得更好的响应。
一般包括两个阶段:
- 生成知识: 使用few-shot从大模型生成与问题相关的知识陈述。
- 知识整合: 使用另一个打磨下对每个知识语句进行预测,然后选择最高置信度的预测。
该方法不需要对知识集成进行特定任务的监督,也不需要访问结构化的知识库,但它提高了大模型在常识推理任务上的性能。
提示链
提示链是一种简单但功能强大的技术,这种技术将任务划分为子问题,并逐个提示模型。提示链对于完成复杂的任务非常有用,有助于提高 LLM 应用程序的透明度,增加可控性和可靠性。
Least to Most提示方法进一步添加了一个步骤,在这个步骤中,模型应该决定如何将任务分解为子问题,在与符号操作、组合概括和数学推理相关的任务中,Least to Most提示表现良好。 [最小到最大提示.png]()
表链
表链提示技术,将表格数据被明确地用在推理链中作为中间思维结果的代理,该算法包括两个步骤:首先是动态规划,大模型根据输入查询和以前操作的历史记录从操作池中抽样下一个操作(操作链) ,参数生成涉及使用 LLM 和编程语言的应用程序为前一步操作中选定的参数(例如新的列名)生成参数,以执行操作并创建相应的中间表。
2.3 自我评估
思维树(ToT)技术概括了思想链的方法,允许模型探索多个推理步骤和自我评估的选择。要实施 ToT 技术,必须决定四个问题::
- 如何将中间过程分解为思维步骤?
- 如何从每个状态产生潜在的想法?
- 如何启发式地计算状态(使用状态评估提示) ?
- 使用什么样的搜索算法?
输入的提示必须包括解决问题的中间步骤的描述,以及抽样的想法或生成这些想法的说明。状态评估提示必须提供指令,说明要在哪些提示上选择下一步。对于需要进行复杂计划或搜索的任务, ToT 相对成功。另外,LangChain 在experimental.tot.base.ToTChain 类中实现了思维树技术。
3. 使用外部工具的大模型
实际上,使用外部工具的大模型提示技术就是基于大模型的应用,主要包括RAG 和Agent。
3.1 RAG
RAG 结合了信息检索组件和文本生成模型,在检索步骤中,系统通常使用向量搜索来搜索可能回答问题的相关文档。接下来,将相关文档作为上下文与初始问题一起传递给大模型. 在大多数情况下,使用 RAG 方法意味着我们检索 k 文档,并使用它们生成回答用户查询的所有输出令牌。
RAG 中的大模型可以进行微调,但实际上很少这样做,因为经过预训练的 LLM 足够好,可以按原样使用,而且微调成本太高。此外,RAG 中的内部知识可以以一种有效的方式进行修改,而不需要对整个模型进行再训练。
RAG 产生的响应更加真实、具体和多样化,改善了事实验证的结果。关于RAG 的更多内容,可以参考《大模型系列——解读RAG》。
3.2 Agent
当前,已经有多种agent 技术框架,这里简要介绍Reflexion 和ReAct。
反思(Reflexion)是一个通过语言反馈来强化语言主体的框架。反射代理通过语言反映任务反馈信号,然后在记忆缓存中维持自己的反思文本,以诱导更好的决策在随后的试验。
一般地,反思框架由三种不同的模型组成: * Actor: 一个 LLM 模型,它基于状态观察生成文本和操作(使用 CoT 和 ReAct) * Evaluator: 一个 LLM 模型,它对Actor产生的输出进行评分 * Self-Reflection: 一个 LLM 模型,产生语言强化线索,以协助Actor自我完善
反思在需要顺序决策、编码和语言推理的任务中表现良好。
ReAct 的框架使用大模型以交错的方式生成推理轨迹和特定任务的行为: 推理轨迹帮助模型产生、跟踪和更新行动计划以及处理异常,而行为允许它与外部来源(如知识库或环境)接口交互并收集额外的信息。
ReAct 框架可以选择一个可用的工具(如搜索引擎、计算器、 SQL 代理) ,应用它并分析结果以决定下一个操作。ReAct 通过与简单的 Wikipedia API 交互,克服了思维链推理中的幻觉和错误传播的普遍问题,并产生比没有推理痕迹的基线更可解释的类人任务解决轨迹。具体地,可以参考使用 Langchain 工具实现 ReAct 的示例。
关于Agent 的更多信息,可以参考《基于大模型(LLM)的Agent 应用开发》以及《Agent 应用于提示工程》。
4. 提示评估技术
提示技术的测试指标在很大程度上取决于应用程序和可用资源,大模型提示词中的最小变化非常敏感,这些变化不是最优的,而且往往是主观的。无论选择哪种提示技术,将提示工程视为数据科学的过程都非常重要。这意味着创建一个测试集并选择指标,调优提示并评估它对测试集的影响。
尽管如此,提示的评估技术有一些基本的原则:
- 事实性和相关性: 生成的答案有多真实, 生成的答案与问题的相关程度。
- 检索:主要针对 RAG 和 Agent 管道,但可应用于生成的知识和定向提示,主要指标还是准召;
- 内部思维方式: Agent 和工具选择的准确性,为 Agent 提取工具参数, 从上下文中检索到正确的参数并进行了适当的转换, 在多轮对话中记住事实,正确的逻辑步骤,例如反思和思维链提示
- 非功能性:答案的风格和语气,没有偏见, 合规和安全检查, 提示注入实验。
5. 提示工程的方法小结
在应用提示工程的时候,提示语要清晰而准确,这样模型就不必猜测我们的意图。我们可以使用分隔符或标记添加结构, 通过展示示例和添加解释来帮助模型, 要求模型反复思考,解释它的解决方案。
对于复杂的提示词,请考虑将其拆分为子任务, 多问几次同样的问题, 并考虑添加一个模型自检的步骤。如果需要,将 LLM 与外部工具结合起来,并将提示调优视为一个数据科学过程,它是迭代的,需要评估。