提高大型语言模型（LLM）性能的四种数据清理技术

通过 RAG（搜索增强生成）解锁更准确、更有意义的 AI 结果。

image1

照片由Unsplash上的无修改提供

搜索增强生成（RAG）过程彻底增强对大语言模型（LLM）的理解、为它们提供上下文并帮助防止幻觉的潜力而受到欢迎。RAG 过程涉及几个步骤，从分块供应文档提取到上下文，再到用该上下文提示 LLM 模型。虽然 RAG 可以显着改善预测，但有时也会导致错误的结果。几个文档的方式在此过程中发挥了至关重要的作用。例如，如果我们的"上下文文档" " 包含大语言模型的拼写错误或不相似的字符（例如表情符号），则可能会混淆大语言模型对所提供的上下文的理解。

在这篇文章中，我们将演示如何使用四种常见的自然语言处理（NLP）技术来清理文本，然后将文本内容并转换为块以供大语言模型进一步处理。我们说明这些技术如何显着着增强模型对提示的响应。

image2

RAG 过程的步骤改编自RAG-Survey。

1. 为什么清理文档很重要？

在将文本输入任何类型的机器学习算法清理文本是标准做法。无论您之前使用的是监督算法还是无监督算法，甚至是为生成 AI（GAI）模型构建上下文，使文本保持良好状态都有助于：

确保准确性：通过消除一切错误保持一致，最终你就不太可能混淆模型或出现模型幻觉。

提高质量：更清晰的数据确保模型能够使用可靠且一致的信息，帮助我们的模型从准确的数据中进行推断。

促进分析：清晰的数据易于解释和分析。例如，使用纯文本训练的模型可能难以理解的表格数据。

通过清理我们的数据（尤其是非重构数据），我们为模型提供了可靠且相关的上下文，从而提高了生成，降低了幻觉的可能性，并提高了 GAI 的速度和性能，因为大量信息会导致更长的等待时间。

2. 如何实现数据清洗？

为了帮助您构建数据清理工具箱，我们将讨论四种 NLP 技术以及它们如何帮助模型。

2.1 步骤 1：数据清理和预留

我们将首先删除不提供意义的符号或字符，例如 HTML 标签（在预期的情况下）、XML 解析、JSON、表情符号和主题标签。不需要的字符通常会干扰模型，并增加上下文标记的数量，从而增加计算成本。

认识到没有一刀切的解决方案，我们将使用常见的清理技术来调整我们的方法以适应不同的问题和文本类型：

标记化：将文本分割成单独的单词或标记。

消除噪音：消除不需要的符号、表情符号、主题标签和 Unicode 字符。

规范化：将文本转换为小写以保持一致性。

删除废弃词：丢弃不会增加暗示的常见或重复的单词，例如"a"、"in"、"of"和"the"。

词形或词干提取：将单词简化为基本形式或词根形式。

我们以一条推文为例：

"I love coding!

性能 LLM text 模型数据

0 人点赞

上一篇：分享雷军22年前编写的代码

提高大型语言模型 （LLM） 性能的四种数据清理技术

提高大型语言模型（LLM）性能的四种数据清理技术