企业现在可以实施的五个生成式 AI 用例

围绕生成式AI 的炒作是真实存在的，数据和机器学习团队也感受到了热度。各个行业的高管都在推动他们的数据领导者构建AI驱动的产品，以节省时间、增加收入或者获得竞争优势。

OpenAI、谷歌、亚马逊和微软等科技巨头一直在不断向市场提供由大语言模型 ( LLM ) 和图像生成扩散模型驱动的功能。他们承诺帮助企业大规模分析数据、总结和综合信息、生成内容以及以其他方式实现业务转型。

但大多数企业在整合生成式AI 时应该从哪里开始？哪些生成式AI 用例是现实的可实现的，并且真正能够获得投资回报的？我们深入研究了早期实践者的策略，了解企业如何将这项技术运用到今天，以及数据团队如何大规模实施生成式AI。

为知识工作者构建更高效的工作流程

跨行业的公司正在通过自动化和简化知识工作者的时间密集型流程来推动早期的生成式AI 用例。

鉴于 LLM 有能力理解非结构化数据并从中提取见解，企业正在从大量内部信息的总结、分析、搜索和见解中发现价值。让我们探讨一下几个关键领域如何利用AI。

律师事务所

在法律行业，AI 驱动的系统通过以下方式帮助企业：

自动化监管监控，确保客户及时了解合规情况
起草和审查遗嘱和合同等标准文件
通过审查大量文件来协助尽职调查，以识别潜在的风险和问题
分析合同以标记可能的问题或提出修改建议
通过识别、分析和总结判例法、法规、期刊、法规和其他相关出版物中的相关信息来协助法律研究

技术解决方案：法律团队正在采用专门的解决方案，这些解决方案具有针对法律系统的定制模型或微调的 LLM ，包括CoCounsel（由 GPT-4 提供支持）、Harvey 和、路透社的软件套件。

现实生活中的用例：伦敦 Macfarlanes 律师事务所使用 Harvey 来支持研究、分析和总结文档，创建包括客户工作的电子邮件和备忘录的初稿，并由人类律师进行审查。

金融服务

早在 2023年初，高盛和花旗集团等华尔街机构就因数据隐私问题而禁止 ChatGPT 。尽管有这些“反AI”的头条新闻，金融行业多年来一直在使用机器学习为反欺诈算法和即时信用决策提供支持。金融产品和公司已经具有生成式AI 的潜在用例。

不过，目前 Databricks 估计金融服务中80% 的生成式AI 用例都集中在简化流程来节省时间和资源。包括了：

可以使用内部文档作为知识库的对话式金融聊天机器人。
自动化基本会计功能，例如发票获取和处理。
从年度报告、保险合同和电话会议记录等文件中分析、总结和提取见解。

此外，行业领导者认为通过AI检测和阻止金融犯罪和欺诈是个非常引人注目的应用。

技术解决方案：定制解决方案开始出现，包括 BloombergGPT，这是一个专门为金融服务开发的500亿参数的 LLM。

现实生活用例：2023年9月，摩根士丹利推出了一款AI助理，通过提供对其内部研究报告和文件数据库的访问来为财务顾问提供支持。员工可以使用该工具提出有关市场、内部流程和建议的问题。

销售团队

销售和营销团队正在大量采用生成式AI，用例如下：

撰写电子邮件、登陆页面、博客文章和其他内容的初稿。
根据CRM数据为个人提供个性化内容。
分析销售互动，来指导销售行为。
根据人口统计、公司统计和数字行为自动进行潜在客户评分。
总结电话和视频会议的互动。

技术解决方案：Gong 等销售平台使用专有模型来生成通话摘要并推荐后续步骤，以引导潜在客户完成购买。而Salesforce 的 Einstein Copilot 则根据客户的具体情况自动生成回复邮件和帐户更新。

现实生活中的用例：6sense 平台在其潜在客户沟通中使用支持 AI 的对话式电子邮件，该解决方案占了营销渠道获客的10%。

自动化工程和数据处理

在自动化编码和数据工程方面，生成式AI 正在简化工作流程并提高软件和数据工程师的生产力。

例如，团队可以使用生成式AI来：

自动生成代码块并检查代码是否有错误。
自动调试和纠正小错误，预测可能出现错误的位置。
生成大量反映现实世界信息的合成数据，以便工程师可以测试模型而不必担心隐私问题。
自动生成有关代码和项目的详细文档。
更容易地将遗留软件从 COBOL（在金融领域很常见并且成本很高）等语言更新为现代语言。

LLM 也被直接纳入开发人员解决方案中。例如，在 Monte Carlo 平台，我们利用 OpenAI API 支持两项功能——使用 AI 修复和生成，帮助团队更好地操作数据可视性。修复功能使用 LLM 来识别数据质量检查中的错误；生成功能使用 LLM 为新的数据质量检查生成建议。

即使在 OpenAI 本身，LLM 也被用来支持 DevOps 和内部职能。正如AI 专家主管 Yaniv Markovsi 告诉我们的，他们的团队使用 GPT 模型来聚合和翻译操作信号以了解客户在使用其产品时的体验，例如服务器日志或社交媒体事件。这比可靠性工程团队手动调查和分类事件的传统方法要简化得多。

技术解决方案：工程团队正在采用 GitHub Copilot 和 Amazon 的 CodeWhisperer 等工具来支持日常工作流程。开发人员可以通过提供自然语言提示获得 Python、JavaScript、Ruby 等语言的代码片段和使用建议。

现实生活中的用例：一家全球媒体公司的数据工程团队使用 LLM 将拉取请求分类为 dbt 工作流程所需不同级别的分类。根据更改的分类，模型会触发不同的构建命令，从而大大简化了开发工作流程。因为团队的替代方案是对一些复杂的解析进行硬编码，来确定哪个命令适合测试更改。

与公司其他部门一起实现数据民主化

在数据世界中，企业利用新一代AI的最成熟的方式是增加非技术消费者对数据的访问。LLM 为整个组织的团队成员提供了输入自然语言提示的路径，这些提示可以生成 SQL 查询来检索特定数据或回答复杂的问题。

Databricks 产品高级副总裁 Adam Conway 强调，这是公司最明确的第一步。

“我见过一些拥有大量文档的行业的例子，这些行业希望其内部团队能从数万页记录中检索答案，”Adam说。“这是正确的方法，因为风险很低。它允许你亲自动手，提供很多价值。在 Databricks，我们有一个内部聊天机器人，可以帮助员工解决问题并查看他们的数据。我们在那里看到了很多价值。”

技术解决方案：像 Databricks 这样的平台正在开发嵌入式功能。他们最近发布了 LakehouseIQ，承诺使团队能够以简单的语言查询数据。

虽然这些技术仍处于新兴阶段，但数据团队可以根据内部文档或知识库微调模型，为其组织构建定制功能，或者使用生成式AI 帮助员工快捷地进行自助查询，就像我们现实生活中的例子描述那样。

现实生活中的用例：直播购物平台 Whatnot 强烈鼓励每个员工学习SQL，以便他们可以查询自己的数据、创建自己的仪表板并编写自己的 dbt 模型，甚至跨营销、财务和运营等非技术部门。生成式AI 在员工培训中发挥着作用。

正如工程总监 Emmanuel Fuentes 最近告诉我们的那样，“它正在引导并帮助人们。如果他们进来时没有 SQL 背景，AI 会帮助他们快速地提升，这真是太好了。例如，如果有人不知道如何做一个窗口函数，可以描述他正在尝试做什么，马上就可以得到一个 SQL 块，和我们的数据表进行交互。这就像为一个不知道如何进行高级分析的人找了一位老师。”

扩大客户支持规模

客户支持团队值得称赞，他们是支持 LLM 的工作流程的特别理想的受众。通过将语义搜索合并到基本的聊天机器人和工作流程中，数据团队可以使团队更快地访问信息、创建响应和解决请求。

技术解决方案：一些 CX 解决方案已经在其平台中包含了生成式AI 功能。例如，Oracle 的 Fusion Cloud CX 使用 LLM 引用内部数据来帮助代理，根据客户交互历史记录生成对服务请求的即时响应，并建议生成新的知识库内容以响应新出现的服务问题。

现实生活中的用例：Vimeo 工程师使用生成式 AI 构建了帮助台聊天原型。该工具在矢量存储中索引公司 Zendesk 托管的帮助文章，并将该存储连接到 LLM 提供商。当客户与现有前端聊天机器人的对话不成功时，记录会发送给 LLM 以获得进一步帮助。 LLM 会将问题重新表述，在向量存储中查询具有相关内容的文章，并接收生成的相关文档。然后为客户生成最终的总结答案。

支持翻译和语言服务

最后，生成式AI 使得跨组织实现近乎即时翻译和语言支持的自动化成为可能。这些组织每年在语言服务上花费近 600亿美元，但只翻译其生成内容的一小部分。像 GPT-4 这样的大语言模型有潜力帮助团队提供多语言客户服务交互、进行全球情感分析以及大规模本地化内容。

技术解决方案：目前大多数模型可能缺乏训练数据来精通不太常用的语言，或者掌握口语或行业特定术语，因此团队可能需要微调模型才能产生可靠的结果。Google 正在开发一种可训练 400 多种语言的通用语音模型，目标是构建通用翻译器。

现实生活中的用例：健康科技公司 Vital 推出了一款由AI驱动的医生对患者的翻译器，可立即将高科技医学术语转换为简单的语言，这是对传统翻译模式的独特转变。

开始使用生成式AI 时的三个关键考虑因素

当您的团队涉足不断变化的新一代AI 领域时，需要牢记一些关键注意事项：

补充您的技术堆栈

拥有正确的技术堆栈来支持新一代AI 将有助于您的团队更快地扩展规模并创造价值。除了现代数据堆栈的常用组件之外，您还需要考虑添加：

矢量数据库

目前，矢量数据库是团队使用 OpenAI 的大语言模型构建可扩展应用程序的最有效方法之一。这些数据库支持矢量嵌入，它携带语义信息，帮助AI 理解数据中的关系和模式。

团队可以使用独立的矢量数据库（例如 Pinecone 或 Zilliz），或者在现有数据存储解决方案（例如 Databricks 和 Snowflake）中使用矢量嵌入功能。

微调模型

对于具有更多自定义需求的团队来说，微调模型（在特定于您的需求的数据集上训练预训练模型）可能是向量嵌入之外的下一步。Tensorflow和HuggingFace等工具是微调模型的不错选择。

非结构化或流数据处理

生成式AI 倾向于通过从大量非结构化数据中提取见解来提供最大价值。如果您尚未将非结构化数据处理合并到您的堆栈中，那么您可能需要实现 Spark 或 Kafka 等工具。

确保合适的团队和资源

创建AI 试点项目需要时间和资源。虽然你可能有一位热心的首席执行官，他会不惜一切代价将 AI 引入你的产品或业务，但现实地了解这需要多长时间和成本仍然很重要。

组建你的团队

您可能会将现有员工重新定向来证明一个概念，而不是立即雇用经验丰富的第二代AI 开发人员（部分原因是这是一个全新的领域，因此经验丰富的第三代AI 开发人员还不存在）。这些团队通常由具有一定机器学习背景的数据工程师组成。

换句话说，一些有价值的参与者需要从目前的创收工作中转移出来，来承担AI试点项目。需要考虑固有的机会成本并将其纳入整体规划中，将团队与业务发起人关联，后者可以倡导这种资源转移，让团队更接近业务价值。

考虑您的硬件成本

如果您计划对模型进行微调，并且是机器学习方面的新手，请预测并关注训练产生的计算成本。可以将这些 GPU 时间累加起来。

优先考虑数据质量

无论技术堆栈、选择的模型或用例如何，都需要确保数据输入和数据输出的质量。否则，将面临通过自然语言提示直接或通过AI 驱动产品间接暴露不良数据的风险。

生成式AI 有潜力改变每一项业务，但它并非没有风险和陷阱。数据测试、数据监控、AI 治理和数据可观测性有助于确保生成式AI 创造巨大价值，而不是令人尴尬的数据灾难。

特别感谢 Naren Venkatraman、Yaniv Markovski 和 Emmanuel Fuentes 抽出时间与我们讨论本文。

原文作者：Barr Moses

企业工作流解决方案模型数据

0 人点赞