治理越强大,员工在不给公司带来额外风险的情况下自由探索数据的可能性就越大。
译自 Implementing Robust AI Governance for Data Democratization,作者 Christian Kleinerman。
生成式 AI 的快速兴起让更多人能够释放数据的力量,获得新的见解并做出更好的决策,但授予更广泛的数据访问权限需要制定数据治理策略。能够平衡这些看似对立的趋势(实现数据民主化,同时对数据保持强有力的治理)的企业将通过释放独特的数据驱动见解在市场中脱颖而出。
根据 Gartner 的说法,到 2026 年,超过 80% 的企业将使用生成式 AI API 和模型,或部署生成式 AI 驱动的应用程序,高于去年的不到 5%。生成式 AI 的自然语言界面允许非技术用户(从部门主管到一线员工)更轻松地访问和使用数据。这在信息和技能访问方面平衡了竞争环境,Gartner 称其为“本十年最具颠覆性的趋势之一”。
以这种方式实现数据民主化使得强有力的治理变得更加关键,如果公司要避免增加隐私、安全和数据质量方面的风险。这意味着确切地知道你拥有什么数据、数据驻留在何处、谁有权访问数据以及允许每种类型的用户如何使用数据。但是,组织如何在不扼杀创新性的情况下制定全面的控制措施?
从高层面来看,理想的方法是将数据统一到一个综合存储库中,多个团队和工作组可以轻松安全地访问该存储库。统一数据允许组织集中治理并扩大对该数据的访问,同时最大程度地降低复杂性并优化成本。
实际上,这可能具有挑战性,因为数据主权法要求将某些数据保存在特定国家或地区。在这种情况下,组织应尽可能消除孤岛,并在其数据平台上应用一致的治理框架。
除此之外,一些特定的方法和技术有助于确保组织在通过生成式 AI 扩大数据访问权限的同时,能够保持强有力的治理。其中一些是适用于任何环境的基本治理实践,但当生成式 AI 进一步实现数据访问民主化 时,它们变得更加重要。
隐私和合规的细粒度控制
随着越来越多的员工获得更多数据访问权限,个人身份信息 (PII) 可能被泄露或被错误的用户看到,潜在风险只会增加。细粒度控制策略以及匿名化和去标识化技术对于确保法规遵从性并防止错误的人员访问数据至关重要。
在我们新的2024 年数据趋势报告 中,分析了 Snowflake Data Cloud 中的趋势,我们注意到使用治理功能大幅增加,这些功能对数据提供精细控制,同时还使更多用户可以根据更多用例适当访问数据。例如,在截至 2024 年 1 月 31 日的 12 个月中,应用掩码或行访问策略的使用增加了 98%,而去年同期的使用量增加了 97%;同时,分配了掩码策略的列数增加了 97%。
然而,值得注意的是,针对受策略保护的对象运行的查询总数增加了 142%。这个数字很重要,因为它表明良好的数据治理并不是说“不”并限制数据使用。尽管通过使用标签和掩码策略看到了越来越多的治理,但报告指出,使用此数据完成的工作量正在迅速增加。
在某些情况下,员工可能希望检查他们无法直接访问的数据集。差分隐私在这种情况下是一种强大的技术,因为它允许用户通过查看数据集中的模式来共享和探索数据集,但不会泄露任何个别用户的 PII。更进一步,数据净室允许多方协作处理数据,而无需向彼此公开原始数据。数据净室通常用于在不同组织之间共享数据,但我们看到该技术在内部用于满足不断增长的监管和隐私需求,并且它可以成为在生成式 AI 界面上下文中探索 PII 数据的有效技术。
一致、协调的安全
安全性应内置到数据平台的架构中,而不是尝试稍后将其附加到各个数据集和用户上。为会话界面提供支持的技术不应必须重复数据上的身份和其他核心权限,这会导致脆弱的设置。如果两个或更多系统跟踪谁可以访问哪些数据,则错误和未经授权访问的可能性会大大增加。
在生成式 AI 用例中保护数据方面可以发挥关键作用的技术包括持续风险监控和保护、基于角色的访问控制 (RBAC) 和细粒度授权策略。基于角色的标记和基于标记的屏蔽策略允许您通过将屏蔽策略分配给标记,然后在数据库对象上设置一个或多个标记来保护列级别的的数据。
数据孤岛是良好治理的敌人
将数据的副本或片段存储在不同的系统中,使得跟踪谁可以访问哪些信息以及保持访问和控制策略的一致性变得极其困难。这就是数据孤岛成为强大治理的敌人的原因。
数据孤岛还使得难以确保员工查询的是最新且准确的数据,这可能会导致代价高昂的错误。为了通过生成式 AI 授予对数据的广泛访问,组织需要一个单一的事实来源,以确保所有员工查看相同的信息,并且可以在所有数据中全面应用和更新控制和策略。
确保数据质量以获得准确的结果
即使您消除了孤岛并拥有适当的权限,也不能保证员工访问的信息是正确的。基于应用于表中特定列或一组列的可配置数据质量规则的数据质量框架可以帮助检测质量问题并确保信息的准确性。
此外,正如我们现在所知,生成式 AI 有时会“产生幻觉”并产生不符合事实的答案,这对于企业使用来说是不可接受的。组织可以通过将 大型语言模型 (LLM) 与他们知道可信的数据源(例如内部客户数据库或来自受信任的第三方提供商的经过审查的数据集)相结合来解决此问题。
可以使用需要 LLM 定制(例如微调)或不需要 LLM 定制(例如提示工程或 检索增强生成 (RAG))的过程来合并这些可信的数据源。在任何一种情况下,这些技术都有助于确保员工在遵守内置于内部云环境中的治理标准的同时获得准确、高质量的结果。
数据访问和通用搜索的力量
生成式 AI 治理的一个重要方面是让员工轻松找到合适的数据集和数据产品以帮助他们进行分析。AI 如此强大的一个原因是它允许员工与数据交互,而无需通过中央团队,但这要求这些员工知道哪些数据对他们可用以及如何找到这些数据。
搜索功能提供了此功能,允许用户查找和查询数据集和数据产品。此搜索功能本身可以由 LLM 提供支持,以使数据搜索更加直观——这是我们在 开发 Snowflake 作为我们通用搜索的一部分。
治理是数据民主化的基础
业务用户渴望更广泛地利用其组织的数据,而生成式 AI 终于使这成为可能。得益于 LLM 和自然语言处理,财务、人力资源、销售和运营等领域的员工现在可以针对其角色制定具体问题,并获得做出更明智决策所需的答案。
但是,为了满足组织的安全性和合规性需求,这只能在具有强大治理的环境中发生。治理越强大,您的员工就可以更自由地探索数据,而不会给公司带来额外的风险。生成式 AI 已为真正的民主化数据打开了大门,而良好的治理是使其成为可能的基础。