报告解读:信通院发布2024《数据库发展研究报告》

2024-07-25 16:16:20 浏览数 (1)

信通院在2024年7月16日发布了年度《数据库发展研究报告》,摘录部分我感兴趣的内容和大家分享。在公众号回复:下载,可以找到报告下载地址。

【大模型与数据库】

关于大模型,报告中分析表示:大语言模型降低数据库操作门槛。这是LLM为数据库带来的一个确定性交互进展,大模型和数据库相结合,有助于进一步降低SQL对开发者甚至所有用户的交互门槛,让数据库交互更加简单。报告中的描述包括:

  • 通过引入大语言模型,能够简化和普及数据库操作,提高 SQL 查询效率和准确性,增强数据的可访问性,推动智能时代数据库的高速发展。
  • 利用当前快速发展的大模型自然语言对话能力,人工智能的判断和上下文理解能力,与数据库进行融合,为业务人员提供使用自然语言与数据库的对话能力。
  • 随着大语言模型(LLM)技术的普及,借助大模型微调(Fine Tuning)等技术将使用自然语言进行数据库查询,目前主要有 Text-to-SQL 和NLQuery-to-NLAnswer 两种技术路线
  • Text-to-SQL 的思路是将用户的自然语言查询转化为结构化的SQL 语句,NLQuery-to-NLAnswer 的思路则是端到端的查询意图到查询结果的映射,中间跳过 SQL 生成这一步骤。
  • Text-to-SQL 目前应用更广泛,但 NLQuery-to-NLAnswer 代表了未来的发展方向。二者在实现上各有利弊,但在语义理解、推理等内在能力上的要求是一致的。随着大语言模型的不断发展,这两个方向会逐渐趋同,最终形成大模型与数据库技术深度融合的新范式。
  • 蚂蚁集团发布了数据库领域的大模型框架 DB-GPT,通过融合先进的大模型和数据库技术,能够系统化打造企业级智能知识库、自动生成商业智能(BI)报告分析系统(GBI),以及处理日常数据和报表生成等多元化应用场景。
  • DB-GPT 是一个开源框架,专为数据库领域的大型语言模型(LLM)领域而设计。其主要目的是提供基础架构,以简化数据库相关应用程序的开发。

报告中以 AI 为主论调,认为“随着智能化时代来临,业务应用场景不断丰富”,数据库技术发展的主要特征包括3点:

  • 技术融合创新发展计算与数据库协同发展、技术洞悉数据关联价值、仓一体提升数据处理性能),
  • 新兴技术逐步应用落地向量数据库高效检索非结构化数据、多模数据库支撑多样化需求、全密态数据库护航敏感数据、时空数据库绘制空天信息新蓝图),
  • 人工智能与数据库双向赋能(人工智能推动数据库智能化、数据库助力人工智能有效落地)

【多模和全密态】

多模:康奈尔大学 Sawhan Jo 和 Immanuel Trummer 介绍了如何将多模数据库 Thalamus DB通过自然语言的方式对多模态数据进行 SQL 查询。用户可以将图片、文本及音频等信息作为查询字段从而建立模型寻找满足用户需求的相关产品。跨模访问是指在一个数据库系统中,用户可以通过一种数据模型的访问接口来查询和操作另一种数据模型的数据

全密态:密态数据库的概念最早可追溯至2011年 MIT 提出 CryptDB,该项目不是指某种特定的数据库,而是一种针对加密数据库的查询技术,允许用户将加密后的 SQL 数据库在不解密数据的情况下返回结果。全密态数据库是指能够提供对应用透明的加解密能力,在数据库系统中数据的全生命周期以密文形式进行处理,同时密钥掌握在授权用户手中的数据库管理系统。近年来,随着数据要素市场不断完善,在数据可信流通过程中,全密态数据库发挥了重要作用。

【最终结论】

产业层面看,全球数据库市场变革不断,形成多强竞争格局;我国数据库市场规模持续扩大,公有云市场占比进一步提升。数据库产品成熟度不断提升,人才生态日益丰富;开源和学术影响力显著增加,向量数据库等非关系型数据库成为学术研究新方向。

技术层面看,一方面,数据库持续与GPU、RDMA 等新兴硬件及云计算、图技术、隐私计算等新兴 IT 技术不断融合发展,以满足不断变革的新兴业务需求。另一方面,人工智能技术的高速发展也为数据库创新应用拓宽了更加丰富的应用场景

从应用侧看,我国数据库应用创新走深走实,由周边系统向核心系统逐步升级,不断推动组织数智化转型提质增效,大力激活数据要素价值,助力培育新质生产力,促进数字经济与实体经济深度融合。

【延伸阅读】

关于数据库和LLM的结合,是当下数据库领域具备相当确定性的事件,在Stonebraker教授的文章中同样有这样一个观点:

  • AI/ML对DBMS的影响将是显著的。DBMS如何与现代AI/ML工具交互已经成为一个关键问题,特别是随着LLMs的出现。由于LLMs在将NL转换为查询代码方面的进展,使用自然语言(NLs)查询数据库正在复苏。尽管LLMs在这项任务上取得了令人印象深刻的进展,但对那些认为NL将取代SQL的人持谨慎态度。使用AI/ML来优化DBMS的例子包括面向机器学习的查询优化器等。尽管这些基于ML的辅助优化是提高DBMS性能的强大工具,但它并没有消除对高质量系统工程的需求

注意,Stonebraker强调,尽管ML辅助优化对数据库大有益处,但是“它并没有消除对高质量系统工程的需求”。数据库的核心仍然需要精确性,特别是优化器技术。

0 人点赞