年MongoDB试图扩大其用户群,包括传统的数据库专业人员,但现在公司转变方向,为其NoSQL Atlas数据库服务(DBaaS)添加功能,将其打造成更完整的数据平台,以支持开发者构建生成式人工智能应用程序。
除了在Atlas中引入向量搜索和集成Google Cloud的Vertex AI基础模型外,该公司还在周四的MongoDB.local会议上宣布了各种新的DBaaS功能,包括新的Atlas搜索、数据流和查询功能。
"MongoDB宣布的所有内容都可以被视为将Atlas打造成更全面、更完整的数据平台,以便为开发人员提供所有需要的工具,MongoDB提供的工具越多,平台对这些开发人员和他们所工作的企业就越有吸引力。"Constellation Research的首席分析师Doug Henschen表示。
考虑到该公司一直在与云数据平台供应商竞争,如提供本地应用框架的Snowflake和最近推出Lakehouse Apps的Databricks,Henschen的观点似乎是合理的。
向量搜索有助于构建生成式AI应用程序
为了帮助企业基于存储在MongoDB中的数据构建基于生成式AI的应用程序,该公司在Atlas中引入了一个名为Atlas Vector Search的向量搜索功能。
该公司表示,这种新的搜索功能将有助于支持一系列新的工作负载,包括文本的语义搜索、图像搜索和高度个性化的产品推荐。
Ventana Research的研究总监Matt Aslett表示,该搜索运行在向量上,这是原始数据特征或属性的多维数学表示,可能包括文本、图像、音频或视频。
"Aslett说:"向量搜索利用向量执行相似性搜索,通过快速识别和检索相似或相关的数据,从而可以用来补充大型语言模型(LLMs),通过整合经过批准的企业内容和数据来减少有关准确性和信任的担忧。
MongoDB Atlas的向量搜索还将允许企业通过使用开源框架,如LangChain和LlamaIndex,来利用自己的数据增强预训练模型(例如GPT-4)的能力,该公司表示。
它补充说,这些框架可以用于访问来自MongoDB合作伙伴和模型提供商(如AWS、Databricks、Google Cloud、Microsoft Azure、MindsDB、Anthropic、Hugging Face和OpenAI)的LLMs,以生成向量嵌入并在Atlas上构建基于AI的应用程序。
MongoDB与Google Cloud合作
MongoDB与Google Cloud的合作旨在加速生成式AI应用程序的开发。该公司表示,Vertex AI将提供所需的文本嵌入API,以从存储在MongoDB Atlas中的企业数据生成嵌入。
这些嵌入可以与PaLM文本模型结合使用,创建高级功能,如语义搜索、分类、异常检测、基于AI的聊天机器人和文本摘要。
该合作还将允许企业从MongoDB和Google Cloud服务团队获得关于数据架构和索引设计、查询结构和微调AI模型的实际帮助。
Dremio、DataStax和Kinetica的数据库也正在添加生成式AI功能。
Aslett表示,MongoDB增加Atlas的向量搜索并不是独一无二的,但它将增强公司的竞争力。"有越来越多的专业向量数据库提供商,而现有数据库的多个供应商正在努力添加支持,将向量搜索带到已经存储在其数据平台中的数据中。"Aslett说。
在一个界面中管理实时流数据
为了帮助企业在单个界面中管理来自多个来源的实时流数据,MongoDB在Atlas中添加了一个流处理接口。
这个名为Atlas Stream Processing的新接口可以处理任何类型的数据,并具有灵活的数据模型,将允许企业实时分析数据并调整应用程序行为以适应最终客户的需求,该公司表示。
MongoDB声称,Atlas Stream Processing可以避免开发人员使用多个专业编程语言、库、应用程序编程接口(API)和驱动程序,同时避免使用这些多个工具的复杂性。
entana Research的一份报告称,到2025年,超过七成的企业标准信息架构将包括流数据和事件处理,以便提供更好的客户体验。
根据SanjMo的首席分析师Sanjeev Mohan的说法,Atlas Stream Processing也可以被开发人员用来执行聚合等功能,以及对存在于Kafka主题、Amazon Kinesis甚至MongoDB更改数据捕获中的数据进行过滤和异常检测。
该公司表示,Atlas Stream Processing内部的灵活数据模型也可以随时间而修改以适应需求。
Constellation的Henschen指出,将新接口添加到Atlas可以被视为追赶竞争对手数据云提供商(如Snowflake和Databricks),这些竞争对手已经推出了用于处理实时数据的功能。
新的Atlas搜索功能
为了帮助企业在Atlas上保持数据库和搜索性能,该公司推出了一项新功能,名为Atlas Search Nodes,可以将搜索工作负载与数据库工作负载隔离开来。
该公司表示,Atlas Search Nodes针对已经在MongoDB上扩展了搜索工作负载的企业,提供专用资源并优化资源利用,以支持这些特定工作负载的性能,包括向量搜索。
"Aslett表示:"企业可能会发现,在集群中专门为搜索分配节点可以通过避免其他工作负载的性能降级来支持运营效率。"他补充说,这是多个分布式数据库提供商正在采用的一种能力。
MongoDB对Atlas的更新还包括一个新的时间序列数据编辑功能,该公司声称,在大多数时间序列数据库中通常不允许这样做。
该公司的时间序列集合功能现在将允许企业修改时间序列数据,从而提高存储效率、准确的结果和更好的查询性能,该公司表示。
根据Mohan的说法,修改时间序列数据的功能将帮助大多数企业。
MongoDB Atlas的其他更新包括使用Atlas Online Archive和Atlas Data Federation功能在Microsoft Azure上分层和查询数据库的能力,该公司表示,同时指出Atlas已经支持在AWS上分层和查询。
作为在其MongoDB.local会议上宣布的更新的一部分,该公司表示,将推出一个针对金融服务的新的面向行业的Atlas数据库计划,随后是其他行业领域,如零售、医疗保健、保险、制造业和汽车业。
这些面向行业的计划将使该公司提供专家主导的架构设计审查、通过研讨会等工具的技术合作,以便企业构建垂直特定的解决方案。该公司还将提供定制的MongoDB University课程和学习材料,以便开发人员为他们的企业项目做好准备。
虽然该公司没有立即提供有关新功能的可用性和定价的信息,但它表示正在推出其关系迁移工具。
该工具旨在帮助企业将其传统数据库迁移到现代的基于文档的数据库。
通常,MongoDB开发人员通过公共云提供商的CloudFormation Public Registry、Partner Solution Deployments和其Cloud Development Kit(CDK)来管理AWS上的基础架构即代码(IaC)。
该公司还为构建服务器端应用程序的开发人员添加了对Kotlin的支持。该公司表示,以前,开发人员可以使用MongoDB Realm Kotlin软件开发工具包(SDK)进行客户端开发,但服务器端开发人员依赖于没有官方MongoDB支持的社区创建的驱动程序,或者必须编写大量自定义代码。
它补充说:"因此,开发人员在MongoDB上构建服务器端Kotlin应用程序时面临着更长的软件开发周期,并且在没有完全支持的MongoDB Kotlin驱动程序的情况下会面临应用程序可靠性风险。"
MongoDB还提供了一种更简单的安装Atlas Kubernetes Operator的方法——这是开发人员用来管理项目和数据库集群的工具。
该公司表示:"使用MongoDB Atlas命令行界面(CLI),开发人员现在可以快速安装MongoDB Atlas Kubernetes Operator并生成安全凭据,以减少操作开销。"它补充说,开发人员现在可以使用单个命令导入现有的MongoDB Atlas项目和部署。
该公司表示,这个更新预计将为开发人员在处理容器时提供更大的灵活性。
虽然该公司没有立即提供有关新功能可用性的信息,但它表示正在使开源PyMongoArrow库普遍可用。
该库可以用于将存储在MongoDB上的数据转换为使用流行的框架(如Apache Arrow Tables、Pandas、DataFrames和Numpy Arrays)的数据。