新智元报道
来源:VB
编辑:好困
【新智元导读】AI初创公司Databricks在2月份10亿美元的G轮融资之后,又得到了16亿美元的H轮融资,估值达到380亿美元。
昨日,人工智能大数据初创公司Databricks成功完成了16亿美元的H轮融资,其估值达到了380亿美元。
此次融资由摩根士丹利的Counterpoint Global基金牵头,其他投资者包括AWS、Alphabet的CapitalG,以及微软等等。
加上今年2月10亿美元的G轮,目前Databricks融资总额达到近35亿美元。
这家位于加利福尼亚州旧金山的公司,是专注于分析和人工智能的初创公司之一,由加州大学伯克利分校AMPLab的七名研究人员于2013年创立。
Databricks开发并维护人工智能管理平台MLflow、数据分析工具Koalas和Delta Lake,为分析提供自动化集群管理等。
2020年6月,Databricks推出了一个新产品Delta Engine,在Delta Lake的基础上进行分层,提高了查询性能。
2020年11月,Databricks又推出了Databricks SQL,让客户可以在数据湖上直接运行商业智能和分析报告。
开放统一的AI平台
构建机器学习模型很难,将模型应用到生产中更难。
随着时间的推移保持数据质量和模型的准确性只是其中的一些挑战。
Databricks的出现则简化了机器学习的开发,从而实现大规模的数据准备、模型训练以及部署。
其中的Databricks ML Runtime提供了随时可用的优化机器学习环境,包括最流行的机器学习框架(scikit-learn、TensorFlow等)和Conda支持。
内置的AutoML,如超参数调整,有助于更快地得到结果,不必再受计算能力的限制。
广受欢迎的Lakehouse
Lakehouse结合了数据湖和数据仓库优势,解决了数据湖的局限性。
其采用了全新的系统设计,可直接在数据湖使用等低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
Databricks的首席执行官Ali Ghodsi表示,「Lakehouse之所以成功,是因为它极大地简化了客户的数据平台,支持商业智能、数据工程和人工智能」。
此外,企业无需在不同的系统之间移动数据,创建许多孤立的数据副本,并对组织实施大量复杂的操作。Lakehouse是让统一所有数据工作负载变得简单的关键。
虽然Databricks创造了Lakehouse这个词,但它已然成为一个流行术语,被Dremio、AWS和Starburst等竞争者大肆宣传。
此前,微软就与Databricks达成合作,在其Azure云上提供了第一方解决方案:Azure Databricks。
微软云计算和人工智能执行副总裁Scott Guthrie表示,「Azure Databricks是一个令人印象深刻的解决方案,为我们的客户带来了开放、灵活和可扩展的数据和人工智能能力的最新进展」。
此外,基于Apache Spark、Delta Lake和MLflow等技术和机器学习能力,让着数据科学家、数据工程师和软件工程师都使用他们喜欢的编程语言直接对湖进行文件访问。
Lakehouse的核心特征
- 事务支持
企业内部许多数据管道通常会并发读写数据。对ACID事务的支持确保了多方并发读写数据时的一致性问题。
- 模式执行和治理
Lakehouse可以支持模式执行和演进、支持DW模式架构(如星星或雪花模型),能够对数据完整性进行推理,并且具有稳健的审计机制
- BI支持
Lakehouse可以直接在源数据上使用BI工具。这样可以减少延迟,并降低在数据池和数据仓库中操作两个数据副本的成本。
- 存储与计算分离
在实践中,这意味着存储和计算使用单独的集群,因此这些系统能够扩展到支持更大的用户并发和数据量。
- 开放性
使用的存储格式是开放式和标准化的(如Parquet),Lakehouse提供了一个API,让各种工具和引擎可以有效地直接访问数据,其中就包括机器学习和Python/R库。
- 支持从非结构化数据到结构化数据的多种数据类型
Lakehouse可用于存储、优化、分析和访问许多新数据应用所需的数据类型,包括图像、视频、音频、半结构化数据和文本。
- 支持多种工作负载
包括数据科学、机器学习以及SQL和分析。可能需要多种工具来支持这些工作负载,但它们底层都依赖同一数据存储库
- 端到端流
实时报表是许多企业中的标准应用。对流的支持消除了需要构建单独系统来专门用于服务实时数据应用的需求。
Lakehouse是一种新的数据管理范式,它从根本上简化了企业数据基础设施,并且有望在机器学习即将颠覆每个行业的时代加速创新。
以往公司产品或决策过程中涉及的大多数数据都是来自操作系统的结构化数据,而现在,许多产品以计算机视觉和语音模型、文本挖掘等形式将AI融入其中。
目前来说,Lakehouse的性能仍可能落后于拥有多年投资和实际部署的专业系统(如数据仓库)。
不过,随着技术的不断发展和成熟,Lakehouse可以在保留更简单、更具成本效益的同时,为多种数据应用的核心特性提供服务,从而将差距逐渐缩小。
参考资料:
https://venturebeat.com/2021/08/31/databricks-expands-its-data-lake-analytics-with-1-5b-funding/
https://databricks.com
https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html