就在本周一,大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资,对公司的估值为280亿美元。作为同类公司,之前Snowflake的IPO就引发资本的热捧,此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注?正如之前我的一篇《当红炸子鸡Snowflake》中谈到,“云计算 大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。
1. Databricks公司概况
人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,而且还不知道自己选错了题。正如人生最大的遗憾就是,不是你不行,而是你本可以。
Databricks成立于2013年,总部位于美国加州的旧金山。公司专注于大数据和人工智能,为数据和人工智能提供了一个开放和统一的平台,使数据科学团队能够更快,更安全地工作。目前这家初创公司拥有约1500名员工和6000家企业客户。公司创始人都曾经是 Apache Spark 背后的功臣,包括 Matei Zaharia(在加州大学伯克利分校 AMPLab 学习时开发出了 Spark),还有其他来自 AMPLab 或伯克利计算机学院的同僚们,如 Ion Stoica、Reynold Xin、Andy Konwinski 和 Arsalan Tavakoli-Shiraji。可以说Spark 之于 Databricks,就像 Hadoop 之于 Cloudera,或者 NoSQL 数据库之于 MongoDB。Spark 确实是 Databricks 公司规划的关键部分,但也只是他们多元化 SaaS 产品的一个组成元素。
1).融资情况
本次G轮融资是由富兰克林邓普顿基金集团领投,其他投资者还包括富达管理和研究公司、Whale Rock等,亚马逊云计算业务部门、Salesforce风投等也是新的战略投资者。在其以往的投资者中,还包括微软、Andreessen Horowitz、Alkeon 资本管理公司、贝莱德管理的基金和账户、Coatue管理公司、老虎环球管理的基金等。这其中微软、亚马逊颇为引入注目,因为这两者也是Databricks在云端托管的平台方。这两家公司的投资,也说明非常看好其未来发展,并愿意与之共同成长。此外,据外媒报道,华尔街对 Databricks 在 2021 年正式 IPO 抱有非常高的期待。一位知情人士表示:“当 Databricks 上市时,其市值可能会达到 350 亿美元,甚至可能高达 500 亿美元”。
2).业务模式
公有云在欧美国家已经成为主流,在这个大背景下,云原生成为了新一代数据架构的主流标准。公有云所提供的对象存储、弹性计算、按需使用等特性在架构设计的考虑中需要重新设计。除了公有云厂商的标配服务外,如 SnowFlake、Databricks 等跨云平台的第三方服务提供商自然也受到用户和资本市场的追捧。在其服务模式下,进入一种SaaS业务模式。与传统商业软件售卖模式或者类似红帽的开源商业模式(软件免费、服务收费)不同,后者提供的是一种云端托管类服务。在云端托管开源项目并把它们租给用户,这是一种更好的业务模式。这种模式的客户流失率更低,客户会更开心,利润增长更快。用户租赁 Databricks的服务,而后者负责保证安全性、可靠性和可用性。Databricks 使用开源软件(如 Kubernetes)为各种数据工程、数据分析和机器学习负载提供伸缩能力,还开发了专有软件来保证云服务的可用性。客户只要关心其自身业务即可。此外,SaaS 租赁模式还为 Databricks 的资产(也就是知识产权)提供了保护。Databricks 的核心知识产权并不存在于它所赞助的软件项目中,因为这些软件项目是公开的。事实上,Databricks 最有价值的知识产权存在于它用来监控和管理云端软件的工具和技术中,它们不会像经典的开源模式那么容易被泄露。
2. Databricks公司产品
人生基本上就是两件事,选题和解题。最好的人生是在每个关键点上,既选对题,又解好题。人生最大的痛苦在于解对了题,但选错了题,而且还不知道自己选错了题。正如人生最大的遗憾就是,不是你不行,而是你本可以。
Databricks产品,底层构建在公有云平台上,目前支持AWS和Azure;中层由多款产品组成Runtime环境,上层通过统一的Workspace方便数据人员进行工作。
- 数据科学家 通过可视化或选择语言快速浏览数据,进行协作,并通过实时交互仪表板来分享见解。
- ML工程师 协同构建和管理从试验到生产的模型,大规模部署以进行批处理或实时处理,并监视工作负载。
- 业务分析师 使用SQL、可视化报表等发现大型数据集的问题,并可使用BI工具分析。
- 数据工程师 使用Scale、Java和内置笔记本和API建立强大数据管道,自动化和监视生成作业。
❖ Spark
Databricks Runtime是基于高度优化的Apache Spark版本构建的数据处理引擎,性能提高了50倍。性能的显着提高实现了以前无法用于数据处理和管道的新用例,并提高了数据团队的生产力。Databricks为Spark封装了一套用于自动化和管理的集成服务,以使数据团队可以更轻松地构建和管理管道,同时为IT团队提供管理控制权。它在自动扩展基础架构上运行,无需DevOps即可轻松实现自助服务,同时还提供生产所需的安全性和管理控制。比以前更快地建立管道,安排工作和训练模型。此外,运行时利用自动扩展的计算和存储来管理基础架构成本。集群可以智能地启动和终止,而高性价比的性能可减少基础设施的支出。其产品具备以下特点:
- 缓存:使用快速中间数据格式将远程文件的副本缓存在本地存储中,从而提高了相同数据的连续读取速度。
- Z顺序聚类:同一信息在同一组文件中的共置可以显着减少需要读取的数据量,从而加快查询响应速度。
- 联接优化:通过不同的查询模式和偏斜提示,使用范围联接和偏斜联接优化可以显着提高性能。
- 数据跳过:在查询时使用有关在写入数据时自动收集的最小值和最大值的统计信息,以提供更快的查询。
- 易于使用的集群管理:用户友好的用户界面简化了群集的创建,重新启动和终止,为群集提供了更高的可见性,从而更易于管理和控制成本。
- 高可用性:Databricks集群管理器透明地重新启动任何被吊销或崩溃的工作实例,从而确保您的服务始终可以启动并运行,而无需您自己进行管理。
- 弹性按需集群:只需单击几下即可在几分钟内构建按需集群,然后根据您的当前需求进行放大或缩小。随着团队或服务需求的变化,重新配置或重用资源。
- 具有自动升级的向后兼容性:选择要使用的Spark版本,以确保旧版作业可以继续在以前的版本上运行,同时免费获得最新版本的Spark麻烦。
- 灵活的计划程序:按指定的计划在不同时区中从分钟到每月的时间间隔执行生产管道作业,包括cron语法和重新启动策略。
- 通知:每当生产工作开始,失败和/或完成时,通过电子邮件或第三方生产寻呼机集成,以零人工干预通知一组用户,使您放心。
- 灵活的作业类型:运行不同类型的作业以满足您的不同用例,包括笔记本,Spark JAR,自定义Spark库和应用程序。
- 优化的数据源:Spark数据源的中央存储库,具有广泛的支持,包括SQL,NoSQL,Columnar,Document,UDF,文件存储,文件格式,搜索引擎等。
❖ Delta Lake
Delta Lake是Linux Foundation的一个开源项目。数据以开放的Apache Parquet格式存储,从而允许任何兼容的读取器读取数据。API是开放的,并且与Apache Spark™兼容。在Delta Lake的支持下,Databricks将最好的数据仓库和数据湖整合到了Lakehouse体系结构中,从而为您提供了一个平台来协作处理所有数据,分析和AI工作负载。Delta Lake为数据湖带来了可靠性,性能和生命周期管理。由于缺乏对提取的数据的控制,数据湖经常存在数据质量问题。Delta Lake在数据湖中添加了一个存储层以管理数据质量,从而确保数据湖仅包含供消费者使用的高质量数据。不再有格式错误的数据提取,为合规性而删除数据的困难或为修改数据捕获而修改数据的问题。通过安全和可扩展的云服务,加快高质量数据进入数据湖的速度,以及团队可以利用这些数据的速度。其产品具备以下特点:
- ACID事务:多个数据管道可以同时将数据读取和写入数据湖。ACID Transactions通过可序列化(最强的隔离级别)确保数据完整性。
- 更新和删除:Delta Lake提供DML API来合并,更新和删除数据集。这使您可以轻松遵守GDPR / CCPA并简化变更数据捕获。
- 模式强制:指定并强制执行数据湖模式,确保数据类型正确且存在必填列,并防止不良数据导致数据损坏。
- 时间旅行(数据版本控制):数据快照使开发人员能够访问并还原到较早版本的数据,以审核数据更改,回滚错误更新或重现实验。
- 可扩展的元数据处理:Delta Lake利用Spark的分布式处理能力,像处理数据一样对待元数据。这允许具有数十亿个分区和文件的PB级表。
- 开放格式:Delta Lake中的所有数据均以Apache Parquet格式存储,从而使Delta Lake能够利用Parquet固有的高效压缩和编码方案。
- 统一的批处理和流源和接收器:Delta Lake中的表既是批处理表,又是流式源和接收器。流数据提取,批处理历史回填和交互式查询都可以直接使用。
- 模式演进:大数据在不断变化。Delta Lake使您能够更改可自动应用的表模式,而无需繁琐的DDL。
- 审核历史记录:Delta Lake交易日志记录有关数据所做的每次更改的详细信息,提供更改的完整历史记录,以进行合规性,审计和复制。
- 100%与Apache Spark API兼容:开发人员可以与现有的数据管道一起使用Delta Lake,而只需很少的更改,因为它与常用的大数据处理引擎Spark完全兼容。
❖ MLFlow和Koalas
MLFlow为数据科学家构建、测试和部署机器学习模型这个复杂的过程提供了标准化。Koalas 可以让数据科学家在笔记本电脑上使用 Pandas 编程,然后调用几个 API 就可以将工作负载部署到大型的分布式 Spark 集群上。