最近读到一篇关于2021年大数据和机器学习领域的综述性文章《Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape》,写的非常好,基本上把相关内容都涵盖了。本文选取了关于数据仓库的观点,进行了简单翻译。
2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金,甚至正在追求 IPO;另一方面则是新一代的数据和机器学习创业公司正在崛起,无论是几年前还是几个月前成立的公司都在过去一年左右经历了突飞猛进的增长。
这两条主线隐含着的因素就是狂热的风投融资环境,而更根本的因素则是市场的拐点可能正在到来。
众所周知,数据 AI是未来的趋势。
虽然现在依然有很多公司,对于数据的认知就是存储在关系数据库中的交易数据,也许还有一些报表用来对最近几个月发生的业务进行分析。但是对于另一部分公司而言,已经开始利用数据 AI实现实时提供公司指标、自动处理抵押贷款申请、人工智能聊天机器人提供 24/7 全天候客户支持、预测客户流失、实时检测网络威胁、供应链自动适应需求波动等等场景。
这几年最大的改变是云数据仓库的兴起。
数据仓库解决了数据基础设施中最基本的需求,虽然十几年前 Hadoop 的兴起已经解决了大数据量下的数据仓库建设问题,但是 Hadoop 技术过于复杂了,很多公司的技术力量不足以基于 Hadoop 构建自己的数据仓库体系,最经典的例子就是 Hadoop 的集成系统 CDH 背后的公司 Cloudera 被资本市场抛弃了。
而现在云数据仓库(Snowflake、Amazon Redshift 和 Google BigQuery)和 Lakehouses (Databricks) 性价比高,可以存储大量数据,也不需要大量的开发工程师。
换句话说,经过这么多年,大部分创业公司终于可以存储和处理大数据了。
这也解释了为什么会说市场进入了拐点,因为
- 首先,数据仓库的兴起不仅大大增加了其类别的市场规模,而且还大大增加了整个数据和人工智能生态系统的市场规模。由于它们的易用性和基于消费的定价(即付即用),数据仓库成为每家公司成为数据公司的门户。无论您是全球 2000 强公司还是处于早期阶段的初创公司,您现在都可以轻松开始构建核心数据基础架构。
- 数据仓库已经开启了围绕它们的工具和公司的整个生态系统:ETL、ELT、反向 ETL、以数据仓库为中心的数据质量工具、指标存储、增强分析等。这些东西被称为:现代数据堆栈。许多人将现代数据堆栈的出现视为启动新创业公司的机会,因此去年许多狂热的风险投资活动都集中在现代数据堆栈公司上也就不足为奇了。
- 云数据仓库解决了基本的存储层问题,从而解放了公司,让公司可以开始专注于在数据需求层次中出现更高的高价值项目。
Snowflake 只是想做云数据仓库,用于存储和处理大量结构化数据,Databricks 是 Spark 背后的商业公司,Spark 主要用于处理一般非结构化数据(任何类型的文本、音频、视频等)。
Snowflake 和 Databricks 两个公司的领域并不互相交叉,但是 Databricks 开始向其数据湖添加数据仓库功能,使数据分析师能够运行标准 SQL 查询,并添加 Tableau 或 Microsoft Power BI 等商业智能工具;Snowflake 一直在使其数据仓库看起来更像数据湖,它于 2020 年 11 月宣布支持非结构化数据,例如音频、视频、pdf、图像数据。
Snowflake 和 Databricks 都希望成为所有数据的中心:一个存储所有数据的存储库,无论是结构化的还是非结构化的,并运行所有分析,无论是历史(商业智能)还是预测(数据科学、ML/AI)。
Snowflake 和 Databricks 到底谁会成为赢家呢?拭目以待。
参考链接
https://mattturck.com/data2021/