系统日报-20220421（Databricks 缘何成功？）

《系统日报》持续关注分布式系统、AI System，数据库、存储、大数据等相关领域文章。每天以摘要的形式精选不超过三篇系统文章分享给大家。如果你有好文章推荐，或者有其他任何想法，欢迎在 Articles Weekly Repo[1]提 issue。

Spark 背后的公司 Databricks 的前世今生

来源：https://guiguzaozhidao.fireside.fm/s6e06

摘要：早高峰的地铁上在朋友圈看到播客“What's Next | 科技早知道[2]” 客座主播 Howie 对 Databricks 华人联合创始人辛湜（Reynold Xin[3]）的采访，到公司了仍然没有听完，但收获良多，感兴趣的同学可以听一下。

Spark 作为一个成功的开源项目，在很多公司都早有落地；但是其背后的商业公司 Databricks，在近些年才被越来越多的提起。尤其是其友商“Snowflake” 以天价估值上市后，Databricks 作为对标更加炙手可热。为什么一个做开源基础软件的商业公司能够如此成功？他们做对了什么，又对中国当下类似定位的公司有什么启发？主播人虽然普通话口音有点奇怪，但是问的问题都非常有深度和引导性，让本次播客呈现了一场高质量的对话探讨。

下面凭记忆摘录一些：

Databricks 成立契机？

UC Berkeley 实验室同学参加 Netflix Challenge，为了实现多机处理数据造了一个数据处理框架。虽然由于晚交了 20min 没有拿到 100w 大奖，但是却孵化出了 Spark。辛湜是 2010 年到的 Berkeley 开始参与这个项目。

Databricks 如此成功是因为做对了什么？

从开始就坚持三个原则：All in Cloud、不做数据仓库、不做定制化和 Support。

All in Cloud 和不做定制化和 Support：使得基础软件能够规模化，最大化公司人员的单位产出。感觉有点像用 ToC 的方式去做 ToB 的产品，但也唯有如此，才能发挥软件架构价值，撑起想象力。

不做数据仓库：有其他一些大厂、云厂商本身也有平台优势，避开太卷的赛道。

为什么在公司诞生之初就能 ALL in Cloud？

是因为投资人吗？并不，大部分还是因为创始团队的 Berkeley 背景，有很强的 foresee 视野，对云时代的到来很坚定，还在 09 年发表过专门论文：Above the Clouds: A Berkeley View of Cloud Computing[4]，有上万篇引用，并且火到出圈。

在发展过程中对上述信条有没有过怀疑？

有过，还算比较幸运，因为都知道云是未来，但不知道这个未来是多久后来。比如 Cloudera 在 08-09 年成立时，从名字就可以看出想开启云时代，但生不逢时，后来还是改变了策略。

也有过很多其他道路的诱惑，比如有个 1000w 美元的大单子，只要求提供 support 。而刚开始时，Databricks 产品的营收甚至不如做 Spark 峰会的卖票钱。

刚开始，新入职的员工和融资时，All in Cloud 都会受到挑战，但是到 2018~2019 年左右就开始形成了共识，没人挑战了。

相对云厂商自身产品有什么优势？

云厂商有很多业务分散精力，小公司能够更专注，对 Spark 技术积累更多、所面临的场景理解更深。

Databricks 有没有业务暴增的转折点？

没有严格意义上的大客户的转折点，但有和 Azure 的合作值得一说。

15 年的时候 Amazon host Spark 已经有几个亿的营收了。Databricks 在 17 年和 Azure 的合作，做了叫做 Azure Databricks 的一款产品，大卖，成为了 Azure 的标杆服务。Azure 与 Databricks 互相成就，共同做大。

为什么决定做湖仓一体？

计算自然延伸到存储，开始做数据湖（面向数据科学家、深度学习场景）。为了消除用户组织内部的数据壁垒，自然想能不能打通数据湖和数据仓库（面向 BI ）？于是提出湖仓一体（Lakehouse）。

此外，辛湜还分享了通过“引荐”的招人制度，以及创业公司中一些问题。播客是个好媒介，可以利用碎片时间，一边听一边思考。

spark DevOps解决方案数据湖开源腾讯云开发者社区

0 人点赞