《系统日报》持续关注分布式系统、AI System,数据库、存储、大数据等相关领域文章。每天以摘要的形式精选不超过三篇系统文章分享给大家。 如果你有好文章推荐,或者有其他任何想法,欢迎在 Articles Weekly Repo[1]提 issue。
Spark 背后的公司 Databricks 的前世今生
来源:https://guiguzaozhidao.fireside.fm/s6e06
摘要:早高峰的地铁上在朋友圈看到播客“What's Next | 科技早知道[2]” 客座主播 Howie 对 Databricks 华人联合创始人辛湜(Reynold Xin[3])的采访,到公司了仍然没有听完,但收获良多,感兴趣的同学可以听一下。
Spark 作为一个成功的开源项目,在很多公司都早有落地;但是其背后的商业公司 Databricks,在近些年才被越来越多的提起。尤其是其友商“Snowflake” 以天价估值上市后,Databricks 作为对标更加炙手可热。为什么一个做开源基础软件的商业公司能够如此成功?他们做对了什么,又对中国当下类似定位的公司有什么启发?主播人虽然普通话口音有点奇怪,但是问的问题都非常有深度和引导性,让本次播客呈现了一场高质量的对话探讨。
下面凭记忆摘录一些:
Databricks 成立契机?
UC Berkeley 实验室同学参加 Netflix Challenge,为了实现多机处理数据造了一个数据处理框架。虽然由于晚交了 20min 没有拿到 100w 大奖,但是却孵化出了 Spark。辛湜是 2010 年到的 Berkeley 开始参与这个项目。
Databricks 如此成功是因为做对了什么?
从开始就坚持三个原则:All in Cloud、不做数据仓库、不做定制化和 Support。
All in Cloud 和不做定制化和 Support:使得基础软件能够规模化,最大化公司人员的单位产出。感觉有点像用 ToC 的方式去做 ToB 的产品,但也唯有如此,才能发挥软件架构价值,撑起想象力。
不做数据仓库:有其他一些大厂、云厂商本身也有平台优势,避开太卷的赛道。
为什么在公司诞生之初就能 ALL in Cloud?
是因为投资人吗?并不,大部分还是因为创始团队的 Berkeley 背景,有很强的 foresee 视野,对云时代的到来很坚定,还在 09 年发表过专门论文:Above the Clouds: A Berkeley View of Cloud Computing[4],有上万篇引用,并且火到出圈。
在发展过程中对上述信条有没有过怀疑?
有过,还算比较幸运,因为都知道云是未来,但不知道这个未来是多久后来。比如 Cloudera 在 08-09 年成立时,从名字就可以看出想开启云时代,但生不逢时,后来还是改变了策略。
也有过很多其他道路的诱惑,比如有个 1000w 美元的大单子,只要求提供 support 。而刚开始时,Databricks 产品的营收甚至不如做 Spark 峰会的卖票钱。
刚开始,新入职的员工和融资时,All in Cloud 都会受到挑战,但是到 2018~2019 年左右就开始形成了共识,没人挑战了。
相对云厂商自身产品有什么优势?
云厂商有很多业务分散精力,小公司能够更专注,对 Spark 技术积累更多、所面临的场景理解更深。
Databricks 有没有业务暴增的转折点?
没有严格意义上的大客户的转折点,但有和 Azure 的合作值得一说。
15 年的时候 Amazon host Spark 已经有几个亿的营收了。Databricks 在 17 年和 Azure 的合作,做了叫做 Azure Databricks 的一款产品,大卖,成为了 Azure 的标杆服务。Azure 与 Databricks 互相成就,共同做大。
为什么决定做湖仓一体?
计算自然延伸到存储,开始做数据湖(面向数据科学家、深度学习场景)。为了消除用户组织内部的数据壁垒,自然想能不能打通数据湖和数据仓库(面向 BI )?于是提出湖仓一体(Lakehouse)。
此外,辛湜还分享了通过“引荐”的招人制度,以及创业公司中一些问题。播客是个好媒介,可以利用碎片时间,一边听一边思考。