Databricks是大数据领域的元老公司,我印象中在14/15年那段时间是和Cloudera、Hortonworks齐名的,而18年那两家已经走下坡路合并了,但Databricks反而这几年越来越好,和Snowflake成为双子星。我司也用Spark(或者说它是批计算的业界标准),并且基于它们提出的Lakehouse湖仓一体架构。很有幸能听到它的华人联合创始人辛湜的分享。
公司成立初期从大方向上做的3个决定:针对云、不做数仓(流行的业务)、不做纯服务;我觉得是绝大多数产品型创业公司都会面临的抉择。但似乎国内的大部分都不是这样简单直接的做出选择,而是在商业环境和坚持初心中摇摆妥协(或者说拥抱变化),所以Reynold的分享和思考更为难能可贵。标题的“长期主义”是很好的概括。
原播客在《科技早知道》S6E06,想要边听边看的可以点击“阅读原文”或访问 https://u3cexcdeqf.feishu.cn/minutes/obcnnk3a6313645l425yg6m3?from=from_copylink 。以下文字记录基本从播客文字中复制,所以采取问题 我总结的原话摘要的形式记录。
问题:Databricks最开始的时候给我们分享一下可以吗?
总结:公司成立初期,从大方向上做了3个决定,这3个决定并没有错,但是从商业化的角度上有一些很大的阻力。
1.针对云。我们考虑云可以做到更快的部署,而且从软件的角度来说,软件维护本身是一件很复杂很麻烦的事情。所以我们觉得云,未来不管是从对于我们自己部署角度,还是对于客户的value来说都会比较大。
2.不做data warehousing。我们觉得data warehouse其实是一个竞争非常激烈的方向,有很多竞争者,就云厂商本身自己在有对Data Warehouse非常大的投入。我们决定针对 data science, data engineering 还有 AI 这个方向做我们的第一个产品。后来因为数据的大量爆发,然后因为你需要有很多人能够真正的去了解数据,data scientist这个职业慢慢真的起来了。然后其实也让我们的第一个产品有一个得天独厚的优势,因为根本市面上没有任何竞争的产品,在最开始。我们在寻找一个新的,但是当时还比较小,但是我们觉得会有就是爆炸性增长的一个市场。
3.不纯粹做support或者professional services。我们Spark当时作为一个开源项目已经小有名气,很多公司希望直接给你做 support,甚至可以砸比如说1000万美金。但我们一直都说: no, absolutely no, we don't want to,就我们不希望作为 support 或者这个咨询的公司,我们更希望做一个产品,做一个平台。
问题:这些决定是怎么做出来的?
总结:这其实跟Berkeley当时的环境有关,在云计算 cloud computing 上有一篇非常有名的论文《A Berkeley view of cloud computing》。可能有几万篇引用,当时就是包括了Databricks的几个联合创始人都在上面。他们当时就写出了一篇未来云计算会不可避免的会取代几乎所有的计算。那篇论文本身就是从基础的economics的角度,为什么商学院会去读这篇,它不存粹是一个技术论文,其实就阐述了为什么未来一定会变成云计算为主的,所以那个对我们其实有很大的影响。
另外一个是就是Spark 开始之后,我们跟业界有非常多的交流。那个时候我们就碰到了很多很多,你如果要自己设置数据中心是一件非常麻烦的事情,所以也被那些影响。但是我觉得一方面你可以说我们非常有远见,另外一方面也是我觉得也有一定的运气成分。因为你可以知道说未来是这个方向,但你很难知道未来究竟会在 5 年之后到来,还是 10 年之后到来,还是 20 年之后到来。
Cloudera其实在最开始2008年成立的时候,之所以名字叫Cloudera,是因为他们也觉得云是未来。但是在 2008 2009 年的时候,如果你尝试去做一个云计算的公司,会头破血流。除非你是Amazon,你可能也会头破血流,然后他们就更改了他们的决定。其实他们从当时Cloudera后来的这个Chief Product Officer Charles,可能当时刚从哈佛商学院毕业,Cloudera招了他之后做了很多市场调研,他觉得这个肯定是一个在现在是不可能做到的事情。
然后当然最早的投资者不反对这个事情,对我们也是有帮助的。如果你有投资者每次 board meeting 都在说你们应该去 on premise的话,当然这也非常难让创始人完全从头到尾坚持。
《A Berkeley view of cloud computing》这篇论文发表于2009年。商学院看的估计重点是第6章Cloud Computing Economics,有一些关于弹性与迁移成本的计算
问题:能不能讲一讲苦的时候,你自己内心有没有质疑过自己或者说是怎么想法?
总结:在头三年我们产品的营收其实远低于我们做Spark峰会的营收。所以在硅谷有所谓的Databricks或者说Docker有点像卖T-shirt 的公司,因为从community的Spark summit 开大会,卖票的钱都多于产品。
我们过分的依赖开源。当时的想法其实是因为从Cloudera跟Hortonworks的角度,它们已经是非常巨型的大数据公司。但是有一个巨大的问题其实就是Cloudera之所以做了这么大,很多其实是因为 support,就是做开源做定制,做售后支持。但是那些东西都是跟人来scale 的,就是你需要有更多的这个营收的话,你需要更多的人。
而在云上,Amazon等三大云厂商他们可以直接把一个开源软件拿过来,然后做一些很简单的封装,然后把它做成一个 service 卖出去。所以它可以以非常低的价格卖出去。打个比方我们如果成本是一块钱, Amazon只需要 1 毛钱的成本。很多客户很可能他觉得我非常想用这个开源原厂商的产品,Databricks做了一些新的东西,可以支持Spark。那我在Databricks上做一些简单的prototype,但是当我需要做大规模部署的,这个时候我当然去找一个最便宜的厂商了。我已经把东西开发完了,为什么需要去继续Databricks一块钱的东西,我去花一毛钱就够了。而且尤其是对于很多这个生产线上,就像对于大数据来说,你可能需要非常非常多的计算量。所以价格的优势对于Amazon来说其实是一个非常大的优势。
还有一个问题就是我们在最早的时候,我们是非常想做bottom up的销售,因为我们觉得后者这个不需要有销售人员,我们全部都是工程师,我们工程师当然希望公司只有工程师。但是因为我们做是非常基础的data infrastructure,这个基础设施其实是很难通过比如说一个人涨到两个人涨到三个人涨到整个公司,比如说几万几十万人的公司的。越基础的东西越需要上层的 push,不管是 CIO,VP of IT,或是VP of engineering,需要这样子的 push。
我们自从大概在2015/16年左右的时候,我们当时就做了两个大决定。第一个是我们会开始引入真正的top down 的sales,到现在我们其实有一个挺大的这个销售团队。另外一方面比较重要,从产品的角度来说,就开始考虑怎么样可以做一些竞争壁垒。从我们当时的定义,我们提出了这个词叫 Spark edge。所以在我们从性能的角度、从scalability的角度、从安全性的角度,很多企业就真正会比较在意的东西上做了很大的投入。然后这些东西其实变成我们竞争壁垒。
问题:开源为什么对你们非常非常重要?
总结:因为尤其在基础设施这一层你需要招人。现在所有公司都在招很多跟 data 相关的人,人才不够多怎么办,你如果去用一个开源的东西,学校里头也在教这个开源的项目。比如可能全球起码几千家大学都在教 Spark 的编程,所以你可以找到很多人才。
问题:你觉得外界发生了什么事情影响到你们不再苦了?
总结:
到 17 年的时候谈下来Azure Databricks的合作。所以 Azure Databricks是一个非常独特的产品,它虽然由Databricks来开发和运营,但是它是一个微软的产品。它直接在微软的所谓的 enterprise licensing agreement 里面。基本上世界上所有的大企业都跟微软有这个 ELA。他说我每年比如说有 1000 万budget已经批给了微软ELA上了,很多是 Windows Office。但是Azure Databricks的这个 ELA 就导致了客户可以直接把他们已经批好的Windows office 的budget 转向到Azure Databricks上。
和Snowflake一样,试用就需要选一个云平台了。
问题:你对未来的展望。是怎么看的?
总结:
可能2018 年左右,我们看的时候可能客户有一半的问题跟底层存储有关,所以这诞生了我们的第二个大的开源项目叫Delta Lake。
我们现在觉得未来会是所谓的湖仓一体,定义了Lakehouse这个词。而且未来的数据架构不会是有一个分开的 data lake跟一个分开的 data warehouse,甚至有其他更多的系统在中间。未来数据架构是有一个统一的数据平台,这个数据平台本身可以支持所有的,不管是从 data warehouse 的 workflow 还是这个 data lake 上的 workflow,其实可能简单一点就是从 BI 到 AI。那么现在的话,我觉得并没有一个产品可以说 100% 的支持这些所有东西。
所以在过去一年我们宣布了一个新的产品叫Databricks SQL。那么这个东西其实专门针对数据仓库这一边的应用,我们并不是去做了一个新的数据仓库的解决方案,而是我们做了一个新的产品,这个产品在我们现有的平台上面可以支持可以更好的支持数据仓库的这些应用,而以此达到我们所谓的lakehouse。
问题:我们今天有很多工程师在大公司工作,你会给他们一些什么样的advice?
总结:
没有所谓的究竟一个人应不应该创业的这个说法,创业在绝大多数时候有可能上限会稍微高一点,但是也会非常的艰难。当时我每年大概就拿了 8 万块钱(如果去Google/Facebook可能三四十万),每天大概工作我可能14/15 个小时,那样的强度可能持续了,我觉得起码有 4 年。这不是每一个人都能去做到的。
我其实是比较反感为了创业而创业,你要有能力能够坚持下来,我觉得你需要有一定的使命感。如果你觉得那个东西是一个你特别有大激情去改善这个世界,我觉得这是一个比较好的动力,这样才可以支撑你多年非常高强度的工作。然后另外一个是比较重要的是创业的时候有互补的联合创始人,不是每个人都适合做 CEO,也不是每个人都想做 CEO。
问题:你对招人、招好的员工是怎么想的?
总结:打比方我想招一个比如说数据库存储的tech lead 或者说director,这个时候我们会直接问业界我们知道的做这一方面的专家,然后我们会问他,那请问你觉得什么样的人最适合这个职位,给我三个名字,然后我会亲自去联系他们,然后把他们说服进来。然后每一个一般愿意开始面试的时候,其实我可能对他已经有非常深的了解了。
第一个你可以招到比较好的人,因为其实面试来说几个小时对吧,其他人和这个人共事了几年的话,可能可以给你带来更大的信息。另外一个是也比较高效,因为你不再需要去找比如说几百个人来就一个职位,你只需要找到几个人,然后说服他们进来。在他们进来的时候可能已经有百分之七十八十的比例,这是一个真正合适这个职位的。
问题:技术转型职业经理人有什么方法论?
总结:常见的问题。第一个是因为你做技术为主的时候,你会非常希望做到一些比较影响力大的事情。而当你作为一个管理者的角度来说,最重要的不是你的输出,而是你整个团队的输出。
还有一点就是管理不适合每一个人。但是从一个 IC 变成 manager 的时候,你需要有很大的sell 的能力,你需要去 motivate 不管是你自己现有的团队还是未来会来加入你这个团队的人。那么很多时候其实变成了一个 people dynamics,是需要完全不同的处理的方法。因为人是一个不稳定的系统,而计算机程序是一个非常稳定的东西。
问题:即使是数据这个行业,感觉说不定几千个数据公司在那边了。需不需要那么多几百个几千个公司?
总结:我觉得总体来说,从数据 AI machine learning 角度来说,这还是一个比较早期的,整个业界都其实比较早,很多产品都不是很成熟。我说一个很简单的例子,比如说 monitor 你的 data,然后当你 data 出现异常的时候,给你发封邮件,这是一个非常难做到的事情在现在。(data observability 数据可观测性)
我觉得其实数据跟 AI 是比Groupon要大很多很多的一个市场,而且是一个高利润的市场。因为它是一个纯软件的东西,不需要有线下这个规模,所以可能会有更多的公司。但总体来说我觉得是会就是往上,然后会慢慢往下,随着这个业界越来越成熟。