对数据智能赛道的创业者而言,这是最好的时代,是最需要创新精神也拥有最多可能的时代。
过去20年间,互联网和移动互联网的浪潮深刻改变了社会的各个方面,无论线上还是线下,人们的行为都发生了深刻的变化,企业与用户或者客户之间的链接通道明显增多,直接互动的需求和频次也明显提高;近两年伴随数字化转型深入与人口红利的消退,加之疫情的影响,数字化浪潮逐渐成为互联网后中国经济发展的主要推动引擎。
根据IDC发布的《数据时代2025》报告预测,全球数据量将从2018年的33ZB增至2025年的175ZB,增长超过5倍。其中,中国的数据增速要比全球平均增速高3%,预计到2025年中国的数据总量将增至48.6ZB,占全球数据总量的比例提升至27.8%——为了不被这场“数据海啸”淹没,各行各业都亟需不同程度的数字化升级。当然,从数字化管理到数智化运营的进化是一个漫长的过程,无法一蹴而就。
“数据需求、数据源和用数人群的爆炸性增长,一方面推动数据工程体系的复杂度进入亿级、十亿级、百亿级,并将最终导致企业数据工程体系的运营维护成本大到企业难以承受的地步;另一方面,现有的数据工程越来越难以跟上现代企业运营管理中快速发现、快速诊断、快速决策和快速行动的步伐,企业迫切需要基于新思维、新方法、新技术所构建的下一代数据平台。”纵观整个数据智能赛道的发展态势,拥有20年大数据行业从业经历的国内新锐数据平台厂商Aloudata创始人&CEO周卫林向数据猿记者给出了他的洞察。
打通数据供给与管理瓶颈,是数据平台最大的变革机会
从全球来看,2023年数据平台的市场空间超过840亿美元。在国外数据平台领域,已经有多家市值(估值)几十亿甚至上百亿美元的独角兽企业。其中,Snowflake当前市值426亿美元,Databricks估值380亿美元,Dremio估值超20亿美元。
谈及国内情况,周卫林告诉记者,数据平台市场主要由大数据领域的数据库产品和上层的数据集成管理、BI与数据分析工具,以及相关数据治理领域的产品和服务组成。一份2021年的分析报告显示,中国的OLAP市场规模在100亿元以上,考虑到数据平台的市场不只是数据库,整个市场规模大概是在300亿元以上。并且,未来几年企业IT投入将会向大数据、AI等新技术方向不断倾斜,5年以后国内的数据平台将会是一个千亿级别的市场,全球市场容量则将超千亿美元。
巨大的市场容量背后反映的是市场需求的变化——显然,“数据驱动”已经成为这个时代的企业提高自适应性和创造力以应对未来挑战的最大动力。
为了实现这一目标,企业纷纷致力于“建湖修仓”,以完整保存生产经营中的所有数据(无论是历史的、实时的,结构化的、非结构化的,还是内部的、外部的),形成所谓的“数据金山”。
但“有数据”却不代表能“用好数据”。Gartner数据表明,68%的企业数据没有被分析,多达 82%的企业受到数据孤岛的阻碍。
之所以现状如此,周卫林认为,究其根本还是在于企业数据需求的变化:从数据化管理走向数智化运营过程中,需求类型、需求数量和用数人群都发生了巨大的变化,导致过去30年数据仓库的方法论和工程体系已经无法适应现在和未来企业数据化运营的需要。
他进一步解释道,传统数据平台主要是ETL驱动的,严重依赖ETL工程师。在这样的供数方式下,业务方和分析师提出任何一个数据需求,都绕不开ETL工程师这个中间角色,从找数、运维再到性能优化,各个环节都需要深度依赖ETL工程师才能完成,导致数据生产根本“快”不起来。
但企业不得不面对的现实情况是:业务迭代的节奏越来越快,导致ETL需求的数量和ETL系统的复杂性都在日益增长,这会带来一系列问题。一方面,ETL工程师的资源供给有上限,业务对数据需求响应效率的要求要达到当前的10倍以上,如何办到?另一方面,数据环境日趋复杂,但ETL工程师的能力同样有上限,只有实现数据管理的“智能驾驶”才能保障数据连续性和平台用户体验,这又该如何办到?
换句话说,企业数据从“有得用”到“用得上”之所以如此之难,是因为二者之间还存在着两个亟待打通的瓶颈——数据供给的敏捷性和数据治理的智能化。
因而,数据平台领域迫切呼唤一个“既敏捷又自治”的变革性产品。而这类以数据工程的全流程“数据敏捷”和数据治理的“智能驾驶”为目标的产品,也必将在这个千亿市场中扮演重要角色。
NoETL重塑数据供给与管理方式,让数据随时就绪
过去十五年阿里和蚂蚁集团的工作经历中,周卫林始终深耕大数据、数据智能领域,是国内最早一批数据仓库的先行者。恰恰在这十几年中,他赶上了互联网和移动互联网这波浪潮,并在这波浪潮中头部的公司经历了数据爆炸和需求爆炸的“数据海啸”。这样的经历,也决定了创业是他的必然选择。
谈及创业的初心,他显得异常坚定:“我们可以清晰的看到,数据平台存在一个新的变革机会。这个变革机会主要是由两股时代的趋势力量驱动的,一个是云原生Cloud-Native,另一个是数字原生Data-Native 。前面10年数据平台的技术红利是云原生,它解决了‘数据有没有’的问题,诞生了Snowflake;未来10年的技术红利则是Data-Native,Data-Native最大的技术机会就是解决运营‘效率快不快’的问题。而我们创立Aloudata的最大动力就是想做成Data-Native的下一代数据平台,重塑数据供给和管理方式,让企业数据随时就绪,成为数字时代企业经营的数据基础设施。”
“这其中,NoETL的实现至关重要,NoETL之于Data-Native,就像存算分离、弹性计算之于Cloud-Native,是宏观时代趋势下数据平台架构的关键技术具象。”周卫林继续解释道,NoETL的本质是对ETL过程的透明化和自动化,具体来讲就是做到No Pipelines(没有数据管道)、No Tasks(没有任务运维)、No Cubes(没有性能调优),实现以下两方面价值:
-在数据处理和分析环节,用户无需搭建复杂ETL链路、无需等待漫长排期即可灵活分析所有数据,实现敏捷数据洞察和高效一致的数据协作,能够以更低的成本、更迅速地做出可信业务决策,实现10倍以上的数据化运营效率的提升;
-让企业的数据管理从“被动式”转变为“主动式”,实现数据管理的“自动驾驶”,大量节省企业在数据治理和风险应对上的管理投入,以实现50%以上的存储成本节约和70%以上的管理成本节约。
可以说,不同于传统ETL技术方案面对企业数据管理现状时的束手无策,NoETL正是为现代企业数据化运营而生,它天然擅长解决数据资产多样性、分散性、规模化和复杂性不断增加以及数据使用人群和应用场景爆发式增长带来的一系列问题,是业务数据化敏捷运营从“BI敏捷”向“数据敏捷”进化的重要方式。
据了解,Aloudata已于今年正式发布了全场景自适应的弹性SQL引擎Aloudata AIR Engine,以支撑NoETL的真正落地。
创业梦之队,“被资本追捧”绝非偶然
2021年5月成立的数据平台厂商Aloudata,成立仅仅一个月之后,就获得由红杉中国种子基金独家投资的数千万元天使轮融资,两个月后即收获顶级金融机构高额订单。
但在数据猿看来,这些都绝非偶然。
从团队资质来看,不仅曾任蚂蚁集团数据平台部总经理(P10)的周卫林本人拥有20年大数据领域工作经验,创始团队也由原蚂蚁集团数据平台部核心成员组成:三位联合创始人均是原蚂蚁集团数据智能领域高级专家,主导了国内最早一批数据工具产品建设和商业化,孵化出多个进入 Gartner、Forrester 领导者象限的阿里云拳头产品;另有十余名在产品、技术、架构、交付和商业化上拥有从0到1成功经验的原蚂蚁/阿里集团P8及以上高级专家,着实是一支堪称豪华的创业梦之队。
值得关注的是,这支蚂蚁原生的创业团队不仅合作共事多年,人才密度和互信度非常高,还拥有一个得天独厚的优势——对“甲方”需求的理解与把握。
Aloudata团队来自中国最大的金融科技公司蚂蚁集团,蚂蚁集团本身就具备很强的金融属性,可以视为一个大“甲方”。因而,他们天生就跟甲方金融客户的关系更近,也更容易理解、把握和引导客户需求。
“成立三个月就获得来自国内顶级金融机构的订单,不可否认,团队背景在其中起到了关键性作用。”周卫林对此直言不讳,并补充道:“但Aloudata也并没有让无条件信任我们的客户失望,通过一年的闭关集中研发,截至目前,Aloudata基于全场景自适应的弹性SQL引擎AIR Engine所提供的多源异构查询及自适应加速能力,让全行分析师无需关心数据集成、任务运维和性能优化等技术细节,随时可对全域数据资产进行分析探索和数据准备,能够端到端全自助完成数据分析需求交付,将业务取数、用数、看数效率从周级缩短到了天级,并实现了高性能、低时延的报表看数体验,10倍提升了全行整体数据化运营效率。不仅如此,今年双方的下一阶段合作也已在推进中,很快我们将会看到新的升级效果。当然,还有更多头部客户也已经明确向我们表达了合作诉求。”
NoETL 开源,是Aloudata坚定选择的道路
在数据平台领域,有两个关键的选择题:云化还是本地化,开源还是闭源。
针对云化还是本地化这一问题,周卫林表示,Aloudata是基于云原生架构开发的,采用的是Cloud-Native Data-Native的双轮架构,一套产品多环境部署,既有公有云,同时也可以做本地化部署。其中公有云服务处于定向邀约试用阶段,预计今年9月可以正式商用。在收费模式方面,Aloudata的云化产品将重点探索Hosting(托管)模式,以订阅制和按需付费为主。
而谈及开源还是闭源的话题,周卫林同样给出了独到的思考。
他认为,决定数据平台行业未来发展的一个关键变量,就是开源生态与闭源生态的竞争。具体来说,就是“基于数据湖 开放计算架构”的开源生态体系与技术体系封闭的闭源生态的竞争,这与手机领域的安卓生态与iOS生态的竞争高度类似。Aloudata将自己定位在开源生态中的位置,找到适合自己的生态位。在海外,开源 PLG Hosting已经是一套比较成体系的商业模式,而Aloudata也已经形成自己的开源计划,预计今年7月会将NoETL技术中的“主动元数据框架”进行开源,这也将是未来元数据驱动的智能数据平台的一个底座技术。
周卫林进一步提出,考虑到基于数据的协同是未来企业内部协同的主要脉络,因此决定数据平台未来发展的另外一个关键变量是平台服务的人群规模,而人群使用规模主要受产品上手成本的影响。专业门槛越低,使用人群的规模就越大。显然,与传统的ETL技术栈相比,Aloudata所提出的NoETL正是“低门槛”数据分析的kill feature。
我们以技术开放性、也就是“开源or闭源”为横轴,以专业门槛、也就是“ETL or NoETL”为纵轴,形成一个四象限图谱,分别是:开源 NoETL驱动、开源 ETL驱动、闭源 ETL驱动、闭源 NoETL驱动。
纵观全球数据平台市场,可以看到落在右下方象限里的海外公司是Databricks,落在左下方象限里的海外公司是Snowflake,跟Aloudata位于同一个象限的公司则有国外的Dremio。
坚定地走NoETL 开源之路,这也是Aloudata最核心的差异化竞争力来源。
需求无国界,在国内站住脚,并向全球化进发
长期以来,中国的科技公司能够成功实现全球化的寥寥无几。国内一众互联网巨头的全球化进展都乏善可陈。
国内互联网巨头中,全球化最成功的当属字节跳动,这与张一鸣的认知和决心有很大关系。张一鸣曾表示,中国的互联网人口,只占全球互联网人口的五分之一,如果不在全球配置资源,对追求规模化效应的产品来说,五分之一是无法跟五分之四竞争的,所以出海是必然选择。
五分之一无法跟五分之四竞争,这个道理同样适用于企业服务的数据平台领域。依据IDC发布的《数据时代2025》报告,虽然中国的数据增速快于全球,但中国数据总量占全球的比例会长期低于30%。也就是说,剩下超过70%的数据平台市场都在海外。
周卫林同样深以为然。在他看来,数据平台产品具有很强的通用性,要解决的客户问题并无国界之分。在基础技术领域是Winner-Take-All。而能否在全球市场占有一席之地,关键在于能否有原创技术创新,单纯的技术跟随很难有赢面,这也是Aloudata选择从NoETL切入,提供独特创新技术而不是仅从性能视角切入的原因。
他继续强调,中国数据平台厂商一定要有进军全球市场的勇气和胆识,要在国内立足之后,果断出海。当然,在具体的出海路径上,需要制定适合自己的策略,比如在客群选择方面,可以优先选择跟随中国具备全球化业务的企业出海;在市场选择方面,可以优先考虑亚洲尤其是东亚、东南亚市场。
当然,最重要的还是要认识到数据平台出海的意义和价值,并要有足够的战略决心。毕竟,没有张一鸣几年前对全球化的认知和决绝,也不会有今天TikTok风靡全球的盛况。中国企业服务、数据平台领域,同样需要这样的全球化视野和战略决心。
文:凝视深空 / 数据猿