目前国内数据库产品百花齐放,创业者们身在时代机遇里满怀热情,想要有一番作为。看清客户需求,找准自己的定位非常重要。
在形形色色的国产数据库品牌中,我们发现了一家比较特殊的公司——天云数据,该公司拥有数据库和AI两个核心产品,并在今年3月宣布获得多家国家队基金共同投资的数亿元D轮融资。在凛冽的资本寒冬,获得融资并不容易。
我们比较好奇,作为一家创业公司,资源有限,为什么要做数据库和AI两个不同赛道的产品?在这个机遇与挑战并存的时代,他们有怎样的定位?对未来数据库技术的发展有怎样的判断?
打造最小级闭环
天云数据成立于2015年,在今年3月获得了数亿元D轮融资,目前该公司拥有数据供给HTAP数据库Hubble与数据消费AI PaaS平台 MaximAI两大核心产品。在去年也有投资人困惑为什么天云数据一个公司要做两个产品覆盖数据库和AI两个赛道?
天云数据CEO雷涛告诉IT168&ITPUB,现在市场上出现了很多同时做数据库和AI的公司,Databricks是其中的代表公司。据悉,Databricks基于Spark从流开始向下做湖仓一体,向上延伸至AI。不过天云数据库同时做数据库和AI并不是对标Databricks,而是有自己的考虑。
雷涛介绍,上个世纪90年代,IT是以Java为代表的流程驱动,随着互联网、移动互联网发展,IT向DT迁移,由流程驱动转变为数据驱动,背后的实质是IT基础的核心组件发生了变化,这些组件从严谨执行人类指令的系统架构,包括代码程序,转向了由数据驱动的供给和消费。就像燃油车和电车的区别一样。现在的信息化市场、IT市场正经历一次结构性的变化,开始被一些新兴的技术组件所替代。“这个组件的核心就是供给和消费的一个数据闭环。数据库作为供给侧,AI 作为消费侧,这是我们相信的一个最小级的闭环。任何一个新事物的落地,它离不开最小级闭环。”
10年前在云基地时,雷涛就发现了数据供给侧和消费侧最小闭环的存在。当时运营商的内容平台项目需要做动漫、游戏、音乐小说的客户画像分解,传统的Oracle数据库无法支撑亿级用户带来的大规模海量上网日志,数据供给侧升级,转而用HBase等分布式开源组件处理。而数据消费侧也不是SQL、可视化、报表、表盘等,而是升级为机器学习(ML)等新兴的数据处理方法。所以当雷涛看到数据的供给和消费升级,带着团队从云基地出来创立天云数据完成最小级闭环时,自然而然会做供给侧的数据库和消费侧的AI两条产品线。
所以天云数据与Databricks只是形似,与Hadoop/Spark技术体系都有渊源,产品都包含数据库和AI两个层面。目前,天云数据的数据库与 AI平台可以提供从供给到消费端到端的解决方案,有时候一个项目先引入其AI PaaS平台,后面由于更实时的数据供给需求再引入Hubble数据库。
在数据库产品线,团队早期沿着HBase技术路径探索,创立天云数据后,面对银行A类核心系统ACID 的事务需求,以及银监会要求的两地三中心容灾要求,团队开始面向交易体系进行分布式计算的原创路径探索,Hubble数据库重写了HBase存储引擎,采用Go语言研发,更适于服务化的云原生时代。在架构上Hubble采用存算分离架构,在存储层、混合存储、混合计算、混合调度三层复用,支持HTAP混合负载,上层通过逻辑计划融合SQL、Graph、ML、3D点云、NL2SQL等实现AI-Native数据库。据悉,天云数据入选了Gartner中国数据库代表厂商名录。
“我们是坚定地走在 Oracle 阵营上。”雷涛强调。所谓走在Oracle阵营,意味着天云数据的Hubble数据库更好实现从Oracle迁移升级,Hubble与MySQL技术路线体系有很大差异,雷涛介绍,Oracle支撑的应用,开发人员不一定把所有的逻辑写在SQL中,可能存在很多存储过程,但MySQL并不支持存储过程,天云数据沉淀的的相关工具可以自动化解析与 Oracle 语法的差异,其存储过程触发器、解析器能够将80% 以上的存储过程自动化迁移到Hubble,能够大幅度降低迁移工作量。此外,从Oracle到分布式数据库国产化迁移时,企业对国产数据库的信心还不足,建立信任需要一个过程,出于安全考虑,很多项目都会在一定时期内双库并跑试运行,天云在JDBC中内嵌影子库的技术,可以同时实现任务向 Oracle 与Hubble并行分发,在底层再做数据集合,以保证一个相同的数据结果6 个月以上双库并跑试运行,确保用户迁移成功。
去“O”不是替换,而是产业升级
相当长一段时间,去“O”一直是国内数据库领域的热门话题,最近几年随着国产数据库不断成熟,国产化浪潮下,去“O”又引起了更多关注。“替代Oracle,它是一个阶段性过程。产业链升级的逻辑,我相信比替代逻辑更强。”雷涛指出,企业机构要经历互联网化和产业智能化两个发展阶段,经历产销合一数据闭环升级。随着产业升级,供给侧的数据库也在不断升级迭代,以满足业务新的需求。
雷涛指出,数据库经历了四个发展阶段,第一代是IOE体系数据库,是面向数据结构的融合,这些传统的关系数据库更多是解决数据结构、事实表、维表等数据结构问题。第二代是分布式数据库,是面向物理资源的融合,解决了物理资源的扩展性问题,通过新的分布式技术能够做更大的集群,处理更大规模的数据。第三代是面向IO资源融合的HTAP数据库,将交易与分析合并,互联网技术带来产销合一升级,需要实时完成数据闭环,面向C端提供实时个性化供给,越来越多既需要分析能力也需要并发能力HTAP场景出现。第四代是AI Native数据库,是面向服务的融合,通过更多的逻辑计划丰富数据消费能力和形态。
“第三代数据库是我们的立足之本。”雷涛指出,Hubble是一个HTAP数据库,现在越来越多的HTAP业务场景出现,比如银行的电票业务、反欺诈业务、反洗钱业务、权益类服务、实时结算类服务、券商实时净值服务等互联网化业务,都是跨越TP 场景的AP业务,同时需要推送到理财经理等客户端,变成了一个高并发服务的OLTP 业务,要满足以上这些HTAP场景不是简单的对Oracle替代就能支撑。
目前市场上有的数据库是一个TP库外挂一个AP库实现对HTAP负载支持,雷涛认为,这种外挂体系治标不治本,是一个延续性创新。HTAP数据库有两个核心技术点,一是数据新鲜度,外挂方法需要有数据同步,会导致消费的数据并不新鲜。二是云原生化的资源隔离挑战,AP业务对物理资源具有侵占性,需要用更多的资源去响应高密集的IO 服务,而 TP 类业务需要冗余支持更多的并发作业,所以资源隔离对于一个 HTAP 产品至关重要,而外挂体系存在资源隔离方面的挑战。Hubble采用双引擎驱动,可以解决上述两个核心问题。
雷涛介绍,目前,数据库正从第三代HTAP数据库向第四代AI Native数据库发展,从互联网到产业互联网,数据生产要素在升级。互联网时代是从信息化系统自然沉淀数据,人产生行为数据,而产业互联网时代,传感器等物联网产生更多的机器数据,这些机器很难用来决策,因为人类需要更强的科学知识才能理解这些数据。所以更多是机器生产数据、机器消费数据,数据库逻辑计划面向机器数据的升级是一个必然要走的路径,不再仅局限于数据可视化这种服务为目标的 SQL 操作,而是面向机器学习算法,数据库内置ML能力。
Hubble是第四代数据库的代表,据悉,Hubble已经实现了AI Native数据库的很多特性,如上文提到的Hubble上层通过逻辑计划融合ML能力,Hubble能够支持36种原生AI算法。现在团队也在进行更多数据库智能化方面的探索,比如NLP SQL,自然语言不用解析成 SQL,而是解析成 SQL Element 对物理计划的执行,让数据库直接响应人类最原生的交互方法。
据悉,天云数据已为超过50 家五百强及上市公司提供服务,涉及金融、科技、石油、电力、生物医药等多领域。
雷涛指出,现在正处在产业智能化升级阶段,用户需求的变迁其实很大的驱动来自数据这一生产资料的迁移变化,从IT 信息化的流程驱动转向数据驱动,新的第三波数据红利来自于机器生产的数据,城市基建、物联网等大规模的传感网络数据扑面而来,比互联网行为数据的规模更大。
“对(机器数据处理)需求的爆发力远远超乎想象。所以我们如果不就绪好技术储备能力,去面向机器数据这一波很难应对。破坏型创新并不是解决原有需求的,它是覆盖一个新兴的零消费市场。”雷涛强调,天云数据库所走的是破坏性创新之路,正如《创新者的窘境》这本书所讲,破坏性创新是覆盖零消费市场,而不是去过度服务已有市场,天云数据库看到的零消费市场是机器数据生产所带来的第三波数据红利,而这波红利刚刚起步。