大数据产业创新服务媒体
——聚焦数据 · 改变商业
2023 年,我的飞书签名是“Rethink Data & Analytics”,我们一直在探索,未来的数据与分析应该是什么样子,尤其是在 AI 带来巨大变革的时候,更加紧迫地让我们去深入思考,未来的数据和分析会朝什么方向发展。如何在这一波革命中,抓住机会,为客户提供更好地产品和体验,更好地发展业务。经过 Kyligence 过去一年的实践,在 AI 加持之下,我们的理念、产品以及实践,逐渐在市场上获得了认可,也获得了越来越多的共鸣,感受到了强烈的市场脉搏。新年之际,分享一些思考和认知,希望大家一起,为这个行业的变革带来贡献。
AI正在吞噬软件
AI 正在吞噬软件,这是 NVIDIA(英伟达)CEO 黄仁勋在 2017 年一篇采访中提到的观点。到今天,应该没有人再怀疑这个论断。现在的问题是,AI 将如何改变某领域的软件,在我们自己的行业,就是 AI 将如何改变数据与分析市场。
在数仓领域,下图已经用了超过30年,“数据源” - “ETL” - “数据仓库” - “OLAP/数据集市” - "BI / Reporting" 顶多再加上“元数据”和“分析预测”。不管是 ELT 还是 ETL,不管是数据湖还是数据仓库,不管是本地部署还是云端部署,这里所有的假设,都是数据需要经过漫长的工程,从原始数据萃集后,整理成星型或雪花模型,从而提供给上层 BI 等使用。作为使用者的最终用户,往往是最后才被赋能,从而导致大量的数据其实今天依然没有被充分利用起来。
图片来源于网络
Generative AI(生成式AI)的出现,使得数据的工艺流程将出现巨大的变革,数据的加工方式发生了革命性的变化。首先,各种复杂的重复性的劳动,尤其是数据的 Pipeline,都将由 AI Agent 来处理。从小到行列转换,大到数据治理,未来应该有很多的 AI Agent 来处理这些工作,人类只需要用提示词设计合理的流程就好。这从 ChatGPT 自带的 的 Advanced Data Analysis (高级数据分析)还是众多使用 OpenAI's Code Interpreter 的数据分析工具都可以看到,甚至 GPTs 可以通过几个简单的提示词就可以完成很多数据梳理、分析的工作。
其次,人和机器的交互进化到了最自然的方式,数据的消费方式发生了革命性的变化。只要会说话,就能用数据,这是这次 AI 带来的巨大变革。这使得原来只是领导、分析师、专业用户等才能使用的“数据和分析能力”,一下子平民化到了每个人,即使文化水平不高的用户,也能被充分赋能到。这将大大改变现在的数据架构、处理模式和消费方式等。大部分公司现在能够有效使用数据的员工不超过10-15%,而这次 AI 革命,能够让其余的 80-90% 的人直接消费数据或者数据产品,可以预见,现有的数据架构是无法满足的,这里的变革才刚开始。
当每个人都能、都需要消费数据的时候,传统的数据仓库或者数据湖的架构是否还适用,数据的存储方式将发生什么样的变革?这是一个开放问题,目前我还没有具体的答案,但可以预见,AI 的场景,必然会要求系统处理更多的数据,更灵活地访问数据和更高效地服务更多人。从今天的大部分 MPP 和大数据的架构上看,在这几个方面应该都会很快面临巨大的挑战,当比现在访问量大十倍、百倍甚至万倍的时候,今天任何数据系统要在成本可控的情况下完成都非常困难,这里期待我们未来和客户一起共同研究和探索,突破极限。
图片来源于 Kyligence
Gen AI 能带来的,将远比这些更多,我们在实践中实现了几个方向,已经产生了巨大的变化和影响,AI 将带来数据和分析的深层次革命。机器将代替人类完成更多的工作,尤其是重复的、可被自动化的。过去数据系统完成数据的加工和指标的统计后,后续需要大量的人工去分析影响相关指标变化的影响要素,探索根因,并根据经验提供相关的决策建议,从而对整个企业的经营和管理产生影响。
AI正在重塑产品和需求
以上是 AI 趋势方面,Kyligence 一直致力于提供标准化软件产品,今年我们特别感受到了在 AI 时代,客户对产品能力和需求的不同之处。
从 Kyligence 最早开始提供的企业级 OLAP 平台场景中,我们经常碰到的挑战就是 Performance,这时主要强调性能,这也是 Kyligence 在 OLAP 层面的强项,花费了非常多心血,已经细化到为了帮助客户的某条 SQL 提升几秒,或只是让他们在点开仪表盘的时候稍等待几秒。
Performance/性能,是在技术 PK 中最常见。性能良好的系统/OLAP,当然是非常好的,但当大家都达到秒级响应的阶段,实际上,比较的空间已逐渐缩小。如果换一个角度,其实只需调整一个数据结构或优化数据处理流程,就能显著提升性能。然而,许多客户可能出于对现有模式的偏好,不太愿意进行这样的变更。
在 AI 时代,性能依然重要吗?我们认为,之所以需要 OLAP 或者数据仓库端有极好的性能,是因为大量的数据分析工作,依赖于有限的几个分析师或业务用户,而该人群的业务压力非常大,而且往往数据出来后,依然有着非常繁重的任务,比如对比数据、查阅历史、分析原因、重跑各种可能性等等,并要形成报告和决策、行动建议。所以,一个非常好用的工具确实是必不可少的。但在 AI 时代,这里的大量工作其实可以委托给 AI 完成,甚至可以让 AI 提前完成,尤其是固有的、常用分析套路,而且可以快速给出大致的总结,这已经能够大大节省人力,甚至 AI 可以让各种系统自动化链接起来。例如,今天我们用智能一站式指标平台 Kyligence Zen 出一个周报或做一次归因,只要 10 秒即可,而且自带总结,这比出来结果,再去查资料些报告,已经有了质的提升。
性能,尤其是查询性能,在这个场景下其实已经没那么严苛了。反而,并发性成了下一个挑战,因为会有越来越多的人来使用系统。
更有意思的一个现象出现了。通过最近一年的接触,我们发现更多的客户已经将关注点,从性能转移到了Performance 的另外一个含义:绩效。例如,我们的客户已经将指标平台作为绩效管理(KPI)平台,而 KPI 的缩写正是 Key Performance Indicator 。当我们将关注点从性能转移到绩效的时候,这才是客户真正要的产品。仪表盘或者报表从来不是客户要得最终结果,他们要得是基于数据的管理能力。几乎每一个有用的指标/Metric,都展示了某个业务或者管理的结果,而一个公司之所以需要指标,就是为了更好地观测相关业务的进展、健康状态以及及时采取措施来修正组织行为,从而确保公司的整体或者部分绩效能够按照设定的目标行进。
例如,Kyligence 的一个银行客户最近做的 POC,即是一个绩效管理相关的需求,从总行领导-分行领导-普通一线员工指标层层下砖,客户的需求已经在这里。这也对新时代 AI 数据分析和指标管理有一个启发,就是要跳出技术思维,不要仅局限在Performance/性能,更要在Performance/绩效上打出差异化和壁垒,提升技术投入的 ROI,并快速占据市场。
AI 市场在过去一年发展实在是非常的快,几乎每周都在修改原有的假设。在这个过程中,站在客户的角度思考变得尤为重要,“可落地的场景” “极致性价比” “可衡量的ROI”才能满足客户新环境下的需求,这三个维度需要走在前面的创新公司认真想想。对于我们来说,将先进的技术进行产品化,继续打出差异化和竞争壁垒,将在2024年愈加明显