数字化转型主要包括业务数字化、数据资产化、资产业务化、业务智能化几个阶段。在不同的阶段,分别需要哪些数据产品呢?今天就逐一盘点一下,希望可以为各位老板的数字化转型过程中数据产品规划提供参考,主要是以模块规划为主,产品详细的功能和实现逻辑,往期文章几乎都有逐一的分享。
一、数据采集相关产品
数字化包含两层含义,其一是线上化,也就是把过去线下的、手工的低效业务过程线上化流程化,以提升人效,同时建立数据采集的基础。其二是数据化,把线上化的业务流程数据采集下来,为后期的业务化、智能化提供基础数据源。所以,在数据采集环境,主要涉及的数据产品包括:
1.数据采集范围与标准定义(必须)
互联网行业毕竟熟悉埋点一词,埋点也是很多公司的“痛”。埋点不规范,数据两行泪。先污染后治理势必带来后期数据应用清洗的资源浪费。所以,为了减少踩坑,需要事先确立不同数据源、数据类型的数据采集规范,针对App、小程序等产品需要建立统一埋点规范和采集方案,其他的智能硬件、传感器设备或者三方数据源,需求定义不同来源的数据传输格式。
2.埋点管理系统(可选)
将埋点规范集成到数据管理后台中,让整个埋点流程线上化流转,提升埋点工作的规范化程度,减少漏埋和错埋。即使像一些用户行为分析系统力推的无埋点或可视化埋点,也都有埋点数据管理模块提供界面化的指标定义能力。早期的埋点规则主要靠excel世代相传
3.数据同步或集成系统(必须)
这一模块既可以单独存在,也可以和大数据开发平台耦合,其主要作用是提供源到端的数据同步功能,即选择数据来源以及希望数据同步到的目标为主,针对不同的源、目标设置参数、任务调度频率和策略即可。现在比较时髦的一个词叫数据一键入湖。一键自动化实现非结构化(音视频等)、结构化数据到中央数据湖,以供后期处理消费。回到前面讲过的大厨做菜的例子,数据集成工具就比如自动化的收割工具,过去因为手工劳作,食材数量、种类有限,当机械化生产后,丰盈度大大提升。
二、数据加工与处理工具
1.离线开发平台(必须)
汇聚入湖的数据需要加工处理才能发挥其价值,尤其对于湖仓一体的架构中,涉及到结构化数据的数据仓库模块的开发。按照业务需求的逻辑对数据进行ETL处理,输出一个个的数据模型。对于离线开发平台主要功能应包括:
存储&计算层:资源的自动化分配(主要是集群资源的调度),数据开发主要关注业务逻辑,而不需要人人都搭一套hadoop
任务开发层:IDE可视化任务开发,除了核心的数据处理逻辑需要代码实现外,其他的参数设置都可以配置化,且平台需要支撑Hive、Shell、python等常用数据开发和挖掘任务类型。
任务调度:数据有严格的上下游关系,只有上游数据任务运行成功数据加工完成后,下游数据才准确,所以一般任务不会单独存在,需要建立依赖关系,此外,周期性的数据也不能每天手动点一下,还需要时间调度,根据需求设定是每分钟、小时还是天月执行,在什么时间执行等。
任务运维:修改逻辑、上游出错、集群资源不稳定等经常需要涉及数据回溯、任务重跑等操作,提供批量、自动化的操作可以节省大量运维时间。
2.实时开发平台(必须)
实时数据主要满足实时数据监控,产品端实时搜索、推荐或实时场景化营销,实时开发和离线开发主要在技术组件上的差别,产品功能模块大同小异,也可以把整合形成批流一体化的一站式大数据开发运维平台。
3.数据仓库建设工具(可选)
主要是将数据模型开发规范和流程融入到系统当中,是一种低代码的思想减少数仓建模的开发代码开发,提升模型的规范化和复用性,比如阿里的Datapin,系统化的好处在于方便前置化管理建模过程,而不是先污染后治理,弊端是可能没有开发自己写代码那么灵活,所以可以作为可选模块。
三、数据资产管理和治理产品
1.数据地图(必须)
酒香也怕巷子深,数据模型开发完了,找得到、敢使用才能提升复用性,数据地图通过资产目录共享和强大的数据检索能力,提供逛数据、找数据的能力,同时需要具备丰富的模型元数据信息,让数据消费者快速判断是不是自己所需要的数据,如何使用。
2.数据质量监控(必须)
数据不准可以说是业务和数据团队最头疼的问题之一,业务拿到数据不敢用,先来问下开发准不准,开发不自信,看了任务看了代码说应该没问题。数据质量监控围绕一致性、及时性、完整性、准确性维度构建丰富灵活的数据质量规则配置和自动化预警能力,让数据开发人员更自信,只要监控没报警,就可以拍着胸脯说,是不是业务上有什么变化。
3.数据血缘(必须)
主要解决数据的追根溯源的问题,例如数据异常,需要通知下游业务,数据治理时需要下线或者删除,下游有没有人在使用,没有血缘就不敢治理,数据&服务只增不减。
4.数据成本优化(必须)
虽然说大家默认数据部门是成本中心,但是在这个寒冬之下,也要勒紧裤腰带,虽不能开源但总要节流,哪些数据长期无人使用可以归档或删除,哪些任务SQL性能奇差一个任务执行10多个小时,消耗大量CPU、GPU?数据成本优化核心目标是建立数据健康分评价体系,自动化检测治理目标,并提供归档、删除等自动化治理动作,从而释放服务器资源,常态化做减法。
5.统一数据权限(必须)
数据安全问题事关企业生死存亡和数据团队的“钱途”,统一权限主要是建立数据资产权限申请、授权、审计对应的流程,从而保证数据既共享又安全。
四、数据决策与智能应用
1.数据可视化分析(必须)
这里主要指主题式数据分析报表,可以是定制化开发,也可以是基于自助BI工具配置。其主要目标是提供业务经营管理的核心指标体系的可视化分析能力。不能让老板每天自己使用自助BI拖拉拽吧。例如一些管理驾驶舱Dashboard或者可视化大屏。
2.现代自助式BI分析(必须)
Tableau在被saleforce 以157亿美金收购后,在21年底宣布退出中国市场,作为BI工具的鼻祖,功能非常完善和强大,为什么水土不服呢?主要原因是它的目标用户是数据分析师,功能的复杂度导致学习理解成本高,数字化转型时代要求的是数据民主和普惠,人人都是数据分析师,所以相比较tableau,现在国内的一些云厂商(QuickBI、火山引擎等)和BI产品(观远数据)更能满足让一线业务人员用数据的需求。有了现代BI,数据人员聚焦模型开发和数据基建,业务人员拖拽分析,自己配置可视化Dashboard,不再纯依赖数据团队的临时SQL取数,或者定制化的可视化页面开发了。
3.用户行为分析系统(可选)
2015年用户增长、增长黑客理论火爆的时候,很多中小型互联网企业纷纷购买神策、GrowingIO等用户行为分析系统。其好处是可以提供用户行为数据从采集到自助式分析的能力,但数据层面更多的聚焦在流量数据,对其他业务系统数据支持性相对较弱。现代自助BI可以包含用户行为的模型数据,所以包容性更强。
4.数字化营销CDP或DMP(必须)
基于大数据计算和数据挖掘技术,构建用户画像标签体系,用户圈选、精细化分层,进行差异化运营和营销触达,提升运营ROI。业务同学可基于平台实现从人群圈选、场景构建、触达投放、效果回收的闭环,同时,基于算法挖掘标签及模型推荐的人群组合,从基于人的经验运营,到基于大数据算法推荐的智能运营。一般企业内部私域流量运营称之为CDP(客户数据管理平台),流量变现的企业称之为DMP(数据管理平台),如腾讯广点通、阿里达摩盘。
5.算法平台(可选)
数字化转型高级层次是智能化,要想AI服务开发更加高效,甚至产品、运营都可以配置一个推荐服务接口,这时机器学习或者叫算法平台就可以派上用场了。对于算法开发,主要是提供从资源调度(CPU、GPU等)、离在线数据获取、特性开发、模型训练、推理服务全流程的算法工作台,从而提升算法中台化输出的能力,甚至可以通过模型节点拖拽实现无代码化的算法服务上线。
6.数据服务管理(可选)
有人也把数据中台称之为DAAS,即数据即服务,数据如何快速输出业务端,赋能产品创新。API服务统一管理,建立完善的应用血缘关系,提供通用接口的配置化生成能力,降低对Java开发的依赖。数据中台思想下,数据服务API输出是应用输出的最主要形式,数据服务管理平台一方面要具备将数据资产自助配置化输出的能力,即数仓清洗好的数据模型,数据开发或业务人员可以通过入参、出参的可视化配置生成API接口,不需要接口开发介入。同时也要把API资产化管理,API接口文档、应用调用情况做到可追踪、可监控。
五、总结
广义数据产品的定义是凡是可以提升数据从采、存、管、算、用全流程效率,促进数据价值输出的相关产品都可以归结为数据产品,在数字化转型过程中涉及的产品大大小小二三十款,但总体产品矩阵大同小异。而且现在几乎每个细分领域都有成熟的商业化数据产品版本,企业在实际数字化转型的过程中可以根据研发资源、投入时间及财务成本、数据安全等多个方面综合评估,哪些选择外采,哪些自主研发。