小进阶:数据指标体系和数据治理的管理
关于作者:小姬,某知名互联网公司产品专家,对数据采集、生产、加工有所了解,期望多和大家交流数据知识,以数据作为提出好问题的基础,发掘商业价值。
0x00 前言
我将整理文章分享数据工作中的经验,因为业务内容上的差异,可能导致大家的理解不一致,无法体会到场景中的诸多特殊性,不过相信不断的沟通和交流,可以解决很多问题。上次我们分析了一下职场基本功,为什么要重视需求质量,常见的数据需求文档改怎么写。今天我们来就聊一聊上次文章中的一个重点关键字“数据指标体系”的周边。
历史导读:小诀窍:不妨尝试从交付质量上打败对手
以下,Enjoy:
0x01 为什么要搭建指标体系
在《小诀窍:不妨尝试从交付质量上打败对手》我们提到过为什么要搭建指标体系,相信大家在看数据相关招聘岗位简介的时候,也经常看到有关搭建指标体系的要求,因此这里简单的给出两点做指标体系的重要性。
- 搭建稳定的数据观测体系(维度指标体系),让数据从生产到使用的整个流程更加标准、可靠;
- 稳定的数据观测体系,不仅能够让数据加工、使用的效率提升,还有利于统一认知,规范数据建设者的工作方法,解决数据维度/指标膨胀,数据不一致的问题,从而拉升内部的相关人员整体的数据专业水平。
如果大家仍然对搭建指标体系的作用和意义存在不同的看法和见解,希望继续深入的沟通了解,欢迎评论留言或者加入我们的微信群聊共同交流。
0x02 怎么搭建指标体系
我们先思考简单的数据问题,这是我作为校招面试官经常会同大家沟通的一个案例。
- 如果你现在成为一个产品项目的负责人,你想看到哪些数据指标,为什么要分析这些数据指标?
- 我们现在聚焦一下,从刚才列出的数据指标序列中选出x个指标,怎么选,为什么?
第1题考察点
- 互联网行业是否熟悉,能够对行业的数据指标有多深的了解;
- 基本的度量和效果评估意识,构建数据和商业业务的关系抽象能力。
备注:相信我,很多候选人连像样的指标都回答不上几个,更无法洞察数据和商业之间的关系。
第2题考察点
- 有限的选择下,是否有判断主次的逻辑能力,针对自身的观点和知识能否自我革新升华;
- 更深层次的思考,为什么要以更少的数据指标去判断商业行为。
这个题目对于处于职场实际工作中的同行来说同样具有考察需要,我们评估一个产品项目所需要的指标是越多越好,还是会存在其中一个适度的分界点(投入产出比的最大化)。
话题回到正题,怎么搭建指标体系?
首先任何没有管理或是数据指标系统的组织中,数据指标的需求形式都类似于第1题的样式存在,团队中不同的人拥有不同的度量单位和评估体系(即使这个人认识到第2题问题的存在,他自身的指标体系依然处于第1题)。
数据指标体系必须是搭建于组织或者一个团体的共识,让整个组织和团体内的度量单位和评估体系,第1题是缺乏管理,肆意生产的野蛮方式。让整个组织和团队提升到第2题的水平达成一致才是数据指标体系。
- 数据指标体系不是收集指标汇总起来,也不是将所有数据需求全覆盖;
- 数据指标体系是以最小的投入搭建科学的效果评估指标,让组织和团队达到统一认知的事情;
在《小诀窍:不妨尝试从交付质量上打败对手》我们提到过为什么要搭建指标体系,我们将(“平台:枚举值:全部、iOS、android、其他,例如web、TV归为“其他”)重点看一下,在搭建指标体系过程中,我们将数据量较小的平台(web、TV)聚合,不在允许对类似数据的过度效果分析(不允许什么都想要的态度)。
思考:人民币中为什么存在的是1元、5元、10元,2元钱的纸币为什么退出了历史舞台。国际货币为什么不能所有国家发行,美元的作用是什么?
0x03 指标体系的评估标准
指标体系除了有科学的方法搭建,还会存在很多主观的判断。我们在搭建指标体系的时候,经常遇到的问题是为什么大家要遵循这套指标体系,它的权威性怎么得到保障。
- 指标体系的搭建非常依赖领导的背书和强势认可
- 指标体系的搭建相对于提升团队的全员水平,所以这不是简单事
- 指标体系也有生命周期,不断的产品项目阶段需要的指标体系不同
基于以上的几点,指标体系的搭建方法论就很明确了,首先做到领导的认可(指标体系相当于和领导之间的一种协议),其次指标体系的宣贯传播工作不可或缺,其次指标体系的内容需要长期的维护。从这三点我们可以梳理出一个目标的观测值:
- 基于领导的认可,指标体系是否解决领导提出的问题,问题的量化目标就是指标体系的目标
- 提高全员的水平怎么证明,问卷、考试、需求文档的质量或引用、指标体系内容的访问数据
- 指标体系内容的更新频次、更新数量,内容汇报
注释:我认为最佳的期望是指标体系内容作为知识,沉淀于知识库工具中。通过知识的访问量,以及定义的测试来判断指标体系价值。
0x03 指标体系的管理内容
数据指标的概念我们很多同学听过,并且也经常看到招聘职位上的要求。但究竟指标体系的怎么落地,包含什么内容相信很少有人真实有过经历。
我对指标体系的理解总体有这个几个观点:
- 不同组织或者团体期望指标体系解决的问题一致,但落地的指标体系内容不同
- 指标体系落地产物强依赖于业务,不同的业务存在不同的玩法
- 指标体系多数情况下连同管理工具一起落地
- 我认为当前的指标体系,均不能很高效的解决期望问题,我自己目前较为理想的方案也未实际执行
指标体系中的业务指标内容(简版)
- 指标名称:意向UV // 名称要保持唯一
- 指标类型:基础指标 // 指标的计算方式,直接计算生成,还是多个指标计算生成
- 主题分类:流量主题 // 根据业务需要,对指标进行分类管理
- 业务定义/指标口径:意向页面的访问用户数 // 对指标的定义描述,目前看这块问题很多,歧义很多
- 统计维度:平台,城市,版本,业务类型…… // 实际工作中会发现,统计的维度很多
指标体系中的指标技术内容(简版)
- 指标代码:flow_intention_uv // 代码要保持唯一,如果指标名称业务内唯一,指标代码要全系统唯一
- 数据类型:bigint // 指标的存储数据类型,数据仓库中指标类型重要的不是很大
- 数据计算模型:略 // 指标计算的SQL逻辑,实际工作中感觉问题很大
- 字段名称:intention_uv // 对应数据表或是取数逻辑中的字段名称
- 计算公式:count(intention_uv) // 实际工作中,阅读理解还行,意义不大
以上为我们管理指标体系中的简版内容,实际情况根据不同的业务需求,以及工具的搭配使用需要的内容会更多一点,基本上都是为了维护运营指标体系,更好的管理指标名称和口径定义。
我认为当前的指标体系,均不能很高效的解决期望问题,我自己目前较为理想的方案也未实际执行。以上述的指标内容为例存在很多问题,比如:
意向UV:意向页面的访问用户数,在理解这个指标的时候需要存在一个前提条件,什么是意向页面。那么就会涉及到一个意向页面的概念,但是意向 页面本身不作为指标内容被管理。意向页面的定义“意向页面为详细介绍商品内容的页面。又或者理解为:在当前页面只需“1步”即可进入交易流程的页面,为意向页面。)”。
另外,数据计算模型:略 // 指标计算的SQL逻辑,实际工作中感觉问题很大。我们也会发现实际的工作当中,数据指标不会单独出现,更多的时候是日期 维度1 维度2 ……维度N 指标1 指标2 指标N的方式出现,数据的模型计算也是根据需求表头设计搭建的。
除去以上两个问题,指标体系的内容运营维护还会存在很多问题,这直接影响指标体系的搭建是否成功且实用。目前我所接触的范畴内,以上的管理方式适合传统企业的指标体系管理,在数据迭代速度快,多维分析强的互联网领域并不能接受业务的调整。
我比较理想的管理方式(当前处于尝试当中):
- 搭建百科形式的知识库,以知识库管理指标体系,将指标的内容管理做成百科形式,不断的积累内容,才有可能进行知识的普及实用价值,才有可能标准化。(指标百科是什么东西,大家看一下“北京市”的百度百科即可,从不同的角度介绍北京,数据指标也应该有这样的补充,介绍指标的业务背景,概念定义,相干关系,所需要的数据源等等)
- 分类方式的改变,不能单纯的以指标作为分类。应该以业务分组合,比如我们看PUSH消息的数据效果,应该逐渐的是建立PUSH消息应该看那些维度和指标,解决不同的同学对同样业务存在不同的考量数据指标体系的问题。在搭建指标百科的同时建立数据效果监控整体的目标对齐,PUSH效果怎么评估,是否可以标准的稳定下来同样的一套数据,页面怎么效果评估,是否可以标准的稳定下来同样的一套数据。
以理想的方式搭建指标管理内容,在我前面的文章《小诀窍:不妨尝试从交付质量上打败对手》中有提到,我们可以根据需求的类型做分类进行固化。
0x04 指标体系的管理工具
管理指标体系内容搭建的管理工具,我们通常将其和元数据管理放在一起。也可以看出元数据管理和指标体系管理很类似(元数据的管也存在指标体系同样的问题),在管理指标体系内容的时候,基本涉及以下下几块内容:
- 数据仓库表管理 // 一般只涉及应用层数据
- 数据指标管理 // 管理上面提到的指标内容,新增,编辑,删除,状态等
- 数据维度管理 // 类似指标内容,新增,编辑,删除,状态等
- 数据模型管理 // 管理指标或者数据表头计算的模型,新增,编辑,删除,状态等
- 数据应用服务管理 // 支持数据可视化,或者数据服务的方式,接口等
- 数据权限管理 // 管理工具的权限运营维护
备注:指标体系的管理工具,须建立相关的运营维护流程。
当然,正如我几次提到当前的指标体系内容的管理不理想的问题,这是很多人遇到的问题,我也在探索新的管理方式,后期我会单独开篇文章总结以知识库工具怎么配合指标体系的大家。