今天说说指标类问题你在面试中会被问到的问题。
我们抛开指标开发涉及到的技术点不谈,聊一下更偏重实际业务背景,二面及以上面试官关注的宏观和问题。
这问题答得好,让面试官回家等消息,答得不好,你回家等消息。
在实际工作中,因为业务本身逻辑复杂,迭代迅速,指标会越来愈多。指标之间也会互相影响,所以两大类问题摆在大家面前:
- 第一,你怎么处理爆炸增长的指标数量问题
- 第二,如何进行指标的异常、归因分析
第一个问题
很简单,大家都会有指标中心这个东西。这里面你的问题主要是下面几个:
- 你们是怎么进行指标结构化定义的?
- 如何对外提供统一的服务的?
- 指标本身怎么做血缘、生命周期和版本管理的?
这个能力一般是数据开发平台/中台能力的一部分,比较简单。
例如,我们的一般做法是参考OneData里对指标的处理方式,分为原子指标、维度等,进行结构化定义。然后通过API或者oneservice的方式对外提供服务等。血缘管理是通用的能力,另外需要生命周期也可以从定义、生产、消费、下线等几个方面去管理。
第二个问题
第二个问题是比较高阶的,如果你面试的部分非常看重业务本身,或者你面试的岗位本身比较高阶。而且往往是你的二面、三面面试官更关心,比较全局性、有高度的问题,不是所有人都会遇到。但是一旦你回答的比较好,有自己的思考,面试效果会超出面试官期望,你确实可以让他回家等消息,你的选择余地也会大。
那么你的问题会是下面这几类:
- 你们是怎么进行指标的异常检测和分析的?
- 你们如何判断一些强业务类指标的合理性的?
- 你们在数据开发中可能会遇到一些问题吧?遇到过什么问题?
我们一个个来说,首先这三个/类问题是有些超出我们日常工作范围内的问题的。因为异常检测和归因分析更多的是算法同学的工作内容。
但是问题就在这里,很多时候这个边界问题很难界定,事实上部分数据团队确实承担了开发和部分数据分析的工作。所以一旦你了解的内容比面试官期望的内容更多,那么就是更成功的面试了。
一般来说我们会对异常进行分类,例如我们可以把业务中的异常分为绝对值异常、趋势异常或者正负波动异常等等。你需要提供某个指标及其关联指标用到的明细数据和汇总数据,然后通过机器学习算法进行分析,从简单的逻辑回归到稍微复杂的贝叶斯网络等,或者分析师们经常用的最简单的指标异动分析方法也行。
如何判断一些强业务类指标的合理性。所谓强业务类指的是,你产出的指标可能会被运营或产品同学采纳直接指导生产实践,这些指标在实际使用过程中,会有明确的方法去判断产出结果是否「相对正确」,最终被使用方决定「是否采纳」。所以最直接的判断强业务类指标合理性的方式就是「准确率」和「采纳率」。
在进行指标分析过程中,会遇到非常多的问题,经常遇到的几个例如,如何判断当前指标的次级指标的贡献度,例如我们知道整体的GMV增长30%,那么是哪些次级指标的增长导致了现在的结果,是通过简单相加,还是权重相加?另外还会遇到指标的维度拆解问题,同上例子,我们分析GMV增长,是通过商品还是类目还是行业维度判断?这显然是一个需要决策的过程,需要找到合理的最佳维度进行贡献度拆解。此外,你还会遇到bad case过多、数据质量差等等其他问题。总之你可以结合实际业务情况回答即可。
上面就是一个略超纲的开发 分析/挖掘类的面试问题的回答思路。大家可以多读几篇文章或者书来补充一下基础知识。
然后让面试官回家等消息。