预计阅读时间:6min
解决痛点:本系列为大家总结了面试中常考的22道AB实验问题,涵盖接近100%的知识点,对于准备找工作的你会有很大帮助。
00
序言
AB实验是数据分析面试中避不开的一个话题,小火龙为大家总结了7个大方向的问题,分别为:「实验理解类问题」、「实验设计类问题」、「实验运行类问题」、「实验评估类问题」、「实验放量类问题」、「特殊实验类问题」、「实验概念类问题」,涵盖了绝大多数常考知识点。
上篇分享了前三个方面,可以戳「AB实验篇-上」。本篇为大家带来「实验评估类问题」、「实验放量类问题」两个方面,剩余两个方面会在下篇推给大家。
01
实验评估类问题
题目10:AB实验一般你是如何评估的?是否有一套完整的流程?
考核点:对于实验评估环节是否了如指掌,评估流程是否体系化、科学化。
难度系数:3星
常规AB实验评估一般分为三个步骤:
步骤一:整体指标分析。通过指标的点估计、区间估计、P值、最小检测变化(MDE)、指标趋势、指标差异趋势,评判策略效果是否显著。
步骤二:下钻指标维度。当实验重点关注部分群体时,分析中往往对用户进行下钻,聚焦用户评判效果;或者当实验效果不及预期时,会下钻维度分析原因。
步骤三:case抽取分析。当遇到实验正负向较明显时,可以将极端case单拎出来,分析可能的原因。例如:通过case发现某些之前没关注到的维度表现非常差,则可以有针对性的调整实验触发。
题目11:在进行AB实验评估时,选择指标的「累计去重口径」还是「非累计去重口径」更为科学呢?
考核点:对于实验科学性评估的考察。
难度系数:5星
首先,解释一下什么是累计去重口径(多日累计去重口径)?什么是非累计去重口径(多日非累计去重口径)?
举个例子
第一日来了100个用户,第二日来了100个用户,两日中有50个用户是重复的。
两日累计去重口径用户数 = 100 100-50=150人;
两日非累计去重口径用户数 = 100 100=200人。
回到指标上来,假设实验上线2日,评估指标为「人均时长=总时长/总人数」,分子总时长直接加和即可,分母总人数选择累计还是非累积口径更为科学呢?
答案是「累计去重口径」,在分组用户均衡的情况下,累计去重口径可以保证样本量的均衡,不会受到实验策略对留存的干扰,避免用户出现有偏的情况。如果觉得不好理解,可以看下面这张图:
由于实验组与对照组是1:1流量,因此每日首次进入分组的用户量级一致,均为1000人,但受到策略影响,实验组留存高于对照组,两种口径计算的累计用户数如下:
采取「非累积去重口径」,两日用户数求和:
实验组:1000 1600=2600
对照组:1000 1400=2400
采取「累积去重口径」,两日用户数求和:
实验组:1000 1000=2000
对照组:1000 1000=2000
随着实验的进行,「非累计去重口径」用户数偏移会越来越严重,因此在AB实验评估中要采用「累计去重口径」更为科学。
题目12:在进行AB实验评估时,通过哪些值来评判指标是否显著?
考核点:评估指标的指标有哪些?如何评估策略是否显著?
难度系数:5星
在「题目10」当中有所提及,通过点估计、区间估计、P值、最小检测变化(MDE)、指标趋势、指标差异趋势,这些值来评估指标是否显著。
同时,针对不同类型指标的计算方式有所不同,在上篇「题目5」当中有所提及,可以戳蓝字部分进行回顾。
题目13:在进行AB实验评估时,选择的指标当中,表现有正有负,怎么办?实验策略是否可以上线?
考核点:实验指标的表现大概率非完全一致,在这样的情况下,候选人会如何做?
难度系数:4星
评估实验过程中,指标关注优先级为「部门核心北极星指标」>「实验期望提升指标」,具体实验决策可参考下图:
题目14:实验关注指标有显著提升,且提升幅度达到实验预期,能否说明策略全量之后也一定好?
考核点:考核候选人对于抽样和全量的理解,以及周期长短对评估的影响。
难度系数:3星
不一定。原因有以下三点:
其一:假设检验原因。AB实验本质上是假设检验,而假设检验是存在一定犯错概率的,一般设定犯第一类错误的概率为5%,即策略本身没有效果,但实验判断为有效果。也就意味着,可能出现实验显著,但全量不显著的情况。
其二:样本量原因。实验抽样即便满足了最小样本量的要求,但不同量级用户在指标上的稳定程度是不同的,样本量越大,波动越小。因此实验全量上线后的效果,与实验期可能存在一定差异。
其三:时间原因。一般业务都希望策略能够快速迭代上线,实验的上线周期60%小于两周、90%小于1个月,这样会导致部分长期效应在实验期间无法检测出来。
举个例子
短视频平台购券策略迭代,重点要评估线下消费的情况,但由于购券到线下消费是存在一定时间diff的,因此较短的实验周期往往无法评估这种中长期的影响。
解决方案:降低显著性水平 实验周期适当延长 策略上线后保留小流量对照组。
02
实验放量类问题
题目15:AB实验通过后,是否可以直接放量到100%?需要考虑哪些因素?
考核点:考核候选人对于科学放量方式是否了解。
难度系数:4星
不可以。实验放量需要综合考虑「效率、质量、风险」三个因素,因此需要阶段性的放量,保障线上策略不会出现bug等情况。
一般实验放量分为三个阶段,分别为「小流量阶段、放量阶段、长期存放阶段」,感兴趣的同学可以戳蓝字部分查看「AB实验最佳流程」。
题目16:策略全量上线后,业务方希望评估实验长期的影响,要如何做?
考核点:考核候选人对于评估实验长期影响的理解。
难度系数:2星
配置实验长期对照组,度量策略的长期效应。
以上就是本期的内容分享,下篇会为大家带来「特殊实验类问题」、「实验概念类问题」的面试内容。