「求职」22道数据分析面试题,涵盖95%常考知识点『AB实验篇-中』

2022-06-30 16:55:21 浏览数 (1)

预计阅读时间:6min

解决痛点:本系列为大家总结了面试中常考的22道AB实验问题,涵盖接近100%的知识点,对于准备找工作的你会有很大帮助。

00

序言

AB实验是数据分析面试中避不开的一个话题,小火龙为大家总结了7个大方向的问题,分别为:「实验理解类问题」、「实验设计类问题」、「实验运行类问题」、「实验评估类问题」、「实验放量类问题」、「特殊实验类问题」、「实验概念类问题」,涵盖了绝大多数常考知识点。

上篇分享了前三个方面,可以戳「AB实验篇-上」。本篇为大家带来「实验评估类问题」、「实验放量类问题」两个方面,剩余两个方面会在下篇推给大家。

01

实验评估类问题

题目10:AB实验一般你是如何评估的?是否有一套完整的流程?

考核点:对于实验评估环节是否了如指掌,评估流程是否体系化、科学化。

难度系数:3星

常规AB实验评估一般分为三个步骤:

步骤一:整体指标分析。通过指标的点估计、区间估计、P值、最小检测变化(MDE)、指标趋势、指标差异趋势,评判策略效果是否显著。

步骤二:下钻指标维度。当实验重点关注部分群体时,分析中往往对用户进行下钻,聚焦用户评判效果;或者当实验效果不及预期时,会下钻维度分析原因。

步骤三:case抽取分析。当遇到实验正负向较明显时,可以将极端case单拎出来,分析可能的原因。例如:通过case发现某些之前没关注到的维度表现非常差,则可以有针对性的调整实验触发。

题目11:在进行AB实验评估时,选择指标的「累计去重口径」还是「非累计去重口径」更为科学呢?

考核点:对于实验科学性评估的考察。

难度系数:5星

首先,解释一下什么是累计去重口径(多日累计去重口径)?什么是非累计去重口径(多日非累计去重口径)?

举个例子

第一日来了100个用户,第二日来了100个用户,两日中有50个用户是重复的。

两日累计去重口径用户数 = 100 100-50=150人;

两日非累计去重口径用户数 = 100 100=200人。

回到指标上来,假设实验上线2日,评估指标为「人均时长=总时长/总人数」,分子总时长直接加和即可,分母总人数选择累计还是非累积口径更为科学呢?

答案是「累计去重口径」,在分组用户均衡的情况下,累计去重口径可以保证样本量的均衡,不会受到实验策略对留存的干扰,避免用户出现有偏的情况。如果觉得不好理解,可以看下面这张图:

由于实验组与对照组是1:1流量,因此每日首次进入分组的用户量级一致,均为1000人,但受到策略影响,实验组留存高于对照组,两种口径计算的累计用户数如下:

采取「非累积去重口径」,两日用户数求和:

实验组:1000 1600=2600

对照组:1000 1400=2400

采取「累积去重口径」,两日用户数求和:

实验组:1000 1000=2000

对照组:1000 1000=2000

随着实验的进行,「非累计去重口径」用户数偏移会越来越严重,因此在AB实验评估中要采用「累计去重口径」更为科学。

题目12:在进行AB实验评估时,通过哪些值来评判指标是否显著?

考核点:评估指标的指标有哪些?如何评估策略是否显著?

难度系数:5星

在「题目10」当中有所提及,通过点估计、区间估计、P值、最小检测变化(MDE)、指标趋势、指标差异趋势,这些值来评估指标是否显著。

同时,针对不同类型指标的计算方式有所不同,在上篇「题目5」当中有所提及,可以戳蓝字部分进行回顾。

题目13:在进行AB实验评估时,选择的指标当中,表现有正有负,怎么办?实验策略是否可以上线?

考核点:实验指标的表现大概率非完全一致,在这样的情况下,候选人会如何做?

难度系数:4星

评估实验过程中,指标关注优先级为「部门核心北极星指标」>「实验期望提升指标」,具体实验决策可参考下图:

题目14:实验关注指标有显著提升,且提升幅度达到实验预期,能否说明策略全量之后也一定好?

考核点:考核候选人对于抽样和全量的理解,以及周期长短对评估的影响。

难度系数:3星

不一定。原因有以下三点:

其一:假设检验原因。AB实验本质上是假设检验,而假设检验是存在一定犯错概率的,一般设定犯第一类错误的概率为5%,即策略本身没有效果,但实验判断为有效果。也就意味着,可能出现实验显著,但全量不显著的情况。

其二:样本量原因。实验抽样即便满足了最小样本量的要求,但不同量级用户在指标上的稳定程度是不同的,样本量越大,波动越小。因此实验全量上线后的效果,与实验期可能存在一定差异。

其三:时间原因。一般业务都希望策略能够快速迭代上线,实验的上线周期60%小于两周、90%小于1个月,这样会导致部分长期效应在实验期间无法检测出来。

举个例子

短视频平台购券策略迭代,重点要评估线下消费的情况,但由于购券到线下消费是存在一定时间diff的,因此较短的实验周期往往无法评估这种中长期的影响。

解决方案:降低显著性水平 实验周期适当延长 策略上线后保留小流量对照组。

02

实验放量类问题

题目15:AB实验通过后,是否可以直接放量到100%?需要考虑哪些因素?

考核点:考核候选人对于科学放量方式是否了解。

难度系数:4星

不可以。实验放量需要综合考虑「效率、质量、风险」三个因素,因此需要阶段性的放量,保障线上策略不会出现bug等情况。

一般实验放量分为三个阶段,分别为「小流量阶段、放量阶段、长期存放阶段」,感兴趣的同学可以戳蓝字部分查看「AB实验最佳流程」

题目16:策略全量上线后,业务方希望评估实验长期的影响,要如何做?

考核点:考核候选人对于评估实验长期影响的理解。

难度系数:2星

配置实验长期对照组,度量策略的长期效应。

以上就是本期的内容分享,下篇会为大家带来「特殊实验类问题」、「实验概念类问题」的面试内容。

0 人点赞