00、序言
本篇文章,接着和大家分享数据分析面试过程中遇到的一些开放性问题,往期问题可戳蓝色链接进行查看。
「问题1」平台如何识别出内容是广告?
问题二
面试官:针对抖音、快手这类短视频类APP,如何给创作者划分等级?
01、为什么要划分等级
首先,我们仍然先来思考下,面试官问这个问题的目的是什么?
对于短视频类产品而言,左手是创作者,右手是用户。创作者决定了能给内容池子贡献多少优质视频,毕竟巧妇难为无米之炊,只有有了优质的内容,才有可能通过推荐系统展现到用户的面前。
因此,无论是从平台视角,还是从用户视角,都需要对创作者进行等级划分,对好的创作者给予更多的扶持,反之打压劣质创作者的视频分发和曝光。
02、常规处理流程
这里,小火龙为大家讲解一种相对通用的等级划分流程,以及其中的注意事项。
步骤一:选择指标
要想进行等级划分,首先要有划分的依据,而选择合适的指标是等级划分合理性的先决条件。对于视频创作者而言,可以从「创作者角度、视频角度、消费角度」三个方面选择指标。
- 创作者角度:活跃度、信誉度等。
- 视频角度:内容质量(对于视频质量评估,可参考文章「浅谈视频质量评估方式」)、发布频次、审核通过率等。
- 消费角度:VV、3S快划率、完播率、重复播放率、互动率、点赞率、点踩率、评论率、分享率、吸粉次数、举报率等。
步骤二:处理指标
要想最终给创作者一个综合分数,便要将这些特征映射到一维数值上。然而这里大家应该也发现了,指标类型、指标绝对值、指标分布均存在着不一致的情况,因此,需要先将其去量纲化,常见的去量纲方式主要有以下两种。
- 归一化(又称:01归一化):将输出值控制在0-1之间,数据相对稳定,不存在极端值的情况。
- 标准化(又称:min_max标准化):更好的保持样本间距,可间接通过中心化避免异常值和极端值的影响。
那有同学可能会问了,在此场景下,这两种方式哪种更合适呢?
先说结论:归一化。大家可以思考下是何原因,会在后面的文章中单拎出来进行分享。
步骤三:设定权重
当有了各个特征标准化后的数据,下一步便要对各个特征设置权重值。这里,由于没有创作者先验的等级划分依据,因此需要采取无监督学习。
权重设定的核心原则=符合业务场景 等级可划分开。因此,可以在符合业务认知的前提下,结合去除量纲后指标的离散程度,来给不同特征设置权重,尽量增强融合后指标的信息丰富度。
对于指标的重要程度,这里建议:消费角度>视频角度>创作者角度。用户都是用脚投票的,其行为数据对于创作者的评级有很强的指导价值。
步骤四:划分等级
当有了创作者唯一分数后,剩下的最后一步,便是将分数与等级进行映射。这里仍然是强依赖于业务,可以优先通过分数分布划分一个初步层级,然后结合业务进行调控,每个层级分配不同比例的作者以及对应内容量。
以上就是本期的内容分享。