预计阅读时间:5min
阅读建议:本文站在数分同学的角度,分享工作中需要用到算法的地方,聚焦实际应用场景,算法不会展开(网络上有很多资料),内容相对轻松。
00
序言
「数据分析」和「数据挖掘」在很多同学眼中是两个单独的方向,但其实作为分析同学,在很多场景中,是可以利用挖掘技术解决问题的。同时,掌握一些算法内容,也是面试以及日常工作中的加分项。
本文小火龙会和大家分享7个在工作中用算法的场景,理论不会展开,聚焦思路,希望对你有所帮助。
01
反作弊
数据采集入库之后,常常会在ODS层做一步「离线反作弊」,目的是把“假用户”的刷量数据剔除出去,有助于下游数据的准确性。反作弊属数仓的范畴,一般会由DE同学负责,DS同学接触的相对较少。
反作弊的方式有很多,对于数据量不大的公司,有的甚至会直接采用统计规则进行识别。当然,在制定规则前,需要对作弊用户进行分析。例如:pv>500且ctr<0.3的用户在某些场景可能为作弊用户。
而对于数据量较大的公司,用户的作弊手段比较多样化,引入算法挖掘是非常有必要的。其中「图模型、树模型等」都有出现过,而在实战中,往往采用多种模型的组合,形成一个庞大的反作弊系统,简单举两个例子,让大家更有体感。
图模型方式举例:基于Swing二部图算法,计算用户之间相似度,结合图聚类将用户分簇,假设某个簇中疑似作弊用户大于一定阈值,则判定该簇中的全部用户均有作弊嫌疑。
树模型方式举例:根据用户的各种行为特征,采用有监督学习,判断是否为作弊用户。当然,有监督学习的缺点是,没有那么多作弊数据进行训练,同时当有新的作弊手段出现时,发现的也比较滞后。
02
异动分析
数据分析同学避不开的话题「指标异动分析」,这个在之前的文章中,小火龙也写过“异动分析三步曲”,从「异动分析思路」→「快速定位异常维度」→「输出量化结论」,对于哪部分感兴趣,可以戳蓝字部分,本篇文章不再展开。其中「快速定位异常维度」中,会利用树模型/相对熵的方式挖掘异常维度,提升排查效率。
03
预测分析
预测的作用主要在于目标的制定以及指标的监控。
预测的方式有很多:同环比、Arima、Holt-Winters、Prophet、LSTM等。
预测的场景同样有很多:日常预测、节假日预测、特殊时点预测等。
其中,Prophet是原理相对简单、精准度较高,且适用较多场景的模型。在之前的文章中也有写过「预测的理论篇」及「预测的代码实现篇」,对于哪部分感兴趣,可以戳蓝字部分。
04
用户增长 – Aha Moment挖掘
在新用户分析中,经常会度量功能对用户价值的影响,如果功能对用户有显著正向效果,则会考虑通过引导手段,帮助用户使用,也就是用户增长中常说的Aha Moment。
挖掘Aha的方式有很多,其中:功能与留存的Pearson相关性、随机森林特征贡献度,均是较为常用的方法,树模型可以辅助挖掘,从而提升分析效率。感兴趣的同学可以翻翻文章「用户增长-新用户篇」。
05
用户增长 – 用户流失预警
在用户成熟期后,往往会出现衰退、流失的情况,如果能在用户即将流失之前加以干预,挽留住用户,相比获取同等数量的新用户要划算的多。
用户流失预警模型,利用用户的各种特征,创建分类模型,预测用户未来流失的可能性,从而通过手段提前干预,尽可能留住这些用户。小火龙在之前工作中,也花了大量时间研究这块内容,在后面文章中,会和大家逐一分享。
06
因果分析
因果分析的目的主要是度量某个「干预」对「目标」的影响程度,我们经常用的AB实验就是为了解决因果问题。而在某些场景,当无法做AB实验,或者没来得及开发AB实验的时候,便可以通过一定算法手段进行挖掘。
DID(双重拆分法)、granger因果检验、因果树等,都是比较常用的方式。在之前的文章中,分享过因果算法在快手产品中的应用,感兴趣可以戳这里「因果推断」。
07
用户分群
在用户画像中,有些标签是人工加上去的,可以辅助业务进行推广,实现千人千面,例如:时尚达人、职场精英、家庭宅男等。这些标签是通过用户多种特征进行分群,并加以提炼。而聚类算法是经常用到的,同样可以翻一翻之前的文章,小火龙在「聚类算法的应用中」有详细的讲解。
最后说一句,在数据分析中,应用算法的地方还有很多,以上7个场景只是冰山一角。切记一点:学习前沿技术是非常有必要的,但算法的目的是服务于业务,在同等准召的情况下,优先选择简单的算法。
以上就是本期的内容分享。