1. “最近一周发布文章数”离线标签的生成
应用背景:用户发布文章的数目以及频率代表了用户的生产活跃度,作者运营人员期望通过画像平台新增“最近一周发布文章数”标签来表达用户的生产活跃情况。
应用方式:运营人员通过画像平台标签管理功能新增该离线统计标签,基于用户每日发布文章明细数据可以配置统计规则,即T日统计所有用户T-7日到T-1日发布的文章数目总和。该标签支持每日自动更新,T日需要按时产出T-1日全量用户的标签数据。
应用结果:“最近一周发布文章数”标签定时产出后会存储在Hive表中供用户使用,在画像平台人群圈选和画像分析功能中可以直接使用该标签。作者运营人员可以分析所有用户在该标签上的分布占比,了解用户发布作品的分层情况;基于该标签可以区分出不同用户的生产活跃度等级,并针对不同等级用户采取不同的鼓励策略。
2. “当日用户被举报次数”实时标签的生成
应用背景:用户被举报次数表达了该用户的风险程度,当用户在短时间内被频繁举报时需要及时进行风险干预。为了提高风控效率,风控人员希望新增“当日用户被举报次数”实时标签,当标签数值超过一定阈值后需要及时向风控系统发送报警信息,风控人员根据用户的实际情况判断是否对用户进行封禁等操作。
应用方式:风险控制团队向画像平台提出实时标签需求并描述具体应用场景,画像平台找到用户举报事件流并进行实时数据消费,消费过程中计算每个用户当日被举报次数并构建为实时标签。
应用结果:实时数据消费过程中,当用户“当日用户被举报次数”标签值超过报警阀值时会自动向相关风控人员发送报警消息。风控人员接收到报警消息后可以查看用户被举报原因,其中包含了被举报次数和详情,风控人员可以手动快速封禁用户。通过该标签还可以实现自动化用户封禁功能,无需人工干预即可封禁用户,极大地提高了风控效率。该实时标签直接存储在Redis中,也可直接提供给标签查询服务使用。图8-1展示了该标签的生产过程和应用逻辑。
3. “活动预约参与者”导入标签的生成
应用背景:一般大型运营活动都会进行提前预约,运营人员希望分析参与活动预约的用户在后续活动中的表现。如果预约用户在后续活动中的表现明显优于未预约用户,则后续可以加大预约活动的投放力度。
应用方式:运营人员使用画像平台标签管理功能中的新增导入类标签功能,将参与预约活动的用户导入画像平台并构建标签“活动预约参与者”。对于有预约行为的用户,该标签的数值为1;未预约的用户,该标签的数值默认为0。该标签为一次性标签,无须自动更新。
应用结果:运营人员把所有参与活动并且有消费行为的用户通过Hive表导入的方式在画像平台创建了人群,通过分析该人群“活动预约参与者”标签占比,发现80%的用户为预约用户。分析了所有分享了活动页面的用户,其中有预约行为的用户占比为75%。以上结论证明了参与预约活动的用户在活动中的表现更加积极,可以带来更多的商业价值,后续可以提高预约活动的宣传力度并提高预约用户量。
4. “是否有车”挖掘标签的生成
应用背景:客户端计划后续增加“汽车”频道,在该频道中可以展示汽车相关资讯内容。为了了解潜在的用户规模和用户特征,期望增加“是否有车”标签。
应用方式:客户端产品向画像平台提出新增“是否有车”标签需求,该标签属于挖掘类标签,画像平台算法工程师先后开展数据收集与分析、模型评估与训练和模型上线等工作。用户是否有车属于预测问题,根据预测数值可以进行二分类,最终其标签数值分为是和否。该标签每天定时更新,T日计算T-1日全量用户标签数值。
应用结果:“是否有车”标签产出后在画像平台上支持人群圈选和分析功能。客户端产品可以分析有车用户的用户量级,有车用户的性别、年龄、兴趣爱好等画像分布情况,根据分析结果可以制定更合适的产品方案。
5. “常住省”标签占比波动报警
应用背景:数据研发工程师开发的用户“常住省”标签注册到了画像平台,并应用在了人群圈选和画像分析功能中。为了保证后续服务质量,需要监控该标签的数据质量和可用性。
应用方式:通过画像平台标签管理中的标签监控功能,配置常住省标签的监控指标并配置报警功能。监控指标包括每日数据量级、产出时间、标签值占比波动等,当监控出现异常后可以向数据研发工程师发送报警信息。
应用结果:通过监控报警可以及时发现标签异常,降低业务损失。某日常住省标签值占比波动较大发出报警,数据研发工程师及时干预并中断了标签数据的使用。经排查常住省标签数值波动是由于上游地理位置识别服务异常造成的,之后进行了数据修复,保证了常住省标签的数据质量。图8-2展示了常住省标签波动的触发原因和报警逻辑。
本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。