导读:信息应用是作为手机终端出厂必备的应用,目前用户量最大的应用之一,由于OTT(Over The Top)聊天应用如微信、QQ等快速崛起,个人使用信息应用的频率逐渐下降,在信息中企业消息业务占据主导地位,主要包括通知类和营销类信息内容等。随着互联网的发展,5G消息的到来,5G结合富媒体消息、实时交互、一站式服务等提供消息的服务,将越来越多的消息内容与服务被传播推送到用户,容易产生了严重的信息过载,如果不采用一定的手段,用户很难在如此多的消息中找到对自己有价值的信息,解决用户信息过载的方式,一种是搜索系统,用户有明确的需求,将需求转化为需要搜索的词语(query),将query提交到对应的搜索引擎,搜索引擎从海量的信息中检索出与query相关的信息返回展示到用户,如谷歌搜索、百度搜索等;另外一种是推荐系统,很多时候用户的意图并不明确或并不知道通过什么query进行搜索,在这个情况下推荐系统是一个比较好的选择,解决用户信息过载,理解用户意图,为用户精准推送个性化的信息,如今日头条、抖音、快手等。推荐系统就是根据用户的行为,从海量数据候选集中挑选适合用户topN内容,对数据的判断越准确,越细致,推荐系统的越准确。
推荐系统从架构角度基本上可以分为数据层,召回层、融合过滤层和排序层。数据层包括数据生成和数据存储,利用各种数据处理工具对原始日志进行清洗、处理落入到不同的系统中,反馈算法模型、用户画像等中使用。召回层根据用户的属性、用户画像、历史行为、实时行为、地理位置等维度触发召回策略产生初始的推荐候选集。融合过滤层将不同召回策略产生的候选集进行融合,并按照规则进行过滤。排序层利用机器学习模型对筛选出来的候选集进行重排序,分为粗排和精排,各个阶段处理的候选集数量递减。
5G消息推荐系统介绍
基于信息应用历史及实时的用户数据沉淀,积累得到大量的消息内容,通过消息推荐系统对消息内容源进行召回、过滤、粗排、精排等路线演进,实现对用户进行消息内容的精准推荐。在消息内容精准推送的同时考虑用户的信息茧房效应,拓展用户的内容兴趣爱好,提升用户的产品体验。5G消息通过企业内容生产者创造消息内容,包括图文、视频、音频等内容,丰富多样性的推荐内容,同时结合RCS不断优化信息应用产品体验和富媒体样式优化。
基于实时和历史数据的推荐系统
推荐系统简单流程
消息内容源
对企业内容生产者在平台创作的文本、视频、图文、音频等作为内容源,由于内容、质量、标签等存在较大差异,进行归一化处理,平台进行内容的统一处理,包括标签体系、主题、类目等,反馈至应用方:召回策略、数据画像、环境建模、排序等使用。
消息内容库
对消息内容源进行内容理解构建消息内容库,根据内容中包含大量的文本、音频、视频等内容的标题、内容等数据进行处理对内容进行分类和整理得到内容库。内容理解主要包括文本理解、多媒理解、内容倾向性,投放目标预估,主要应用在内容试探投放提升、多场景内容库构建、推荐相关性召回以及动态封面创意服务。
- 通过内容本身理解内容:针对内容抽取静态标签;
- 通过用户理解内容:通过用户行为数据(阅读、分享、点赞等)积累的后验数据、统计或者模型预估内容的知识性、倾向性、投放目标以及抽象表达;
- 文本分析:从文本信息的分类、topic、model、标签等维度进行分析内容;
- 多媒体分析:从多媒体信息的封面图、标题、清晰度、质量、色情、敏感信息进行分析内容;
- 知识图谱:内容内外部关键词与词关系;
- 内容投放目标:通过用户的历史数据行为来理解内容的推荐推送目标;
- 内容倾向性:内容年龄倾向、内容地域倾向、内容适合倾向等;
召回层
召回主要负责通过用户行为、场景、属性等进行判断,从百万、千万的海量数据集中选出万级别的候选集给到粗排。系统一般采用多路召回的架构。召回主要分为模型类、属性、人工干预、试探类、运营策略等几个大类召回,简单的召回模型分类如下图所示,不同的召回策略的意义和解决的问题不同,因此目前系统可以采用多路召回可配置的情况,让多种召回策略保留在系统中,在召回中还有一些试探召回、冷启动召回对用户的兴趣进行探索。
在召回的设计中需要考虑的问题:
- 用户层面:用户的多元化兴趣、用户的个性化需求;
- 系统层面:召回兜底增强系统稳定性,在部分召回队列失效,不会导致整个召回层失效,导致推荐系统失效;
- 多样性内容分发:文本、图片、图文、视频、音频按照一定比例分发;
融合过滤层
融合过滤层的主要责任是对召回的候选集进行融合和过滤,主要有两个作用,一是通过召回融合提高推荐策略的覆盖度和精度,二是承担过一定的过滤职责,从产品、运营角度制定一些人工规则,将候选集过滤掉不符合条件的内容,主要包含频次控制、黑白名单、投放时段、内容质量等规则。
排序层
排序主要分为粗排和精排两个阶段,主要区别是两者的候选集量级不一样,一般输入粗排的候选集为万级别,输入精排的候选集为千级别。候选集的数量差异决定了粗排在性能上的要求,因此特征上选取粗粒度、区分度较高的特征,而模型选择线性模型后者复杂度较低的深度模型。精排需要对粗排候选池中的消息list进行打分,是针对每一个用户对候选消息的点击率进行预测(PCTR预测),以及进行多目标推荐效果优化,多目标包含点击以外的阅读时长、分享等其他与用户息息相关的推荐指标。系统会在精排再接入一层混排,主要负责多路异构结果混合排序、整体多样性控制、人工干预等,最终决定推荐给用户的topN结果。
结语:随着5G的发展加速连接效率,5G已成为全球最热门的新技术之一,亦是一场对产业互联网的巨大赋能,更多的企业发布5G消息平台赋能产业,如2020年阿里云在云栖大会推出5G消息使能平台MEP,5G消息对产业的赋能,让企业与用户的连接效率跃进式提升,消息过载造成的影响会逐渐凸显,而基于5G消息平台的消息推荐策略让用户远离消息过载造成的影响更加舒适的体验5G消息带来的便利。