——正文开始——
本文根据新浪资深技术专家高翔在软件绿色联盟开发者大会发表的《人工智能时代的自媒体个性化推荐实践》主题演讲整理而成,介绍了新浪新闻多个业务场景下(push、信息流、视频等)的人工智能技术迭代和业务驱动,如何在内容审核、内容理解和内容分发等多个领域进行持续赋能提效。
简介
在(后)移动互联网的时代,内容生产、分发越来越便捷,媒体无处不在。普通用户拥有了生产专业媒体内容的能力,新闻的生产和传播越来越走向实时,信息交互方式更加高效,社会信息透明度进一步提高。
中国推荐生态进入到下半场,格局已经基本稳定,用户习惯逐渐被培养。在中国,随着互联网技术的发展,网络监管也越来越完善。几年前,你在网上发表言论,进行一些不当的网络攻击以及谩骂,这种情况下惩罚的力度非常低。而现在,信息越来越透明,如果你在网上发表不当言论,有可能会被国家进行监管,接受法律惩罚。与此同时,随着国内监管越来越严格,对内容生产、内容审核分发也提出了更高的挑战。
为此,新浪搭建了基于人工智能技术的推荐生态体系,分为三个维度:内容审核、内容理解、内容分发。
在内容审核方面,新浪新闻App突破了原有模式审核技术,与科研机构合作,针对自媒体千万级别新闻物料进行自动化审核和过滤,完成对文本关键词的监测,以及对涉敏内容的过滤,实现全景化的智能审核防线。高翔举例介绍,凭借人工审核 机器辅助双驱动模式,新浪新闻App看点平台现已实现了日均百万级别审核量。
在内容理解方面,围绕内容热度、内容相关性、内容标签,新浪新闻App构建“热点内容池”,基于微博数据和全网数据实时检测热点话题、话题匹配相关物料,通过对新闻物料的多维度建模,实时监测热点变化走向,第一时间发现潜在新闻热点并向用户进行推荐。这里会根据内容热度理解和内容图谱理解两大维度来判断哪些内容是用户更喜欢看的。
在内容分发方面,基于推荐生态、用户体验、理解用户及业务导向四个维度,新浪新闻App在用户兴趣理解、召回排序、多目标优化等方向上进行了个性化推荐的深度学习技术迭代和建模优化,以深度模型提升、优质热点内容挖掘提升内容分发效果。
内容审核
内容有优质、低俗之分,在内容审核方面,审核的技术挑战有两部分,一方面是识别效果,把这些问题识别出来,另一方面是服务效率,不仅仅识别得要好,而且要识别得足够多,足够快,因为每天量级很大,稍微出现服务效率的问题,会出现物料审核的堆积情况。下面一起来看优化之路:
1.Baseline模型 :CTPN DenseNet CTC loss
思想是垂直Anchor Fine-Scale 策略 RNN机制 Bounding Box回归定位,在2016年是主流的思想。优点是综合考虑图像上下文特征,垂直Anchor机制可以更好的定位,方便处理各种比例和纵横比的文本行。缺点是检测速度慢,对倾斜字符、小字符等复杂场景处理效果不佳。
2.模型优化:Psenet DenseNet CTC-Loss
思想是FPN 语义分割 多维度扩展合并,优点是适配小字符和倾斜字符,引入FPN提升模型识别效果和识别效率。先将图片送入CNN网络(作者使用Resnet),取其中四层Feature Map大小为1:2:4:8,前三层Feature Map分别进行上采样8,4,2倍让他们有相同的宽高,再进行融合得到S1到Sn这n个输出,代表不同尺度的文本区域掩码,之后进行一些后处理得到最后的文字区域,后处理规则的核心思想是广度优先搜索算法,对于文字区域冲突的像素采用"先到先得"原则。Psenet大致的思路是就是预测多个分割结果,分别是S1,S2,S3…Sn代表不同的等级面积的结果,S1最小,Sn最大。然后在后处理的过程中,先用最小的预测结果去区分文本,再逐步扩张成正常文本大小。
3.性能优化:轻量级网络替代BackBone网络
为了优化性能,用一些轻量级网络替代BackBone网络,对MobileNet、ShuffleNet、SqueezeNet做了对应的实验探索,参数量级能从billion级别降到million级别,计算量得到大幅降低,预测性能减少至少50%以上。这是目前尝试效果较好的模型性能优化。
4.效果优化 - 结合业务场景做数据增强,提升训练图片数量 质量
机器审核会有“漏网之鱼”的情况,一般有两方面的原因:一方面字体比较复杂,可能不是常规的微软雅黑、宋体,或是生僻字体;另外一方面背景不是纯色、白底、黑底,可能是一个花纹、木纹。对策是基于业务方反馈到的问题,会持续做一些数据增强,把这个数据放模型里面,提升训练图片数量、质量。目前已经积累了近千万级别的数据,能够大幅度提高模型的容错,提升审核效果。
内容理解
内容理解有3个维度,分别是内容热度,内容相关性,内容标签。如下图所示:
微博是中国社交事件的一个广场,有突发热门事件发生,基本上第一时间会在微博上关注。基于微博数据搭建一套机器学习的实时触发系统,进行热点的触发。有一个事件通过微博发出,两分钟内基本上都可以检测到,同时会有热点加工。比如一个事件如果很火的话,不止一个微博,是多个微博,把多个微博转化为一个话题,提交给运营,让运营分析这个事件是不是热点事件,如果这个事件是热点事件,运营者会写相关的文章,推送相关的物料。
建模时依据的特征如下图所示,主要分为两类,一类是原始类特征,另一类是传播类特征。原始类特征如微博本身是什么内容的,因为不同领域的内容可能不太一样。传播类特征如微博扩散速度快不快,每分钟转发多少,收藏多少,话题有多少讨论量,这都是建模的一些特征。
对于微博热点,是如何触发的呢?基于算法挖掘出来的规则以及运营给的经验性规则进行触发,触发概率是比较低的,而且公式复杂,参数较多,规则热点率是24.5%,相当于触发四条,有一条运营认为是热点。把原始特征和规则类特征转化为模型,通过模型的方式进行预测,用DeepFM模型,热点触发率可以提升到40%。这是人工智能落地的具体实践。
接下来讲一下图谱,图谱是游戏如《王者荣耀》,影视、综艺、娱乐类相关IP,这是大家理解的一个大IP。
大IP标签如何建模?视频有一个持续序列的图片,另外会有一些音频,不要小看音频,尤其是抖音类的视频,单纯通过音频就可以做一个分类,是搞笑还是美食类的。同时会有一些标题,像这个视频标题是什么,会有多个维度的信息进行建模。以一个多模态和单目标的思想,把多模态进行特征的抽取,多模态内容理解建模,完善视频标签体系,这是我们最开始的思想。
如何持续优化效果?解决方案是引入多模态Attention 多目标建模思想。
思路是充分利用图像、音频和文本特征,考虑学习多模态特征的分类贡献度,优化分支网络,模型拟合更好。
方法:多目标联合
- 单类Loss
- 联合Loss
- AttentionLoss
通过多目标的思想可以进一步提升模型识别能力和多模态的识别能力。在优化最终目标的同时优化了分支网络,可以使各分支模型的特征更准确,在单目标基础上进一步提升效果。
如何“筛选”大IP内容池?先分析哪些内容是IP,然后把IP反馈给技术,通过技术进行视频库的加工、抽取、CV理解,进行模型训练,逐步迭代到整个模型体系中。每一个视频通过视频 Embedding的思想,转成Embedding,提供到线上直接使用。
那如何对视频Embedding?设计方案是孪生神经网络(Siamese Network),包含两部分:中下部分为视频1的网络,输入为视频特征信息,经过3层全连接及L2正则,输出Video Embedding;右上部分为视频2的网络,结构和参数同网络1完全一致,并共享参数。目标函数为两个Embedding的相似性距离。解决方案是将视频转化为图片序列,计算序列整体相似度Embedding。
内容分发
对于新用户而言,对平台没有太多的认知,推什么内容?应该推平台优质,能够沉淀用户、吸引用户的内容。对于老用户而言,已形成用户黏性,应该推更符合兴趣的内容。基于用户分层机制,针对不同用户做不同策略,用不同的内容池进行实验,进行线上配置。目前而言是可以快速配置,基本没太多开发成本。
下面讲解一下召回策略,在单塔基础上,引入item tower。支持item冷启动,支持item侧特征接入联合学习。这也是目前各大厂主流的配置方法。
在双塔召回的基础上引入多目标的思想,以多目标的方式训练推荐模型,同时在中间层加Self-Attention Layer,不同field 特征由Concat 操作变成Self Attention,动态决定样本权重。同时会对推荐多样化也会有更好效果,既能考虑短视频也能考虑长视频。
接下来说下多目标,对于算法工程师而言,考核目标是各种各样的KPI指标,如平台DAU,CTR,播放时长等等。满足业务指标是不是用户体验就OK了?其实不是这样的,会有擦边、低质的情况,如标题党。
要素1:样本,更关注有价值的正样本
点击高互动少是标题党,文不对题概率大。点击少互动高,优质内容概率大。策略是样本reweight,优质正样本加权。对于时长类目标,低时长(3s),误点击、低俗概率大;高时长(20s ),优质内容概率大;完播率,如何Trade-Off 短视频和长视频。策略是对低时长样本进行降权or过滤,时长 完播率,转化为分类问题处理。
要素2:目标,单任务线性加权VS多任务联合训练
多个目标如点击率、转化率、互动率,每一个目标训练一个模型,上线的时候去组合,加权组合出最优、最大化平台效果,这种方法比较简单。缺点是每一个模型都单独训练,数据有其他依赖关系,不能很好学习和引入。业内的发展趋势是多目标做一个联合训练,设多个目标,可以同时有点击率、互动、转化率等。
要素3:模型,底层 Bottom-share 顶层 业务定制
对模型角度而言,有一些通用的方案,像阿里ESMM,针对 CVR 预估场景的样本稀疏/选择偏差问题。基于广告场景,全局样本对 CTR/CVR 综合建模。
第一个优化方案是Reweight。首先对样本做Reweight,对优质的样本进行加权,对于低质的样本,如播放时长小于3S,会做一个对应的过滤甚至是降权。
第二个优化方案是模型改造。主目标是CTR,辅助目标是阅读 播放 互动。因为不同目标维度不同,且双塔需要保证User/Item Embedding相关性,所以主任务没有加DNN层,而辅助任务增加了MLP层。
Final优化方案是双塔DNN 多目标。在双塔召回的基础上引入多目标的思想,以多目标的方式训练推荐模型,同时在中间层加Self-Attention Layer,不同Field 特征由Concat 操作变成Self Attention,动态决定样本权重。同时会对推荐多样化也会有更好效果,既能考虑短视频也能考虑长视频。
最后是2019年效果指标的增长,效果提升主要源于两方面:一是深度模型提升,二是优质热点内容挖掘。基于动态分发的机制,能够让不同层级的用户看到更符合自己兴趣的内容,对线上指标有正向的影响。
·END·