作者:黄耀鹏, 腾讯PCG数据分析工程师
|导语 视频弹幕作为视频内容延伸、以及用户喜好反馈的一部分,有着巨大的挖掘价值。本文旨在通过运用文本挖掘技术,从弹幕中挖掘综艺节目热点话题,助力平台精准把握用户消费偏好、提升节目运营效率。
声明:本文运营方案相关的思考为个人观点,不代表腾讯视频既有运营方案和平台价值取向。本文仅纯粹作为个人感兴趣的技术研究总结。抛砖引玉,期待感兴趣的同学一起交流探讨。
1. 业务场景思考
1.1 视频弹幕的本质
弹幕文化,首先兴起于ACG社区等小众群体。而随着B站等弹幕视频网站的崛起,弹幕也已逐渐成为各类长短视频网站的主流和标配。即便是今年后来居上的微信视频号,也悄然加入了类似弹幕功能的【浮评】功能,并默认开启。由此可见,弹幕在视频观看体验中有着不可或缺的地位。
对于发表弹幕的用户而言,它是一个寻求共鸣的发声区,用户可以从弹幕的曝光和点赞中获取认同感。同时,它也是段子手抖机灵、造金句、展现才华的一个舞台。
而对于观看弹幕的人群而言,它是视频内容的延伸和补充,同时也是观众寻求观影陪伴和收获共情感受的场所。可以营造一种类似于上个世纪没有互联网的年代,一家人在茶余饭后,围坐一起,对着电视节目品头论足的温馨氛围。
作为视频评论功能的补充,视频弹幕相比视频评论有几个优势:弹幕发表的门槛较低,无需跳出观影界面,无需长篇大论;开启了弹幕功能的用户均可触达,曝光度远高于视频评论;可以从弹幕中获得很强烈的认同感和陪伴感。基于这几点优势,弹幕文化深得后浪们的喜爱。
视频弹幕内容的挖掘分析,对于精准把握用户喜好、用户情绪,以及结合弹幕热点因势利导,提升内容社区活跃度等,有着非常重要的意义。
1.2 弹幕挖掘应用方向
节目运营智能助手
对于视频节目的运营人员而言,在节目上线的第一时间,需要作为一名深度用户,去体验节目播出效果,并通过运营数据收集用户播放行为反馈。从而及时制定针对性的运营策略,去引导更多用户种草和扩大影响力。
虽然追剧是一种娱乐行为,但当追剧成为运营同学的一项日常工作,难免有时会成为精神负担。特别是对于综艺节目而言,一期短则1个半小时,长则3个多小时。对于体力、精力、时间的消耗均是不小的挑战。
弹幕和评论属于用户行为反馈的内容之一,并包含了比播放指标更丰富的信息,那么,我们是否可以通过弹幕信息挖掘提炼,提供一种除了播放量、播放时长、完播率等常规运营指标以外,智能识别节目播出效果和用户喜好反馈的运营工具助手呢?下面我们来逐一剖析。
播放行为指标补充:
- 相对于纯播放行为而言,发表弹幕参与度更为深入。从而,如弹幕互动率(弹幕量/播放量*100%)可以作为播放UV和播放VV以外、衡量播放参与深度的补充指标。
- 播放时长和完播率体现了用户感兴趣片段的长度,而对于哪些片段属于节目高潮、哪些片段属于节目低谷,无从进一步判断。而我们通过统计各进度区间的弹幕数量分布和弹幕点赞情况,即可对各片段、各明星的受欢迎情况了然于胸。这些指标可以为当期节目精彩片段的剪辑和运营推广、以及后续待播节目正片的剪辑预判,提供运营人员专业判断以外的客观数据决策参考。
推广文案素材库:有了精彩片段,如何构思一段契合用户口味的推广文案,对于运营同学而言,也是一个不小的难题,特别是碰上灵感枯竭的时候。而通过对弹幕的点赞情况统计和排序,可以发现,热门弹幕要么是迎合大众情绪、且俏皮欢乐的抖机灵金句,要么是跟节目内容高度融合的新梗/黑话。运营同学通过通过结合热门弹幕素材,便可轻松批量化生产“抢眼"文案。
潜在热门话题识别:如何识别有出圈潜力的新梗和黑话,顺水推舟地制造热门话题,也是运营同学的一大挑战。除了投入大量时间关注微博热榜等“体力活”方式外,通过新词识别、命名实体识别等文本挖掘技术,挖掘弹幕文本中的新词、热门明星、热门CP等,可以智能识别新梗、新话题点,为话题制造和热度炒作提供源源不断的"弹药"。
选手热度排名修正:综合人气榜
对于综艺节目投票榜单而言,参与用户较多为铁粉。而选手和节目的出圈,特别是对于养成系选手而言,除了依赖忠诚铁粉的互动参与外,路人粉的声音也不容忽视。
由于发送弹幕和弹幕点赞的参与门槛较低,并且没有数量上的限制,可以一定程度反映明星和选手的路人缘。
此外,除了站内的弹幕和评论,还可以通过爬虫技术,获取站外相关短视频的弹幕和用户评论信息,并通过抽取明星/选手相关的关键信息,进行统计分析,得到各明星/选手的站外热度排名。
将常规的投票榜单和站内弹幕&评论人气榜单、站外弹幕&评论人气榜单,三者进行加权融合,可以得到更加综合全面的选手热度排名。进而,在接下来的运营推广中,可以根据排名进行曝光资源、推广资源的灵活调度。
除了选手间的热度横向比对,弹幕热度排名还可以实现将素人选手与已出道的节目明星嘉宾进行纵向比对,进而辅助预测其未来的培养潜力。
网络舆情监控助手
此外,对于弹幕和评论文本,还可以借助文本情感分析,鉴别观众的情感倾向,从而把握观众的整体情绪反应。对于节目突发负面舆情事件,可以提早预警和及时应对。
2. 实现方案
接下来,我们重点从建设节目运营智能助手这个角度切入,介绍动手实操方法。
2.1 数据采集
数据覆盖范围包括:电视剧、电影、综艺节目等三大类视频的全量站内弹幕、评论数据。并通过爬虫抓取部分站外(以B站为试点)相关短视频的弹幕和评论数据作为补充。
数据获取途径如下:
- 站内:后台及PCG评论中台将每日弹幕和评论流水日志上报至tdw。通过累积滚动,获取某个视频vid下的全量弹幕&评论数据。
- 站外:当前通过定制化关键词,每日定期抓取B站相关短视频标题、弹幕及评论。
2.2 分析框架
如下图所示,本研究实现框架主要划分为:数据接入层、指标计算层、数据服务层。
数据接入层:将采集到的站内、站外的评论和弹幕流水日志数据统一接入TDW。
指标计算层:将评论和弹幕流水日志数据按视频vid粒度进行累积滚动,并集中融合至统一的底表中。接着,通过Spark算法引擎,实现弹幕及评论文本分词、命名实体识别人名提取、新词发现。最后,在TDW完成运营指标统计。
数据服务层:最终在报表系统彩虹提供弹幕互动相关的评价指标分析,热门弹幕/评论、热门词云、热门选手综合人气变动、以及网络舆情监控分析等数据服务模块。
2.3 实现方法
该部分简单介绍算法引擎实现方案。
中文分词
由于弹幕文本属于非结构化的数据。需要转换为结构化的统计指标,面临的首要问题是将文本内容切割为一个个的词语。这其中,应用到的就是中文分词算法。
主流的中文分词开源引擎有:
- 业界:jieba分词、 哈工大LTP、 中科院ICTCLAS等。
- 司内:QQ分词、浏览器分词等。
由于中文分词领域的研究已经较为成熟,各类分词模块实现算法和分词效果大同小异,在此不再详细赘述。
考虑到实现便捷性等方面因素,本研究在中文分词上主要采用了jieba分词和QQ分词模块。
命名实体识别
命名实体识别(Named Entities Recognition, 简称NER)的作用,通俗来讲,就是将词语按照:人名、地名、机构名等进行分门别类的标注。
该技术为本文弹幕分析中,选手热度排名分析依赖的核心算法模块。
既然是标注,很容易想到基于规则,对人工标注库进行匹配的方法。然而,在标注库有限的情况下,特别是面对未曾在训练语料出现过的词语(未登录词),这样的标注任务会变得举步维艰。
另一个思路是基于概率统计的有监督方法。
如人名的识别,可将涉及人名的句子中每个字划分为4类:姓用字 B,名中字用字I,名尾字用字E,其他用字O。
如“涛涛一把推开周震南,说点歌是另外的价钱”这个弹幕:
模型输入特征为字词序列,输出预测结果为对应每个字的最终标注结果(BIEO中某一个)连成的标注序列。模型的目标函数为使这个标注序列的联合概率最大化。这样的训练模型称为序列标注模型。
这个模型思路背后的假设依据为:我们从已有语料中知道,“周”常为姓,“震”常为名中字,“南”为名为字尾字也较为常见。因此,即使我们语料中没有出现过"周震南"这个人名,也容易推断出"周震南"作为一个人名出现的概率较大。
新词发现
综艺节目中,观众常常热衷于造一些新词和新梗(如“奶拽”、“宇宙洪荒”、“宝藏男孩”),这其中常常蕴含制造热门话题的机会。我们可以通过新词发现算法,自动化将这些新梗识别出来。
新词发现的实现思路:根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较。未含其中的,则可认为是一个新词。
那么,怎样的文本片段可能成词?据研究,词的共同特征可以从几方面的考虑:
- 词频,如果一个文本片段出现的次数足够多,那么它越有可能是作为一个有含义的组合词语出现。
- 内部凝固度,设想一个二元组词(如“宇宙洪荒”),“宇宙”和“洪荒”单独出现的概率分别是P(A)和P(B)。假设这两个词是独立词,则两个词同时出现的概率为P(A)P(B)。如果这两个词不是独立的,则两个词同时出现的条件概率会远大于P(A)P(B),即P(C) >>P(A)*P(B)。
- 文本片段的自由运用程度,如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。
基于以上特征,统计语料中出现的所有 ngram 子字符串的词频、凝固度,自由度,信息熵,通过设置阈值先做一层筛选,并将各统计维度进行加权和排序得到候选集,最终与词库比对,则可得到热门新词。
基于词共现频率的关系链话题挖掘
综艺节目粉丝圈流行“炒CP”。CP话题作为关系链的一个子集,因八卦有趣,满足了粉丝们“磕糖”的需求,且可以把两拨粉丝的传播力量集结到一起,先天具备上热搜的潜力。如果我们能提早发现相关“苗头”,运营推广上助力一把,拿下微博热榜将变得更为轻松。
如明子4第5期点赞数第一的弹幕“老杀木吉本无缘,全靠强哥把水端”,把[王江元✖哈拉木吉✖闫永强]三人的纠结组合在弹幕中体现得淋漓尽致。
又如“有没有,像极了当初的周震南遇见欧阳娜娜”这一弹幕,则有着深扒历史八卦的趣味。
本文人物关系话题挖掘基于这样的简单假设:人名在同一个弹幕中被提及(即共同出现),则被认为存在关联的概率更高。
基于该假设,通过命名实体识别标注出弹幕中的人名后,计算各个人名共同出现的频率,并把弹幕点赞数作为人物关系值加权。将这样的关系链用图数据库进行可视化展示,相关的联系便可一目了然。
3. 应用效果举例
下面以腾讯视频自制综艺节目《明日之子乐季团》为例,进行弹幕挖掘应用效果分析。
3.1 热门词分析
以明子第三期为例,通过对站内视频弹幕进行分词,计算词频,并将词云可视化,可直观展现当期的热门词汇和话题。
从以上词云图可知:
1)第三期胡宇桐和田鸿杰(小熊)的宇宙鸿荒CP成功圈粉,成为热门讨论话题,两人热评印象词分别为温柔和可爱。
2)第三期TOP 5选手的讨论热度依次为胡总(胡宇桐)、小熊(田鸿杰)、廖俊涛、张嘉元、强哥(闫永强)。
3.2 节目高潮和低谷分析
同样以明子第三期为例,统计汇总各5分钟时段的弹幕数,可得到该期节目的弹幕数量随视频进度变化的分布图。
第三期弹幕讨论热度(量级)三次小高潮依次为:[60分:胡宇桐 X 田鸿杰首秀舞台]、[150分:杨润泽原组队被拆散后与小智、张旸组队]、[70分:宇宙鸿荒CP获得的导师票数较低但总票数高于对手,引欧阳娜娜悔票]。综上来看,观众讨论热度主要集中在热门选手和戏剧性情节。
弹幕讨论热度冷门时间段主要集中在:[115分-135分:梁国豪 X 马田原、卢俊杰 X 刘炀的对战舞台 ]。两组CP在组合上缺少特色和人设建立,因此该时段弹幕量级较少。
3.3 推广文案素材库-热门弹幕分析
从弹幕文本内容可知,获赞弹幕多为精彩段子,可为运营话术提供参考。
同时,从弹幕的获赞数排行变化,可在一定程度反映节目热度的变化。
3.4 站外传播热度分析
为了分析节目在站外的传播热度和热门关注话题,我们通过定制化爬虫获取了B站相关热门短视频信息。
从以上内容分析可知,明日之子4相关热门视频TOP 20在B站均为UGC内容,其中7个视频为CP主题再创作内容。热门CP包括[ 模特组:杨英格 X 李睿洋]、[宇宙鸿荒:胡宇桐 X 田鸿杰]、[胡宇桐 X 任胤蓬];其中9个视频为选手作品表演视频,热门作品TOP 5依次为闫永强《The Spectre》、胡宇桐《Something Just Like This》、马哲《生如夏花》、田鸿杰《让我留在你身边》、杨润泽《Play That Funky Music》。
最热门视频为闫永强唢呐版《The Spectre》,播放量为131w ;最热门选手为胡宇桐,其中8个视频(占比40%)与其相关。闫永强凭借民乐 电子改编的作品受到B站用户喜欢,胡宇桐凭借霸总魅力和CP话题激发B站用户再创作动力。
3.5 选手热度排名变动分析
在节目初期(1、2期),用户弹幕热词主要集中在大家熟知的导师身上(朴树、周震南、邓紫棋、欧阳娜娜等)。此外,廖俊涛凭借《明日之子1》的人气自带粉丝入场,在前两期为弹幕讨论最热选手 。
从第三期开始,胡宇桐凭借其较强业务能力和霸道总裁魅力,成为整个节目最热门选手。
此外,强哥(闫永强)在节目期间经历了多次的拆队和重组,一路从自信到失落再到重新出发,其“美强惨”的人设获得大量粉丝的关注和喜爱,其弹幕讨论热度也从第三期的第九名一路冲上了中后期的选手热度TOP1。
第八期下,硬糖少女组合作为助阵嘉宾,带来了比节目选手更旺的人气。其中,陈姐(陈卓璇)、希林娜依.高、王艺瑾三位大VOCAL业务能力与节目契合度高,得到了较多的关注。陈姐的热度排名高居该期第一,并遥遥领先。从这个侧面也可看出,《明日之子4》与《创造营2020》这两款综艺节目在热度上的差距。
3.6 热门关系链话题分析
从“人名在同一条弹幕文本中被提及,则认为存在关系链话题”这一假设出发,提取弹幕中的人名共同出现次数,及对应弹幕累积点赞数,并将相关信息进行可视化。最终效果呈现如下。
以热门选手胡宇桐为查询源点,搜索二跳以内的关系链。结果如上图所示。相关关系链呈“三分天下”的趋势。
- 左下角是以胡宇桐为“宇宙中心”,李润琪、田宏杰、马哲、赵柯为“卫星”的【气运联盟组合】关系链,可见胡总的车开得相当稳,宇宙洪荒组合也是人气满满。
- 右上角是以【廖俊涛×周震南】为中心的关系链。节目中,观众也被二者的深厚友谊深深感动。
- 左上角是以强哥(闫永强)为中心的关系链。可见强哥“端水大师”的称号也是名不虚传。
此外,还可以单独查询某个感兴趣选手或嘉宾的关系链话题讨论情况。如下图以第八期助阵嘉宾陈卓璇(陈姐)为例,搜索与之相关的一跳关系链话题。
此外,还可以单独查询某个感兴趣选手或嘉宾的关系链话题讨论情况。如下图以第八期助阵嘉宾陈卓璇(陈姐)为例,搜索与之相关的一跳关系链话题。
从上图可知,与陈姐共同出现次数最多的为“直男”廖俊涛。不考虑多个昵称的情况下,也统计到几百次。相关素材对制造用户感兴趣话题有一定的价值。
4. 后续展望
由于本项目尚处于预研阶段,相关人力投入较为有限,部分实现仍处于demo形态。主要有以下几个方面可以进一步深入研究和优化:
- 运用NER技术提取人名的处理中,出现了一个人名对应多个昵称、人名有错别字等情况,导致综合排名、以及关系链话题分析不够清晰和精准。如何自动化将他们归类至同一个人名下,仍需进一步研究。
- 如何尽可能全面地将站外内容纳入框架以及对应到具体某一期节目进行站内站外融合分析,需要进一步深入研究。
- 新词发现的应用暂处于想法阶段,需继续深入进行应用效果探究。
近期热文
如何做用户增长?用户增长与产品、运营、品牌市场团队之间的关系
一个关于游戏AI不太野的野望
小程序可视化实时自动埋点设计
喜欢本文?快点“在看”支持一下