分享回顾丨如何利用NLP技术从海量文本中提取观点?

2018-06-04 16:56:33 浏览数 (1)

ABOUT CLASS

关于课程

本文为3月29日晚,达观数据联合创始人、文本审核组总负责人张健在将门技术社群,分享“文本观点挖掘技术及其应用”课题的内容回顾。主要内容包括结合实践经验,盘点观点挖掘的应用场景及价值、目前业界主流的观点挖掘技术以及该技术目前面临的挑战。

NO.1

什么是文本观点挖掘?

在简单介绍观点挖掘的基本概念之后,张健首先对“观点”的五个组成要素进行了强调:

  1. 观点评价对象(客体);
  2. 观点评价对象的属性。例如,我评价谁哪里哪里好,又哪里哪里不好,“哪里”就是属性;
  3. 观点所蕴含的情感极性。包括正面、负面、中性等;
  4. 观点的持有者;在考虑到处理问答、对话的流程,涉及到主体的识别。
  5. 观点的时间。这对观点是有一定影响意义在的,因为随着时间变化,观点持有者也可能改变自己的观点。

结合自己的业务经验,张健罗列了观点挖掘可能涉及到的一些任务类型,具体而言:

1

情感分类

我们所收集到的一些观点文本,可能都存在一定的情感倾向性,觉得XX是好的,XX是不好的,这可以帮助分析文本的倾向性;

2

观点抽取

从一段文本中属于观点的文本内容抽取出来,主要是为了方便分析人员从文本中获取结构化的有用的信息;

3

观点过滤

主要是由于海量数据当中会存在大量无效的信息,这需要被清理掉,以免影响观点挖掘的处理效率和准确率;

4

评价质量

这并非评价好坏之分,而是对于分析人员来说,这些评价需要有足够的信息量,能够对销售决策更有帮助。这在电商场景当中最为常见;

5

意图识别

在很多场景下,都是可以根据观点来发现观点持有者真正的意图,例如可以发现这个观点持有者究竟想不想要购买商品。

NO.2

为什么要做文本观点挖掘?

如上图所列举的,文本观点挖掘有非常丰富的应用场景,因而相对来说,也会有较高的商业价值。

  1. 产品营销分析。例如我们可以用来分析运营商的营销策略是否恰当,通过对消费者的评价文本进行情感分类,可以获得一些正向或负向的反馈,由此来帮助改进策略;
  2. 竞品对比分析。例如需要将自己的产品与竞品进行对比,来分析出产品的优劣势及发展策略。

以上这两方面,最主要是可为产品辅助决策。以前存在的大多是一些数值型的分析结果,例如网站的日活、流失率、留存率等,但却不能很直观地表现出究竟是什么样的原因导致了这样的结果。如果拥有产品的评价文本数据,那么我们就可以通过观点挖掘技术,将非结构化数据转化为结构化数据,从观点中获取更加直观、感性的信息,从而可能发现更多的问题。

3. 大众舆论导向。这是政府比较关注的项目,例如出台政策,想要调研该政策发布后的民意情况;

4. 用户画像。最简单的,会根据容易获取到的一些用户行为来进行判断,如果要做得更精细一点,那么我们就可以从用户自身留下的声音来挖掘出有效的信息。例如在小说网站的观点挖掘中,我们可以通过用户的书评来分析他对某些类型的偏好情况;

5. 精准推送。在做好用户画像之后,我们就可以根据用户的偏好情况来实现精准推送,提升收益率;

6. 预测分析。例如PPT右图的股票趋势预测图。我们可以通过社交平台评论观点挖掘,来分析舆论情绪分布,如图中的两条红色的情绪线(冷静、警惕),我们会发现股票指数与情绪指数是存在一定关联的。在业务场景中,我们对大量的股评报告进行语义分析,利用股评报告中蕴含的观点信息结合股市信息及其他可能的影响因素,来预测股票走势。

NO.3

文本观点挖掘处理任务

1

情感分类

情感分类最主要的目标就是情感文本的情感倾向,例如正面、负面、中性等。某些企业可能要求更高,会要求分析出高兴、惊讶、愤怒等维度,这已经属于情绪分析的范畴了,需要更多数据的支持。本次课程仅止于正负面分析判断的介绍。

文本的情感分类包含三大类别:

  1. 文档级别(document-level)的情感分类。判断文本整体情感态度。
  2. 句子级别(sentence-level)的情感分类。 判断句子这个层次上的情感分类。
  3. 属性级别(apect-level)的情感分类。因为一个文档/句子会表达很多观点,不同观点可能有不同的情感属性。倘使我们分析时需要聚焦到某个属性,就可用到这个层次的分析。

句子级别的情感分类

张健首先依次列举了句子级别情感分类所使用的一些方法,包括监督方法和无监督方法。无监督方法中介绍了基于句法模板的情感分类和基于情感词典的情感分类。

其中,情感词典的构建是一件比较费力的事。因为不同领域的情感词典并不统一,需要有针对性地进行构建。

监督方式的情感分类部分,介绍了基于机器学习的有监督方法与基于深度学习的有监督方法。

属性级别的情感分类

回到情感分类的命题当中,刚才提到的更多是对一个句子或者一段文本计算出文本的情感极性。但如果一个句子当中,存在多种评价对象,或要获取到指定评价对象的情感倾向时,就需要用到属性级别的情感分类。

跨领域情感分类

情感分类对于领域比较敏感,不同领域下的情感分类通常存在较大差异。跨领域情感分类是比较有实用意义的领域,近期的论文聚焦在迁移学习的方法来提升跨领域文本分类的准确性,但在实际应用方面还需进一步提升效果。

多语种情感分类

多语种情感分类是为了解决指定语种标注数据不足的问题,使用语料充裕的语种(例如英语)的标注数据来提升情感分类效果。具体实现可基于翻译引擎,或基于语言分布表示。

2

观点抽取

观点挖掘当中除了情感分类,很重要的一步就是观点抽取,需要将文本当中有价值的信息提取出来。张健列举了电商场景下的案例来对实际操作方法进行了说明。

3

观点过滤

例如一些虚假评论,从评论本身难以分辨,所以这个时候就需要结合多个维度的信息来构建特征,进行训练和判断。

在特征类型当中,如语言特征。英文当中会有固定的频率,例如喜欢都大写,都发表在30字以内等语言特征。而行为特征也比较重要,例如网络水军,最基本的行为特征就是一条评论文本重复发,或者多次发布相似度较高的文本。

4

评价质量

最后需要提到观点挖掘当中的任务,是评价质量的问题。

有些网站会对评论进行管理,用户可以对评论进行反馈,例如微博的点赞。但是这种点赞需要时间积累来形成客观的、合理的评分。通过进行评价评分,我们也可以根据以往的历史评分记录,来预测新评论的质量区间。

5

观点挖掘的挑战

6

总结

文本的观点挖掘,目前的技术手段已经能够分析出比较不错的结果。但是仍然存在很多处理得不够彻底的方面,譬如说上面提到的几方面挑战,或者文本中很多隐式的语义表达,很多情况下还需要依赖于标记数据集的增加,无法通过更好的技术手段去处理。

观点挖掘目前比较热门的是使用深度学习的方式去解决其中一些子问题。另外,观点挖掘可以通过与像知识图谱等其他领域的结合,获取更有价值的分析结果。例如情感分析与问答结合,通过分析如果存在情感交互的话,用户体验会更好。

此外,文本观点挖掘的发展还是主要依赖于NLP技术的整体提升。在工业实践当中,目前文本语料数据的积累还是比较困难,特别是短文本,具有稀疏性,很难通过简单模型去表达复杂语义。

题外话

非常感谢将门此次提供的分享机会。达观数据专注于人工智能领域的文本挖掘处理,利用NLP(自然语言处理)、机器学习、深度学习等技术,为企业开发出文字数据处理、企业知识管理的解决方案,提升企业数据化运营能力和经营业绩。

目前行业内很多挖掘还是人工来用手工的规则和脚本实现,而我们希望能够减轻此类重复繁琐劳动的负担,让各行各业的企业都能够享受到人工智能所带来的红利。

0 人点赞