如何用 Rapid Miner 进行情感分析

2019-03-28 11:33:34 浏览数 (1)

有段时间没学习 Rapid Miner 了,经实验室的小伙伴推荐,有个 Deep Learning 的扩展库挺强大的,能搭建各种深度学习的模型以及进行超参数调参。后来发现还有 KerasText Processing 的扩展库。这篇文章记录一下在 Rapid Miner 中使用 Text Processing 扩展库来进行情感分析的过程。

前提准备

  • 安装 Text Processing
  • 下载数据集,数据集来自: Kaggle - Movie Review Sentiment Analysis

数据预处理

1. 导入数据

在导入数据的时候,将 Column Separator 设置成 Tab。因为数据集是 tsv 文件类型,其是由 t 分隔的,而 csv 文件是由 ;分隔的,这里会有不同,要不然导入数据会报错。

Sentiment 一栏的数据类型改成 polynomial 类型,因为该数据集总共有 5 个类别,分别为: 0 - negative,1 - somewhat negative,2 - neutral,3 - somewhat positive,4 - positive。

2. 选取特征并设置标签

使用 Select Attributes 来选择有用的特征。模型中会用到特征有:PhraseSentiment

同时将 Sentiment 设置成标签。

3. 将特征转换为文本数据

使用 Nominal to Text 操作器将 Phrase 一栏的数据类型转换成文本类型。

4. 处理文本数据

将文本进行 Token 处理,再全转换成小写,最后过滤停用词。

搭建模型

搭建训练模型,并使用交叉验证来查看模型训练的性能。

测试模型

随机输入一个评论进行预测,返回一个结果。

整个 Process:

0 人点赞