有段时间没学习 Rapid Miner 了,经实验室的小伙伴推荐,有个 Deep Learning
的扩展库挺强大的,能搭建各种深度学习的模型以及进行超参数调参。后来发现还有 Keras
和 Text Processing
的扩展库。这篇文章记录一下在 Rapid Miner 中使用 Text Processing
扩展库来进行情感分析的过程。
前提准备
- 安装
Text Processing
- 下载数据集,数据集来自: Kaggle - Movie Review Sentiment Analysis
数据预处理
1. 导入数据
在导入数据的时候,将 Column Separator
设置成 Tab
。因为数据集是 tsv 文件类型,其是由 t
分隔的,而 csv 文件是由 ;
分隔的,这里会有不同,要不然导入数据会报错。
将 Sentiment
一栏的数据类型改成 polynomial
类型,因为该数据集总共有 5 个类别,分别为: 0 - negative,1 - somewhat negative,2 - neutral,3 - somewhat positive,4 - positive。
2. 选取特征并设置标签
使用 Select Attributes
来选择有用的特征。模型中会用到特征有:Phrase
,Sentiment
。
同时将 Sentiment
设置成标签。
3. 将特征转换为文本数据
使用 Nominal to Text
操作器将 Phrase
一栏的数据类型转换成文本类型。
4. 处理文本数据
将文本进行 Token 处理,再全转换成小写,最后过滤停用词。
搭建模型
搭建训练模型,并使用交叉验证来查看模型训练的性能。
测试模型
随机输入一个评论进行预测,返回一个结果。
整个 Process: