Rapid Miner 基本使用

2019-03-27 18:08:46 浏览数 (1)

这学期选了实验室指导教授的 Data Mining 课程,课上教授推荐使用 Rapid Miner 这个工具来做 projects,这样可以避免大量的编程工作。

安装

安装地址:https://my.rapidminer.com/nexus/account/index.html#downloads 安装后 ,得注册账号,然后去邮箱中确认,才能开始使用。

界面介绍

左边红色标识的部分主要是一些数据存储的地方;左下角黄色标识的部分是一些操作器,找到需要的操作器后,可以直接拖放在中间的“Process”区域;中间的区域是处理区域,可以查看自己搭建的模型,以及运行的一些结果;右上角灰色标识的区域是展示参数信息的地方;右下角是帮助窗口,如果不知道怎么使用选择的操作器,可以点击操作器,然后在该窗口就会展示出帮助信息。

主要界面

扩展应用

点击界面上方的“Extensions”,再点击“Top Downloads”,可以看到很多的扩展应用。刚开始的时候会有一小段更新加载的时间。

下面就是扩展应用,有“Web Processing”,“Text Processing”等等,这些后面的课程中都会使用到。

热门扩展应用

数据展示

双击任意数据集,会出现如下窗口。“Data”一栏显示的就是原始的数据;“Statistics”一栏显示的是数据的一些统计。“Charts”和“Advanced Charts”这两栏显示的数据的一些图表,用于可视化。

搭建简单的模型

  • 拖入数据 在 “Samples” 下的 “Data” 中找到 “Titanic Training” 和 “Titanic Unlabeled” 这两个数据集分别用于训练模型和测试模型。前者是已经被处理过的数据,已经过滤掉一些无用的信息,后者是无标签数据。
  • 选择模型 在 “Operators” 下的搜索框中可以搜索到自己想要的模型。本例子选择 “Naive Bayes” 模型,找到后拖入右边的操作栏中。
  • 应用模型 要想将训练的模型用于预测,此时就需要用到 “Apply Model” 这个操作器。同样在搜索框中搜索找到后拖入右边的操作栏中。
  • 运行 将数据与操作器之间的连接线都连接好后,点击运行按钮。
  • 查看结果 运行完操作后,会自动蹦出结果。可以很清晰地查看模型的结果。

划分数据集

在 “Operators” 下的搜索框中可以搜索 “Split Data” 这个操作器,然后将其拖入右边的操作栏中。然后点击该操作器,在最右边的 “Parameters” 一栏中会出现一些信息。点击 “Edit Enumeration”,再点击两次 “Add Entry”,第一行中输入 0.7,第二行输入 0.3 。表示 70% 的数据用于训练模型,30% 的数据用于测试模型。最后还需要注意一下,操作器之间的连线。

Cross Validation 交叉验证

在 “Operators” 下的搜索框中可以搜索 “Cross Validation” 这个操作器,然后将其拖入右边的操作栏中。双击该操作器,会出现内部嵌套的处理操作,分为 “Training” 和 “Testing” 这两部分。主要在 “Training” 中添加模型训练,“Testing” 中添加 “Apply Model” 用于测试模型。这里也要注意连线的信息。

处理类别(categorical)数据

  • 将非数字型数据转换成数字型数据(二元类型):使用 “Norminal to Numerical” operator
  • 将数字型数据转换成二元类型:使用 “Numerical to Binominal” operator,结果为 True 和 False
  • 将数字型数据转换成多元类型:使用 “Numerical to Polynominal” operator,结果为 one-hot 向量

一些注意事项

  • 数据加载:只有在点击 “Process” 之后,数据才正式的被加载进来。
  • 连线问题:在选择使用每个操作器后,需要马上和数据集或者之前的操作器进行连接,这样数据流可以正常流动,点击操作器也能够正常的在 “Paramtetrs” 一栏中看到参数情况。

0 人点赞