文章目录- I . 预测建模 与 描述建模
- II . 预测模型 与 函数映射
- III . 预测模型的分类 ( 分类 | 回归 )
- IV . 预测建模 测试集
- V . 预测建模 拟合过程
- VI . 预测模型结构确定
- VII . 基于分类的判别模型
- VIII . 基于分类的概率模型
- IX . 预测模型的评分函数
- X . 基于回归的预测模型
I . 预测建模 与 描述建模
1 . 预测建模 :
① 目的 : 根据现有的数据集的 若干 ( 1 个或多个 ) 属性值 ( 特征值 / 变量 ) , 预测其它属性值 ;
② 示例 : 分类 ;
2 . 描述建模 :
① 目的 : 根据现有数据集的 属性值 ( 特征值 / 变量 ) , 对数据样本进行概括 ;
② 示例 : 聚类 ;
II . 预测模型 与 函数映射
1 . 预测模型 :
① 模型形式 : 使用已知的变量 ( 属性值 / 特征值 ) 表达 未知变量的函数 ;
② 已知变量 : 当前数据集中的样本 , 已知的属性的属性值 ;
③ 未知变量 : 将要预测的属性值 , 这个属性值未知 ;
④ 函数映射 : 预测模型 建模的过程 , 可以看做一个函数映射的建立过程 ;
2 . 预测模型 与 函数映射 :
① 函数映射 : 预测模型的函数映射形式如下
② 函数形式 :
是预测模型 的 函数映射 的 函数形式 ;
③ 未知参数 :
代表未知的参数 , 每个已知变量前都有一个未知参数 ;
④ 已知参数 :
表示当前数据集样本的已知参数 , 又叫输入变量 , 是矩阵形式的 , 如有 14 个样本 , 每个样本有 5 个属性 , 那么该矩阵是一个 14 行 , 5 列的矩阵 ; 该值的本质是 5 维的 向量 ;
⑤ 预测结果 :
表示预测结果 , 又叫响应变量 ; 该值的本质是 标量 ;
III . 预测模型的分类 ( 分类 | 回归 )
1 . 预测模型分类 : 预测模型分为两类 : 分类 和 回归 ;
① 分类 : 如果
值是离散值 , 是范畴型变量 , 那么这个 预测模型 叫做 分类 ; 从向量
到标量
映射的过程是 回归 ;
② 回归 : 如果
值是连续值 , 是数值型变量 , 那么这个 预测模型 叫做 回归 ; 从向量
到标量
映射的过程是 分类 ;
2 . 函数逼近 :
① 分类和回归本质 : 从
维向量
到 标量
的映射 , 可以看做是 函数逼近问题 ;
②
说明 : 是数据集样本已知属性的个数 , 如 : 之前 14 个样本 , 已知 年龄 , 是否是学生 , 收入 , 信用等级 , 4 个属性 , 此处
;
IV . 预测建模 测试集
1 . 预测建模相关数据集 : 预测建模中用到 3 类数据集 , 训练集 , 测试集 , 新数据 ;
2 . 训练集 : 训练集中 , 每个样本都由一对
组成 , 其中
是向量 , 其代表已知的若干属性值组成的向量 ,
代表标量 , 在训练集中也是已知的 ;
3 . 训练集数据示例 : 之前 14 个样本 , 已知 年龄 , 是否是学生 , 收入 , 信用等级 , 4 个属性值 , 组成向量
, 是否购买商品 , 是
代表的变量 , 这样组成了一对
值 ; 训练集中有 14 对
值 ;
4 . 预测建模本质 : 根据
对训练集样本
拟合出
函数映射模型 ;
5 .
模型作用 : 给定
向量的值 , 和
参数 , 可以预测出
值 ;
V . 预测建模 拟合过程
预测模型的拟合过程 :
① 预测模型 :
② 拟合过程 : 需要完成两个工作 , 首先要确定模型
结构 , 然后确定参数
值 ;
③ 模型
确定 : 确定 需要确定模型
结构 , 即函数的格式 , 线性模型 , 还是二次函数 ,
次函数 等其它形式 ; 先找到使用的模型 ;
④ 参数
确定 : 这是数据挖掘算法的核心部分 ;
⑤ 评分函数 : 评分函数值达到最大 ( 最小 ) 确定参数
值 ; 如 似然函数 ( 评分函数值越大越好 ) , 误差平方和 ( 评分函数值越小越好 ) ;
⑥ 优化过程 : 搜索确定参数值
的过程是优化过程 ;
预测模型拟合过程 , 需要确定 模型结构 和 参数 , 确定参数时 , 需要确定 评分函数 , 和 搜索优化算法 ;
VI . 预测模型结构确定
1 . 预测模型结构 : 预测模型结构是
函数映射形式 , 模型建立时 , 不知道该映射的 结构形式 和 参数值 , 首先要确定其函数的结构形式 ;
① 模型基础 : 预测模型中的 回归模型 和 分类模型 都基于 数学 和 统计学 建立的 ;
② 模型可互用 : 分类模型结构 也可以用于 回归模型 , 反之也适用 ;
VII . 基于分类的判别模型
分类模型 分为两种 , 判别模型 和 概率模型 ;
1 . 判别模型 :
① 输入向量 :
, 是一个向量 ;
是数据集样本的某些已知属性值组成的向量 ;
② 响应变量 :
, 是一个标量 ;
取值是某个属性类别的单个取值 ; 假设该属性类别的属性的取值可以是
;
2 .
向量维数为 1 时 :
① 数据集样本 : 数据集中的样本已知属性是 2 个 , 一个是已知的输入向量
, 一个是未知的 , 需要预测的响应变量
;
② 判别模型 : 此时模型是二维坐标系中的 分段直线 ; 某个
1 维向量 ( 1 个数值 ) 对应某个
值 ;
③ 决策区域 ( 线段 ) : 当
向量的唯一值 , 位于某两个数值范围内 ,
取值为
;
3 .
向量维数为 2 时 :
① 数据集样本 : 数据集中的样本已知属性是 3 个 , 一个是已知的输入向量
( 有两个属性值 ) , 一个是未知的 , 需要预测的响应变量
;
② 判别模型 : 此时模型是三维空间中的 分段曲面 ; 某个
2 维向量 ( 2 个数值 ) 对应某个
值 ;
③ 决策区域 ( 平面 ) : 当
向量的两个属性值
和
构成的点 , 位于某个平面时 , 其
值取值为
;
4 . 决策区域 : 未知属性 的 取值为某个属性值
的所有区域 , 联合在一起 , 称为
取值的决策区域 ;
① 决策预测机制 : 输入变量
向量 , 符合
决策区域要求 , 那么最终被预测的属性值
标量 , 就会被预测成
值 ;
② 判别模型分类本质 : 在判别模型中的分类任务 , 就是确定各个被预测的取值
的 决策区域 是什么 , 即 这些 决策区域的 边界是什么 ;
VIII . 基于分类的概率模型
分类模型 分为两种 , 判别模型 和 概率模型 ;
1 . 概率模型 :
① 未知属性类别取值 : 未知属性的每个取值类别为
,
② 参数 :
是函数参数 , 该参数反应
的类型特征 ;
③ 概率模型函数 : 其函数模型为 分部 或 密度函数
;
2 .
参数说明 :
① 连续取值 (
向量中的数值取值 ) : 输入变量
向量代表的属性值的取值是连续的值 ( 如 : 实数 , 自然数 等 ) ;
② 取值分布 (
向量中的数值取值 ) : 每个已知的属性值的模型结构都是 多元正态分布 ;
③
表示每个属性类别取值的 均值 和 方差特征 ;
④ 与决策区域对应 : 均值相当于决策区域的中心点位置 , 方差相当于决策区域范围大小 ;
3 . 举例说明 :
① 决策区域距离大 : 这些决策区域离得很远 , 各个取值的均值也很远 ;
② 决策区域范围小 : 决策范围也很小 , 相应的方差也很小 ;
③ 分类容易且准确 : 那么最终可以很好的将数据集进行准确的分类 ;
IX . 预测模型的评分函数
1 . 分类模型 : 常用 误分类率 作为评分函数 ;
2 . 回归模型 : 常用 误差平方和 作为评分函数 ;
X . 基于回归的预测模型
1 . 基于回归的预测模型 : 线性回归模型 , 非线性回归模型 , 分段线性模型 ;
2 . 线性回归模型 : 二维空间 直线 , 三维空间 平面 , 四维空间 超平面 ;
① 预测模型结构为 :
② 预测值与实际值分布 : 模型的预测值 , 与实际观察的值 , 可能存在不一致 , 实际的值可能在模型预测值的周围分布 ;
3 . 非线性回归模型 : 预测模型结构为
4 . 分段线性模型 : 将简单的模型 , 分段组合起来构成复杂的模型 ;
① 局部线性函数 : 输入向量
与 相应变量
是局部的线性函数 ;
② 分段函数 : 该分段线性模型 , 在不同区域内 , 有不同的函数形式 ;