【数据挖掘】数据挖掘建模 ( 预测建模 | 描述建模 | 预测模型 | 描述模型 | 判别模型 | 概率模型 | 基于回归的预测模型 )

2023-03-27 19:32:26 浏览数 (1)

文章目录
  • I . 预测建模 与 描述建模
  • II . 预测模型 与 函数映射
  • III . 预测模型的分类 ( 分类 | 回归 )
  • IV . 预测建模 测试集
  • V . 预测建模 拟合过程
  • VI . 预测模型结构确定
  • VII . 基于分类的判别模型
  • VIII . 基于分类的概率模型
  • IX . 预测模型的评分函数
  • X . 基于回归的预测模型

I . 预测建模 与 描述建模

1 . 预测建模 :

① 目的 : 根据现有的数据集的 若干 ( 1 个或多个 ) 属性值 ( 特征值 / 变量 ) , 预测其它属性值 ;

② 示例 : 分类 ;

2 . 描述建模 :

① 目的 : 根据现有数据集的 属性值 ( 特征值 / 变量 ) , 对数据样本进行概括 ;

② 示例 : 聚类 ;

II . 预测模型 与 函数映射

1 . 预测模型 :

① 模型形式 : 使用已知的变量 ( 属性值 / 特征值 ) 表达 未知变量的函数 ;

② 已知变量 : 当前数据集中的样本 , 已知的属性的属性值 ;

③ 未知变量 : 将要预测的属性值 , 这个属性值未知 ;

④ 函数映射 : 预测模型 建模的过程 , 可以看做一个函数映射的建立过程 ;

2 . 预测模型 与 函数映射 :

① 函数映射 : 预测模型的函数映射形式如下

Y=f (X ; theta)

② 函数形式 :

f

是预测模型 的 函数映射 的 函数形式 ;

③ 未知参数 :

theta

代表未知的参数 , 每个已知变量前都有一个未知参数 ;

④ 已知参数 :

X

表示当前数据集样本的已知参数 , 又叫输入变量 , 是矩阵形式的 , 如有 14 个样本 , 每个样本有 5 个属性 , 那么该矩阵是一个 14 行 , 5 列的矩阵 ; 该值的本质是 5 维的 向量 ;

⑤ 预测结果 :

Y

表示预测结果 , 又叫响应变量 ; 该值的本质是 标量 ;

III . 预测模型的分类 ( 分类 | 回归 )

1 . 预测模型分类 : 预测模型分为两类 : 分类回归 ;

Y=f (X ; theta)

① 分类 : 如果

Y

值是离散值 , 是范畴型变量 , 那么这个 预测模型 叫做 分类 ; 从向量

X

到标量

Y

映射的过程是 回归 ;

② 回归 : 如果

Y

值是连续值 , 是数值型变量 , 那么这个 预测模型 叫做 回归 ; 从向量

X

到标量

Y

映射的过程是 分类 ;

2 . 函数逼近 :

① 分类和回归本质 :

P

维向量

X

到 标量

Y

的映射 , 可以看做是 函数逼近问题 ;

P

说明 : 是数据集样本已知属性的个数 , 如 : 之前 14 个样本 , 已知 年龄 , 是否是学生 , 收入 , 信用等级 , 4 个属性 , 此处

P=4

;

IV . 预测建模 测试集

1 . 预测建模相关数据集 : 预测建模中用到 3 类数据集 , 训练集 , 测试集 , 新数据 ;

2 . 训练集 : 训练集中 , 每个样本都由一对

(X , Y)

组成 , 其中

X

是向量 , 其代表已知的若干属性值组成的向量 ,

Y

代表标量 , 在训练集中也是已知的 ;

3 . 训练集数据示例 : 之前 14 个样本 , 已知 年龄 , 是否是学生 , 收入 , 信用等级 , 4 个属性值 , 组成向量

X

, 是否购买商品 , 是

Y

代表的变量 , 这样组成了一对

(X, Y)

值 ; 训练集中有 14 对

(X,Y)

值 ;

4 . 预测建模本质 : 根据

n

对训练集样本

(X , Y)

拟合出

Y=f (X ; theta)

函数映射模型 ;

5 .

Y=f (X ; theta)

模型作用 : 给定

X

向量的值 , 和

theta

参数 , 可以预测出

Y

值 ;

V . 预测建模 拟合过程

预测模型的拟合过程 :

① 预测模型 :

Y=f (X ; theta)

② 拟合过程 : 需要完成两个工作 , 首先要确定模型

f

结构 , 然后确定参数

theta

值 ;

③ 模型

f

确定 : 确定 需要确定模型

f

结构 , 即函数的格式 , 线性模型 , 还是二次函数 ,

n

次函数 等其它形式 ; 先找到使用的模型 ;

④ 参数

theta

确定 : 这是数据挖掘算法的核心部分 ;

⑤ 评分函数 : 评分函数值达到最大 ( 最小 ) 确定参数

theta

值 ; 如 似然函数 ( 评分函数值越大越好 ) , 误差平方和 ( 评分函数值越小越好 ) ;

⑥ 优化过程 : 搜索确定参数值

theta

的过程是优化过程 ;

预测模型拟合过程 , 需要确定 模型结构参数 , 确定参数时 , 需要确定 评分函数 , 和 搜索优化算法 ;

VI . 预测模型结构确定

1 . 预测模型结构 : 预测模型结构是

Y=f (X ; theta)

函数映射形式 , 模型建立时 , 不知道该映射的 结构形式 和 参数值 , 首先要确定其函数的结构形式 ;

① 模型基础 : 预测模型中的 回归模型 和 分类模型 都基于 数学 和 统计学 建立的 ;

② 模型可互用 : 分类模型结构 也可以用于 回归模型 , 反之也适用 ;

VII . 基于分类的判别模型

分类模型 分为两种 , 判别模型 和 概率模型 ;

1 . 判别模型 :

① 输入向量 :

X

, 是一个向量 ;

X

是数据集样本的某些已知属性值组成的向量 ;

② 响应变量 :

Y

, 是一个标量 ;

Y

取值是某个属性类别的单个取值 ; 假设该属性类别的属性的取值可以是

{C_1 , C_2 , cdots , C_3}

;

2 .

X

向量维数为 1 时 :

① 数据集样本 : 数据集中的样本已知属性是 2 个 , 一个是已知的输入向量

X

, 一个是未知的 , 需要预测的响应变量

Y

;

② 判别模型 : 此时模型是二维坐标系中的 分段直线 ; 某个

X

1 维向量 ( 1 个数值 ) 对应某个

Y

值 ;

③ 决策区域 ( 线段 ) :

X

向量的唯一值 , 位于某两个数值范围内 ,

Y

取值为

C_i ( 0 leq i leq m )

;

3 .

X

向量维数为 2 时 :

① 数据集样本 : 数据集中的样本已知属性是 3 个 , 一个是已知的输入向量

X

( 有两个属性值 ) , 一个是未知的 , 需要预测的响应变量

Y

;

② 判别模型 : 此时模型是三维空间中的 分段曲面 ; 某个

X

2 维向量 ( 2 个数值 ) 对应某个

Y

值 ;

③ 决策区域 ( 平面 ) :

X

向量的两个属性值

X_1

X_2

构成的点 , 位于某个平面时 , 其

Y

值取值为

C_i ( 0 leq i leq m )

;

4 . 决策区域 : 未知属性 的 取值为某个属性值

C_i

的所有区域 , 联合在一起 , 称为

C_i

取值的决策区域 ;

① 决策预测机制 : 输入变量

X

向量 , 符合

C_i

决策区域要求 , 那么最终被预测的属性值

Y

标量 , 就会被预测成

C_i

值 ;

② 判别模型分类本质 : 在判别模型中的分类任务 , 就是确定各个被预测的取值

C_i

的 决策区域 是什么 , 即 这些 决策区域的 边界是什么 ;

VIII . 基于分类的概率模型

分类模型 分为两种 , 判别模型 和 概率模型 ;

1 . 概率模型 :

① 未知属性类别取值 : 未知属性的每个取值类别为

C_i

,

② 参数 :

theta_i

是函数参数 , 该参数反应

C_i

的类型特征 ;

③ 概率模型函数 : 其函数模型为 分部 或 密度函数

rho ( X | C_i , theta_i )

;

2 .

theta_i

参数说明 :

① 连续取值 (

X

向量中的数值取值 ) : 输入变量

X

向量代表的属性值的取值是连续的值 ( 如 : 实数 , 自然数 等 ) ;

② 取值分布 (

X

向量中的数值取值 ) : 每个已知的属性值的模型结构都是 多元正态分布 ;

theta_i

表示每个属性类别取值的 均值 和 方差特征 ;

④ 与决策区域对应 : 均值相当于决策区域的中心点位置 , 方差相当于决策区域范围大小 ;

3 . 举例说明 :

① 决策区域距离大 : 这些决策区域离得很远 , 各个取值的均值也很远 ;

② 决策区域范围小 : 决策范围也很小 , 相应的方差也很小 ;

③ 分类容易且准确 : 那么最终可以很好的将数据集进行准确的分类 ;

IX . 预测模型的评分函数

1 . 分类模型 : 常用 误分类率 作为评分函数 ;

2 . 回归模型 : 常用 误差平方和 作为评分函数 ;

X . 基于回归的预测模型

1 . 基于回归的预测模型 : 线性回归模型 , 非线性回归模型 , 分段线性模型 ;

2 . 线性回归模型 : 二维空间 直线 , 三维空间 平面 , 四维空间 超平面 ;

① 预测模型结构为 :

Y = a_0 a_1X_1 a_2X_2 cdots a_pX_p

② 预测值与实际值分布 : 模型的预测值 , 与实际观察的值 , 可能存在不一致 , 实际的值可能在模型预测值的周围分布 ;

3 . 非线性回归模型 : 预测模型结构为

Y = a_0 a_1X_1 a_2X_2^2 cdots a_pX_p^3

4 . 分段线性模型 : 将简单的模型 , 分段组合起来构成复杂的模型 ;

① 局部线性函数 : 输入向量

X

与 相应变量

Y

是局部的线性函数 ;

② 分段函数 : 该分段线性模型 , 在不同区域内 , 有不同的函数形式 ;

0 人点赞