文章目录- I . 聚类数据类型
- II . 区间标度型变量
- III . 区间标度型变量 标准化
- IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值
- V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差
- VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值
- VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例
- VIII . 相似度计算 ( 1 ) 明科斯基距离
- IX . 相似度计算 ( 2 ) 曼哈顿距离
- X . 相似度计算 ( 3 ) 欧几里得距离
I . 聚类数据类型
聚类数据类型 :
① 区间标度变量 : 由 数值 和 单位组成 , 如 , 168
, 30
, 等值 ;
② 二元变量 :
③ 标称型变量 :
④ 序数型变量 :
⑤ 比例标度型变量 :
⑥ 混合型变量 :
II . 区间标度型变量
1 . 区间标度型变量 :
① 举例 : 重量 , 高度 , 长度 , 距离 , 经纬度 , 温度 , 气压 等由 数值 和 刻度单位 组成的变量 ;
② 度量单位影响 : 区间标度型变量 采用的 度量单位 , 直接影响聚类的分组结果 , 如身高使用 米 , 厘米 , 毫米 , 作为单位 , 其数值的数量级都不同 ;
③ 数据标准化 : 为了避免度量单位对聚类分析结果的影响 , 将数据进行标准化操作 , 将 数值 单位 组成的标度型变量 , 规范化为单纯由 数值 表示的值 ;
III . 区间标度型变量 标准化
1 . 数据标准化 : 对于 区间标度型变量
, 消除其单位对聚类分析结果的影响 , 需要对齐进行标准化 ;
2 . 数据标准化过程 :
① 计算所有样本
属性的平均值 ;
② 计算平均绝对偏差值 ;
③ 计算标准化度量值 ;
IV . 区间标度型变量 标准化 ( 1 ) 计算所有数据的平均值
计算所有数据的平均值 : 假设数据集有
个样本 , 将样本
的
属性值变量相加除以
取平均值 ;
表示 数据集样本的个数 ;
表示
个样的
属性的平均值 ;
表示第
个样本 ;
表示第
个样本的
属性的值 ,
表示第
个样本的
属性 ,
表示第
个样本的
属性 ;
V . 区间标度型变量 标准化 ( 2 ) 计算平均绝对偏差
1 . 计算平均绝对偏差 : 每个样本的
属性减去 所有样本的
属性平均值 , 然后这个差取绝对值 , 将
个样本的
属性 与平均值的差 的 绝对值 相加 , 然后再 取其平均值 , 即 平均绝对偏差 ;
① 样本偏差 : 计算单个样本的
属性 与 所有样本的
平均值的差 , 该值可能是正数 , 可能是负数 , 也可能是 0 ;
② 样本绝对偏差 : 将上面计算的 符号 ( 正负号 ) 位置的样本偏差取绝对值 ;
③ 平均绝对偏差 : 将
个样本的绝对偏差相加 , 处于
取平均值 , 即可得到平均绝对偏差 ;
2 . 平均绝对偏差公式如下 :
表示 平均绝对偏差 ;
表示第
个样本的
属性值 , 减去平均值后的绝对值 ;
VI . 区间标度型变量 标准化 ( 3 ) 计算标准化度量值
1 . 计算标准化度量值 : 进行 Z-Score 变换 , 这是数据标准化处理的常用方法 ;
2 . Z-Score 变换公式如下 : 根据每个样本的
属性值 , 样本的
属性平均值 , 平均绝对偏差
, 计算出每个样本的
属性标准化后的值 ;
表示 数据样本 标准化 后的 属性值 , 该属性值只有数值 , 没有单位 ;
表示第
个样本的
属性值 ;
表示
个样的
属性的平均值 ;
表示 平均绝对偏差 ;
3 . 样本数据属性 标准化 本质 : 获取 数据集中的 单个样本属性 与 平均属性 的 偏差 , 相对于 平均绝对偏差 的 比值 ; 最终的本质是 偏差的比值 ; 根据偏差 确定 样本的相似度 ;
VII . 区间标度型变量 标准化 ( 4 ) 属性标准化示例
已知 :
个样本数据 , 代表
个人 , 身高属性分别是 145
, 180
, 165
, 将其标准化 ;
1 . 计算平均值 :
平均值计算结果是
;
2 . 计算平均绝对偏差 :
平均绝对偏差值 计算结果是
;
3 . Z-Score 标准化 :
① 样本
身高 145
标准化 : 标准化后的值为
, 没有单位只有一个数值 ;
② 样本
身高 180
标准化 : 标准化后的值为
, 没有单位只有一个数值 ;
③ 样本
身高 165
标准化 : 标准化后的值为
, 没有单位只有一个数值 ;
4 . 标准化结果 :
个样本数据 , 代表
个人 , 身高属性分别是 145
, 180
, 165
, 将其标准化后的值分别是 :
VIII . 相似度计算 ( 1 ) 明科斯基距离
1 . 对象相似度 ( 相异度 ) 计算 : 根据 两个 样本对象 之间的 距离 计算 , 通常使用 明科斯基 距离 公式进行计算 ;
2 . 明科斯基 距离 计算公式 :
表示两个样本之间的距离 , 明科斯基 距离 ;
是一个系数 , 取值
; 该取值很重要 , 不同取值衍生出不同的公式 ;
表示属性的个数 , 每个样本有
个属性 ;
和
表示两个 样本的索引值 , 取值范围是
;
表示两个样本 第
个属性值 的差值 ,
表示两个样本 第
个属性值 的差值 ,
表示两个样本 第
个属性值 的差值 ;
表示两个样本 第
个属性值 的差值 的绝对值 ,
表示两个样本 第
个属性值 的差值 的绝对值 ,
表示两个样本 第
个属性值 的差值 的绝对值 ;
最外层计算 (
次方根 ) : 最终计算需要求
的
次方根 ;
IX . 相似度计算 ( 2 ) 曼哈顿距离
1 . 曼哈顿距离 : 明科斯基距离计算很复杂 , 尤其是
取值很大时 , 因此该公式并不常用 , 通常情况下会将
取值为
, 或
, 当
时 , 该距离又称为 曼哈顿距离 ;
2 . 曼哈顿距离 公式如下 :
表示两个样本之间的距离 , 曼哈顿距离 ;
表示属性的个数 , 每个样本有
个属性 ;
和
表示两个 样本的索引值 , 取值范围是
;
表示两个样本 第
个属性值 的差值 ,
表示两个样本 第
个属性值 的差值 ,
表示两个样本 第
个属性值 的差值 ;
3 . 曼哈顿距离 与 明科斯基距离 :
① 去掉了外层
次方跟计算 :
时 , 外层开
次方根 , 直接将
次方根计算的根号去掉即可 ;
② 去掉了样本差的指数计算 : 计算
值的
次方 , 也可以取消
次方的指数计算 ;
4 . 曼哈顿距离图示 : 曼哈顿的街道都是横平竖直的 , 从
点到
点 , 一般就是其
轴坐标差 加上其
轴坐标差 , 即
;
X . 相似度计算 ( 3 ) 欧几里得距离
1 . 欧几里得距离 : 明科斯基距离计算很复杂 , 尤其是
取值很大时 , 因此该公式并不常用 , 通常情况下会将
取值为
, 或
, 当
时 , 该距离又称为 欧几里得距离 ;
2 . 欧几里得 距离 公式如下 :
表示两个样本之间的距离 , 明科斯基 距离 ;
表示属性的个数 , 每个样本有
个属性 ;
和
表示两个 样本的索引值 , 取值范围是
;
表示两个样本 第
个属性值 的差值 ,
表示两个样本 第
个属性值 的差值 ,
表示两个样本 第
个属性值 的差值 ;
3 . 欧几里得距离图示 :从
点到
点的实际直线距离 , 即
距离 ;
欧氏空间 : 可以计算欧几里得距离的空间 , 叫做欧氏空间 ;
4 . 欧几里得 距离 属性 :
① 样本之间的距离非负 :
, 欧几里得 距离是先 求平方和 , 再开根号 , 这个值一定是一个大于等于
的数值 ;
② 样本与其本身的距离为
:
, 一个样本与其本身的 相似度值 肯定为
, 因为其属性值完全相同 ;
③ 对称性 :
, 样本
与 样本
的相似度 , 肯定等于 样本
与 样本
的相似度 ;
④ 三角不等式 : 两边之和 , 一定大于第三边 ,
, 从 第
个样本到第
个样本的 直接距离 , 小于等于 其途径任何样本
生成的的两个距离之和
, 这两个距离分别是 样本
到 样本
的距离
, 和样本
到 样本
的距离
;
5 . 属性权重 : 计算时 , 有些属性可能很重要 , 有些属性不重要 , 可以为样本的不同属性 , 赋予不同的权重 ,
;
公式变为 :
其中
表示属性
的权重 ,
表示属性
的权重 ,
表示属性
的权重 ;