【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 -> 相似度矩阵 ( 二元变量简介 | 二元变量可能性表 | 对称二元变量 | 简单匹配系数 | 非对称二元变量 | Jaccard 系数

2023-03-27 19:49:06 浏览数 (1)

文章目录
  • I . 二元变量
  • II . 二元变量 可能性表
  • III . 对称 二元变量 ( 恒定相似度 )
  • IV . 简单匹配系数 ( 恒定相似度计算 )
  • V . 不对称 二元变量 ( 非恒定相似度 )
  • VI . Jaccard 系数 ( 非恒定相似度计算 )
  • VII . 二元变量 相似度 计算实例

I . 二元变量

1 . 二元变量取值 : 二元变量只有两个取值 ,

0

1

;

1

: 积极取值 , 存在 , 正确 等含义 ;

0

: 消极取值 , 不存在 , 错误 等含义 ;

2 . 二元变量 示例 : 描述病人症状 ,

1

表示病人在发烧 ,

0

表示病人不发烧 ;

3 . 二元变量 的 相似度 计算方法 : 使用 区间标度变量 求样本间距离的方式 处理二元变量 , 误差很大 , 因此这里引入 二元变量可能性表 , 来计算样本的二元变量属性的相似度 ;

II . 二元变量 可能性表

二元变量 可能性表 : 计算 两个样本 二元变量属性相似度 ;

① 前提 : 二元变量 属性的权重 相同 ; ( 该二元变量权重又称为 恒定相似度 )

② 表中值的含义 : 样本有

p

个属性 , 每一对 对比相似度的样本都有 一个样本

i

和 一个样本

j

; 第

1

行第

1

列 表示 在一对相似度对比的样本中 , 样本

i

和 样本

j

取值都是

1

属性的个数 ;

样本 j j j 属性取值为 1 1 1

样本 j j j 属性取值为 0 0 0

属性总个数

样本 i i i 属性取值为 1 1 1

a a a

b b b

a b a b a b

样本 i i i 属性取值为 0 0 0

c c c

d d d

c d c d c d

属性总个数

a c a c a c

b d b d b d

p p p

j

属性取值为

1

样本

j

属性取值为

0

属性总个数样本

i

属性取值为

1
a
b
a b

样本

i

属性取值为

0
c
d
c d

属性总个数

a c
b d
p
a

表示 数据集中 , 样本对象

i

和样本对象

j

中 , 属性取值都为

1

的 属性个数 ;

b

表示 数据集中 , 样本对象

i

属性取值为

1

, 样本对象

j

属性取值为

0

, 的属性个数 ;

c

表示 数据集中 , 样本对象

i

属性取值为

0

, 样本对象

j

属性取值为

1

, 的属性个数 ;

d

表示 数据集中 , 样本对象

i

和样本对象

j

中 , 属性取值都为

0

的属性个数 ;

a c

表示样本

j

属性取值为

1

的 属性个数 ;

b d

表示样本

j

属性取值为

0

的 属性个数 ;

a b

表示样本

i

属性取值为

1

的 属性个数 ;

c d

表示样本

i

属性取值为

0

的 属性个数 ;

样本的属性 总个数

a b c d = p

;

III . 对称 二元变量 ( 恒定相似度 )

1 . 对称二元变量 : 二元变量可以取值

0 , 1

, 如果这两个取值权重相同 , 两个取值之间没有优先级 , 那么称该二元变量是对称的 ;

2 . 恒定相似度 : 对称二元变量 的相似度 , 称为恒定相似度 ;

3 . 恒定相似度特点 : 二元变量表示方式发生改变时 , 相似度的计算结果不会改变 ;

IV . 简单匹配系数 ( 恒定相似度计算 )

简单匹配系数 : 两个样本

i , j

之间 , 对称二元变量恒定相似度 计算 , 使用 简单匹配系数 公式计算 , 公式如下 :

d(i , j) = frac {b c} {a b c d}
d(i , j)

表示样本

i,j

之间的相似度 , 这是一个恒定相似度 , 两个样本的 对比的 二元变量 权值相同 ;

{b c}

是指 样本

i

和样本

j

取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;

{a b c d}

是所有的相似度对比次数 ;

这是 样本

i

和 样本

j

对比 的 相似度值 ;

V . 不对称 二元变量 ( 非恒定相似度 )

1 . 不对称二元变量 概念 : 样本的属性值取值类型 是 二元变量 , 其取值为

0

1

, 这两个取值的权重不同 , 那么称该二元变量是 不对称二元变量 ;

2 . 不对称二元变量示例 : 某项疾病检查 , 将重要的输出结果 ( 得病 ) , 编码为

1

, 不重要的输出结果 ( 没有得病 ) , 编码为

0

;

3 . 不对称二元变量 相似度 : 计算两个样本

i,j

不对称二元变量的相似度 , 两个样本都取值为

1

叫做正匹配 , 两个样本都取值为

0

叫做负匹配 , 正匹配 比 负匹配要更有意义 ;

4 . 非恒定相似度 : 不对称的二元变量的相似度 , 称为 非恒定相似度 ;

5 . 非恒定相似度示例 : 两个人都得某种病 , 这两个人的样本相似度就太高了 ; 两个人都没有得某种病 , 这种样本的相似度就不是那么高 , 因为这是正常情况 ; 因此不得病 取值为

0

的权重低 , 得病取值为

1

的权重 高 ;

VI . Jaccard 系数 ( 非恒定相似度计算 )

Jaccard 系数 : 两个样本

i , j

之间 , 不对称二元变量非恒定相似度 计算 , 使用 Jaccard系数 公式计算 , 公式如下 :

d(i , j) = frac {b c} {a b c}
d(i , j)

表示样本

i,j

之间的相似度 , 这是一个非恒定相似度 , 两个样本的 对比的 二元变量 权值不相同 , 取值为

1

的权重高于取值为

0

的权重 ;

{b c}

是指 样本

i

和样本

j

取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;

{a b c}

是 除 两个样本都为

0

的情况外的其它 所有的 情况 的 相似度对比次数 ;

这是 样本

i

和 样本

j

对比 , 不相同的次数 , 占 取值都为

1

的次数 , 取值不同的次数 (

1, 0

0, 1

两种情况 ) , 三个次数之和 的 比例 ;

VII . 二元变量 相似度 计算实例

1 . 给定如下数据集 : 给定 以下

3

个病人样本 数据集 ;

姓名

性别

是否发烧

咳嗽

测试 1

测试 2

测试 3

测试 4

Tom

阴性

阳性

阴性

阴性

阴性

Mary

阴性

阳性

阴性

阳性

阴性

Jerry

阳性

阴性

阴性

阴性

阴性

① 二元变量编码 : 为上述数据进行编码 , 发烧编码为

1

, 不发烧编码为

0

, 咳嗽编码为

1

, 不咳嗽编码为

0

, 阳性编码为

1

, 阴性编码为

0

;

② 忽略对称二元变量 : 性别的男女对病人分组 , 没有太多意义 , 取值 男 或 女 , 对分组影响不大 , 属于对称二元变量 , 这里分组是不考虑该变量 ;

③ 相似度对比 : 样本之间要进行 两两 对比 , 即进行

3

2

的组合 ( 不是排列 ) , 有

C_3^2 = 3

种方式 , 分别是 Tom 与 Mary 相似度对比 , Tom 与 Jerry 相似度对比 , Mary 与 Jerry 相似度对比 ;

2 . Tom 与 Mary 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名

是否发烧

咳嗽

测试 1

测试 2

测试 3

测试 4

Tom

1 1 1

0 0 0

1 1 1

0 0 0

0 0 0

0 0 0

Mary

1 1 1

0 0 0

1 1 1

0 0 0

1 1 1

0 0 0

1
0
1
0
0
0

Mary

1
0
1
0
1
0

② 根据上述总结列出二元变量可能性表如下 :

Tom 属性取值为 1 1 1

Tom 属性取值为 0 0 0

总个数

Mary 属性取值为 1 1 1

2

1

3

Mary 属性取值为 0 0 0

0

3

3

总个数

2

4

6 6 6

1

Tom 属性取值为

0

总个数Mary 属性取值为

1

213Mary 属性取值为

0

033总个数24

6

1

行 第

1

列 : Tom 和 Mary 的二元属性中取值都为

1

的属性个数 , 发烧 , 测试

1

, 两个样本中的 这

2

个 二元变量属性值 取值都是

1

, Tom 和 Mary 属性值都为

1

的属性个数是

2

个 , 分别是 发烧 , 测试

1

两个属性 ; 该表格位置值为

2

;

1

行 第

2

列 : Tom 属性取值为

0

, Mary 属性取值为

1

, 只有 测试

3

符合 , 因此 该表格位置的值是

1

, 表示只有一个属性符合该要求 ;

1

行 第

3

列 : Mary 属性取值为

1

的属性个数 , 有 是否发烧 , 测试

1

, 测试

3

, 三个属性符合 , 因此 该表格位置的值是

3

, 表示 Mary 样本有

3

个属性符合该要求 , 即属性取值为

1

;

2

行 第

1

列 : Tom 属性取值为

1

, Mary 属性取值为

0

, 没有属性符合该取值 , 因此 该表格位置的值是

0

, 表示没有属性符合该要求 ;

2

行 第

2

列 : Tom 和 Mary 的二元属性中取值都为

0

的属性个数 , 有 咳嗽 , 测试

2

, 测试

4

, 两个样本中的 这

3

个 二元变量属性值 取值都是

0

, Tom 和 Mary 属性值都为

0

的属性个数是

3

个 , 分别是 咳嗽 , 测试

2

, 测试

4

; 该表格位置值是

3

;

2

行 第

3

列 : Mary 属性取值为

0

的属性个数 , 有 测试

2

, 测试

4

,

2

个属性符合 , 因此 该表格位置的值是

2

, 表示 Mary 样本有

2

个属性符合该要求 , 即取值为

0

;

3

行 第

1

列 : Tom 属性取值为

1

的属性个数 , 有 发烧 , 测试

1

,

2

个属性符合 , 因此 该表格位置的值是

2

, 表示 Tom 样本有

2

个属性符合该要求 , 即属性取值为

1

;

3

行 第

2

列 : Tom 属性取值为

0

的属性个数 , 有 咳嗽 , 测试

2

, 测试

3

, 测试

4

,

4

个属性符合 , 因此 该表格位置的值是

4

, 表示 Tom 样本有

4

个属性符合该要求 , 即属性取值为

0

;

3

行 第

3

列 : 样本总的属性个数 , 这里是

6

;

③ 根据 Jaccard 系数 计算相似度 :

begin{array}{lcr} d(Tom , Mary) &=& dfrac {b c} {a b c} \\ &=& dfrac {0 1} {2 0 1} &approx& 0.333 end{array}

3 . Tom 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名

是否发烧

咳嗽

测试 1

测试 2

测试 3

测试 4

Tom

1 1 1

0 0 0

1 1 1

0 0 0

0 0 0

0 0 0

Jerry

1 1 1

1 1 1

0 0 0

0 0 0

0 0 0

0 0 0

1
0
1
0
0
0

Jerry

1
1
0
0
0
0

② 根据上述总结列出二元变量可能性表如下 :

Tom 属性取值为 1 1 1

Tom 属性取值为 0 0 0

总个数

Jerry 属性取值为 1 1 1

1

1

2

Jerry 属性取值为 0 0 0

1

3

4

总个数

2

4

6 6 6

1

Tom 属性取值为

0

总个数Jerry 属性取值为

1

112Jerry 属性取值为

0

134总个数24

6

③ 根据 Jaccard 系数 计算相似度 :

begin{array}{lcr} d(Tom , Jerry) &=& dfrac {b c} {a b c} \\ &=& dfrac {1 1} {1 1 1} &approx& 0.667 end{array}

4 . Marry 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名

是否发烧

咳嗽

测试 1

测试 2

测试 3

测试 4

Marry

1 1 1

0 0 0

1 1 1

0 0 0

1 1 1

0 0 0

Jerry

1 1 1

1 1 1

0 0 0

0 0 0

0 0 0

0 0 0

1
0
1
0
1
0

Jerry

1
1
0
0
0
0

② 根据上述总结列出二元变量可能性表如下 :

Marry 属性取值为 1 1 1

Marry 属性取值为 0 0 0

总个数

Jerry 属性取值为 1 1 1

1

1

2

Jerry 属性取值为 0 0 0

2

2

4

总个数

3

3

6 6 6

1

Marry 属性取值为

0

总个数Jerry 属性取值为

1

112Jerry 属性取值为

0

224总个数33

6

③ 根据 Jaccard 系数 计算相似度 :

begin{array}{lcr} d(Mary, Jerry) &=& dfrac {b c} {a b c} \\ &=& dfrac {1 2} {1 1 2} &=& 0.75 end{array}

0 人点赞