文章目录- I . 二元变量
- II . 二元变量 可能性表
- III . 对称 二元变量 ( 恒定相似度 )
- IV . 简单匹配系数 ( 恒定相似度计算 )
- V . 不对称 二元变量 ( 非恒定相似度 )
- VI . Jaccard 系数 ( 非恒定相似度计算 )
- VII . 二元变量 相似度 计算实例
I . 二元变量
1 . 二元变量取值 : 二元变量只有两个取值 ,
或
;
①
: 积极取值 , 存在 , 正确 等含义 ;
②
: 消极取值 , 不存在 , 错误 等含义 ;
2 . 二元变量 示例 : 描述病人症状 ,
表示病人在发烧 ,
表示病人不发烧 ;
3 . 二元变量 的 相似度 计算方法 : 使用 区间标度变量 求样本间距离的方式 处理二元变量 , 误差很大 , 因此这里引入 二元变量可能性表 , 来计算样本的二元变量属性的相似度 ;
II . 二元变量 可能性表
二元变量 可能性表 : 计算 两个样本 二元变量属性相似度 ;
① 前提 : 二元变量 属性的权重 相同 ; ( 该二元变量权重又称为 恒定相似度 )
② 表中值的含义 : 样本有
个属性 , 每一对 对比相似度的样本都有 一个样本
和 一个样本
; 第
行第
列 表示 在一对相似度对比的样本中 , 样本
和 样本
取值都是
的 属性的个数 ;
样本 j j j 属性取值为 1 1 1 | 样本 j j j 属性取值为 0 0 0 | 属性总个数 | |
---|---|---|---|
样本 i i i 属性取值为 1 1 1 | a a a | b b b | a b a b a b |
样本 i i i 属性取值为 0 0 0 | c c c | d d d | c d c d c d |
属性总个数 | a c a c a c | b d b d b d | p p p |
属性取值为
样本
属性取值为
属性总个数样本
属性取值为
样本
属性取值为
属性总个数
表示 数据集中 , 样本对象
和样本对象
中 , 属性取值都为
的 属性个数 ;
表示 数据集中 , 样本对象
属性取值为
, 样本对象
属性取值为
, 的属性个数 ;
表示 数据集中 , 样本对象
属性取值为
, 样本对象
属性取值为
, 的属性个数 ;
表示 数据集中 , 样本对象
和样本对象
中 , 属性取值都为
的属性个数 ;
表示样本
属性取值为
的 属性个数 ;
表示样本
属性取值为
的 属性个数 ;
表示样本
属性取值为
的 属性个数 ;
表示样本
属性取值为
的 属性个数 ;
样本的属性 总个数 是
;
III . 对称 二元变量 ( 恒定相似度 )
1 . 对称二元变量 : 二元变量可以取值
, 如果这两个取值权重相同 , 两个取值之间没有优先级 , 那么称该二元变量是对称的 ;
2 . 恒定相似度 : 对称二元变量 的相似度 , 称为恒定相似度 ;
3 . 恒定相似度特点 : 二元变量表示方式发生改变时 , 相似度的计算结果不会改变 ;
IV . 简单匹配系数 ( 恒定相似度计算 )
简单匹配系数 : 两个样本
之间 , 对称二元变量 的 恒定相似度 计算 , 使用 简单匹配系数 公式计算 , 公式如下 :
表示样本
之间的相似度 , 这是一个恒定相似度 , 两个样本的 对比的 二元变量 权值相同 ;
是指 样本
和样本
取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;
是所有的相似度对比次数 ;
这是 样本
和 样本
对比 的 相似度值 ;
V . 不对称 二元变量 ( 非恒定相似度 )
1 . 不对称二元变量 概念 : 样本的属性值取值类型 是 二元变量 , 其取值为
或
, 这两个取值的权重不同 , 那么称该二元变量是 不对称二元变量 ;
2 . 不对称二元变量示例 : 某项疾病检查 , 将重要的输出结果 ( 得病 ) , 编码为
, 不重要的输出结果 ( 没有得病 ) , 编码为
;
3 . 不对称二元变量 相似度 : 计算两个样本
不对称二元变量的相似度 , 两个样本都取值为
叫做正匹配 , 两个样本都取值为
叫做负匹配 , 正匹配 比 负匹配要更有意义 ;
4 . 非恒定相似度 : 不对称的二元变量的相似度 , 称为 非恒定相似度 ;
5 . 非恒定相似度示例 : 两个人都得某种病 , 这两个人的样本相似度就太高了 ; 两个人都没有得某种病 , 这种样本的相似度就不是那么高 , 因为这是正常情况 ; 因此不得病 取值为
的权重低 , 得病取值为
的权重 高 ;
VI . Jaccard 系数 ( 非恒定相似度计算 )
Jaccard 系数 : 两个样本
之间 , 不对称二元变量 的 非恒定相似度 计算 , 使用 Jaccard系数 公式计算 , 公式如下 :
表示样本
之间的相似度 , 这是一个非恒定相似度 , 两个样本的 对比的 二元变量 权值不相同 , 取值为
的权重高于取值为
的权重 ;
是指 样本
和样本
取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;
是 除 两个样本都为
的情况外的其它 所有的 情况 的 相似度对比次数 ;
这是 样本
和 样本
对比 , 不相同的次数 , 占 取值都为
的次数 , 取值不同的次数 (
和
两种情况 ) , 三个次数之和 的 比例 ;
VII . 二元变量 相似度 计算实例
1 . 给定如下数据集 : 给定 以下
个病人样本 数据集 ;
姓名 | 性别 | 是否发烧 | 咳嗽 | 测试 1 | 测试 2 | 测试 3 | 测试 4 |
---|---|---|---|---|---|---|---|
Tom | 男 | 是 | 阴性 | 阳性 | 阴性 | 阴性 | 阴性 |
Mary | 女 | 是 | 阴性 | 阳性 | 阴性 | 阳性 | 阴性 |
Jerry | 男 | 是 | 阳性 | 阴性 | 阴性 | 阴性 | 阴性 |
① 二元变量编码 : 为上述数据进行编码 , 发烧编码为
, 不发烧编码为
, 咳嗽编码为
, 不咳嗽编码为
, 阳性编码为
, 阴性编码为
;
② 忽略对称二元变量 : 性别的男女对病人分组 , 没有太多意义 , 取值 男 或 女 , 对分组影响不大 , 属于对称二元变量 , 这里分组是不考虑该变量 ;
③ 相似度对比 : 样本之间要进行 两两 对比 , 即进行
选
的组合 ( 不是排列 ) , 有
种方式 , 分别是 Tom 与 Mary 相似度对比 , Tom 与 Jerry 相似度对比 , Mary 与 Jerry 相似度对比 ;
2 . Tom 与 Mary 相似度对比 :
① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;
姓名 | 是否发烧 | 咳嗽 | 测试 1 | 测试 2 | 测试 3 | 测试 4 |
---|---|---|---|---|---|---|
Tom | 1 1 1 | 0 0 0 | 1 1 1 | 0 0 0 | 0 0 0 | 0 0 0 |
Mary | 1 1 1 | 0 0 0 | 1 1 1 | 0 0 0 | 1 1 1 | 0 0 0 |
Mary
② 根据上述总结列出二元变量可能性表如下 :
Tom 属性取值为 1 1 1 | Tom 属性取值为 0 0 0 | 总个数 | |
---|---|---|---|
Mary 属性取值为 1 1 1 | 2 | 1 | 3 |
Mary 属性取值为 0 0 0 | 0 | 3 | 3 |
总个数 | 2 | 4 | 6 6 6 |
Tom 属性取值为
总个数Mary 属性取值为
213Mary 属性取值为
033总个数24
第
行 第
列 : Tom 和 Mary 的二元属性中取值都为
的属性个数 , 发烧 , 测试
, 两个样本中的 这
个 二元变量属性值 取值都是
, Tom 和 Mary 属性值都为
的属性个数是
个 , 分别是 发烧 , 测试
两个属性 ; 该表格位置值为
;
第
行 第
列 : Tom 属性取值为
, Mary 属性取值为
, 只有 测试
符合 , 因此 该表格位置的值是
, 表示只有一个属性符合该要求 ;
第
行 第
列 : Mary 属性取值为
的属性个数 , 有 是否发烧 , 测试
, 测试
, 三个属性符合 , 因此 该表格位置的值是
, 表示 Mary 样本有
个属性符合该要求 , 即属性取值为
;
第
行 第
列 : Tom 属性取值为
, Mary 属性取值为
, 没有属性符合该取值 , 因此 该表格位置的值是
, 表示没有属性符合该要求 ;
第
行 第
列 : Tom 和 Mary 的二元属性中取值都为
的属性个数 , 有 咳嗽 , 测试
, 测试
, 两个样本中的 这
个 二元变量属性值 取值都是
, Tom 和 Mary 属性值都为
的属性个数是
个 , 分别是 咳嗽 , 测试
, 测试
; 该表格位置值是
;
第
行 第
列 : Mary 属性取值为
的属性个数 , 有 测试
, 测试
,
个属性符合 , 因此 该表格位置的值是
, 表示 Mary 样本有
个属性符合该要求 , 即取值为
;
第
行 第
列 : Tom 属性取值为
的属性个数 , 有 发烧 , 测试
,
个属性符合 , 因此 该表格位置的值是
, 表示 Tom 样本有
个属性符合该要求 , 即属性取值为
;
第
行 第
列 : Tom 属性取值为
的属性个数 , 有 咳嗽 , 测试
, 测试
, 测试
,
个属性符合 , 因此 该表格位置的值是
, 表示 Tom 样本有
个属性符合该要求 , 即属性取值为
;
第
行 第
列 : 样本总的属性个数 , 这里是
;
③ 根据 Jaccard 系数 计算相似度 :
3 . Tom 与 Jerry 相似度对比 :
① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;
姓名 | 是否发烧 | 咳嗽 | 测试 1 | 测试 2 | 测试 3 | 测试 4 |
---|---|---|---|---|---|---|
Tom | 1 1 1 | 0 0 0 | 1 1 1 | 0 0 0 | 0 0 0 | 0 0 0 |
Jerry | 1 1 1 | 1 1 1 | 0 0 0 | 0 0 0 | 0 0 0 | 0 0 0 |
Jerry
② 根据上述总结列出二元变量可能性表如下 :
Tom 属性取值为 1 1 1 | Tom 属性取值为 0 0 0 | 总个数 | |
---|---|---|---|
Jerry 属性取值为 1 1 1 | 1 | 1 | 2 |
Jerry 属性取值为 0 0 0 | 1 | 3 | 4 |
总个数 | 2 | 4 | 6 6 6 |
Tom 属性取值为
总个数Jerry 属性取值为
112Jerry 属性取值为
134总个数24
③ 根据 Jaccard 系数 计算相似度 :
4 . Marry 与 Jerry 相似度对比 :
① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;
姓名 | 是否发烧 | 咳嗽 | 测试 1 | 测试 2 | 测试 3 | 测试 4 |
---|---|---|---|---|---|---|
Marry | 1 1 1 | 0 0 0 | 1 1 1 | 0 0 0 | 1 1 1 | 0 0 0 |
Jerry | 1 1 1 | 1 1 1 | 0 0 0 | 0 0 0 | 0 0 0 | 0 0 0 |
Jerry
② 根据上述总结列出二元变量可能性表如下 :
Marry 属性取值为 1 1 1 | Marry 属性取值为 0 0 0 | 总个数 | |
---|---|---|---|
Jerry 属性取值为 1 1 1 | 1 | 1 | 2 |
Jerry 属性取值为 0 0 0 | 2 | 2 | 4 |
总个数 | 3 | 3 | 6 6 6 |
Marry 属性取值为
总个数Jerry 属性取值为
112Jerry 属性取值为
224总个数33
③ 根据 Jaccard 系数 计算相似度 :