【数据挖掘】聚类 Cluster 矩阵转换数据矩阵 - 相似度矩阵 ( 二元变量简介 | 二元变量可能性表 | 对称二元变量 | 简单匹配系数 | 非对称二元变量

文章目录

I . 二元变量
II . 二元变量可能性表
III . 对称二元变量 ( 恒定相似度 )
IV . 简单匹配系数 ( 恒定相似度计算 )
V . 不对称二元变量 ( 非恒定相似度 )
VI . Jaccard 系数 ( 非恒定相似度计算 )
VII . 二元变量相似度计算实例

I . 二元变量

1 . 二元变量取值 : 二元变量只有两个取值 , 000 或 111 ;

① 111 : 积极取值 , 存在 , 正确等含义 ;

② 000 : 消极取值 , 不存在 , 错误等含义 ;

2 . 二元变量示例 : 描述病人症状 , 111 表示病人在发烧 , 000 表示病人不发烧 ;

3 . 二元变量的相似度计算方法 : 使用区间标度变量求样本间距离的方式处理二元变量 , 误差很大 , 因此这里引入 二元变量可能性表 , 来计算样本的二元变量属性的相似度 ;

II . 二元变量可能性表

二元变量可能性表 : 计算两个样本二元变量属性相似度 ;

① 前提 : 二元变量属性的权重相同 ; ( 该二元变量权重又称为恒定相似度 )

② 表中值的含义 : 样本有 ppp 个属性 , 每一对对比相似度的样本都有一个样本 iii 和一个样本 jjj ; 第 111 行第 111 列表示在一对相似度对比的样本中 , 样本 iii 和样本 jjj 取值都是 111 的 属性的个数 ;

	样本 jjj 属性取值为 111	样本 jjj 属性取值为 000	属性总个数
样本 iii 属性取值为 111	aaa	bbb	a+ba + ba+b
样本 iii 属性取值为 000	ccc	ddd	c+dc + dc+d
属性总个数	a+ca + ca+c	b+db + db+d	ppp

aaa 表示数据集中 , 样本对象 iii 和样本对象 jjj 中 , 属性取值都为 111 的属性个数 ;

bbb 表示数据集中 , 样本对象 iii 属性取值为 111 , 样本对象 jjj 属性取值为 000 , 的属性个数 ;

ccc 表示数据集中 , 样本对象 iii 属性取值为 000 , 样本对象 jjj 属性取值为 111 , 的属性个数 ;

ddd 表示数据集中 , 样本对象 iii 和样本对象 jjj 中 , 属性取值都为 000 的属性个数 ;

a+ca + ca+c 表示样本 jjj 属性取值为 111 的属性个数 ;

b+db + db+d 表示样本 jjj 属性取值为 000 的属性个数 ;

a+ba + ba+b 表示样本 iii 属性取值为 111 的属性个数 ;

c+dc + dc+d 表示样本 iii 属性取值为 000 的属性个数 ;

样本的属性 总个数 是 a+b+c+d=pa + b + c + d = pa+b+c+d=p ;

III . 对称二元变量 ( 恒定相似度 )

1 . 对称二元变量 : 二元变量可以取值 0,10 , 10,1 , 如果这两个取值权重相同 , 两个取值之间没有优先级 , 那么称该二元变量是对称的 ;

2 . 恒定相似度 : 对称二元变量的相似度 , 称为恒定相似度 ;

3 . 恒定相似度特点 : 二元变量表示方式发生改变时 , 相似度的计算结果不会改变 ;

IV . 简单匹配系数 ( 恒定相似度计算 )

简单匹配系数 : 两个样本 i,ji , ji,j 之间 , 对称二元变量 的 恒定相似度 计算 , 使用 简单匹配系数 公式计算 , 公式如下 :

d(i,j)=b+ca+b+c+dd(i , j) = \frac {b + c} {a + b + c + d}d(i,j)=a+b+c+db+c

d(i,j)d(i , j)d(i,j) 表示样本 i,ji,ji,j 之间的相似度 , 这是一个恒定相似度 , 两个样本的对比的二元变量权值相同 ;

b+c{b + c}b+c 是指样本 iii 和样本 jjj 取值不同的情况的相似度对比次数 ; 如果取值为 0 , 说明样本完全相同 ;

a+b+c+d{a + b + c + d}a+b+c+d 是所有的相似度对比次数 ;

这是样本 iii 和样本 jjj 对比的相似度值 ;

V . 不对称二元变量 ( 非恒定相似度 )

1 . 不对称二元变量概念 : 样本的属性值取值类型是二元变量 , 其取值为 000 或 111 , 这两个取值的权重不同 , 那么称该二元变量是 不对称二元变量 ;

2 . 不对称二元变量示例 : 某项疾病检查 , 将重要的输出结果 ( 得病 ) , 编码为 111 , 不重要的输出结果 ( 没有得病 ) , 编码为 000 ;

3 . 不对称二元变量相似度 : 计算两个样本 i,ji,ji,j 不对称二元变量的相似度 , 两个样本都取值为 111 叫做正匹配 , 两个样本都取值为 000 叫做负匹配 , 正匹配比负匹配要更有意义 ;

4 . 非恒定相似度 : 不对称的二元变量的相似度 , 称为 非恒定相似度 ;

5 . 非恒定相似度示例 : 两个人都得某种病 , 这两个人的样本相似度就太高了 ; 两个人都没有得某种病 , 这种样本的相似度就不是那么高 , 因为这是正常情况 ; 因此不得病取值为 000 的权重低 , 得病取值为 111 的权重高 ;

VI . Jaccard 系数 ( 非恒定相似度计算 )

Jaccard 系数 : 两个样本 i,ji , ji,j 之间 , 不对称二元变量 的 非恒定相似度 计算 , 使用 Jaccard系数 公式计算 , 公式如下 :

d(i,j)=b+ca+b+cd(i , j) = \frac {b + c} {a + b + c}d(i,j)=a+b+cb+c

d(i,j)d(i , j)d(i,j) 表示样本 i,ji,ji,j 之间的相似度 , 这是一个非恒定相似度 , 两个样本的对比的二元变量权值不相同 , 取值为 111 的权重高于取值为 000 的权重 ;

b+c{b + c}b+c 是指样本 iii 和样本 jjj 取值不同的情况的相似度对比次数 ; 如果取值为 0 , 说明样本完全相同 ;

a+b+c{a + b + c}a+b+c 是除两个样本都为 000 的情况外的其它所有的情况的相似度对比次数 ;

这是样本 iii 和样本 jjj 对比 , 不相同的次数 , 占取值都为 111 的次数 , 取值不同的次数 ( 1,01, 01,0 和 0,10, 10,1 两种情况 ) , 三个次数之和的比例 ;

VII . 二元变量相似度计算实例

1 . 给定如下数据集 : 给定以下 333 个病人样本数据集 ;

姓名	性别	是否发烧	咳嗽	测试 1	测试 2	测试 3	测试 4
Tom	男	是	阴性	阳性	阴性	阴性	阴性
Mary	女	是	阴性	阳性	阴性	阳性	阴性
Jerry	男	是	阳性	阴性	阴性	阴性	阴性

① 二元变量编码 : 为上述数据进行编码 , 发烧编码为 111 , 不发烧编码为 000 , 咳嗽编码为 111 , 不咳嗽编码为 000 , 阳性编码为 111 , 阴性编码为 000 ;

② 忽略对称二元变量 : 性别的男女对病人分组 , 没有太多意义 , 取值男或女 , 对分组影响不大 , 属于对称二元变量 , 这里分组是不考虑该变量 ;

③ 相似度对比 : 样本之间要进行两两对比 , 即进行 333 选 222 的组合 ( 不是排列 ) , 有 C32=3C_3^2 = 3C32=3 种方式 , 分别是 Tom 与 Mary 相似度对比 , Tom 与 Jerry 相似度对比 , Mary 与 Jerry 相似度对比 ;

2 . Tom 与 Mary 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是对称二元变量 , 这里忽略 ;

姓名	是否发烧	咳嗽	测试 1	测试 2	测试 3	测试 4
Tom	111	000	111	000	000	000
Mary	111	000	111	000	111	000

② 根据上述总结列出二元变量可能性表如下 :

	Tom 属性取值为 111	Tom 属性取值为 000	总个数
Mary 属性取值为 111	2	1	3
Mary 属性取值为 000	0	3	3
总个数	2	4	666

第 111 行第 111 列 : Tom 和 Mary 的二元属性中取值都为 111 的属性个数 , 发烧 , 测试 111 , 两个样本中的这 222 个二元变量属性值取值都是 111 , Tom 和 Mary 属性值都为 111 的属性个数是 222 个 , 分别是发烧 , 测试 111 两个属性 ; 该表格位置值为 222 ;

第 111 行第 222 列 : Tom 属性取值为 000 , Mary 属性取值为 111 , 只有测试 333 符合 , 因此 该表格位置的值是 111 , 表示只有一个属性符合该要求 ;

第 111 行第 333 列 : Mary 属性取值为 111 的属性个数 , 有是否发烧 , 测试 111 , 测试 333 , 三个属性符合 , 因此 该表格位置的值是 333 , 表示 Mary 样本有 333 个属性符合该要求 , 即属性取值为 111 ;

第 222 行第 111 列 : Tom 属性取值为 111 , Mary 属性取值为 000 , 没有属性符合该取值 , 因此 该表格位置的值是 000 , 表示没有属性符合该要求 ;

第 222 行第 222 列 : Tom 和 Mary 的二元属性中取值都为 000 的属性个数 , 有咳嗽 , 测试 222 , 测试444 , 两个样本中的这 333 个二元变量属性值取值都是 000 , Tom 和 Mary 属性值都为 000 的属性个数是 333 个 , 分别是咳嗽 , 测试 222 , 测试444 ; 该表格位置值是 333 ;

第 222 行第 333 列 : Mary 属性取值为 000 的属性个数 , 有测试 222 , 测试444 , 222个属性符合 , 因此 该表格位置的值是 222 , 表示 Mary 样本有 222 个属性符合该要求 , 即取值为 000 ;

第 333 行第 111 列 : Tom 属性取值为 111 的属性个数 , 有发烧 , 测试 111 , 222个属性符合 , 因此 该表格位置的值是 222 , 表示 Tom 样本有 222 个属性符合该要求 , 即属性取值为 111 ;

第 333 行第 222 列 : Tom 属性取值为 000 的属性个数 , 有咳嗽 , 测试 222 , 测试 333 , 测试 444 , 444个属性符合 , 因此 该表格位置的值是 444 , 表示 Tom 样本有 444 个属性符合该要求 , 即属性取值为 000 ;

第 333 行第 333 列 : 样本总的属性个数 , 这里是 666 ;

③ 根据 Jaccard 系数计算相似度 :

d(Tom,Mary)=b+ca+b+c=0+12+0+1≈0.333\begin{array}{lcr} d(Tom , Mary) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {0 + 1} {2 + 0 + 1} &\approx& 0.333 \end{array}d(Tom,Mary)==a+b+cb+c2+0+10+1≈0.333

3 . Tom 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是对称二元变量 , 这里忽略 ;

姓名	是否发烧	咳嗽	测试 1	测试 2	测试 3	测试 4
Tom	111	000	111	000	000	000
Jerry	111	111	000	000	000	000

② 根据上述总结列出二元变量可能性表如下 :

	Tom 属性取值为 111	Tom 属性取值为 000	总个数
Jerry 属性取值为 111	1	1	2
Jerry 属性取值为 000	1	3	4
总个数	2	4	666

③ 根据 Jaccard 系数计算相似度 :

d(Tom,Jerry)=b+ca+b+c=1+11+1+1≈0.667\begin{array}{lcr} d(Tom , Jerry) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {1 + 1} {1 + 1 + 1} &\approx& 0.667 \end{array}d(Tom,Jerry)==a+b+cb+c1+1+11+1≈0.667

4 . Marry 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是对称二元变量 , 这里忽略 ;

姓名	是否发烧	咳嗽	测试 1	测试 2	测试 3	测试 4
Marry	111	000	111	000	111	000
Jerry	111	111	000	000	000	000

② 根据上述总结列出二元变量可能性表如下 :

	Marry 属性取值为 111	Marry 属性取值为 000	总个数
Jerry 属性取值为 111	1	1	2
Jerry 属性取值为 000	2	2	4
总个数	3	3	666

③ 根据 Jaccard 系数计算相似度 :

d(Mary,Jerry)=b+ca+b+c=1+21+1+2=0.75\begin{array}{lcr} d(Mary, Jerry) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {1 + 2} {1 + 1 + 2} &=& 0.75 \end{array}d(Mary,Jerry)==a+b+cb+c1+1+21+2=0.75