文章目录

  • I . 二元变量
  • II . 二元变量 可能性表
  • III . 对称 二元变量 ( 恒定相似度 )
  • IV . 简单匹配系数 ( 恒定相似度计算 )
  • V . 不对称 二元变量 ( 非恒定相似度 )
  • VI . Jaccard 系数 ( 非恒定相似度计算 )
  • VII . 二元变量 相似度 计算实例

I . 二元变量


1 . 二元变量取值 : 二元变量只有两个取值 , 000 或 111 ;

① 111 : 积极取值 , 存在 , 正确 等含义 ;

② 000 : 消极取值 , 不存在 , 错误 等含义 ;

2 . 二元变量 示例 : 描述病人症状 , 111 表示病人在发烧 , 000 表示病人不发烧 ;

3 . 二元变量 的 相似度 计算方法 : 使用 区间标度变量 求样本间距离的方式 处理二元变量 , 误差很大 , 因此这里引入 二元变量可能性表 , 来计算样本的二元变量属性的相似度 ;

II . 二元变量 可能性表


二元变量 可能性表 : 计算 两个样本 二元变量属性相似度 ;

① 前提 : 二元变量 属性的权重 相同 ; ( 该二元变量权重又称为 恒定相似度 )

② 表中值的含义 : 样本有 ppp 个属性 , 每一对 对比相似度的样本都有 一个样本 iii 和 一个样本 jjj ; 第 111 行第 111 列 表示 在一对相似度对比的样本中 , 样本 iii 和 样本 jjj 取值都是 111 的 属性的个数 ;

样本 jjj 属性取值为 111 样本 jjj 属性取值为 000 属性总个数
样本 iii 属性取值为 111 aaa bbb a+ba + ba+b
样本 iii 属性取值为 000 ccc ddd c+dc + dc+d
属性总个数 a+ca + ca+c b+db + db+d ppp

aaa 表示 数据集中 , 样本对象 iii 和样本对象 jjj 中 , 属性取值都为 111 的 属性个数 ;

bbb 表示 数据集中 , 样本对象 iii 属性取值为 111 , 样本对象 jjj 属性取值为 000 , 的属性个数 ;

ccc 表示 数据集中 , 样本对象 iii 属性取值为 000 , 样本对象 jjj 属性取值为 111 , 的属性个数 ;

ddd 表示 数据集中 , 样本对象 iii 和样本对象 jjj 中 , 属性取值都为 000 的属性个数 ;

a+ca + ca+c 表示样本 jjj 属性取值为 111 的 属性个数 ;

b+db + db+d 表示样本 jjj 属性取值为 000 的 属性个数 ;

a+ba + ba+b 表示样本 iii 属性取值为 111 的 属性个数 ;

c+dc + dc+d 表示样本 iii 属性取值为 000 的 属性个数 ;

样本的属性 总个数 是 a+b+c+d=pa + b + c + d = pa+b+c+d=p ;

III . 对称 二元变量 ( 恒定相似度 )


1 . 对称二元变量 : 二元变量可以取值 0,10 , 10,1 , 如果这两个取值权重相同 , 两个取值之间没有优先级 , 那么称该二元变量是对称的 ;

2 . 恒定相似度 : 对称二元变量 的相似度 , 称为恒定相似度 ;

3 . 恒定相似度特点 : 二元变量表示方式发生改变时 , 相似度的计算结果不会改变 ;

IV . 简单匹配系数 ( 恒定相似度计算 )


简单匹配系数 : 两个样本 i,ji , ji,j 之间 , 对称二元变量恒定相似度 计算 , 使用 简单匹配系数 公式计算 , 公式如下 :

d(i,j)=b+ca+b+c+dd(i , j) = \frac {b + c} {a + b + c + d}d(i,j)=a+b+c+db+c​

d(i,j)d(i , j)d(i,j) 表示样本 i,ji,ji,j 之间的相似度 , 这是一个恒定相似度 , 两个样本的 对比的 二元变量 权值相同 ;

b+c{b + c}b+c 是指 样本 iii 和样本 jjj 取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;

a+b+c+d{a + b + c + d}a+b+c+d 是所有的相似度对比次数 ;

这是 样本 iii 和 样本 jjj 对比 的 相似度值 ;

V . 不对称 二元变量 ( 非恒定相似度 )


1 . 不对称二元变量 概念 : 样本的属性值取值类型 是 二元变量 , 其取值为 000 或 111 , 这两个取值的权重不同 , 那么称该二元变量是 不对称二元变量 ;

2 . 不对称二元变量示例 : 某项疾病检查 , 将重要的输出结果 ( 得病 ) , 编码为 111 , 不重要的输出结果 ( 没有得病 ) , 编码为 000 ;

3 . 不对称二元变量 相似度 : 计算两个样本 i,ji,ji,j 不对称二元变量的相似度 , 两个样本都取值为 111 叫做正匹配 , 两个样本都取值为 000 叫做负匹配 , 正匹配 比 负匹配要更有意义 ;

4 . 非恒定相似度 : 不对称的二元变量的相似度 , 称为 非恒定相似度 ;

5 . 非恒定相似度示例 : 两个人都得某种病 , 这两个人的样本相似度就太高了 ; 两个人都没有得某种病 , 这种样本的相似度就不是那么高 , 因为这是正常情况 ; 因此不得病 取值为 000 的权重低 , 得病取值为 111 的权重 高 ;

VI . Jaccard 系数 ( 非恒定相似度计算 )


Jaccard 系数 : 两个样本 i,ji , ji,j 之间 , 不对称二元变量非恒定相似度 计算 , 使用 Jaccard系数 公式计算 , 公式如下 :

d(i,j)=b+ca+b+cd(i , j) = \frac {b + c} {a + b + c}d(i,j)=a+b+cb+c​

d(i,j)d(i , j)d(i,j) 表示样本 i,ji,ji,j 之间的相似度 , 这是一个非恒定相似度 , 两个样本的 对比的 二元变量 权值不相同 , 取值为 111 的权重高于取值为 000 的权重 ;

b+c{b + c}b+c 是指 样本 iii 和样本 jjj 取值不同的情况 的 相似度对比 次数 ; 如果取值为 0 , 说明样本完全相同 ;

a+b+c{a + b + c}a+b+c 是 除 两个样本都为 000 的情况外的其它 所有的 情况 的 相似度对比次数 ;

这是 样本 iii 和 样本 jjj 对比 , 不相同的次数 , 占 取值都为 111 的次数 , 取值不同的次数 ( 1,01, 01,0 和 0,10, 10,1 两种情况 ) , 三个次数之和 的 比例 ;

VII . 二元变量 相似度 计算实例


1 . 给定如下数据集 : 给定 以下 333 个病人样本 数据集 ;

姓名 性别 是否发烧 咳嗽 测试 1 测试 2 测试 3 测试 4
Tom 阴性 阳性 阴性 阴性 阴性
Mary 阴性 阳性 阴性 阳性 阴性
Jerry 阳性 阴性 阴性 阴性 阴性

① 二元变量编码 : 为上述数据进行编码 , 发烧编码为 111 , 不发烧编码为 000 , 咳嗽编码为 111 , 不咳嗽编码为 000 , 阳性编码为 111 , 阴性编码为 000 ;

② 忽略对称二元变量 : 性别的男女对病人分组 , 没有太多意义 , 取值 男 或 女 , 对分组影响不大 , 属于对称二元变量 , 这里分组是不考虑该变量 ;

③ 相似度对比 : 样本之间要进行 两两 对比 , 即进行 333 选 222 的组合 ( 不是排列 ) , 有 C32=3C_3^2 = 3C32​=3 种方式 , 分别是 Tom 与 Mary 相似度对比 , Tom 与 Jerry 相似度对比 , Mary 与 Jerry 相似度对比 ;

2 . Tom 与 Mary 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名 是否发烧 咳嗽 测试 1 测试 2 测试 3 测试 4
Tom 111 000 111 000 000 000
Mary 111 000 111 000 111 000

② 根据上述总结列出二元变量可能性表如下 :

Tom 属性取值为 111 Tom 属性取值为 000 总个数
Mary 属性取值为 111 2 1 3
Mary 属性取值为 000 0 3 3
总个数 2 4 666

第 111 行 第 111 列 : Tom 和 Mary 的二元属性中取值都为 111 的属性个数 , 发烧 , 测试 111 , 两个样本中的 这 222 个 二元变量属性值 取值都是 111 , Tom 和 Mary 属性值都为 111 的属性个数是 222 个 , 分别是 发烧 , 测试 111 两个属性 ; 该表格位置值为 222 ;

第 111 行 第 222 列 : Tom 属性取值为 000 , Mary 属性取值为 111 , 只有 测试 333 符合 , 因此 该表格位置的值是 111 , 表示只有一个属性符合该要求 ;

第 111 行 第 333 列 : Mary 属性取值为 111 的属性个数 , 有 是否发烧 , 测试 111 , 测试 333 , 三个属性符合 , 因此 该表格位置的值是 333 , 表示 Mary 样本有 333 个属性符合该要求 , 即属性取值为 111 ;

第 222 行 第 111 列 : Tom 属性取值为 111 , Mary 属性取值为 000 , 没有属性符合该取值 , 因此 该表格位置的值是 000 , 表示没有属性符合该要求 ;

第 222 行 第 222 列 : Tom 和 Mary 的二元属性中取值都为 000 的属性个数 , 有 咳嗽 , 测试 222 , 测试444 , 两个样本中的 这 333 个 二元变量属性值 取值都是 000 , Tom 和 Mary 属性值都为 000 的属性个数是 333 个 , 分别是 咳嗽 , 测试 222 , 测试444 ; 该表格位置值是 333 ;

第 222 行 第 333 列 : Mary 属性取值为 000 的属性个数 , 有 测试 222 , 测试444 , 222个属性符合 , 因此 该表格位置的值是 222 , 表示 Mary 样本有 222 个属性符合该要求 , 即取值为 000 ;

第 333 行 第 111 列 : Tom 属性取值为 111 的属性个数 , 有 发烧 , 测试 111 , 222个属性符合 , 因此 该表格位置的值是 222 , 表示 Tom 样本有 222 个属性符合该要求 , 即属性取值为 111 ;

第 333 行 第 222 列 : Tom 属性取值为 000 的属性个数 , 有 咳嗽 , 测试 222 , 测试 333 , 测试 444 , 444个属性符合 , 因此 该表格位置的值是 444 , 表示 Tom 样本有 444 个属性符合该要求 , 即属性取值为 000 ;

第 333 行 第 333 列 : 样本总的属性个数 , 这里是 666 ;

③ 根据 Jaccard 系数 计算相似度 :

d(Tom,Mary)=b+ca+b+c=0+12+0+1≈0.333\begin{array}{lcr} d(Tom , Mary) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {0 + 1} {2 + 0 + 1} &\approx& 0.333 \end{array}d(Tom,Mary)​==​a+b+cb+c​2+0+10+1​​≈​0.333​

3 . Tom 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名 是否发烧 咳嗽 测试 1 测试 2 测试 3 测试 4
Tom 111 000 111 000 000 000
Jerry 111 111 000 000 000 000

② 根据上述总结列出二元变量可能性表如下 :

Tom 属性取值为 111 Tom 属性取值为 000 总个数
Jerry 属性取值为 111 1 1 2
Jerry 属性取值为 000 1 3 4
总个数 2 4 666

③ 根据 Jaccard 系数 计算相似度 :

d(Tom,Jerry)=b+ca+b+c=1+11+1+1≈0.667\begin{array}{lcr} d(Tom , Jerry) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {1 + 1} {1 + 1 + 1} &\approx& 0.667 \end{array}d(Tom,Jerry)​==​a+b+cb+c​1+1+11+1​​≈​0.667​

4 . Marry 与 Jerry 相似度对比 :

① 数据编码 : 将数据单独提取出来 , 编码比较 , 性别数据是 对称二元变量 , 这里忽略 ;

姓名 是否发烧 咳嗽 测试 1 测试 2 测试 3 测试 4
Marry 111 000 111 000 111 000
Jerry 111 111 000 000 000 000

② 根据上述总结列出二元变量可能性表如下 :

Marry 属性取值为 111 Marry 属性取值为 000 总个数
Jerry 属性取值为 111 1 1 2
Jerry 属性取值为 000 2 2 4
总个数 3 3 666

③ 根据 Jaccard 系数 计算相似度 :

d(Mary,Jerry)=b+ca+b+c=1+21+1+2=0.75\begin{array}{lcr} d(Mary, Jerry) &=& \dfrac {b + c} {a + b + c} \\\\ &=& \dfrac {1 + 2} {1 + 1 + 2} &=& 0.75 \end{array}d(Mary,Jerry)​==​a+b+cb+c​1+1+21+2​​=​0.75​

【数据挖掘】聚类 Cluster 矩阵转换 数据矩阵 - 相似度矩阵 ( 二元变量简介 | 二元变量可能性表 | 对称二元变量 | 简单匹配系数 | 非对称二元变量 | Jaccard 系数 )相关推荐

  1. 字符串矩阵转换成长字符串_字符串矩阵

    字符串矩阵转换成长字符串 Description: 描述: In this article, we are going to see how backtracking can be used to s ...

  2. python 将三维数据转为二维_将三维矩阵转换/重塑为二维矩阵

    使用^{},然后使用^{},如下-X.transpose(1,2,0).reshape(-1,X.shape[0]) 解释- 1)您想要得到由X[:, 0, 0].X[:, 0, 1]等组成的行,也就 ...

  3. java中图片与像素矩阵转换,java - Java中具有矩阵乘法的图片转换不起作用 - 堆栈内存溢出...

    我正在用Java实现图片转换. 到目前为止,我已经实现了以下类: 矩阵 (持有一个3x3矩阵,该矩阵将用于与Vector相乘) 向量 (用于与变换矩阵相乘以生成原始图像像素的新位置) PictureT ...

  4. 【数据挖掘笔记二】认识数据

    2.认识数据 提出一些问题来开启数据的认识.数据由什么类型的属性或字段组成?每个属性具有何种类型的数据值?那些属性是离散的,那些事连续值的?数据值如何分布?什么方法更好地可视化数据可看出离群点?如何度 ...

  5. 【Pytorch神经网络理论篇】 25 基于谱域图神经网络GNN:基础知识+GNN功能+矩阵基础+图卷积神经网络+拉普拉斯矩阵

    图神经网络(Graph Neural Network,GNN)是一类能够从图结构数据中学习特征规律的神经网络,是解决图结构数据(非欧氏空间数据)机器学习问题的最重要的技术. 1 图神经网络的基础知识 ...

  6. R语言入门(19)-数据类型的转换_矩阵与数据框

    矩阵转换成数据框 > library(xlsx) > setwd("C:/Users/Administrator/Desktop/R/RData") > cars ...

  7. python文本数据转换数值矩阵_python numpy矩阵的数据类型转换

    在python中,numpy矩阵的数据类型转换需要调用astype(),直接修改dtype是无效的.调用astype返回数据类型修改后的矩阵,但是源数据的类型不会变,需要再对源数据的赋值进行操作才可以 ...

  8. CNN卷积层图像和矩阵转换函数

    将图像维度转换为矩阵,和将矩阵转换为图像维度.深度学习框架都会有这样的功能. import numpy as npdef im2col(input_data, filter_h, filter_w, ...

  9. Opencv学习之:如何将矩阵转换成图片,如何将图片转换成矩阵

    文章目录 图片转化成矩阵 方法一: 方法二: 矩阵转换成图片 错误代码段 正确代码段 图片转化成矩阵 方法一: 使用 PIL 的方法 + img.getdata() 提取数据 + np.array() ...

最新文章

  1. IIS配置相关问题:Framework 4.5 在IIS 7.5中运行
  2. 你能说出 Kafka 这些原理吗
  3. 来认识世界上第一支AI基金:模仿股票分析师 365天无间断工作
  4. php中对MYSQL操作之事务控制,回滚
  5. 2014年湖北省TI杯大学生电子设计竞赛论文格式
  6. 利用ImageMagick命令执行漏洞拿下Facebook四万美元奖金
  7. 注册表编辑器厘米爱你找不到mysql,win7系统中安装mysql后找不到服务或出现找不到指定文件的解决方法...
  8. 【题解】luogu p1032 字串变换
  9. 自制Unity小游戏TankHero-2D(3)开始玩起来
  10. MySQL命令之mysqlhotcopy -- 热备份
  11. 设计模式(十一):从文Finder中认识组合模式(Composite Pattern)
  12. 从业6年,给你5点建议
  13. 【Paper-Attack】Poisoning Attacks to Graph-Based Recommender Systems
  14. 程序设计与编译(C++入门)
  15. vue从创建到完整的饿了么(10)city.vue的完善(v-if 的简单使用及本地缓存的存储与读取)...
  16. nginx 反向代理及负载均衡
  17. 初期学习K60遇到的常见问题及解决办法
  18. 使用matplotlib动态打印图片(RGB图片)
  19. cad导入进max线会乱_AutoCAD导入3dmax显示错乱(z轴归零).doc
  20. 让你秒读懂阿里云数据库架构与选型

热门文章

  1. 【数据结构和算法】 八大排序算法详解
  2. vue中echarts自适应屏幕大小
  3. 【STM32CubeMX】NRF24L01模块实现“1对1“及“1对多“无线通信
  4. Java介绍和基础知识
  5. css一些美化页面的方法
  6. Perl正则表达式超详细教程
  7. 如何更改 think-cell 图表的默认颜色?使用教程
  8. FH30502输入3.7V升5V电流3A-5A同步整流升压芯片
  9. 对于 Windows Sever 2019 无法安装AMD RX显卡驱动的解决办法
  10. 欧几里得和扩展欧几里得算法