相似性度量方法:相关系数和相似系数
一.变量相似度度量--相关系数
首先,要注意相关系数和相似系数二者都用来度量相似度,分别度量变量间的相似度和样本(对象)间的相似度。
- 相关系数是用来描述数据属性(特征)的,取值在[-1,1]之间,特征相关系数绝对值越大,特征越线性相关。一般说的相关系数指的是线性相关系数,并且注意两个变量相互独立,则相关(线性)系数等于0,但相关系数=0,两变量不一定相互独立,因为它们可能存在非线性关系。
- 相似系数是用来描述数据对象(样本)的,样本的相似性通常用距离度量,即比较样本的邻近度,取值在[0,1]之间,距离越大相似性越小。
皮尔逊相关系数
大学课本概率轮与数理统计
定义:若(X,Y)是一个二维随机变量,则称E{[X-E(X)][Y-E(Y)]}为随机变量X与Y的协方差,记为Cov(X,Y)。即Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}
性质:Cov(aX,bY)=abCov(X,Y),(a,b是常数)
相关系数
协方差可以在一定程度上反映X与Y相互间的联系,但它还受X与Y本身数值大小的影响,譬如说,令X与Y各自增大k倍,即X1=kX,Y1=kY,这时X1与Y1间的相互联系和X与Y间的相互联系应该还是一样的,可是反映这种联系的协方差却增大了k的平方倍,即
为了克服这一点,我们引入相关系数的定义:
定义:若(X,Y)是一个二维随机变量,则称
为随机变量X与Y的相关系数(即皮尔逊相关系数),记为
。即
由协方差的性质,我们可以看出,相关系数就是标准化随机变量
的协方差。
只差一个常数倍
,即
令
定理
由书本上的知识得,协方差本身就可以反映各变量之间的相关性(是否线性相关),但易受不同取值范围变量的干扰,而皮尔逊相关系数本质上是对数据标准化处理后的协方差。
注意:标准化处理就是一种对样本数据在不同维度上进行一个伸缩变化(而不改变数据的几何距离),也就是不改变原始数据的信息(分布)。这样的好处就是在进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)。
补充:相关系数只是反映变量间是否存在线性关系,只能表明是否线性相关,而不能通过线性相关与否来证明是否独立,因为变量间还可能存在非线性关系。
皮尔逊相关系数相当于对变量做标准化(去中心化+缩放)后的然后计算协方差
余弦距离
变量x与y的余弦距离等于变量x与y之间的夹角的余弦。当x和y非常接近时,其内积也会很大
注意:
- 计算余弦相关度时,需要检查输入向量是否为0向量,否则会报错
- 余弦相关度和夹角成反比,向量夹角越小,变量相关度越高
余弦距离相当于对变量缩放后的变量内积结果
修正余弦
修正余弦相当于 对变量去中心化+缩放处理后变量的内积结果
比较变量之间的相关度前,首先要分析不同变量的量纲差异性以及数据分布差异性,若差异性较大,则需要对数据做标准化处理,此时这三种度量方法输出等价。
使用相关性时可能的风险
- 伪相关性:例如统计研究发现,冰淇淋销量最高的时候,就是公共泳池的溺水事故发生得最多的时候。然而,这有可能是天气炎热造成冰淇淋销量和公共泳池的溺水事故增多。若视冰淇淋的销量遇为溺水事故的成因,可能就被伪相关性误导了。
即两个变量可能会受第三者影响,从而在其间得出误导性的相关系数,当在统计上消除第三者的影响时,两个变量则可能表现不相关。例如:冬天的时候(消除夏天气候炎热这一影响),某品牌发布了一款特别好吃的冰激凌,销量大增,但此时去游泳池的人比夏天的的人数少,溺水事故也少,此时冰激凌和公共泳池的溺水事故就可能表现不相关
相关性的使用范围/对象受限:例如:两个变量在整体上表现是不线性相关的(类别不平衡),但对于部分样本/群体(同一类别)是相关的,即特征仅仅某些群体来说是有用指标。
二、样本相似性度量--相似系数
欧氏距离-衡量相似度
距离越小,越相似。距离为0时样本相似度为1。
欧斯距离对变量的取值范围很敏感,如果不同变量(维度、特征)的取值范围差别很大时,那么结果很容易被某个变量决定。
解决办法:对数据各变量(特征)作标准化处理,或者加权处理。
相似度系数常用来构建相似度矩阵。
使用核函数衡量相似度
核函数可以衡量两个向量的相似度,常用核函数有高斯核、拉普拉斯核、多项式核、sigmoid核
- 用高斯核衡量相似度其实和距离衡量相似度原理一样,只不过做了一下变形
- 同理还有拉普拉斯核衡量相似度的形式如下
- 多项式核衡量相似度的形式如下,和余弦相似度类似,当x和y非常接近,其内积也会很大(注意:这个性质前提是向量x和y已单位化处理。单位化后的向量,比较是否相似其实就是比较方向(向量夹角),两向量夹角为0即重合时,显然最相似)
- sigmoid核衡量相似度的形式如下
使用相关系数衡量样本的相似度
已知相关系数的取值范围为[-1,1],相似系数的取值范围为[0,1],若我们想使用相关系数衡量样本的相似度如皮尔逊、余弦相关系数时,只需对皮尔逊相关系数或余弦相关系数作归一化处理,使其取值范围为0到1之间,如下所示:
相似性度量方法:相关系数和相似系数相关推荐
- 轨迹相似性度量方法总结
轨迹相似性度量方法总结 基于点的度量 基于形状的度量 基于分段 基于特定任务 基于点的度量 1.欧氏距离 优点:线性计算时间 缺点:轨迹长度要相同 2.DTW 是对时间序列距离测量的改进 优点:考虑到 ...
- D-A-K方法求天然气偏差系数 以及等温压缩系数、天然气体积系数、天然气黏度的计算。牛顿迭代法。
D-A-K方法求天然气偏差系数 以及等温压缩系数.天然气体积系数.天然气黏度.牛顿迭代法. 这是第一次发文章,由于对该方法原理了解不是很透彻,没有考虑很多条件,仅给大家提供一些思路. #include ...
- 距离和相似性度量方法
目录 1. 闵可夫斯基距离:欧几里得距离.曼哈顿距离.切比雪夫距离 2. 马氏距离 3. 向量内积:余弦相似度.皮尔逊相关系数 4. 分类数据点间的距离:汉明距离.杰卡德相似系数 5. 序列之间的距离 ...
- 漫谈:机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means) ...
- 机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means) ...
- 相似性度量方法(欧式距离等各种距离)
转自:https://blog.csdn.net/hgzlhgzlhgzl/article/details/68925980 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMea ...
- 相似性度量(距离及相似系数)
在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量.其中,距离度量的性质:非负性,自反性,对称性和三角不等式. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1 ...
- 筛数方法相关系数_相关系数怎么计算
展开全部 若Y=a+bX,则有: 令E(X) = μ,D(X) = σ 则E(Y) = bμ + a,D(Y) = bσ E(XY) = E(aX + bX) = aμ + b(σ + μ) Cov( ...
- 相关系数R-判定系数R方的matlab实现
相关系数-判定系数 相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示.由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数. ...
最新文章
- 面了一个大佬,一看就背了很多面试题
- C/C++之数据类型
- 基于深度学习的目标检测算法综述(一)
- 图论--拓扑排序--模板
- python判断语句的复杂度_Python内置方法的时间复杂度(转)
- mysql 快速插入(insert)多条记录
- Android ListView 疯狂之旅 之 《自定义下拉刷新功能的ListView》
- 做网站用UTF-8编码还是GB2312编码?
- Ps 初学者教程,如何用文字增强您的照片?
- 360浏览器导出Excel闪退BUG
- linux下挂载F2FS文件系统
- windows批量ping测试脚本
- python b站弹幕分析_【python】B站弹幕数据分析及可视化(爬虫+数据挖掘)
- css 实现一个尖角_纯CSS实现页面的尖角、小三角、不同方向尖角的方法小结
- python columns函数_pandas 对 column 使用函数
- 大话云时代rac_“音乐隐士”沈以诚:他在网易云音乐为什么这么火?
- ecshop小京东产品后台版权及logo修改
- android应用程序耗电,Android的十大耗电量应用程序,在软件中排名第一
- 如何实现一个简单的过滤器
- 为什么‘A‘的ASCII码是65,‘a‘是97呢?