一.变量相似度度量--相关系数

首先,要注意相关系数和相似系数二者都用来度量相似度,分别度量变量间的相似度和样本(对象)间的相似度。

  • 相关系数是用来描述数据属性(特征)的,取值在[-1,1]之间,特征相关系数绝对值越大,特征越线性相关。一般说的相关系数指的是线性相关系数,并且注意两个变量相互独立,则相关(线性)系数等于0,但相关系数=0,两变量不一定相互独立,因为它们可能存在非线性关系。
  • 相似系数是用来描述数据对象(样本)的,样本的相似性通常用距离度量,即比较样本的邻近度,取值在[0,1]之间,距离越大相似性越小。

皮尔逊相关系数

大学课本概率轮与数理统计

定义:若(X,Y)是一个二维随机变量,则称E{[X-E(X)][Y-E(Y)]}为随机变量X与Y的协方差,记为Cov(X,Y)。即Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

性质:Cov(aX,bY)=abCov(X,Y),(a,b是常数)

相关系数

协方差可以在一定程度上反映X与Y相互间的联系,但它还受X与Y本身数值大小的影响,譬如说,令X与Y各自增大k倍,即X1=kX,Y1=kY,这时X1与Y1间的相互联系和X与Y间的相互联系应该还是一样的,可是反映这种联系的协方差却增大了k的平方倍,即

为了克服这一点,我们引入相关系数的定义:

定义:若(X,Y)是一个二维随机变量,则称为随机变量X与Y的相关系数(即皮尔逊相关系数),记为。即

由协方差的性质,我们可以看出,相关系数就是标准化随机变量的协方差。只差一个常数倍,即

定理

由书本上的知识得,协方差本身就可以反映各变量之间的相关性(是否线性相关),但易受不同取值范围变量的干扰,而皮尔逊相关系数本质上是对数据标准化处理后的协方差。

注意:标准化处理就是一种对样本数据在不同维度上进行一个伸缩变化(而不改变数据的几何距离),也就是不改变原始数据的信息(分布)。这样的好处就是在进行特征提取时,忽略掉不同特征之间的一个度量,而保留样本在各个维度上的信息(分布)。

补充:相关系数只是反映变量间是否存在线性关系,只能表明是否线性相关,而不能通过线性相关与否来证明是否独立,因为变量间还可能存在非线性关系。

皮尔逊相关系数相当于对变量做标准化(去中心化+缩放)后的然后计算协方差

余弦距离

变量xy的余弦距离等于变量xy之间的夹角的余弦。当xy非常接近时,其内积也会很大

注意:

  • 计算余弦相关度时,需要检查输入向量是否为0向量,否则会报错
  • 余弦相关度和夹角成反比,向量夹角越小,变量相关度越高

余弦距离相当于对变量缩放后的变量内积结果

修正余弦

修正余弦相当于 对变量去中心化+缩放处理后变量的内积结果

        比较变量之间的相关度前,首先要分析不同变量的量纲差异性以及数据分布差异性,若差异性较大,则需要对数据做标准化处理,此时这三种度量方法输出等价。

使用相关性时可能的风险

  • 伪相关性:例如统计研究发现,冰淇淋销量最高的时候,就是公共泳池的溺水事故发生得最多的时候。然而,这有可能是天气炎热造成冰淇淋销量和公共泳池的溺水事故增多。若视冰淇淋的销量遇为溺水事故的成因,可能就被伪相关性误导了。

    即两个变量可能会受第三者影响,从而在其间得出误导性的相关系数,当在统计上消除第三者的影响时,两个变量则可能表现不相关。例如:冬天的时候(消除夏天气候炎热这一影响),某品牌发布了一款特别好吃的冰激凌,销量大增,但此时去游泳池的人比夏天的的人数少,溺水事故也少,此时冰激凌和公共泳池的溺水事故就可能表现不相关

  • 相关性的使用范围/对象受限:例如:两个变量在整体上表现是不线性相关的(类别不平衡),但对于部分样本/群体(同一类别)是相关的,即特征仅仅某些群体来说是有用指标。

二、样本相似性度量--相似系数

欧氏距离-衡量相似度

距离越小,越相似。距离为0时样本相似度为1。

欧斯距离对变量的取值范围很敏感,如果不同变量(维度、特征)的取值范围差别很大时,那么结果很容易被某个变量决定。

解决办法:对数据各变量(特征)作标准化处理,或者加权处理。

相似度系数常用来构建相似度矩阵。

使用核函数衡量相似度

核函数可以衡量两个向量的相似度,常用核函数有高斯核、拉普拉斯核、多项式核、sigmoid核

  1. 用高斯核衡量相似度其实和距离衡量相似度原理一样,只不过做了一下变形

  2. 同理还有拉普拉斯核衡量相似度的形式如下

  3. 多项式核衡量相似度的形式如下,和余弦相似度类似,当xy非常接近,其内积也会很大(注意:这个性质前提是向量x和y已单位化处理。单位化后的向量,比较是否相似其实就是比较方向(向量夹角),两向量夹角为0即重合时,显然最相似)

  4. sigmoid核衡量相似度的形式如下

使用相关系数衡量样本的相似度

已知相关系数的取值范围为[-1,1],相似系数的取值范围为[0,1],若我们想使用相关系数衡量样本的相似度如皮尔逊、余弦相关系数时,只需对皮尔逊相关系数或余弦相关系数作归一化处理,使其取值范围为0到1之间,如下所示:

相似性度量方法:相关系数和相似系数相关推荐

  1. 轨迹相似性度量方法总结

    轨迹相似性度量方法总结 基于点的度量 基于形状的度量 基于分段 基于特定任务 基于点的度量 1.欧氏距离 优点:线性计算时间 缺点:轨迹长度要相同 2.DTW 是对时间序列距离测量的改进 优点:考虑到 ...

  2. D-A-K方法求天然气偏差系数 以及等温压缩系数、天然气体积系数、天然气黏度的计算。牛顿迭代法。

    D-A-K方法求天然气偏差系数 以及等温压缩系数.天然气体积系数.天然气黏度.牛顿迭代法. 这是第一次发文章,由于对该方法原理了解不是很透彻,没有考虑很多条件,仅给大家提供一些思路. #include ...

  3. 距离和相似性度量方法

    目录 1. 闵可夫斯基距离:欧几里得距离.曼哈顿距离.切比雪夫距离 2. 马氏距离 3. 向量内积:余弦相似度.皮尔逊相关系数 4. 分类数据点间的距离:汉明距离.杰卡德相似系数 5. 序列之间的距离 ...

  4. 漫谈:机器学习中距离和相似性度量方法

    在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means) ...

  5. 机器学习中距离和相似性度量方法

    在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means) ...

  6. 相似性度量方法(欧式距离等各种距离)

    转自:https://blog.csdn.net/hgzlhgzlhgzl/article/details/68925980 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMea ...

  7. 相似性度量(距离及相似系数)

    在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量.其中,距离度量的性质:非负性,自反性,对称性和三角不等式. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1 ...

  8. 筛数方法相关系数_相关系数怎么计算

    展开全部 若Y=a+bX,则有: 令E(X) = μ,D(X) = σ 则E(Y) = bμ + a,D(Y) = bσ E(XY) = E(aX + bX) = aμ + b(σ + μ) Cov( ...

  9. 相关系数R-判定系数R方的matlab实现

    相关系数-判定系数 相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示.由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数. ...

最新文章

  1. 面了一个大佬,一看就背了很多面试题
  2. C/C++之数据类型
  3. 基于深度学习的目标检测算法综述(一)
  4. 图论--拓扑排序--模板
  5. python判断语句的复杂度_Python内置方法的时间复杂度(转)
  6. mysql 快速插入(insert)多条记录
  7. Android ListView 疯狂之旅 之 《自定义下拉刷新功能的ListView》
  8. 做网站用UTF-8编码还是GB2312编码?
  9. Ps 初学者教程,如何用文字增强您的照片?
  10. 360浏览器导出Excel闪退BUG
  11. linux下挂载F2FS文件系统
  12. windows批量ping测试脚本
  13. python b站弹幕分析_【python】B站弹幕数据分析及可视化(爬虫+数据挖掘)
  14. css 实现一个尖角_纯CSS实现页面的尖角、小三角、不同方向尖角的方法小结
  15. python columns函数_pandas 对 column 使用函数
  16. 大话云时代rac_“音乐隐士”沈以诚:他在网易云音乐为什么这么火?
  17. ecshop小京东产品后台版权及logo修改
  18. android应用程序耗电,Android的十大耗电量应用程序,在软件中排名第一
  19. 如何实现一个简单的过滤器
  20. 为什么‘A‘的ASCII码是65,‘a‘是97呢?

热门文章

  1. js vue中setTimeout无法通过clearTimeout清除问题
  2. 从程序员创业谈起--对话周鸿祎
  3. 帕尔默企鹅数据集探索性分析
  4. html缩放背景不缩放_如何将缩放背景更改为有趣的照片或视频
  5. Vue3下PostCSS Loader has been initialized using an options that does not match the API schema的问题解决
  6. 2006-06-12无所事事的一天
  7. 手忙脚乱的年货节从此拜拜,RPA让电商人年终奖一分不丢
  8. 从绿叶中窜出来的一朵朵红花
  9. 【开发】中间件——ElasticSearch
  10. VRRP协议简介与配置