一.变量相似度度量--相关系数

首先，要注意相关系数和相似系数二者都用来度量相似度，分别度量变量间的相似度和样本(对象)间的相似度。

相关系数是用来描述数据属性(特征)的，取值在[-1,1]之间，特征相关系数绝对值越大，特征越线性相关。一般说的相关系数指的是线性相关系数，并且注意两个变量相互独立，则相关(线性)系数等于0，但相关系数=0，两变量不一定相互独立，因为它们可能存在非线性关系。
相似系数是用来描述数据对象(样本)的，样本的相似性通常用距离度量，即比较样本的邻近度，取值在[0,1]之间，距离越大相似性越小。

皮尔逊相关系数

大学课本概率轮与数理统计

定义：若(X,Y)是一个二维随机变量，则称E{[X-E(X)][Y-E(Y)]}为随机变量X与Y的协方差，记为Cov(X,Y)。即Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

性质：Cov(aX,bY)=abCov(X,Y),（a,b是常数）

相关系数

协方差可以在一定程度上反映X与Y相互间的联系，但它还受X与Y本身数值大小的影响，譬如说，令X与Y各自增大k倍，即X1=kX,Y1=kY，这时X1与Y1间的相互联系和X与Y间的相互联系应该还是一样的，可是反映这种联系的协方差却增大了k的平方倍，即

为了克服这一点，我们引入相关系数的定义：

定义：若(X,Y)是一个二维随机变量，则称为随机变量X与Y的相关系数(即皮尔逊相关系数)，记为。即

由协方差的性质，我们可以看出，相关系数就是标准化随机变量的协方差。只差一个常数倍，即

令

定理

由书本上的知识得，协方差本身就可以反映各变量之间的相关性(是否线性相关)，但易受不同取值范围变量的干扰，而皮尔逊相关系数本质上是对数据标准化处理后的协方差。

注意：标准化处理就是一种对样本数据在不同维度上进行一个伸缩变化（而不改变数据的几何距离），也就是不改变原始数据的信息（分布）。这样的好处就是在进行特征提取时，忽略掉不同特征之间的一个度量，而保留样本在各个维度上的信息（分布）。

补充：相关系数只是反映变量间是否存在线性关系，只能表明是否线性相关，而不能通过线性相关与否来证明是否独立，因为变量间还可能存在非线性关系。

皮尔逊相关系数相当于对变量做标准化(去中心化+缩放)后的然后计算协方差

余弦距离

变量x与y的余弦距离等于变量x与y之间的夹角的余弦。当x和y非常接近时，其内积也会很大

注意：

计算余弦相关度时，需要检查输入向量是否为0向量，否则会报错
余弦相关度和夹角成反比，向量夹角越小，变量相关度越高

余弦距离相当于对变量缩放后的变量内积结果

修正余弦

修正余弦相当于对变量去中心化+缩放处理后变量的内积结果

比较变量之间的相关度前，首先要分析不同变量的量纲差异性以及数据分布差异性，若差异性较大，则需要对数据做标准化处理，此时这三种度量方法输出等价。

使用相关性时可能的风险

伪相关性：例如统计研究发现，冰淇淋销量最高的时候，就是公共泳池的溺水事故发生得最多的时候。然而，这有可能是天气炎热造成冰淇淋销量和公共泳池的溺水事故增多。若视冰淇淋的销量遇为溺水事故的成因，可能就被伪相关性误导了。

即两个变量可能会受第三者影响，从而在其间得出误导性的相关系数，当在统计上消除第三者的影响时，两个变量则可能表现不相关。例如：冬天的时候(消除夏天气候炎热这一影响)，某品牌发布了一款特别好吃的冰激凌，销量大增，但此时去游泳池的人比夏天的的人数少，溺水事故也少，此时冰激凌和公共泳池的溺水事故就可能表现不相关
相关性的使用范围/对象受限：例如：两个变量在整体上表现是不线性相关的(类别不平衡)，但对于部分样本/群体(同一类别)是相关的，即特征仅仅某些群体来说是有用指标。

二、样本相似性度量--相似系数

欧氏距离-衡量相似度

距离越小，越相似。距离为0时样本相似度为1。

欧斯距离对变量的取值范围很敏感，如果不同变量(维度、特征)的取值范围差别很大时，那么结果很容易被某个变量决定。

解决办法：对数据各变量(特征)作标准化处理，或者加权处理。

相似度系数常用来构建相似度矩阵。

使用核函数衡量相似度

核函数可以衡量两个向量的相似度，常用核函数有高斯核、拉普拉斯核、多项式核、sigmoid核

用高斯核衡量相似度其实和距离衡量相似度原理一样，只不过做了一下变形
同理还有拉普拉斯核衡量相似度的形式如下
多项式核衡量相似度的形式如下，和余弦相似度类似，当x和y非常接近，其内积也会很大(注意：这个性质前提是向量x和y已单位化处理。单位化后的向量，比较是否相似其实就是比较方向（向量夹角），两向量夹角为0即重合时，显然最相似)
sigmoid核衡量相似度的形式如下

使用相关系数衡量样本的相似度

已知相关系数的取值范围为[-1,1]，相似系数的取值范围为[0,1]，若我们想使用相关系数衡量样本的相似度如皮尔逊、余弦相关系数时，只需对皮尔逊相关系数或余弦相关系数作归一化处理，使其取值范围为0到1之间，如下所示：

相似性度量方法：相关系数和相似系数相关推荐

轨迹相似性度量方法总结
轨迹相似性度量方法总结基于点的度量基于形状的度量基于分段基于特定任务基于点的度量 1.欧氏距离优点:线性计算时间缺点:轨迹长度要相同 2.DTW 是对时间序列距离测量的改进优点:考虑到 ...
D-A-K方法求天然气偏差系数以及等温压缩系数、天然气体积系数、天然气黏度的计算。牛顿迭代法。
D-A-K方法求天然气偏差系数以及等温压缩系数.天然气体积系数.天然气黏度.牛顿迭代法. 这是第一次发文章,由于对该方法原理了解不是很透彻,没有考虑很多条件,仅给大家提供一些思路. #include ...
距离和相似性度量方法
目录 1. 闵可夫斯基距离:欧几里得距离.曼哈顿距离.切比雪夫距离 2. 马氏距离 3. 向量内积:余弦相似度.皮尔逊相关系数 4. 分类数据点间的距离:汉明距离.杰卡德相似系数 5. 序列之间的距离 ...
漫谈：机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means) ...
机器学习中距离和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别.最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means) ...
相似性度量方法（欧式距离等各种距离）
转自:https://blog.csdn.net/hgzlhgzlhgzl/article/details/68925980 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMea ...
相似性度量（距离及相似系数）
在分类聚类算法中,时常需要计算两个变量(通常是向量的形式)的距离,即相似性度量.其中,距离度量的性质:非负性,自反性,对称性和三角不等式. 本文的目的就是对常用的相似性度量作一个总结. 本文目录: 1 ...
筛数方法相关系数_相关系数怎么计算
展开全部若Y=a+bX,则有: 令E(X) = μ,D(X) = σ 则E(Y) = bμ + a,D(Y) = bσ E(XY) = E(aX + bX) = aμ + b(σ + μ) Cov( ...
相关系数R-判定系数R方的matlab实现
相关系数-判定系数相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示.由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数. ...

相似性度量方法：相关系数和相似系数