原文：

http://www.cnblogs.com/ronny/p/4080442.html

1. 欧氏距离

欧氏距离是最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点x=(x 1 ,⋯,x n ) x=(x1,⋯,xn) 和y=(y 2 ,⋯,y n ) y=(y2,⋯,yn)之间的距离为：

d(x,y)=(x 1 –y 1 ) 2 +(x 2 −y 2 ) 2 +⋯+(x n −y n ) 2 − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − √ =∑ i=1 n (x i −y i ) 2 − − − − − − − − − − √ d(x,y)=(x1–y1)2+(x2−y2)2+⋯+(xn−yn)2=∑i=1n(xi−yi)2

1）二维平面上两点a(x 1 ,y 1 ) a(x1,y1)与b(x 2 ,y 2 ) b(x2,y2)间的欧氏距离：

d=(x 1 –x 2 ) 2 +(y 1 –y 2 ) 2 − − − − − − − − − − − − − − − − √ d=(x1–x2)2+(y1–y2)2

2）三维空间两点a(x 1 ,y 1 ,z 1 ) a(x1,y1,z1)与b(x 2 ,y 2 ,z 2 ) b(x2,y2,z2)间的欧氏距离：

d=(x 1 –x 2 ) 2 +(y 1 –y 2 ) 2 +(z 1 –z 2 ) 2 − − − − − − − − − − − − − − − − − − − − − − − − − √ d=(x1–x2)2+(y1–y2)2+(z1–z2)2

3）两个n n维向量a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)间的欧氏距离：

d=∑ k=1 n (x 1k –x 2k ) 2 − − − − − − − − − − − √ d=∑k=1n(x1k–x2k)2

也可以用表示成向量运算的形式：

d=(a−b)(a−b) T − − − − − − − − − − − − √ d=(a−b)(a−b)T

n n维平面上两点欧式距离，代码可以如下编写：

//unixfy：计算欧氏距离
double euclideanDistance(const vector<double>& v1, const vector<double>& v2)
{ assert(v1.size() == v2.size()); double ret = 0.0; for (vector<double>::size_type i = 0; i != v1.size(); ++i) { ret += (v1[i] - v2[i]) * (v1[i] - v2[i]); } return sqrt(ret);
}

2. 曼哈顿距离

我们可以定义曼哈顿距离的正式意义为L 1 L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

例如在平面上，坐标(x 1 ,y 1 ) (x1,y1)的点P 1 P1与坐标(x 2 ,y 2 ) (x2,y2)的点P 2 P2的曼哈顿距离为：

D(P 1 ,P 2 )=|x 1 −x 2 |+|y 1 –y 2 | D(P1,P2)=|x1−x2|+|y1–y2|

要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在座标轴上的平移或映射。

通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离(City Block distance)。

1）二维平面两点a(x 1 ,y 1 ) a(x1,y1)与b(x 2 ,y 2 ) b(x2,y2)间的曼哈顿距离

d(a,b)=|x 1 –x 2 |+|y 1 −y 2 | d(a,b)=|x1–x2|+|y1−y2|

2）两个n n维向量a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)间的曼哈顿距离

d(a,b)=∑ k=1 n |x 1k –x 2k | d(a,b)=∑k=1n|x1k–x2k|

3. 切比雪夫距离

若二个向量或二个点p,q p,q，其座标分别为(p 1 ,p 2 ,⋯,p i ,⋯) (p1,p2,⋯,pi,⋯)及(q 1 ,q 2 ,⋯,q i ,⋯) (q1,q2,⋯,qi,⋯)，则两者之间的切比雪夫距离定义如下：

D Chebyshev (p,q)=max i (|p i –q i |) DChebyshev(p,q)=maxi(|pi–qi|)

这也等于以下L p Lp度量的极值：lim k→∞ (∑ n i=1 |p i –q i | k ) 1/k limk→∞(∑i=1n|pi–qi|k)1/k，因此切比雪夫距离也称为L ∞ L∞度量。以数学的观点来看，切比雪夫距离是由一致范数（或称为上确界范数）所衍生的度量，也是超凸度量的一种。

1）在平面几何中，若二点p p及q q的直角坐标系坐标为(x 1 ,y 1 ) (x1,y1)及(x 2 ,y 2 ) (x2,y2)，则切比雪夫距离为：D Chess =max(|x 2 –x 1 |,|y 2 −y 1 |) DChess=max(|x2–x1|,|y2−y1|)。

玩过国际象棋的朋友或许知道，国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x 1 ,y 1 ) (x1,y1)走到格子(x 2 ,y 2 ) (x2,y2)最少需要多少步？。你会发现最少步数总是max(|x 2 –x 1 |,|y 2 −y 1 |) max(|x2–x1|,|y2−y1|)步。

2）二维平面上两点a(x 1 ,y 1 ) a(x1,y1)与b(x 2 ,y 2 ) b(x2,y2)间的切比雪夫距离

d(a,b)=max(|x 1 −x 2 |,|y 1 –y 2 |) d(a,b)=max(|x1−x2|,|y1–y2|)

3）两个n n维向量a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)间的切比雪夫距离

d(a,b)=max i (|x 1i –x 2i |) d(a,b)=maxi(|x1i–x2i|)

这个公式的另一种等价形式是

d(a,b)=lim k→∞ (∑ i=1 n |x 1i –x 2i | k ) 1/k d(a,b)=limk→∞(∑i=1n|x1i–x2i|k)1/k

4. 闵可夫斯基距离(Minkowski Distance)

闵氏距离不是一种距离，而是一组距离的定义。

两个n n维向量a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)间的闵可夫斯基距离定义为：

d(a,b)=∑ k=1 n |x 1k –x 2k | p − − − − − − − − − − − √ p d(a,b)=∑k=1n|x1k–x2k|pp

其中p p是一个变参数。

当p=1 p=1时，就是曼哈顿距离；

当p=2 p=2时，就是欧氏距离；

当p→∞ p→∞时，就是切比雪夫距离；

根据变参数的不同，闵氏距离可以表示一类的距离。

5. 标准化欧氏距离 (Standardized Euclidean distance )

标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。标准欧氏距离的思路：既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。

假设样本集X X的数学期望或均值为μ μ，标准差为σ σ，那么X X的“标准化变量”X ^ X^表示为：(X−μ)/σ (X−μ)/σ，而且标准化变量的数学期望为0，方差为1。

即，样本集的标准化过程(standardization)用公式描述就是：

X ^ =X−μσ X^=X−μσ

经过简单的推导就可以得到两个n n维向量a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)间的标准化欧氏距离的公式：

d(a,b)=∑ k=1 n (x 1k –x 2k σ k ) 2 − − − − − − − − − − − − −  ⎷   d(a,b)=∑k=1n(x1k–x2kσk)2

如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离(Weighted Euclidean distance)。

6. 马氏距离(Mahalanobis Distance)

有M M个样本向量X 1 ∼X M X1∼XM，协方差矩阵记为S S，均值记为向量μ μ，则其中样本向量X X到μ μ的马氏距离表示为：

D(X)=(X−μ) T S −1 (X−μ) − − − − − − − − − − − − − − − − − √ D(X)=(X−μ)TS−1(X−μ)

而其中向量X i Xi与X j Xj之间的马氏距离定义为：

D(X i ,X j )=(X i –X j ) T S −1 (X i –X j ) − − − − − − − − − − − − − − − − − − √ D(Xi,Xj)=(Xi–Xj)TS−1(Xi–Xj)

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

D(X i ,X j )=(X i –X j ) T (X i –X j ) − − − − − − − − − − − − − − − √ D(Xi,Xj)=(Xi–Xj)T(Xi–Xj)

也就是欧氏距离了。

若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。
马氏距离的优缺点：

1）马氏距离的计算是建立在总体样本的基础上的，这一点可以从上述协方差矩阵的解释中可以得出，也就是说，如果拿同样的两个样本，放入两个不同的总体中，最后计算得出的两个样本间的马氏距离通常是不相同的，除非这两个总体的协方差矩阵碰巧相同；

2）在计算马氏距离过程中，要求总体样本数大于样本的维数，否则得到的总体样本协方差矩阵逆矩阵不存在，这种情况下，用欧氏距离计算即可。

3）还有一种情况，满足了条件总体样本数大于样本的维数，但是协方差矩阵的逆矩阵仍然不存在，比如三个样本点（3，4），（5，6）和（7，8），这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下，也采用欧氏距离计算。

4）在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的，而所有样本点出现3）中所描述的情况是很少出现的，所以在绝大多数情况下，马氏距离是可以顺利计算的，但是马氏距离的计算是不稳定的，不稳定的来源是协方差矩阵，这也是马氏距离与欧氏距离的最大差异之处。

优点：它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点：它的缺点是夸大了变化微小的变量的作用。

7. 巴氏距离（Bhattacharyya Distance）

在统计中，Bhattacharyya距离测量两个离散或连续概率分布的相似性。它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A. Bhattacharya命名。同时，Bhattacharyya系数可以被用来确定两个样本被认为相对接近的，它是用来测量中的类分类的可分离性。

对于离散概率分布p p和q q在同一域X X，它被定义为：

D B (p,q)=–ln(BC(p,q)) DB(p,q)=–ln(BC(p,q))

其中：

BC(p,q)=∑ x∈X p(x)q(x) − − − − − − − √ BC(p,q)=∑x∈Xp(x)q(x)

是Bhattacharyya系数。

对于连续概率分布，Bhattacharyya系数被定义为：

BC(p,q)=∫p(x)q(x) − − − − − − − √ dx BC(p,q)=∫p(x)q(x)dx

Bhattacharyya系数是两个统计样本之间的重叠量的近似测量，可以被用于确定被考虑的两个样本的相对接近。

计算Bhattacharyya系数涉及集成的基本形式的两个样本的重叠的时间间隔的值的两个样本被分裂成一个选定的分区数，并且在每个分区中的每个样品的成员的数量，在下面的公式中使用

Bhattacharyya=∑ i=1 n (∑a i ⋅∑b i ) − − − − − − − − − − − − √ Bhattacharyya=∑i=1n(∑ai⋅∑bi)

考虑样品a a和b b ，n n是的分区数，∑a i ∑ai是指样品a a中落在分区i i内的个数，∑b i ∑bi有类似的定义。

8. 汉明距离(Hamming distance)，

两个等长字符串s 1 s1与s 2 s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。

例如字符串“1111”与“1001”之间的汉明距离为2。

应用：信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

9. 夹角余弦(Cosine)

几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。

(1)在二维空间中向量A(x 1 ,y 1 ) A(x1,y1)与向量B(x 2 ,y 2 ) B(x2,y2)的夹角余弦公式：

cosθ=x 1 x 2 +y 1 y 2 x 2 1 +y 2 1 − − − − − − √ x 2 2 +y 2 2 − − − − − − √ cosθ=x1x2+y1y2x12+y12x22+y22

(2) 两个n n维向量a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)的夹角余弦

cos(θ)=a⋅b|a||b| cos(θ)=a⋅b|a||b|

类似的，对于两个n维样本点a(x 11 ,x 12 ,⋯,x 1n ) a(x11,x12,⋯,x1n)与b(x 21 ,x 22 ,⋯,x 2n ) b(x21,x22,⋯,x2n)，可以使用类似于夹角余弦的概念来衡量它们间的相似程度，即：

cos(θ)=∑ n k=1 x 1k x 2k ∑ n k=1 x 2 1k − − − − − − − √ ∑ n k=1 x 2 2k − − − − − − − √ cos(θ)=∑k=1nx1kx2k∑k=1nx1k2∑k=1nx2k2

夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

10. 杰卡德相似系数(Jaccard similarity coefficient)

10.1 杰卡德相似系数

两个集合A A和B B的交集元素在A,B A,B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B) J(A,B)表示。

J(A,B)=|A∩B||A∪B| J(A,B)=|A∩B||A∪B|

杰卡德相似系数是衡量两个集合的相似度一种指标。

10.2 杰卡德距离

与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。

杰卡德距离可用如下公式表示：

杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

10.3 杰卡德相似系数与杰卡德距离的应用

可将杰卡德相似系数用在衡量样本的相似度上。

举例：样本A与样本B是两个n维向量，而且所有维度的取值都是0或1，例如：A(0111)和B(1011)。我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。

M11 ：样本A与B都是1的维度的个数

M01：样本A是0，样本B是1的维度的个数

M10：样本A是1，样本B是0 的维度的个数

M00：样本A与B都是0的维度的个数

依据上文给的杰卡德相似系数及杰卡德距离的相关定义，样本A与B的杰卡德相似系数J可以表示为：

这里M11+M01+M10可理解为A与B的并集的元素个数，而M11是A与B的交集的元素个数。而样本A与B的杰卡德距离表示为J'：

11.皮尔逊系数(Pearson Correlation Coefficient)

在具体阐述皮尔逊相关系数之前，有必要解释下什么是相关系数 ( Correlation coefficient )与相关距离(Correlation distance)。

相关系数 ( Correlation coefficient )的定义是：

(其中，E为数学期望或均值，D为方差，D开根号为标准差，E{ [X-E(X)] [Y-E(Y)]}称为随机变量X与Y的协方差，记为Cov(X,Y)，即Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]}，而两个变量之间的协方差和标准差的商则称为随机变量X与Y的相关系数，记为)

相关系数衡量随机变量X与Y相关程度的一种方法，相关系数的取值范围是[-1,1]。相关系数的绝对值越大，则表明X与Y相关度越高。当X与Y线性相关时，相关系数取值为1（正线性相关）或-1（负线性相关）。

具体的，如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：

当相关系数为0时，X和Y两变量无关系。
当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。
当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。

系统学习机器学习之距离的度量（一）--常见距离相关推荐

系统学习机器学习之总结（一）--常见分类算法优缺点
主要是参考网上各种资源,做了整理.其实,这里更多的是从基础版本对比,真正使用的时候,看数据,看改进后的算法. 1. 五大流派 ①符号主义:使用符号.规则和逻辑来表征知识和进行逻辑推理,最喜欢的算法是: ...
系统学习机器学习之神经网络（七） --CPN
原文:http://blog.csdn.net/u014070279/article/details/47299987 1987年,美国学者Robert Hecht-Nielsen提出了对偶传播神经网 ...
系统学习机器学习之增强学习（二）--马尔可夫决策过程
参考: http://blog.csdn.net/zz_1215/article/details/44138823 http://www.cnblogs.com/jerrylead/archive/2 ...
吴恩达登录知乎，亲自回答如何系统学习机器学习
如何系统地学习机器学习?知乎里有很多回答,近日,吴恩达老师亲自在知乎回答了这个问题: 作者:吴恩达链接:https://www.zhihu.com/question/266291909/answer ...
吴恩达入驻知乎首答：如何系统学习机器学习？
最近在知乎圆桌里看到吴恩达的回答,[如何系统学习机器学习?] 颇为惊喜,仿佛看到了知乎刚成立时的样子,请各个行业大佬来分享专业知识. 该回答目前已经有三千多赞,评论区也相当火爆,一片膜拜之声. 吴恩达 ...
吴恩达入驻知乎，涨粉秒过万！知乎首答：如何系统学习机器学习
文 | 卖萌酱大家好,我是卖萌酱. 昨天在知乎timeline上刷到一个问题: 虽然卖萌酱已经不需要系统学习机器学习了,但无意间发现最高赞的id竟然叫"吴恩达"?? 好家伙,看了 ...
系统学习机器学习之增强学习（五）--马尔可夫决策过程策略TD求解（SARSA）
转自:https://www.cnblogs.com/pinard/p/9529828.html 1.时间差分法(temporal difference) 蒙特卡洛方法,需要所有的采样序列都是经历完整 ...
我是吴恩达：人在美国，刚上知乎，先答个「如何系统学习机器学习」
杨净发自凹非寺量子位 | 公众号 QbitAI 知乎新用户吴恩达,第一件事儿竟是回答如何系统学习机器学习. 嗯,果然随时都自带老师属性. 结果短短不到12个小时,就已经收获了两千多个赞同,关注者 ...
系统学习机器学习之特征工程（一）--维度归约
这里,我们讨论特征选择和特征提取,前者选取重要的特征子集,后者由原始输入形成较少的新特征,理想情况下,无论是分类还是回归,我们不应该将特征选择或特征提取作为一个单独的进程,分类或者回归方法应该能够利用 ...

系统学习机器学习之距离的度量（一）--常见距离