二、距离向量

1)欧氏距离

欧式距离是最容易值观理解的距离度量方法。

2)曼哈顿距离

在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点之前的直线距离。这个实际的驾驶距离就是"曼哈顿距离"。曼哈顿距离也称“城市街区距离”。

3)切比雪夫距离

国际象棋中,国王可以直行、横行、斜行,所以国王走一步可以移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少需要走多少步?这个距离就叫做切比雪夫距离。

4)闵可夫斯基距离

闵氏距离不是一种距离,而是一组距离的定义,是对多个距离度量公式的概括性的表示。

两个n维变量a(x11,x12,…x1n)与b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:

其中p是一个变参数:

  • p=1的时候,就是曼哈顿距离;
  • p=2的时候,就是欧式距离;
  • p→∞的时候,就是切比雪夫距离。

就是根据参数p的不同,闵氏距离可以表示某一种类/种的距离。

但是:

闵氏距离、曼哈顿距离、欧式距离和切比雪夫距离都存在明显的缺点

  • 将各个分两的量纲,也就是“单位”相同看待了。
  • 未考虑各个分量的分布(期望、方差等)可能是不同的。

5)标准化欧氏距离

标准化欧式距离是针对欧式距离的缺点而做的一种改进

思路:既然数据各维分两的分布不一样,那就先将各个分量都”标准化“到均值、方差等。

Sk表示各个维度的标准差

如果将方差的倒数看成一个权重,也可以称之为加权欧式距离

6)余弦距离

几何中,夹角余弦可用来衡量两个向量方向的差异;机器学习中,借用这一概念来衡量样本向量之间的差异。

夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小,余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1,当两个向量的方向完全相反余弦取最小值-1。

结果越趋近于1越正相关,越趋近于-1则越负相关,越趋近于0说越无相关。

7)汉明距离

两个等长字符串s1与s2的汉明距离为:将其中一个变成为另一个所需要作的最小替换次数。

汉明重量:是字符串相对于同样长度的零字符串的汉明距离,也就是说,它是字符串中非零的元素个数:对于二进制字符串来说,就是 1 的个数,所以 11101 的汉明重量是 4。因此,如果向量空间中的元素a和b之间的汉明距离等于它们汉明重量的差a-b。

8)杰卡德距离

杰卡德相似系数:两个集合A和B的交集元素在A和B的并集所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示:

杰卡德距离:与杰卡德相似系数相反,用两个集合中的不同元素占所有元素的比例来衡量两个集合的区分度:

9)马氏距离

下图有两个正态分布图,它们的均值分别为a和b,但方差不一样,则图中的A点离哪个总体更近?或者说A有更大的概率属于谁?显然,A离左边的更近,A属于左边总体的概率更大,尽管A与a的欧式距离远一些。这就是马氏距离的直观解释。

马氏距离是一种基于样本分布的距离

马氏距离是由印度统计学家马哈拉诺比斯提出的,表示数据的协方差距离。它是一种有效的计算两个位置样本集的相似度的方法。

与欧式距离不同的是,它考虑到各种特性之间的联系,即独立于测量尺度。

**马氏距离定义:**设总体G为m维总体(考察m个指标),均值向量为μ=(μ1,μ2,… …,μm,)`,协方差阵为∑=(σij),

则样本X=(X1,X2,… …,Xm,)`与总体G的马氏距离定义为:

马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为∑的随机变量的差异程度:如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离;如果协方差矩阵为对角矩阵,则其也可称为正规化的欧式距离。

马氏距离特性:

1.量纲无关,排除变量之间的相关性的干扰;

2.马氏距离的计算是建立在总体样本的基础上的,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;

3 .计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。

4.还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆矩阵仍然不存在,比如三个样本点(3,4),(5,6),(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。

距离向量(欧式距离、曼哈顿距离等)相关推荐

  1. ML:图像数据、字符串数据等计算相似度常用的十种方法(余弦相似性、皮尔逊、闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离、马氏距离、汉明距离、编辑距离、杰卡德相似系数、相对熵/KL散度、Helli

    ML:图像数据.字符串数据等计算相似度常用的十种方法(余弦相似性.皮尔逊.闵可夫斯基距离/曼哈顿距离/欧氏距离/切比雪夫距离.马氏距离.汉明距离.编辑距离.杰卡德相似系数.相对熵/KL散度.Helli ...

  2. 曼哈顿距离,欧式距离,余弦距离

    1.曼哈顿距离 曼哈顿距离,叫出租车距离的.具见上图黄线,应该就能明白. 计算距离最简单的方法是曼哈顿距离.假设,先考虑二维情况,只有两个乐队 x 和 y,用户A的评价为(x1,y1),用户B的评价为 ...

  3. 曼哈顿距离,欧式距离,明式距离,切比雪夫距离区别

    根据我浅薄的知识,以及粗浅的语言,随意总结一下. 1.曼哈顿距离 曼哈顿距离又称Manhattan distance,还见到过更加形象的,叫出租车距离的.具体贴一张图,应该就能明白. 上图摘自维基百科 ...

  4. 曼哈顿距离,欧式距离,明式距离,切比雪夫距离以及马氏距离

    1.曼哈顿距离 曼哈顿距离又称Manhattan distance,还见到过更加形象的,叫出租车距离的.具体贴一张图,应该就能明白. 上图摘自维基百科,红蓝黄皆为曼哈顿距离,绿色为欧式距离. 2.欧式 ...

  5. 数据的距离度量 一、欧式距离,曼哈顿距离,闵氏距离,切比雪夫距离,兰氏距离,马氏距离

    数据的距离度量 一.欧式距离,曼哈顿距离,闵氏距离,切比雪夫距离,兰氏距离,马氏距离 前言 欧式距离 标准欧式距离 曼哈顿距离 闵氏距离 切比雪夫距离 兰氏距离 马氏距离 前言 本篇记录一下常用的数据 ...

  6. 详解曼哈顿距离欧式距离切比雪夫距离

    详解曼哈顿&欧式距离&切比雪夫距离 曼哈顿距离 基本概念:出租车几何或曼哈顿距离(Manhattan Distance)是由十九世纪的赫尔曼·闵可夫斯基所创词汇 ,是种使用在几何度量空 ...

  7. 为什么不可以使用哈曼顿距离_K-means真的不能使用曼哈顿距离吗?

    问题 说到k-means聚类算法,想必大家已经对它很熟悉了,它是基于距离计算的经典无监督算法,但是有一次在我接受面试时,面试官问了我一个问题:"k-means为什么不能使用曼哈顿距离计算,而 ...

  8. 欧几里得距离和曼哈顿距离

    在k-means或kNN,我们常用欧氏距离来计算最近的邻居之间的距离,有时也用曼哈顿距离,请对比下这两种距离的差别. 欧式距离 曼哈顿距离 可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离,也就 ...

  9. 欧几里得距离,曼哈顿距离,切比雪夫距离

    1.欧几里得距离(欧式距离) 它是在m维空间中两个点之间的真实距离.在二维和三维空间中的欧氏距离的就是两点之间的距离(简单来说就是两点之间直线最短的那段距离).相关联的范数称为欧几里得范数,也称 L2 ...

  10. 欧氏距离,曼哈顿距离,闵可夫斯基距离,马氏距离,汉明距离

    欧氏距离 欧氏距离( Euclidean distance)是一个通常采用的距离定义,它是在N维空间中两个点之间的真实距离. 曼哈顿距离 曼哈顿距离是种使用在几何度量空间的几何学用语,用以标明两个点在 ...

最新文章

  1. MySQL配置文件参数详解
  2. 【CF913F】Strongly Connected Tournament 概率神题
  3. 树莓派3B+功耗测试、初体验、图形化配置树莓派3B+配置方法。Raspberry Pi 3B+测评...
  4. thinkphp5.0 cache数据缓存机制
  5. Android 隐藏状态栏,沉浸式状态栏,状态栏背景色,状态栏字体色,透明状态工具类
  6. [zz]4.1.5 进程的处理器亲和性和vCPU的绑定
  7. vc2017 linux printf,C/C++中自定义信息输出——printf与宏的配合使用
  8. java中怎么获取配置文件的值_java如何获取配置文件的值
  9. 宝塔面板服务器ip地址修改_「网站」快速搭建服务器环境及网站
  10. 线性表——顺序表的应用
  11. Excel的导入与导出
  12. pyqt5 qscrollarea到达_PyQt5如何用QPainter在QScrollArea上画线?
  13. 用计算机编码原理解释,编码原理
  14. Windows10安装 virtualbox虚拟机
  15. 【p2p】【EdgeVPNio (evio)】简介: IP-over-P2P (IPOP)
  16. windows XP cmd命令大全
  17. Vmarker图片标注工具使用文档
  18. 中传博士雷霄骅,致敬雷神,永远感谢雷神
  19. 国内先进的光电转换器件设计和单光子检测成像技术 1DTof 3DTof 激光测距传感器
  20. ckplayer快速入门

热门文章

  1. django-bbs论坛总结
  2. 所有质量问题七步解决
  3. java nullable_java – 如何更有效地使用@Nullable和@Nonnull注释?
  4. python 字符串下标格式,python 实现字符串下标的输出功能
  5. Yolov5 Windows环境配置,显卡GTX 1650
  6. 影响我国金融市场发展的因素
  7. Hopedot vos 与影子系统、沙盘、云端的区别
  8. 第33届图灵奖得主:詹姆斯·尼古拉·格雷
  9. 内网渗透--frp代理设置与proxychains代理设置
  10. HTML+CSS+JavaScript实现的品优购项目源代码,包含首页、登录页面、注册页面、商品秒杀页、商品推文页、商品抢购页等