机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种“度量”来得到不同样本数据的差异度或者不同样本数据的相似度。良好的“度量”可以显著提高算法的分类或预测的准确率,本文中将介绍机器学习中各种“度量”,“度量”主要由两种,分别为距离、相似度和相关系数,距离的研究主体一般是线性空间中点;而相似度研究主体是线性空间中向量;相关系数研究主体主要是分布数据。本文主要介绍相关系数。

1 皮尔逊相关系数——常用的相关系数

机在统计学中,皮尔逊相关系数(earson correlation coefficient)用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间。在自然科学领域中,该系数广泛用于度量两个变量之间的线性相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。
对于总体(由许多有某种共同性质的事物组成的集合),给定随机变量(X, y),总体皮尔逊相关系数的定义为

\[{\rho _{X,Y}}{\rm{ = }}\frac{{{\mathop{\rm cov}} \left( {X,Y} \right)}}{{{\sigma _X}{\sigma _Y}}}{\rm{ = }}\frac{{E\left( {\left( {X - {\mu _X}} \right)\left( {Y - {\mu _Y}} \right)} \right)}}{{{\sigma _X}{\sigma _Y}}}\]

机其中cov(X,Y)是随机变量X和随机变量Y之间的协方差
      机σx是随机变量X的方差
      机σy是随机变量Y的方差
      机μx是随机变量X的均值
      机μy是随机变量Y的均值

机对于同样本来说,给定样本对{(x1, y1), (x2,y2), …, (xn, yn)} ,样本皮尔逊相关系数的定义为

\[{r_{x,y}}{\rm{ = }}\frac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \bar x} \right)\left( {{y_i} - \bar y} \right)} }}{{\sqrt {\sum\limits_{i = 1}^n {{{\left( {{x_i} - \bar x} \right)}^2}} } \sqrt {\sum\limits_{i = 1}^n {{{\left( {{y_i} - \bar y} \right)}^2}} } }} = \frac{{n\sum\limits_{i = 1}^n {{x_i}{y_i}} - \sum\limits_{i = 1}^n {{x_i}} \sum\limits_{i = 1}^n {{y_i}} }}{{\sqrt {n\sum\limits_{i = 1}^n {x_i^2} - {{\left( {\sum\limits_{i = 1}^n {{x_i}} } \right)}^2}} \sqrt {n\sum\limits_{i = 1}^n {y_i^2} - {{\left( {\sum\limits_{i = 1}^n {{y_i}} } \right)}^2}} }}\]

机其中n是样本数量
      机Xi, yi是第i个独立的样本数据
      机x是所有xi的均值
      机y是所有yi的均值


图1 具有不同相关系数值(ρ)的散点图示例
图2 几组点集的相关系数

2 Phi相关系数——二元变量的相关性

机在统计学里,“Phi相关系数”(Phi coefficient)(符号表示为φ)是测量两个二元变数之间相关性的工具,由卡尔·皮尔森所发明 [1]。他也发明了与Phi相关系数有密切关联的皮尔森卡方检定(Pearson's chi-squared test。一般所称的卡方检验),以及发明了测量两个连续变数之间相关程度的皮尔森相关系数。Phi相关系数在机器学习的领域又称为Matthews相关系数。

机首先将两个变数排成2×2列联表,注意 1 和 0 的位置必须如同下表,若只变动 X 或只变动 Y 的 0/1 位置,计算出来的Phi相关系数会正负号相反。Phi相关系数的基本概念是:两个二元变数的观察值若大多落在2×2列联表的“主对角线”字段,亦即若观察值大多为(X,Y) =(1,1), (0,0)这两种组合,则这两个变数呈正相关。反之,若两个二元变数的观察值大多落在“非对角线”字段,对应于2×2列联表,亦即若观察值大多为(X,Y) =(0,1), (1,0)这两种组

Y=1 Y=0 总计
X=1 n11 n10 a1
X=2 n01 n00 a2
总计 b1 b2 n

机其中 n11, n10, n01, n00都是非负数的字段计次值,它们加总为n ,亦即观察值的个数。由上面的表格可以得出 X 和 Y 的 Phi相关系数如下:

机一个简单的实例:研究者欲观察性别与惯用手的相关性。虚无假设是:性别与惯用手无相关性。观察对象是随机抽样出来的个人,身上有两个二元变数(性别 X ,惯用手 Y),X 有两种结果值(男=1/女=0),Y也有两种结果值(右撇子=1/左撇子=0)。观察两个二元变数的相关性可以使用Phi相关系数。假设简单随机抽样100人,得出如下的2×2列联表:

男=1 女=0 总计
右=1 43 44 87
左=2 7 6 13
总计 50 50 100

机假设−0.0297相关系数检定为显著,在本例对变数 1/0 的指定下,代表身为男性与身为右撇子有轻微的负相关,也就是男性右撇子的比例略低于女性右撇子的比例;或者反过来说,男性左撇子的比例略高于女性左撇子的比例。

转载于:https://www.cnblogs.com/Kalafinaian/p/10994010.html

机器学习中的度量——相关系数相关推荐

  1. 机器学习中的度量—— 向量距离

    机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量" ...

  2. 机器学习中的度量——字符串距离

    机器学习是时下流行AI技术中一个很重要的方向,无论是有监督学习还是无监督学习都使用各种"度量"来得到不同样本数据的差异度或者不同样本数据的相似度.良好的"度量" ...

  3. 机器学习中的度量指标:ROC曲线,AUC值,K-S曲线

    机器学习中的度量指标:ROC曲线,AUC值,K-S曲线 首先,回顾一下二分类问题的一些定义: 预测 1 0 实 1 TP FN ​际 0 FP TN 上表中,四个项分别为:TP真阳性:FN假阴性:FP ...

  4. 机器学习中的度量——协方差、相关系数(Pearson 相关系数)

    一.相关系数第一次理解 概念:Pearson相关系数 (Pearson CorrelationCoefficient)是用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系.[1] 注 ...

  5. 机器学习中常见性能度量汇总

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 一.回归 在回归任务上,目前最常用的性能度量方式是均方误差 (Mean S ...

  6. 【机器学习】距离度量中常见的距离计算公式

    机器学习:距离度量 欧式距离(Euclidean Distance) 曼哈顿距离(Manhattan Distance) 切比雪夫距离 (Chebyshev Distance) 闵可夫斯基距离(Min ...

  7. 机器学习中的相似性度量 (转)

    在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...

  8. 机器学习中的相似性度量总结

    来自 机器学习算法那些事公众号 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Dist ...

  9. 机器学习中的相似性度量(转载)

    在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...

最新文章

  1. input的onkeyup效果 超级简短代码
  2. java8中-_java8中的Stream
  3. 全球及中国综艺节目产业营销策略分析及创新格局规划建议报告2021-2027年
  4. collapse mode 严重_从泛化性到Mode Collapse:关于GAN的一些思考
  5. 复旦计算机测试,复旦大学计算机用能力水平测试(Fudan Computer Skills.doc
  6. 本地配置DNS服务器(MAC版)
  7. 这款插件让你在VSCode上也能答题背单词
  8. Redis在windows下的配置
  9. java基础回顾之第一章节思维导图
  10. VS C++ 字符大写变换 字符小写变换 tolower toupper
  11. PaaS适用于哪些场景?让案例说话
  12. Git(7):git撤销已经push到远端的commit
  13. jmail mysql_Jmail组件使用方法及注意事项 | 域名频道
  14. lte tm模式_LTE的几种模式介绍
  15. 简单使用PHP 的 Silm框架.
  16. 浅谈Android指纹识别技术
  17. Nodejs 微信加密消息开发
  18. 【金融项目】尚融宝项目(十六)
  19. Linux 内核 | 网络流量限速方案大 PK
  20. 在ISE下分析约束时序

热门文章

  1. python实现通讯录功能课程设计报告_Python实现通讯录功能
  2. ArchLinux搭建tftpd服务器
  3. Linux下 Jenkins启动
  4. R语言如何绘制变异系数曲线
  5. java 数字信封_使用加密狗的国密算法实现B/S架构数字信封
  6. 网易编程题 游历魔法王国 (Python)
  7. 一元线性回归VS多元线性回归
  8. 合并多个数组(java版)
  9. 玩转「Wi-Fi」系列之Connman剖析(六)
  10. Windows/支持工具箱/资源工具箱/调试工具箱