先从方差开始,我们有一组样本x1、x2、x3····xn,这组样本的均值为EX,每一个样本都与EX之间存在误差,那么这组样本的方差被定义为:所有误差的和的均值,也即[Σ(xi-EX)^2]/(n-1),

方差的作用就是用来“衡量样本偏离均值的程度”。

下面开始看协方差:

仔细观察上述定义式,可知:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。

下面再从直观上理解一下上面这段话,假设我们拿到了一组(X, Y)的样本如下图(a)所示。然后让这组样本中的X、Y各自减掉自己的期望,得到新的一组样本,显然这组新样本的均值就变成了(0,0),这组新样本会分布在原点周围,如下图(b)所示。如果我们再把图b中的样本的每一个点的X乘以Y得到积,把积画在图(c)中,那么图b的二维样本就会退化为一系列一维的点,而且,下图b的一三象限的点的积会分布到下图c的正半轴,二四象限的点会分布到负半轴,,根据上面的定义式,图c中样本的均值,就是图1中XY的协方差,从直观上看它的均值接近于0,物理意义就是,X和Y是几乎完全不相关。

  图a              图b          图c

注意:上面的协方差定义中,EX和EY是数学期望,是个精确的理论值,而不是样本均值(样本数目无穷多时,样本均值会无穷接近于数学期望,这是大数定律之一,证明过程大学都学过的,可惜忘干净了),但是X、Y在没有理论概率分布表达式的情景中,我们只能用n个样本的和除以n来代替数学期望。

下面我们再来看一个X和Y正相关的例子,也即在某次我们同时对xy采样时,当x的采样值>x的均值时,y的样本也一般是>y的均值。

图a图b图c

XY的采样值如上图a所示,各自减掉自己的均值后,得到的新样本如图b所示,图b中的样本中的每个点把x*y,得到一维样本如图c所示,显然,由图b转换为图c的时候,只有图b中第二象限的两个点落到了图c的负半轴,图b的其余点都落到了图c的正半轴,图c中样本的均值显然是个正值,这个正值就是图a的样本的协方差。

图c的均值很大,也就是说图a的样本的协方差很大,那么分析一下图c的均值大的原因,那是因为图b中的点x*y的积大,为什么积这么大,因为图a的X、Y的样本偏离各自的均值EX、EY太大了。换句话说,如何才能使得图c中的样本均值变小呢,也即如何才能使图a的样本的协方差变小呢?显然有两个办法:(1)让图c中的每一个点的数值变小,也即让图b中的点都靠近原点,也即让图a的点都靠近X、Y各自的均值;(2)增加图c中负半轴的点的数量,也即增加图b中二四象限中的点的数量,也即让图a的点在反对角线上也出现一些。这两种方法也就指出了,协方差小的原因:一是X、Y各自的方差要小,二是X、Y相关性要若。

根据以上两组图形,以及分析,我们得知:

两个因素会影响协方差的值:

1、两个变量各自的方差不变的情况下,两个变量的正相关性越强烈,协方差越大,负相关性越强烈,协方差越小;

2、两个变量的相关性不变的情况下,x或y变量的方差越大,协方差的绝对值越大。(“或”的意思是,x的方差大,或者y的大,或者它俩的都大);

因素1对协方差的影响是“绝对”大小(带符号),因素2影响的是“绝对值”的大小

反过来的推论: 如果协方差的值是个很大的正数,我们可以得到两个结论:

(1) 两者有很大概率是正相关的;

(2) 这个值很大到底是因为①:正相关很强烈造成的呢?还是②:x或y的方差很大造成的呢,这个①和②我们是区分不出来的

注意上面的(1)我们说很大概率正相关,而不是说一定正相关,这么大的正值,难道还不是强烈正相关吗?!!原因是什么?就在于②,因为采样并不能完全代表真实情况,假设两者是微弱正相关,或者不相关,或者微弱负相关,这3种情况采样的结果计算出的协方差都有可能是正值,这时即使X、Y不是强烈正相关,只要x或y的方差大,仍然会造成协方差变成大的正数。
那么如何衡量正负相关性呢,显然要把x或y的方差,从对协方差的影响中剔除掉,这样协方差剩余的部分就能看出相关性的强烈程度了。剔除的方法也很简单,协方差除以xy的标准差就行了。得出的结果就被成为相关系数

为什么剔除信息的方法是除以标准差呢?其实从协方差的定义式就能看出端倪,E[(X-EX)(Y-EY)],显然协方差的绝对值变大的根本原因就是每一个(X-EX)(Y-EY)变大

上面讲的是两个变量之间的协方差,如果有n个变量X1、X2、···Xn,两两之间的协方差,就可以组成协方差矩阵,我们定义:

那么上述n个变量的协方差矩阵就是:

,其中,

如果有:

那么Y的协方差矩阵为:

其中,

再利用,可以容易证明,这个式子就是卡尔曼滤波的第二个公式。

深入理解协方差(图文详解)相关推荐

  1. SSL之CA证书颁发机构安装图文详解

    上一节我们说到,在验证公钥安全性时,是在CA机构颁发的包含用户的公钥及其身份信息的数字证书,数字证书由权威机构--CA签发.这个CA权威机构可以是自己的服务器也可以是国际公认的CA权威机构.下面我就来 ...

  2. Android中Canvas绘图之Shader使用图文详解

    概述 我们在用Android中的Canvas绘制各种图形时,可以通过Paint.setShader(shader)方法为画笔Paint设置shader,这样就可以绘制出多彩的图形.那么Shader是什 ...

  3. html js不触发_图文详解鼠标事件CSS:hover和JS:mouseover的区别

    在工作中为了使页面更具有吸引力,前端开发人员经常会在页面中加上鼠标移入和移出的效果.鼠标移入移出的设置,一般有两种方法,一种是单纯用CSS中的hover伪类,另一种可以用JS 中的DOM事件,即onm ...

  4. git 几种还原版本_Git恢复之前版本的两种方法reset、revert(图文详解)

    一.问题描述 在利用github实现多人合作程序开发的过程中,我们有时会出现错误提交的情况,此时我们希望能撤销提交操作,让程序回到提交前的样子,本文总结了两种解决方法:回退(reset).反做(rev ...

  5. Dijkstra算法图文详解和C++代码

    文章目录 1 Dijkstra算法基本原理 2 算法过程图解1(有向图) 3 算法过程图解2(无向图) 4 C++代码 4.1 案例1代码 4.2 案例2邻接矩阵定义 4.3 案例2代码Dijkstr ...

  6. java docker 持续集成_最佳实战Docker持续集成图文详解

    前言 关于Docker的文章铺天盖地,但精品文章往往翻译居多.都说Docker天生适合持续集成/持续部署,但同样,可落地.实际可操作性的文章也很罕见. 基于这些情况,虽然我们专栏定位为运维管理性文字, ...

  7. 图文详解Unity3D中Material的Tiling和Offset是怎么回事

    图文详解Unity3D中Material的Tiling和Offset是怎么回事 Tiling和Offset概述 Tiling表示UV坐标的缩放倍数,Offset表示UV坐标的起始位置. 这样说当然是隔 ...

  8. 少年派的计算机游戏怎么弄,少年派的无聊之旅攻略大全图文详解

    少年派的无聊之旅攻略大全图文详解游戏狗小编小易为同学们整理好了,这款游戏的整体难度很简单,主要还是为了让同学们无聊的时候休闲用的,小编在这里为大家整理了这篇攻略,希望可以帮到有需要的同学.下面就让小编 ...

  9. 深度学习——感知机:多层感知机(multi-layered perceptron)图文详解

    多层感知机 一,多层感知机 1.1 现在已有的门电路组合 1.2 异或门的实现 二,从与非门到计算机 三,总结 一,多层感知机   在上一篇深度学习--感知机(perceptron)图文详解中我们已经 ...

  10. 【图文详解】一文全面彻底搞懂HBase、LevelDB、RocksDB等NoSQL背后的存储原理:LSM-tree日志结构合并树...

    LSM 树广泛用于数据存储,例如 RocksDB.Apache AsterixDB.Bigtable.HBase.LevelDB.Apache Accumulo.SQLite4.Tarantool.W ...

最新文章

  1. Linux pip安装包。解决:You should consider upgrading via the 'pip install --upgrade pip' command.
  2. Clipper: 开源的基于图论框架的鲁棒点云数据关联方法(ICRA2021)
  3. java告警系统设计_告警系统的设计
  4. ssh登陆慢/xhell访问主机慢
  5. Array.of()方法
  6. 图像语义分割(9)-DeepLabV3: 再次思考用于图像语义分割的空洞卷积
  7. Ubuntu下安装qt57creator-plugin-ros,在QT中进行ROS开发(亲测有效)
  8. 用户行为分析最重要的3个点 渠道转化留存
  9. DELPHI2007 安装ACTIVEX插件的方法
  10. 突破Dr.com校园网客户端对于热点和路由器的限制
  11. kali无线wifi密码破解
  12. java pojo类
  13. 信息搜集方法小结(持续更新)
  14. 硬盘分区无法打开,提示“文件或目录损坏且无法读取”
  15. ***技巧总结(zz)
  16. spark-streaming 编程(一)构建开发环境
  17. excel表格末尾添加一行_Excel表格制作在添加数据之后可以自动更新的汇总表
  18. Postman使用技巧之三:用Postman生成Request代码
  19. 为什么叫析取?为什么叫合取?
  20. 串流直播流媒体视频发布平台功能模块和产品技术参数

热门文章

  1. 汇编 ADD与DAA指令
  2. 自已动手搭建软件路由器
  3. STM32 SPI总线深入理解
  4. JAVA8十大新特性详解(精编)
  5. Cannot insert into target table because column number/types are differen
  6. ping命令代码查看主机连通状态
  7. 《一切从大学开始》书评:结束之后的开始
  8. 软工作业3:用户体验分析——以“南通大学教务管理系统微信公众号”为例
  9. [SakuraiYo][软工作业(3)]用户体验分析:以“南通大学教务管理系统微信公众号”为例...
  10. 湖北武汉劳务员报考规范建筑劳务外包的措施建筑七大员报考