信息论(Information theory)的一些points

①—熵(entropy)

          对于一个变量X~p(X服从p分布),该变量的熵是 描述该变量的不确定性的一个值
          eg:对于一个有k个状态的离散随机变量X,有
          
          a.当log以2为底的时候称之为 bits,结果可以视为多少个二进制位可以表示该变量
          b.当log以e为底的时侯称之为 nats

②—KL divergence (KL距离)

          这个值是用来衡量两个分布之间相异度的,具体来说,假设有k个状态的两个离散分布p,q,则
                         
               a.如果是连续的随机变量,把∑用积分 符号替换就好了
          对上式进行转化:
            
          其中H(p,q)称为交叉熵 (cross entropy)
               
          交叉熵可以看作是当我们用模型 q来编码来自模型p的变量时所需的平均bits(如果log以2为底的话)
          所以,有有H(p)=H(p,p),所以KL距离就可以看做是: 用模型q来编码来自模型p的变量所需的额外bits!
          因为是“额外的”,所以 KL的距离的值一定大于0,KL=0当且仅当p=q。

③—互信息(Mutual Information)

          我们知道如果p(x,y)=p(x)p(y),则X和Y互相独立
          而衡量两个随机变量的相关性有 相关系数 ,而 互信息就是用来衡量 p(x,y)与p(x)p(y)之间的关系的:
          
          其实就是借用了上面的KL距离,可以知道 
          
          另一个有用的定义是 pointwise mutual information(PMI),是对于每个点的定义
          
          可以 得知 MI值其实就是PMI值的期望



④—for 连续随机变量

          上面都是 讲的离散随机变量 ,如果要变化到连续随机变量,则可以 把∑用积分 符号替换就好了
          对于连续随机变量一个有用的参数是maximal information coefficient(MIC)
          
          
          是用来告诉我们两个变量的独立性的一个系数,可以表示两个变量间的独立性
          MIC值介于[0,1],0表示两个变量互相独立,而1表示两个变量有无噪(noisy-free)的关系(不仅仅是线性关系)
                           一个图示说明---图片来自《Machine Learning - A Probabilistic Perspective》--
          
          左边图的 横轴是MIC,纵轴是相关系数,例如C点是相关系数接近0,MIC接近0,从右图可以看出 C的分布是没有规律的
          而H或者D图,两个变量间有很强的关系,表现为基本上的线性关系 ,其它例子自己看把

[机器学习]信息论(Information theory)的一些point相关推荐

  1. 机器学习模型身后的数学和统计背景:统计与信息论Probability and Information Theory

    术语 样本空间(sample space):Ω\OmegaΩ,包含了所有可能出现的结果的集合.比如在掷一次骰子的样本空间可以用{1,2,3,4,5,6}表示. 事件集(event space): FF ...

  2. ML与Information:机器学习与Information信息论之间那些七七八八、乱七八糟、剪不断理还乱的关系攻略

    ML与Information:机器学习与Information信息论之间那些七七八八.乱七八糟.剪不断理还乱的关系攻略 目录 ML与信息论 ML与熵 1.熵的基础知识 2.熵与分布的关系 3.最大熵模 ...

  3. 今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介

    今天开始学Pattern Recognition and Machine Learning (PRML),章节1.6,Information Theory信息论简介 前面有朋友说写的东西太理论了,我想 ...

  4. 机器学习基石(6)--Theory of Generalization

    本节课主要讲在机器学习中,机器如何做到举一反三. 上图可以得出结论,当N超过k的时候,mH的数量会越来越少.对未来成长函数的样子加了一个限制. mH的数量其实是有一个上限的,这个上限就是关于N的一个多 ...

  5. the fundation of information theory

    信息论基础各章参考答案 北邮信息论2006年期中试题答案标准A卷 信息论-姜丹 信息习题 信息论 xxx3 2.14 ------------ 北邮信息论课件2 ------------ 例题: 信息 ...

  6. Information Theory, Inference, and Learning Algorithms

    http://www.inference.phy.cam.ac.uk/mackay/itila/

  7. 机器学习 -- 信息论

    若信源有 m 种消息,且每个消息是以相等可能产生的,则该信源的信息量可以表示如下: 但是很多情况,事件出现的概率是不一样的.事件出现的概率越小,信息量越大.此时信息量的计算公式如下:    Xi 表示 ...

  8. Mechine Learning 机器学习笔记

    笔记作者:OUC_Shizue 参考课程:复旦大学 邱锡鹏 <神经网络与深度学习> 第一章:机器学习概论 一.机器学习的定义 1.直接定义 ​ 机器学习≈计算机自动构建映射函数 ​ Mac ...

  9. 系统论、控制论和信息论

    20世纪40年代,由于自然科学.工程技术.社会科学和思维科学的相互渗透与交融汇流,产生了具有高度抽象性和广泛综合性的系统论.控制论和信息论. 1.系统论General System Theory 系统 ...

最新文章

  1. java jnotify_java JNotify (基于内核)实时监控文件
  2. ROS学习(十四):ROS Spinning
  3. 和身体和谐相处的经验
  4. Spark SQL 1.x之Hive Context
  5. php中include和require,在PHP中include和require到底有什么区别呢?
  6. LeetCode 393. UTF-8 编码验证(位运算)
  7. RTT的内存管理篇——为什么要进行内存管理?
  8. 火焰传感器工作原理_不同接近传感器工作原理
  9. Cookie工具类的借鉴别人的ThinkGem的代码学习
  10. 利用 Commons-Fileupload 实现文件上传分析(转)
  11. [Mac]使用系统自带的词典程序快速取词翻译
  12. 苹果html向上滑动不流畅,苹果手机Safari浏览器下滑动卡顿的问题
  13. vue-router 定义三级路由,路由跳转了,页面没出来
  14. 无法启动正在运行的oracle,Oracle侦听器未运行,无法启动
  15. 有什么好用的测量仪器尺子?手机也能其妙满足
  16. 键盘连不上计算机,电脑键盘连接不上电脑是怎么回事
  17. 调整物料的存货科目代码,会不会造成存货系统和总账对账不平?
  18. ubuntu 18.04 卸载firebox
  19. 中心极限与大数定理律的关系_麦克斯韦速度分布律与气体分子碰壁数的推导
  20. Window 产品密钥

热门文章

  1. OpenID Connect详解
  2. Meeting on the Line
  3. 完美实现显卡S端子的TV输出
  4. IoT黑板报:苹果CEO库克试骑小黄车
  5. 列车时刻查询系统Java-Eclipse(GUI编程)
  6. 浏览器开发工具请求头与响应头属性介绍
  7. 技术竞争是 AI 时代的全部吗?李开复新书读后感一则
  8. 如何隐藏Android模拟器下方的虚拟按键(隐藏模拟器属性即可)
  9. 什么是Heartbleed攻击?
  10. CVE-2014-0160 Heartbleed Bug