机器学习：什么是条件熵？

转自：通俗理解条件熵

前面我们总结了信息熵的概念通俗理解信息熵 - 知乎专栏,这次我们来理解一下条件熵。

我们首先知道信息熵是考虑该随机变量的所有可能取值，即所有可能发生事件所带来的信息量的期望。公式如下：

我们的条件熵的定义是：定义为X给定条件下，Y的条件概率分布的熵对X的数学期望

这个还是比较抽象，下面我们解释一下：

设有随机变量（X,Y），其联合概率分布为

条件熵H（Y|X）表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)

公式

下面推导一下条件熵的公式：

注意

注意，这个条件熵，是指在给定某个数（某个变量为某个值）的情况下，另一个变量的熵是多少，变量的不确定性是多少？

因为条件熵中X也是一个变量，意思是在一个变量X的条件下（变量X的每个值都会取），另一个变量Y熵对X的期望。

这是最容易错的！

例子

下面通过例子来解释一下：

假如我们有上面数据：

设随机变量Y={嫁，不嫁}

我们可以统计出，嫁的个数为6/12 = 1/2

不嫁的个数为6/12 = 1/2

那么Y的熵，根据熵的公式来算，可以得到H（Y） = -1/2log1/2 -1/2log1/2

为了引出条件熵，我们现在还有一个变量X，代表长相是帅还是不帅，当长相是不帅的时候，统计如下红色所示：

可以得出，当已知不帅的条件下，满足条件的只有4个数据了，这四个数据中，不嫁的个数为1个，占1/4

嫁的个数为3个，占3/4

那么此时的H（Y|X = 不帅） = -1/4log1/4-3/4log3/4

p(X = 不帅) = 4/12 = 1/3

同理我们可以得到：

当已知帅的条件下，满足条件的有8个数据了，这八个数据中，不嫁的个数为5个，占5/8

嫁的个数为3个，占3/8

那么此时的H（Y|X = 帅） = -5/8log5/8-3/8log3/8

p(X = 帅) = 8/12 = 2/3

计算结果

有了上面的铺垫之后，我们终于可以计算我们的条件熵了，我们现在需要求：

H（Y|X = 长相）

也就是说，我们想要求出当已知长相的条件下的条件熵。

根据公式我们可以知道，长相可以取帅与不帅俩种

条件熵是另一个变量Y熵对X（条件）的期望。

公式为：

H（Y|X=长相） = p(X =帅)*H（Y|X=帅）+p(X =不帅)*H（Y|X=不帅）

然后将上面已经求得的答案带入即可求出条件熵！

这里比较容易错误就是忽略了X也是可以取多个值，然后对其求期望！！

转自：通俗理解条件熵

机器学习：什么是条件熵？相关推荐

相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵
目录信息熵条件熵相对熵交叉熵总结一信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...
解释机器学习中的熵、联合熵、条件熵、相对熵和交叉熵
原文地址:https://www.cnblogs.com/kyrieng/p/8694705.html 1.信息熵 (information entropy) 熵 (entropy) 这一词最初来源于 ...
详解机器学习中的熵、条件熵、相对熵、交叉熵
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习.深度学习的知识! 目录信息熵条件熵相对熵交叉熵总结一信息熵 (info ...
机器学习进阶（4）：熵，联合熵，条件熵，互信息的推导和联系
文章目录前言熵联合熵条件熵互信息几种熵之间的关系前言机器学习领域有一个十分重要的概念:熵.大家或多或少都听过一些熵的概念和定义,但是可能对他们的关系不是很清楚,本文就熵,联合熵,条件熵 ...
机器学习：信息熵，基尼系数，条件熵，条件基尼系数，信息增益，信息增益比，基尼增益，决策树代码实现（一）
文章目录初始化,涉及到使用的变量: 信息熵定义公式,经验公式代码: 基尼系数定义公式,经验公式代码: 条件熵,条件基尼系数条件熵定义公式,经验公式条件基尼系数定义公式,经验公式代码: ...
【机器学习】信息论基础（联合熵、条件熵、交叉熵、KL散度等）+ Python代码实现
文章目录一.基本概念 1.1 联合熵 1.2 条件熵 1.3 交叉熵 1.3.1 Python编程实现交叉熵计算 1.4相对熵(KL散度) 1.4.1 Python编程实现KL散度计算二.自信息和 ...
预见未来丨机器学习：未来十年研究热点
<h2 class="subheader">机器学习:未来十年研究热点 </h2><div class="gray-d1-c margin- ...
LARS 算法简介-机器学习
https://cosx.org/2011/04/modified-lars-and-lasso/ 查看全文 http://www.taodudu.cc/news/show-64111.html 相关 ...
【机器学习入门】(4) 决策树算法理论：算法原理、信息熵、信息增益、预剪枝、后剪枝、算法选择
各位同学好,今天我向大家介绍一下python机器学习中的决策树算法的基本原理.内容主要有: (1) 概念理解:(2) 信息熵:(3) 信息增益:(4) 算法选择:(5) 预剪枝和后剪枝. python ...

机器学习：什么是条件熵？

公式

注意

例子

计算结果

机器学习：什么是条件熵？相关推荐

最新文章

热门文章