一、前言：

信息论，对我而言，最早接触是在大二的专业课上。那个时候刚学完概率论，高数什么什么的，这是第一门需要将数学工具应用到实际分析之中的课，可想而知，我的成绩果然是飘过及格线。后面考研、读研期间，就再也没有接触过这方面的知识了。这一段时间的信息论对我而言，仅仅是一门课。

然而在一年前，由于工作方向的变化，我不得不从新将信息论捡了起来。过了几年再来看这门课，真是感慨良多。必须说得是，信息论作为一门后发的通信理论，不仅为之前的通信结论做出了牢固的理论支撑，还为未来通信技术的研究规划了方向。大三大四时候光顾着死记硬背什么MIMO容量，调制近似容量了，怎么来的完全不知道。自从把信息论捡了起来后，我仿佛又有那么一点理解了。

要问笔者为什么又要回去重新捡起信息论？不得不说这是一个亡羊补牢的结果。由于6G牵涉到很多新的通信方式，其中的一些区别于之前的射频通信。因此对于信号、信道的一些判断，如果继续沿用原来的结论将是错误的。我决定从新从信息论开始分析这些新的通信方式带来的不同。事实上，分析所得出的结果确实一定程度上辅助了我们对新关键技术的一些判断。

随着之前成果的逐步落实，现在想把总结的笔记分享出来。本笔记主要基于B站《信息论》课程视频来的，综合了多个视频。在此向国防科大和西安交大的老师们表示感谢。

未经授权，本笔记不得用于商业用途。

本笔记的内容概括如下：

二、目录：

绪论：Ø信息的定义；信息测度的基本概念；信息论的发展

信源模型及信息熵：Ø信源的数学模型；信息熵，联合熵与条件熵。

熵的基本性质：Ø非负性，确定性，对称性，扩展性，链式法则

信源的相关性及剩余度

信道模型与平均互信息：Ø信道模型、平均互信息（疑义度、性质）

信道容量的概念：Ø信道容量的定义、对称离散信道的信道容量、信道容量的一般计算方法

三、绪论

1、信息的定义

Ø解释：通信系统传输和处理的对象，泛指消息和信号的具体内容和意义。通常通过处理和分析来提取。

那么信息和消息的区别是什么？

Ø用文字、符号、数据、语言、音符、图片、图像等能够被人感觉器官所感知的形式，把客观物质运动和主观思维活动的状态表达出来就称为消息。

Ø信息是事物运动状态或存在方式的不确定性的描述。（Shannon信息）

简单来说就是：消息是信息的载体，信息是抽象的传输主体。

那么信号又是什么呢？

Ø把消息变换成适合信道传输的物理量，这种物理量就称为信号。

对于我们的通信系统来说，通信的实质是通过消息的传递，消除不确定性，获得信息。

2、信息测度

2.1、自信息

自信息表示事件出现的不确定性大小，或者说事件的发生概率有关，因此可以这么建模：

一般来说，不确定性越大，则携带信息应该越多。因此I(ai)这个函数应该是概率P(ai)的单调递减函数，且P(ai)=1时I(ai)=0，P(ai)=0时I(ai)=1。

此外，如果说一个事件出现的概率极小，那么他出现的难度接近无穷。那么I(x)如何建模才可以符合上述要求呢？

明显，如果使用对数函数，可以完美的合乎上述要求。因此，对一个事件ai发生的概率，可以得到该事件所携带的自信息为：

上述公式称为事件ai的自信息，也可以说是测度函数。

进一步考虑二维的情况。

当有两个随机事件时，先简单地假定它们独立，即，两个独立事件的自信息应该满足如下关系：

根据概率论可以知道，同时发生事件ai和aj的情况是一个联合事件，如果用不同的随机变量X和Y来表示，则可以简写成：

其中某个具体发生的事件x=a,y=b的自信息为：

上式也成为联合自信息，他表示a，b两个事件联合出现的一个不确定性。

（*自信息有2个隐藏的含义：当事件ai发生以前，自信息表示ai发生的不确定性；当ai发生以后，自信息表示ai所提供的信息量。）

上式可以简写为：

扩展到条件概率的情况，则有条件自信息：或

根据对数的底的不同，这些信息的单位也不同：以2为底时，单位表示bit，以e为底则为nat，以10为底则为hart。

给出一个例题，以加强记忆。

例3.1

双色福利球抽奖：两个大转箱有一堆带有编号的乒乓球（一个球对应唯一一个编号，红32个，蓝16个），从红中选6个，从蓝中选1个。每次落下一个，先抽红球箱子，再抽蓝球箱子。

Q1：猜中第一个球为7的难度？

Q2：第一个球为9出现后，猜中第二个球为16的难度？

Q3：已知前五个球号码为7，16，21，17，1，猜中第6个球为19的难度？

Q4：猜中双色球为：红：7，16，21，17，1，19；蓝：14的难度？

答：（*注意：由于在红转箱中两次取球间是独立的，因此条件概率就等于每次取球的概率。）

A1:

A2:

A3:

A4:

3、信息论的发展

百度百科说的挺好，不再赘述了，总之就是香农yyds！

四、信源模型及信息熵

1、信源的数学模型

信息的获得是与消息出现的随机性是有很大关系的，信源的本质特征可以这么总结：信源是一个随机出现的消息的集合，可以用样本空间和分布律来表征信源特性。这和我们高中做的题一样，可以这么来写：

当然，概率空间还需要保证完备性：

1.1、信源的分类

根据随机事件，我们可以将信源分为以下几种：

（1）离散信源和连续信源

离散信源，比如说抛硬币，正反两面是可能发生的结果，它的分布律可以写为：

连续信源，比如说音频信号，音频信号在幅度上可以当做是连续的。

（2）无记忆信源（符号间彼此独立）和有记忆信源

（3）简单信源（信源输出的消息以单个符号给出）和复杂信源（一个消息由一串符号表示，例如电话号码）。

2、信息熵

如果有一个离散信源，其概率空间为：

则信源输出的一个符号ai，则其自信息量为：

由于信源输出的消息是随机出现的，所以自信息也相当于随机变量。那么如何表征整个信源呢？

通过概率论的知识，我们很容易联想到使用期望来表征整个信源的信息量，这个数学期望也称为信源的平均自信息量：

这个平均信息量也称为信源X的熵或信息熵。H(X)仅取决于X的分布，而非其具体值，因此信源熵是一个固定的值。

信息熵用于描述信源X的平均不确定性，表示平均每个信源符号所携带的信息量。

思考：自信息和信息熵的相同和不同点是什么呢？

相同点：都是描述不确定性的大小；不同点：个别事件与整个集合。

例4.1

计算下面3个信源的信源熵：

1、

2、

3、

A1：

A2：

A3：

例4.2

考虑一个经典的独立重复实验，一个袋子内100个球，70个红30个白。随机摸一个猜颜色（放回），求平均每次试验的信息量。

A：根据概率论的知识我们可以很快地写出这个实验的分布律或者说分布函数，如下：

如果我一共摸了N次试验，则红球的期望是0.7N次，白球是0.3N次。用n1和n2分别表示摸出红球和摸出白球发生的次数，则有

那么N次试验的总信息量为：

经过这个例子我们可以发现：熵值的大小表征了一个信源平均每输出一个消息能提供多大的信息量.

例4.3

有如下一个四进制离散无记忆信源，其分布函数如下：

若发出的消息为：2021 2013 0213 0012 0321 0110 3210 1002 1032 0112 2321 0，则求

（1）此消息中平均每个符号携带的信息量是多少？

（2）此信源中平均每个符号携带的信息量是多少？

A2：由于我们拿到了信源的分布函数，这使得回答第二个问题更为简单，根据前面对信息熵的定义，该信源的信息熵为：

需要注意的是，这里的平均其实没有意义了，因为信源的信息熵本身就是一个期望。

A1：求此消息中平均每个符号的信息量并不是求对应的信源的信息量，因为我们已经发出了具体的消息。这个问题实际上是求该消息出现时所携带的信息量，而平均在这里表示的应该是这一消息中每个符号上的平均。根据具体消息形式，该消息出现的概率为：

因此该消息中平均每个符号出现的信息量为：

3、联合熵与条件熵

这里我只给出最简单的定义，对于多个随机事件，定义联合自信息的平均值为联合熵。当然这需要知道多个随机事件的联合分布，如果它们互相独立那么会使这个问题大大简化。考虑两个随机事件X和Y，他们的联合熵为：

对于条件分布，也有对应的条件自信息，条件熵定义为条件自信息的平均值，即条件熵是用联合概率对条件自信息进行加权平均。

或

在具体事件Y=y的情况下，条件熵为：

例4.4

箱子中有100个球，40黑60白，从中取球且不放回，连续取2次，试求猜中第二个球颜色的难度。

A：明显，这是一个条件概率，我们需要求的难度指的就是条件熵。用事件X表示第一次取球的结果，用事件Y表示第二次取球的结果。那么我们有：

事件X的分布函数为：

事件Y的条件分布函数为：或

事件X的信息熵为：

X摸出黑球时，Y的条件熵为：

X摸出白球时，Y的条件熵为：

再求一次平均可以得Y的条件熵为：

例4.5

有一二维离散平稳信源，

且，则信源X平均每符号输出的信息量为？

A：这是一个离散有记忆信源，平稳的意思是：随机序列的概率分布与时间起点无关，称为平稳序列。如果继续套用信源的信息熵不能反映信源的记忆性。对于有记忆信源，通常考虑条件熵，而联合熵常用于工程近似。

*（补充：什么是平稳随机过程？平稳随机过程是在固定时间和位置的概率分布与所有时间和位置的概率分布相同的随机过程，即随机过程的统计特性不随时间的推移而变化，因此数学期望和方差这些参数不随时间和位置变化。平稳过程是一种重要的随机过程，其主要的统计特性不会随时间推移而改变。）

4、总结

什么时候用熵？

什么时候用联合熵？

什么时候用条件熵？

需要考察信源输出对象的形式，如果信源是无记忆信源，则用基本信源熵就可以，而且是单符号的；如果考察的是若干个集合组成的信源，则联合熵；如果考察的是一个有记忆信源，一般来说还是考察这个信源每输出一个符号能够提供的信息量，但是这个符号可能受到之前符号的影响。如果考察的是一个N维平稳信源，则怎么表示信源熵呢？则第N个符号的不确定性受到前面N-1个符号的影响，仍然需要找到联合概率和条件自信息。

五、熵的基本性质

1、非负性

2、确定性

虽然信源样本空间不同，但是有概率为1的情况，此时称为确知信源，确知信源熵为0.

3、对称性

熵值的大小仅与信源的整体属性，也可以说是总体结构有关。

是任意排列。

4、扩展性

极小概率事件对熵几乎无影响，熵描述的是整体属性。

5、熵的链式法则

有一个信源X和一个信源Y，我们把X和Y进行配对，可写出其联合分布。分别计算这几个信源的熵，我们可以发现下述结论，这个结论称为熵的强可加性。意义为，先考察一个事件X出现的不确定性，在考察另一个事件出现的不确定性。

当X和Y统计独立时，强可加性将退化为可加性。

把二维情况推广到N维，即可得到N维联合信源熵的链式法则。

6、熵的极值性

对于熵来说，总有以下不等式成立。

当且仅当时，信源具有最大熵，这称之为熵的极值定理。

证明：需要用到引理：若x>0，则 lnx ≤ x-1，当且仅当x=1时等号成立。这里省略证明。假设有一个二元信源X为：

则有：

做出其函数图像如下：

观察可以发现当p=0.5时，信源具有最大熵。此外熵具有上凸性，随着自变量的变化，它是一个上凸函数。

由此我们可以得到最大离散熵定理：

信源中各事件出现概率趋于均匀时，信源的平均不确定性最大。这是数据压缩的理论依据之一。

熵表示的是平均每个符号可以提供的信息量有多大，则信源在等概分布时每个符号提供的信息量是最大的。为了提高通信的传输效率，信源输出每个符号的信息量应该尽量大，即输出的熵最大。数据压缩怎么做呢？做压缩的目的其实就是我要压缩信源输出的这个冗余，最后的效果就是我尽量用少的符号数来传输信息，其实就是想办法使得压缩以后信源熵尽量大。压缩编码的做法就是通过调整符号间的概率分布使得符号变成等概的。

7、熵的独立界

熵的独立界指的是统计相关的变量，知道统计相关的变量，则可以减少不确定性。统计平均意义上的条件可以减少不确定性，但是针对某一具体的时间Y，则独立界不一定成立。

定理1：条件熵不大于无条件熵，即，当且仅当X和Y独立时取等号。

定理2：对于平稳序列，条件熵随N（N是条件数）的增加是非递增的，即

即条件作用使熵减小。

定理3：设服从，则，当且仅当独立时取等号。

例5.1

有一个1发1收的信道，如下图所示。信源发射0和1的概率分别为

，

接收侧Y收到的信号为0，1，2。

求以下信息熵及概率：

六、信源的相关性及冗余度

1、剩余度（冗余度）

通过熵的极值性，我们了解到信源符号等概分布时信源具有最大熵，然而实际中信源的符号分布离

还有比较大的距离，此时引入信源的剩余度来表示信源被利用的程度。

定义q元信源的极限熵（实际熵）

，则定义：

为信源剩余度。

信源实际熵与理想熵相差越大，信源的冗余度就越大，信源的效率也越低。

例6.1

英文由26个字母组成a~z，还得加个空格，因此一共有27个符号，如果他们等概出现，则携带的信息量有多大？

A：

因此对于英文源来说，理想情况下，如果这27个符号等概，那么平均每个符号则可以携带4.76bit的信息量。

但实际中，等概使用字符无法正常表达意思，因此在实际中每个英文字母使用的概况是不一样的。其中空格键最大，接下来是e等等等，已经有人对英文中个字母出现的概率进行了统计，则得到每个英文字母携带的信息量为：4.03Bit。

又因为实际中，英文符号间存在一定的关联性，如果考虑两个符号间的关联，那么这个时候平均每个符号所携带的信息量就降为3.3bit。

如果进一步考察3个符号之间具有关联性，为3.1bit，和实际中的信源熵1.4bit，可以进一步得到冗余度为0.71，这说明英文信源利用率很低，因此我们看paper时主要看摘要和关键字，这个就是核心。

例6.2

中文信源有人统计过，我们常用汉字约1万个，假设他们等概出现，则信源熵为：

进一步统计发现，10000个汉字中前140个汉字出现概率占50%，前625个汉字占85%，前2400个汉字占99.7%，其余7600个汉字占0.3%。据此将汉字分为四类，假设每个类中汉字等概出现，则汉语的信息熵为：

这是熵的递增型，我们先考察事件落在某个范围内的情况，再考察该范围内的情况。

然而在实际中，每个类中汉字等概出现又是不合理的，此时剩余度会增加。此外汉字的使用彼此之间也有相关性。

关于信源剩余度的思考：1、为提高信息传输效率，总希望减少剩余度；例如压缩：中华人民共和国压缩成“中国”，提高每一个符号承载信息的能力，这就是信源压缩编码。但是自然信源中使用理想熵说话的话，是顿挫的，因此在实际中我们增加剩余度主要是帮助我们理解，因此剩余度的存在可以增加可懂性、可靠性。为提高信息传输的可靠性，需要一定的剩余度，这就是信道编码。

2、数据压缩的基本途径

有记忆信源的冗余度寓于信源符号间的相关性中。去除它们之间的相关性，使之成为或几乎成为不相关的信源，其熵将增大。（均匀化信源的概率分布，数据压缩的经典途径之一）

应用一：预测编码，根据某种模型，利用以前的（已收到）一个或几个样值，对当前样本进行预测，将样本实际值和预测值之差进行编码。（实际上，时刻之间采样点的差值相关性小）

应用二：变换编码，先对信源输出进行某种变换，将其从一种信号表示空间变换为另一种信号表示空间，使新的信号空间中各信号分量相关性很小或不相关，然后再对变换后的分量进行编码，以达到数据压缩的目的。

需要注意到的是：

1、实际中信源相关性很大，实际中需要减弱它；

2、当信源不均匀分布时，存在冗余，需要调整信源的概率分布，使其均匀化。

七、信道模型与平均互信息

信道是信息传输的通道，在信息论中，我们仅研究信道的普遍性特征。

由于噪声和干扰的存在，信道的输入和输出之间是统计依赖关系，而不是确定关系。研究信道就是要研究输入输出信号特性和它们的统计依赖关系。

研究信道的目的是研究信道能传输的最大信息量，即信道的最大传输能力。

1、信道模型的三要素及表述方式

信道模型的三要素包括输入、输出和信道的转移概率。一个简单的信道模型可以画成下面的框图：

三要素都是以统计规律来进行描述的，因此我们在实际中用概率空间来描述信源的统计特性。其中样本空间描述这个集合所有可能出现的消息，概率用函数分布函数或密度函数表示。以信道的转移概率来描述由输入到输出的这种转变情况。

信道模型的表示方法包括：公式法、图示法、矩阵法（转移概率构成的矩阵，同一行对应同一个输入，同一列对应同一个输出）

例7.1

有一个二元对称信道BSC，其框图如下：

其中，信源发出的消息经过编码以后，经过二进制调制器送上传输介质进行传输，收端进行了解调解码等一系列处理。

如果说我们把从信源编码器的输出到信源译码器的输入这一段看成广义信道，则它的信道的输入会有哪几种状态的信号呢？只可能有0和1。经过解调的输出也应该被还原成0和1两种状态。一般来说对于二进制调制系统的转移概率，都会呈现一种对称性，称为二元对称信道。

请写出几种BSC的表示方式：

表示1：

表示2：

表示3：

例7.2

有一个二元删除信道BEC，假设信道输入仅有0和1时，负电平表示0，正电平表示1，经过信道传输后，接收端需要对每个电平幅度进行判决，某一个时刻的取值接近于0，则不好判断，当然可以采取硬判决。但是如果我们知道出错，但不知道是0错成1还是1错成0，我们可以在接收端删去它（或者添加删除符号），然后接收端再将删除后的信号与信号库中比对进行还原。这称为删除信道。记删除符号为：“？”，则其信道框图为：

请用两种方式表述该信道。

A：

这里指的是纯二元删除信道。

BSC和BEC的相同点：都是单符号；输出仅与当前时刻的输入有关，它与其他时刻的输出和输入是无关的。因此是离散无记忆信道。对于一般的单符号离散无记忆信道模型都可以这么简化，用一维随机变量表示输入和输出，用一维条件概率表示转移概率。

表示1：

表示2：

2、信道疑义度

以单符号离散无记忆信道作为研究对象，假设有如下一个信道：

我们可以得到以下信息：

1、信道输入：

2、若信道无干扰，例如y=f(x)，则接受的平均信息为H(X)。那么存在干扰呢？如果存在干扰，我们对输入是什么是不确定的，但是我们已经知道的信道输出，即H(X|Y)。收到bj后关于ai的不确定性，就是它的条件自信息。

3、用ai的条件概率做加权平均后我们得到的是一个已知接收bj时关于ai的平均不确定性。

再对bj做统计平均，有：

这是综合考察了所有符号不确定性的情况，即信道疑义度，它就是条件熵，描述的是已知输出描述输入的不确定性。它可以表示信道中损失的信息量。

因此，定义信道疑义度为：

3、平均互信息

3.1、平均互信息的概念

我们获得的信息等价于我们消除的不确定性，这两项相减的表示信道中传输每一个消息的时候平均让接收端获得的信息量。I(X;Y)称之为平均互信息，也称信息传输率。定义为

含义：平均从Y获得的关于X的信息量，又称信道的信息传输率R。

观察可以发现

下式中的x和y是小写的，称为互信息，I(x;y)表示具体某个随机事件y中，求关于x的信息。

熵表示输入输出信号的属性，平均互信息表示信道的属性，因此都需要进行统计平均；熵本质是不确定性的描述（提供信息），平均互信息表示的是不确定性消除的程度（获得信息）。

例7.3

有2个硬币，一个正常的（一面数字一面画）和一个不正常的（两面都是数字）。随机抽取一枚硬币，抛两次。问出现数字的次数对于硬币的识别提供了多少信息量。

A：令X表示抽到硬币的情况，X=0表示抽到好的，X=1表示抽到坏的；令Y表示出现数字次数的情况，可以画出其概率转移图：

由此可以计算出：

3.2、平均互信息的性质

1、非负性

互信息是可正可负的，互信息大于0表示通信正常，等于0则表示通信中断（信息量全部损失在信道中了，称为全损信道，此时输入和输出是统计独立的，可用于保密通信，这也是密码学的起点），小于0表示通信受干扰。

例如在二元对称信道中，令转移概率都为1/2，此时为全损信道。

2、极值性

信息处理的一般规律，通过传输获得的信息量不大于提供的信息量。上界对应着无损信道。

平均互信息的取值大小是由信源分布和信道转移概率的分布决定的，通常都是固定一个研究另一个。

3、对称性

4、特殊信道的总结

信道名称	信道特征	信息传输情况
全损信道
无损信道
无噪信道

5、凸状性

对于固定信道，平均互信息I(X;Y)是信源概率分布P(x)的上凸函数。

对于固定信源分布，平均互信息I(X;Y)是信道转移概率P(y|x)的下凸函数。

例7.4

分析二元信源通过BSC信道的互信息特性，信道和信源的信息如下：

可以发现噪声熵只与转移概率有关系，与信源熵是无关的。但是互信息不仅受到转移概率的影响，还受到信源的影响。

BSC信道的互信息就是两个二元信源熵相减的结果。

八、信道容量

平均互信息中不仅包含了信源的信息，还包含了信道的转移概率的信息，因此不能用平均互信息来单纯地评价信道的传输情况（信道的好坏）。我们可以发现，在同一个信源分布的情况下，平均互信息的最大值仅受到信道转移概率的影响，因此我们可以用平均互信息的最大值来描述信道的最大传信能力，即信道容量。

1、信道容量的定义

信道中平均每传输一个消息符号时，收端能够获得的信息量。又称为信息传输率。

信息传输速率指的是单位时间的信息传输率，即

信道容量是给定的信道的最大的信息传输率

平均每秒钟信道能传输的信息量为

当信道给定后，p(y|x)就固定，C为常数，其与信源概率p(x)无关。

p(x)也可称为最佳输入分布，表示当输入达到这个状态时，平均互信息等于信道容量。

例8.1

求BSC信道的容量。

A：

BSC的信道和信源模型如下：

当信道给定后，互信息中的p是给定的，平均互信息将随着输入的分布而变化。我们知道二元信源为均匀分布（等概）分布时，信源熵最大，即w=0.5。

可以发现，此时信道容量仅与信道转移概率p有关。此时输入分布必须是最优分布。但是最优分布一定是唯一的吗？

例8.2

分别计算下面两个信道的信道容量及最佳输入分布。

A：

可以发现第一个信道为有损信道和无噪信道，因此第一个信道的互信息为：

互信息有两种表示方式，由于这是个无噪信道，因此H(Y|X)=0，信道容量取决于输出熵的最大值，由于输出熵是二符号的，当输出的两个符号等概的时候，熵最大，信道容量最大。

因此我们要做的就是调整输入分布，使得输出分布等概。

第二个信道是一个无损有噪信道，回顾一下，如何判断有损还是无损？如果说你站在输出端，看输入端，你是可以非常确定输入是什么的的话，说明输出端的判决是确定的。因此有H(X|Y)=0。因此这个问题变为求信源熵的最大值，因此当输入X是等概分布的时候，有信道容量为：

2、小结

通过上述两个例子，我们发现，根据信道的特征，我们要么从输入端看输出端，要么从输出端看输入端。总结如下：

对于无噪信道，我们知道p(y|x)=0 或 1，因此I(X;Y)=H(Y)，对于无噪信道的信道容量就为求信宿熵的最大值，其中s为输出的符号数目。最佳输入为使输出达到等概时的输入分布。

对于无损信道，我们可以知道损失熵为0，即p(x|y)=0或1，因此I(X;Y)=H(X)，r为输入符号数

3、性质

1、平均互信息的非负性：

2、平均互信息的极值性：

例8.3

有一二元删除信道，计算其信道容量。

A：

二元删除信道的转移图和信道转移矩阵为：

这个信道是个局部对称信道，对其进行线性变化，可以发现前面是完全对称的，这一类信道称为准对称信道。

当信道给定时，q的值是确定的，也就是说信宿熵（输出熵）将随着输入的变化而变化。

最后可以发现，问题会被转化为求解信源熵的问题。由于H(W)=log2，因此信道容量仅跟1-q有关，因此信道容量只是一个跟信道有关的测度值，跟输入的概率分布是没有关系的。但是最大值的寻找需要找最大分布，这是一个必经的过程。

4、对称信道

二元对称信道可以表示如下：

若一个离散无记忆信道的信道矩阵中，每一行（列）都是其他行（列）的同一组元素的不同排列，则称此信道为离散对称信道。

信道矩阵的对称性体现在，每一行取的元素都是一样的，同时每一列的元素也是一样的，此时称该信道为对称信道。需要输入符号对称，也需要输出符号对称。

若输入符号和输出符号个数相同，都等于r，则信道转移矩阵为方阵，此信道称为强对称信道或均匀信道。

4.1对称信道的性质

1、对称信道的噪声熵等于第一行元素的熵

2、当P(x)等概分布时，输出也是等概分布

4.2对称信道的信道容量

1、平均互信息

需要注意的是，并非所有信道都有P(y)等概。例如二元删除信道。因此求信道容量等价于求H(Y)的最大值。

对于均匀信道，可以发现

此外，由于当输入等概时，输出也是等概的，因此最佳输入分布为1/r。

5、一般离散信道的信道容量

如何求解信道容量呢？寻找最优分布来找到最大值。最优分布是一个优化问题。对于一个一般化的离散信道，其框图的信道容量的求解可以表示如下：

通常对于上述优化问题，使用拉格朗日乘子法，构造的拉格朗日函数如下：

设f(x)是定义在所有分量均非负的半无限矢量空间上的可微上凸函数，M=max(f(x))是f(x)在此空间上的最大值，则x=x*时能达到此最大值M的充要条件是：

当P(ai)>0时，有

将输入分布带入，可以得到信道容量为：log(e)加上某一个待定系数λ。

根据这个例子我们可以得到这么一个结论：当输入分布处于最佳分布的时候，或者说当这个系统的信道容量达到了最大能力的时候，可以发现由输出端观测到的关于每一个输入符号的信息量都是一样的。

一般离散信道的平均互信息达到极大值（即等于信道容量）的充要条件是输入概率分布满足：

（1）I(X;Y)=C 对所有xi其Pi≠0

（2）I(X;Y)≤C 对所有xi其Pi=0

因此当从输入符号中获得的关于每一个输入符号的信息量都是一样的时候，这时候得到信道容量。即

对于概率不为0的输入符号，我们从输出输出中获得的关于输入符号的信息量大小都是一样的，这个值实际就是信道容量。对于那些出现概率为0的，即基本上不出现的输入符号，则我们由整个信道的输出中获得的关于概率为0的一些信源符号的信息量是小于刚才求出来的信道容量的。

一般情况下，通过计算

可以得到

令，则等式右边为：

因此，当r=s时，信道转移概率矩阵非奇异，仅有唯一解。

信息论基础（Part1）相关推荐

一文让你完全弄懂逻辑回归和分类问题实战《繁凡的深度学习笔记》第 3 章分类问题与信息论基础（上）（DL笔记整理系列）
好吧,只好拆分为上下两篇发布了>_< 终于肝出来了,今天就是除夕夜了,祝大家新快乐!^q^ <繁凡的深度学习笔记>第 3 章分类问题与信息论基础 (上)(逻辑回归.Softm ...
国科大UCAS胡包钢教授《信息论与机器学习》课程第二讲：信息论基础一
来源:专知信息论中最为基本的概念就是香农熵(第8页),由此可以导出信息论中其它各种定义,以至我们常规应用的其它经验式定义(以后会提到).学习信息论基础知识时要避免仅是概念与定义的简单记忆,要尽量结合 ...
自然语言处理(2)-信息论基础
自然语言处理-数学基础概述 1.信息论基础 1.1熵 1.2 联合熵和条件熵 1.3 相对熵和交叉熵 1.4 互信息和双字耦合度 1.5 噪声信道模型概述本系列文章计划总结整理中国科学院大学宗成 ...
信奥中的数学：信息论基础
详解机器学习中的熵.联合熵.条件熵.相对熵和交叉熵详解机器学习中的熵.联合熵.条件熵.相对熵和交叉熵_Rank92的博客-CSDN博客详解熵.最大熵.联合熵和条件熵.相对熵以及互信息之间的关系详 ...
概率论信息论基础（随机变量、常用概率分布、贝叶斯规则、信息论基础、结构化概率模型）
目录随机变量及其概率分布独立性期望方差协方差常用概率分布常用函数贝叶斯规则信息论基础结构化概率模型如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~ 随机变量及其概率分 ...
信息论基础(信息量、熵、KL散度、交叉熵)
信息论基础(信息量.熵.KL散度.交叉熵) 文章目录信息论基础(信息量.熵.KL散度.交叉熵) 1. 信息量与熵 2. KL散度与交叉熵交叉熵与LogisticLogisticLogistic回归 ...
【信息论基础】离散信息的度量—自信息和互信息
参考[信息论基础]第2章离散信息的度量-自信息和互信息_哔哩哔哩_bilibili 目录一.自信息 ◼ 自信息例题 ◼ 联合自信息例题 ◼ 条件自信息例题例题2 ◼ 自信息,联合自信息和条件 ...
贝叶斯网专题1：信息论基础
文章目录贝叶斯网专题前言第一部分:贝叶斯网基础 1.1 信息论基础 1.1.1 预备数学知识:Jensen不等式 1.1.2 熵 1.1.3 联合熵.条件熵.互信息 1.1.4 交叉熵和相对熵(K ...
线性动力学变分原理基础 Part1
线性动力学变分原理基础 Part1 <计算动力学> 张雄[著] 笔记线弹性动力学的控制方程(位移法,要得到的是位移分量的表达式$u=u(x,y,z,t),v=v(x,y,z,t),w= ...
信息论基础学习笔记（零）——通信系统模型及经典信息论
0.1 通信系统模型 0.1.1 通信的基本问题在一点精确地或近似地恢复另一点所选择的消息. 0.1.2 通信系统的简单模型 0.1.3 通信系统的物理模型 0.1.4 通信与信息系统的详细原理 ...

信息论基础（Part1）

一、前言：

二、目录：

三、绪论

1、信息的定义

2、信息测度

2.1、自信息

例3.1

3、信息论的发展

四、信源模型及信息熵

1、信源的数学模型

1.1、信源的分类

2、信息熵

例4.1

例4.2

例4.3

3、联合熵与条件熵

例4.4

例4.5

4、总结

五、熵的基本性质

1、非负性

2、确定性

3、对称性

4、扩展性

5、熵的链式法则

6、熵的极值性

7、熵的独立界

例5.1

六、信源的相关性及冗余度

1、剩余度（冗余度）

例6.1

例6.2

2、数据压缩的基本途径

七、信道模型与平均互信息

1、信道模型的三要素及表述方式

例7.1

例7.2

2、信道疑义度

3、平均互信息

3.1、平均互信息的概念

例7.3

3.2、平均互信息的性质

例7.4

八、信道容量

1、信道容量的定义

例8.1

例8.2

2、小结

3、性质

例8.3

4、对称信道

4.1对称信道的性质

4.2对称信道的信道容量

5、一般离散信道的信道容量

信息论基础（Part1）相关推荐

最新文章

热门文章