《高等统计物理学》2：经典系综

知乎链接：《高等统计物理学》2：经典系综

对系综思想的理解，读者们有兴趣可以参见我之前写的《高等统计物理学》1: 领悟系综

一. 从概率论视角推导正则系综和巨正则系综的概率表达式和熵公式

第一节课老师就带着我们肝概率论和随机过程，对于本科不是物理科班出生的笔者而言，一开始不用被深奥难懂的物理背景虐得死去活来，还算是松了一口气。下面我们就来看一看，概率论和随机过程的知识是如何在统计物理中发挥作用的。
最先笔者还觉得，万物皆物理…，我大物理就是厉害，shannon大神当初信息熵的灵感肯定也来源于统计物理。到后来才发现，统计物理中的一些熵，是可以从大神的信息熵推导来的！（待解决问题 1:信息熵是否还可以由统计物理的熵推导过去呢？）

1. 热力学模型推导正则系综和巨正则系综的概率表达式

首先，让我们来简单回顾一下

1.1 正则系综的概率表达式：

ρs=1Ze−βEs\rho_s=\frac{1}{Z}e^{-\beta E_s}ρs=Z1e−βEs（无简并的量子统计表达式）

ρl=1ZΩle−βEl\rho_l=\frac{1}{Z}\Omega_le^{-\beta E_l}ρl=Z1Ωle−βEl （有简并的量子统计表达式）

ρ(p,q)dΩ=1Ze−βH(p,q)dΩN!hNr\rho_{(p,q)}d\Omega=\frac{1}{Z}e^{-\beta H(p,q)}\frac{d\Omega}{N!h^{Nr}}ρ(p,q)dΩ=Z1e−βH(p,q)N!hNrdΩ（经典统计表达式）

1.2 巨正则系综的概率表达式：

ρNs=1Ξe−αN−βEs\rho_{Ns}=\frac{1}{\Xi}e^{-\alpha N-\beta E_s}ρNs=Ξ1e−αN−βEs （无简并的量子统计表达式）

ρNs=1ΞΩle−αN−βEl\rho_{Ns}=\frac{1}{\Xi}\Omega_le^{-\alpha N-\beta E_l}ρNs=Ξ1Ωle−αN−βEl（有简并的量子统计表达式）

ρN(p,q)dΩ=1Ξe−αN−βH(p,q)dΩN!hNr\rho_{N(p,q)}d\Omega=\frac{1}{\Xi}e^{-\alpha N-\beta H(p,q)}\frac{d\Omega}{N!h^{Nr}}ρN(p,q)dΩ=Ξ1e−αN−βH(p,q)N!hNrdΩ（经典统计表达式）

下面我会给出它们的推导过程，如果你已对此很熟悉，可以直接跳过下面这一部分。（但我觉得你至少得很清楚：公式中各字母的含义以及公式的推导思想和过程。反正笔者还不太熟悉，赶紧拿起笔又推导了一边哈哈啊哈）

第一步，建模（如下图）

图1 是微正则系综中的一个系统（孤立系统，V,E,N不变），图2 是正则系综中的一个系统（热源+状态处于s的系统=孤立系统，V,T,N不变），图3 是巨正则系综中的一个系统（热源+粒子源+状态处于s的系统=孤立系统）

第二步，弄清楚上述公式中 β，α，γ\beta，\alpha，\gammaβ，α，γ 的含义及由来（虽然这里没有 γ\gammaγ ）

我们先给定：β=∂ln⁡Ω∂E,α=∂ln⁡Ω∂N,γ=∂ln⁡Ω∂V\beta=\frac{\partial\ln \Omega}{\partial E}, \alpha=\frac{\partial \ln\Omega}{\partial N}, \gamma=\frac{\partial \ln\Omega}{\partial V}β=∂E∂lnΩ,α=∂N∂lnΩ,γ=∂V∂lnΩ 要推导它们，我们从微正则系综下手（从微正则系综出发推导出它们的表达式，将用在后面的正则系综和巨正则系综的公式中）。

如图1所示，系统被分成A1和A2两部分，考虑这样一种情况：它们的粒子数N1和N2，以及它们的体积V1和V2都恒等，而能量E1和E2却未知。对于孤立系统和两个子系统A1、A2而言，它们的微观状态数应该有如下关系：

Ω(E1,E2)=Ω1(E1)Ω1(E2)=Ω1(E1)Ω2(E−E1)(eq.1)\Omega(E_1,E_2)=\Omega_1(E_1)\Omega_1(E_2)=\Omega_1(E_1)\Omega_2(E-E_1)\qquad (eq.1)Ω(E1,E2)=Ω1(E1)Ω1(E2)=Ω1(E1)Ω2(E−E1)(eq.1)

由此可见，孤立系统的微观状态数 Ω\OmegaΩ 取决于总能量在A1和A2之间的分配情况，Ω\OmegaΩ 取极大值，意味着相应的E1和E2是一种最概然的能量分配（待解决问题 2:为什么呢？）。可以认为最概然微观状态数对应的E1和E2就是A1和A2达到热平衡时的内能。由(eq.1)，我们可以将Ω\OmegaΩ 看作仅关于E1的函数，于是平衡时有 :
∂Ω(E1)∂E1=0⇒∂ln⁡Ω(E1)∂E1=∂ln⁡[Ω1(E1)Ω2(E2)]∂E1=∂ln⁡Ω1(E1)∂E1+∂ln⁡Ω2(E2)∂E1=∂ln⁡Ω1(E1)∂E1+∂ln⁡Ω2(E2)∂E−E2=∂ln⁡Ω1(E1)∂E1−∂ln⁡Ω2(E2)∂E2=0\begin{aligned} \frac{\partial \Omega(E_1)}{\partial E_1}=0&\Rightarrow\frac{\partial \ln \Omega(E_1)}{\partial E_1}=\frac{\partial \ln[\Omega_1(E_1)\Omega_2(E_2)]}{\partial E_1}\\&=\frac{\partial \ln \Omega_1(E_1)}{\partial E_1}+\frac{\partial \ln \Omega_2(E_2)}{\partial E_1}=\frac{\partial \ln \Omega_1(E_1)}{\partial E_1}+\frac{\partial \ln \Omega_2(E_2)}{\partial E-E_2}\\&=\frac{\partial \ln \Omega_1(E_1)}{\partial E_1}-\frac{\partial \ln \Omega_2(E_2)}{\partial E_2}=0\end{aligned}∂E1∂Ω(E1)=0⇒∂E1∂lnΩ(E1)=∂E1∂ln[Ω1(E1)Ω2(E2)]=∂E1∂lnΩ1(E1)+∂E1∂lnΩ2(E2)=∂E1∂lnΩ1(E1)+∂E−E2∂lnΩ2(E2)=∂E1∂lnΩ1(E1)−∂E2∂lnΩ2(E2)=0即两个系统达到热平衡时， ∂ln⁡Ω1(E1)∂E1=∂ln⁡Ω2(E2)∂E2\frac{\partial \ln \Omega_1(E_1)}{\partial E_1}=\frac{\partial \ln \Omega_2(E_2)}{\partial E_2}∂E1∂lnΩ1(E1)=∂E2∂lnΩ2(E2) ，由此我们令β=∂ln⁡Ω∂E\beta=\frac{\partial \ln\Omega}{\partial E}β=∂E∂lnΩ 。同理，在E1和E2,V1和V2恒等，N1和N2不确定的情况下，我们可以得到热平衡时 α=∂ln⁡Ω∂N\alpha=\frac{\partial\ln \Omega}{\partial N}α=∂N∂lnΩ ；在E1和E2,N1和N2恒等，V1和V2不确定的情况下，我们可以得到热平衡时 γ=∂ln⁡Ω∂V\gamma=\frac{\partial\ln \Omega}{\partial V}γ=∂V∂lnΩ。

第三步，让我们开始愉快地推导正则系综和巨正则系综的概率表达式吧

如图2所示，由 Ω(E)=Ωs(Es)Ωr(Er)\Omega(E)=\Omega_s(E_s)\Omega_r(E_r)Ω(E)=Ωs(Es)Ωr(Er) ,我们得到处在能量为Es的状态s的系统出现的概率为 ρs=1Ωs∝Ωr\rho_s=\frac{1}{\Omega_s}\propto \Omega_rρs=Ωs1∝Ωr（等可能原理得到的微正则系综概率表达式）。又因为 ln⁡Ωr(Er)=ln⁡Ωr(E−Es),且Es≪E\ln \Omega_r(E_r)=\ln \Omega_r(E-E_s) ,且 E_s\ll ElnΩr(Er)=lnΩr(E−Es),且Es≪E ,于是将 ln⁡Ωr(E−Es)\ln \Omega_r(E-E_s)lnΩr(E−Es) 在点E处进行泰勒展开得（我理解的是E为常数，所以在常数展开）：
ln⁡Ωr(E−Es)=ln⁡Ωr(E)+∂ln⁡Ωr(E)∂Er∣Er=E(−Es)=ln⁡Ωr(E)−βEs\ln \Omega_r(E-E_s)=\ln \Omega_r(E)+\frac{\partial \ln \Omega_r(E)}{\partial E_r}_{|E_r=E}(-E_s)=\ln\Omega_r(E)-\beta E_slnΩr(E−Es)=lnΩr(E)+∂Er∂lnΩr(E)∣Er=E(−Es)=lnΩr(E)−βEs由于 ln⁡Ωr(E)\ln\Omega_r(E)lnΩr(E) 为常数，因此 ρs∝e−βEs\rho_s \propto e^{-\beta E_s}ρs∝e−βEs 。（注意此处若不用对数化处理，则最后算出来的 ρs\rho_sρs 是负值！这也是个数学上的处理经验吧！）

最后引入配分函数，得到ρs=1Ze−βEs\rho_s =\frac{1}{Z}e^{-\beta E_s}ρs=Z1e−βEs ，配分函数可以由归一化条件求得，即 Z=∑se−βEsZ=\sum_s e^{-\beta E_s}Z=∑se−βEs 。

同理，我们再来搞定巨正则系综的概率表达式。如图3所示，做法同上，这里我们就直接上公式，不再赘述了,由 ρNs=1Ωs∝Ωr\rho_{Ns}=\frac{1}{\Omega_s}\propto\Omega_rρNs=Ωs1∝Ωr， ln⁡Ωr(Er,Nr)=ln⁡Ωr(E0−Es,N0−N)=ln⁡Ωr(E0,N0)+∂Ωr(E0,N0)∂Er(−Es)+∂Ωr(E0,N0)∂N(−N)=ln⁡Ωr(E0,N0)−βEs−αN\begin{aligned}\ln\Omega_r(E_r,N_r)&=\ln\Omega_r(E^0-E_s,N^0-N)\\& =\ln\Omega_r(E^0,N^0)+\frac{\partial\Omega_r(E^0,N^0)}{\partial E_r}(-E_s)+\frac{\partial\Omega_r(E^0,N^0)}{\partial N}(-N)\\&=\ln\Omega_r(E^0,N^0)-\beta E_s-\alpha N \end{aligned}lnΩr(Er,Nr)=lnΩr(E0−Es,N0−N)=lnΩr(E0,N0)+∂Er∂Ωr(E0,N0)(−Es)+∂N∂Ωr(E0,N0)(−N)=lnΩr(E0,N0)−βEs−αN 上述推导中为了避免符号重复，我们用 E0,N0E^0,N^0E0,N0 来代替EEE和NNN，因此有， ρNs∝e−βEs−αN\rho_{Ns} \propto e^{-\beta E_s-\alpha N}ρNs∝e−βEs−αN 。引入配分函数得到 ρNs=1Ξe−βEs−αN,Ξ=∑N∑se−βEs−αN\rho_{Ns}=\frac{1}{\Xi}e^{-\beta E_s-\alpha N},\Xi=\sum_N\sum_se^{-\beta E_s-\alpha N}ρNs=Ξ1e−βEs−αN,Ξ=∑N∑se−βEs−αN 。

至此，得到了正则系综和巨正则系综的“无简并的量子统计概率表达式”，那么它们的“有简并的量子概率表达式”和“经典统计表达式”也很容易写出来，这里将不再赘述。

2.最大熵原理推导正则系综和巨正则系综的概率表达式

我们首先来证明：

2.1 最大熵原理

如果密度函数 ρ(x)\rho(x)ρ(x) 有最大熵，且满足额外的限制条件： ⟨gi(x)⟩≡∫dxgi(x)ρ(x)=ηi,i=1,2,...,n\langle g_i(x) \rangle \equiv\int dxg_i(x)\rho(x)=\eta_i,i=1,2,...,n⟨gi(x)⟩≡∫dxgi(x)ρ(x)=ηi,i=1,2,...,n 这里的 gi(x),ηig_i(x),\eta_igi(x),ηi 均已知，那么 ρ(x)\rho(x)ρ(x) 的形式必为： ρ(x)=1Aexp⁡[−∑i=1nλigi(x)]\rho(x)=\frac{1}{A}\exp[-\sum_{i=1}^n \lambda_ig_i(x)]ρ(x)=A1exp[−i=1∑nλigi(x)]在证明之前，我们还得先搞清楚几个基本的概念和定理，如下：

2.2 信息熵

信息熵就是shannon大神搞出来的，因此我们也称它为shannon熵，它的公式是：
S(x)=−k∑ρ(x)ln⁡ρ(x)（离散型）S(x)=-k\sum\rho(x)\ln\rho(x)（离散型）S(x)=−k∑ρ(x)lnρ(x)（离散型） S(x)=−k∫dxρ(x)ln⁡ρ(x)（连续型）S(x)=-k\int dx\rho(x)\ln\rho(x)（连续型）S(x)=−k∫dxρ(x)lnρ(x)（连续型）shannon熵是怎么得来的，在笔者眼里一直是个谜。从学统计物理开始，就满怀期待能够从热力学熵推导出shannon熵，但最后仍还未实现愿望，反而领教到了从shannon熵推导出热力学熵的逆天操作。今天看了网上的一些资料，一定程度上能够加深笔者对shannon熵的理解，总结如下：

shannon熵被用来作为一个系统的信息含量的量化指标，从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。正如前面所学的，热平衡条件下系统的总内能最大（即可以看作是这里所说的系统“信息含量”最大），能量的分布是一种最概然分布。要求出这个最概然分布，我们就要借助最大熵原理，在此过程中判断求出的分布是否达到最概然分布，就要借助shannon熵来度量了。

shannon给出了信息熵具有的三个性质：
（1）单调性。发生概率越高的事件，其携带的信息量越低；
（2）非负性。信息熵可以看作为一种广度量，非负性是一种合理的必然；
（3）累加性。即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和，这也是广度量的一种体现。【1】

香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式，也就是我们看到的shannon熵。

首先我们看性质（1）,信息量的大小跟随机事件的概率有关。越小概率的事情发生了，则产生的信息量越大，如“我的电脑突然爆炸了”；越大概率的事情发生了产生的信息量越小，如“我的电脑正常开机“，这很好理解！因此一个具体事件的信息量应该是随着其发生概率而递减的，且不能为负。但是这个表示信息量函数的形式怎么找呢？随着概率增大而减少的函数形式太多了！不要着急，我们还有性质（3）。对于独立事件x和y，我们有ρ(x,y)=ρ(x)ρ(y)\rho(x,y)=\rho(x)\rho(y)ρ(x,y)=ρ(x)ρ(y) ，而性质（3）告诉我们他俩还应满足 S(x,y)=S(x)+S(y) 。可以很容易看出，H(x)一定是ρ(x)\rho(x)ρ(x) 的对数有关，,同时保证性质（2）的非负性，我们可以解出 S(x)=−ln⁡ρ(x)S(x)=-\ln \rho(x)S(x)=−lnρ(x) （其实对数的底不重要，这里我们就取e）。考虑该随机变量x的所有可能取值，即所有可能发生事件所带来的信息量的期望，即得到了离散型和连续型的shannon熵公式。（待解决问题 3:为什么前面要加一个k呢？）

信息熵还可以作为一个系统复杂程度的度量，如果系统越复杂，出现不同情况的种类越多，那么他的信息熵是比较大的，反之亦然。【3】

2.3 相对熵（KL散度）

如果我们对于同一个随机变量 x 有两个单独的概率分布ρ(x)\rho(x)ρ(x) 和 q(x) ，我们可以使用相对熵来衡量这两个分布的差异。他的公式是：S[ρ(x)∣q(x)]=−k∫dxρ(x)ln⁡ρ(x)q(x)S[\rho(x)|q(x)]=-k\int dx \rho(x)\ln\frac{\rho(x)}{q(x)}S[ρ(x)∣q(x)]=−k∫dxρ(x)lnq(x)ρ(x) 含义为：如果用 ρ(x)\rho(x)ρ(x) 来描述目标问题，而不是用 q(x) 来描述目标问题，所得到的信息增量。

比如在机器学习中， ρ(x)\rho(x)ρ(x) 往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。 q(x) 用来表示模型所预测的分布，比如[0.7,0.2,0.1]，直观的理解就是如果用P来描述样本，那么就非常完美。而用q(x)来描述样本，虽然可以大致描述，但是不是那么的完美，信息量不足，需要额外的一些“信息增量”才能达到和ρ(x)\rho(x)ρ(x)一样完美的描述。如果我们的q(x)通过反复训练，也能完美的描述样本，那么就不再需要额外的“信息增量”，q(x)等价于ρ(x)\rho(x)ρ(x)。【2】

（已解决问题4:证明：（1） S[ρ(x)∣q(x)]≤0S[\rho(x)|q(x)]\leq0S[ρ(x)∣q(x)]≤0 ；（2） S12≤S1+S2S_{12}\leq S_1+S_2S12≤S1+S2 。）

2.4 拉格朗日乘子法

我们马上就可以开始推导最大熵原理了，现在是万事具备，只欠拉格朗日乘子法～下面先让我们一起来看一看吧！

作为一种优化算法，拉格朗日乘子法主要用于解决约束优化问题，它的基本思想就是通过引入拉格朗日乘子来将含有n个变量和k个约束条件的约束优化问题转化为含有（n+k）个变量的无约束优化问题。拉格朗日乘子背后的数学意义是其为约束方程梯度线性组合中每个向量的系数。【4】

在笔者看来，用拉格朗日乘子法解决约束优化问题的思路，首先要构建“目标模型”，找到合适的“约束条件”（在笔者看来这一点比较难），然后就能够构造出“辅助函数”，解“偏微分方程组”。下面，我们就可以开始推导最先所说的最大熵原理了，并以此为例来感受拉格朗日乘子法的威力。

在2.1的定理中，“目标模型”是求熵出概率密度函数的熵，即 ρ(x)=−k∫dxρ(x)ln⁡ρ(x)\rho(x)=-k\int dx\rho(x)\ln\rho(x)ρ(x)=−k∫dxρ(x)lnρ(x) “约束条件”在定理中已经给出，可以写成<gi(x)>=∫dxρ(x)gi(x)−ηi=0,i=1,2,...,n<g_i(x)>=\int dx\rho(x)g_i(x)-\eta_i=0,i=1,2,...,n<gi(x)>=∫dxρ(x)gi(x)−ηi=0,i=1,2,...,n 因此可以构造出辅助函数如下所示（特别注意，约束条件的i包含从1到n，因此在构造的时候要全部作为约束条件的一部分写出来，用 ∑i=1n\sum_{i=1}^{n}∑i=1n ）： L(ρ(x),λ1,λ2,...,,λn)=−k∫dxρ(x)ln⁡ρ(x)−k∑i=1nλi[∫dxgi(x)ρ(x)−ηi]L(\rho(x),\lambda_1,\lambda_2,...,,\lambda_n)=-k\int dx\rho(x)\ln \rho(x)-k\sum_{i=1}^{n}\lambda_i[\int dx g_i(x)\rho(x)-\eta_i]L(ρ(x),λ1,λ2,...,,λn)=−k∫dxρ(x)lnρ(x)−ki=1∑nλi[∫dxgi(x)ρ(x)−ηi]（上式有个技巧，就是引入的拉格朗日乘子为 −kλi-k\lambda_i−kλi ,因为如果引入通常的 λi\lambda_iλi ，得不出最后的证明结果，再加上这里又不求出λi\lambda_iλi，因此往有利方向构造，如果要求，最终的结果应该也不会影响的。待解决问题4:真的不影响吗？）对辅助函数进行偏微分，得到如下形式：
δL(ρ(x),λ1,λ2,...,λn)δρ(x)=−k∫dx[ln⁡ρ(x)+1]−k∫dx∑i=1nλigi(x)=−k∫dx[ln⁡ρ(x)+1+∑i=1nλigi(x)]=0\begin{aligned}\frac{\delta L(\rho(x),\lambda_1,\lambda_2,...,\lambda_n)}{\delta \rho(x)}&=-k\int dx[\ln \rho(x)+1]-k\int dx\sum_{i=1}^{n}\lambda_ig_i(x)\\&=-k\int dx[\ln\rho(x)+1+\sum_{i=1}^n\lambda_ig_i(x)]\\&=0\end{aligned}δρ(x)δL(ρ(x),λ1,λ2,...,λn)=−k∫dx[lnρ(x)+1]−k∫dxi=1∑nλigi(x)=−k∫dx[lnρ(x)+1+i=1∑nλigi(x)]=0因此有： ln⁡ρ(x)+1+∑i=1nλigi(x)=0\ln\rho(x)+1+\sum_{i=1}^n\lambda_ig_i(x)=0 lnρ(x)+1+i=1∑nλigi(x)=0即 ln⁡ρ(x)=−1−∑i=1nλigi(x)∝−∑i=1nλigi(x)\ln\rho(x)=-1-\sum_{i=1}^n\lambda_ig_i(x)\propto-\sum_{i=1}^n\lambda_ig_i(x)lnρ(x)=−1−i=1∑nλigi(x)∝−i=1∑nλigi(x)最终我们可以证得： ρ(x)∝exp⁡[−∑i=1nλigi(x)]\rho(x)\propto\exp[-\sum_{i=1}^n \lambda_ig_i(x)]ρ(x)∝exp[−i=1∑nλigi(x)] 引入“配分函数”得 ρ(x)=1Aexp⁡[−∑i=1nλigi(x)]\rho(x)=\frac{1}{A}\exp[-\sum_{i=1}^n \lambda_ig_i(x)]ρ(x)=A1exp[−∑i=1nλigi(x)] ，其中A可以由归一化条件求得。

2.5 推导正则系综和巨正则系综的概率表达式

采用与上述相同的方法，我们能够容易地的到“目标模型”就是信息熵函数，关键在于找到合适的“约束条件”。

考虑系统的哈密顿量 H=∑i=1Npix2+piy2+piz22m+12∑j=1N∑i=1NU(∣ri−rj∣)H=\sum_{i=1}^{N}\frac{p_{ix}^2+p_{iy}^2+p_{iz}^2}{2m}+\frac{1}{2}\sum_{j=1}^N\sum_{i=1}^NU(|r_i-r_j|)H=i=1∑N2mpix2+piy2+piz2+21j=1∑Ni=1∑NU(∣ri−rj∣) 其中，第一项为动能项，写成动量 p 的形式是为了联系系统的动量和坐标空间；第二项为势能项，前面的1/2是为了去重。

我们可以开始推导：

（1）对于正则系综而言，“目标模型”为 S=−k∫dx1dy1dz1...dxNdyNdzNdpx1∫dpy1dpz1...dpxNdpyNdpzNρsln⁡ρs=−k∫dτρsln⁡ρs\begin{aligned}S&=-k\int dx_1dy_1dz_1...dx_Ndy_Ndz_Ndp_{x_1}\int dp_{y_1}dp_{z_1}...dp_{x_N}dp_{y_N}dp_{z_N}\rho_s\ln\rho_s\\&=-k\int d\tau\rho_s\ln\rho_s\end{aligned}S=−k∫dx1dy1dz1...dxNdyNdzNdpx1∫dpy1dpz1...dpxNdpyNdpzNρslnρs=−k∫dτρslnρs "约束条件“包括“能量守恒”，即 ∫Hsρsdτ=Es\int H_s\rho_s d \tau=E_s∫Hsρsdτ=Es。因此可以构造辅助函数
L=−k∫dτρsln⁡ρs−β(∫Hsρsdτ−Es)L=-k\int\ d\tau \rho_s \ln \rho_s-\beta (\int H_s\rho_s d\tau-E_s)L=−k∫ dτρslnρs−β(∫Hsρsdτ−Es) 此处的拉格朗日乘子取 −β-\beta−β ，最后对辅助函数求关于 ρs\rho_sρs 的泛函微分 δLδρs=−k∫dτ(ln⁡ρs+1)−β∫dτHs=−∫dτ(kln⁡ρs+k+βHs)=0\frac{\delta L}{\delta \rho_s}=-k\int d\tau(\ln \rho_s+1)-\beta\int d\tau H_s=-\int d\tau(k\ln \rho_s+k+\beta H_s)=0δρsδL=−k∫dτ(lnρs+1)−β∫dτHs=−∫dτ(klnρs+k+βHs)=0得到 ln⁡ρ∝−βH\ln \rho \propto -\beta Hlnρ∝−βH ，即可写为形式 ρs=1Ze−βHs\rho_s=\frac{1}{Z}e^{-\beta H_s}ρs=Z1e−βHs 。（如果不考虑势能，则此处 HsH_sHs 即为 EsE_sEs )

（2）同理，对于巨正则系综，“目标模型”为 S=−k∫dτ∑N=0∞ρNsln⁡ρNsS=-k\int d\tau\sum_{N=0}^{\infty}\rho_{Ns}\ln \rho_{Ns}S=−k∫dτN=0∑∞ρNslnρNs 约束条件包括“能量守恒”，即 ∑N=0∞∫HNsρNsdτ=Es\sum_{N=0}^{\infty}\int H_{Ns}\rho_{Ns} d \tau=E_{s}N=0∑∞∫HNsρNsdτ=Es 和“物质守恒”，即 ∑N=0∞∫NρNsdτ=N‾\sum_{N=0}^{\infty}\int N\rho_{Ns} d \tau=\overline NN=0∑∞∫NρNsdτ=N 于是构造辅助函数 L=−k∫dτ∑N=0∞ρNsln⁡ρNs−β(∫dτ∑N=0∞HsρNs−Es)−α(∫dτ∑N=0∞NρNs−N‾)L=-k\int d\tau \sum_{N=0}^{\infty}\rho_{Ns} \ln \rho_{Ns}-\beta (\int d\tau \sum_{N=0}^{\infty} H_s \rho_{Ns}-E_s)-\alpha(\int d\tau \sum_{N=0}^{\infty}N\rho_{Ns}-\overline N)L=−k∫dτN=0∑∞ρNslnρNs−β(∫dτN=0∑∞HsρNs−Es)−α(∫dτN=0∑∞NρNs−N) 最后对辅助函数求关于 ρNs\rho_{Ns}ρNs 的泛函微分得 δLδρNs=−k∫dτ∑N=0∞(ln⁡ρNs+1)−β∫dτ∑N=0∞Hs−α∫dτ∑N=0∞N=0\frac{\delta L}{\delta \rho_{Ns}}=-k\int d\tau \sum_{N=0}^{\infty}\ (\ln \rho_{Ns}+1)-\beta \int d\tau \sum_{N=0}^{\infty} H_s -\alpha\int d\tau \sum_{N=0}^{\infty}N=0δρNsδL=−k∫dτN=0∑∞ (lnρNs+1)−β∫dτN=0∑∞Hs−α∫dτN=0∑∞N=0得到
δLδρNs=∫dτ∑N=0∞(−kln⁡ρNs−k)−∫dτ∑N=0∞βHs∫dτ∑N=0∞−αN=∫dτ∑N=0∞(−kln⁡ρNs−k−βHs−αN)=0\begin{aligned}\frac{\delta L}{\delta \rho_{Ns}}&=\int d\tau \sum_{N=0}^{\infty}\ (-k\ln \rho_{Ns}-k)- \int d\tau \sum_{N=0}^{\infty} \beta H_s \int d\tau \sum_{N=0}^{\infty}-\alpha N\\&=\int d\tau\sum_{N=0}^{\infty}(-k\ln \rho_{Ns}-k-\beta H_s-\alpha N) \\&=0\end{aligned}δρNsδL=∫dτN=0∑∞ (−klnρNs−k)−∫dτN=0∑∞βHs∫dτN=0∑∞−αN=∫dτN=0∑∞(−klnρNs−k−βHs−αN)=0 因此有 ρNs=1Ξe−βEs−αN。\rho_{Ns}=\frac{1}{\Xi}e^{-\beta E_s-\alpha N}。ρNs=Ξ1e−βEs−αN。

3. 热力学模型推导正则系综和巨正则系综的熵公式

让我们来简单回顾一下，正则系综的熵公式：
S=k(ln⁡Z−β∂∂βln⁡Z)S=k(\ln Z-\beta \frac{\partial}{\partial \beta}\ln Z)S=k(lnZ−β∂β∂lnZ)巨正则系综的熵公式：
S=k(ln⁡Ξ−α∂∂αln⁡Ξ−β∂∂βln⁡Ξ)S=k(\ln \Xi-\alpha \frac{\partial}{\partial \alpha}\ln \Xi-\beta \frac{\partial}{\partial \beta}\ln \Xi)S=k(lnΞ−α∂α∂lnΞ−β∂β∂lnΞ)此处的热力学推导就留给读者先自行思考完成吧，笔者到后面有时间再补充。待解决问题5

4. 信息熵推导正则系综和巨正则系综的熵公式

很简单，我们已经的到了信息熵公式 S=−k∫dxρ(x)ln⁡ρ(x)S=-k\int dx \rho(x)\ln \rho(x)S=−k∫dxρ(x)lnρ(x)，正则系综、巨正则系综的概率表达式ρs=1Ze−βEs和ρNs=1Ξe−βEs−αN\rho_s=\frac{1}{Z}e^{-\beta E_s}和 \rho_{Ns}=\frac{1}{\Xi}e^{-\beta E_s-\alpha N}ρs=Z1e−βEs和ρNs=Ξ1e−βEs−αN 。我们要做的就是将概率表达式代入到信息熵公式中去。推导如下所示：

（1）对于正则系综
S=−k∫dx1Ze−βEsln⁡1Ze−βEs=−k∫dx1Ze−βEs(−βEs−ln⁡Z)=kln⁡Z+−βkZ∫dxe−βEs(−Es)=kln⁡Z+−βkZ∫dx∂e−βEs∂β=kln⁡Z+−βkZ∂∫dxe−βES∂β=kln⁡Z−βk1Z∂Z∂β=k(ln⁡Z−β∂∂βln⁡Z)\begin{aligned}S&=-k \int dx \frac{1}{Z}e^{-\beta E_s}\ln \frac{1}{Z}e^{-\beta E_s}=-k\int dx\frac{1}{Z}e^{-\beta E_s}(-\beta E_s-\ln Z)\\&=k \ln Z+\frac{-\beta k}{Z}\int dx e^{-\beta E_s}(-E_s)=k \ln Z+\frac{-\beta k}{Z}\int dx \frac{\partial e^{-\beta E_s}}{\partial \beta}\\&=k\ln Z+\frac{-\beta k}{Z}\frac{\partial\int dx e^{-\beta E_S}}{\partial \beta}=k \ln Z-\beta k \frac{1}{Z} \frac{\partial Z}{\partial \beta}\\&=k(\ln Z-\beta \frac{\partial}{\partial \beta}\ln Z)\end{aligned}S=−k∫dxZ1e−βEslnZ1e−βEs=−k∫dxZ1e−βEs(−βEs−lnZ)=klnZ+Z−βk∫dxe−βEs(−Es)=klnZ+Z−βk∫dx∂β∂e−βEs=klnZ+Z−βk∂β∂∫dxe−βES=klnZ−βkZ1∂β∂Z=k(lnZ−β∂β∂lnZ)（2）对于巨正则系综
S=−k∫dx1Ξe−βEs−αNln⁡1Ξe−βEs−αN=−k∫dx1Ξe−βEs−αN[(−βEs−αN)−ln⁡Ξ]=kln⁡Ξ−kΞ∫dx[β∂e−βEs−αN∂β+α∂e−βEs−αN∂α]=kln⁡Ξ−kβ1Ξ(∂Ξ∂β)−kα1Ξ∂Ξ∂α=k(ln⁡Ξ−β∂∂βln⁡Ξ−α∂∂αln⁡Ξ)\begin{aligned}S&=-k\int dx \frac{1}{\Xi}e^{-\beta E_s-\alpha N}\ln \frac{1}{\Xi}e^{-\beta E_s-\alpha N}=-k\int dx \frac{1}{\Xi}e^{-\beta E_s-\alpha N}[( -\beta E_s-\alpha N)-\ln \Xi]\\&=k\ln\Xi-\frac{k}{\Xi} \int dx[\beta\frac{\partial e^{-\beta E_s-\alpha N}}{\partial \beta}+\alpha\frac{\partial e^{-\beta E_s-\alpha N}}{\partial \alpha}]=k\ln \Xi-k\beta \frac{1}{\Xi}(\frac{\partial \Xi}{\partial \beta})-k\alpha \frac{1}{\Xi}\frac{\partial \Xi}{\partial \alpha}\\&=k(\ln \Xi-\beta \frac{\partial}{\partial \beta} \ln\Xi-\alpha\frac{\partial}{\partial \alpha}\ln\Xi)\end{aligned}S=−k∫dxΞ1e−βEs−αNlnΞ1e−βEs−αN=−k∫dxΞ1e−βEs−αN[(−βEs−αN)−lnΞ]=klnΞ−Ξk∫dx[β∂β∂e−βEs−αN+α∂α∂e−βEs−αN]=klnΞ−kβΞ1(∂β∂Ξ)−kαΞ1∂α∂Ξ=k(lnΞ−β∂β∂lnΞ−α∂α∂lnΞ)

5. 小结

结束了第一部分的学习后，至少要做到：

（1）能够写出正则系综、巨正则系综的“无简并的量子统计概率表达式“、”有简并的量子统计概率表达式“和”经典概率统计表达式“，以及它们的熵公式。明确公式中 β\betaβ、α\alphaα 以及 γ\gammaγ 的含义及推导；（提示：1. 能量换做哈密顿量，然后把简并度公式换一下；2. 微正则系综是s=kln⁡Ωs=k \ln \Omegas=klnΩ，公式的形式是有规律的）

（2）会用热力学模型推导正则系综和巨正则系综的概率表达式；

（3）能够写出最大熵原理、信息熵和相对熵的公式；（提示：1. 这个额外条件和矩的公式很像，不过这里换成了 ρ(x)\rho(x)ρ(x) ；2.写后两者公式不要把外面那一层积分弄丢了！真正理解它的含义才能保证任何时候写对！）

（4）会证明：（1） S[ρ(x)∣q(x)]≤0S[\rho(x)|q(x)]\leq0S[ρ(x)∣q(x)]≤0 ；（2） S12≤S1+S2S_{12}\leq S_1+S_2S12≤S1+S2 ；（提示：1. 取一次倒数，再用不等式 ln⁡z≤z−1\ln z\leq z-1lnz≤z−1 ；2. 利用相对熵的结论的到 ln⁡ρ(x1)+ln⁡ρ(x2)≤ln⁡ρ(x1,x2)\ln \rho(x_1)+\ln \rho(x_2)\leq\ln \rho(x_1,x_2)lnρ(x1)+lnρ(x2)≤lnρ(x1,x2)，再带入熵公式计算，用到一个边缘概率密度）

（5）会证明最大熵原理；（提示：注意构造技巧，和求和符号必须带上）

（6）会用最大熵原理（实际就是拉格朗日乘子法）推导正则系综和巨正则系综的概率表达式；（提示：把目标函数和约束条件，尤其是约束条件弄清楚）

（7）用统计熵推导正则系综和巨正则系综的熵公式。

下一篇：《高等统计物理学》3：量子系综

参考资料
【1】信息熵及其相关概念
【2】一文搞懂交叉熵在机器学习中的使用，透彻理解交叉熵背后的直觉
【3】一看就懂的信息熵
【4】最优化方法：拉格朗日乘数法
【5】我的高统老师的授课PPT