论文翻译——基于数据的最优直方图

On Optimal and Data-Based Histograms

Author(s) : David W. Scott
Source : Biometrika, Vol. 66, No. 3 (Dec., 1979), pp. 605-610
Published by: Biometrika Trust
Accessed : 26/08/2010 16:51

摘要

在本文中给出了最佳直方图单元格宽度的公式，该公式渐近地使积分均方误差最小化。蒙特卡罗方法用于验证该公式对小样本的有效性。提出了一种基于数据的选择箱宽参数的程序，该程序采用高斯参考标准，并且仅需要样本大小和标准偏差的估计值。使用几种违反高斯假设的概率模型研究了该过程的敏感性。

关键词：频率分布直方图非参数密度估计最佳箱宽

1. 全文简介

直方图是经典的非参数密度估计量可以追溯到1662年John Graunt的死亡率研究。如今直方图仍然是显示和汇总数据的重要统计工具。另外它提供了对真实潜在概率密度函数的一致估计。当前用于构建直方图的准则并未直接解决估计偏差和方差的问题。相反它们在很大程度上取决于研究人员的直觉和过去的经验。在本文中，我们提出了一种新的准则通过考虑均方误差准则来减少直方图构建中的主观性。

2. 研究背景

我们仅研究等距网格 { t n i ; − ∞ < i < + ∞ } \{t_{ni}; -\infty <i < +\infty \} {tni;−∞<i<+∞}且箱宽度为 h n = t n ( i + 1 ) − t n h_n = t_{n(i+1)}-t_n hn=tn(i+1)−tn的直方图，其中n表示样本大小并强调网格和箱宽度对样本大小的依赖性。对于固定点 x x x，其真实概率密度 f ( x ) f(x) f(x)与直方图估计密度 f ^ ( x ) \hat{f}(x) f^(x)的均方误差定义为：

M S E ( x ) = E { f ^ ( x ) − f ( x ) } 2 \bf MSE \it (x) = E\{\hat{f}(x) - f(x) \}^2 MSE(x)=E{f^(x)−f(x)}2

对于来自 f f f的大小为 n n n的随机样本，Cencov（1962）证明 M S E ( x ) \bf MSE\it(x) MSE(x)以 O ( n − 2 / 3 ) O(n^{-2/3}) O(n−2/3)的速率渐近收敛到零。此速率非常接近 O ( n − 1 ) O(n^{-1}) O(n−1)的Cramer-Rao下界。积分均方误差代表直方图估计值的整体误差度量，由下式定义：

I M S E ( x ) = ∫ E { f ^ ( x ) − f ( x ) } 2 d x \bf IMSE \it (x) = \int E\{\hat{f}(x) - f(x) \}^2 dx IMSE(x)=∫E{f^(x)−f(x)}2dx

由于最关心的是概率密度的曲线形状，因此IMSE比密度均方误差更有意义。随着数据量以 O ( n − 2 / 3 ) O(n^{-2/3}) O(n−2/3)的速率增长，直方图的IMSE也收敛为零。

为了达到这样的收敛速度需要正确选择直方图的两个参数：箱宽度 h n h_n hn和网格的相对位置。后者由任何特定的网格点（例如 t n 0 t_{n0} tn0）来确定。统计学文献中提出了选择这两个参数的多种方法。

首先通过在样本范围内选择适当数量的箱来间接确定箱宽度。大多数作者建议5-20个bin通常足以用于真实数据集（Haber＆Runyon; Guttman＆Wilks）。类似于Sturges在1926年提出的公式，Larson建议使用 1 + 2 ⋅ 2 log ⁡ 10 n 1+ 2 \cdot 2 \log_{10} n 1+2⋅2log10n个箱体作为第一选择。 h n h_n hn的最终选择通常是与数据集精度有关的整数或分数。
接下来选择合适的 t n 0 t_{n0} tn0使数据不会落在箱边界上。如果我们假设数据的测量精度是无限的，那么随着样本量的增加 t n 0 t_{n0} tn0的选择就变得不那么重要了。由于我们关注一致性，因此我们将在续篇中假设 t n 0 = 0 t_{n0} = 0 tn0=0。
但是 h n h_n hn的选择非常重要。如果 h n h_n hn太小则直方图将太粗糙；如果 h n h_n hn太大则直方图将过于平滑，这两种情况在统计上分别等效于大方差和大偏差。应通过最小化积分均方误差来选择正确的 h n h_n hn以平衡偏差和方差。

在过去的20年中，提出并研究了新的非参数密度估计量（Tapia＆Thompso;Wegman）。这些新估计量中应用最广的是Rosenblatt和Parzen开发的核概率密度估计量。核估计量也是一致的而且其收敛速度为 I M S E = O ( n − 4 / 5 ) \bf IMSE = \it O(n^{-4/5}) IMSE=O(n−4/5)，相较直方图有所改进。尽管出现这些改进方法，但直方图依靠其易于计算且易于理解的优势依然在数据表示和密度估计中保持重要作用。幸运的是通过使用核密度估计一致性证明中使用的技术，现在可以得出直方图的箱宽度 h n h_n hn的最佳选择。

3. 最佳直方图箱宽度的求导

假设 x 1 , … , x n x_1,\dots,x_n x1,…,xn是来自具有连续概率密度函数 f f f分布产生的随机样本，且函数 f f f二阶导连续有界。当 n n n变化时我们需要确定包含固定点 x x x的区间间隔。令 I n ( x ) I_n(x) In(x)间表示间隔， t n ( x ) t_n(x) tn(x)表示 I n ( x ) I_n(x) In(x)的左端点。定义箱概率为：

p n ( x ) = ∫ t n ( x ) t n ( x ) + h n f ( y ) d y p_n(x) = \int^{t_n(x) + h_n}_{t_n(x)} f(y) dy pn(x)=∫tn(x)tn(x)+hnf(y)dy

（略）

4. 小样本特性

（略）

5. 基于数据集的直方图

h n h_n hn的最佳选择需要了解真实概率密度函数 f f f。在另一篇文章中，Tukey建议使用高斯密度作为参考标准，这一做法被广泛采用但使用时需谨慎。因此我们提出了基于数据集的箱宽选择：

h n = 3.49 s n − 1 / 3 (6) h_n = 3.49 sn^{-1/3} \tag{6} hn=3.49sn−1/3(6)
其中s是样本标准差的估计量。尽管高斯概率密度是该公式的基础，但这一假设不如样本符合高斯分布假设强，即在非高斯数据上使用公式(6)不会导致生成看起来像高斯分布的直方图。对于方差相等的密度函数，基于数据的选择(6)会求得相同的箱宽度。为了证明(6)对很大的一类概率密度有用，我们考虑了具有相同方差的高斯和非高斯密度并观察了它们在理论上的最佳箱宽(5)有何不同。特别是，我们考虑了三种非高斯分布模型：偏态，重尾和双峰密度。

6. 样例

在图2中我们展示了由1000个生成自标准蒙特卡洛正态分布的数据集绘制的三个直方图。样本标准差为1.011，箱宽 h h h分别为 0.176 、 0.353 和 0.706 0.176、0.353和0.706 0.176、0.353和0.706，其中第二个箱宽选择由公式(6)计算得出。开始许多统计学家喜欢较小的箱宽和较粗糙的直方图，再由人眼判断完成最终的平滑处理。

为了验证非常大样本量时的估计情况，Kendall＆Stuart曾研究301785个澳大利亚新郎年龄，箱宽为3年的直方图。这些数据的样本标准差和偏差分别为 7.97 7.97 7.97和 1.93 1.93 1.93。因此 h h h基于数据的选择是0.41年，使用图1(a)求得的偏度校正因子为0.43，最终基于数据的选择是0.18年。如果样本足够大使用1年甚至3个月的箱宽就可以保证精度。

7. 讨论

我们在研究直方图的最佳构造时既给出真实的潜在概率密度也给出更具普遍性的数据集。Waterman＆Whiteman在近期对Rosenblatt的核估计器也进行了类似的处理。核估计比直方图收敛到真实概率密度的速度更快，因此积分均方误差对平滑参数的选择更为敏感（见Silverman1978）。此外核估计需要对整个数据集进行评估。因此在一些现代的自动数据收集器中，顺序地总结出相对较多的样本并使用少量训练样本来校准直方图的做法更经济。

在近期密度估计的非参数技术的发展中，研究者采用从构建直方图开始然后对其进行平滑处理（参见Boneva，Kendall和Stefanov 1971）。我们的程序可用于直接从数据中构建所需的直方图。我们注意到，我们的分析很容易扩展到更高维度的直方图。