On Optimal and Data-Based Histograms

Author(s) : David W. Scott
Source : Biometrika, Vol. 66, No. 3 (Dec., 1979), pp. 605-610
Published by: Biometrika Trust
Accessed : 26/08/2010 16:51

摘要

在本文中给出了最佳直方图单元格宽度的公式,该公式渐近地使积分均方误差最小化。 蒙特卡罗方法用于验证该公式对小样本的有效性。提出了一种基于数据的选择箱宽参数的程序,该程序采用高斯参考标准,并且仅需要样本大小和标准偏差的估计值。使用几种违反高斯假设的概率模型研究了该过程的敏感性。

关键词:频率分布 直方图 非参数密度估计 最佳箱宽

1. 全文简介

直方图是经典的非参数密度估计量可以追溯到1662年John Graunt的死亡率研究。如今直方图仍然是显示和汇总数据的重要统计工具。另外它提供了对真实潜在概率密度函数的一致估计。当前用于构建直方图的准则并未直接解决估计偏差和方差的问题。相反它们在很大程度上取决于研究人员的直觉和过去的经验。在本文中,我们提出了一种新的准则通过考虑均方误差准则来减少直方图构建中的主观性。

2. 研究背景

我们仅研究等距网格 { t n i ; − ∞ < i < + ∞ } \{t_{ni}; -\infty <i < +\infty \} {tni​;−∞<i<+∞}且箱宽度为 h n = t n ( i + 1 ) − t n h_n = t_{n(i+1)}-t_n hn​=tn(i+1)​−tn​的直方图,其中n表示样本大小并强调网格和箱宽度对样本大小的依赖性。对于固定点 x x x,其真实概率密度 f ( x ) f(x) f(x)与直方图估计密度 f ^ ( x ) \hat{f}(x) f^​(x)的均方误差定义为:

M S E ( x ) = E { f ^ ( x ) − f ( x ) } 2 \bf MSE \it (x) = E\{\hat{f}(x) - f(x) \}^2 MSE(x)=E{f^​(x)−f(x)}2

对于来自 f f f的大小为 n n n的随机样本,Cencov(1962)证明 M S E ( x ) \bf MSE\it(x) MSE(x)以 O ( n − 2 / 3 ) O(n^{-2/3}) O(n−2/3)的速率渐近收敛到零。此速率非常接近 O ( n − 1 ) O(n^{-1}) O(n−1)的Cramer-Rao下界。积分均方误差代表直方图估计值的整体误差度量,由下式定义:

I M S E ( x ) = ∫ E { f ^ ( x ) − f ( x ) } 2 d x \bf IMSE \it (x) = \int E\{\hat{f}(x) - f(x) \}^2 dx IMSE(x)=∫E{f^​(x)−f(x)}2dx

由于最关心的是概率密度的曲线形状,因此IMSE比密度均方误差更有意义。随着数据量以 O ( n − 2 / 3 ) O(n^{-2/3}) O(n−2/3)的速率增长,直方图的IMSE也收敛为零。

为了达到这样的收敛速度需要正确选择直方图的两个参数:箱宽度 h n h_n hn​和网格的相对位置。后者由任何特定的网格点(例如 t n 0 t_{n0} tn0​)来确定。统计学文献中提出了选择这两个参数的多种方法。

  • 首先通过在样本范围内选择适当数量的箱来间接确定箱宽度。大多数作者建议5-20个bin通常足以用于真实数据集(Haber&Runyon; Guttman&Wilks)。类似于Sturges在1926年提出的公式,Larson建议使用 1 + 2 ⋅ 2 log ⁡ 10 n 1+ 2 \cdot 2 \log_{10} n 1+2⋅2log10​n个箱体作为第一选择。 h n h_n hn​的最终选择通常是与数据集精度有关的整数或分数。
  • 接下来选择合适的 t n 0 t_{n0} tn0​使数据不会落在箱边界上。如果我们假设数据的测量精度是无限的,那么随着样本量的增加 t n 0 t_{n0} tn0​的选择就变得不那么重要了。由于我们关注一致性,因此我们将在续篇中假设 t n 0 = 0 t_{n0} = 0 tn0​=0。
  • 但是 h n h_n hn​的选择非常重要。如果 h n h_n hn​太小则直方图将太粗糙;如果 h n h_n hn​太大则直方图将过于平滑,这两种情况在统计上分别等效于大方差和大偏差。应通过最小化积分均方误差 来选择正确的 h n h_n hn​以平衡偏差和方差。

在过去的20年中,提出并研究了新的非参数密度估计量(Tapia&Thompso;Wegman)。这些新估计量中应用最广的是Rosenblatt和Parzen开发的核概率密度估计量。核估计量也是一致的而且其收敛速度为 I M S E = O ( n − 4 / 5 ) \bf IMSE = \it O(n^{-4/5}) IMSE=O(n−4/5),相较直方图有所改进。 尽管出现这些改进方法,但直方图依靠其易于计算且易于理解的优势依然在数据表示和密度估计中保持重要作用。 幸运的是通过使用核密度估计一致性证明中使用的技术,现在可以得出直方图的箱宽度 h n h_n hn​的最佳选择。

3. 最佳直方图箱宽度的求导

假设 x 1 , … , x n x_1,\dots,x_n x1​,…,xn​是来自具有连续概率密度函数 f f f分布产生的随机样本, 且函数 f f f二阶导连续有界。当 n n n变化时我们需要确定包含固定点 x x x的区间间隔。 令 I n ( x ) I_n(x) In​(x)间表示间隔, t n ( x ) t_n(x) tn​(x)表示 I n ( x ) I_n(x) In​(x)的左端点。 定义箱概率为:

p n ( x ) = ∫ t n ( x ) t n ( x ) + h n f ( y ) d y p_n(x) = \int^{t_n(x) + h_n}_{t_n(x)} f(y) dy pn​(x)=∫tn​(x)tn​(x)+hn​​f(y)dy

(略)

4. 小样本特性

(略)

5. 基于数据集的直方图

h n h_n hn​的最佳选择需要了解真实概率密度函数 f f f。在另一篇文章中,Tukey建议使用高斯密度作为参考标准,这一做法被广泛采用但使用时需谨慎。 因此我们提出了基于数据集的箱宽选择:

h n = 3.49 s n − 1 / 3 (6) h_n = 3.49 sn^{-1/3} \tag{6} hn​=3.49sn−1/3(6)
其中s是样本标准差的估计量。尽管高斯概率密度是该公式的基础,但这一假设不如样本符合高斯分布假设强,即在非高斯数据上使用公式(6)不会导致生成看起来像高斯分布的直方图。对于方差相等的密度函数,基于数据的选择(6)会求得相同的箱宽度。为了证明(6)对很大的一类概率密度有用,我们考虑了具有相同方差的高斯和非高斯密度并观察了它们在理论上的最佳箱宽(5)有何不同。 特别是,我们考虑了三种非高斯分布模型:偏态,重尾和双峰密度。

6. 样例

在图2中我们展示了由1000个生成自标准蒙特卡洛正态分布的数据集绘制的三个直方图。样本标准差为1.011,箱宽 h h h分别为 0.176 、 0.353 和 0.706 0.176、0.353和0.706 0.176、0.353和0.706,其中第二个箱宽选择 由公式(6)计算得出。开始 许多统计学家喜欢较小的箱宽和较粗糙的直方图,再由人眼判断完成最终的平滑处理。

为了验证非常大样本量时的估计情况,Kendall&Stuart曾研究301785个澳大利亚新郎年龄,箱宽为3年的直方图。这些数据的样本标准差和偏差分别为 7.97 7.97 7.97和 1.93 1.93 1.93。 因此 h h h基于数据的选择是0.41年,使用图1(a)求得的偏度校正因子为0.43,最终基于数据的选择是0.18年。 如果样本足够大使用1年甚至3个月的箱宽就可以保证精度。

7. 讨论

我们在研究直方图的最佳构造时既给出真实的潜在概率密度也给出更具普遍性的数据集。Waterman&Whiteman在近期对Rosenblatt的核估计器也进行了类似的处理。核估计比直方图收敛到真实概率密度的速度更快,因此积分均方误差对平滑参数的选择更为敏感(见Silverman1978)。此外核估计需要对整个数据集进行评估。因此在一些现代的自动数据收集器中,顺序地总结出相对较多的样本并使用少量训练样本来校准直方图的做法更经济。

在近期密度估计的非参数技术的发展中,研究者采用从构建直方图开始然后对其进行平滑处理(参见Boneva,Kendall和Stefanov 1971)。我们的程序可用于直接从数据中构建所需的直方图。 我们注意到,我们的分析很容易扩展到更高维度的直方图。

论文翻译——基于数据的最优直方图相关推荐

  1. 论文翻译-基于深度残差收缩网络的故障诊断 Deep Residual Shrinkage Networks for Fault Diagnosis

    深度残差收缩网络是深度残差网络的一种改进,针对的是数据中含有噪声或冗余信息的情况,将软阈值化引入深度残差网络的内部,通过消除冗余特征,增强高层特征的判别性.以下对部分论文原文进行了翻译,仅以学习为目的 ...

  2. 论文翻译 基于R-FCN的物体检测

    本文转载自: http://www.jianshu.com/p/db1b74770e52 题目:基于R-FCN的物体检测 文章地址:arXiv:1605.06409. <R-FCN: Objec ...

  3. [论文翻译]基于图像自适应GAN重建

    基于图像自适应GAN重构 摘要 介绍 相关工作 提出的方法 Image-Adaptive图像自适应方法 IAGAN的数学原理 对观察结果的"硬"和"软"遵从性 ...

  4. 【论文翻译】Accurate and Efficient Stereo Matching via Attention Concatenation Volume(CVPR 2022)

    一.论文简述 1. 第一作者:Gangwei Xu 2. 发表年份:2022 3. 发表期刊:arXiv 4. 关键词:立体匹配,代价体构建,注意力相关体,注意力过滤 5. 探索动机:现有的方法要不是 ...

  5. 基于MVS的三维重建算法学习笔记(四)— 立体匹配经典算法Semi-Global Matching(SGM)论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(四)- 立体匹配经典算法Semi-Global Matching(SGM)论文翻译及要点解读 声明 SGM概述 Cost Calculation(像素代价计算)--M ...

  6. 手机信令数据怎么获得_论文推荐 | 基于手机信令数据的大规模通勤模式研究(2020-12-01)...

    交通攻城狮,2020-12-01,第 76 期 1. 推荐论文基本信息 论文信息 今天推荐的论文源自期刊<Journal of Transport Geography>2020 年 12 ...

  7. RDD论文翻译:基于内存的集群计算容错抽象

    该论文来自Berkeley实验室,英文标题为:Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cl ...

  8. 【深度学习论文翻译】基于LSTM深度神经网络的时间序列预测(Time Series Prediction Using LSTM Deep Neural Networks)

    目录 一.前言 二.摘要 三.什么是LSTM神经元? 四.简单正弦波示例 五. 不那么简单的股票市场 六.多维LSTM预测 七.结论 一.前言 最近需要用到时间序列,在网上也找到了一篇相关的文章及源代 ...

  9. 基于MVS的三维重建算法学习笔记(五)— 立体匹配经典算法PatchMatch论文翻译及要点解读

    基于MVS的三维重建算法学习笔记(五)- 立体匹配经典算法PatchMatch论文翻译及要点解读 声明 问题提出 问题建模 通过PatchMatch获取平面参数--Inference via Patc ...

  10. RDD论文翻译 --弹性分布式数据集:一种基于内存的集群计算的容错性抽象方法

    原文出处:http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf 译文原处:http://blog.csdn.net/cj77 ...

最新文章

  1. 多视图立体匹配论文分享PVA-MVSNet
  2. 初识聚类算法:K均值、凝聚层次聚类和DBSCAN 转载的聚类总结
  3. 中国针状焦行业运营模式与投资风险评估报告2022-2028年
  4. Django(part26)--修改及删除记录
  5. 一种伪随机交织器的生成方法
  6. 扩展Asterisk1.8.7的CLI接口
  7. armv7 cortex a系列编程手册_STM32、Cortex-M3和ARMv8-M之间的关联
  8. 【游记】CCHO TY国初划水记
  9. SQL Server 漏洞评估工具
  10. 理解T-SQL: 触发器
  11. OpenJDK 源码阅读之 Java 字节流输入类的实现
  12. splice方法_JavaScript数组_数组方法【一】(二十六)
  13. POJ3080Blue Jeans
  14. java spark 项目_spark应用程序如何在Java项目中运行
  15. 固态硬盘在IDE、AHCI模式下的速度对比
  16. UE5 C++ Rider 编程指南 1.编辑器基础
  17. 迅捷无线路由器虚拟服务器,迅捷无线路由器怎么设置 迅捷无线路由器设置步骤【详解】...
  18. 奥巴马,别让底特律变成你的越南
  19. 世界上第一个微处理器真的是Intel 4004吗?其实这是个很复杂的故事…
  20. element-ui文件上传修改上传文件的格式

热门文章

  1. 使用佛洛伊德算法计算点对的最短路径
  2. django多种查询筛选数据库方式
  3. 开源治理,如何治而有方?
  4. So memorable的广州
  5. ABB机械臂手眼协作--空间点的坐标转换
  6. 为什么不建议普通人学习Python开发
  7. 实验日志二.预习过程+实验方案+源码
  8. 下载STM32单片机程序时,出现Flash Timeout. Reset the Target and try it again的解决办法。
  9. 联通软件研究院 软件开发校招一面面经
  10. 知识图谱-事件抽取综述