距离徐院士给我推荐这本书已经过去了快两个月,但因为已经不报希望了,所以就一直迟迟没有开始看,最近把小论文先投了一个会议,大论文完成了第一稿,想着是时候把这本书看看了。但是,第一页的内容就看了好几个小时。近几年,记忆力越来越不好好,趁着下午新学的还热乎,赶紧总结一下。

Suppose we have observed numbers x_1,x_2,...,x_n applying to some phenomenon of interest, perhaps the automobile accident rates in the n=50 states. The mean $\bar x = \sum\limits_1^n {{x_i}/n} $ summarizes the results in a single number.

这里一开始理解了很久,一开始认为是一个随机事件,共包含50种状态,其中每种状态的观测次数为$x_i$,所以一直不明白为什么均值是$\bar x = \sum\limits_1^n {{x_i}/n} $?后来根据后面的standard error,而不是standard deviation才知道应该将整个思考的思路变换为统计学的思路。

这里的50应该是50次抽样,每次的均值是$x_i$。比如说想知道中国人的平均身高,共抽样了n=50次,每次抽样的身高不一样,为$x_i$。这n组不一样的“平均身高”本身组成了一个样本分布,这个分布的均值就是 $\bar x = \sum\limits_1^n {{x_i}/n} $。

How accurate is that number? The textbook answer is given in terms of the standard error,$\hat s = {[\sum\limits_1^n {({x_i} - \bar x)/(n(n - 1))} ]^{1/2}}$.

standard error(SE)区别于standard deviation(SD),SD为标准差,用来表示样本离散程度的,它表示的是样本们和样本均值之间的偏离程度。SE是标准误,是样本统计量的标准差,最常用的均值的标准误,通常又被称为(standard error of mean),即当前样本和总体真实平均数的偏离程度。如果知道真实总体均值的标准差,那么标准误$\hat s = {\sigma  \over {\sqrt n }}$,在不知道真实总体均值的标准差情况下,则用样本的标准差,采用它的无偏估计$\hat s = {s \over {\sqrt {n - 1} }}$,其中$s = \sqrt {\sum\limits_1^n {{1 \over n}} {{({x_i} - \bar x)}^2}} $。

最后,附上知乎上举的这个例子,

你想知道全中国人的平均身高,然后从男篮抽了5个人,假设平均身高1.9米。如果你想告诉大家这个1.9能够有意义,至少需要告诉大家这5个人之见的差异不是很大,否则大家会怀疑这个均值没有代表性。这就是SD要小才比较好的道理。但是,即使这里你的SD很小,大家就会相信吗?并不是,原因就是虽然SD小,但是n也很小,也就是说你样本数仅仅是总体的很小一部分,很可能你抽到的这一部分不具有代表性或者说它本身就是和总体均值相差颇远的一块样本空间。如何评判你抽的样本均值好不好呢,很简单,SD除以根号n。这就是SEM。很明显看出来,SEM不仅包括了样本离散信息,还包括了你这个样本靠不靠谱的程度(n越大越靠谱咯,最好n就是总体N)。(个人觉得这里这个标准误的计算应该是SD除以根号n-1,举这个例子只是帮助理解标准差和标准误的物理意义)

说白了,你想用SD来告诉大家你的抽样均值很准确,前提是你的样本数要足够大,所以仅仅用SD是不够用的,需要再除以根号n,用SEM更为合适。



Algorithms and Inference相关推荐

  1. 姚班天才少年鬲融凭非凸优化研究成果获得斯隆研究奖

    近日,美国艾尔弗·斯隆基金会(The Alfred P. Sloan Foundation)公布了2019年斯隆研究奖(Sloan Research Fellowships)获奖名单,华裔学者鬲融获此 ...

  2. 【NIPS2018】Spotlight及Oral论文汇总

    nips2018 spotlight (168篇)和Oral(30篇)是会议中较为出色的论文,(点击论文可以查看对应摘要和链接) 1.Oral [神经元容量]On Neuronal Capacity ...

  3. 【学习笔记】计算机时代的统计推断(Bradley Efron and Trevor Hastie 著)

    序言 英文版教材免费下载地址: CASI 笔者本来是打算写来作为期末复习使用的, 但是发现写着写着变成了翻译教材, 实在是太草了; 本来以为提前一个星期动笔一定可以趁复习时顺手做完这本教材的摘要, 现 ...

  4. Information Theory, Inference, and Learning Algorithms

    http://www.inference.phy.cam.ac.uk/mackay/itila/

  5. JointDNN: An Effificient Training and Inference Engine for Intelligent Mobile Cloud Computing Servic

    题目:JointDNN: An Effificient Training and Inference Engine for Intelligent Mobile Cloud Computing Ser ...

  6. Computer vision: models, learning and inference 学习笔记1:引言

    学习笔记1:引言 目的 model,learning and inference 的含义 独特之处:基于模型的知识结构体系 最关键的是:模型(model) 目的 学习<computer visi ...

  7. Edge AI边缘智能:Communication-Efficient Edge AI: Algorithms and Systems(未完待续)

    边缘设备的大规模部署产生了空前规模的数据,这为在网络边缘开发各种智能应用提供了机会.然而,由于不同的信道质量.网络拥挤和隐私问题,这些庞大的数据不可能全部从终端设备发送到云端进行处理.通过将人工智能模 ...

  8. Classification and inference with machine learning

    machine learning作业代写.代做Markdown留学生作业.代写python, C/C++编程语言作业 Project 3 Classification and inference wi ...

  9. 变分推断(variational inference)/variational EM

    诸神缄默不语-个人CSDN博文目录 由于我真的,啥都不会,所以本文基本上就是,从0开始. 我看不懂的博客就是写得不行的博客.所以我只写我看得懂的部分. 持续更新. 文章目录 1. 琴生不等式 2. 香 ...

最新文章

  1. Kendo UI Web教程分享
  2. 数据结构读书笔记---------第一章 绪论
  3. python【蓝桥杯vip练习题库】ALGO-106 6-3判定字符位置
  4. python教学研究_Python程序设计课程教学研究
  5. mysql使用主从复制迁移,[MySQL进阶之路][No.0003] 主从复制(Replication)在运维中的运用...
  6. jdk解压版_命令行版的斗地主你玩过没?
  7. 什么是CDI,它与@EJB和Spring有什么关系?
  8. 【高性能定时器】 时间轮
  9. Linux之cd命令
  10. PyTorch 模型训练实用教程(附代码)
  11. 昔年浅谈电商服务业务应如何推广
  12. HCNA-RS笔记-20171105-day03
  13. 网页滚动条向下拉动奇慢的原因
  14. 使用react-pdf预览pdf
  15. 奈奎斯特判据的个人理解
  16. ffmpeg视频滤镜中英文对照
  17. c# workflow集成_将Google Wave与Windows Workflow集成
  18. C++ 与 elang 通信注意问题
  19. Box2D 源码编译
  20. linux spec 脚本,RPM包制作之Spec文件详解

热门文章

  1. Linux 0.11-打开终端设备文件-33
  2. Markdown-vscode编写规则
  3. 解决Vant组件库tabs标签页选中状态与当前页面不匹配
  4. 4 亿用户,7W+ 作业调度难题,Bigo 基于 Apache DolphinScheduler 巧化解
  5. 这样学习C语言最有效(连载2)——趣味、通俗、实用的计算机达人成长之路之C语言高级技巧篇
  6. b站崩溃,程序员熬夜,灵活用工势在必行
  7. JavaScript截取数组常用方法
  8. 双向链表(3) - 反转双向链表
  9. 苹果iPhone 5 4S发布会现场实录
  10. dns被劫持了怎么办、DNS是什么【详解】