概率论与统计推断(四) ------ 统计推断
![](/assets/blank.gif)
本节目标 :
![](/assets/blank.gif)
一.概率论与统计推断的关系
![](/assets/blank.gif)
根据观测到的有限数据,反向思考其数据生成过程,是因为以下两个定理 :
![](/assets/blank.gif)
二.总体与样本
总体:
![](/assets/blank.gif)
![](/assets/blank.gif)
样本:
![](/assets/blank.gif)
三.直方图与箱线图(机器学习的数据探索部分会用上)
频率直方图可以反映数据的概率密度函数:
![](/assets/blank.gif)
四分位数:
![](/assets/blank.gif)
Q1范围的来由 : 至少有12 4=3个数不大于Q1,至少有120.75=9的数据不小于Q1,5满足此条件,8不满足此条件,因此取5和8的中位数
箱线图:中心位置是M
散步程度:因为数据量一定,越窄的面积越小,数据也就越集中
![](/assets/blank.gif)
箱线图的重要作用 : 检测异常点
红短线部分是疑似异常点:异常点上面的黑短线是Q1-1.5IQR
上面长方形中的红线是M
![](/assets/blank.gif)
箱线图还适合检测比较两个或两个以上数据集的性质
从下图两个箱线图可得知:男教师的中位数比女教师的高(因为黄长方形的中心位置比橙长方形的中心位置高)
同时可以看出男教师的得分比较分散,没有女教师的集中
看右边的直方图是看不出来的
![](/assets/blank.gif)
四.极大似然估计
1.似然函数
离散型 :
![](/assets/blank.gif)
连续型:
![](/assets/blank.gif)
两者的区别只是使用的函数不同
2.极大似然估计
频率学派的观点,认为有上帝在制造这些数据时参数是固定的,我们要考虑的就是每个值最有可能是这些参数值
局限性 : 只看重事实结果,在样本容量不大的时候得到的结果往往并不可靠
![](/assets/blank.gif)
极大似然估计就是似然函数取最大值的时候对应的θ:
![](/assets/blank.gif)
五.最大后验公式
贝叶斯学派的观点,认为并没有上帝视角,要确定这些数据是由固定参数制造出来的,因此我们关心每个参数的可能取值,给这些值一些自己认为合理的假设值(就是先验分布函数)
局限性 : 先验分布是个非常主观的判断,无法解释取什么分布函数比较合适
与似然函数的区别,是否有先验分布函数:
![](/assets/blank.gif)
10次抛硬币问题:函数取最大值时相比最大似然估计,最大后验估计往左移(是受到先验分布函数的影响)
![](/assets/blank.gif)
要消除两种估计的分歧 : 增加试验的次数
1000次抛硬币:
![](/assets/blank.gif)
案例:
![](/assets/blank.gif)
先求似然函数:T表示转置,将横向量转为列向量
![](/assets/blank.gif)
有似然函数后再求先验分布函数:先假设W0与W1都服从N(0,T^2)[题目没有,主观认为]
![](/assets/blank.gif)
最后得到的式子比较重要,在机器学习的线性回归部分会用到
![](/assets/blank.gif)
概率论与统计推断(四) ------ 统计推断相关推荐
- casella pdf 统计推断_统计推断_PDF图书下载_George Casella,Roger L. Berger_免费PDF电子书下载_第一图书网...
内容概要 本书从概率论的基础开始,通过例子与习题的旁征博引,引进了大量近代统计处理的新技术和一些国内同类教材中不能见而广为使用的分布.其内容包括工科概率论入门.经典统计和现代统计的基础,又加进了不少近 ...
- 统计推断(一) Hypothesis Test
个人博客地址 Glooow,欢迎光临~~~ 文章目录 1. Binary Bayesian hypothesis testing 1.0 Problem Setting 1.1 Binary Baye ...
- 统计推断(二) Estimation Problem
1. Bayesian parameter estimation Formulation Prior distribution px(⋅)p_{\mathsf{x}}(\cdot)px(⋅) Obs ...
- 数学知识——概率统计(8)统计推断之参数估计:极大似然估计和最大后验概率
目录 1. 统计推断 概念 问题表述 小结 参数估计 抽样分布 假设检验 2. 两大估计方法后面的学派 概率的定义 本质区别 3. 参数估计的思想 3.1 最大似然估计(MLE) 3.2 贝叶斯估计: ...
- 统计推断(九) Graphical models
1. Undirected graphical models(Markov random fields) 节点表示随机变量,边表示与节点相关的势函数 px(x)∝φ12(x1,x2)φ13(x1,x3 ...
- 【概率论】- (2)假设检验
文章目录 1. 概念与求解思路 1.1 关键概念 1.2 求解思路 2. 双边检验与单边检验 2.1 双边检验 2.2 单边检验 3. 另一种求解思路:p值检验 3.1 求解思路 3.2 单边检验 3 ...
- 第三届蓝桥杯C/C++组第九题 足球比赛(概率论+随机数)
足球比赛具有一定程度的偶然性,弱队也有战胜强队的可能. 假设有甲.乙.丙.丁四个球队.根据他们过去比赛的成绩,得出每个队与另一个队对阵时取胜的概率表: 甲 乙 丙 丁 甲 - 0.10.3 ...
- sas table将缺失值计入百分比_SAS系列28:SAS宏语言(一)
导读 前面我们介绍了应用SAS实现数据集的创建.数据整理和清洗.数据的统计描述和简单的统计推断方法.在写这一期文章之前一直在纠结,是否要把SAS宏语言放在这一期开始介绍?考虑到宏语言可以实现代码的重复 ...
- 入门之路:“机器学习初学者”公众号2019年的精选原创文章
"机器学习初学者"公众号2019年的精选原创文章合集,适合初学者入门 AI.本文建议用微信收藏,用碎片时间学习.(黄海广) 导语 AI 初学者最大的问题就是:资料太多!!!看不完! ...
最新文章
- 硬货 | 一文解读完五篇重磅ACL2017 NLP论文
- 81. Leetcode 21. 合并两个有序链表 (排序)
- python实现图的数据存储_Neo4j推出基于Python的嵌入式图数据存储
- JVM类加载机制详解(一)JVM类加载过程
- source ~/.bashrc 什么意思
- php odbc驱动,用于Windows的PHP 7.0 ODBC驱动程序
- asp.net(C#)时间相减 得到天数、小时、分钟、秒差
- 计算机二级C语言题库
- 《创业时,我们在知乎聊什么》- 书摘
- ARM交叉编译工具链安装和使用教程【图文并茂】
- Ubuntu 突然不然联网解决方法
- SQL 视频整体总结
- 定期报告系统服务器出错 1,做好Web服务器的日常维护必备常识
- 苹果要创新,IPhone是累赘
- 基于python分析微信好友的性别分布,区域分布,词云分析,头像拼接
- 未来架构:从服务化到云原生
- Aloha和时隙Aloha介绍与分析
- Android开发——程序锁的实现(可用于开发钓鱼登录界面)
- VIM 中使用 Ctrl-A 和 Ctrl-X 控制数字增减
- 【行业动态】福建服装品牌如何完成差异化战略?
热门文章
- 百度深陷点击欺诈纠纷 当事各方说法不一
- 教你用Python实现经典游戏《泡泡龙》
- 复制文件或文件夹时出错(无法复制***:没有足够的可用磁盘空间。) .
- RealPlayer.11.6.0.14.748 新体验
- 下载 RealPlayer 失败
- x64环境下_findnext()函数报错——0xC0000005: 写入位置 0xFFFFFFFFDF47C5A0 时发生访问冲突
- 第十三章 J20飞机游戏项目完整代码(尚学堂java300集笔记)
- CAD错误以及解决方案
- dcmtk医学图像处理教程(一)环境配置VS2019+dcmtk3.6.6
- [admin]-02