1 概率分布

1.1概率分布基础

1.1.1概率分布 : 每一个变量结果可能发生的概率

1.1.2随机变量

将随机事件出现的一个结果映射到一个数值的含义,通过数值量化随机事件,这就是随机变量的作用。(随机变量是量化随机事件的一个函数)

1.1.3 随机变量分类

1. 离散随机变量(Discrete random variable):取值是可数个值(且只能为自然数0、1、2...)的随机变量 。 对应概率计算公式: 概率质量函数(Probability Mass Function,PMF) PMF即离散随机变量在各特定取值上的概率

2. 连续随机变量(Continuous random variable):取值是一个区间中任一实数(即变量的取值可以是连续的)的随机变量 。对应概率计算公式:概率密度函数(Probability Density Function,PDF) PDF:连续随机变量的概率密度函数是描述这个随机变量的输出值,在某个特定取值点附近可能性的函数

1.2离散概率分布

1.2.1 伯努利分布(Bernoulli Distribution)

伯努利试验是在相互独立的条件下随机的实验,结果只有两种:成功/不成功,例如抛硬币实验。如果这个随机变量是伯努利实验,那么它就服从伯努利分布 .亦称“0-1分布”

1.2.2二项分布(Binomial Distribution)

即重复n次独立的伯努利实验,每次试验中只有两种可能的结果。

1.2.3几何分布(Geometric Distribution)

在n次伯努利试验中,试验k次才得到第一次成功的机率。也就是说:前k-1次皆失败,第k次成功的概率

1.2.4泊松分布(Poisson Distribution)

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。 比如:在一定时间内某交通路口所发生的事故个数

1.3连续概率分布

1.3.1正态分布(The Normal Distribution)

正态分布也被称为高斯分布或钟形曲线,这是统计学中最重要的概率分布 。这是一个对称分布,其中大多数观测值聚集在具有最高发生概率的中心峰平均值μ附近,并且当观测值在两个方向上都偏离中心峰时,曲线尾部出现值的可能性越来越小

1.3.2幂律分布(Power law distribution)

幂律分布表现为斜率为负的幂指数的直线,概率越高,占比越小,生活中的马太效应及长尾分布都是幂律分布的典型案例

2. 抽样分布

2.1总体和样本

总体:包含所研究的全部个体(数据)的集合。

样本:研究中实际观测或调查的一部分个体称为样本,从总体中选取

样本数量:有多少个样本

样本容量:每个样本中有多少数据

抽样分布:将样本的平均值分布可视化

2.2中心极限定理

演示中心极限定理的游戏:Sampling Distributions​onlinestatbook.com

中心极限定理的准定义是:中心极限定理(CLT)指出,如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关

结论:

1、样本均值约等于总体的平均值

2、不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体平均值周围,并且呈正态分布

用处:

(1)在没有办法得到总体全部数据的情况下,我们可以用样本来估计总体

中心极限定理告诉我们,一个正确抽取的样本不会与其所代表的群体产生较大差异。也就是说,样本结果能够很好地体现整个群体的情况 统计概率中假设检验的原理

(2)根据总体的平均值和标准差,判断某个样本是否属于总体:

通过中心极限定理的正态分布,我们就能计算出某个样本属于总体的概率是多少。如果概率非常低,那么我们就能自信满满地说该样本不属于该群体

这也是统计概率中假设检验的原理 下一篇介绍:假设检验

2.3 利用样本估计总体

2.4如何避免偏差样本偏差:以偏概全,用样本推断总体,样本大小一定要足够大才可以。

幸存者偏差:通常关注显而易见的样本,而忽略了不容易出现的样本。也就是忽略了样本被筛选过了。所以在思考问题时一定要从多个角度去看。

概率偏见:主观概率和客观概率不吻合。

信息茧房:人们的信息领域会习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。也就是说,随着个性化推荐的发展,我们看见的信息仅是自己感兴趣事情的时候,这样就造成了我们的信息茧房。

统计学python是什么方向的_python--统计学理论基础相关推荐

  1. python在统计专业的应用_Python统计学一数据的概括性度量详解

    一.数据的概括性度量 1.统计学概括: 统计学是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.统计学主 ...

  2. 应用统计学大数据方向报名自述_应用统计学专业大数据方向人才培养方案

    应用统计学专业(大数据方向)人才培养方案 学科门类:理学 二 级 类:统计学类 专业代码: 071202 英文名称: Applied Statistics ( Big data ) 一.专业培养目标 ...

  3. 应用统计学大数据方向报名自述_应用统计学专业大数据方向人才培养方案上课讲义...

    应用统计学专业(大数据方向)人才培养方案 学科门类:理学 二 级 类:统计学类 专业代码: 071202 英文名称: Applied Statistics ( Big data ) 一.专业培养目标 ...

  4. 应用统计学大数据方向报名自述_应用统计学专业大数据方向人才培养方案..doc...

    应用统计学专业(大数据方向)人才培养方案 学科门类:理学 二 级 类:统计学类 专业代码: 071202 英文名称: Applied Statistics ( Big data ) 一.专业培养目标 ...

  5. 应用统计学大数据方向报名自述_应用统计学专业(大数据方向)人才培养方案

    应用统计学专业(大数据方向)人才培养方案 学科门类:理学 二 级 类:统计学类 专业代码: 071202 英文名称: Applied Statistics ( Big data ) 一.专业培养目标 ...

  6. python场景应用方向_python的应用场景及学习方向

    Python特点 1.Python使用C语言开发,但是Python不再有C语言中的指针等复杂的数据类型. 2.Python具有很强的面向对象特性,而且简化了面向对象的实现.它消除了保护类型.抽象类.接 ...

  7. python的工作方向-python工作方向,发展方向?

    根据题主的情况,先来说说Python有哪些就业方向吧. python的应用范围很广,这也就使得python的就业方向相对来说还是比较多的,首先是web方向,因为python学习的其中一个阶段就是pyt ...

  8. python哪个方向简单_现在学Python,哪个方向最简单?哪个方向最吃香 ?

    " 我想学Python,但是学完Python后都能干啥 ?" " 现在学Python,哪个方向最简单?哪个方向最吃香?" " -- " 相信 ...

  9. python学什么方向就业好_学习python就业方向都有哪些?

    谢邀 我在学习的过程中,深深的觉得对于成人或者进入职场的人来说,学习一门新的知识,目的不在于积累,而在于解决问题. 所以这就要求我想明白3个问题: 1).学习python,要解决什么问题? 2).要学 ...

最新文章

  1. 软件设计之 数据库设计
  2. html5转apicloud,使用APICloud编写优雅的HTML5代码
  3. 扩增子分析解读7物种分类统计,筛选进化树和其它
  4. mycat快速体验(转)
  5. Java并发控制基础篇 Thread继承类和Runnable实现类
  6. 关于UIAlertActionStyle的一些知识点
  7. 可穿戴设备对企业的积极意义
  8. 前端学习(2752):global全局设置
  9. segmenter.go
  10. linux 端口号查看
  11. 常见的数据库连接字符串收集
  12. idea项目名后出现中括号别名
  13. C语言 VS快速输入main函数
  14. 深度学习:卷积神经网络之移动网络(MobileNet)
  15. 【C语言】------ 实现三子棋
  16. 背景图片,banner图片随屏幕大小变化而变化
  17. BDCN:Bi-Directional Cascade Network for Perceptual Edge Detection论文解读和代码实现
  18. 游戏纽约夜生活java汉化_纽约玩乐--夜生活开启诱惑模式
  19. 360Buy刘强东:中国电子商务还没形成产业
  20. Flink SQL学习笔记

热门文章

  1. 超融合的网络bond和bridge模式。kvm+bond+bridge
  2. 复试编程训练真题——C语言,统计各单词(字符)出现的次数,并将各单词(字符)和其出现的次数输出到屏幕和文件中
  3. 虚拟运行ur5时,出现的问题
  4. python鼠标绘图_python 基于opencv 实现一个鼠标绘图小程序
  5. 古琴入门基础知识【古琴打谱的方法一】——唐畅古琴
  6. 面试详解之Java8为什么用红黑树来实现HashMap
  7. Resetting first dirty offset of __consumer_offsets
  8. 13位时间戳(单位为毫秒)转换为10位字符串(单位为秒)
  9. java 拼音 联想_solr6.6.2之拼音联想
  10. scrapy爬取天涯帖子内容