统计学是数据分析的基石

  • 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等
  • 概率分布:几何分布、二项分布、泊松分布、正态分布等
  • 总体和样本:了解基本概念,抽样的概念
  • 置信区间与假设检验:如何进行验证分析
  • 相关性与回归分析:一般数据分析的基本模型

目录

一 集中趋势

二 变异性

三 归一化

四 正态分布

五 抽样分布

六 估计

七 假设检验

八 T检验


一 集中趋势

1 众数

  • 出现频率最高的数

2 中位数

  • 把样本值排序,分布在最中间的值
  • 样本总数为奇数时,中位数为第(n+1)/2 个值
  • 样本总数为偶数时,中位数是第 n/2 个,第(n/2)+1 个值的平均数

3 平均数

  • 所有数的总和除以样本数量

平均数会因为某些极值的出现收到很大影响此时,“中位数”更能合理的反映真实的情况

二 变异性

1 四分位数

“中位数”,把样本分成了两部分,再找个这两部分各自的“中位数”,就把样本分为了 4 个部

分,其中 1/4 处的值记为 Q1,2/4 处的值记为 Q2,3/4处的值记为 Q3

2 四分位距 —— IQR = Q3 - Q1

3 异常值 

  • 小于 Q1-1.5(IQR)或者大于 Q3+1.5(IQR)
  • 应在数据处理环节剔除

4 方差

5 平方偏差

  • 方差的算数平方根

6 贝塞尔矫正 

  • 修正样本方差

 实际计算方差时,分母要用 n-1,而不是样本数量 n

比如在高斯分布里,抽取一部分样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在 x=u 中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为弥补这方面的缺陷,那么我们把公式的 n 改为 n-1,以此来提高方差的数值,也就是贝塞尔矫正系数

三 归一化

1 标准分数

  • 一种可以看出某分数在分布中相对位置的方法
  • 能够真实反映一个分数距离平均数的相对标准距离

四 正态分布

1 定义 随机变量 X 服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2)

2 随机取一个样本

  • 有 68.3%的概率位于距离均值μ有 1 个标准差σ内
  • 有 95.4%的概率位于距离均值μ有 2 个标准差σ内
  • 有 99.7%的概率位于距离均值μ有 3 个标准差σ内

五 抽样分布

1 中心极限定理

        设从均值为μ,方差为σ⊃2的任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2/n 的正态分布

2 抽样分布

设总体共有 N 个元素,从中随机抽取一个容量为 n 的样本,在重置抽样时,共有 N·n 种抽法,即可以组成 N·n 不同的样本,在不重复抽样时,共有 N·n 个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此样本均值的概率分布实际上是一种理论分布

数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的 1/n

六 估计

1 误差界限

2 置信度

有百分之多少确信总体中的值落在一个特定范围内

一般情况下,取 95%的置信度

3 置信区间

七 假设检验

“大多数鸡有两只脚吗?”这个问题的难点在于,我们很难说清楚“大多数鸡有两只脚”为什么是对的

  • 显著水平

首先,什么是“大多数”,每个人想法可能都不一样

因此,我们需要挑选一个显著水平,于是我们假设a = 0.5

问题转化为,“超过50%的鸡有两只脚吗”

1.What is 显著性水平?

a 显著性水平 是估计总体参数落在某一区间内,可能犯错误的概率

b 零假设与对立假设

由于我们很难证明某种说法是对的

因此我们设法寻找该说法的对立面是错误的证据

如果我们可以设法证明该说法的对立面是错误的,那么就相当于证明了该说法本身是正确的

所以,建立两个相互对立的假设

零假设  超过50%的鸡少于两只脚

对立假设  超过50%的鸡有两只脚

经数据显示,64.3%的样本有两只脚,35.7%的样本少于两只脚

c 统计学结论

拒绝零假设(大多数鸡少于两只脚)

相当于接收对立假设(大多数鸡有两只脚)

2.How 选择备选的检验和零假设?

  • 一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致
  • 同时将研究者想收集证据证明其不正确的假设作为原假设 H0

八 T检验

  主要用于样本含量较小(如 n<30 ),总体标准差σ 未知的正态分布

1 主要步骤

  1. 建立假设、确定检验水准
  2. 计算检验统计量
  3. 查相应界值表,确定P值,下结论
  • 用 t 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著
  • 一般检验水准α取 0.05 即可
  • 计算检验统计量的方法根据样本形式不同

2 独立样本T检验 

  T 检验查表时取 n-1——样本均值替代总体均值损失了一个自由度

3 配对样本T检验

分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里就出现了配对

 样本误差

4 合并方差

当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差,其本质是两个样本方差的加权平均

5 Cohen’s d

        效应量 提示组间真正的差异占统计学差异的比例——值越大,组间差异越可靠

三 数据分析基础 -关于统计学相关推荐

  1. 数据分析基础篇---统计学基础

    描述数据 1.频数分布表.树图. 频数密度=频数/组距 2.算数平均值.中位数.众数 3.四分位数间距法(剔除异常值)/百分位数 ----展示方式:矩形-胡须图(也叫箱线图) 数据排序 中位数分成项数 ...

  2. 数据分析必备的统计学知识(一)

    数据分析师的必备技能栈里,除了熟悉业务.掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识. 为什么对于数据分析师来说 ...

  3. 【统计学习】25个必须掌握的数据分析基础概念

    16个必须掌握的数据分析基础概念 1. 描述性统计 2. 假设性检验 2.1 参数检验 2.2 非参数检验 3. 置信度分析 4. 列联表分析 5. 相关分析 6. 方差分析 7. 回归分析 8. 聚 ...

  4. python 数据分析基础 day1-初窥内容

    在读这本书之前,我已经有开始学python,用的是anaconda 的jupyter notebook. 看了<python 数据分析基础>的前言部分,发现这本书的实用性很高,其讲解的内容 ...

  5. [Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

  6. python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...

    一. python数据分析基础库的导入 基本是固定搭配 import numpy as np #科学计算基础库,多维数组对象ndarray import pandas as pd #数据处理库,Dat ...

  7. python数据分析与excel_读Python数据分析基础之Excel读写与处理

    对于业务型数据分析来说,Excel可以说是打交道最多的软件了,可以说没有之一.之前有比较系统地读过<Python数据分析基础>(Foundations for Analysis with ...

  8. 大数据时代数据资产管理“五星模型”:三个基础两个飞轮

    伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度.数据已经作为企业重要资产被广泛应用于盈利分析与预测.客户关系管理.合规性监管.运营风险关理等业务当中. 大数 ...

  9. 数据分析(一)- 数据分析基础及matplotlib

    目录 为什么要学习数据分析 什么是数据分析 环境安装 认识jupyter notebook matplotlib matplotlib绘制折线图 plt.plot maplotlib基础绘图 设置图片 ...

最新文章

  1. 多继承中虚基类构造函数的一种调用规则
  2. poj2226(最小顶点覆盖)
  3. 对超线程几个不同角度的解释
  4. 甲骨文预言机平台(1)业务流程
  5. Cpp / __builtin_expect 说明
  6. asp.net2.0跨域问题
  7. 信息学奥赛C++语言:打擂台
  8. OpenCV中基本数据结构(4)_Rect
  9. 初中计算机网络的教案20分钟,初中网络安全教育教案
  10. java string 栈_Java堆和栈的区别(String类)
  11. php对接银行接口,php 银行接口开发写法
  12. SprinMVC解决URL多个参数
  13. 通达OA的一些资源地址,持续更新
  14. python求解二次规划问题
  15. 【计算机基础】计算机发展历程
  16. 台式机鼠标失灵打开计算机,台式电脑鼠标没反应是怎么回事
  17. 哈希表算法通俗理解和实现
  18. 5种经典程序化日内交易策略
  19. CAD导入卫星地图几种方式
  20. Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci,IMPLICIT) for operat

热门文章

  1. 370A. Rook, Bishop and King codeforce题解
  2. C#模拟登录普联TP-LINK的AP设备(数据分析之登录篇)
  3. AI系统Corti检测心脏病发作,准确率远超人类
  4. 信息安全等级保护划分五级及等保级别适用行业...
  5. PHP苹果内购回调处理
  6. 打开csdn,ie报R6025错误
  7. AirPods无法充电的解决方法
  8. 微信内部跳转App:wx-open-launch-app
  9. 读取文本文件的最后n行
  10. 45K!刚面完 AI 岗,这几点分享给你!