三 数据分析基础 -关于统计学
统计学是数据分析的基石
- 基本的统计量:均值、中位数、众数、方差、标准差、百分位数等
- 概率分布:几何分布、二项分布、泊松分布、正态分布等
- 总体和样本:了解基本概念,抽样的概念
- 置信区间与假设检验:如何进行验证分析
相关性与回归分析:一般数据分析的基本模型
目录
一 集中趋势
二 变异性
三 归一化
四 正态分布
五 抽样分布
六 估计
七 假设检验
八 T检验
一 集中趋势
1 众数
- 出现频率最高的数
2 中位数
- 把样本值排序,分布在最中间的值
- 样本总数为奇数时,中位数为第(n+1)/2 个值
- 样本总数为偶数时,中位数是第 n/2 个,第(n/2)+1 个值的平均数
3 平均数
- 所有数的总和除以样本数量
平均数会因为某些极值的出现收到很大影响此时,“中位数”更能合理的反映真实的情况
二 变异性
1 四分位数
“中位数”,把样本分成了两部分,再找个这两部分各自的“中位数”,就把样本分为了 4 个部
分,其中 1/4 处的值记为 Q1,2/4 处的值记为 Q2,3/4处的值记为 Q3
2 四分位距 —— IQR = Q3 - Q1
3 异常值
- 小于 Q1-1.5(IQR)或者大于 Q3+1.5(IQR)
- 应在数据处理环节剔除
4 方差
5 平方偏差
- 方差的算数平方根
6 贝塞尔矫正
- 修正样本方差
实际计算方差时,分母要用 n-1,而不是样本数量 n
比如在高斯分布里,抽取一部分样本,用样本的方差表示满足高斯分布的大样本数据集的方差。由于样本主要是落在 x=u 中心值附近,那么样本如果用如下公式算方差,那么预测方差一定小于大数据集的方差(因为高斯分布的边沿抽取的数据也很少)。为弥补这方面的缺陷,那么我们把公式的 n 改为 n-1,以此来提高方差的数值,也就是贝塞尔矫正系数
三 归一化
1 标准分数
- 一种可以看出某分数在分布中相对位置的方法
- 能够真实反映一个分数距离平均数的相对标准距离
四 正态分布
1 定义 随机变量 X 服从一个数学期望为μ,方差为σ⊃2;的正态分布,记为N(μ,σ⊃2)
2 随机取一个样本
- 有 68.3%的概率位于距离均值μ有 1 个标准差σ内
- 有 95.4%的概率位于距离均值μ有 2 个标准差σ内
- 有 99.7%的概率位于距离均值μ有 3 个标准差σ内
五 抽样分布
1 中心极限定理
设从均值为μ,方差为σ⊃2的任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ⊃2/n 的正态分布
2 抽样分布
设总体共有 N 个元素,从中随机抽取一个容量为 n 的样本,在重置抽样时,共有 N·n 种抽法,即可以组成 N·n 不同的样本,在不重复抽样时,共有 N·n 个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此样本均值的概率分布实际上是一种理论分布
数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的 1/n
六 估计
1 误差界限
2 置信度
有百分之多少确信总体中的值落在一个特定范围内
一般情况下,取 95%的置信度
3 置信区间
七 假设检验
“大多数鸡有两只脚吗?”这个问题的难点在于,我们很难说清楚“大多数鸡有两只脚”为什么是对的
- 显著水平
首先,什么是“大多数”,每个人想法可能都不一样
因此,我们需要挑选一个显著水平,于是我们假设a = 0.5
问题转化为,“超过50%的鸡有两只脚吗”
1.What is 显著性水平?
a 显著性水平 是估计总体参数落在某一区间内,可能犯错误的概率
b 零假设与对立假设
由于我们很难证明某种说法是对的
因此我们设法寻找该说法的对立面是错误的证据
如果我们可以设法证明该说法的对立面是错误的,那么就相当于证明了该说法本身是正确的
所以,建立两个相互对立的假设
零假设 超过50%的鸡少于两只脚
对立假设 超过50%的鸡有两只脚
经数据显示,64.3%的样本有两只脚,35.7%的样本少于两只脚
c 统计学结论
拒绝零假设(大多数鸡少于两只脚)
相当于接收对立假设(大多数鸡有两只脚)
2.How 选择备选的检验和零假设?
- 一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致
- 同时将研究者想收集证据证明其不正确的假设作为原假设 H0
八 T检验
主要用于样本含量较小(如 n<30 ),总体标准差σ 未知的正态分布
1 主要步骤
- 建立假设、确定检验水准
- 计算检验统计量
- 查相应界值表,确定P值,下结论
- 用 t 分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著
- 一般检验水准α取 0.05 即可
- 计算检验统计量的方法根据样本形式不同
2 独立样本T检验
T 检验查表时取 n-1——样本均值替代总体均值损失了一个自由度
3 配对样本T检验
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里就出现了配对
样本误差
4 合并方差
当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差,其本质是两个样本方差的加权平均
5 Cohen’s d
效应量 提示组间真正的差异占统计学差异的比例——值越大,组间差异越可靠
三 数据分析基础 -关于统计学相关推荐
- 数据分析基础篇---统计学基础
描述数据 1.频数分布表.树图. 频数密度=频数/组距 2.算数平均值.中位数.众数 3.四分位数间距法(剔除异常值)/百分位数 ----展示方式:矩形-胡须图(也叫箱线图) 数据排序 中位数分成项数 ...
- 数据分析必备的统计学知识(一)
数据分析师的必备技能栈里,除了熟悉业务.掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识. 为什么对于数据分析师来说 ...
- 【统计学习】25个必须掌握的数据分析基础概念
16个必须掌握的数据分析基础概念 1. 描述性统计 2. 假设性检验 2.1 参数检验 2.2 非参数检验 3. 置信度分析 4. 列联表分析 5. 相关分析 6. 方差分析 7. 回归分析 8. 聚 ...
- python 数据分析基础 day1-初窥内容
在读这本书之前,我已经有开始学python,用的是anaconda 的jupyter notebook. 看了<python 数据分析基础>的前言部分,发现这本书的实用性很高,其讲解的内容 ...
- [Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象
欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...
- python部分引入total值的问题_Python数据分析基础与过程综述,关键数据预处理异常点的发现与处理,python,及,流程,回顾,重点,之,值...
一. python数据分析基础库的导入 基本是固定搭配 import numpy as np #科学计算基础库,多维数组对象ndarray import pandas as pd #数据处理库,Dat ...
- python数据分析与excel_读Python数据分析基础之Excel读写与处理
对于业务型数据分析来说,Excel可以说是打交道最多的软件了,可以说没有之一.之前有比较系统地读过<Python数据分析基础>(Foundations for Analysis with ...
- 大数据时代数据资产管理“五星模型”:三个基础两个飞轮
伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度.数据已经作为企业重要资产被广泛应用于盈利分析与预测.客户关系管理.合规性监管.运营风险关理等业务当中. 大数 ...
- 数据分析(一)- 数据分析基础及matplotlib
目录 为什么要学习数据分析 什么是数据分析 环境安装 认识jupyter notebook matplotlib matplotlib绘制折线图 plt.plot maplotlib基础绘图 设置图片 ...
最新文章
- 多继承中虚基类构造函数的一种调用规则
- poj2226(最小顶点覆盖)
- 对超线程几个不同角度的解释
- 甲骨文预言机平台(1)业务流程
- Cpp / __builtin_expect 说明
- asp.net2.0跨域问题
- 信息学奥赛C++语言:打擂台
- OpenCV中基本数据结构(4)_Rect
- 初中计算机网络的教案20分钟,初中网络安全教育教案
- java string 栈_Java堆和栈的区别(String类)
- php对接银行接口,php 银行接口开发写法
- SprinMVC解决URL多个参数
- 通达OA的一些资源地址,持续更新
- python求解二次规划问题
- 【计算机基础】计算机发展历程
- 台式机鼠标失灵打开计算机,台式电脑鼠标没反应是怎么回事
- 哈希表算法通俗理解和实现
- 5种经典程序化日内交易策略
- CAD导入卫星地图几种方式
- Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci,IMPLICIT) for operat