数据挖掘与数据分析(二)—— 探索性数据分析EDA(单因子与对比分析) 可视化 (1) —— 集中趋势 离中趋势 数据分布(偏态系数峰态系数正态分布三大分布)抽样理论(误差精度)
探索性数据分析最重要的作用是把数据的全貌进行展现
单因子分析
- 集中趋势:均值、中位数与分位数、众数
- 离中趋势:标准差、方差
- 数据分布:偏态与峰态、正态分布与三大分布
- 抽样理论:抽样误差、抽样精度
集中趋势
集中趋势——均值、中位数、众数、分位数
集中趋势是数据聚拢位置的一种衡量
分位数
分位数就是把数据从小到大排列,切分成等份的数据点
分位数和其他几个值共同作用,有时会产生一些不错的效果
分位数当中最常用到的是四分位数
四分位数的计算方法
- Q1的位置=(n+1)*0.25
- Q2的位置=(n+1)*0.5
- Q3的位置=(n+1)*0.75
离中趋势
离中趋势——标准差、方差
离中趋势是数据离散程度的衡量
数据分布
数据分布主要包括偏态系数、峰态系数、正态分布和三大分布
偏态系数
偏态系数是数据平均值偏离状态的一种衡量
一个对称的分布其中位数和均值应该接近或者相等。如果一个分布中位数和均值差得比较多,这样的分布就是有偏态的分布
如果偏态系数值为正,就是正偏,就是均值比较大
如果偏态系数值为负,就是负偏,就是中位数比较小
峰态系数
峰态系数是数据分布集中强度的衡量
峰态系数越大其顶就会越尖锐,峰态系数越小其分布就会越平缓
正态分布的峰态系数一般是3
正态分布
三大分布
卡方分布、t分布和F分布
抽样理论
为什么要抽样呢,因为数据量可能异常大,全量计算的时间成本和现实成本都比较大
或者全量检验并不显示,比如测灯泡的寿命
抽样误差与精度
举例
数据挖掘与数据分析(二)—— 探索性数据分析EDA(单因子与对比分析) 可视化 (1) —— 集中趋势 离中趋势 数据分布(偏态系数峰态系数正态分布三大分布)抽样理论(误差精度)相关推荐
- 初学数据挖掘——数据探索(三):数据特征分析之对比分析
一.对比分析: 对比分析是将两个相互联系的指标进行比较,从数量上展示和说明研究对象的各种关系(规模的大小.水平的高低.速度的快慢等)是否协调.分析其中的差异,从而揭示这些事物代表的发展变化情况以及变化 ...
- 数据分析应用统计学之分散性与变异性的测量【极差、四分位差、偏态系数、峰态系数、统计指标】
文章目录 1.极差与四分位差(R) 2.方差与标准差(西格玛.V) 3.偏态系数与峰态系数(SK.β) 4.统计指标类型 1.极差与四分位差(R) 1)极差:称为全距,极大值减去极小值所得:主要用于衡 ...
- 单因子分析和对比分析
理论铺垫 1)集中趋势 均值.中位数.众数,分位数 均值:常用来衡量一些分布规律.均匀的连续值 中位数:衡量有些异常值,有些特别大,特别小时 众数:用来离散值的集中趋势衡量 分位数:把数据从小到大排列 ...
- Tableau实战 楼市降温分析(二)平均房价与GDP增加率对比分析
关注微信公共号:小程在线 关注CSDN博客:程志伟的博客 数据集见微信公共号链接 导入数据 a.将年份放入列,平均房价涨幅和GDP涨幅放入行. 标记卡的全部选择线. b.选择行的GDP涨幅右击- ...
- 【数据挖掘】金融风控 Task02 数据分析
[数据挖掘]金融风控 Task02 数据分析 1. 探索性数据分析(EDA)概述 1. 1 探索性数据分析概念 1.2 探索性数据分析目的 1.3 探索性数据分析(EDA)与传统统计分析(Classi ...
- 九、探索性数据分析的应用
1.探索性数据分析概述 探索性数据分析主要包括以下方面的内容: 探索性数据分析的概念 探索性数据分析的目的 探索性数据分析的常见工具 探索变量关系及其可视化 2 探索性数据分析的概念 1977年Joh ...
- 【数据分析】理解数据分析
说实话,在认认真真思考之前,我一直没弄明白到底什么是数据分析 什么是数据分析??? 明确定义 [数据分析与数据挖掘的区别]数据分析找数据变化的原 ...
- 水质评价--- 1单因子指数法
单因子指数法是通过计算超标指数来确定评价等级的方法,在针对单因子进行评价分析时,常常选用单因子指数法.若评价对象区域的一类水质污染物对水质影响较大且所占比例较大时,通过单因子指数法可以分析出水环境质量 ...
- 数据挖掘:探索性数据分析(EDA)(补充)
数据挖掘:探索性数据分析(EDA)(补充) 在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍.本篇文章主要讲这两方面 ...
- 数据挖掘:探索性数据分析(EDA)
数据挖掘:探索性数据分析(EDA) 一.什么是探索性数据分析 EDA (Exploratory Data Analysis),即对数据进行探索性的分析.充分了解数据,为之后的数据清洗和特征工程等提供想 ...
最新文章
- 去哪儿app_共享照片APP开发 让出行旅游不留遗憾
- [00028]-[2015-09-23]-[00]-[VC 关于Excel操作的测试]
- 查询数据库,处理NULL值问题
- linux x window system下载,为Ubuntu 添加 KDE X WINDOW SYSTEM
- java mp3转wav_在线语音转文字网站,快收藏起来
- Reflect.ownKeys
- AR Software
- php快速开发框架津县,BetePHP:一个轻量级快速开发框架
- java null转换jason_Java笔记Java常量、变量
- [css] 解释下 CSS sprites的原理和优缺点分别是什么
- 前端学习(2534)vue源码解析
- python实现的摩斯电码解码\编码器
- spring作用域单例和global_面试必备 | 69道Spring面试题
- lightGBM用于排序(Learning to Rank )
- 如何打造标签式IE浏览器 (共享源码)
- 使用requests post请求爬取申万一级行业指数行情
- ddd linux 调试工具_linux-c/c++调试利器gdb、ddd小试
- 查询-SPJ练习1参考答案
- windows电脑给苹果电脑下ipa包
- python新手教程全套_Python入门教程完整版(懂中文就能学会)
热门文章
- 【机器学习】极大似然估计、最大后验估计的对比与联系
- flex布局 justify-content 新属性值 space-evenly
- 2345好压去热点广告
- Java编程那些事儿2——程序设计是什么?
- 全球及中国婴儿奶瓶架行业发展趋势预测及投资前景展望报告2022-2028年
- 基于Myrocks和spider构建分布式数据库
- 破窑赋--11.11在一个小吃店看到
- html页面字体美化,网页字体的美化-网页设计,HTML/CSS
- Java 统计文件ip_基于zxinc网站ipv6静态数据文件的JAVA查询实现
- 成考计算机专业难不难,成人高考计算机类难度大吗(成人大学难度)