stata统计分析及行业应用案例分析_数据分析之路——描述性统计分析和应用案例...
1.描述统计分析
将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况。
常用的4个指标:①平均值;②四分位数;③标准差;④标准分
平均值
表示一组数据集中趋势的指标,指在一组数据中所有数据之和再除以这组数据的个数。
缺点:平均值对异常数值不敏感,当数据中有异常值时,用平均值来描述数据整体情况是不准确的。
四分位数
中位数:将数据集有n个数值,按从小到大进行排序,如果n是奇数,中位数是位于中间数值;如果n是偶数,中位数就是中间两个数的平均值。
四分位数:下四分位数的位置= (n+1) ×
中位数的位置= (n+1) ×
上四分位数的位置= (n+1) ×
用箱线图来理解四分位数:
四分位数的应用:比较数据;识别异常值。
异常值:
识别异常值方法:
四份位距:IQR = Q3 − Q1
最小估计值:Q1-k(Q3-Q1)
最大估计值:Q3-k(Q3-Q1)
K=中度异常,k=3极度异常
异常值:< Q1-k(Q3-Q1)或> Q3-k(Q3-Q1),在最小估计值和最大估计值之外的数
或使用箱线图观测
异常值处理:①异常值可能是错误标记的数据值,核对修正;
②有可能被错误包含在数据集中的值,删除;
③反常数据值,被正确记录到数据集中,保留。
标准差
衡量数据稳定性,即数据波动大小。
标准差越小,表示数据波动小,数据越稳定;越大,数据波动大,越不稳定。
缺点:如果两个数据差别比较大,就无法比较,引入变异系数来弥补这个缺点,用来比较不同数据集的波动大小。
变异系数=标准差/平均值
在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。
标准分
对数据进行归一化处理,表示距离平均值多少个标准差。
2.实际应用案例
stata统计分析及行业应用案例分析_数据分析之路——描述性统计分析和应用案例...相关推荐
- stata统计分析及行业应用案例分析_数据分析之路(二)——描述性统计分析和应用案例...
1.描述统计分析 将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些代表性的数字来代表数据集,进而知道数据的整体情况. 常用的4个指标:①平均值:②四分位数:③标准差:④标准分 1.1 平均值 ...
- R语言案例分析:多元数据的基本统计分析
R语言案例分析:多元数据的基本统计分析 来自<多元统计分析与R语言建模> 第四版 数据集下载 我们利用该数据集中的Case1来完成下面的R语言操作: options(digits = 4) ...
- stata统计分析及行业应用案例分析_描述性统计分析的应用——基于描述性统计分析识别优质股票...
描述性统计分析的应用 -基于描述性统计分析识别优质股票 内容导入: 大家好,这里是每天分析一点点. 上期给大家介绍离散趋势,本期介绍描述性统计分析的基本原理与应用,包括集中趋势.离散趋势.偏度与峰度的 ...
- 产品设计美学案例分析_美学在产品设计中的重要性
产品设计美学案例分析 重点 (Top highlight) In one of my previous jobs, I had really interesting debates with the ...
- 人口老龄化案例分析_公开老龄化:这个社区如何改变了我们
人口老龄化案例分析 社区永远会让您感到惊讶. 对于像我这样的人来说,这不是一个简单的说法. 我不是一个惊喜. 我陶醉于可预测性. 我追求一致性. 一个充满激情和奉献精神的社区几乎没有提供这些舒适感. ...
- java微服务案例分析_《Java深入微服务原理改造房产销售平台》知识点梳理与问答总结...
一图胜千言 一图胜千言 既然已经在session有了,直接session取就行了,为什么要再放threadlocal,之后再从threadlocal清掉,一直从session拿不就行了? 答: 放在T ...
- 消费者洞察案例分析_情绪搜索洞察定时器案例研究
消费者洞察案例分析 We're in the midst of a worldwide pandemic and could all use a few moments of peace. Enter ...
- 大数据外部性案例分析_外部性案例分析
外部性案例分析 [篇一:外部性案例分析] 各位同学: 牛年好! 以下是一篇讨论外部性(公共经济学的主要内 容) 的 精彩案例分析. 希望假期有空各位读读, 通过此案例 同学们可以发现现代公共经济 学的 ...
- 软件工程工程伦理案例分析_案例工具及其范围| 软件工程
软件工程工程伦理案例分析 A CASE (Computer-Aided Software Engineering) tool is a non-exclusive term used to indic ...
最新文章
- 表格下划线怎么加粗_这招高!Excel签名栏的下划线随列宽变化,是不是感觉牛哄哄的?...
- “AI让老百姓最多跑一次”:智源科学家打造下一代政务服务智能助手
- Linux 线程与进程,以及通信
- Running /usr/bin/wineserver -w. This will hang until all wine processes XXXX terminate
- JAVA入门级教学之(final关键字)
- 打表找规律-灯泡状态数
- sort函数的使用(c++) bool函数使用
- python3怎么查看帮助文档pydoc?
- VS2010 学习版序列号(转)
- 毕毕业论文排版(三)-页眉页脚
- 《激荡三十年》七、国企难破局—“裁缝神话”步鑫生
- 谷歌神经网络机器翻译NMT:人人可利用TensorFlow快速建立翻译模型
- Python入门-网络编程
- 京东企业注册HTML
- 领导力的21个法则-盖子法则
- SpringMVC+Mybatis框架集成开发基础——项目开发流程——01
- @RunWith的使用
- 关于mac系统外接键盘的设置
- 解决 “此图片来自微信公众平台未经允许不可引用” 的方法
- csdn最详细最牛逼的 阿里最新app自动化测试---自动化测试框架搭建