第3章 Stata描述统计
目录
3.1定距变量的描述性统计
案例延伸
1.获得更详细的描述性统计结果
2.根据自己的需要或去相应的概要统计指标
3.按另一变量分类列出某变量的概要统计指标
4.创建变量总体均值的置信区间
3.2正态性检验和数据转换
案例延伸
1.有针对性地对数据进行变换
2.关于ladder命令介绍
3.3单个分类变量的汇总
案例延伸
3.4两个分类变量的列联列表分析
案例延伸
3.5多表和多维列联分析
案例延伸
在进行数据分析时,当研究者得到的数据量很小时,可以通过直接观察原始数据来获得所有的信息。但是当得到的数据量很大时,就必须借助各种描述指标来完成对数据的描述工作。用少量的描述指标来概括大量的原始数据,对数据展开进行描述的统计分析方法被称为描述性统计分析。本章将会为大家介绍的描述性统计分析方法包括定距变量的描述性统计、正态性检验和数据转换、单个分类变量的汇总、两个分两类变量的列联列表分析、多表和多维列连列表分析。
3.1定距变量的描述性统计
数据分析中大部分变量都是定距变量,通过进行定距变量的基本描述性统计,我们可以得到数据得概要统计指标,包括平均值、最大值、最小值、标准差、百分位数、中位数、偏度系数和峰度系数等。数据分析者通过或者这些指标,可以从整体上对拟分析的数据进行宏观的把握,从而为后续进行更深入的数据分析做好必要的准备。
数据(案例3.1)时我国电力消费情况。试通过对数据进行基本描述性分析来了解我国各地区电力消费的基本情况。变量为地区和电力消费量
summarize cunsumption
我们可以看到一共有31个样本参与了分析,电力消费量的平均值时1180.489,样本的标准差时903.5561,样本最小值时17.6987,样本最大值时3609.642。
案例延伸
1.获得更详细的描述性统计结果
sum cunsumption,detail
从上图我们可以得到更加详细的信息。
(1)百分位数(Percentiles)
可以看出数据的第一个四分位数(25%)时550.1556,数据的第二个四分位数(50%)是891.1902,数据的第三个四分位数(75%)是1324.61,数据的百分位数的含义是低于该数据值得样本在全体样本中得百分比。例如,本例中25%分位数得含义是全体样本中有25%得数据值低于550.1556。
(2)四个最小值(Smallest)
本例中,最小的四个数据分别是17.6987、133.7675、337.2368、462.9585。
(3)四个最大值(Largest)
本例中,最大的四个数据分别是3609.642、3313.986、2941.067、2471.438。
(4)平均值(Mean)和标准差(Std.Dev)
(5)偏度(Skewness)和峰度(Kurtosis)
偏度的概念是表示不对称的方向和程度。如果偏度值大于0,那么数据就具有正片都(右边有尾巴);如果偏度值小于0,那么数据就具有负偏度(左边有尾巴);如果偏度值等于0那么数据将呈对称分布。本例中,数据偏度为1.309032,为正偏度但不大。
峰度概念用来表示尾重,是正太分布结合在一起考虑的。正态分布是一种对称的分布,他的峰度值正好等于3,如果某数据的峰度大于3,那么该分布将会有一个比正态分布更长的尾巴,如果某数据的峰度值小于3,那么该分布将会有一个比正态分布更短的尾巴。本例中,数据峰度为3.889152,有一个比正态分布更长的尾巴。
2.根据自己的需要或去相应的概要统计指标
tabstat cunsumption,stats(mean range sum var)
从上图我们可以得知,数据的平均值是1180.489,极差是3591.944,总和是36595.15,方差是816413.7。
统计量与其对应的命令代码如表3.2所示
统计量 | 命令代码 | 统计量 | 命令代码 | 统计量 | 命令代码 |
均值 | mean | 非缺失值总数 | count | 计数 | n |
总和 | sum | 最大值 | max | 最小值 | min |
极差 | range | 标准差 | sd | 方差 | var |
变异系数 | cv | 标准误 | semean | 偏度 | skewness |
峰度 | kuitosis | 中位数 | median | 第一个百分位数 | pl |
四分位距 | iqr | 四分位数 | q |
3.按另一变量分类列出某变量的概要统计指标
tabstat cunsumption ,stats(mean range sum var) by(region)
4.创建变量总体均值的置信区间
ci mean cunsumption,level(98)
基于本例中的观测样本,我们可以推断出总体98%水平的置信区间。也就是我们我有98%的信心可以认为数据总体的均值或落在【781.7159,1579.262】中,或者说,数据总体的均值落在区间【781.7159,1579.262】的概率是98%。我们可以调整括号里面的数字来调整置信水平的大小。
3.2正态性检验和数据转换
很多统计程序对于数据的要求是比较严格的,他们只有在变量服从或者近似正态分布的时候才是有效的,所以在对整理收集的数据进行预处理的时候需要对他们进行正态分布检验,如果数据不满足正态分布假设,我们就要对数据进行必要的转换。数据转换分为线性转换和非线性转换两种。线性转换比较简单我们在第一章中有所涉及。本章主要讲的是非线性的转换。
数据(案例3.2)是我国各地区的公共交通的运营情况,某课题组搜子整理了我国2009年各省市公共交通车辆运营的数据。(1)对数据进行正态分布检验(2)对数据执行平方根变换方法,以或去新的数据进行正态分布检验(3)对数据执行自然对数变换方法,以获取新的数据斌进行正态分布检验。变量有两个一个地区一个交通车辆运营数。
sktest sum #本命令是对数据进行正态分布检验
上图我们可以明显的看到,sktest命令拒绝了数据呈正态分布的假设,从偏度(Pr(Skewness)=0.0065)上来看,小于0.05,拒绝正态分布的原假设;从偏度上来看(Pr(Kurtosis)=0.0804),大于 0.05,接受正态分布的原假设;但是把两者结合在一起考虑,从整体上来看Prob>chi2=0.0123,小于0.05,拒绝正太分布假设。
generate srsum=sqrt(sum) #本命令是对数据执行平方根变换方法,以获取新的数据进行正态分布检验
sktest srsum
结果不再过多赘述,我们可以看到变换后的数据是接受了呈正太分布的原假设。
gen lsum=ln(sum) #本命令是对数据执行自然对数变换方法,获取新的数据进行正态分布检验
sktest lsum
结果不再过多赘述,我们可以看到总体上变换后的数据是接受了正态分布的原假设。
案例延伸
1.有针对性地对数据进行变换
我们在进行数据分析师,在对初始数据进行正态性检验之后,可以利用3.1节地相关知识得到关于数据偏度和峰度地信息,我们完全可以根据数据新的偏态特征进行有针对性地数据变换。数据变换与其对应地命令如下表所示:
Stata命令 | 数据转换 | 效果 |
gen y=x^3 | 立方 | 减少严重负偏态 |
gen y=x^2 | 平方 | 减少轻度负偏态 |
gen y=sqrt(x) | 平方根 | 减少轻度正偏态 |
gen y=ln(x) | 自然对数 | 减少轻度正偏态 |
gen y=log10(x) | 以10为底地都对数 | 减少正偏态 |
gen y=-(sqrt(x)) | 平方根负对数 | 减少严重正偏态 |
gen y=-(x^-1) | 负倒数 | 减少非严重正偏态 |
gen y=-(x^-2) | 平方负倒数 | 减少非严重正偏态 |
gen y=-(x^-3) | 立方负倒数 | 减少非严重正偏态 |
2.关于ladder命令介绍
此处我们介绍一个非常好用地命令:ladder。他把幂阶梯和正态分布检验有校地结合到了一起。它尝试幂阶梯上地每一种幂并逐个反馈结果是否显著地为正态或者非正态。
ladder sum
我们可以非常轻松地看出,在95%的置信水平上,仅有平方根变化和自然对数变化是符合正态分布的,其他幂次的数据变换都不能使数据呈现正态分布。
3.关于gladder命令的介绍
gladder sum
我们可以非常轻松的看出每种转换的直方图与正态分布曲线。与延伸2得出的结论是一致的。
3.3单个分类变量的汇总
与前面提到的定距变量不同,分类变量的数值只代表观测值所属的类,不代表其他任何含义。因此,对分类变量的描述统计方法观察是不同类别的频数或者百分数。
数据(案例3.3)是某国有银行沈阳分行人力资源部对分行本部在岗职工的结婚情况进行了调查。调查结果分为了两类,一类为已婚,一类为未婚或者离异。试对结婚情况这一变量进行单个变量汇总。
tabulate marry
从分析结果中我们可以看出本部一共有114人参与了调查,其中处于结婚状态的有69名员工占比60.53%处于非结婚状态的有45名员工占比39.47%。此外,结果分析栏中Cum表示的是累计百分比。
案例延伸
试对结婚状况这一变量进行单个变量汇总并附有星点图。
tabulate marry,plot
3.4两个分类变量的列联列表分析
在上节中我们讲述了单个分类变量的概要统计,这次我们将二位列联表
数据(案例3.4)是某课题组对A市居民的吸烟喝酒状况进行调查研究,试对该数据进行二位列联表分析。变量分别为性别 吸烟与否 喝酒与否
tabulate smoke drink
从分析结果中我们可以看出本次调查所获得的信息;共有124为A市民参与了调查,其中抽烟的有68人不抽烟的有56人,有41人喝酒83人不喝酒,只吸烟不喝酒的有39人,只喝酒不吸烟的有12人。
案例延伸
显示每个单元格的列百分比与行百分比
tabulate smoke drink,column row
结果包含了三部分,第一行表示的聘书,第二行表示的是行百分比,第三行表示的列百分比。例如最左上角单元格的意义是:不吸烟也不喝酒的样本个数有44个,这部分在不吸烟的样本中占比78.57%、在所有不喝酒的样本中占比53.01%。
3.5多表和多维列联分析
数据(案例3.5)是某高校经济学院针对其研究生学生的持有证书情况进行了调查。证书分为三类,包括会计证、审计师、经济师。试用stata对数据进行一下操作(1)对数据中的所有分类变量进行单个变量统计汇总(2)对数据中的所有分类变量进行二位列联表分析(3)以是否持有会计证为主分类变量,制作三个分类变量的三位列联表
tab1 account audit economy #本命令的含义是对数据中的所有分类变量进行单个变量汇总统计
结果不再过多赘述。
tab2 account audit economy #本命令的含义是对数据中所有分类变量进行二位列联表分析
结果不再过多赘述。
by account,sort:tabulate audit economy #本命令的含义是以是否持有会计证为主分类变量,制作的三个分类变量的三维列联表
结果不再过多赘述。
案例延伸
实现多种数据的聘书、标准差数据特征的列联分析。
table account audit economy,contents(freq)
结果不再赘述。上述命令中contents括号里的内容表示频数,该括号内支持的内容与命令符号的对应关系如下图。
命令符号 | 括号内支持的内容 | 命令符号 | 括号内支持的内容 |
freq | 频数 | min x | x的最小值 |
sd x | x的标准差 | median x | x的中位数 |
count x | x非缺失观测值的计数 | mean x | x的平均数 |
max x | x的最大值 | rawsum x | 忽略任意规定权数的总和 |
sum x | x的总和 | iqr x | x的四分位距 |
n x | x非缺失观测值的计数 | pl x | x的第一个百分位数 |
第3章 Stata描述统计相关推荐
- stata:stata软件教程(人大十八讲)(1) 第一章 stata入门
第一章 stata入门 1.1 安装 1.2 启用和退出 1.3 打开和查看数据 1.4 寻求帮助与网络资源 1.4.1 获取帮助的命令 1.4.2 几个主要网站 1.5 命令示例 1.5.1 进行四 ...
- 计量经济学及Stata应用 第二章 Stata入门
第二章 Stata入门 2.3 Stata操作实例 打开数据文件 use file_path,clear (clear用于清空内存中的数据) 审视数据 观看数据集中的变量名.标签等 describe ...
- 第12章 Stata非线性回归分析
目录 12.1非参数回归分析 案例延伸 延伸1:设定散点图被分成垂直等宽波段的数量 延伸2:设定修匀的波段宽度 12.2转换变量回归分析 12.3非线性回归 案例延伸 延伸1:设定非线性回归模型中被估 ...
- 第15章Stata时间序列分析
目录 15.1时间序列的基本操作 案例延伸 延伸1:清除数据的时间序列格式 延伸2:关于数据处理的一般说明 延伸3:关于时间序列运算的有关说明 15.2单位根检验 1.ADF检验 2.PP检验 案例延 ...
- 第1章 Stata管理变量与数据
1.1创建和替代变量 数据(案例1.2) 例1.2是我国2009年各地区的就业人口以及工资总额数据.请使用Stata命令进行操作:(1)试着生成新的变量来描述各地区的平均工资情况:(2)试着生成平均工 ...
- 第7章 Stata相关性分析
目录 7.1简单相关分析 7.2偏相关分析 在得到相关数据资料后,我们要对这些数据进行分析,研究各个变量之间的关系.相关分析是应用非常广泛的一种方法.它是不考虑变量之间的因果关系而只研究分析变量之间的 ...
- 第4章 Stata参数检验
目录 4.1单一样本T检验 案例延伸 4.2独立样本T检验 案例延伸 1.改变置信水平 2.在异方差假定条件下进行假设检验 4.3配对样本T检验 案例延伸 1.改变置信水平 4.4单一样本方差的假设检 ...
- 计算机软件及应用stata,蒙特卡洛模拟及其Stata应用实现
蒙特卡洛模拟及其Stata应用实现 出版时间:2015年版 丛编项:海南大学经济管理系列丛书 内容简介 <蒙特卡洛模拟及其Stata应用实现>的第1章是Stata软件基础,主要介绍了Sta ...
- stata怎么画分类图_stata如何画分布图
Stata中的图形制作(绝对自己总结)_数学_自然科学_专业资料.. 第三章 Stata 中的图形制作 1.菜单操作 Plots 选择横.纵坐标所代表的变量 Titles 标题 Title( )... ...
- 计量经济学 (2 第2章)
第 2 章 Stata 2.1 为什么使用Stata 1.操作简单且功能强大: 2.留有"用户接口",允许用户自己编写命令与函数, 并上传到网上实现共享--"非官方命令 ...
最新文章
- 024:模版查找路径配置
- 关于arm处理器 内存编址模式 与 字节对齐方式 (转)
- MutationObserver详解
- Strongly connected HDU - 4635(tarjan+强连通分量)
- 在命令提示符下输入的命令
- Compilation Error 解决方案汇集
- oracle性能优化总结1
- BZOJ1119[POI2009]SLO BZOJ1697[Usaco2007 Feb]Cow Sorting牛排序
- 最大矩形面积(C++实现)
- Apache POI 读写 Word、PPT、Excel
- 和数研究院4周年庆,初心不改,笃行致远!
- Gluster安装+kubesphere3.0
- 初中数学老师计算机培训反思,初中数学老师教学反思
- 小学生智力测试软件,测试小学生智力的问题及答案
- Direct2D学习方法
- 【go编译和反编译概述】
- coreelec 下载app_DY的瞎折腾系列 篇十三:N1多媒体系统CoreELEC升级指南
- matlab 对矩阵取整的函数
- LiberOJ -6210-tree -树形DP
- Vue Layout布局