SAS描述性统计分析
一、使用proc means描述数据
可以用proc means查看一些简单的统计量,Means过程开始于关键词proc means,后面接需要打印的统计量,基本形式:
PROC MEANS options;
如果不加选项,则默认打印出非缺失值个数、均值、标准差、以及最大最小值,下面是用选项可以查看的统计量:
- BY variable-list; 分变量单独分析,但数据必须先按照variable-list的变量顺序排序(proc sort)。
- CLASS variable-list; 也是分变量单独分析,看起来会更集中一些,且不需要排序。
- VAR variable-list; 指定分析中使用哪种数值变量,默认则使用所有的数值变量
下面的代码读取数据,计算新变量销售月份month,并使用proc sort按照月份排序,并使用proc means的by语句来按照月份描述数据:
输出结果为:
将描述性统计写入SAS数据集中
有两种方法可以在SAS数据集中储存描述性统计量,Output Delivery System(ODS),或者output语句。后者的基本形式为:OUTPUT OUT=data-set output-statistic-list;
要描述数据,每个顾客只有一个观测值,包括SUM和MEAN,并且将结果储存到数据集中以便日后分析。下面的程序读取程序,按照CustomerID排序,使用means过程,结果存在totals数据集中。以原始名Petunia,SnapDragon,Marigold给出sum,以新变量名MeanPetunia,MeanSnapDragon,and MeanMarigold给出mean。
结果如下:
二、用proc freq为数据计数
使用proc freq最明显的目的是现实分类数据的分布情况,基本形式为:
PROC FREQ;
TABLES variable-combinations;
建立两个变量的交叉表需要一个*号,下面的语句显示变量Sex by YearsEducation的频数情况:TABLES Sex*YearsEducation;
这个语句之后可以用/option的形式添加选项,主要下面几个:
LIST:用list形式打印交叉表(而不是网格)
MISSING:频率统计量中包含缺失值
NOCOL:强制在交叉表中不打印列百分比
NOROW:强制在交叉表中不打印行百分比
OUT=data-set:输出数据集
比如说,使用第二个选项:TABLES Sex*YearsEducation/MISSING;
例子 有一家咖啡店的销售数据,记录了销售的咖啡种类(cappuccino,espresso,kona,or iced coffee),以及每次购买的顾客是打包还是原地就饮:
下面的代码就产生了一个one-way和two-way的频率表:
代码告诉SAS打印两个表,一个是one-way的频率表,一个是交叉表。交叉表的每个小方格内,SAS打印了频数、百分比、行百分比和列百分比。左边和右边是累积百分比。注意计算频数时没有考虑缺失值。
三、用proc tabulate产生一个表格报告
比起print means和print freq,Proc tabulate过程产生的报告更耐看。Proc tabulate的基本形式为:
PROC TABULATE;
CLASS classification-variable-list;
TABLE page-dimension,row-dimension,column-dimension;
Class语句告诉SAS哪些变量将数据分成不同部分。
Table语句可以定义一个表,可以用多个table语句定义多个表;
维度 table语句可以在报告中指定三个维度:页、行、列。如果只指定一个维度,则默认是列维度;如果指定两个,则是行和列。
缺失数据 默认下不考虑缺失数据,在proc语句后面增加missing选项可以改变这种默认:
PROC TABULATE MISSING;
例子 有关于船的一些数据,Boats.dat,记录了每艘船的姓名、港口、移动方式(sailing或者power vesse),类型(schooner,catamaran,or yacht),使用它远行的价格
你想得到一份报告,包含了每一个港口的、sailing或者power vessel的、每一种类型的、船的数量,下面的代码用proc tabulate创建了一个三维报告:港口作为页、移动方式作为行、类型作为列:
报告分两页,港口的每个值情况为一页:
为proc tabulate输出增加统计量
Class语句列出分类变量,而VAR语句告诉SAS那些变量包含连续数据。基本形式为:
PROC TABULATE;
VAR analysis-variable-list;
CLASS classification-variable-list;
TABLE page-dimension row-dimension column-dimension;
关键词 下面是tabulate可以计算的值:
ALL:增加行、列或页,显示总数
Max:最高值
Min:最低值
Mean:算术均值
Median:中位数
N:非缺失值个数
Nmiss:缺失值数
P90:90th分位数
Pctn:某类的观测值百分数
Pctsum:某类值总和的百分数
STDDEV:标准差
SUM:求和
SAS描述性统计分析相关推荐
- sas入门-笔记4 描述性统计分析
(三)描述性统计分析 统计学是通过样本数据研究总体数据的一门学科 对数据进行频数统计.计算特征统计量和将数据图形化的过程称为描述统计. 目的:获得对数据的总体感觉以及评估数据质量 实现方式 用表格工具 ...
- sas软件使用mysql吗_图解SAS软件统计分析(一):基本知识和界面操作
图解SAS软件统计分析(一):基本知识和界面操作.本文介绍常用统计分析软件SAS,大多数研究者一听到SAS要编程,就想着会很难,但当你熟悉SAS软件的基本操作界面之后,基本上通过拷贝复制就能得到你想要 ...
- R语言描述性统计分析:相关性分析
R语言描述性统计分析:相关性分析 相关性分析:pearson.spearman.kendall 相关性系数的显著性检验: 偏相关性分析: library(ISwR) attach(thuesen) c ...
- R语言描述性统计分析:假设检验
R语言描述性统计分析:假设检验 单样本t检验: 双样本t检验: 方差齐性检验: 配对样本t检验: 单样本Wilcoxon符号秩检验: 两样本Wilcoxon符号秩检验: daily.intake &l ...
- 怎么计算一组数据的波动_[理论+spss实战]一组数据的描述性统计分析
长按二维码,关注[学术点滴]获取更多资讯. 问:拿到一组数据首先要干什么?答:进行数据的基本分布描述 本次推文分两部分 第一部分:理论部分 第二部分:SPSS实战操作 操作者 微信公众号[学术点滴] ...
- r 函数返回多个值_第四讲 R描述性统计分析
在"R与生物统计专题"中,我们会从介绍R的基本知识展开到生物统计原理及其在R中的实现.以从浅入深,层层递进的形式在投必得医学公众号更新. 在上一讲中,我们介绍了第三讲 R编程基础- ...
- python会计实证研究_描述性统计分析在实证研究中的作用及具体软件实现——以SPSS为例...
描述性统计分析在实证研究中的作用及具体软件实现 --以SPSS为例 为了提升经管代码库(https://bbs.pinggu.org/forum-2626-1.html)人气,一大早起床,打算就微观实 ...
- 什么是描述性统计分析( descriptive statistics)?主要包含哪些内容?
什么是描述性统计分析( descriptive statistics)?主要包含哪些内容? 描述统计是通过图表或数学方法,对数据资料进行整理.分析,并对数据的分布状态.数字特征和随机变量之间关系进行估 ...
- 数据分析方法-描述性统计分析
一.数据分析的分类与作用 二.数据分析方法-描述性统计分析
最新文章
- WAF Bypass数据库特性(Mysql探索篇)
- 国内数据中心分布及供电系统概述
- spring ioc加载流程
- Cesium原理篇:7最长的一帧之Entity(上)
- C/Cpp / #include
- 软件:推荐五款超级好用的电脑小众软件,值得收藏!
- java后端工程师平时开发或多或少会用到eclipse,那么它有哪些快捷键呢
- 水泊梁山迎佳节,Python 抽奖助好汉
- 允许Sublime编辑器在Ubuntu上输入中文
- Unity网络:在局域网P2P网络中利用UDP广播实现保活/心跳
- connection url mysql,JDBC 连接MySQL实例详解
- eclipse创建maven项目的创建
- C#设计模式之5——生成器模式
- Vscode——内置浏览器
- 解决onebot提示当前QQ版本过低,请升级到最新版在登录!
- Java二进制zip,excel文件流到前端时,修改jQuery接受二进制数据。转文件后提示文件损坏(不可预料的压缩文件末端)处理
- idea-统计代码行数Statistic
- win7html.exe,win7系统exe程序打开方式还原怎么弄 win7系统还原exe程序打开方式办法介绍...
- 把数字翻译成字符串——python
- WifiRemoteStationManager中速率控制算法详解
热门文章
- direct wifi 芯片_wifi direct 详解
- 顶尖专家戳穿媒体谎言:5G宣传大部分是假的!
- 下载调试接口 JTAG vs SWD
- HTTP/2 504 Gateway Timeout 36369ms
- Android 删除aar包中的jar包解决Duplicate class包冲突问题
- DYNAMICALLY DECODING SOURCE DOMAIN KNOWLEDGE FOR UNSEEN DOMAIN GENERALIZATION
- WinRAR制作有密码的自解压文件
- LFM雷达实现及USRP验证【章节1:LFM基本原理】
- 学linux有什么用主要学什么软件,Linux为何受欢迎?学习Linux有什么用?
- VS2015的下载和安装以及VS2015头文件和库文件目录环境设置