谁说菜鸟不会数据分析python pdf_谁说菜鸟不会数据分析spss
第一章
:SPSS
概况
社会科学统计软件包
-->
统计产品和服务解决方案
-->IBM SPSS
SPSS
可调用
R
语言的各种统计包或
Python
的功能模块,实现最新统计方法的调用,增强
SPSS
的扩展性。
SPSS
为各分析阶段提供了丰富的模块功能。常用模块大致分为四个分析阶段
:
数据处理、描述性分析、推断性分析、探
索性分析
SPSS
不足之处:虽可以直接导出
txt
、
doc
、
ppt
、
xls
等文档格式,但通常与数据分析报告风格不符。
SPSS
常用窗口
:
数据窗口
(
菜单栏、数据视图、变量视图
)
和输出窗口
菜单栏中“数据”
、
“转换”用于数据处理相关操作。
“分析”用于数据分析相关操作。
数据视图中每一行叫做一个“个案”
,每一列叫做“变量”
SPSS
数据结果文件默认保存文件格式为
spv
,而
SPSS
数据文件默认保存文件格式为
sav
对各种统计方法的使用,只要了解统计分析的基本原理,无须通晓统计方法的各种算法
SPSS
涵盖了各种统计方法与模型,从简单的描述统计分析方法到复杂的多因素统计分析方法
第二章:数据处理
清洗、抽取、合并、计算、分组、标准化
常用数据类型:字符型数据、数值型数据、日期型数据
字符型数据是一种分类数据,分男女,分省份
...
数值型数据是一种特殊的分类数据,日期型数据可进行算术运算,是一种特殊的数值型数据
例:
职业变量
:1
代表白领、
2
代表蓝领、
3
代表金领。这时
1
、
2
、
3
只是标记,属于并列关系,没有次序关系
年龄变量
:1
代表
1
岁、
2
代表
2
岁、
3
代表
3
岁。这时
1
、
2
、
3
不仅是个标记,还有次序、大小关系,可以做算术运算
职业、年龄变量的数据类型都可以是数值型,但数值的具体含义不同,使用的统计方法也不同,这时就有必要给数据
变量增加一个测量尺度属性
在统计学中,按照对事物描述的精确程度,将采用的测量尺度从低到高分为四个层次:定类尺度、定序尺度、定距尺
度和定比尺度
数据导入注意第
4
、
7
步
数据清洗:将多余重复数据筛选清除、将缺失数据补充完整、将错误数据纠正或删除
重复删除
--Excel
中是有删除重复项的功能,可以直接删除重复的数据记录。
SPSS
则需要分步操作,先将重复记录找出
并标记,然后根据是否重复标记排序,将重复记录排在一起,再将其删除
数据
-->
标识重复个案
(
在此对话框中将所有变量都放入
[
定义匹配个案的依据
]
框中,
其它选项保持默认设置
)-->
生成一个
重复数据记录标识变量
”
最后一个基本个案
”
(0
代表重复个案,
1
代表唯一或基本主个案
)-->
选中
”
最后一个基本个案
”
变
量,单击右键,选择
[
升序排列
]-->
选中
”
最后一个基本个案
”
变量值为
0
的个案,单击鼠标右键,选择
[
清除
]
补充完整,错误数据纠正????
数据抽取:保留、抽取原数据表中某些字段、记录的部分信息,形成一个新字段、新记录。
(
主要学习字段拆分、随机
抽样两种方法
)
例:
”
身份证号码
”
字段可抽取出省份、城市、出生日期、性别等信息
在
Excel
中使用
Right
、
Left
、
Mid
函数进行相关字段的抽取、拆分。
SPSS
使用
Substr
函数进行字段拆分操作。
Substr(
字
符串,提取的起始位置,提取的字符个数
)
转换
-->
计算变量
-->[
函数组
]
选择
”
字符串
”
类,在
[
函数和特殊变量
]
中双击
”
Char.Substr(3)
”
函数
,
这时
”
Char.Substr(3)
”
函数就被移入
[
数字表达式
]
框中,
然后将表达式修改为
”
CHAR.SUBSTR(
身份证号码
,7,4)
”
完成了公式
的编写
-->
在
[
目标变量
]
框中,输入变量名称
”
年份
”
,并在
[
类型与标签
]
功能中设置类型为
”
字符串
”
。
计算变量这个功能在
SPSS
中非常常用,类似于
Excel
的编辑栏功能,通过输入函数或计算公式来新增变量。
随机抽样
:
简单随机抽样、分层抽样、系统抽样
数据
-->
选择个案
-->[
选择
]
框中选择
[
随机个案样本
]
项,单击
[
样本
]
按钮。此时
SPSS
在数据表最后一列新增一个
”
filter_$
”
变量,
0
表示记录未被选中抽取,
1
表示记录被选中抽取
如果希望将抽样得到的数据单独存为一份新的数据文件,
用于其他数据分析,
则可在上述操作中返回
[
选择个案
]
对话框
的
[
输出
]
框中,选择
[
将选定个案复制到新数据集
]
项
数据合并:
综合数据表中某几个字段的信息或不同的记录数据,
组合成一个新字段、
新记录数据。
(
主要操作
:
字段合并、
记录合并
)
例:将抽取出来的出生年份、月份、日,这三个字段合并成一个新字段
:
出生日期
在
Excel
中使用
Concatenate(Concat)
函数进行三个字段的合并
谁说菜鸟不会数据分析python pdf_谁说菜鸟不会数据分析spss相关推荐
- 菜鸟如何看懂python代码_是菜鸟 or 老司机?亮一段代码看看
有的小伙伴可能用Python写代码已经非常久了,可能觉得已经是个高手了,那么看看下面这个简单的实现需求,你会写怎样的Python代码呢?通过你写的代码,应该可以大约评估下你到底是菜鸟还是一个老司机了, ...
- python编程大数据分析_大数据分析Python学习技巧
大数据分析Python是任何开发人员都应该知道的重要编程语言.许多程序员使用这种语言来构建网站,创建学习算法以及执行其他重要任务.但是尝试学习大数据分析Python可能会令人感到恐惧,沮丧和困难,尤其 ...
- 谁说菜鸟不会数据分析python下载_刻意练习9:《谁说菜鸟不会数据分析python篇》第3章编程基础总计46页学习笔记...
学习计划MyPlan9 主题:<谁说菜鸟不会数据分析python篇>第3章节 编程基础,总计46页. 时间:7.15-7.21 周内完成 各位星友们,在这个星球里每个人都要逼迫自己学习未知 ...
- 读书笔记——《谁说菜鸟不会数据分析—Python篇》
最近刚读完一本新书,关注的公众号作者出的"谁说菜鸟不会数据分析-Python篇",话说现在很多微信公众号大牛都在出书,这貌似是一个趋势.. 说说这本书吧,我之前看过一些网文,对于数 ...
- python金融风控评分卡模型和数据分析
python金融风控评分卡模型和数据分析微专业课(博主录制):http://dwz.date/b9vv 作者Toby:持牌照消费金融模型专家,和中科院,中科大教授保持长期项目合作:和同盾,聚信立等外部 ...
- python菜鸟教程100实例-python菜鸟教程官网
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 之后的某节会讲到如何给mac中的python安装其他模块,比如比较常用的numpy ...
- python统计学书籍推荐_推荐 | 统计数据分析挖掘书单呈现
给大家推荐一些统计.分析.挖掘书籍,推荐语包括购买地址后面慢慢在补充.大家有好的书籍也可以推荐,持续连载中..封面这个本书也非常给力,31位作者合力写的,到时候也给大家推荐下. 统计学 <看穿一 ...
- python金融风控评分卡模型和数据分析(加强版)-收藏
信用评分卡 信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和 ...
- 命名管道 win7未响应_大数据分析Python建立分析数据管道
如果您曾经想通过流数据或快速变化的数据在线学习Python,那么您可能会熟悉数据管道的概念.数据管道允许您通过一系列步骤将数据从一种表示形式转换为另一种表示形式.数据管道是数据工程的关键部分,我们将在 ...
最新文章
- 关于数据库中存储过程 的用户从属。。
- php下curl与file_get_contents性能对比
- 油猴脚本第一家,网页网盘链接实时判断+资源搜索网站导航,资源重度患者的福利...
- 51单片机C语言波特率十六进制,理解51单片机串口通信的波特率与USB转串口通信...
- web项目_学生证管理系统
- 机器学习实战-贝叶斯算法-24
- Linux Shell特殊字符和控制字符大全
- linux cookie 地址,SYN Cookie原理及其在Linux内核中的实现
- [react] React怎么判断什么时候重新渲染组件呢
- MVVM及MVVMLight相关资料
- 图像学之底层算法基石其一
- PowerDesigner生成数据库设计文档
- 每日Ubuntu小技巧——在Ubuntu中使用音乐软件“声破天”Spotify
- 2020过去了,我们想给那些病毒和劫持软件颁个奖……
- 如何屏蔽百度搜索热点
- Vivado Tcl命令行模式小记
- 关于jeecg 项目的莫名其妙的问题
- pytorch 层标准化 LayerNorm 的用法
- 用虚数做计算机代码,小E教你们如何用计算机算虚数
- 百度发难前员工王劲,第一回合是这样的 | 梳理