Python数据分析与挖掘实战_张良均
一、Python数据分析工具
二、数据探索
一、对数据的质量分析
异常值的分析:
1. 简单的统计量分析:查看最大最小值是否在合理范围
2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超过3倍的标准差。
3.箱形图分析:
异常值被定义为小于QL-1.5IQR 或大于QR+1.5IQR
QL是所有数据的下四分位,QR是所有数据的上四分位。IQR是QR-QL
DataFrame中describe()已经给出了基本的统计
二、数据特征分析
1.可以使用pandas、matplotlib绘制统计图
散点图矩阵可以分析每两个变量的关系。
2.计算相关系数
①Pearson相关系数
②Spearman秩相关系数
③判定系数
使用pandas的corr()计算相关系数
绘制条形图和折线图:
三、数据预处理
缺失:
插值法主要用两类:
拉格朗插值(python scipy库中有)、牛顿插值。
数据变换:
使用简单的函数如:x'=x^2 x'=sqrt(x) x'=log(x)
规范化:
①最小最大规范化
②零-均值规范化:将数据处理成均值为0,标准差为1
③小数定标规范化
连续属性离散化
数据规约:产生更小保持原数据完整性的新数据集。
主要方法有合并属性、决策树归纳、主成分分析
数值规约:????
四、挖掘建模
1、分类 预测
2、聚类分析
Python数据分析与挖掘实战_张良均相关推荐
- python数据分析与挖掘实战 pdf 张良均
python数据分析与挖掘实战 pdf 张良均 资源共享 网盘下载: https://pan.baidu.com/s/1jQuthI-7NSDO5GWylu7YkQ 无提取码 永久有效
- 《Python数据分析与挖掘实战》张良均,第一章学习笔记
第一章从餐饮行业来引出数据挖掘 [有问题或错误,请私信我将及时改正:借鉴文章标明出处,谢谢] 刚开始讲到了T餐饮企业的管理系统(5个管理系统),因为多方面管理系统加强了此企业的信息化管理,提高了工作效 ...
- python数据分析与挖掘实战 配套资源_[课程学习]Python数据分析与挖掘实战 配套完整数据和源代码 rar文件[25.46MB]-码姐姐下载...
该资源为<python数据分析与挖掘实战>一书的配套的资源代码,鉴于大多数读者很难找到此资源,特此分... 大小:20.99MB | 2020-05-14 19:07:04 本资源是pyt ...
- 《Python数据分析与挖掘实战》一3.1 数据质量分析
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- 《Python数据分析与挖掘实战》一1.2 从餐饮服务到数据挖掘
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.2节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- Python数据分析与挖掘实战期末考复习(抱佛脚啦)
期末三天赛高考我真的会谢,三天学完数据挖掘--真的很极限了的. 课本是那本绿色的Python数据分析与挖掘实战(第2版),作者张良均- 图片来自老师给的ppt,以下内容是我自己总结的,自己复习用,覆盖 ...
- 《Python数据分析与挖掘实战》第12章(中)——协同推荐
本文是基于<Python数据分析与挖掘实战>的实战部分的第12章的数据--<电子商务网站用户行为分析及服务推荐>做的分析. 由于此章内容很多,因此,分为三个部分进行分享--数据 ...
- 《Python数据分析与挖掘实战》示例源码免费下载
<Python数据分析与挖掘实战> 在当今大数据驱动的时代,要想从事机器学习.人工智能.数据挖掘等前沿技术,离不开数据跟踪与分析,通过NumPy.Pandas等进行数据科学计算,通过Se ...
最新文章
- 在大公司工作3年以上的人,如何摆脱螺丝钉的现实?
- 职称计算机考试选择题,职称计算机考试综合选择题「附答案」.docx
- UVA 10976 Fractions Again?!【暴力枚举/注意推导下/分子分母分开保存】
- Chrome Cookie SameSite 属性设置
- 58到家为2000万家庭提供上门生活服务的背后是云计算的高效支撑
- Python入门学习笔记(9)
- 记录——《C Primer Plus (第五版)》第十章编程练习第三题
- 晶圆代工28nm制程市场动向
- java实现二叉树遍历
- win iis mysql php_Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境搭建教程
- 电脑端查看CAD图纸也能非常方便
- XML Essential Training XML基本培训 Lynda课程中文字幕
- 转载 刘鹏老师 计算广告学 人大笔记
- hmm 流程图_算法:HMM模型+维特比算法详解
- mysql用户域账户登录_使用本地系统帐户和域用户帐户两者区别(microsoft SQLServer2000...
- 已解决:connection holder is null问题。
- 112、Flutter实现图片放大缩小的动画小
- 如何解决iOS设备AppStore下载一直是正在载入中
- 神经网络和深度神经网络,深度神经网络类型包括
- 子域名查询、DNS记录查询
热门文章
- 叠瓦盘为什么不推荐_说说SMR叠瓦式硬盘是怎么回事,为什么不推荐。
- 16位图,24位图格式分析
- misaka and last order SCU - 4489 (筛法的灵活应用)
- LOJ572. 「LibreOJ Round #11」Misaka Network 与求和 [莫比乌斯反演,杜教筛,min_25筛]
- 微信小程序点击图片,可全屏预览图片,长按可保存可转发朋友
- 安卓系统虚拟机原理 -- 初试DVM创建
- 告诉你一个神职业,时薪可高达三四千元
- FL Studio 21中文永久版网盘下载(含Key.reg注册表补丁)
- STM32CubeMX开发教程(1)— 安装教程
- 昂贵、复杂、低效...中小型企业如何打破大数据技术栈困境?