一、Python数据分析工具

二、数据探索

一、对数据的质量分析

异常值的分析:

1. 简单的统计量分析:查看最大最小值是否在合理范围

2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超过3倍的标准差。

3.箱形图分析:

异常值被定义为小于QL-1.5IQR 或大于QR+1.5IQR

QL是所有数据的下四分位,QR是所有数据的上四分位。IQR是QR-QL

DataFrame中describe()已经给出了基本的统计

二、数据特征分析

1.可以使用pandas、matplotlib绘制统计图

散点图矩阵可以分析每两个变量的关系。

2.计算相关系数

①Pearson相关系数

②Spearman秩相关系数

③判定系数

使用pandas的corr()计算相关系数

绘制条形图和折线图

三、数据预处理

缺失

插值法主要用两类:

拉格朗插值(python scipy库中有)、牛顿插值。

数据变换

使用简单的函数如:x'=x^2  x'=sqrt(x)  x'=log(x)

规范化

①最小最大规范化

②零-均值规范化:将数据处理成均值为0,标准差为1

③小数定标规范化

连续属性离散化

数据规约:产生更小保持原数据完整性的新数据集。

主要方法有合并属性、决策树归纳、主成分分析

数值规约:????

四、挖掘建模

1、分类 预测

2、聚类分析

Python数据分析与挖掘实战_张良均相关推荐

  1. python数据分析与挖掘实战 pdf 张良均

    python数据分析与挖掘实战 pdf 张良均 资源共享 网盘下载: https://pan.baidu.com/s/1jQuthI-7NSDO5GWylu7YkQ 无提取码 永久有效

  2. 《Python数据分析与挖掘实战》张良均,第一章学习笔记

    第一章从餐饮行业来引出数据挖掘 [有问题或错误,请私信我将及时改正:借鉴文章标明出处,谢谢] 刚开始讲到了T餐饮企业的管理系统(5个管理系统),因为多方面管理系统加强了此企业的信息化管理,提高了工作效 ...

  3. python数据分析与挖掘实战 配套资源_[课程学习]Python数据分析与挖掘实战 配套完整数据和源代码 rar文件[25.46MB]-码姐姐下载...

    该资源为<python数据分析与挖掘实战>一书的配套的资源代码,鉴于大多数读者很难找到此资源,特此分... 大小:20.99MB | 2020-05-14 19:07:04 本资源是pyt ...

  4. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  5. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  6. 《Python数据分析与挖掘实战》一1.2 从餐饮服务到数据挖掘

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.2节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  7. Python数据分析与挖掘实战期末考复习(抱佛脚啦)

    期末三天赛高考我真的会谢,三天学完数据挖掘--真的很极限了的. 课本是那本绿色的Python数据分析与挖掘实战(第2版),作者张良均- 图片来自老师给的ppt,以下内容是我自己总结的,自己复习用,覆盖 ...

  8. 《Python数据分析与挖掘实战》第12章(中)——协同推荐

    本文是基于<Python数据分析与挖掘实战>的实战部分的第12章的数据--<电子商务网站用户行为分析及服务推荐>做的分析. 由于此章内容很多,因此,分为三个部分进行分享--数据 ...

  9. 《Python数据分析与挖掘实战》示例源码免费下载

    <Python数据分析与挖掘实战>​ 在当今大数据驱动的时代,要想从事机器学习.人工智能.数据挖掘等前沿技术,离不开数据跟踪与分析,通过NumPy.Pandas等进行数据科学计算,通过Se ...

最新文章

  1. 在大公司工作3年以上的人,如何摆脱螺丝钉的现实?
  2. 职称计算机考试选择题,职称计算机考试综合选择题「附答案」.docx
  3. UVA 10976 Fractions Again?!【暴力枚举/注意推导下/分子分母分开保存】
  4. Chrome Cookie SameSite 属性设置
  5. 58到家为2000万家庭提供上门生活服务的背后是云计算的高效支撑
  6. Python入门学习笔记(9)
  7. 记录——《C Primer Plus (第五版)》第十章编程练习第三题
  8. 晶圆代工28nm制程市场动向
  9. java实现二叉树遍历
  10. win iis mysql php_Windows Server 2012 R2 IIS8.5+PHP(FastCGI)+MySQL环境搭建教程
  11. 电脑端查看CAD图纸也能非常方便
  12. XML Essential Training XML基本培训 Lynda课程中文字幕
  13. 转载 刘鹏老师 计算广告学 人大笔记
  14. hmm 流程图_算法:HMM模型+维特比算法详解
  15. mysql用户域账户登录_使用本地系统帐户和域用户帐户两者区别(microsoft SQLServer2000...
  16. 已解决:connection holder is null问题。
  17. 112、Flutter实现图片放大缩小的动画小
  18. 如何解决iOS设备AppStore下载一直是正在载入中
  19. 神经网络和深度神经网络,深度神经网络类型包括
  20. 子域名查询、DNS记录查询

热门文章

  1. 叠瓦盘为什么不推荐_说说SMR叠瓦式硬盘是怎么回事,为什么不推荐。
  2. 16位图,24位图格式分析
  3. misaka and last order SCU - 4489 (筛法的灵活应用)
  4. LOJ572. 「LibreOJ Round #11」Misaka Network 与求和 [莫比乌斯反演,杜教筛,min_25筛]
  5. 微信小程序点击图片,可全屏预览图片,长按可保存可转发朋友
  6. 安卓系统虚拟机原理 -- 初试DVM创建
  7. 告诉你一个神职业,时薪可高达三四千元
  8. FL Studio 21中文永久版网盘下载(含Key.reg注册表补丁)
  9. STM32CubeMX开发教程(1)— 安装教程
  10. 昂贵、复杂、低效...中小型企业如何打破大数据技术栈困境?