一、Python数据分析工具

![](https://img-blog.csdnimg.cn/20190417153008529.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

二、数据探索

一、 对数据的质量分析

异常值的分析:

  1. 简单的统计量分析:查看最大最小值是否在合理范围

2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超过3倍的标准差。

3.箱形图分析:

异常值被定义为小于QL-1.5IQR 或大于QR+1.5IQR

QL是所有数据的下四分位,QR是所有数据的上四分位。IQR是QR-QL

DataFrame中describe()已经给出了基本的统计

二、 数据特征分析

  1. 可以使用pandas、matplotlib绘制统计图

散点图矩阵可以分析每两个变量的关系。

2 .计算相关系数

①Pearson相关系数

②Spearman秩相关系数

③判定系数

使用pandas的corr()计算相关系数

![](https://img-blog.csdnimg.cn/20190417163909487.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190417164132451.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190417164348178.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

绘制条形图和折线图

![](https://img-blog.csdnimg.cn/20190417164501898.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

三、数据预处理

缺失

![](https://img-blog.csdnimg.cn/20190417165230662.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

插值法主要用两类:

拉格朗插值(python scipy库中有)、牛顿插值。

数据变换

使用简单的函数如:x’=x^2 x’=sqrt(x) x’=log(x)

规范化

①最小最大规范化

②零-均值规范化:将数据处理成均值为0,标准差为1

③小数定标规范化

连续属性离散化

数据规约 :产生更小保持原数据完整性的新数据集。

主要方法有合并属性、决策树归纳、主成分分析

数值规约 :????

![](https://img-blog.csdnimg.cn/20190417171314588.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

四、挖掘建模

1、分类 预测

![](https://img-blog.csdnimg.cn/20190417171535248.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190417172001812.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

2、聚类分析

![](https://img-blog.csdnimg.cn/20190417171623241.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190417171635711.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

![](https://img-blog.csdnimg.cn/20190417171727520.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)

Python数据分析工具相关推荐

  1. python解题软件哪个好用_几个好用的Python数据分析工具

    原标题:几个好用的Python数据分析工具 ​常用的Python数据分析工具汇总! Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用 ...

  2. pandas强大的Python数据分析工具

    指数 模块 | 下一页 | 熊猫0.22.0文档 » 目录 什么是新的 安装 贡献给大熊猫 包概述 10分钟到熊猫 教程 食谱 数据结构简介 基本的基本功能 使用文本数据 选项和设置 索引和选择数据 ...

  3. Python数据分析工具,主要有哪些?

    python数据分析工具一:IPython IPython是一个在多种编程语言之间进行交互计算的命令行shell,最开始是用python开发的,提供增强的内省,富媒体,扩展的shell语法,tab补全 ...

  4. python分析工具有哪些_常用Python数据分析工具汇总

    Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性.Python可用于数据分析,但其单纯依赖Python本身自带的库进行数 ...

  5. python 数据分析工具之 numpy pandas matplotlib

    作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库 为了 ...

  6. Python数据分析工具Pandas——数值计算和统计基础

    Pandas数值计算和统计基础 一.常用数学.统计方法 基本参数 主要数学计算方法 唯一值: 值计数 成员资格 二.文本数据处理 使用.str访问 字符串常用方法 lower,upper,len,st ...

  7. python数据分析工具3:matplotlib

    3.1 Matplotlib简介及图表窗口 Matplotlib → 一个python版的matlab绘图接口,以2D为主,支持python.numpy.pandas基本数据结构,运营高效且有较丰富的 ...

  8. Python数据分析工具:Pandas_Part 1

    序言:     这几章特别的重要,敲代码会稍微多一点,虽然偶尔很枯燥,但还是希望自己能够坚持下去? ####[课程2.1] Pandas数据结构Series:基本概念及创建     "一维数 ...

  9. python数据分析工具大全_Python数据分析工具

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

最新文章

  1. Nginx问题定位之监控进程异常退出
  2. 用动图讲解分布式 Raft
  3. R假设检验之Breusch-Pagan检验(Breusch-Pagan Test)
  4. 谈谈对于企业级系统架构的理解(zz)
  5. 2022最新款,官宣100000个跨年红包封面,直接领!!
  6. 简单而易忽视的http 404
  7. Acwing第 38 场周赛【完结】
  8. python2中如何得到一级域名
  9. 腾讯物联网开发者社区平台Tencent Things Network发布 让IoT应用开发快速安全
  10. Asp组件中级入门与精通系列之五
  11. designer一直未响应 qt_未雨绸缪及时清淤 曾是内涝重灾区 这次涵洞未积水
  12. 我与ARM的那些事儿2JINLK烧录nor flash
  13. 计算机二级之Office应用之Excel中的函数(3)
  14. linux编程进程,Linux编程—进程
  15. 离散数学计算机科学与技术答案,2计算机科学与技术专业本科离散数学期末复习题2...
  16. 给我一个支点,我要撬动地球。
  17. 360搜索结果页html代码,360搜索抓取完全封闭网页揭秘
  18. 使用python制作epub
  19. Java 处理字符串中的换行
  20. c语言T1中断程序编写步骤,用51单片机中断编写的4x4键盘程序

热门文章

  1. CityEngine -- CGA语法学习
  2. tomcat中的session管理
  3. 马尔可夫过程2 | 状态空间
  4. 每天扫码骑车叫外卖,都是多亏了它在背后支持
  5. 开放申请 | 2022腾讯AI Lab犀牛鸟专项研究计划
  6. 译:SQL Server 2008 新特性(3/3)
  7. H---illuminate
  8. 用语音合成技术构建智能交通系统:基于语音识别的智能交通系统实现
  9. 基于LVM进行磁盘分区
  10. iOS黑科技之(AVFoundation)动态人脸识别(二)