Python数据分析工具
一、Python数据分析工具
![](https://img-blog.csdnimg.cn/20190417153008529.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
二、数据探索
一、 对数据的质量分析
异常值的分析:
- 简单的统计量分析:查看最大最小值是否在合理范围
2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超过3倍的标准差。
3.箱形图分析:
异常值被定义为小于QL-1.5IQR 或大于QR+1.5IQR
QL是所有数据的下四分位,QR是所有数据的上四分位。IQR是QR-QL
DataFrame中describe()已经给出了基本的统计
二、 数据特征分析
- 可以使用pandas、matplotlib绘制统计图
散点图矩阵可以分析每两个变量的关系。
2 .计算相关系数
①Pearson相关系数
②Spearman秩相关系数
③判定系数
使用pandas的corr()计算相关系数
![](https://img-blog.csdnimg.cn/20190417163909487.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/20190417164132451.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/20190417164348178.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
绘制条形图和折线图 :
![](https://img-blog.csdnimg.cn/20190417164501898.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
三、数据预处理
缺失 :
![](https://img-blog.csdnimg.cn/20190417165230662.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
插值法主要用两类:
拉格朗插值(python scipy库中有)、牛顿插值。
数据变换 :
使用简单的函数如:x’=x^2 x’=sqrt(x) x’=log(x)
规范化 :
①最小最大规范化
②零-均值规范化:将数据处理成均值为0,标准差为1
③小数定标规范化
连续属性离散化
数据规约 :产生更小保持原数据完整性的新数据集。
主要方法有合并属性、决策树归纳、主成分分析
数值规约 :????
![](https://img-blog.csdnimg.cn/20190417171314588.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
四、挖掘建模
1、分类 预测
![](https://img-blog.csdnimg.cn/20190417171535248.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/20190417172001812.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
2、聚类分析
![](https://img-blog.csdnimg.cn/20190417171623241.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/20190417171635711.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
![](https://img-blog.csdnimg.cn/20190417171727520.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2R1X2x1bg==,size_16,color_FFFFFF,t_70)
Python数据分析工具相关推荐
- python解题软件哪个好用_几个好用的Python数据分析工具
原标题:几个好用的Python数据分析工具 常用的Python数据分析工具汇总! Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用 ...
- pandas强大的Python数据分析工具
指数 模块 | 下一页 | 熊猫0.22.0文档 » 目录 什么是新的 安装 贡献给大熊猫 包概述 10分钟到熊猫 教程 食谱 数据结构简介 基本的基本功能 使用文本数据 选项和设置 索引和选择数据 ...
- Python数据分析工具,主要有哪些?
python数据分析工具一:IPython IPython是一个在多种编程语言之间进行交互计算的命令行shell,最开始是用python开发的,提供增强的内省,富媒体,扩展的shell语法,tab补全 ...
- python分析工具有哪些_常用Python数据分析工具汇总
Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性.Python可用于数据分析,但其单纯依赖Python本身自带的库进行数 ...
- python 数据分析工具之 numpy pandas matplotlib
作为一个网络技术人员,机器学习是一种很有必要学习的技术,在这个数据爆炸的时代更是如此. python做数据分析,最常用以下几个库 numpy pandas matplotlib 一.Numpy库 为了 ...
- Python数据分析工具Pandas——数值计算和统计基础
Pandas数值计算和统计基础 一.常用数学.统计方法 基本参数 主要数学计算方法 唯一值: 值计数 成员资格 二.文本数据处理 使用.str访问 字符串常用方法 lower,upper,len,st ...
- python数据分析工具3:matplotlib
3.1 Matplotlib简介及图表窗口 Matplotlib → 一个python版的matlab绘图接口,以2D为主,支持python.numpy.pandas基本数据结构,运营高效且有较丰富的 ...
- Python数据分析工具:Pandas_Part 1
序言: 这几章特别的重要,敲代码会稍微多一点,虽然偶尔很枯燥,但还是希望自己能够坚持下去? ####[课程2.1] Pandas数据结构Series:基本概念及创建 "一维数 ...
- python数据分析工具大全_Python数据分析工具
{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...
最新文章
- Nginx问题定位之监控进程异常退出
- 用动图讲解分布式 Raft
- R假设检验之Breusch-Pagan检验(Breusch-Pagan Test)
- 谈谈对于企业级系统架构的理解(zz)
- 2022最新款,官宣100000个跨年红包封面,直接领!!
- 简单而易忽视的http 404
- Acwing第 38 场周赛【完结】
- python2中如何得到一级域名
- 腾讯物联网开发者社区平台Tencent Things Network发布 让IoT应用开发快速安全
- Asp组件中级入门与精通系列之五
- designer一直未响应 qt_未雨绸缪及时清淤 曾是内涝重灾区 这次涵洞未积水
- 我与ARM的那些事儿2JINLK烧录nor flash
- 计算机二级之Office应用之Excel中的函数(3)
- linux编程进程,Linux编程—进程
- 离散数学计算机科学与技术答案,2计算机科学与技术专业本科离散数学期末复习题2...
- 给我一个支点,我要撬动地球。
- 360搜索结果页html代码,360搜索抓取完全封闭网页揭秘
- 使用python制作epub
- Java 处理字符串中的换行
- c语言T1中断程序编写步骤,用51单片机中断编写的4x4键盘程序