1.特征相关性分析

# 导入必要模块
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns  # 一个简单的画图函数
color = sns.color_palette()%matplotlib inline# 利用pandas读取数据
dpath = 'F:/Python_demo/XGBoost/data/'train = pd.read_csv(dpath + "AllstateClaimsSeverity_train.csv") print(train.head(5))  # 显示前5行数据
print(train.info())  # 显示数据相关信息

split = 117  # 分割位置
size = 15  # 总共提取的列数
data=train.iloc[:,split:]  # 提取列数据cols=data.columns   # 返回列名
data_corr = data.corr().abs()  # 计算相关系数,并取绝对值
# print(data_corr)plt.subplots(figsize=(13, 9))  # 设置画布尺寸,画出热力图
sns.heatmap(data_corr,annot=True)  # annot=True 格子上显示数字
sns.heatmap(data_corr, mask=data_corr < 1, cbar=False)
plt.show()

# 寻找相关系数大于0.5的列
threshold = 0.5# List of pairs along with correlation above threshold
corr_list = []#Search for the highly correlated pairs
for i in range(0,size): #for 'size' featuresfor j in range(i+1,size): #avoid repetitionif (data_corr.iloc[i,j] >= threshold and data_corr.iloc[i,j] < 1) or (data_corr.iloc[i,j] < 0 and data_corr.iloc[i,j] <= -threshold):corr_list.append([data_corr.iloc[i,j],i,j]) #store correlation and columns index#Sort to show higher ones first
s_corr_list = sorted(corr_list,key=lambda x: -abs(x[0]))
#Print correlations and column names
for v,i,j in s_corr_list:print ("%s and %s = %.2f" % (cols[i],cols[j],v))
cont11 and cont12 = 0.99
cont1 and cont9 = 0.93
cont6 and cont10 = 0.88
cont6 and cont13 = 0.82
cont1 and cont10 = 0.81
cont6 and cont9 = 0.80
cont9 and cont10 = 0.79
cont6 and cont12 = 0.79
cont6 and cont11 = 0.77
cont1 and cont6 = 0.76
cont7 and cont11 = 0.75
cont7 and cont12 = 0.74
cont10 and cont12 = 0.71
cont10 and cont13 = 0.71
cont10 and cont11 = 0.70
cont6 and cont7 = 0.66
cont9 and cont13 = 0.64
cont9 and cont12 = 0.63
cont1 and cont12 = 0.61
cont9 and cont11 = 0.61
cont1 and cont11 = 0.60
cont1 and cont13 = 0.53
cont4 and cont8 = 0.53
# 画出相关系数大于0.5的散点分布图
for v,i,j in s_corr_list:sns.pairplot(train, height=6, x_vars=cols[i],y_vars=cols[j] )plt.show()

cont11 和 cont12 几乎是线性,可以移除

Kaggle实战(一):数据相关性分析相关推荐

  1. 如何用python进行相关性分析_Python 数据相关性分析

    概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对 ...

  2. 几组数据的相关性python_python数据相关性分析 (计算相关系数)

    原博文 2018-05-28 15:54 − #-*- coding: utf-8 -*- #餐饮销量数据相关性分析 计算相关系数 from __future__ import print_funct ...

  3. 几组数据的相关性python_Python 数据相关性分析

    概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对 ...

  4. R语言淮河流域水库水质数据相关性分析、地理可视化、广义相加模型GAM调查报告...

    采样地点:淮河流域一带,昭平台水库.白龟山水库.燕山水库.石漫滩水库.板桥水库.宿鸭湖水库.博山水库.南湾水库.石山口水库.五岳水库.泼河水库.鲶鱼山水库(点击文末"阅读原文"获取 ...

  5. Python数据相关性分析

    概述 在我们的工作中,会有一个这样的场景,有若干数据罗列在我们的面前,这组数据相互之间可能会存在一些联系,可能是此增彼涨,或者是负相关,也可能是没有关联,那么我们就需要一种能把这种关联性定量的工具来对 ...

  6. R语言数据相关性分析(相关系数和p值)及可视化

    此篇为转载R语言学习笔记之相关性矩阵分析及其可视化 数据相关性分析及可视化 1. 新建数据集 2. Hmisc 3. 可视化相关系数矩阵 4. chart.Correlation()来自于包Perfo ...

  7. Python数据相关性分析实践记录

    数据分析是很多建模挖掘类任务的基础,也是非常重要的一项工作,在我之前的系列博文里面已经详细介绍过很多数据分析相关的内容和实践工作了,与之对应的最为常见的分析手段就是热力图可视化分析了,这里我简单给出来 ...

  8. pandas数据相关性分析_使用Pandas,SciPy和Seaborn进行探索性数据分析

    pandas数据相关性分析 In this post we are going to learn to explore data using Python, Pandas, and Seaborn. ...

  9. 数据分析之数据相关性分析

    相关性分析 作者:学者科技 时间:2022/12/25 应用场景 发现数据之间的关联性 比如 啤酒 和 尿布 删减统计指标 比如 城市里的温度传感器,相关性强的可以去掉以节约成本 挑选回归建模的变量 ...

最新文章

  1. rundeck入门-初步操作
  2. 远程计算机未能及时反应,Win10无法打开软件提示“服务器没有及时响应或控制请求”怎么办...
  3. python展开面_python面度对象(属性,类方法,静态方法)
  4. 3/5 MySQL入门总结:数据库(DATABASE)操作
  5. 【渝粤教育】 国家开放大学2020年春季 2542行政组织学 参考试题
  6. The following classes could not be instantiated:
  7. blockUI应用到Asp.Net页面时服务器控件(Button等)失效的问题
  8. Nutanix推出新的产品组合,以简化混合多云之路
  9. 一张图读懂什么是专属分布式存储
  10. mysql数据库undo日志恢复_MySQL的undo/redo日志和binlog日志,以及2PC
  11. Finereport安装
  12. 使用windbg 检查c++程序死锁
  13. 快速启动无法识别U盘启动盘。bios无法识别U盘启动盘
  14. 2021那些值得推荐的社区小程序
  15. 华信分享-网站优化关键词密度多少才是最合适的?
  16. vue源码学习(第一张) this访问data数据 拆散之后并不难
  17. 实战:第十五章:摸爬滚打这些年的心路历程
  18. Spring详解一号IOC京都大火篇
  19. 过压过流保护芯片,IC芯片电路图
  20. 【案例分析】服务器数据恢复

热门文章

  1. python协程入门介绍
  2. debug版函数初始化入口 0xcc
  3. Hbuild 开发H5 APP上架App Store流程
  4. imap收件服务器无响应,imap设置收件服务器
  5. http://bbs.duowan.com/forum.php,多玩论坛为什么关闭了 多玩游戏论坛关闭业务升级公告...
  6. python获取qq音乐,命令下实现搜索,试听功能
  7. Linux网络编程经典书籍推荐
  8. [附源码]java毕业设计医院门诊信息管理系统
  9. ubuntu实时监测显卡使用信息
  10. saltstack:grains组件