在表格数据集上创建任何机器学习模型之前, 通常我们会检查独立变量和目标变量之间是否存在关系。这可以通过测量两个变量之间的相关性来实现。在 python 中, pandas 提供了一个函数 dataframe.corr() ,仅用于查找数字变量之间的相关性。

在本文中, 我们将了解如何找到分类变量和连续变量之间的相关性。

案例 1: 当独立变量只有两个值时

点双性关联

如果分类变量只有两个值 (即 true/false), 则我们可以将其转换为数字数据类型 (0 和 1)。由于它成为一个数值变量, 我们可以使用该函数找出相关 dataframe.corr() 。

让我们创建一个数据框架, 它将由两列组成: “员工类型 (空类型)” 和“工资“。

有希望, 我们将分配更多的工资给 Empip1。这样我们就会得到 “空型” 和 “工资” 之间的相关性。

创建具有以下属性的数据框:

平均 (平均) 工资为 EmpType1 60, 标准差为5。

平均 (平均) 工资为 EmpType2 50, 标准差为5。

import pandas as pd

import numpy as np

num1=np.random.normal(loc=60,scale=5,size=100)

df1=pd.DataFrame(num1,columns=['Salary'])

df1['Type']='EmpType1'

num2=np.random.normal(loc=50,scale=5,size=100)

df2=pd.DataFrame(num2,columns=['Salary'])

df2['Type']='EmpType2'

df=pd.concat([df1,df2],axis=0)

# Since Categorical variable 'Type' has only 2 values we will convert it into numeric (0 and 1) datatype.

df['TypeInt']=(df['Type']=='EmpType1').astype(int)

df.corr()

输出

工资

类型

工资

1

0.736262

类型

0.736262

1

“空” 和 “工资” 之间的相关性为0.7。所以我们可以确定它是相关的。

案例 2: 当独立变量具有两个以上值时

方差分析 (方差分析)

我们将分配更多的工资 EmpType1 , 分配给 EmpType2 平均工资, 分配给 EmpType3 低薪。这样, 我们就会得到 “空型” 和 “工资” 之间的一些相关性。

平均工资为 EmpType1 90, 标准差为5。

平均工资为 EmpType2 70, 标准差为5。

平均工资为 EmpType3 50, 标准差为5。

num1=np.random.normal(loc=90,scale=5,size=100)

df1=pd.DataFrame(num1,columns=['Salary'])

df1['Type']='EmpType1'

num2=np.random.normal(loc=70,scale=5,size=100)

df2=pd.DataFrame(num2,columns=['Salary'])

df2['Type']='EmpType2'

num3=np.random.normal(loc=50,scale=5,size=100)

df3=pd.DataFrame(num3,columns=['Salary'])

df3['Type']='EmpType3'

df=pd.concat([df1,df2,df3],axis=0)

from scipy import stats

F, p = stats.f_oneway(df[df.Type=='EmpType1'].Salary,

df[df.Type=='EmpType2'].Salary,

df[df.Type=='EmpType3'].Salary)

print(F)

我们得到的输出是: 14436261

由于三种雇员的平均工资为90、70和 50 (标准差为 5), f 分为 1444分

而如果三种员工类型的平均工资为 5 1、5 0、4 9 (几乎相同), 那么f 分将接近 0,即没有相关性。

F 分数值越大, 相关性就越高。

您可以从此链接下载并运行完整代码.

如何用python进行相关性分析_使用 Python 查找分类变量和连续变量之间的相关性...相关推荐

  1. sklearn 相关性分析_人工智能和大数据的骨架支点—— 机器学习之相关性分析

    内容架构: 第一部分:简单线性回归 第二部分:如何用逻辑回归分类 第三部分:kaggle和泰坦尼克号预测 第一部分:简单线性回归 一.机器学习(Machine Learning, ML) 是机器学习算 ...

  2. 用python进行营销分析_用python进行covid 19分析

    用python进行营销分析 Python is a highly powerful general purpose programming language which can be easily l ...

  3. python 小说人物分析_用Python来看金庸先生的小说,这一生向大侠致敬

    从小就是武侠迷,可以说是看着金庸先生的作品长大的,无论是书还是电视剧都非常着迷,飞雪连天射白鹿,笑书神侠倚碧鸳.金老一生共著15部武侠作品,在那个电子产品和互联网尚未普及的年代带给我们太多的欢乐和回忆 ...

  4. python日本 老龄化分析_基于Python关于世界自杀率影响因素的分析以及机器学习预测...

    基于Python关于世界自杀率影响因素的分析以及机器学习 预测 文/刘子桦 马若炎 [摘 要]摘 要 [期刊名称]<电子技术与软件工程> [年(卷),期]2019(000)017 [总页数 ...

  5. python做股票分析_利用Python进行股票投资组合分析(调试)

    pythonsp500-robo-advisor-edition Python for Financial Analyses 需要的镜像文件和数据--Robo Advisor edition. 小结 ...

  6. python微博爬虫分析_基于Python的新浪微博爬虫研究

    基于 Python 的新浪微博爬虫研究 吴剑兰 (江苏警官学院,江苏 南京 210031 ) [摘 要] 摘 要:对比新浪提供的 API 及传统的爬虫方式获取微博的优缺点, 采用模拟登陆和网页解析技术 ...

  7. python实现情感分析_利用python实现简单情感分析

    最近选修的大数据挖掘课上需要做关于情感分析的pre,自己也做了一些准备工作,就像把准备的内容稍微整理一下写出来,下次再做类似项目的时候也有个参考. 情感分析是什么? 文本情感分析是指用自然语言处理(N ...

  8. python 基金量化分析_「Python量化」怎么在基金定投上实现收益最大化

    我们也会有恐惧和贪婪,只不过在别人贪婪的时候我们恐惧,在别人恐惧的时候我们贪婪.--巴菲特 引言 继上一篇文章< Python数说指数定投策略>,今天为大家分享一篇推文(原文来源:SAMs ...

  9. 用python做频数分析_使用Python进行描述性统计

    2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy import array 2 from numpy.random import normal, randint ...

最新文章

  1. POJ 2186 Tarjan
  2. python操作文件的库_Python使用pyshp库读取shapefile信息的方法
  3. final类是否可以被代理_设计模式——代理模式
  4. ASP.NET Core on K8S深入学习(10)K8S包管理器Helm-Part 1
  5. 每日一题(52)—— 进程
  6. Django REST FRAMEWORK swagger(一)框架详解
  7. adb 静默安装_怎么实现Android APP静默安装
  8. QT:MainWindow初始化列表解释
  9. boot sprint 项目结构_Spring Boot 项目结构
  10. IntelliJ IDEA 2018.2.2及以下版本破解方法
  11. opencv修改像素值
  12. 摸爬滚打DirectX11_day_11——三维天空
  13. 苹果v10模板需要几的php,苹果MACCMSv10源码模板安装常见问题
  14. Linux系统命令(网络通信)
  15. 最新海洋CMS(海洋视频内容管理系统)V12.6版
  16. 拆长虹iho3000_(CA版)四川长虹iho-3000t晶晨s905l-b刷全网通系统教程可救砖头
  17. Mysql添加新用户设置密码
  18. 代表 YGG 的 Illuvium 首席游戏大使 —— Zom
  19. 状态机在马蜂窝机票订单交易系统中的应用与优化实践
  20. Linux与云计算——第二阶段Linux服务器架设 第七章:网站WEB服务器架设—电子邮件WEB端搭建SquirrelMail...

热门文章

  1. linux编译gcc多久时间,Linux gcc编译参数说明
  2. 内部类与静态内部类区别及举例
  3. vue3+Element Plus+Thinkphp6的开源免费的后台快速开发框架
  4. 快速开发框架为什么得到越来越多企业的认同?
  5. 教你怎样删除PDF文件中多余的页面
  6. 【Mybatis】动态SQL 实例
  7. Jmeter基础教程合集
  8. Python可以用来做什么【python应用场景】
  9. ecovrcs扫地机器人怎么升级_【七月更新】科沃斯扫地机器人&石头扫地机器人,如何选择?...
  10. 使用南尘的ImagePicker实现仿微信的相册图片选择以及拍照上传