见知乎

小白记录贴,侵删~感恩!

使用sklearn官方接口代码如下

  1. 首先import包和实验数据:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.datasets import load_irisiris = load_iris()

2. 使用卡方检验来选择特征

model1 = SelectKBest(chi2, k=2)#选择k个最佳特征
model1.fit_transform(iris.data, iris.target)#iris.data是特征数据,iris.target是标签数据,该函数可以选择出k个特征 

3. 查看p-values和scores

model1.scores_  #得分  单个特征的卡方统计量值 得分越高,特征越重要
model1.pvalues_  #p-values  越小,置信度越高,特征越重要

至此,可以实现如何使用sklearn 的SelectKBest 利用chi2方法提取最优特征。但,对于不了解卡方检验的人可能不知道输出值到底是什么,此处建议阅读博客sklearn.feature_selection chi2基于卡方,特征筛选详解,文中详细阐述了sklearn的实现,并且简单明了的解释了卡方检验。

经典卡方检验-独立样本四格表:

重要代码如下:

# 计算观测值 结果为y里面每个类别的计数
observed = safe_sparse_dot(Y.T, X)          # n_classes * n_features
feature_count = X.sum(axis=0).reshape(1, -1)
class_prob = Y.mean(axis=0).reshape(1, -1)
expected = np.dot(class_prob.T, feature_count)

但是截止到现在,文中只是阐述了离散型变量的卡方检验,但是对于上面给出的代码,我们对于连续型变量还是不理解。翻开sklearn的代码 我们可以看到第一步首先要验证X是否是sparse matrix,但是对于我们的输入,其实并不是离散变量呀。无法计算自由度,无法对照卡方检验表得到概率,自由度计算可简单对照这个帖子:自由度如何理解 - SPSS论坛 - 经管之家(原人大经济论坛)。

不过一般情况下,还是不要用卡方检验进行连续性变量分析,可参考下图:

ps: 如果用SPSS软件分析,可以对两个变量进行相关性分析,参考贴如下:

https://jingyan.baidu.com/artic

Sklearn 卡方检验相关推荐

  1. python卡方检验关键词,特征选择——卡方检验(使用Python sklearn进行实现)

    在看这篇文章之前,如果对卡方检验不熟悉,可以先参考:卡方检验 Python有包可以直接实现特征选择,也就是看自变量对因变量的相关性.今天我们先开看一下如何用卡方检验实现特征选择. 1. 首先impor ...

  2. 用机器学习神器sklearn做特征工程!

    Datawhale干货 作者:jasonfreak,编辑:数据STUDIO 使用sklearn做特征工程 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是 ...

  3. sklearn学习总结(超全面)

    https://blog.csdn.net/fuqiuai/article/details/79495865 前言 sklearn想必不用我多介绍了,一句话,她是机器学习领域中最知名的python模块 ...

  4. 【数据平台】sklearn库特征工程之特征选择和降维

    1.特征选择 当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练.通常来说,从两个方面考虑来选择特征: 特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个 ...

  5. Lesson 8.1Lesson 8.2 决策树的核心思想与建模流程CART分类树的建模流程与sklearn评估器参数详解

    Lesson 8.1 决策树的核心思想与建模流程 从本节课开始,我们将介绍经典机器学习领域中最重要的一类有监督学习算法--树模型(决策树). 可此前的聚类算法类似,树模型也同样不是一个模型,而是一类模 ...

  6. 特征工程与sklearn

    特征工程与sklearn 转载 2017年05月08日 22:45:03 标签: 268 编辑 删除 转自:http://www.cnblogs.com/jasonfreak/p/5448385.ht ...

  7. Python 卡方检验演算

    Python 卡方检验演算 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 卡方检验简介 卡方统计检验用于检测两个分类向量的独 ...

  8. python 卡方检验 特征选择_结合Scikit-learn介绍几种常用的特征选择方法

    特征选择(排序)对于数据科学家.机器学习从业者来说非常重要.好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点.底层结构,这对进一步改善模型.算法都有着重要作用. 特征选择主要有两个功能: 减 ...

  9. 转载:使用sklearn进行数据挖掘

    目录 1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术 2 并行处理 2.1 整体并行处理 2.2 部分并行处理 3 流水线处理 4 自动化调参 5 持久 ...

  10. 【sklearn学习】特征选择

    Filter过滤法 过滤方法通常用作预处理步骤根据各种统计检验分数或者各项指标来选择特征 方差过滤 sklearn.feature_selection.VarianceThreshold 通过特征本身 ...

最新文章

  1. [POI 2009] gas 贪心
  2. expdp / impdp 用法详解(Oracle)
  3. Redox随笔(2)-用Rust语言编写的类UNIX操作系统
  4. java oom分析_OOM分析
  5. 广工计算机组成原理实验报告_计算机组成原理:存储器
  6. 基于WebGIS的车联网平台的研究与应用
  7. unity串口 连接多个串口崩溃_必学DB9串口+3种连接方式
  8. 使用ps 制作gif 动图
  9. 这么简单!安卓手机投屏到电脑的神器
  10. 一个未完毕创业项目的思考——创业杂记
  11. LaTeX引文.bib方式插入——misplaced alignment tab character . ...ock{\em IEEE Transactions onSystems Man
  12. Python学习week6--类
  13. English gramer
  14. SpringMVC的工作原理图
  15. 【JavaWeb学习】HTML的基础标签
  16. 样式集(14)填写信息弹窗
  17. [PTA]实验5-3 使用函数求奇数和
  18. 都在这儿!最全的北斗厂家企业名单!
  19. Android 获取电池容量 mAh
  20. CodeForces 332B Maximum Absurdity

热门文章

  1. np.isin判断数组元素在另一数组中是否存在
  2. 树莓派+超声波模块测距
  3. excel颠倒顺序从下到上排列的两种方法
  4. dsp和通用计算机的区别,DSP处理器与通用处理器的比较
  5. html中如何写平方根等,平方根一定是整数吗
  6. imput placeholder 移动端不居中问题
  7. java读取excel隐藏列,#用poi做excle导入时怎样判断行是否隐藏#poi excle读出数据
  8. 嵌入式开发第5天(数组)
  9. [歌词]《一花依世界》《君がいる世界へ》歌词假名罗马音
  10. GIF微信表情如何制作