背景:

在数据的处理中需要winsorize,缩尾处理,python中有直接winsorize的命令但是出现了一些问题。特别是遇到缺失值的时候


问题描述

正常的winsorize应该是,最大值和90%分位数一致,但是在处理过程中发现对betal这一列的处理中,如果采用winsorize的忽略缺失值命令,nan_policy='omit'会出现问题。

​
scipy.stats.mstats.winsorize(a, limits=None, inclusive=(True, True), inplace=False, axis=None, nan_policy='propagate')[source]​


解决方案

betadf['check'] = betadf['betal'].clip(lower=betadf['betal'].quantile(0.1), upper=betadf['betal'].quantile(0.9))

采用clip和quantile结合的方法进行处理,能得到正确的结果:

附:winsorize的说明和解决问题参考的链接

winsorize官方说明

解决问题参考连接,感谢这位朋友

python在winsorize中遇到缺失值的问题相关推荐

  1. python处理csv中的缺失值_Python中重复值、缺失值、空格值处理

    1.重复值处理 把数据结构中,行相同的数据只保留一行. 函数语法: drop_duplicates() 删除重复值newdf=df.drop_duplicates()from pandas impor ...

  2. 数据探索(数据清洗)①—数据质量分析(对数据中的缺失值、异常值和一致性进行分析)

    Python介绍. Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分 ...

  3. python 数据框缺失值_Python:处理数据框中的缺失值

    python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...

  4. Python:在Pandas数据框中查找缺失值

    How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...

  5. 数据预处理常用技巧 | 数据分析中如何处理缺失值?(文末福利)

    无论是数据分析.数据挖掘,还是机器学习,都离不开数据预处理这一重要步骤.没有高质量的数据,就没有高质量的分析结果.而数据不完整,也就是数据中包含缺失值,正是数据分析工作者最常见的问题之一.本文我们就来 ...

  6. python处理数据的优势-【Python数据分析基础】: 数据缺失值处理

    作者:xiaoyu 微信公众号:Python数据科学 圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已. 再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所 ...

  7. python神经网络库 keras_在Python和R中使用Keras和Tensorflow进行深度学习

    了解TensorFlow 2.0和Keras在Python和R中的深度学习并构建神经网络 深入了解人工神经网络(ANN)和深度学习 了解Keras和Tensorflow库的用法 了解适用人工神经网络( ...

  8. datagridview列 值提取_Pandas中的缺失值处理

    相信大家在处理数据的时候经常会发现有一些数据的缺失,这个时候便会很头大,因为有时候的缺失的数据是本来就没有的,这些数据不管就好了,有的数据虽然没有,但是也可以根据一些数据推算出来这个数据是多少然后给它 ...

  9. 如何用python处理缺失值_用Python处理数据集中的缺失值

    Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 现实生活中的数据经常存在缺失值.产生缺失值的原因有很多,如观察资料未被记录.数据损坏等.由于很多机器学习算 ...

最新文章

  1. (zhuan) Where can I start with Deep Learning?
  2. Python3 加载图片并保存图片
  3. python xlsxwriter 画图_Python XlsxWriter模块Chart类用法实例分析
  4. 命令行验证apk签名
  5. swift 可变參数
  6. python多元函数求极小值_使用遗传算法求二元函数的最小值
  7. Linux多线程实践(9) --简单线程池的设计与实现
  8. 织梦dedecms模板--物流快递网站模板源码-带手机版数据同步
  9. B树插入和删除的各种情况分析
  10. 解决Gradle DSL method not found: ‘android()’
  11. 马尔可夫决策过程(MDP)
  12. linux编写周期性计划任务,linux任务计划及周期性任务计划
  13. R︱Yandex的梯度提升CatBoost 算法(官方述:超越XGBoost/lightGBM/h2o)
  14. CentOS7安装PostgreSQL10,pgadmin4
  15. 工具学习——介绍几个C++项目可用的UML工具
  16. CAD图纸的缩放——范围缩放
  17. 怎么调整图片的尺寸大小?
  18. HDU 5242 上海大都会 G题
  19. python:掌握类的基本方法。定义一个Circle类,根据圆的半径求周长和面积。 再由Circle类创建2个圆对象,其半径分别为5和10,要求输出各自的周长和面积
  20. MACD策略引入backtrader出错

热门文章

  1. 安全生产六步法是什么_六步法安全生产操作规程汇编.docx
  2. 40 - 前置操作符和后置操作符
  3. CCER上市公司实际控制人数据集(1991-2018年)
  4. 通信模组中的常见术语
  5. 配置ACL的生效时间段
  6. 苹果手机6sdns服务器未响应,ipad的Apple ID和密码都是对的,可是怎么也登陆不了App Store(输入没反应)。怎么...
  7. 【iapp】13.图像控件的使用
  8. 通达OA-今日学习:Office_Anywhere服务已经启动了,但仍打不开页面或很慢,怎么办?
  9. qfiledialog文件过滤_自定义高级QFileDialog文件过滤器
  10. kerberos学习