python在winsorize中遇到缺失值的问题
背景:
在数据的处理中需要winsorize,缩尾处理,python中有直接winsorize的命令但是出现了一些问题。特别是遇到缺失值的时候
问题描述
正常的winsorize应该是,最大值和90%分位数一致,但是在处理过程中发现对betal这一列的处理中,如果采用winsorize的忽略缺失值命令,nan_policy='omit'会出现问题。
scipy.stats.mstats.winsorize(a, limits=None, inclusive=(True, True), inplace=False, axis=None, nan_policy='propagate')[source]
解决方案
betadf['check'] = betadf['betal'].clip(lower=betadf['betal'].quantile(0.1), upper=betadf['betal'].quantile(0.9))
采用clip和quantile结合的方法进行处理,能得到正确的结果:
附:winsorize的说明和解决问题参考的链接
winsorize官方说明
解决问题参考连接,感谢这位朋友
python在winsorize中遇到缺失值的问题相关推荐
- python处理csv中的缺失值_Python中重复值、缺失值、空格值处理
1.重复值处理 把数据结构中,行相同的数据只保留一行. 函数语法: drop_duplicates() 删除重复值newdf=df.drop_duplicates()from pandas impor ...
- 数据探索(数据清洗)①—数据质量分析(对数据中的缺失值、异常值和一致性进行分析)
Python介绍. Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置 python基础知识及数据分 ...
- python 数据框缺失值_Python:处理数据框中的缺失值
python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...
- Python:在Pandas数据框中查找缺失值
How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...
- 数据预处理常用技巧 | 数据分析中如何处理缺失值?(文末福利)
无论是数据分析.数据挖掘,还是机器学习,都离不开数据预处理这一重要步骤.没有高质量的数据,就没有高质量的分析结果.而数据不完整,也就是数据中包含缺失值,正是数据分析工作者最常见的问题之一.本文我们就来 ...
- python处理数据的优势-【Python数据分析基础】: 数据缺失值处理
作者:xiaoyu 微信公众号:Python数据科学 圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已. 再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所 ...
- python神经网络库 keras_在Python和R中使用Keras和Tensorflow进行深度学习
了解TensorFlow 2.0和Keras在Python和R中的深度学习并构建神经网络 深入了解人工神经网络(ANN)和深度学习 了解Keras和Tensorflow库的用法 了解适用人工神经网络( ...
- datagridview列 值提取_Pandas中的缺失值处理
相信大家在处理数据的时候经常会发现有一些数据的缺失,这个时候便会很头大,因为有时候的缺失的数据是本来就没有的,这些数据不管就好了,有的数据虽然没有,但是也可以根据一些数据推算出来这个数据是多少然后给它 ...
- 如何用python处理缺失值_用Python处理数据集中的缺失值
Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. 现实生活中的数据经常存在缺失值.产生缺失值的原因有很多,如观察资料未被记录.数据损坏等.由于很多机器学习算 ...
最新文章
- (zhuan) Where can I start with Deep Learning?
- Python3 加载图片并保存图片
- python xlsxwriter 画图_Python XlsxWriter模块Chart类用法实例分析
- 命令行验证apk签名
- swift 可变參数
- python多元函数求极小值_使用遗传算法求二元函数的最小值
- Linux多线程实践(9) --简单线程池的设计与实现
- 织梦dedecms模板--物流快递网站模板源码-带手机版数据同步
- B树插入和删除的各种情况分析
- 解决Gradle DSL method not found: ‘android()’
- 马尔可夫决策过程(MDP)
- linux编写周期性计划任务,linux任务计划及周期性任务计划
- R︱Yandex的梯度提升CatBoost 算法(官方述:超越XGBoost/lightGBM/h2o)
- CentOS7安装PostgreSQL10,pgadmin4
- 工具学习——介绍几个C++项目可用的UML工具
- CAD图纸的缩放——范围缩放
- 怎么调整图片的尺寸大小?
- HDU 5242 上海大都会 G题
- python:掌握类的基本方法。定义一个Circle类,根据圆的半径求周长和面积。 再由Circle类创建2个圆对象,其半径分别为5和10,要求输出各自的周长和面积
- MACD策略引入backtrader出错
热门文章
- 安全生产六步法是什么_六步法安全生产操作规程汇编.docx
- 40 - 前置操作符和后置操作符
- CCER上市公司实际控制人数据集(1991-2018年)
- 通信模组中的常见术语
- 配置ACL的生效时间段
- 苹果手机6sdns服务器未响应,ipad的Apple ID和密码都是对的,可是怎么也登陆不了App Store(输入没反应)。怎么...
- 【iapp】13.图像控件的使用
- 通达OA-今日学习:Office_Anywhere服务已经启动了,但仍打不开页面或很慢,怎么办?
- qfiledialog文件过滤_自定义高级QFileDialog文件过滤器
- kerberos学习