正态分布:数据呈现对称的钟形分布
左偏态:样本大量集中在均值右边(均值偏到了左边)
右偏态:样本大量集中在均值左边(均值偏到了右边)

处理方法:

  • 右偏态:常用对数函数处理
  • 左偏态:常用指数函数处理

通用变换方法:以降低数据的偏态系数为目标,使得数据分布更加接近正太分布的变换方法

yeo-johnson 变换:可以处理包含正数、负数和零的变量

box-cox变换:只能处理数值皆为正数的变量

# sklearn 中纠偏的方法
from sklearn.preprocessing import PowerTransformer
# 参数讲解
# method = 'yeo-johnson' or 'box-cox’
# 使用pipeline进行纠偏过程的整合
from sklearn.linear_model import LinearRegression
from sklearn.pipeline import Pipeline
# 构建模型工作流
pipe_lm = Pipeline([('sc',StandardScaler()),('pow_trans',PowerTransformer(method='yeo-johnson')),('lm_regr',LinearRegression())])
print(pipe_lm)

sklearn 纠偏相关推荐

  1. 安装 sklearn 报错 ImportError: cannot import name Type

    1. 安装 sklearn sudo pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple sklearn 会默认安装 joblib , s ...

  2. TF-IDF 原理及sklearn中的tf-idf实例分析

    背景介绍 在一个大的文本语料库中,一些单词将出现很多次(例如 "the", "a", "is" 是英文),因此对文档的实际内容没有什么有意义 ...

  3. sklearn数据处理_one_hot

    20211119 sc = StandardScaler() X_train_std = sc.fit_transform(X_train) save保存的是sc 而不是 x_train_std 20 ...

  4. 关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

    20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候,也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保 ...

  5. sklearn.model_selection.train_test_split随机划分训练集和测试集

    1 函数用途 train_test_split()是交叉验证中常用的函数,功能是将数组或矩阵按比例随机划分为训练集和测试集,使用方法为: X_train,X_test, y_train, y_test ...

  6. sklearn FutureWarning: numpy not_equal will not check..., The comparison did not return the same

    1. 问题 import sklearn 后有如下警告 ubuntu@test:/data/# python Python 2.7.12 (default, Nov 12 2018, 14:36:49 ...

  7. sklearn库安装_没有依赖库也能跑机器学习模型!推荐一个强大工具m2cgen

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI m2cgen(Model 2 Code Generator)是一个轻量级代码生成器,它可以将训练好的机器学习模型转换成无需依赖库的本地代码. ...

  8. python 聚类_使用python+sklearn实现聚类性能评估中随机分配对聚类度量值的影响

    注意:单击此处https://urlify.cn/3iAzUr下载完整的示例代码,或通过Binder在浏览器中运行此示例 下图说明了聚类数量和样本数量对各种聚类性能评估度量指标的影响.未调整的度量指标 ...

  9. sklearn 朴素贝叶斯分类示例

    代码参考 https://github.com/mbeyeler/opencv-machine-learning/blob/master/notebooks/07.01-Implementing-Ou ...

最新文章

  1. C和指针---第六章:指针
  2. Spring MVC控制器的单元测试:“普通”控制器
  3. 吃货都是怎么给自己找理由的? | 今日最佳
  4. [浏览器]Apple之Safari 5.0.4
  5. tcpdump如何判断丢包_亿级规模的高可用微服务系统,如何轻松设计?
  6. struts2 - View页面中获取Action的成员变量
  7. 为什么 Math.min() 比 Math.max() 大?
  8. 能翻译整篇论文的软件有什么?
  9. NOIP2013提高组华容道题解
  10. android手势解锁代码,纯android代码实现九宫格手势密码
  11. 模拟布朗运动与几何布朗运动
  12. oracle怎么给表建同义词_oracle同义词创建(synonym)
  13. “蚂蚁牙黑,蚂蚁呀吼”一夜间火遍全网?别忽略了潜在风险
  14. java seo优化_JavaWeb 项目如果从技术选型的角度来做 Seo 优化
  15. 365 水壶问题(递归、数学-裴蜀定理)
  16. OpenTSDB搭建过程(CDH环境,kerberos认证)
  17. Python 获取当前系统时间
  18. html页面,文字的自动换行
  19. 前端食堂技术周刊第 53 期:React Router 6.4、VS Code August 2022、2022 Google 谷歌开发者大会、Meta 开源 MemLab、Vue.js 技术内幕
  20. XML和Dom4j、正则表达式

热门文章

  1. tableau-客户留存分析模型
  2. 【算法】【链表模块】删除链表的中间节点或a/b节点
  3. 三菱PLC内置以太网通讯
  4. python期末复习提纲
  5. 计算机桌面个性化怎样设置方法,电脑桌面图标怎么个性化自定义设置呢?
  6. cosx绝对值的积分
  7. 基于 OpenSSL 生成自签名证书,数字签名,泛域名证书,ca证书,PKI等
  8. 树莓派写卡后连接诸多问题及方法
  9. 区块链网络性能的关键衡量指标
  10. 图片编辑软件_pinta在Linux下安装