如何提高机器学习模型预测准确率

转载:https://zhuanlan.zhihu.com/p/25013834

这篇文章主要从工程角度来总结在实际运用机器学习进行预测时,我们可以用哪些tips来提高最终的预测效果,主要分为Data Cleaning,Features Engineering, Models Training三个部分。

Data Cleaning

  1. 移除多余的duplicate features(相同或极为相似的features)

  2. 移除constant features(只有一个value的feature)

#R里面可以使用unique()函数判断,如果返回值为1,则意味着为constant features
  1. 移除方差过小的features(方差过小意味着提供信息很有限)
#R中可以使用caret包里的nearZeroVar()函数
#Python里可以使用sklearn包里的VarianceThreshold()函数
  1. 缺失值处理:将missing value重新编为一类。
#比如原本-1代表negative,1代表positive,那么missing value就可以全部标记为0
#对于多分类的features做法也类似二分类的做法
#对于numeric values,可以用很大或很小的值代表missing value比如-99999.
  1. 填补缺失值

可以用mean,median或者most frequent value进行填补

#R用Hmisc包中的impute()函数
#Python用sklearn中的Imputer()函数
  1. 高级的缺失值填补方法

利用其他column的features来填补这个column的缺失值(比如做回归)

#R里面可以用mice包,有很多方法可供选择

注意:不是任何时候填补缺失值都会对最后的模型预测效果带来正的效果,必须进行一定的检验。

Features Engineering

  1. Data Transformation

a. Scaling and Standardization

#标准化,R用scale(), Python用StandardScaler()
#注意:Tree based模型无需做标准化

b. Responses Transformation

#当responses展现skewed distribution时候用,使得residual接近normal distribution
#可以用log(x),log(x+1),sqrt(x)等
  1. Features Encoding

a.离散特征转化成连续特征

b.label encoding

  1. Features Extraction
#主要是针对文本分析
  1. Features Selection

    a. 方法很多,此处略过

    b. 此外,PCA等方法可以生成指定数量的新features(映射)

    c. 擅对features进行visualization或correlation的分析。

Models Trainning

  1. Mostly Used ML Models

尝试多一些的模型,比如下面这些:

  1. 利用Grid Search进行hyper参数的选择

  2. 利用Cross-Validation衡量训练效果

  3. Ensemble Learning Methods

54)]

  1. 利用Grid Search进行hyper参数的选择

  2. 利用Cross-Validation衡量训练效果

  3. Ensemble Learning Methods

如何提高机器学习模型预测准确率相关推荐

  1. 提高机器学习模型性能的五个关键方法

    提高机器学习模型性能的五个关键方法 1. 数据预处理 2. 特征工程 3. 机器学习算法 4. 模型集成与融合 5. 数据增强 以下是各个方面的具体分析和方法: [ 说明:1.这里主要是各个关键方法的 ...

  2. 用Python搭建机器学习模型预测房租价格

    毫无疑问,机器学习是当前大数据分析中最热门的话题.这也是一些最令人兴奋的技术领域的基本概念,例如自动驾驶汽车和预测分析.百度上的机器学习搜索在2019年4月创历史新高,自此以来兴趣一直没有下降. 但是 ...

  3. 调参方法论:如何提高机器学习模型的性能?

    在机器学习的实践中,除了知道有哪些算法和背后原理之外,我们还需要知道如何针对具体应用挑选一个合适的算法以及如何监控,并根据实验反馈改进机器学习系统. 在机器学习系统的日常开发中,实践者需要决定是否收集 ...

  4. 使用机器学习模型预测贷款资格

    介绍(Introduction) Loans are the core business of banks. The main profit comes directly from the loan' ...

  5. 如何提高深度学习预测准确率

    问题 在深度学习中,评估模型很重要的一点就是准确率,就是正例预测也是正例的数量占所有预测是正例的数量的比例,但在模型训练中,准确率有时候不是很高,我们就需要来提高准确率,让模型达到我们的要求, 方法 ...

  6. 机器学习 预测模型_使用机器学习模型预测心力衰竭的生存时间-第一部分

    机器学习 预测模型 数据科学 , 机器学习 (Data Science, Machine Learning) 前言 (Preface) Cardiovascular diseases are dise ...

  7. RDKit | 基于随机森林(RF)的机器学习模型预测hERG阻断剂活性

    从分子相似性评估到使用机器学习技术的定量构效关系分析各种建模方法已应用于不同大小和组成的数据集(阻断剂和非阻滞剂的数量).本研究中使用从公共生物活性数据开发用于预测hERG阻断剂的稳健分类器.随机森林 ...

  8. RDKit | 基于不同描述符和指纹的机器学习模型预测logP

    log P(油水分配系数)是确定化合物是否适合用作药物的最重要属性之一.当前,用于计算机预测log P的大多数可用回归模型都在实验测得的log P值(PHYSPROP数据库).但是,该数据库中的大多数 ...

  9. 基于三种机器学习模型的岩爆类型预测及Python实现

    写在前面 由于代码较多,本文仅展示部分关键代码,需要代码文件和数据可以留言 然而,由于当时注释不及时,且时间久远,有些细节笔者也记不清了,代码仅供参考 0 引言 岩爆是深部岩土工程施工过程中常见的一种 ...

  10. 还在随缘炼丹?一文带你详尽了解机器学习模型可解释性的奥秘

    一只小狐狸带你解锁NLP/ML/DL秘籍 正文来源:腾讯技术工程 所谓炼丹,就是将大量灵材使用丹炉将其凝炼成丹.练成的灵丹蕴含灵材的大部分特性,方便携带,容易吸收.高级仙丹在炼制中更是能吸收天地灵气从 ...

最新文章

  1. 机器学习常用术语词汇表
  2. php控件不显示,解决控件遮挡问题:关于有窗口元素和无窗口元素
  3. 成功解决ModuleNotFoundError: No module named 'urllib2'
  4. 互联网广告系统综述四定向
  5. Linux 设备驱动开发 —— Tasklets 机制浅析
  6. 玩转oracle 11g(39):oracle11g密码过期后的解决方法
  7. 【OpenCV 例程200篇】19. 图像的圆形遮罩
  8. linux如何运行windows游戏,如何在Linux上运行Windows应用程序和游戏 互联网技术圈 互联网技术圈...
  9. mongoDB高级查询与索引
  10. arcgis字段计算器无法赋值_分享∣Arcgis中62个常用技巧系列一(前20个技巧)
  11. iOS Podfile修改优化
  12. python批量将word转换成pdf_python批量实现Word文件转换为PDF文件
  13. 老男孩python怎么样_老男孩Python为什么这么受关注?老男孩到底怎么样?
  14. android隐藏root环境,Android安全检查之Root环境检测
  15. 【人脸识别】arcface-pytorch代码解析
  16. windows 远程桌面连接 bat
  17. [算法课]算法课全题目解答及各周链接
  18. JAVA如何利用迅雷接口解析磁力,关于神秘代码(磁力链接)如何正确使用
  19. 局域网限速软件_复工复学活力加倍、办公类软件最低 6 折再来袭!
  20. 实现网站访问人数统计

热门文章

  1. SN号获取及显示不全的问题
  2. Linux数据库迁移
  3. matlab求列主元lu分解,列主元LU分解
  4. 一句话总结行测资料分析八大速算技巧
  5. android系统体系结构,Android系统的五层体系结构解析
  6. 使用最小二乘法拟合曲线
  7. 化学元素周期表外层电子排列规律
  8. ubuntu/window安装dukto
  9. 推荐16个前端必备的实用工具与网站
  10. 解决安装C4D打不开的问题 Cinema 4D R25 Mac中英文 支持M1intel处理器(附经验分享——lib4d文件如何导入)