本文选自《Hands-On Automated Machine Learning》

自动机器学习(AutoML) 旨在通过让一些通用步骤 (如数据预处理、模型选择和调整超参数) 自动化,来简化机器学习中生成模型的过程。您将在接下来的章节中详细了解到这一过程中的细节,并手把手构建一个自动机器学习( AutoML) 系统,以便深入了解自动机器学习( AutoML)的可用工具和库。

在了解更多细节前,首先我们回顾什么是机器学习(ML)模型以及我们要如何训练一个模型。

机器学习(ML)算法会在你输入的数据上,找到某些特定的共性模式,这个学习过程称为模型训练。机器学习的模型,就是这种模型训练的成果,它可以在没有设定具体规则的情况下,帮助我们分析数据及其内在的逻辑联系。

当你实际使用机器学习(ML)模型时,需要先提供大量的数据,用于训练算法。训练完成之后,你将得到一个机器学习的模型,可用于进行预测。预测可以辅助你进行决策,比如:根据服务器当前状态来判断未来四个小时内是否应进行维护,又比如你的客户是否开始倒向你的竞争对手。

有时你正在解决的问题还不够清晰,或者你甚至不知道你在寻找什么方向的答案。在这种情况下,机器学习(ML)模型将帮助你探索现有的数据集,例如识别行为相似的客户群体,或根据股票数据的相关性找到其内在层次结构。

你的模型区分客户群之后,能做些什么呢?好吧,你至少该知道这一点:属于同一集群的客户,通常会共有某些相似特征点,例如他们的年龄,职业,婚姻状况,性别,产品偏好,每日/每周/每月消费习惯,总数花费的金额,等等。属于不同集群的客户的特征点不同。通过这样的数据支持,你就可以利用此针对每个客户群进行不同的广告投放。

上面是业务层面,从技术层面来说,让我们用简单的术语来理解这个过程。有一个数据集X,其中包含n个样本。这些样本可以代表顾客或不同种类的动物。每个示例通常都是一组实数,称为特征(features)。例如,如果我们有一位35岁的女性客户在您的商店花费12000美元,则可以使用以下向量代表该客户(0.0,35.0,12000.0) 。请注意,性别用0.0表示,这意味着男性客户的该特征将为1.0。向量的大小代表维度。由于向量有三个,我们通常用m表示这是一个三维数据集。

根据问题类型,您可能需要为每个样本添加标签。例如,如果这是一个有监督学习问题,如二进制分类,您可以用1.0或0.0标记您的样本,这个新变量称为标签或目标变量。目标变量通常称为y。

有了x和y,机器学习(ML)模型可以认为是一个带有权重w(模型参数)的函数f:

f(x; w)

模型参数是在训练过程中学习而赋值的,但是还有一些其他的参数,需要在训练开始之前进行设置,这些参数称为超参数,稍后将对其进行解释。

在模型训练之前,通常要对数据集中的原始数据进行预处理。例如,一些机器学习(ML)模型预设特征是正态分布的。在许多现实场景中,情况并非如此,需要我们实现进行数据转换,比如说对数变换(log transformation),使其正态分布。

完成数据处理并设置模型超参数后,就可以开始训练模型了。在模型训练结束时,会自动习得并保存模型参数,并且此时,我们已经可以通过模型预测,模型之前在训练中未见过的新数据的目标变量。由模型做出的预测通常称为(读作y hat,表示y的估计值)。

模型训练期间到底发生了什么?已知在数据集的训练过程中,我们打过标签,因此,我们可以基于当前模型所预测的内容,将其与原始标签进行比较,来更新我们的模型参数。

这种比较基于损失函数(或者说成本函数),,损失函数表示了预测的不准确性。一些常见损失函数,比如平方损失(square loss),铰链损失(hinge loss),逻辑损失( logistic loss)和互熵损失( cross-entropy loss)。

完成模型训练后,可以用之前模型训练过程中未使用过的数据集,来测试机器学习(ML)模型性能,以检测模型的通用性。你可以使用不同的指标,来评估性能;并根据结果,在前序步骤进行多方面的调整,来改善模型,以获得更好的性能。

基于此考虑,你应该充分了解,在训练模型的过程中,到底发生了些什么。

什么是自动机器学习(AutoML)呢?当我们提起AutoML时,我们更多地是说自动化数据准备(即数据的预处理,数据的生成和选择)和模型训练(模型选择和超参数调优)。这个过程的每一步都有非常多的选项(options),根据我们遇到的问题,需要设定各种不同的选项。

自动机器学习(AutoML)的意义就在于此,它帮助研究人员和从业者,自动构建机器学习(ML)管道,将多个步骤及其对应的多个选项集成为工作流,以期快速找到针对给定问题的高性能机器学习(ML)模型。

什么是自动机器学习(AutoML)?(译)相关推荐

  1. 【机器学习】盘点常见的自动机器学习(AutoML)工具库

    本文总结了常见的AutoML库,可供大家选择. LightAutoML 项目链接:https://github.com/sberbank-ai-lab/LightAutoML 推荐指数:⭐⭐⭐ Lig ...

  2. 自动机器学习AutoML

    [研究背景]随着深度神经网络的不断发展,各种模型和新颖模块的不断发明利用,人们逐渐意识到开发一种新的神经网络结构越来越费时费力,为什么不让机器自己在不断的学习过程中创造出新的神经网络呢? 正是出于这个 ...

  3. 开源自动机器学习(AutoML)框架盘点

    开发十年,就只剩下这套Java开发体系了 >>>    自从Google推出了能自动设计神经网络自我进化的AutoML论文后,我便开始持续关注这个领域 到目前为止,从网上显示的信息来 ...

  4. 轻松玩转自动机器学习AutoML:H2O Flow

    想想我们每次创建机器学习模型时,编写多行代码是不是很累!虽然这里给大家总结了一个建立机器学习模型的万能模版,但还是累啊! 有没有想过,如果我们可以通过鼠标点击来构建机器学习模型会变得多么容易和高效?H ...

  5. 自动机器学习大师班:15个项目

    Automated Machine Learning Masterclass: 15 (AutoML) Projects 使用自动ML解决数据科学问题,学会使用评估ML,Pycaret,Auto Ke ...

  6. 自动机器学习(AutoML)

    自动机器学习(AutoML) 不再需要苦恼于学习各种机器学习的算法 目录: 一.为什么需要自动机器学习 二.超参数优化 Hyper-parameter Optimization 三.元学习 Meta ...

  7. 【赠书】快速入门自动机器学习!自动机器学习(AutoML):方法、系统与挑战 图书赠送!...

    周末了,这次给大家赠送3本机器学习好书,<自动机器学习(AutoML):方法.系统与挑战>,请看细节. 这是一本什么书 这是一本全面介绍自动机器学习的好书,主要包含自动机器学习的方法.实际 ...

  8. 一文讲解自动机器学习(AutoML)!

    Datawhale 作者:瞿晓阳,AutoML书籍作者 寄语:让计算机自己去学习和训练规则,是否能达到更好的效果呢?自动机器学习就是答案,也就是所谓"AI的AI",让AI去学习AI ...

  9. 文末送书 | 自动机器学习(AutoML):方法、系统与挑战

    OPENNING 最新上架 近十年来,不管是机器学习相关的应用还是研究,都迎来了爆发式增长.尤其是深度学习,使得很多应用领域都取得了关键性突破,如计算机视觉.语音处理和游戏. 然而,多数机器学习方法的 ...

最新文章

  1. 拒绝从入门到放弃_《Openstack 设计与实现》必读目录
  2. springboot 配置资源映射路径
  3. 靶场练习第二十二天~vulnhub靶场之Momentum-2
  4. 性能优化(9):切记要避免重定向
  5. 四川长虹招聘机器视觉、图像识别工程师
  6. loj#2340. 「WC2018」州区划分
  7. 60-100-028-使用-MySQL 主从复制
  8. 优先队列-二叉堆-堆排序原理-Java相关API
  9. fedora22有时不能启动
  10. 深入分析MFC之GDI原理透析
  11. 2015年数学建模-A影子定位
  12. 通过图片获取地理位置
  13. Open_cv中常用函数的原型及参数解释(一)
  14. 阿里云天池机器学习task3
  15. Latex在线编辑器帮助文档
  16. Python 裁剪九宫格图片 —— 筑梦之路
  17. Linux下Apache服务的部署和配置
  18. Android使用Startup和Lifecycle打造一个单独的测试module
  19. Linux树莓派开发——配置树莓派内核源码,内核编译,更换树莓派Linux内核
  20. Java语言西安交大高起专_2018年西安交大网络学院高起专/本英语入学考试复习题...

热门文章

  1. 提高工作效率的宝藏网站和宝藏工具
  2. MFC CString GetBuffer ReleaseBuffer方法
  3. 【PP那些事儿】BOMRouting与ECN号
  4. ACM知识点思维导图
  5. 关于 Linux fork()进程创建函数 的 执行方式 返回值 lockf锁和并发 控制创建顺序 的探索
  6. Linux中文件、文件夹的创建、移动、删除、压缩及解压
  7. 明治乳业在中国市场推出全新益生菌酸奶--“明治佰乐益优”系列
  8. JavaScript的定时器延时器
  9. 婴儿摇篮出口美国CPC认证要求
  10. 180310 逆向-反调试技术(3)DebugObject