来源:智能财会联盟
本文约2200字,建议阅读9分钟
本文从五个方面带你入门机器学习:什么是机器学习?工作流程是什么?机器学习算法有哪些?模型评估学习以及Azure机器学习模型搭建实验。

一、什么是机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

二、机器学习工作流程

  • 获取数据

  • 数据基本处理

  • 特征工程

  • 机器学习(模型训练)

  • 模型评估

结果达到要求,上线服务。没有达到要求,重新上面步骤。

2.1 获取到的数据集介绍

数据简介

在数据集中一般:

  • 一行数据我们称为一个样本;

  • 一列数据我们成为一个特征;

  • 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)。

数据类型构成:

  • 数据类型一:特征值+目标值(目标值是连续的和离散的);

  • 数据类型二:只有特征值,没有目标值。

数据分割

机器学习一般的数据集会划分为两个部分:

  • 训练数据:用于训练,构建模型;

  • 测试数据:在模型检验时使用,用于评估模型是否有效。

划分比例:

  • 训练集:70% 80% 75%

  • 测试集:30% 20% 25%

2.2 数据基本处理

即对数据进行缺失值、去除异常值等处理。

2.3 特征工程

2.3.1 什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

意义:会直接影响机器学习的效果。

2.3.2 为什么需要特征工程(Feature Engineering)

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge.
“Applied machine learning” is basically feature engineering. ”

注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

2.3.3 特征工程包含内容

  • 特征提取

  • 特征预处理

  • 特征降维

2.3.4 各概念具体解释

  • 特征提取

将任意数据(如文本或图像)转换为可用于机器学习的数字特征。

  • 特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

  • 特征降维

指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。

2.4 机器学习

选择合适的算法对模型进行训练。

2.5 模型评估

对训练好的模型进行评估。

三、机器学习算法分类

根据数据集组成不同,可以把机器学习算法分为:

  • 监督学习

  • 无监督学习

  • 半监督学习

  • 强化学习

3.1 监督学习

定义:输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。

3.1.1 回归问题

例如:预测房价,根据样本集拟合出一条连续曲线。

3.1.2 分类问题

例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。

3.2 无监督学习

定义:输入数据是由输入特征值组成,没有目标值。

  • 输入数据没有被标记,也没有确定的结果。样本数据类别未知;

  • 需要根据样本间的相似性对样本集进行类别划分。

举例:

有监督,无监督算法对比:

3.3 半监督学习

定义:训练集同时包含有标记样本数据和未标记样本数据。

举例:

  • 监督学习训练方式:

  • 半监督学习训练方式

3.4 强化学习

定义:实质是make decisions 问题,即自动进行决策,并且可以做连续决策。

举例:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。

小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他

完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。

主要包含五个元素:agent, action, reward, environment, observation;

强化学习的目标就是获得最多的累计奖励。

监督学习和强化学习的对比:

四、模型评估

4.1 分类模型评估

准确率:预测正确的数占样本总数的比例。

其他评价指标:精确率、召回率、F1-score、AUC指标等

4.2 回归模型评估

均方根误差(Root Mean Squared Error,RMSE)

  • RMSE是一个衡量回归模型误差率的常用公式。不过,它仅能比较误差是相同单位的模型。

举例:

假设上面的房价预测,只有五个样本,对应的:
真实值为:100,120,125,230,400
预测值为:105,119,120,230,410

那么使用均方根误差求解得:

其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差 (Relative Absolute Error,RAE)

4.3 拟合

模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。

在训练过程中,你可能会遇到如下问题:

训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。

4.3.1 欠拟合

因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。

欠拟合(under-fitting):模型学习地太过粗糙,连训练集中的样本数据特征关系都没有学出来。

4.3.2 过拟合

机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。

过拟合(over-fitting):所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳。

五、Azure机器学习模型搭建实验

Azure平台简介:

Azure Machine Learning(简称“AML”)是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务,机器学习属人工智能的一个分支,它技术借助算法让电脑对大量流动数据集进行识别。这种方式能够通过历史数据来预测未来事件和行为,其实现方式明显优于传统的商业智能形式。

微软的目标是简化使用机器学习的过程,以便于开发人员、业务分析师和数据科学家进行广泛、便捷地应用。

这款服务的目的在于“将机器学习动力与云计算的简单性相结合”。

AML目前在微软的Global Azure云服务平台提供服务,用户可以通过站点:
https://studio.azureml.net/ 申请免费试用。

  • Azure机器学习实验

实验目的:了解机器学习从数据到建模并最终评估预测的整个流程。

编辑:黄继彦

小白如何入门机器学习?相关推荐

  1. ML:推荐给小白入门机器学习一系列书籍

    ML:推荐给小白入门机器学习一系列书籍 目录 一.外文版 二.中文版 一.外文版 Christopher M.Bishop,  Pattern Recognition and Machine Lear ...

  2. 【小白必读】机器学习入门须知

    一.机器学习入门浅谈 机器学习领域,又或者更大而化之的说人工智能方向,因为"阿尔法狗"等一系列的热门爆点话题,被推到了人前,受到越来越多人的关注. 无论你是什么领域的工作者,都一定 ...

  3. No module named MNIST_写给小白的用fashion-mnist入门机器学习和深度学习的简单项目(非常全面!!!)...

    这是一个入门机器学习和深度学习的小项目,以fashion-mnist数据为基础.分别利用机器学习(随机森林)和深度学习(多层感知机/卷积神经网络)方法进行训练.完整的包含数据读取,数据处理,训练, 验 ...

  4. 小白入门机器学习必备:编程语言环境介绍及搭建

    导读:工欲善其事,必先利其器,机器学习也不例外.算法原理理解得再清楚,最终也需要通过编写代码来真正实现功能和解决问题. 本文将介绍当前机器学习主流的编程语言环境,当前机器学习使用最多的编程语言是Pyt ...

  5. 【资源下载】921页《用Python3带你从小白入门机器学习实战》教程手册

    ↑ 点击上方[计算机视觉联盟]关注我们 [导读]Python是当前机器学习最流行的使用编程语言.Matt Harasymczuk12月23日发布了最新使用Python3教你入门机器学习的手册,总共92 ...

  6. Steam高赞游戏入门机器学习!不写代码,人人可玩,又能吸猫,汉化版已推出...

    栗子 乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI 撸猫.咖啡,玩游戏. 但我其实是在入门机器学习. 2019年最简单有趣的入门方式,就在这里: Steam高赞游戏,极度易上手. 现在 ...

  7. 零基础编程入门python视频-Python编程零基础小白快速入门完整全系列精品课

    1. 课程咨询加老师助理微信:助理1微信: chenjinglei88 ,助理2微信: omf6757 2. 决定购买并想得到陈敬雷老师亲自指导(课程或自己项目难题均可)加老师微信: chenjing ...

  8. 从小白到入门算法,我的经验分享给你~

    研究生三年,作为一名非计算机专业的学生,能够从一名纯小白(Python不会,机器学习没听说过)到最后校招拿到几个不错的offer,个人感觉可以给自己打个及格分吧.写本文的目的,一是对自己研究生阶段所学 ...

  9. 研究生如何入门机器学习?

    通过自己大半年的接触和了解,结合一些大佬们的需求,对于如何入门机器学习提出自己的几点看法. 如果你想要的以后做机器学习工程师.算法工程师及数据挖掘工程师等.可以好好看一下我提出的这几点想法! 先学机器 ...

最新文章

  1. UOJ#179. 线性规划(线性规划)
  2. mysql的默认sid_默认实例(SID)已经设置,空实例默认连接时却连接不上?
  3. convex function
  4. 小程序分享到朋友圈功能_来啦!小程序支持分享朋友圈
  5. docker编译Linux内核,c – 如何编译在docker中使用内核函数的C代...
  6. c语言如何获取按键,c语言获得键盘的按键
  7. 【思维导图】新手该怎么学习C#/WPF
  8. HttpsURLConnection 返回 400
  9. SQL删除数据delete
  10. php秒数怎么转换为时间格式,php将秒数转换为时间(年、月、日、小时…)
  11. android取消内存限制吗,Android 内存限制
  12. LayaAir 图集动画1—图集制作
  13. layui表单基本使用
  14. 2021暑假牛客多校第一场A题(博弈论+暴力打表)
  15. 【游戏开发实战】Unity使用Socket通信实现简单的多人聊天室(万字详解 | 网络 | TCP | 通信 | Mirror | Networking)
  16. 肥胖和食物成瘾中脑 - 肠道 - 微生物组的相互作用
  17. django后台管理界面美化
  18. 简单的摄像头自写驱动程序总结
  19. python2.7安装mysqldb_python2.7安装MySQLdb库
  20. Android拍摄视频上传服务器及本地预览

热门文章

  1. zabbix5.0的安装与实现
  2. Springboot 报错 Error resolving template [index]
  3. 详解数组的push()、pop()、shift()和unshift()方法
  4. mysql iostat_iostat使用详解
  5. 制作initrd.img
  6. mysql 存储 longtext 与 longblob数据类型的区别
  7. PclSharp--贪婪投影三角算法
  8. 港股餐饮巨头年中业绩秀:海底捞、九毛九还能再造“爆款”?
  9. 小X通m3u8视频流AES加密分析
  10. 【JavaScript】获取和操作 DOM 节点