第1章 机器学习基础

机器学习 概述

机器学习就是把无序的数据转换成有用的信息。

  1. 获取海量的数据
  2. 从海量数据中获取有用的信息

我们会利用计算机来彰显数据背后的真实含义,这才是机器学习的意义。

机器学习 场景

例如:识别动物猫
模式识别(官方标准):人们通过大量的经验,得到结论,从而判断它就是猫。
机器学习(数据学习):人们通过阅读进行学习,观察它会叫、小眼睛、两只耳朵、四条腿、一条尾巴,得到结论,从而判断它就是猫。
深度学习(深入数据):人们通过深入了解它,发现它会'喵喵'的叫、与同类的猫科动物很类似,得到结论,从而判断它就是猫。(深度学习常用领域:语音识别、图像识别)模式识别(pattern recognition): 模式识别是最古老的(作为一个术语而言,可以说是很过时的)。我们把环境与客体统称为“模式”,识别是对模式的一种认知,是如何让一个计算机程序去做一些看起来很“智能”的事情。通过融于智慧和直觉后,通过构建程序,识别一些事物,而不是人,例如: 识别数字。
机器学习(machine learning): 机器学习是最基础的(当下初创公司和研究实验室的热点领域之一)。在90年代初,人们开始意识到一种可以更有效地构建模式识别算法的方法,那就是用数据(可以通过廉价劳动力采集获得)去替换专家(具有很多图像方面知识的人)。“机器学习”强调的是,在给计算机程序(或者机器)输入一些数据后,它必须做一些事情,那就是学习这些数据,而这个学习的步骤是明确的。机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。
深度学习(deep learning): 深度学习是非常崭新和有影响力的前沿领域,我们甚至不会去思考-后深度学习时代。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。参考地址:
http://www.csdn.net/article/2015-03-24/2824301
http://baike.baidu.com/link?url=76P-uA4EBrC3G-I__P1tqeO7eoDS709Kp4wYuHxc7GNkz_xn0NxuAtEohbpey7LUa2zUQLJxvIKUx4bnrEfOmsWLKbDmvG1PCoRkJisMTQka6-QReTrIxdYY3v93f55q

机器学习已应用于多个领域,远远超出大多数人的想象,横跨:计算机科学、工程技术和统计学等多个学科。

  • 搜索引擎: 根据你的搜索点击,优化你下次的搜索结果。
  • 垃圾邮件: 会自动的过滤垃圾广告邮件到垃圾箱内。
  • 超市优惠券: 你会发现,你在购买小孩子尿布的时候,售货员会赠送你一张优惠券可以兑换6罐啤酒。
  • 邮局邮寄: 手写软件自动识别寄送贺卡的地址。
  • 申请贷款: 通过你最近的金融活动信息进行综合评定,决定你是否合格。

机器学习 组成

主要任务

  • 分类:将实例数据划分到合适的类别中。
  • 回归:主要用于预测数值型数据。(示例:数据通过给定数据点来拟合最优曲线)

监督学习

  • 必须确定目标变量的值,以便机器学习算法可以发现特征和目标变量之间的关系。 (包括:分类和回归)
  • 样本集:训练数据 + 测试数据
    • 训练样本 = 特征(feature) + 目标变量(label: 分类-离散值/回归-连续值)
    • 特征通常是训练样本集的列,它们是独立测量得到的。
    • 目标变量: 目标变量是机器学习预测算法的测试结果。
      • 在分类算法中目标变量的类型通常是标称型(如:真与假),而在回归算法中通常是连续型(如:1~100)。
  • 知识表示
    1. 可以采用规则集的形式【例如:数学成绩大于90分为优秀】
    2. 可以采用概率分布的形式【例如:通过统计分布发现,90%的同学数学成绩,在70分以下,那么大于70分定为优秀】
    3. 可以使用训练样本集中的一个实例【例如:通过样本集合,我们训练出一个模型实例,得出 年轻,数学成绩中高等,谈吐优雅,我们认为是优秀】

非监督学习

  • 数据没有类别信息,也不会给定目标值。
  • 聚类:在无监督学习中,将数据集分成由类似的对象组成多个类的过程称为聚类。
  • 密度估计:将寻找描述数据统计值的过程称之为密度估计。【就是:根据训练样本确定x的概率分布】
  • 此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。

训练过程

算法汇总

机器学习 使用

选择算法需要考虑的两个问题

  1. 算法场景

    • 预测明天是否下雨,因为可以用历史的天气情况做预测,所以选择监督学习算法
    • 给一群陌生的人进行分组,但是我们并没有这些人的类别信息,所以选择无监督学习算法、通过他们身高、体重等特征进行处理。
  2. 需要收集或分析的数据是什么

举例

机器学习 开发流程

* 收集数据: 收集样本数据
* 准备数据: 注意数据的格式
* 分析数据: 为了确保数据集中没有垃圾数据;如果是算法可以处理的数据格式或可信任的数据源,则可以跳过该步骤;另外该步骤需要人工干预,会降低自动化系统的价值。
* 训练算法: [机器学习算法核心]如果使用无监督学习算法,由于不存在目标变量值,则可以跳过该步骤
* 测试算法: [机器学习算法核心]评估算法效果
* 使用算法: 将机器学习算法转为应用程序

Python语言 优势

  1. 可执行伪代码
  2. Python比较流行:使用广泛、代码范例多、丰富模块库,开发周期短
  3. Python语言的特色:清晰简练、易于理解
  4. Python语言的缺点:唯一不足的是性能问题
  5. Python相关的库
    • 科学函数库:SciPyNumPy(底层语言:C和Fortran)
    • 绘图工具库:Matplotlib

  • 作者:片刻 1988
  • GitHub地址: https://github.com/apachecn/MachineLearning
  • 版权声明:欢迎转载学习 => 请标注信息来源于 ApacheCN

转载于:https://www.cnblogs.com/jiangzhonglian/p/7560771.html

【机器学习实战】第1章 机器学习基础相关推荐

  1. 数据分析与机器学习实战(一)——机器学习基础

    数据分析与机器学习实战(一)--机器学习基础 数据分析与机器学习实战(二)--聚类分析(以K-means聚类为例) 文章目录 数据分析与机器学习实战(一)--机器学习基础 数据分析与机器学习实战(二) ...

  2. 机器学习实战(1)—— 机器学习基础

    机器学习实战(1)-- 机器学习基础 老板:小韩啊,来来来!工程是不是写够了啊? 我:(what!!!)emmmm,还行还行. 老板:一看你就是写够了.最近公司要搞机器学习,你带头来学习一下吧! 我: ...

  3. 《机器学习实战》8.2 线性回归基础篇之预测鲍鱼年龄

    <机器学习实战>8.2 线性回归基础篇之预测鲍鱼年龄 搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多人工智能.机器学习干货 csdn:https://blo ...

  4. 大数据从入门到实战 - 第3章 MapReduce基础实战

    大数据从入门到实战 - 第3章 MapReduce基础实战 一.关于此次实践 1.实战简介 2.全部任务 二.实践详解 1.第 1 关:成绩统计 2.第 2 关:文件内容合并去重 3.第 3 关:信息 ...

  5. 机器学习实战第15章pegasos算法原理剖析以及伪代码和算法的对应关系

    Pegasos原文是: http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf 还是挺长的,论文结构是: 第1~6页:主要原理 第7~15 ...

  6. 《机器学习实战》第二章学习笔记:K-近邻算法(代码详解)

    <机器学习实战>数据资料以及总代码可以去GitHub中下载: GitHub代码地址:https://github.com/yangshangqi/Machine-Learning-in-A ...

  7. 机器学习实战:第一章

    根据方教授的建议和要求,在暑假里简单自学<机器学习实战>,记录学习过程和代码. 记 第一章是对机器学习的一些概念介绍,定义了若干专业术语.列举了很多机器学习的各类实例.给出了一个" ...

  8. 机器学习实战 基于_[编程]-机器学习实战-概览

    * 参考教程... ** 机器学习实战 handson-ml... ** 吴恩达机器学习... ** d2l.ai... * 机器学习概览... ** 什么是机器学习?... ** 机器学习的分类.. ...

  9. 【机器学习课程】第一章机器学习概述 2.机器学习

    走出狭隘的自我,生活才真正开始.-爱因斯坦 2.1什么是机器学习 机器学习的初步认识 机器学习这个术语是1959年IMB公司的亚瑟·赛缪尔提出的:教会计算机学习它需要了解的关于世界的一切,以及如何为自 ...

  10. 机器学习实战——第四章(分类):朴素贝叶斯

    前言 首先感谢博主:Jack-Cui 主页:http://blog.csdn.net/c406495762 朴素贝叶斯博文地址: https://blog.csdn.net/c406495762/ar ...

最新文章

  1. 转换ArrayList String 到String []数组[重复]
  2. ps -aux 状态详解
  3. 今天参加面试 上机题,整理一下
  4. Polygon Cruncher减边用法
  5. CentOS 7上搭建Spark3.0.1+ Hadoop3.2.1分布式集群
  6. 手机谷歌浏览器设置不阻止弹窗弹出
  7. 【0226】信息安全与密码技术
  8. 职称英语职称计算机如何折算为学时,发表论文算继续教育多少学时
  9. stream流的使用
  10. java 逗号分隔数字_java程序 输入n个数字,以逗号隔开,然后升序排列,再重新输出...
  11. python打开csv忽略错误_在python中读取错误的格式csv
  12. matlab做TSP,MATLAB TSP问题
  13. 环境变量配置以mysql为例
  14. AZ-204认证考试攻略
  15. 用于Lucene的各中文分词比较
  16. python实现小米手机 dingding 自动打卡
  17. 2021-最新Web前端经典面试试题及答案-史上最全前端面试题(含答案)---手写代码篇
  18. 类器官——从 2D 到 3D 的进阶
  19. jsp与servlet数据交互出现null或???解决方案
  20. IIS连接数、并发连接数、最大并发工作线程数、应用程序池的队列长度、应用程序池的最大工作进程数详解

热门文章

  1. pip Python 包安装和管理工具
  2. MySQL使用sql备份文件恢复数据库
  3. 纯真IP地址数据库qqwry.dat解析
  4. 报告显示:2018年北京人工智能相关产业达1500亿元
  5. DWORD dwSendTime =::GetTickCount();
  6. java程序课程总结_java课程总结
  7. java 更新jlabel_java – 如何动态更改JLabel
  8. lisp改图元字体式样_一个更改尺寸类型的LISP程序
  9. 021_Form表单
  10. 089_学习过的html标签