机器学习第一周(机器学习的定义)
1、什么是机器学习
卡内基梅隆大学的Tom Mitchell教授,在他的名作《机器学习》一书中,给出了他对于机器学习的定义:
对于某类任务(Task,简称T)和某项性能评价准则(Performance,简称P),如果一个计算机程序在T上,以P作为性能的度量,随着很多经验(Experience,简称E)不断自我完善,那么我们称这个计算机程序在从经验E中学习了。
比如说,对于学习围棋的程序AlphaGo,它可以通过和自己下棋获取经验,那么它的任务T就是“参与围棋对弈”;它的性能P就是用“赢得比赛的百分比”来度量。“类似地,学生的任务T就是“上课看书写作业”;它的性能P就是用“期末成绩”来度量”
因此,Mitchell教授认为,对于一个机器学习问题,我们需要明确三个特征:任务的类型,衡量任务性能提升的标准以及获取经验的来源。
2、两大机器学习算法
2.1 监督学习
监督学习(Supervised Learning),用数据挖掘大家韩家炜(Jiawei Han)老师的观点来说,监督学习基本上就是“分类(classification)”的代名词。它从有标签的训练数据中学习,然后给定某个新数据,预测它的标签(given data, predict labels)。这里的标签(label),其实就是某个事物的分类。
比如说,小时候父母告诉我们某个动物是猫、是狗或是猪,然后我们的大脑里就会形成或猫或狗或猪的印象,然后面前来了一条“新”小狗,如果你能叫出来“这是一条小狗”,那么恭喜你,你的标签分类成功!但如果你说“这是一头小猪”。这时你的监护人就会纠正你的偏差,“乖,不对呦,这是一头小狗”,这样一来二去的训练,就不断更新你的大脑认知体系,聪明如你,下次再遇到这类新的“猫、狗、猪”等,你就会天才般的给出正确“预测”分类(如图1所示)。
简单来说,监督学习的工作,就是通过有标签的数据训练,获得一个模型,然后通过构建的模型,给新数据添加上特定的标签,即在监督学习中,对于数据集中的每个样本,我们希望通过算法预测并得到“正确答案”。 其中,监督学习有两种常见的问题:回归问题和分类问题
2.1.1 回归问题
回归是指我们的目的是预测一个连续值输出,比如房价预测问题,假设我们只用一个特征来描述房子和房价之间的关系:房子的大小 size ,也就是多少平方米,对于数据集中的每个房子,我们都给出其正确的房价是多少,然后我们希望通过训练好的模型来预测其他 size 房子的房价,很显然,在这个问题中,我们希望能够得到房价和房子大小之间的映射关系,也就是函数关系,所以可以知道,房价的取值一定是在一段连续区间内,也就是说,这种问题下输出有无限种取值可能,即输出是连续的。
2.1.2 分类问题
分类是指我们的目的是预测一个离散值输出,比如判断肿瘤的良性与否,很显然,在进行预测之前,我们就可以知道输出的全部取值可能,即肿瘤是良性或者肿瘤是恶性两种情况,也就是说,这种问题下输出的取值是有限的,即输出是离散的,
事实上,整个机器学习的目标,都是使学习得到的模型,能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好。通过训练得到的模型,适用于新样本的能力,称之为“泛化(generalization)能力”。
2.2 无监督学习
无监督学习(Unsupervised Learning):与监督学习相反的是,无监督学习所处的学习环境,都是非标签的数据。韩老师接着说,无监督学习,本质上,就是“聚类(cluster)”的近义词。
简单来说,给定数据,从数据中学,能学到什么,就看数据本身具备什么特性了(given data,learn about that data)。我们常说的“物以类聚,人以群分”说的就是“无监督学习”。这里的“类”也好,“群”也罢,事先我们是不知道的。一旦我们归纳出“类”或“群”的特征,当输入一个新数据时,我们就根据它距离哪个“类”或“群”较近,就“预测”它属于哪个“类”或“群”,从而完成新数据的“分类”或“分群”功能。
简单来说,无监督学习的工作,就是通过数据集自身的分布特点,将对应的数据进行划分,从而获得一个模型,当新数据输入时,判断它属于何类。 类似于分类问题,但是二者的区别在于,在无监督学习中,我们并不知道数据原本属于何类,我们需要通过数据自身的特征来判断哪些数据可划分为一类。
机器学习第一周(机器学习的定义)相关推荐
- 深度学习笔记第三门课 结构化机器学习项目 第一周 机器学习(ML)策略(1)...
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
- 吴恩达机器学习第一周测试
吴恩达机器学习第一周测试 Some of the problems below are best addressed using a supervised learning algorithm, an ...
- 【深度学习】吴恩达深度学习-Course3结构化机器学习项目-第一周机器学习(ML)策略(1)作业
题目仅含中文!! 视频链接:[中英字幕]吴恩达深度学习课程第三课 - 结构化机器学习项目 参考链接: [中英][吴恩达课后测验]Course 3 - 结构化机器学习项目 - 第一周测验 吴恩达< ...
- 李宏毅机器学习第一周
文章目录 摘要 Abstract 1. 机器学习 1.1 什么是机器学习(Machine Learning)? 1.2 机器学习的分类 1. 机器学习 1.1 什么是机器学习(Machine Lear ...
- 第一周-机器学习监督学习-无监督学习
这仅是本人在cousera上学习机器学习的笔记,不能保证其正确性,谨慎参考 关系图: 监督学习(Supervised Learning): 回归预测(Regression:predict real-v ...
- 机器学习(part1)--机器学习第一课
学习笔记,仅供参考,有错必纠 从今天重新学习机器学习这门课程,鼓掌! 好了,我要开始膜拜阿Z老师了! 机器学习 机器学习第一课 机器学习的概念 让计算机像人一样地学习,或让模型算法更聪明更智能. 机器 ...
- python123《python语言程序设计》程序设计题第一周第二周第三周第四周第五周
第一周学习 eval定义 eval(expression,globals=None,locals=None) -expression:该参数是一个字符串,python会使用globals字典和loca ...
- 吴恩达机器学习笔记第一周
第一周 吴恩达机器学习笔记第一周 一. 引言(Introduction) 1.1 欢迎 1.2 机器学习是什么? 1.3 监督学习 1.4 无监督学习 二.单变量线性回归(Linear Regress ...
- 机器学习笔记 (第一周)
机器学习笔记 (第一周) 目录 机器学习笔记 (第一周) 引言(Introduction) 1.1 什么是机器学习,机器学习能做些什么事情 1.2 机器学习是什么? 1.3 监督学习 1.4 无监督学 ...
最新文章
- 三维重建中的立体匹配详解
- Codewars Vasya - Clerk--6 kyu--Python解法
- Iframe自适应高度绝对好使的代码 兼容IE,遨游,火狐[转]
- 在显著性区域外画矩形框matlab,Matlab实验报告样板
- 5、学MySQL前必须要了解的数据库专业术语
- 死磕 synchronized 底层实现
- YYCache深入学习
- C++ 数组在内存中的分配
- lazarus中截取整个屏幕画面并保存为指定文件
- 计算机操作系统-第二章复习题
- QT入门第四天消息盒子+对话框+定时器+日期和时间(源码)
- php 表格内边距,CSS 内边距
- 大鱼吃小鱼java程序设计
- 软件测试体系学习及构建(1)-软件测试环境介绍
- move_base源码学习
- FineReport 数据决策系统
- 社区服务开启“云”智慧社区时代,CDN高防能否成为服务器的源动力呢?
- app.json: 未找到 [“pages“][2] 对应的 pages/goods_list/index.wxml 文件的问题解决办法
- 国家二级计算机mysql_全国计算机等级考试二级MySQL练习软件
- vue 给iframe设置src_vue 中引入iframe,动态设置其src,遇到的一些小问题总结
热门文章
- pyhton微博爬虫(2)——获取微博用户关注列表
- 红米手机怎样升级android版本,红米2的手机系统是什么?红米2能升级安卓5.0吗?...
- 深度学习的Dimension检查
- 对接支付宝支付通道接口
- 面向数据编程的编程语言_面向数据科学家的10个很棒的编程项目
- JDK基础脚本工具总结
- fl studio插件在哪个文件夹里 fl studio插件怎么用
- 乐高机器人 搭建钟摆_乐高机器人初级课程表X
- WordPress自定义小工具
- github push文件时出现 failed to recieve hanshake的问题解决