机器学习（机器学习+线性回归+代价函数+梯度下降）

一、什么是机器学习

一个计算机程序据说从经验 E 学习关于一些任务 T 和一些性能措施 P，如果它在 T 上的性能，由 P 测量，随着经验 E 的提高，体验 E 将是让程序玩成千上万的游戏本身的经验。任务 T 将是玩跳棋的任务，性能测量 P 将赢得下一场比赛的跳棋对阵一些新的对手的概率。

（1）有监督学习

有监督学习是指事实上我们给算法的数据集被称为“正确答案”。这也被称为回归问题，通过回归问题，我们试图预测一个连续的输出值。作为一个连续的数值术语–回归指的是我们将要预测出连续值属性的类型。
分类这个词指的是这样一个事实，就是我们试图预测离散值输出0或1，在分类问题中有时输出可能有两个以上的值。
给定一个这样的数据集学习算法可能做的是把一条直线拟合到数据中去。
一种学习算法不单单只能处理两个特征或者三个，或者五个特征而是无数个特征，对于一些学习问题来说真正想要的是不要用三到五个特征而是你想要使用无限多的特性无数的属性学习算法有很多属性或者特征，或者做出这些预测的线索那么，如何处理无限多的特性呢？你如何存储无限数量的东西你的电脑什么时候会内存不足? 当我们讨论一种叫做支持向量机的算法时会有一个简洁的数学技巧允许计算机处理无限多的特性。
（2）无监督学习
对于监督学习中的每一个样本我们已经被清楚地告知了什么是所谓的正确答案即它们是良性还是恶性在无监督学习中我们用的数据会和监督学习里的看起来有些不一样在无监督学习中没有属性或标签这一概念也就是说所有的数据都是一样的没有区别
所以在无监督学习中我们只有一个数据集没人告诉我们该怎么做我们也不知道每个数据点究竟是什么意思相反它只告诉我们现在有一个数据集你能在其中找到某种结构吗？对于给定的数据集无监督学习算法可能判定该数据集包含两个不同的聚类无监督学习算法会把这些数据分成两个不同的聚类，所以这就是所谓的聚类算法实际上它被用在许多地方。它被用来组织大型的计算机集群

二、线性回归算法

用小写字母x来表示输入变量往往也被称为特征量这就是用x表示输入的特征并且我们将用y来表示输出变量或者目标变量也就是我的预测结果那么这就是第二列在这里我要使用(x, y)来表示一个训练样本所以在表格中的单独的一行对应于一个训练样本为了表示某个训练样本我将使用x上标(i)与y上标(i)来表示
并且用这个表示第i个训练样本所以这个上标 i 看这里这不是求幂运算这个(x(i), y(i)) 括号里的上标i 只是一个索引表示我的训练集里的第i行这里不是x的i和y的i次方仅仅是指(x(i), y(i))是在此表中的第 i 行举个例子 x(1) 指的是第一个训练集里值为2104的输入值，y(1) 等于460 这是我第一个训练集样本的y值这就是(1)所代表的含义

然后输出一个函数按照惯例通常表示为小写h h代表hypothesis(假设) h表示一个函数
这个模型被称为线性回归(linear regression)模型另外这实际上是关于单个变量的线性回归这个变量就是x 根据x来预测所有的价格函数同时对于这种模型有另外一个名称称作单变量线性回归单变量是对一个变量的一种特别的表述方式总而言之这就是线性回归

三、代价函数

代价函数也被称作平方误差函数有时也被称为平方误差代价函数。事实上我们之所以要求出误差的平方和是因为误差平方代价函数对于大多数问题特别是回归问题都是一个合理的选择
还有其他的代价函数也能很好地发挥作用但是平方误差代价函数可能是解决回归问题最常用的手段了

‎我们可以使用‎‎成本函数‎‎来测量假设函数的准确性。这需要一个平均差异（实际上是一个平均的幻想版本）的所有假设的结果与输入从x的和实际输出y的。‎
‎要打破它，它是‎‎弗拉克

‎或预测值和实际值之间的差值。‎

‎此函数称为"平方错误函数"或"平均平方错误"。平均值减半‎‎\左
作为梯度下降计算的便利，由于方形函数的衍生术语将取消‎‎弗拉克

‎术语。下图总结了代价函数的作用：‎

测试函数与代价函数的对比
对于任意一个 θ1 的取值我们会得到一个不同的 J(θ1) 而且我们可以利用这些来描出右边的这条曲线
学习算法的优化目标是我们想找到一个 θ1 的值来将 J(θ1) 最小化对，这是我们线性回归的目标函数。
这条曲线让 J(θ1) 最小化的值是 θ1 等于1 然后你，这个确实就对应着最佳的通过了数据点的拟合直线这条直线就是由 θ1=1 的设定而得到的然后对于这个特定的训练样本我们最后能够完美地拟合这就是为什么最小化 J(θ1) 对应着寻找一个最佳拟合直线的目标

重要公式：假设函数h，参数，代价函数J以及优化目标

轮廓图：

‎轮廓图是包含许多轮廓线的图形。两个可变函数的轮廓线在同一行的所有点都有恒定值。这样一个图形的一个例子是下面的右侧。‎

四、梯度下降算法

梯度下降算法可以将代价函数J最小化梯度下降是很常用的算法它不仅被用在线性回归上它实际上被广泛的应用于机器学习领域中的众多领域
我只用两个参数下面就是关于梯度下降的构想
我们要做的是我们要开始对θ0和θ1 进行一些初步猜测它们到底是什么其实并不重要但通常的选择是将 θ0设为0 将θ1也设为0 将它们都初始化为0 我们在梯度下降算法中要做的就是不停地一点点地改变 θ0和θ1 试图通过这种改变使得J(θ0, θ1)变小直到我们找到 J 的最小值或许是局部最小值
让我们通过一些图片来看看梯度下降法是如何工作的我在试图让这个函数值最小注意坐标轴 θ0和θ1在水平轴上而函数 J在垂直坐标轴上图形表面高度则是 J的值我们希望最小化这个函数所以我们从 θ0和θ1的某个值出发所以想象一下对 θ0和θ1赋以某个初值也就是对应于从这个函数表面上的某个起始点出发
所以不管 θ0和θ1的取值是多少我将它们初始化为0 但有时你也可把它初始化为其他值现在我希望大家把这个图像想象为一座山想像类似这样的景色公园中有两座山想象一下你正站立在山的这一点上站立在你想象的公园这座红色山上在梯度下降算法中我们要做的就是旋转360度看看我们的周围，并问自己我要在某个方向上用小碎步尽快下山如果我想要下山如果我想尽快走下山这些小碎步需要朝什么方向? 如果我们站在山坡上的这一点你看一下周围你会发现最佳的下山方向大约是那个方向好的现在你在山上的新起点上你再看看周围然后再一次想想我应该从什么方向迈着小碎步下山? 然后你按照自己的判断又迈出一步往那个方向走了一步然后重复上面的步骤从这个新的点你环顾四周并决定从什么方向将会最快下山然后又迈进了一小步又是一小步并依此类推直到你接近这里直到局部最低点的位置

此外这种下降有一个有趣的特点第一次我们是从这个点开始进行梯度下降算法的是吧在这一点上从这里开始现在想象一下我们在刚才的右边一些的位置对梯度下降进行初始化想象我们在右边高一些的这个点开始使用梯度下降如果你重复上述步骤停留在该点并环顾四周往下降最快的方向迈出一小步然后环顾四周又迈出一步然后如此往复如果你从右边不远处开始梯度下降算法将会带你来到这个右边的第二个局部最优处如果从刚才的第一个点出发你会得到这个局部最优解但如果你的起始点偏移了一些起始点的位置略有不同你会得到一个非常不同的局部最优解这就是梯度下降算法的一个特点
这是我们从图中得到的直观感受看看这个图这是梯度下降算法的定义我们将会反复做这些直到收敛我们要更新参数 θj 方法是用 θj 减去 α乘以这一部分让我们来看看这个公式有很多细节问题我来详细讲解一下

首先注意这个符号 := 我们使用 := 表示赋值这是一个赋值运算符具体地说如果我写 a:= b 在计算机专业内这意味着不管 a的值是什么取 b的值并将其赋给a 这意味着我们让 a等于b的值这就是赋值我也可以做 a:= a+1 这意味着取出a值并将其增加1 与此不同的是如果我使用等号 = 并且写出a=b 那么这是一个判断为真的声明如果我写 a=b 就是在断言 a的值是等于 b的值的在左边这里这是计算机运算将一个值赋给 a 而在右边这里这是声明声明 a的值与b的值相同因此我可以写 a:=a+1 这意味着将 a的值再加上1 但我不会写 a=a+1 因为这本来就是错误的 a 和 a+1 永远不会是同一个值这是这个定义的第一个部分

这里的α 是一个数字被称为学习速率什么是α呢? 在梯度下降算法中它控制了我们下山时会迈出多大的步子因此如果 α值很大那么相应的梯度下降过程中我们会试图用大步子下山如果α值很小那么我们会迈着很小的小碎步下山关于如何设置 α的值等内容在之后的课程中我会回到这里并且详细说明最后是公式的这一部分这是一个微分项我现在不想谈论它但我会推导出这个微分项并告诉你到底这要如何计算你们中有人大概比较熟悉微积分但即使你不熟悉微积分也不用担心我会告诉你对这一项你最后需要做什么现在在梯度下降算法中还有一个更微妙的问题在梯度下降中我们要更新 θ0和θ1 当 j=0 和 j=1 时会产生更新所以你将更新 J θ0还有θ1
实现梯度下降算法的微妙之处是在这个表达式中如果你要更新这个等式你需要同时更新 θ0和θ1 我的意思是在这个等式中我们要这样更新 θ0:=θ0 - 一些东西并更新 θ1:=θ1 - 一些东西实现方法是你应该计算公式右边的部分通过那一部分计算出θ0和θ1的值然后同时更新 θ0和θ1 让我进一步阐述这个过程在梯度下降算法中这是正确实现同时更新的方法
我要设 temp0等于这些设temp1等于那些所以首先计算出公式右边这一部分然后将计算出的结果一起存入 temp0和 temp1 之中然后同时更新 θ0和θ1 因为这才是正确的实现方法与此相反下面是不正确的实现方法因为它没有做到同步更新在这种不正确的实现方法中我们计算 temp0 然后我们更新θ0 然后我们计算 temp1 然后我们将 temp1 赋给θ1 右边的方法和左边的区别是让我们看这里就是这一步如果这个时候你已经更新了θ0 那么你会使用 θ0的新的值来计算这个微分项所以由于你已经在这个公式中使用了新的 θ0的值那么这会产生一个与左边不同的 temp1的值所以右边并不是正确地实现梯度下降的做法我不打算解释为什么你需要同时更新同时更新是梯度下降中的一种常用方法
实际上同步更新是更自然的实现方法当人们谈到梯度下降时他们的意思就是同步更新如果用非同步更新去实现算法代码可能也会正确工作但是右边的方法并不是人们所指的那个梯度下降算法而是具有不同性质的其他算法由于各种原因这其中会表现出微小的差别你应该做的是在梯度下降中真正实现同时更新这些就是梯度下降算法的梗概在接下来的视频中我们要进入这个微分项的细节之中我已经写了出来但没有真正定义如果你已经修过微积分课程如果你熟悉偏导数和导数这其实就是这个微分项

‎我们将知道，当我们的成本函数位于我们图表中坑的最底部时，即当其值是最低值时，我们就成功了。红色箭头显示图形中的最低点。‎

‎我们这样做的方式是将成本函数的衍生物（切线到函数）。切线的斜率是当时衍生物，它将给我们一个前进的方向。我们以最陡峭的下降方向降低成本功能。每个步骤的大小由参数α（称为学习速率）决定。‎

这个参数 α 术语称为学习速率 它控制我们以多大的幅度更新这个参数θj，假如我们有一个代价函数J 只有一个参数 θ1，那么我们可以画出一维的曲线看起来很简单让我们试着去理解为什么梯度下降法会在这个函数上起作用所以假如这是我的函数关于θ1的函数J θ1是一个实数，现在我们已经对这个点上用于梯度下降法的θ1 进行了初始化想象一下在我的函数图像上从那个点出发那么梯度下降要做的事情是不断更新 θ1等于θ1减α倍的d/dθ1J(θ1)这个项。
在数学中我们称这是一个偏导数这是一个导数这取决于函数J的参数数量但是这是一个数学上的区别就本课的目标而言可以默认为这些偏导数符号和d/dθ1是完全一样的东西不用担心是否存在任何差异我会尽量使用数学上的精确的符号但就我们的目的而言这些符号是没有区别的好的那么我们来看这个方程我们要计算这个导数我不确定之前你是否在微积分中学过导数但对于这个问题求导的目的基本上可以说取这一点的切线就是这样一条红色的直线刚好与函数相切于这一点让我们看看这条红色直线的斜率其实这就是导数也就是说直线的斜率也就是这条刚好与函数曲线相切的这条直线这条直线的斜率正好是这个高度除以这个水平长度现在这条线有一个正斜率也就是说它有正导数因此我得到的新的θ θ1更新后等于θ1减去一个正数乘以α. α 也就是学习速率也是一个正数所以我要使θ1减去一个东西所以相当于我将θ1向左移使θ1变小了我们可以看到这么做是对的因为实际上我往这个方向移动确实让我更接近那边的最低点所以梯度下降到目前为止似乎是在做正确的事

让我们来看看另一个例子让我们用同样的函数J 同样再画出函数J(θ1)的图像而这次我们把参数初始化到左边这点所以θ1在这里同样把这点对应到曲线上现在导数项d/dθ1J(θ1) 在这点上计算时看上去会是这样。但是这条线向下倾斜所以这条线具有负斜率对吧？或者说这个函数有负导数也就意味着在那一点上有负斜率因此这个导数项小于等于零所以当我更新θ时 θ被更新为θ减去α乘以一个负数因此我是在用 θ1减去一个负数这意味着我实际上是在增加θ1 对不对？因为这是减去一个负数意味着给θ加上一个数，这就意味着最后我实际上增加了θ的值因此我们将从这里开始增加θ 似乎这也是我希望得到的也就是让我更接近最小值了所以我希望这样很直观地给你解释了导数项的意义。
α太小会发生什么呢这是我的函数J(θ) 就从这里开始如果α太小了那么我要做的是要去用一个比较小的数乘以更新的值。如果α 太大那么梯度下降法可能会越过最低点甚至可能无法收敛。如果我的学习率太大下一次迭代又移动了一大步越过一次又越过一次一次次越过最低点直到你发现
实际上离最低点越来越远所以如果α太大它会导致无法收敛甚至发散现在我还有一个问题这问题挺狡猾的当我第一次学习这个地方时我花了很长一段时间才理解这个问题如果我们预先把θ1 放在一个局部的最低点你认为下一步梯度下降法会怎样工作？所以假设你将θ1初始化在局部最低点假设这是你的θ1的初始值在这儿它已经在一个局部的最优处或局部最低点结果是局部最优点的导数将等于零因为它是那条切线的斜率而这条线的斜率将等于零
因此此导数项等于0 因此在你的梯度下降更新过程中你有一个θ1 然后用θ1 减α 乘以0来更新θ1 所以这意味着什么这意味着你已经在局部最优点它使得θ1不再改变也就是新的θ1等于原来的θ1 因此如果你的参数已经处于局部最低点那么梯度下降法更新其实什么都没做它不会改变参数的值这也正是你想要的因为它使你的解始终保持在局部最优点这也解释了为什么即使学习速率α 保持不变时梯度下降也可以收敛到局部最低点我想说的是这个意思我们来看一个例子这是代价函数J(θ) 我想找到它的最小值首先初始化我的梯度下降算法在那个品红色的点初始化如果我更新一步梯度下降也许它会带我到这个点因为这个点的导数是相当陡的
现在在这个绿色的点如果我再更新一步你会发现我的导数也即斜率是没那么陡的相比于在品红点对吧？因为随着我接近最低点我的导数越来越接近零所以梯度下降一步后新的导数会变小一点点然后我想再梯度下降一步在这个绿点我自然会用一个稍微跟刚才在那个品红点时比再小一点的一步现在到了新的点红色点更接近全局最低点了因此这点的导数会比在绿点时更小所以我再进行一步梯度下降时我的导数项是更小的 θ1更新的幅度就会更小所以你会移动更小的一步像这样随着梯度下降法的运行你移动的幅度会自动变得越来越小直到最终移动幅度非常小你会发现已经收敛到局部极小值所以回顾一下在梯度下降法中当我们接近局部最低点时梯度下降法会自动采取更小的幅度这是因为当我们接近局部最低点时很显然在局部最低时导数等于零所以当我们接近局部最低时导数值会自动变得越来越小，所以梯度下降将自动采取较小的幅度这就是梯度下降的做法
所以实际上没有必要再另外减小α 这就是梯度下降算法你可以用它来最小化最小化任何代价函数J 不只是线性回归中的代价函数J 在接下来的视频中我们要用代价函数J 回到它的本质线性回归中的代价函数也就是我们前面得出的平方误差函数结合梯度下降法以及平方代价函数我们会得出第一个机器学习算法即线性回归算法。
回顾一下, 在梯度下降中, 当我们接近一个局部的最小值的过程里, 梯度下降算法会自动采取越来越小的步子。这是因为当我们接近局部最优时，其定义就是导数等于0。当我们接近局部最优，导数项会自动变小，所以梯度下降会自动采取更小的步子。这就是不需要减小alpha或时间的原因。

这就是梯度下降算法，你可以用它来最小化任何成本函数J，而不是我们为线性回归定义的那个成本函数J。

这仅仅是原始成本函数J的梯度下降。这种方法着眼于整个训练设置的每一个步骤的每一个例子，并被称为‎‎批量梯度下降‎‎。请注意，虽然梯度下降一般容易受到局部微瘤的影响，但我们在这里提出的线性回归优化问题只有一个全球性的，没有其他局部的optima：因此，梯度下降总是趋同（假设学习率α不是太大）到全球最低。事实上，J 是一个凸起的二次函数。下面是梯度下降的示例，因为它运行以最大限度地减少二次函数。‎