机器学习day2-正则化/监督非监督

监督学习

（supervised learning）

**监督学习（supervised learning）**的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

即：利用训练数据集学习一个模型，再用模型对测试样本集进行预测。

官方提供旅客数据——数据集1（姓名，年龄，性别，社会经济阶层，是否生存等），要求参赛选手建立一个预测模型来回答“另外418名乘客是否会生存？”

这是一个典型的**监督学习（supervised learning）**的例子。因为该训练资料有输入物件（姓名，年龄，性别，社会经济阶层等）和预期输出（是否生存）。

有无预期输出是**监督学习（supervised learning）与非监督学习（unsupervised learning）**的区别。

我们的任务是根据数据集1建立一个预测模型（model），即学习算法（learning algorithm）。这个过程称为“学习（learning）”或“训练（training）”。

由于我们得到的学得模型只是接近了数据的某种潜在规律，因此被称为‘假设（hypothesis）’。相对应的，潜在规律自身则被称为‘真实（ground-truth）’。学习的目的就在于找到最好的‘假设（hypothesis）’。

用**学习算法（learning algorithm）**对数据集2的每个实例（姓名，年龄，性别，社会，社会经济阶层等）进行判断——‘是否能生存？’。

这是一个二分类任务（输出为‘生存’或‘死亡’两个维度）。

如果所需结果为‘生存’，‘半生半死’或‘死亡’等多个维度，则为多分类任务。

如果所需结果为生存率（0~1），则为回归任务（输出结果为连续值）。

分类问题（离散）与回归问题（连续）等都是监督学习。

非监督学习

（unsupervised learning）

**非监督学习（unsupervised learning）**为直接对数据进行建模。没有给定事先标记过的训练范例，所用的数据没有属性或标签这一概念。事先不知道输入数据对应的输出结果是什么。

自动对输入的资料进行分类或分群，以寻找数据的模型和规律。

如聚类算法：

针对数据集，自动找出数据中的结构，从而把数据分成不同的簇。

例如：谷歌新闻利用聚类算法把不同的主题放在一起。

**无监督学习（unsupervised learning）**的优点：

由于没有标准的分类方法，有可能从数据中挖出启发与亮点

嵌入方法

嵌入方法是指通过数学变换(机器学习算法)将高维空间的对象映射到低维空间并保持相关性质的一种方法。

除了方便人类理解外，通过嵌入我们至少可以获得如下价值：
1.嵌入到低维空间再处理，可以减少数据存储与计算成本(高维空间有维数灾难)；
2.嵌入到低维空间，虽有部分信息损耗，但是这样反而可能提升模型的泛化能力(样本一般含有噪音，通过嵌入低维空间，其实可以“过滤掉”部分噪音)；

机器学习和深度学习

1.什么是机器学习

“据说计算机程序可以从经验E中学习某些类型的任务T和用来测试的P，它在T中的任务中的表现（由P测试）会随着经验E的提高而提高”

2.什么是深度学习

“深度学习是一种特殊的机器学习，它通过学习将世界表示为嵌套的概念层次结构来实现强大的功能和灵活性，每个概念都是根据更简单的概念进行定义的，而更抽象的表示则用不那么抽象的概念计算出来。 ”

3.区别

现在，深度学习就比机器学习领先一步。深度学习会自动找出对分类很重要的特征，在机器学习中我们必须手动提供这些特征。深度学习的工作原理如下：

它首先确定那些特征与分辨出是猫还是狗最有相关性
然后，它以层次结构为基础，找到可以找到的特征的组合。例如，是否存在胡须，或是否存在耳朵等。
在对复杂概念进行连续层次识别之后，它决定通过哪个特征负责来找到答案。

4.比较

（1）深度学习与传统机器学习之间最重要的区别会随着数据规模的增大而表现出来。当数据很小时，深度学习算法表现不佳。这是因为深度学习算法需要大量数据才能完美理解它。另一方面，传统的机器学习算法及其手工制作的规则在这种情况下占据优势。

（2）深度学习算法在很大程度上依赖于高端机器，这与传统的机器学习算法相反，后者可以在低端机器上运行。这是因为深度学习算法的要求包括GPU，因为GPU是其工作中不可或缺的组成部分。深度学习算法本质上是做大量的矩阵乘法运算，而使用GPU可以有效的优化这些操作，而这就是使用GPU的目的。

（3）特征工程是将领域知识放入特征提取器的创建过程，用来降低数据的复杂性并使特征对于学习算法更加可见。就时间和专业知识而言，这个过程是困难而又昂贵的。

在机器学习中，大多数应用的特征需要由专家识别，然后根据领域和数据类型进行手动编码。

例如，特征可以是像素值，形状，纹理，位置和方向。大多数机器学习算法的性能取决于特征识别和特征提取的准确程度。

深度学习算法尝试从数据中学习高级特征。这是深度学习一个非常独特的部分，也是超越传统机器学习的重要部分。因此，深度学习减少了为每个问题开发新的特征提取器的任务。就像，卷积神经网络将尝试先学习底层特征，例如早期图层中的边缘和线条，然后是人脸的部分面部，最后是高级的面部识别。

（4）通常，深度学习算法需要很长时间来训练。这是因为深度学习算法中有很多的参数，所以训练它们需要更长的时间。最先进的深度学习算法ResNet需要大约两周时间才能完全从0开始的训练。相比之下，机器学习的训练时间要短得多，从几秒钟到几小时不等。

正则化

首先，从使用正则化解决了一个什么问题的角度来看：正则化是为了防止过拟合，进而增强泛化能力。用白话文转义，泛化误差（generalization error）= 测试误差（test error），其实就是使用训练数据训练的模型在测试集上的表现（或说性能 performance）好不好

如上图，红色这条“想象力”过于丰富上下横跳的曲线就是过拟合情形。结合上图和正则化的英文 Regularizaiton-Regular-Regularize，直译应该是：规则化（加个“化”字变动词，自豪一下中文还是强）。什么是规则？你妈喊你6点前回家吃饭，这就是规则，一个限制。同理，在这里，规则化就是说给需要训练的目标函数加上一些规则（限制），让他们不要自我膨胀。正则化，看起来，挺不好理解的，追其根源，还是“正则”这两字在中文中实在没有一个直观的对应，如果能翻译成规则化，更好理解。但我们一定要明白，搞学术，概念名词的准确是十分重要，对于一个重要唯一确定的概念，为它安上一个不会产生歧义的名词是必须的，正则化的名称没毛病，只是从如何理解的角度，要灵活和类比。

\1. 抛硬币，推断正面朝上的概率。如果只能抛5次，很可能5次全正面朝上，这样你就得出错误的结论：正面朝上的概率是1--------过拟合！如果你在模型里加正面朝上概率是0.5的先验，结果就不会那么离谱。这其实就是正则。
\2. 最小二乘回归问题：加2范数正则等价于加了高斯分布的先验，加1范数正则相当于加拉普拉斯分布先验。