【视频解读】动手学深度学习V2

1.AI地图

人工智能的地图，x轴是不同模式，由符号学到概率模型到机器学习，Y轴是我想做的东西，最底下的是感知，我得了解这是什么东西，然后做推理，形成自己的知识，最后做规划。最底层的就是感知，就是我能够看到这个物体，比如这个屏幕等，做推理是基于我现在看到的东西，会发现什么事情，第三个知识是比较难的事情，根据我看到的数据和现象，来形成我的知识，我能进行比较长远一点的规划，也就是我的未来怎么做。
这里对几个比较大的领域做了一点规划，第一是自然语言处理，自然语言处理在过去取得了比较大的进步，但是还是停留在比较简单的感知上面，比如自然语言处理应用比较多的是机器翻译，如中文翻译成英文，就是几秒的事情，很多是潜意识里面感知的问题，所以人在几秒内能够反应过来的范围都属于感知的范围。
计算机视觉能够稍微往前走一点，我在图片里面能够做一些推理。
自然语言处理最初是符号学，首先语言是一个符号，接下来发展为概率模型和机器学习。
计算机视觉因为图片里面都是一些像素，很难用符号学来解释，所以计算机视觉大部分是用概率模型或机器视觉。
深度学习是机器学习的一种，他能做机器视觉，也能做自然语言处理，也能做强化学习。
过去8年里，从Alexnet开始，最热的方向就是机器视觉和自然语言处理。

2.深度学习应用的突破

1.图像分类

Imagenet是一个比较大的图片分类数据集，包含1000类物体的图片，大概有1000万张图片。

这张图展示的是从10年到17年，Y轴是错误率。每个点表示每个paper的错误率，10年的错误率还是挺高的，最好的是26%左右，

2012年有一个比较大的下降，这也是深度学习的开始，在接下来的五年里面，深度学习已经把图像分类的误差降到非常低。17年几乎所有的团队都能把误差降到5%以内。基本上可以达到人类在图片识别上的精度。在图片分类这个工作，深度学习已经做的非常好了。

2.物体检测与分割

物体检测：我们不仅仅想知道这个图片里面的内容，我们还想知道是什么，在什么位置。
物体分割：想知道每个像素是属于飞机，还是属于某个人，是更深层次的应用。

3.样式迁移

样式图片和内容图片合成一张，类似一个滤镜，可以任意切换风格。

4.人脸合成

人脸合成的图片都是假的，通过随机树开始合成的一些照片，人类难以分辨出这些图片是真还是假。

5.文字生成图片

baby 萝卜遛狗的图片
牛油果椅子。

6.文字生成

如何来开一个比较有效的董事会议。
SQL语言，编程，这也是非常强大的语言生成模型。

7.无人驾驶

8.案例研究–广告点击

问题：给你一个用户输入，如何给你一些广告。
这个问题可以分成三个阶段，第一输入一个关键词时，给你一些广告，接下来就是机器学习的模型，给你一个广告后，客户的点击概率是什么样子，p为人会点击这个广告的概率，根据点击率和广告主付你多少钱，然后一乘，点击率乘以竞价，会得到一个数字，把它作为一个排序，排名高的我会拍到前面，排名低的我会舍去。
这是广告点击的三个步骤，1.触发广告，2.预测一个点击率3.最后得到一个排序。

里面最重要的一个就是预测点击率，首先看到广告时要进行特征提取，包括广告主，产品描述和产品图片等信息，把这些特征放到模型之后，就可以预测出点击率的数据。主要包括两个步骤，特征提取和模型预测。
我们可以把过去所有的广告展现和用户点击数据存下来，因为我知道用户有没有点，所以我是有真实的用户点击行为，把它作为训练数据，放到一个模型里面进行训练.

一个完整的故事是这样的，我有些领域专家，模型控制用户展现，用户点击数据用反过来训练新的模型。
数据科学家拿到数据进行模型训练。
AI专家主要提升模型精度和性能。
一个机器学习领域里面有三类人，领域专家【对应用有非常深的了解，知道一些机器学习的事情，更多是了解机器学习的给我的产品带来什么样的影响】，数据科学家【数学科学家会把原始数据转化成计算机能够理解的数据，然后训练模型】和AI专家【关注某几个点，然后进一步提升】。每个人既可以是领域专家，也可以是数据科学家。

3.QA

1.机器学习在图像分割领域为什么有效，有没有定论？

模型的可解释性是深度学习和机器学习比较关注的地方，因为它们是一个黑盒，你训练一个模型，你也不知道它为什么效果好，或者不好。对于深度学习来讲，其可解释性做的并不好，对于机器学习来说，对于一些简单的模型，我们有一些简单的理解，对于比较复杂的模型，我们基本是放弃其可解释性的研究。
有效性和可解释性是两个概念。为什么有效，当然我可以给出很多解释，但是可解释性是另外一个概念，人是不是能够理解这个模型，它为什么能够工作，它什么时候不工作，以及在什么时候出现偏差，这是可解释性要理解的问题。一个模型在一个什么样的问题上有应用，会有一些解释，什么样的模型会考虑空间信息，什么样的模型会考虑时间的信息，什么样的模型泛化性能好一些，这是是不是工作的可解释性，但是更一般的，目前还没有太多的进展。

2.领域专家什么意思？

我想去做农业上的物体识别，我想去看一下今年的收成怎么样？我用一个无人机，去把图片拍下来，然后就会看到树的一些图片，作为数据科学家，我不懂二月份树要长成什么样子，领域专家会告诉你，这个树长多少叶子是比较好的，数据科学家就会把领域专家的一些需求翻译成能够做的一些任务，所以说领域专家是提需求的一些人，是甲方，数据科学家是乙方。

3.MXnet要装GPU版本，必须要卸载CPU版本吗？

需要。该课程是基于pytorch，会有一些不一样。

4.深度学习不能用数学规范表述，只能直觉上理解是吗？

这个不一定，深度学习模型是可以用数学来表述的，接下来也是会介绍很多数学的东西，但是用数学来解释，它为什么工作，为什么不工作，这是目前做的不好的一个地方。

5.符号学可以与机器学习融合起来吗？

这个确实是可以的，符号学在深度学习目前有一些新的进展，比如符号学就是做一些符号学的推理，目前图神经网络可以做一些复杂的推理过程，模型够复杂的情况下，确实可以做一些推理的工作。

6.数据科学家和AI专家的区别在哪里？

没有太多区别，数据科学家，给一个数据，我赶紧出一个模型，能工作就很好了，我关心的是如何把一个领域专家问题，抽象为实际的业务问题，变成机器学习能够完成的一个任务，训练一个还不错的模型，AI专家有可能也是数据科学家，我不仅能够把模型训练出来能用，而且能够把模型做的精度很高，资深数据科学家你可以认为是AI专家。
数据科学家是有两条路，一条是不断开发新的领域，比如说机器学习在农业上的应用，在医疗上的应用，这是往广的方向上走，往深的方向上走的话，可以成为AI的专家。在某一块，我可以成功这一块了解最多的人。

7.Mac是不是支持Pytorch

可以支持Pytorch，只能用CPU,简单的任务是可以做的，负责的任务是比较难一些。

8.自然语言仅仅在感知层面似乎不太合适，因为语言的理解和产出，不仅仅是感知，也涉及语言知识，也涉及到规划，比如机器对话，下一步要做些什么。

语言是一个很复杂的过程，自然语言处理，我们做的还很一般，虽然能做一些感知，不如深度学习在机器视觉的领域做的应用好一些，地图是一个大致的分类，不用特别纠结。

9.如何寻找自己领域的paper的经验。

后面会讲。

10.无人驾驶，误判率在下降，但是误判的影响非常严重。

uncertainty或者roubustness，我的数据在数据发生偏移或者极端情况下，我会不会做出很不好的答案。解决方法之一就是把不同的模型融合到一起，通过多个模型来进行投票。在竞赛中，我们会提到如何通过多个模型来提