剑桥大学研究院总结:26条深度学习经验
【编者按】8月初的蒙特利尔深度学习暑期班,由Yoshua Bengio、 Leon Bottou等大神组成的讲师团奉献了10天精彩的讲座,剑桥大学自然语言处理与信息检索研究组副研究员Marek Rei参加了本次课程,在本文中,他精炼地总结了学到的26个有代表性的知识点,包括分布式表示,tricks的技巧,对抗样本的训练,Neural Machine Translation,以及Theano、Nvidia Digits等,非常具有参考价值。
八月初,我有幸有机会参加了蒙特利尔深度学习暑期学校的课程,由最知名的神经网络研究人员组成的为期10天的讲座。在此期间,我学到了很多,用一篇博客也说不完。我不会用60个小时的时间来讲解神经网络知识的价值,而会以段落的方式来总结我学到的一些有趣的知识点。
在撰写本文时,暑期学校网站仍可以访问,并附有全部的演示文稿。所有的资料和插图都是来自原作者。暑期学校的讲座已经录制成了视频,它们也可能会被上传到网站上。
好了,我们开始吧。
1、分布式表示(distributed representations)的需要
在Yoshua Bengio开始的讲座上,他说“这是我重点讲述的幻灯片”。下图就是这张幻灯片:
假设你有一个分类器,需要分类人们是男性还是女性,佩戴眼镜还是不佩戴眼镜,高还是矮。如果采用非分布式表示,你就在处理2*2*2=8类人。为训练精准度高的分类器,你需要为这8类收集足够的训练数据。但是,如果采用分布式表示,每一个属性都会在其他不同维度中有所展现。这意味着即使分类器没有碰到佩戴眼镜的高个子,它也能成功地识别他们,因为它学会了从其他样本中单独学习识别性别,佩戴眼镜与否和身高。
2、局部最小在高维度不是问题
Yoshua Bengio的团队通过实验发现,优化高维度神经网络参数时,就没有局部最小。相反,在某些维度上存在鞍点,它们是局部最小的,但不是全局最小。这意味着,在这些点训练会减慢许多,直到网络知道如何离开这些点,但是我们愿意等足够长的时间的话,网络总会找到方法的。
下图展示了在网络训练过程中,两种状态的震动情况:靠近鞍点和离开鞍点。
给定一个指定的维度,小概率p表示点是局部最小的可能性,但不是此维度上全局最小。在1000维度空间里的点不是局部最小的概率和就会是,这是一个非常小的值。但是,在某些维度里,这个点是局部最小的概率实际上比较高。而且当我们同时得到多维度下的最小值时,训练可能会停住直到找到正确的方向。
另外,当损失函数接近全局最小时,概率p会增加。这意味着,如果我们找到了真正的局部最小,那么它将非常接近全局最小,这种差异是无关紧要的。
3、导函数,导函数,导函数
Leon Bottou列出了一些有用的表格,关于激活函数,损失函数,和它们相应的导函数。我将它们先放在这里以便后续使用。
更新:根据评论指出,斜率公式中的最小最大函数应该调换。
4、权重初始化策略
目前在神经网络中建议使用的权重初始化策略是将值归一化到范围[-b,b],b为:
由Hugo Larochelle推荐,Glorot和Bengio发布(2010)。
5、神经网络训练技巧
Hugo Larochelle给出的一些实用建议:
归一化实值数据。减去平均值,再除以标准差。
降低训练过程中的学习率。
更新使用小批量数据,梯度会更稳定。
使用动量,通过停滞期。
6、梯度检测
如果你手动实现了反向传播算法但是它不起作用,那么有99%的可能是梯度计算中存在Bug。那么就用梯度检测来定位问题。主要思想是运用梯度的定义:如果我们稍微增加某个权重值,模型的误差将会改变多少。
这里有更详细的解释:Gradient checking and advanced optimization。
7、动作跟踪
人体动作跟踪可以达到非常高的精准度。下图是来自Graham Taylor等人(2010)发表的论文Dynamical Binary Latent Variable Models for 3D Human Pose Tracking中的例子。该方法使用的是条件受限的玻尔兹曼机。
8、使用语法还是不使用语法?(即“需要考虑语法吗?”)
Chris Manning和Richard Socher已经投入了大量的精力来开发组合模型,它将神经嵌入与更多传统的分析方法组合起来。这在Recursive Neural Tensor Network这篇论文中达到了极致,它使用加法和乘法的互动将词义与语法解析树组合。
然后,该模型被Paragraph向量(Le和Mikolov,2014)打败了(以相当大的差距),Paragraph向量对语句结构和语法完全不了解。Chris Manning将这个结果称作“创造‘好的’组合向量的一次失败”。
然而,最近越来越多的使用语法解析树的工作成果改变了那一结果。Irsoy和Cardie(NIPS,2014)在多维度上使用更深层的网络成功地打败了Paragraph向量。最后,Tai等人(ACL,2015)将LSTM网络与语法解析树结合,进一步改进了结果。
这些模型在斯坦福5类情感数据集上结果的精准度如下:
从目前来看,使用语法解析树的模型比简单方法更胜一筹。我很好奇下一个不基于语法的方法何时出现,它又将会如何推动这场比赛。毕竟,许多神经模型的目标不是丢弃底层的语法,而是隐式的将它捕获在同一个网络中。
9、分布式与分配式
Chris Manning本人澄清了这两个词之间的区别。
分布式:在若干个元素中的连续激活水平。比如密集词汇嵌入,而不是1-hot向量。
分配式:表示的是使用上下文。word2vec是分配式的,当我们使用词汇的上下文来建模语义时,基于计数的词汇向量也是分配式的。
10、依赖状态分析
Penn Treebank中的依赖分析器比较:
Parser |
Unlabelled Accuracy |
Labelled Acccuracy |
Speed (sent/s) |
MaltParser |
89.8 |
87.2 |
469 |
MSTParser |
91.4 |
88.1 |
10 |
TurboParser |
92.3 |
89.6 |
8 |
Stanford Neural Dependency Parser |
92.0 |
89.7 |
654 |
|
94.3 |
92.4 |
? |
最后一个结果是从谷歌“提取出所有stops”得到的,将海量数据源来训练斯坦福神经语法解析器。
11、Theano
我之前对Theano有所了解,但是我在暑期学校学习到了更多。而且它实在是太棒了。由于Theano起源自蒙特利尔,直接请教Theano的开发者会很有用。关于它大多数的信息都可以在网上找到,以交互式Python教程的形式。
12、Nvidia Digits
英伟达有一个叫做Digits的工具包,它可以训练并可视化复杂的神经网络模型而不需要写任何代码。并且他们正在出售DevBox,这是一款定制机器,可以运行Digits和其他深度学习软件(Theano,Caffe等)。它有4块Titan X GPU,目前售价15,000美元。
13、Fuel
Fuel是一款管理数据集迭代的工具,它可以将数据集切分成若干小部分,进行shuffle操作,执行多种预处理步骤等。对于一些建立好的数据集有预置的功能,比如MNIST,CIFAR-10和谷歌的10亿词汇语料库。它主要是与Blocks结合使用,Blocks是使用Theano简化网络结构的工具。
14、多模型语言学规律
记得“国王-男性+女性=女王”吗?事实上图片也能这么处理(Kiros等人,2015)。
15、泰勒级数逼近
当我们在点处,向移动时,那么我们可以通过计算导函数来估计函数在新位置的值,我们将使用泰勒级数逼近:
同样地,当我们将参数更新到时,我们可以估计损失函数:
其中g是对θ的导数,H是对θ的二阶Hessian导数。
这是二阶泰勒逼近,但是我们可以通过采用更高阶导数来增加准确性
16、计算强度
Adam Coates 提出了一种分析GPU上矩阵操作速度的策略。这是一个简化的模型,可以显示花在读取内存或者进行计算的时间。假设你可以同时计算这两个值,那么我们就可以知道那一部分耗费时间更多。
假设我们将矩阵和一个向量相乘:
如果M=1024,N=512,那么我们需要读取和存储的字节数是:
4 bytes ×(1024×512+512+1024)=2.1e6 bytes
计算次数是:
2×1024×512=1e6 FLOPs
如果我们有块6TFLOP/s的GPU,带宽300GB/s的内存,那么运行总时间是:
max{2.1e6 bytes /(300e9 bytes/s),1e6 FLOPs/(6e12 FLOP/s)}=max{7μs,0.16μs}
这意味着处理过程的瓶颈在于从内存中复制或向内存中写入消耗的7μs,而且使用更快的GPU也不会提升速度了。你可能会猜到,在进行矩阵-矩阵操作时,当矩阵/向量变大时,这一情况会有所好转。
Adam同样给出了计算操作强度的算法:
强度= (#算术操作)/(#字节加载或存储数)
在之前的场景中,强度是这样的:
强度= (1e6 FLOPs)/(2.1e6 bytes)= 0.5FLOPs/bytes
低强度意味着系统受内存大小的牵制,高强度意味着受GPU速度的牵制。这可以被可视化,由此来决定应该改进哪个方面来提升整体系统速度,并且可以观察最佳点的位置。
17、小批量
继续说说计算强度,增加网络强度的一种方式(受计算而不是内存限制)是,将数据分成小批量。这可以避免一些内存操作,GPU也擅长并行处理大矩阵计算。
然而,增加批次的大小的话可能会对训练算法有影响,并且合并需要更多时间。重要的是要找到一个很好的平衡点,以在最短的时间内获得最好的效果。
18、对抗样本的训练
据最近信息显示,神经网络很容易被对抗样本戏弄。在下面的案例中,左边的图片被正确分类成金鱼。但是,如果我们加入中间图片的噪音模式,得到了右边这张图片,分类器认为这是一张雏菊的图片。图片来自于Andrej Karpathy的博客 “Breaking Linear Classifiers on ImageNet”,你可以从那了解更多。
噪音模式并不是随机选择的,而是为了戏弄网络通过精心计算得到的。但是问题依然存在:右边的图像显然是一张金鱼而不是雏菊。
显然,像集成模型,多扫视后投票和无监督预训练的策略都不能解决这个漏洞。使用高度正则化会有所帮助,但会影响判断不含噪声图像的准确性。
Ian Goodfellow提出了训练这些对抗样本的理念。它们可以自动的生成并添加到训练集中。下面的结果表明,除了对对抗样本有所帮助之外,这也提高了原始样本上的准确性。
最后,我们可以通过惩罚原始预测分布与对抗样本上的预测分布之间的KL发散来进一步改善结果。这将优化网络使之更具鲁棒性,并能够对相似(对抗的)图像预测相似类分布。
19、万事万物皆为语言建模
Phil Blunsom 提出,几乎所有的NLP都可以构建成语言模型。我们可以通过这种方式实现,将输出与输入连接,并尝试预测整个序列的概率。
翻译:
P(Les chiens aiment les os || Dogs love bones)
问答:
P(What do dogs love? || bones .)
对话:
P(How are you? || Fine thanks. And you?)
后两个必须建立在对世界已知事物了解的基础上。第二部分甚至可以不是词语,也可以是一些标签或者结构化输出,比如依赖关系。
20、SMT开头难
当Frederick Jelinek 和他在IBM的团队在1988年提交了关于统计机器翻译第一批之一的论文时,他们的到了如下的匿名评审:
正如作者提到的,早在1949年Weaver就肯定了统计(信息论)方法进行机器翻译的有效性。而在1950年被普遍认为是错误的(参见Hutchins, MT – Past, Present, Future, Ellis Horwood, 1986, p. 30ff 和参考文献)。计算机的暴力解决并不是科学。该论文已经超出了COLING的范围。
21、神经机器翻译(Neural Machine Translation)现状
显然,一个非常简单的神经网络模型可以产生出奇好的结果。下图是Phil Blunsom的一张幻灯片,将中文翻译成英文的例子:
在这个模型中,汉字向量简单地相加在一起形成一个语句向量。解码器包含一个条件性语言模型,将语句向量和两个最近生成的英语单词中的向量结合,然后生成译文中下一个单词。
然而,神经模型仍然没有将传统机器翻译系统性能发挥到极致。但是它们已经相当接近了。Sutskever等人(2014)在“Sequence to Sequence Learning with Neural Networks”中的结果:
Model |
BLEU score |
Baseline |
33.30 |
Best WMT'14 result |
37.0 |
Scoring with 5 LSTMs |
36.5 |
Oracle(upper bound) |
~45 |
更新:@stanfordnlp指出,最近一些结果表明,神经模型确实会将传统机器翻译系统性能发挥到极致。查看这篇论文“Effective Approaches to Attention-based Neural Machine Translation”(Luong等人,2015)
22、伟大人物的分类例子
Richard Socher演示了伟大人物图像分类例子,你可以自己上传图像来训练。我训练了一个可以识别爱迪生和爱因斯坦(不能找到足够的特斯拉个人相片)的分类器。每个类有5张样本图片,对每个类测试输出图像。似乎效果不错。
23、优化梯度更新
Mark Schmidt给出了两份关于在不同情况下数值优化的报告。
在确定性梯度方法中,我们在整个数据集上计算了梯度,然后更新它。迭代成本与数据集大小呈线性关系。
在随机梯度方法中,我们在一个数据点上计算了梯度,然后更新它。迭代成本与数据集大小无关。
随机梯度下降中的每次迭代要快许多,但是它通常需要更多的迭代来训练网络,如下图所示:
为了达到这两者最好效果,我们可以用批量处理。确切的说,我们可以对数据集先进行随机梯度下降,为快速达到右边的部分,然后开始增加批大小。梯度误差随着批大小的增加而减少,然而最终迭代成本大小还是会取决于数据集大小。
随机平均梯度(SAG)可以避免这样的情况,每次迭代只有1个梯度,从而得到线性收敛速度。不幸的是,这对于大型神经网络是不可行的,因为它们需要记住每一个数据点的梯度更新,这就会耗费大量内存。随机方差降低梯度(SVRG)可以减少这种内存耗费的情况,并且每次迭代(加上偶然全部通过)只需要两次梯度计算。
Mark表示,他的一位学生实现了各种优化方法(AdaGrad,momentum,SAG等)。当问及在黑盒神经网络系统中他会使用什么方法时,这位学生给出了两种方法:Streaming SVRG(Frostig等人,2015),和一种他们还没发布的方法。
24、Theano分析
如果你将“profile=true”赋值给THEANO_FLAGS,它将会分析你的程序,然后显示花在每个操作上的时间。对寻找性能瓶颈很有帮助。
25、对抗性网络框架
继Ian Goodfellow关于对抗性样本的演讲之后,Yoshua Bengio 谈到了用两个系统相互竞争的案例。
系统D是一套判别性系统,它的目的是分类真实数据和人工生成的数据。
系统G是一套生成系统,它试图生成可以让系统D错误分类成真实数据的数据。
当我们训练一个系统时,另外一个系统也要相应的变的更好。在实验中这的确有效,不过步长必须保持十分小,以便于系统D可以更上G的速度。下面是“Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks”中的一些例子——这个模型的一个更高级版本,它试图生成教堂的图片。
26、arXiv.org编号
arXiv编号包含着论文提交的年份和月份,后面跟着序列号,比如论文1508.03854表示编号3854的论文在2015年8月份提交。很高兴知道这个。
原文发布时间为:2015-09-20
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号
剑桥大学研究院总结:26条深度学习经验相关推荐
- Yoshua Bengio等大神传授:26条深度学习经验
Yoshua Bengio等大神传授:26条深度学习经验 发表于2015-09-17 08:21| 13482次阅读| 来源Marek Rei| 29 条评论| 作者Marek Rei 深度学习Pyt ...
- 大会直击|微软亚洲研究院刘铁岩:深度学习成功的秘密
大会直击|微软亚洲研究院刘铁岩:深度学习成功的秘密 本文作者:宗仁 2016-09-09 21:46 导语:今天深度学习成功的主要因素:超大规模训练数据.复杂的深层模型.分布式并行训练,也正是影响其进 ...
- 博后招募 | 澳大利亚悉尼大学徐畅老师招收深度学习方向博士后/全奖博士
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 悉尼大学 悉尼大学(The University of Sydney),坐 ...
- 博后招募 | 西湖大学工学院蓝振忠深度学习实验室招募博士后
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 西湖大学 蓝振忠博士于 2020 年 6 月加入西湖大学建立深度学习实验室 ...
- 澳大利亚悉尼大学徐畅教授招收深度学习方向全奖博士生
来源:AI求职 悉尼大学 悉尼大学(The University of Sydney),坐落于澳大利亚新南威尔士州首府悉尼,是研究型大学.悉尼大学注重理论与实践相结合,教育.法学.医学.会计与金融 . ...
- 特斯拉AI主管给你的33条深度学习训练建议
精翻版Andrej Karpathy博客 30行代码就能训练神经网络? 几周前,我在发了一条"最常见的神经网络错误"的微博(•̀ᴗ•́)و ̑̑ ,列举了一些与训练神经网络相关的常 ...
- 计算机视觉研究院手把手教你深度学习的部署(手势识别,源码已开源)
计算机视觉研究院专栏 作者:Edison_G 今天我们继续基于姿态估计的运动计数APP开发! 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 关注并星标 从此不迷路 计 ...
- 招聘 | 西湖大学工学院蓝振忠深度学习实验室诚邀海内外英才加盟
每天给你送来NLP技术干货! "西湖大学拥有全世界最好的一支科研团队之一,在这里你可以受到最好的科研训练.结合中国当前生机勃发的创新环境,我相信西湖一定是一个改变世界的地方.如果你也有同样的 ...
- 26条安全开车经验 开车20年老司机分享
总有些人,觉得自己开车技术比舒马赫牛叉,市区高速漂移无比潇洒.也总有些人,觉得路是自家的铺的,爱怎么开就怎么开,爱停哪就停哪,哪个不服打开车窗就是一句国骂一个中指.其实他们都没有意识到,这都是拿性命折 ...
- 深度学习知识库精华+图谱一览
from: http://geek.csdn.net/news/detail/104995 你关注了吗?深度学习知识发布了! 最近有关AI方面的新闻特别多,不少业内专家表示,AI是未来10年产业的核心 ...
最新文章
- 保证相同类型的MDI子窗体只会被打开一次的方法
- 用户研究,你还在“凭感觉”吗?
- 当电路与艺术相结合,美的让人窒息!
- 小学生计算机舞蹈,最近“泼水成画”很火?舞蹈生VS体育生,看到计算机:你是来添乱的?...
- Spring 实战-第一章-基本概念
- 上海药物所揭示KRAS突变肿瘤的分子分型和精准治疗新策略
- 简单实现Popup弹出框添加数据
- 留学面试 计算机专业话题,英语面试_美国留学计算机专业详解_沪江英语
- DataReader转换为List的一种实现
- struts的执行流程
- NOIP2001题目汇总
- MATLAB通信系统建模与仿真
- Chrome unable load NTKO control
- linux小红伞安装黑屏,在linux下安装Avria(小红伞)
- ascii码表 java,JAVA实现打印ascii码表代码
- 内存结构、地址总线、数据总线详解
- html文字和图片垂直居中,css如何让图片和文字垂直居中?
- 20190604第二次月考
- 【OVS2.5.0源码分析】mirror实现原理(1)
- 电脑输入法哪个最好用,提高工作效率就选它
热门文章
- Rider: 创建空Web API Controller
- 华为鸿蒙生态负责人,华为鸿蒙负责人:一定要让生态长在自己的地基上
- ubuntu18.04开启休眠功能
- Mapped Statements collection does not contain value for xxx
- EDAC i5000 MC0: FATAL ERRORS Found
- 【K8S系列】第六讲:Kubernetes的网络模型
- Acwing 2069. 网络分析(并查集+树laz)
- python seek()和tell()函数简介
- PPT基础(六)组合与取消组合
- redis实现数据缓存,缓解数据库压力