点击上方“码农突围”,马上关注

这里是码农充电第一站,回复“666”,获取一份专属大礼包

真爱,请设置“星标”或点个“在看”

作者: 王赟 Maigo

前戏

今天不推 计算机视觉论文大盘点或者论文速递了,大家都快看不过来了。快到年底,分享一篇更值得学习和品味的文章,希望能给各位带来2020年立Flag的灵感。CVer其实很早之前转载过,但内容实在很棒,特此再次分享给没有看过的同学。

这篇文章重点介绍了王赟 Maigo 在美国卡耐基梅隆大学(Carnegie Mellon University)中八年博士学术生涯的感悟。原文"11167 我的八年博士生涯——学术篇"

Amusi 读完很受用,王赟 Maigo对科研的认真执着精神很值得大家学习!

王赟 Maigo

王赟 Maigo 本科(2006-2010)就读于清华大学电子工程系,硕博期间(2010-2018)就读于CMU,研究的主要是语言识别方向。曾于2015年1月~4月,在Facebook Language Technology group中担任软件工程师实习生职务,现在在Facebook Machine Learning group中担任研究科学家(Research scientist)职务。

个人主页:

http://www.cs.cmu.edu/~yunwang/

附上其知乎首页封面

我的八年博士生涯——学术篇

下周一我就要开始在 Facebook 上班了。趁入职之前,我想写一写我博士生涯的感悟;再不写就要凉啦。

从 2010 年 8 月到 2018 年 10 月,我把我最好的青春年华都献给了卡内基梅隆大学(CMU)的语言技术研究所(LTI)。其中前两年是硕士,但由于 LTI 的硕士生活跟博士并没有太大区别,都要做研究,所以说是八年博士也并不过分吧。单从长度就能看出,我的博士生涯并不是一帆风顺的;之所以读了这么久,主要原因是换了两次研究项目。这三个研究项目,各自给了我不同的体验和感悟。

从入学到 2012 年春天,我跟随金琴教授研究说话人识别。在这将近两年的时间里,我用 Matlab 语言亲自实现了十几种语音特征的提取,以及基于 GMM、GMM-UBM、SVM、JFA 等技术的多种说话人识别系统。然而,我在这段时间里的研究进展十分缓慢,最终并没有追上当时的前沿;我的研究结果也并没能写成论文发表出来,而只是形成了一篇技术报告。这里面的原因,大概是因为我还没能从「学习者」的心态转换成「研究者」的心态。我总是想着把基础打扎实,从而在理解和复现已有的技术上花了太多的时间 —— 2011 年的夏天,我曾经花了一个多星期来推导 JFA 里那些复杂的矩阵运算。在实验设计上,我也没能做到「抓大放小」,而是曾经拘泥于一些小细节,比如训练数据和测试数据的划分。这些原因,导致我还没来得及走到「创新」这一步,研究项目就结束了。

金琴教授于 2012 年春天调到了中国人民大学,于是我就转到了同一个实验室的 Florian Metze 教授名下读博士。Florian 是一位高高胖胖的德国教授,在中文语境里,我通常称他为「花哥」。我在花哥手下做的第一个项目叫 Babel,其任务是在多种小语种语音里检索关键词。与之前的我一个人做的说话人识别项目不同,Babel 项目是由全美国乃至全世界许多大学和公司共同参与的。若干个大学或公司通过合作关系结成队伍,而队伍与队伍之间则是竞争关系。我在这个项目中的体验,与其说是像科研,不如说是像工作,因为项目前期的主要任务,是要先搭建出一个还能用的系统,之后才能在此基础上慢慢地创新。一个关键词检索系统通常由两个模块组成:前端模块是语音识别,负责给出多种可能的识别结果;后端模块是检索,负责在识别结果中搜索关键词并对其可靠性打分。我在这个项目中承担了很多工程性的工作:整个后端模块基本上都由我来维护;我还开发了一些可视化工具,用来分析系统犯的错误。但是,从科研的角度来讲,我的工作的科技含量并不高:检索模块使用的技术,说白了只是一个倒排索引而已。直到 2014 年,我们实验室才脱离纯工程性的开发,开始研究一些有科研价值的问题,比如如何更准确地给检索到的每个关键词的可靠性打分,以尽量减少漏报和误报;比如如何检索像专有名词这样词典里并没有的关键词。然而,2014 年 6 月,当我在韩国临津阁的观光队伍中排队的时候,我从 Facebook 上收到了实验室的同学发来的噩耗:由于 CMU 所在的队伍开发的系统在年度测评中表现不佳,我们的队伍被淘汰了。到此时为止,我只发出了一篇一作论文;另一篇一作论文在此后经历了五次拒稿,终于被我尘封。知乎上有一个这样的问题:博士第三年还没有发论文是一种怎样的体验?我想我是适合回答的,但终究没有勇气回答。

2014 年的下半年,算是我博士生涯的一段过渡期,这段时间我没有什么科研产出,而是把精力用在了给自己充电上。凭借着唯一的一篇一作论文,我参加了 2014 年 9 月在新加坡举行的 Interspeech 会议。在会上,我嗅到了深度学习正在崛起的信号。整个秋季学期,我阅读了会议上的近百篇论文,还在 Coursera 上学习了 Geoffrey Hinton 的深度学习课程。这让我的博士生涯柳暗花明又一村。

关于博士生涯最后一个研究课题,花哥当时给了我三个选择。我已经不记得另外两个选择是什么了;我选择了「事件检测」,只是因为它有去 Facebook 实习的机会。我在 2015 年 1 月至 4 月在 Facebook 进行了一次实习,这也是我唯一一次实习。由于版权的限制,我在 Facebook 并没能使用 CMU 的数据真正进行「事件检测」的研究,而只是改进了 Facebook 原有的语音/噪音分辨系统。从科研上来说,这次实习只是我对深度学习的一次练手;但它让我在湾区交到了好多朋友,让我觉得湾区是个好地方,从而产生了去 Facebook 工作的理想。这个理想,现在就要实现了。

回到 CMU 以后,我才真正开始研究「事件检测」。在研究的初期,我对「事件」还没有明确的定义,既想检测比较底层的事件,比如猫叫、狗叫、开门、关门,又想检测比较高层的事件,比如球赛、婚礼、聚会等等。这些高层事件的检测,是当时 CMU 正在参与的另一个研究项目 Aladdin 的目标;直到 2016 年 Aladdin 项目渐渐收尾,我才把研究的焦点集中到底层事件的检测上来。之所以选择研究底层事件,是因为它们是检测高层事件的基础,在还检测不了底层事件时就去检测高层事件,步子就迈得有点儿太大了。而随着深度学习用于语音识别的最后一滴水渐渐被榨干,人们自然会开始尝试把深度学习用于别的东西的识别,底层事件检测的研究条件已经成熟了:在 2016 年 3 月的 ICASSP 会议上,芬兰 Tempere 理工大学的研究组与我同时发表了用深度学习做底层事件检测的论文。

2016 年,我的研究一直被一个困难所困扰,就是数据太少。我使用的数据,是实验室里的工作人员手工标注的,总共只有十几个小时,根本无法用于深度学习。2017 年 3 月,Google 发布了 Audio Set 数据集,它拯救了我的研究,让我毕业的事情终于有了眉目。Audio Set 这个数据集的特点首先就是「大」。它含有 200 万条长度为 10 秒的 YouTube 视频选段,我光是下载这些数据就用了整整一个月。这样的大数据,正适合深度学习。但 Audio Set 还有一个重要的特点,就是「弱标注」:它没有标注每一个事件的起止时间,而只标注了每段音频中的事件种类。这种标注,直接带火了一个研究领域 ——「弱标注下的音频事件检测」,这也几乎就是我的博士论文标题。从此,我的博士论文课题就明确了:争取在已有的、利用弱标注做事件检测的方法的基础上进行创新,做到比已有方法更好。

剩下的事情,就是与预期的博士毕业时间争分夺秒了。这段时间过得十分刺激。我原定于 2017 年 9 月博士开题,实际开题时间是 10 月 9 日,还算勉强赶上。今年 2、3 月的时候,我又一次钻进了一个细节的牛角尖(PyTorch 与 Theano 的性能差距),浪费了两个月的时间。到了 4 月份,我注意到英国 Surrey 大学的 @孔秋强

同学已经做出了一种基于注意力机制的、利用弱标注做事件检测的新方法。这让我幡然醒悟,跳出牛角尖,回到研究的主线上来。我的论文中最重要的两章之一,就是比较了若干种利用弱标注做事件检测的方法的优劣,并深入剖析性能差距产生的原因。这一章是 2018 年 6 月底完成的,与计划的时间完全一致;而另一章的核心问题,则是 8 月 16 号在散步时才想出解决办法的。9 月,我一边继续跑着一点儿本该在 8 月就跑完的实验,一边撰写毕业论文的文本;而 10 月 5 号答辩用的幻灯片,则是 9 月 30 号才做完初稿的。这场赛跑,直到 10 月 26 日晚上,我把毕业论文最终定稿、把代码整理好才结束。而此时,距离我爸妈来美国看我已经只剩 5 天了。

纵览八年的博士生涯,不难发现,我由于自身及外界的各种因素,走了不少弯路。在三个研究项目中,只有最后一个,才有博士研究的样子。偶尔,我也会想:如果从一开始就做第三个项目就好了,这样我就可以在四年之内毕业了。但我不会沉浸在这种情绪中。正如吃完第三个包子饱了不代表前两个包子就白吃了一样,我并不觉得我在 CMU 的前四年是荒废了的。整整八年的学习,让我对语音识别、深度学习等各个领域的理论基础有了扎实的掌握。花哥开了一门语音识别课,其中说话人识别那一讲固定由我来讲,学生们纷纷反馈说我讲得比花哥清楚多了。同时,正是因为我涉猎过多个研究项目,我对与语音相关的多个研究领域都有了解并抱有兴趣。开学术会议的时候,我总能挑出许多想听的报告,马不停蹄地辗转于各个会场之间。而这种深度与广度,则是不付出时间不可兼得的。

Amusi侃侃

Amusi 一口气读完这篇文章,感叹大神精彩的博士生涯。我很喜欢其中这一段话:"开学术会议的时候,我总能挑出许多想听的报告,马不停蹄地辗转于各个会场之间。而这种深度与广度,则是不付出时间不可兼得的。"

这篇文章,已获得王赟 Maigo本人的同意,未经允许不得二次转载。Amusi 记得当时文章刚出来,在知乎热榜最高飙升至32位。当时特别截图,如下:

Amusi 想说:科技是第一生产力,学术虽然看起来枯燥,但在这个浮躁的时代,这才是值得年轻人去深思而学习的地方!

原文链接:

https://zhuanlan.zhihu.com/p/50597445

---END---

重磅!码农突围-技术交流群已成立

扫码可添加码农突围助手,可申请加入码农突围大群和细分方向群,细分方向已涵盖:Java、Python、机器学习、大数据、人工智能等群。

一定要备注:开发方向+地点+学校/公司+昵称(如Java开发+上海+拼夕夕+猴子),根据格式备注,可更快被通过且邀请进群

▲长按加群

顺说句题外话,有不少人想加鱼哥微信,鱼哥姑且放出来,但是坑位有限哦

有热门推荐????

1、首次公开!2020年中国程序员薪资调查报告,近一半程序员单身、年薪低于 15 万,别被脉脉和知乎带偏了!

2、日本神秘男子开发可自动去码AI,能“伪造”性器,震动业界

3、Google TensorFlow 2.1 正式发布!高呼 “打倒 PyTorch”!

如有收获,点个在看,诚挚感谢

我的八年博士生涯(学术篇)相关推荐

  1. 我在 CMU 的八年博士生涯...........

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 来自 | 知乎专栏"松鼠的窝" 转载自:AI有道 作者 | 王 ...

  2. 计算机博士要几篇顶会论文,我,斯坦福读博,5年5篇顶会论文,却依然觉得研究生涯充满挫折...

    本文来源:量子位 报道 | 公众号 QbitAI 浩楠 晓查 读博,难! 相信每一个读研的人内心都经历过挣扎,研究都经历过失败. 在去年Nature官方发布的一份报告中,只有一半博士对当前的状态表示满 ...

  3. 两万字摘录计算机博士生涯规划

    摘要:如何规划博士生涯,怎么读博士,博士怎么找方向,如何规划计算机博士生涯,怎么读计算机博士,计算机博士怎么找方向,如何规划深度学习博士生涯,怎么读深度学习博士,深度学习博士怎么找方向. 目录 1. ...

  4. 北大师兄告诉你,怎样顺利完成自己的博士生涯

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :文章 | 李程远 来源 | ...

  5. 谷歌大脑高级研究科学家:我的六年机器学习博士生涯总结

    编译 | 陈彩娴 编辑 | 青暮 机器学习读博是什么体验?期间遇到的挫折与挑战又要如何应对? 在ML领域小有名气的青年科学家Maithra Raghu总结了自己在六年读博经历中所汲取的经验与教训,希望 ...

  6. 求生之路:博士生涯的17条简单生存法则

    全世界只有3.14 % 的人关注了 青少年数学之旅 Next Scientist 是一个专门帮助博士生获取并保持动力.实现毕业和指导在业界求职的网站.本文作者 Julio Peironcely 就是 ...

  7. 浙大计算机学院博士毕业论文要求,浙大在读博士需要3篇SCI 论文才能毕业,清华博士却不作要求!...

    原标题:浙大在读博士需要3篇SCI 论文才能毕业,清华博士却不作要求! 最近,又进入了一年的秋招季,很多学子纷纷加入求职大军之中,但是今年却有不一样的声音,有在读研究生表示,学校对毕业要求提高,要在专 ...

  8. 华东师大计算机系博士几年,越来越多学校将博士由三年制改为四年制,未来博士生涯怎样规划?...

    近年来,越来越多的学校将博士学制改为四年制.如清华.北大.上海交大.人大.厦大.中山.中南大学.华东师大等高校,均已实行四年制博士学制. 博士的三年制制度有两个优势:其一,时限短,可以早毕业参加工作: ...

  9. 西南大学计算机博士好毕业论文,学位学术论文论文,关于西南大学授予博士学位学术成果相关参考文献资料-免费论文范文...

    导读:本论文可用于学位学术论文论文范文参考下载,学位学术论文相关论文写作参考研究. 西南大学授予博士学位学术成果 要求管理规定(修订稿) 为了加强博士研究生培养,提高学位授予质量,根据<西南大学 ...

最新文章

  1. XML 特殊字符处理和 CDATA
  2. linux rust 卸载,linux宝塔面板安装rust
  3. 职责链模式(chain of responsibility)
  4. 春节回来了,你收获了什么?
  5. 【ARM】Tiny4412裸机编程之GPIO简介
  6. 又一本 Go 语言力作出版了
  7. java中错误的源文件,关于Java源文件结构规则,说法错误的是()A.版权信息必须在java文件的开头B.package语句在imports...
  8. python库管理_Python中管理数据库
  9. util包的简单介绍
  10. OpenStack点滴01-概览
  11. Linux服务器---配置apache支持用户认证
  12. 试验设计第二版茆诗松课后题答案_茆诗松数理统计学答案
  13. 定时备份网站数据文件到阿里网盘
  14. c语言 数据类型作业 答案,C语言-数据类型习题及答案
  15. dellR730装机教程
  16. c语言中的less函数,less的小白入门介绍
  17. excel去除重复项
  18. bytearray函数
  19. 海外疫情公共信息服务平台
  20. window下怎么启动redis服务

热门文章

  1. 利用EndNote向Word插入参考文献出现文本({作者,年份 #980})
  2. 火猫tv直播精灵 v1.1.1 官方版​
  3. win10 android8,安卓平板刷Win8 ARM平台将支持Win10
  4. 小学计算机教案四年级上册,四年级上册小学信息技术教学计划
  5. 重磅!科银资本携手韩国社交巨头Kakao共建Klaytn生态
  6. 2022中式烹调师(技师)操作证考试题库及在线模拟考试
  7. 51单片机简易计算器C语言程序,用51单片机制作的简单计算器程序
  8. 《外汇市场与交易系统》读书笔记2
  9. python数据增强三种方法
  10. Ubuntu 下使用go语言调用ffmpeg推流