我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下。就像许多武侠小说中描写的,弟子都成了各派的掌门,师傅一定了不得。的确,马库斯虽然作为第一作者发表的论文并不多,但是从很多角度上讲,他可以说是自然语言处理领域的教父。

马库斯教授长期当任宾夕法尼亚大学计算机系主任,直到他在几年前从 AT&T 找到皮耶尔替代他为止。作为一个管理者,马库斯显示出在自然处理和计算机科学方面的卓识的远见。在指导博士生时,马库斯发现语料库在自然语言处理中的重要性。马库斯呕心沥血,花了十几年工夫建立了一系列标准的语料库,提供给全世界的学者使用。这套被称为 LDC 的语料库,是当今全世界自然语言处理的所有学者都使用的工具。我们在以前的系列中讲到,当今的自然语言处理几乎都是使用给予统计的方法。要做统计,就需要大量有代表性的数据。利用这些数据开发一个自然语言处理系统的过程,可以统称为训练。比如,我们要训练一个汉语分词系统,我们需要一些已经分好词的中文句子。当然这些句子需要有代表性。如果想知道一个分词系统的准确性,我们也需要一些人工分好词的句子进行测试。这些人工处理好的文字数据库,成为语料库(corpus)。如果每个研究室都人工建立几个语料库,不仅浪费时间精力,而且发表文章时,数据没有可比性。因此,马库斯想到了建立一系列标准的语料库为全世界的学者用。他利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,联络的多所大学和研究机构,建立的数百个标准的语料库。其中最著名的是 PennTree Bank 的语料库。PennTree Bank 覆盖多种语言(包括中文)。每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有的词性标注,语法分析树等等。LDC 语料库如今已成为全世界自然语言处理科学家共用的数据库。如今,在自然语言处理方面发表论文,几乎都要提供基于 LDC 语料库的测试结果。

马库斯给予他的博士生研究自己感兴趣的课题的自由,这是他之所以桃李满天下的原因。马库斯对几乎所有的自然语言处理领域有独到的见解。和许多教授让博士生去做他拿到基金的项目,马库斯让博士生提出自己有兴趣的课题,或者用他已有的经费支持学生,或者为他们的项目区申请经费。马库斯高屋建瓴,能够很快的判断一个研究方向是否正确,省去了博士生很多 try-and-error 的时间。因此他的学生有些很快地拿到的博士学位。

作为系主任,马库斯在专业设置方面显示出卓识的远见。我有幸和他在同一个校务顾问委员会任职,一起讨论计算机系的研究方向。马库斯在几年前互联网很热门、很多大学开始互联网研究时,看到 bioinformatics (生物信息学)的重要性,在宾夕法利亚大学设置这个专业,并且在其他大学还没有意识到时,开始招聘这方面的教授。马库斯还建议一些相关领域的教授,包括后来的系主任皮耶尔把一部分精力转到生物信息学方面。马库斯同时向他担任顾问的其他一些大学提出同样的建议。等到网络泡沫破裂以后,很多大学的计算机系开始向生物信息学转向,但是发现已经很难找到这些方面好的教授了。我觉得,当今中国的大学,最需要的就是马库斯这样卓有远见的管理者。

过几天我又要和马库斯一起开顾问委员会的会议了,不知道这次他对计算机科学的发展有什么见解。

来自:http://googlechinablog.com/2007/04/blog-post_13.html

数学之美系列二十:自然语言处理的教父 马库斯相关推荐

  1. 数学之美 系列二十 -自然语言处理的教父 马库斯

    数学之美 系列二十 -自然语言处理的教父 马库斯 2007年4月13日 下午 07:03:00 <script language=javascript> uT("time1176 ...

  2. 【数学之美 系列二十】自然语言处理的教父 马库斯

    2007年4月13日 下午 07:03:00 发表者:Google 研究员,吴军 我们在前面的系列中介绍和提到了一些年轻有为的科学家,迈克尔·柯林斯,艾里克·布莱尔,大卫·雅让斯基,拉纳帕提等等,他们 ...

  3. 数学之美系列二十四 -- 谈谈动态规划与如何设计动态规划算法

    数学之美--动态规划 今 年九月二十三日,Google.T-Mobile 和 HTC 宣布了第一款基于开源操作系统 Android 的 3G 手机,其中一个重要的功能是利用全球卫星定位系统实现全球导航 ...

  4. 数学之美 系列二 -- 谈谈中文分词

    数学之美 系列二 -- 谈谈中文分词 2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到利 ...

  5. 《数学之美》第22章 自然语言处理的教父马库斯和他的优秀弟子们

    1 教父马库斯 马库斯发现存在两大难题:可以用于研究的统计数据明显不够:其次,各国科学家因为使用的数据不同,论文里发表的结果无法互相比较. 马库斯比很多同行更早地发现了建立标准语料库在自然语言处理研究 ...

  6. 数学之美系列二 -- 谈谈中文分词

    2006年4月10日 上午 08:10:00 发表者: 吴军, Google 研究员 谈谈中文分词 ----- 统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是 ...

  7. 数学之美 系列十五 繁与简 自然语言处理的几位精英

    数学之美 系列十五 繁与简 自然语言处理的几位精英 我在数学之美系列中一直强调的一个好方法就是简单.但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完 ...

  8. 数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型

    数学之美 系列十六 (下)- 不要把所有的鸡蛋放在一个篮子里 最大熵模型 我们上次谈到用最大熵模型可以将各种信息综合在一起.我们留下一个问题没有回答,就是如何构造最大熵模型.我们已经所有的最大熵模型都 ...

  9. 数学之美 系列十 有限状态机和地址识别

    数学之美 系列十 有限状态机和地址识别 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机. 一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括 ...

最新文章

  1. nginx 启动 + uwsgi + django
  2. MySQL数据库字符集和整理
  3. Linux下l2tp客户端xl2tpd的安装配置
  4. 数据仓库专题(23):总线矩阵的另类应用-Drill Down into a More Detailed Bus Matrix
  5. Pandas.plot 做图 demo(scatter,bar,pie)
  6. 建议收藏,详细篇 PyCharm 完美教程
  7. 微信小程序怎么取mysql_微信小程序如何加载数据库真实数据?
  8. 论文阅读之ALBERT
  9. 果粉们要的才不是事后歉意
  10. linux进程僵停状态,Linux操作系统中进程的七种状态
  11. 第三章CDMA的原理和应用(1)
  12. MP算法和OMP算法及其思想
  13. 快速打开ofd文件发票转换pdf格式发票方法
  14. FLASH寿命问题说明
  15. 【老九学堂】【初识C语言】编译过程
  16. dirver时区_【作业】偶入卡地亚Driver de Cartier双时区大日历腕表|腕表之家xbiao.com...
  17. html3D效果可以在手机打开吗,HTML手机怎么打开
  18. JavaSE——注解
  19. java入门第一周总结
  20. java算斜率_[Java教程]js用斜率判断鼠标进入div的四个方向

热门文章

  1. Nancy视图引擎(View Engines)
  2. 机器学习之算法部分(算法篇1)
  3. Toolboxes--工具箱
  4. conda 设置清华镜像源_conda清华镜像(TUNA)使用指南
  5. PSO 粒子群优化算法 大整理
  6. 【linux + lighttpd + php + zeromq】之实战训练二
  7. PPT-Cozmo机器人之ROS和AI体验(训练)营-2019-ROS暑期学校
  8. windows下简单的音频采集示例
  9. NB模组中序列号,IMEI,IMSI,ICCID的含义(一些知识科普)
  10. 画栋雕梁:定制投资体系4——持有、波动与卖出