科技青年们,都在想些什么?

科技是第一生产力;青年是时代发展的晴雨表,也是引风气之先的社会力量;科技青年,从行业精英中来,到优秀学者中去。三人行必有我师焉,高校辈有人才出,带你上车,体味大神们寻常人生中的酸甜苦辣,获得满满干货和人生箴言。

天下学者一家亲,到哪都可称师哥,今天听谁唠唠嗑?

本期我们有幸采访到了毕业于哈尔滨工业大学社会计算与信息检索研究中心的刘一佳博士。
图源:个人提供
对天空大声的呼喊:芝麻开门,宝藏拿来
刘一佳,一个被计算机耽误的大艺术家,一个被达摩院挖走的段子手。“简单”是他毕生的追求。简单的他留着简单的发型,戴着简单的眼镜,穿着简单的衬衣,过着简单的生活,说着简单的话,却在做着“不简单”的研究…
毕业于哈尔滨工业大学的刘一佳博士现在就职于阿里巴巴达摩院,作为算法工程师,主要研究自然语言处理。
“它做的事情主要就是将人类语言分析转化为机器可以理解的形式化的表示。”
刘一佳简洁明了的向我们介绍道。
人类的语言丰富多彩,在表达相同语义时,采用的方式也各不相同。机器相对而言比较机械,处理问题方式单一。如何把丰富多彩的语言世界交给一个比较机械的机器去处理,如何发掘成千上万种语言中的共同特性,这一系列的问题像阿里巴巴的宝库,就等着我们去大喊一声“芝麻开门”,过程充满着挑战与趣味。
这也是吸引刘一佳得以长期从事自然语言处理研究的闪光点之一。
“我的主要研究兴趣是包括中文分词、句法分析在内的基础自然语言处理问题。最近一年,上下文相关词向量帮助从基础到上层的自然语言处理任务取得了显著的性能提升。近期,我们也比较关注上下文相关词向量在基础自然语言处理问题上的应用。我们想知道上下文相关词向量能否给句法分析、语义分析带来性能提升以及背后的原因。在上下文相关词向量的帮助下,我在哈工大的团队分别获得了18年和19年的CoNLL句法、语义分析评测的世界冠军。在夺冠系统的基础上,我们对于上下文相关词向量潜在起作用的方向进行了多项分析。在句法任务上,我们认为上下文相关词向量通过对词形进行更好的建模从而帮助句法分析模型获得性能提升。”
图源:个人提供

刘一佳用着自己简洁犀利的言辞,向我们介绍着自然语言处理研究目前所取得的成果。
在此基础上,小编陆续提了几个同学们关心的问题:
Q:自然语言处理领域的研究现状是什么?现阶段的一个进展?
“随着深度学习在人工智能领域的广泛应用,我们基于深度学习的自然语言处理,现在已经是整个领域的一个主流。
近几年,应该是从17年开始,有一种新的研究风潮,就是通过预训练语言模型的方式去帮助处理,如做分词词性标注、绩效分析等等一系列的自然语言下游问题。
这一套的范式可提炼为:首先,在大规模的未标注的文本中预训练语言模型,然后把它迁移到其它任务上,像机器翻译,对话问答等等,属于范式上的一个转化。
这一套范式可以说已经革命了整个自然语言处理的方法论。现在大家的研究趋势越来越趋向于关注如何让机器能够更好的利用大规模的生语料,如何从里面训练出一个好的语言模型,如何让这个模型更好的帮助下游任务等,效率在不断提高。
但这一范式仍存在,人类丰富知识与模型融合度,数据可能存在的潜在偏见等一系列问题,需要我们去探索和挑战。
Q:你是如何做研究的?
“我是一个问题驱动研究者”
在进入一个课题后,刘一佳首先会调研问题相关的数据集,然后提炼现有模型中存在的一系列缺陷、潜在可改进的部分或它与其他的一系列问题的交叉和融合。总结出这些点,在脑海中形成问题,接下来努力思考如何尝试一个新的模型去更新或者优化它。这一整个过程令他始终是怀揣疑问,对研究充满激情。
Q:您在科研过程中有没有遇到过什么工作或者人际上的困难?都是怎么解决的呢?
“我觉得每次换工作环境时,都或多或少遇到一些困难。回头看,这些可能与自己略有内向的性格有关。好在我个人成长路上的导师对我都很好。从在百度实习阶段到16年访问华盛顿大学,几位导师除了给我技术上的指导,更在融入团队方面给了我很大帮助。
印象比较深的是:刚到华盛顿大学第一次和导师Noah Smith meeting时,他就跟我说,“不管有什么问题都可以和他聊,即使他不知道答案,也会找知道答案的人来帮我”。所以,感觉困难都是在别人的帮助下解决的。不过,这些接受帮助的经历也让我认识到在合作中给予帮助的重要性。现在,我也努力像Noah那样,给低年级的师弟师妹提供能力范围内乃至能力范围外的帮助。”
Q:为什么最后会选择来阿里达摩院呢,阿里达摩院有对你的人生产生什么巨大的影响吗?求职就业过程中的趣事或者经验分享。
“来阿里主要还是因为杭州这个城市,山美水美人更美。
求职方面,我觉得除了技术积累(比如:论文、项目、比赛等等),会说话,能完全准确把自己的优势讲出来也比较重要。求职不只是展示自己的能力,更需要展示自己的潜力。博士生由于要不断地写论文向别人介绍自己的工作,在这方面有一定优势。如果大家没有经过类似academic presentation的训练,可以找自己的老师或朋友,给他们讲自己的工作。”
Q:你最初的人生理想是什么?未来的规划?想要实现的目标?
“我在小学时曾经想成为一名艺术家,还参加过几年的美院考试为目标的绘画培训。后来,发现哎学习成绩也不差,就放弃了绘画课。现在想想,如果当时没有放弃绘画,很可能在十几岁时走上另一条路。
当然,现在也很棒!希望未来能成为一个合格的学者。一方面能产出一些更基础、普适的学术研究成果,另一方面也在努力将前沿的成果产品化,使得大众能从技术的进步中获益,从而看到更大的世界。”
 
Q:作为过来人和比较成功的师哥,对于即将进入社会,找工作或参加工作的师弟师妹们有没有什么建议?
“注意身体健康!健康是享受工作与生活的前提。”
图源:个人提供
刘一佳有话说:我是一个被科研耽误的“大艺术家”,简简单单是王道
真的勇士敢于直面惨淡的人生,敢于正视淋漓的鲜血,更敢于表现真实的自己。
对于自己的评价,刘一佳就两个字——“简单”。
简单,也可释义为“单调”。跑步,工作,吃饭,打游戏,睡觉,生活像机器一样规律又单纯(单调)。
“没错,我就是一个单纯善良的好人。”
“生活越简单,人生越快乐。专注在自己喜欢的领域,哪有时间去搞那些花里胡哨的复杂事儿?”
说到这里,刘一佳好像突然想起来了什么,抄起手里的家伙递给了小芯芯。
(13年时画的孙燕姿---我要的幸福的专辑封面,证明我还是画过画的人)
“哦对了,以前还喜欢画画,小时候还专门学过,但是后来因为成绩不错就放弃了,也许我就是那个传说中被科研耽误的‘大艺术家’吧。”
而面对别人对自己的评价,刘一佳面露羞涩的表示:
“我的一些朋友的确会觉得你发了一些文章,然后又拿了一系列的奖学金,就将你定义为学霸。但对我自己来说,我还差得很远。我们这个领域里有非常多优秀的学者、优秀的年轻学生和年轻教师,我非常敬仰他们,他们才是真正的学霸,距离他们我还有很长的路要走。而且作为一个职场新人,我刚刚入职,发现自己还有很多东西需要学习。所以说,我觉得自己并不能算一个学霸。”
 天才有怪癖:小黑屋里突现灵感,洗澡时候蹦出good idea
 
“科研”让我们浮想联翩,美剧《生活大爆炸》幽默有趣的剧情让我们对科研人员的生活充满好奇与期待,总幻想着他们每天会发生什么有趣的事。
 
“科研一般没有什么趣事,都是比较枯燥、比较艰苦的。”
耿直BOY刘一佳一句话直接打破我们的幻想,但似乎,他也不想成为“话题终结者”,于是又张开了嘴巴:
“硬要挤点什么趣事的话,可能和我这个人有关,我比较奇葩,我在洗澡的时候,常常会灵感突现。
比如说,印象中比较深刻的一个科研idea,就是在洗澡的时候蹦出来的。我觉得可能是因为我比较喜欢独处吧。在洗澡的时候,自己把自己关在一个小屋子里,有时就会产生一些稀奇古怪的想法。有些想法甚至可能成为后续科研的研究方向,或者成为研究问题的一个思路。
当然就大部分时间来说,科研其实是一个没有那么多趣味的工作,或者说,它的趣味不在于一些感官上的,或者突然能让人很兴奋的这种情况。更多的是说在一个问题中不断的去挖掘其中可能潜在的一些能做的事情,然后钻研怎么去把它做得更好。
科研过程中有趣的点其实在于一些经历的获得和分享,比方说赶论文,连续一个星期只睡十几个小时;再比如说参加比赛的时候,你要管理几十个数据集的时候,要记住上百个数据集的时候,你无比焦躁的心情和硬着头皮上的经历,这个是每个人都会有体验的、宝贵的经历。大家如果想拓展自己的科研领域和技能,这一系列的艰苦和努力是无法避免的。”
“简单又耿直,内向又幽默,爱独处又爱合作”,人“狠”话不多,刘一佳瘦瘦略显安静的外表下藏着一颗犀利又调皮的少年心,他有趣的灵魂掩藏在他每句话、每个词、每个字之中,像潘多拉魔盒一般,紧扣心弦。
 

图源:个人提供
 

你养过宠物吗?有养过哪些?
没有养过宠物。

你不是很喜欢鹦鹉吗?

但它不是宠物。

你有没有想着去试着去养一只鹦鹉?

我如果去试着养,可能会养猫。

养猫,为什么呢?

觉得猫比较省心,不怎么爱搭理你。

说说你最害怕什么东西,说三件?

我其实比较怕父母生病,如果具体到某个事物的话,可能我比较害怕蛇,还有怕论文被拒。

那你为什么会怕蛇?

可能天生就对这种爬行类东西不太待见吧。

那你应该也怕虫吧?

确实,那种蠕虫会觉得很恶心。

如果你的生命只剩下最后一天,让你见三个人,你会去见谁呢?

父母,导师(咧嘴挑眉)。

你的口头禅是什么?

没有。
留言 点赞 发个朋友圈
我们一起分享AI学习与发展的干货
如需转载,请后台留言,遵守转载规范
推荐文章阅读
ACL2018论文集50篇解读
EMNLP2017论文集28篇论文解读
2018年AI三大顶会中国学术成果全链接
ACL2017 论文集:34篇解读干货全在这里
10篇AAAI2017经典论文回顾

长按识别二维码可添加关注
读芯君爱你

科技青年 | 训练机器说话20年,他勇闯阿里巴巴宝库相关推荐

  1. “中国科技青年英雄榜”揭晓,AI 领域占半数,楼天成、印奇、戴文渊等入选

    AI科技大本营按:EmTech China峰会上,人工智能.区块链.自动驾驶等热门关键词依然占据着主角地位.在本次期待已久的"全球 35 位 35 岁以下科技创新青年"(Innov ...

  2. 科技青年 | 清华柴成亮:做学术不怕冷门,提前10年进入是最好时机

    全文共5924字,预计学习时长17分钟 科技青年们,都在想些什么? 科技是第一生产力:青年是时代发展的晴雨表,也是引风气之先的社会力量:科技青年,从行业精英中来,到优秀学者中去.三人行必有我师焉,高校 ...

  3. 科技青年 | 中科院张士峰:起步晚,奋起直追,力争做有用之人

    全文共5052字,预计学习时长15分钟 科技青年们,都在想些什么? 科技是第一生产力:青年是时代发展的晴雨表,也是引风气之先的社会力量:科技青年,从行业精英中来,到优秀学者中去.三人行必有我师焉,高校 ...

  4. 科技青年 | 直博北大,学霸中的锦鲤,他是谁?

    全文共4701字,预计学习时长14分钟 科技青年们,都在想些什么? 科技是第一生产力:青年是时代发展的晴雨表,也是引风气之先的社会力量:科技青年,从行业精英中来,到优秀学者中去.三人行必有我师焉,高校 ...

  5. 科技青年 | 中科院高君宇:本科双学位,直博中科院,好饭不怕晚,学术成果丰...

    全文共3516字,预计学习时长11分钟 科技青年们,都在想些什么? 科技是第一生产力:青年是时代发展的晴雨表,也是引风气之先的社会力量:科技青年,从行业精英中来,到优秀学者中去.三人行必有我师焉,高校 ...

  6. 太原理工大学机器人团队20天学习打卡day14(51单片机初步)

    太原理工大学机器人团队20天学习打卡day14(51单片机初步) 不定期更新. (我这个氵比又来更新了,虽然貌似没啥人看,今天内容又是前些天内容的升级 我们将制作一个流水灯) 进一步学习如何让8个小灯 ...

  7. 如何让机器说话更像人?清华和京东的三位大牛给出答案 | CCF C³

    金磊 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitA 顾客:"我想给父母买一台电视." 客服:"您好,这一款可能会适合您的需求(附带商品链接)." 顾 ...

  8. python黑科技:Python大佬用20行代码带你打造一个微信聊天机器人,真神了~

    如何用20行Python代码打造一个微信群聊助手? 1.安装python环境 2.安装python的itchat库 3.安装itchat库 4.Linux 5.申请图灵机器人API和key 6.编写p ...

  9. GAN靠「伪造思维」登上Nature子刊:首次合成神经活动数据,脑机接口训练速度提升20倍...

    博雯 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI GAN这回玩了票大的,把手伸向了"人脑思维". 没错,直接就是一个"合成思维"--生成用来喂给 ...

最新文章

  1. 操作系统学习:内存分页与中断
  2. 杨森翔的书法:正月十六试笔【圆光、斗方】
  3. 基于LSTM的情感分类案例:Tensorflow代码
  4. log4net在winform中release后不工作的原因
  5. SAP Spartacus 如何调试待翻译文本的 place holder 和翻译之后的值
  6. elk入门_ELK堆栈入门
  7. 最佳5本Java性能调优书籍–精选,必读
  8. 【编程题目】给你 10 分钟时间,根据上排给出十个数,在其下排填出对应的十个数...
  9. iOS MD5 (消息摘要算法5)
  10. 为什么越来越多的人尝试做自媒体
  11. 冒泡法排序c语言代码大全,C语言实现选择排序、冒泡排序和快速排序的代码示例...
  12. 【音视频数据数据处理 6】【RGB篇】将RGB24图片转为YUV420格式图片
  13. cisco思科交换机的基本使用
  14. MySQL实现字符串逗号分割split并获取长度
  15. PFO-Ir|PFO-Ir-OXD|D-Ir-Caz|D-Ir-OXD离子型铱配合物共轭聚合物
  16. 低压差线性稳压器 LDO
  17. Kali Linux渗透测试之被动信息收集(一)——nslookup、dig、DNS区域传输、DNS字典爆破、DNS注册信息
  18. 线上教育核心竞争力是什么?声网发布在线素质、职业教育解决方案
  19. 2021-05-23Leetcode416.分割等和子集
  20. 【CSS】东方财富网的杜邦分析图

热门文章

  1. EXCEL之如何批量把文本型数字转化为数字
  2. 叮咚买菜nodejs自动下单脚本,支持邮件强通知和定时任务,支持捡漏和高峰模式
  3. hashmap的无序和有序
  4. Xcode 9 下为适配 iPhoneX 导致对 iOS 10 不兼容问题
  5. 常见行内元素、块级元素、行内块元素
  6. nginx访问静态资源报404错误
  7. Sherlock and the Encrypted Data
  8. c语言怎么进行字符串比较,c语言怎么进行字符串比较
  9. 2018山东计算机录取分数,【分数线】2018山东省公费师范生分数线汇总
  10. jenkins根据凭证ID查看忘记的凭证密码以及重置admin密码的操作方法