3月16日在腾讯AILab第二届学术论坛上,腾讯AI Lab高级研究员李菁博士介绍了实验室目前在NLP方面重点关注的两大方向——如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。

自然语言的理解

自然语言理解的目标是使得机器能够像人一样进行阅读。机器不能像人一样通过直觉和感知来理解文本,只能通过计算和逻辑。因此,自然语言的理解需要通过表征学习(Representation Learning)的手段把文本信号转化为比如向量、矩阵等等可计算的形式。然后通过信息抽取(Information Extraction)从文本信息中找到有用的信息,摒弃无用的噪音。但这两个研究方向仅仅是在字面意思上的理解,想要深入了解文字背后的含义还需要用到更复杂的语义分析技术,比如在语文考试中经常出现的题目:“这句话表达了作者怎样的思想感情”,而回答这个问题就需要用到语义分析技术的一个子方向——情感分析技术。李菁详细阐述了表征学习和信息抽取这两种技术。

表征学习:腾讯AI Lab在各个颗粒度都有研究

李菁表示,从词、词组、到句子、到篇章,腾讯AI Lab在各个颗粒度的表征学习都有研究,并重点介绍了词级别的表征,也就是词嵌入(wordembedding)。词嵌入的目标是把词映射到一个高维的空间当中,使得意义相近的词在空间上的距离比较近。词嵌入目前很多深度学习模型所依赖的语料,直接作为用作输入层的特征表示。在英语上,词嵌入有很多很好的语料,比如 word2vec,但在中文上这个方面的语料目前还比较欠缺。因此腾讯AI Lab训练了一个非常大规模的中文的词嵌入,这个语料不管从覆盖度、准确率还是对于新词的衡量方面,都达到了行业领先的水平。并且无论是词的相似度还是它应用到词性标注上的性能,这个语料都表现出其优越性。

信息抽取:关键词抽取被赋予了新的生命

说到信息抽取,李菁通过关键词抽取的例子介绍了他们的研究成果。关键词抽取是从文本当中抽取一些重要的成分,一般是词或者词组的形式。关键词抽取是一个非常古老的问题,如今各种各样的AI技术应用场景却赋予它新的生命。比如在时下非常流行的自动问答系统当中,当用户输入这样一个问题:“刚开始玩王者荣耀,花木兰这个英雄怎么样”,如果能正确定位到花木兰这个关键词,就可以搜索到相关信息,比如“王者荣耀推出花木兰,输出给力”、“新英雄花木兰让女性英雄不再脆皮”以及“不是很喜欢花木兰,技能太复杂。”,通过融合这些返回的结果就可以得到用户想要的答案,比如“输出给力,不脆皮,但是技能复杂”。

图1考虑上下文的关键词抽取模型

现在学术界在关键词抽取上的研究进展并不是完美的,它也有欠缺考虑的地方,表现为目前针对关键词抽取的研究点只考虑了待抽取的文本,而忽略了它的上下文信息,比如在抽取新闻的关键词的时候,往往只关注新闻本身,而忽略了和新闻有关的评论。因为目标文本中的重要信息往往在上下文中会被多次提及,如果能很好地编码上下文中的重要信息,将对定位目标文本的关键词位置起到重要的作用。李菁在当天还介绍了AI Lab在关键词抽取上的提出的模型,如图 1所示,模型的左侧的上下文编码器用于抽象上下文中的表示,右侧用于学习目标文本的特征,结合二者来共同发现目标文本中的关键词位置。

自然语言的生成:让AI写春联

自然语言的生成技术关注的是如何让机器能够像人一样进行写作,这就赋予了机器的创作能力。自动聊天是腾讯AI Lab在自然语言生成方面的主要研究方向,AI Lab可以做到让机器生成诸如古风、浪漫风格等等各种各样的回复。AI Lab生成应用亦在金融方面有所涉猎,比如针对股票的自动问答系统,针对财报生成摘要,让大众能够很快地理解财报中的重要信息。另外还有针对中文古典文化的生成成果,比如诗歌和对联的生成。接下来李菁以对联生成为例,介绍了AI Lab在自然语言生成方面的应用。

图 2 腾讯AI春联生成以“腾讯”为藏头的春联

图 2是AI Lab在2018年春节期间推出的腾讯AI 春联产品,由腾讯AI Lab和腾讯新闻联手出品。用户只需输入2-4个汉字,系统就会取后面2个汉字,第一个汉字生成上联,第二个汉字生成下联,比如输入“腾讯”就会生成如图 2中所示的对联。李菁谈到,这个产品自问世以来就受到了大众的广泛欢迎,数据显示有超过380万的用户使用了该产品,页面访问量达到了760万,春联生成次数超过4千万次,人均生成10次春联。另外,由于腾讯AI春联带来的巨大影响力,各大媒体也争相报道这个产品,除了中国大陆的媒体之外,还有来自中国台湾和香港的媒体也争相报道这个产品。

李菁还展示了腾讯AI春联产品的工作原理。首先要根据用户给定的第一个字生成上联,在生成上联的每个字的时候需要根据之前所挥洒出的意境,因此产品采用了语言模型的方法。在从上联生成下联的时候,采用了稍微不一样的模型,因为考虑到对仗,系统使用了带有注意机制的序列到序列模型,生成下联每一个字的时候都找到上联和它对应的字去落笔。通过这两个模型,一副对仗工整、意境深远的春联就生成了。

最后,李菁表示相信随着AI技术的发展,在不远的将来,机器能够被赋予像人一样阅读和写作的能力。未来也一定会共同见证图灵梦想成真的那一天!

题图引用地址:https://naacl2018.wordpress.com/2018/03/03/naacl-paper-titles-over-time/

从研究到应用:腾讯AI Lab的自然语言理解和生成相关推荐

  1. 腾讯AI Lab开放文本理解系统TexSmart,让AI想得更深更广

    感谢阅读腾讯AI Lab微信号第93篇文章.本文将介绍我们最新开放的自然语言理解系统TexSmart. 腾讯AI Lab今天宣布开放自然语言理解系统TexSmart,用以对中文和英文两种语言的文本进行 ...

  2. 2020腾讯AI Lab犀牛鸟专项研究及访问学者计划入选项目公布!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文来源:腾讯AI实验室  2020年度腾讯AI Lab犀牛鸟专项研究计划及访问学 ...

  3. 腾讯 AI Lab 联合研究登上Nature子刊,独创方法提升蛋白质结构预测精度

    感谢阅读腾讯 AI Lab 微信号第109篇文章.本文将公布 AI+药物领域新进展. 11月17日,腾讯公布了一项人工智能助力药物发现的新进展. 通过腾讯自研的提升蛋白质结构预测精度的新方法,联合研究 ...

  4. 开放申请 | 2021腾讯AI Lab犀牛鸟专项研究计划

    感谢阅读腾讯AI Lab微信号第114篇文章.本文将开放申请2021腾讯AI Lab犀牛鸟专项研究计划. 腾讯AI Lab犀牛鸟专项研究计划旨在联合学术界和腾讯AI Lab的优势,发现前沿研究中的挑战 ...

  5. 腾讯 AI Lab 联手迈瑞医疗,助力血液病筛查与体外诊断

    感谢阅读腾讯AI Lab微信号第118篇文章.本文将介绍 「AI+医疗/医药」助力血液病筛查与体外诊断. 2021年1月29日深圳 - 腾讯 AI Lab 宣布与深圳迈瑞生物医疗电子股份有限公司(以下 ...

  6. NeurIPS 2019|腾讯AI Lab详解入选论文,含模仿学习、强化学习、自动机器学习等主题...

    感谢阅读腾讯 AI Lab 微信号第 89 篇文章.本文将解读腾讯 AI Lab 入选 NeurIPS 2019 的 14 篇论文. 第 33 届神经信息处理系统大会(NeurIPS 2019)将于当 ...

  7. AAAI2019 | 腾讯AI Lab详解自然语言处理领域三大研究方向及入选论文

    美国人工智能年会(the Association for the Advance of Artificial Intelligence),简称AAAI,是人工智能领域的顶级国际会议.会议由AAAI协会 ...

  8. 清华大学团队与腾讯AI Lab专项合作夺冠FPS游戏AI竞赛VizDoom

    在荷兰刚刚结束的 IEEE CIG 计算智能与游戏大会上,清华大学张钹院士领导的人工智能创新团队 TSAIL 在第一人称射击类游戏<毁灭战士>(Doom)AI竞赛 VizDoom(Visu ...

  9. 腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

    来源:腾讯AI Lab 刚刚过去的 2020 年算不上是平静的一年.贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷.即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景 ...

最新文章

  1. 4.4 I/O性能侦测
  2. 媒体查询 屏幕超过页面上版心的宽度时 ,(也就是所有内容能显示出来),不让它有滚动条 【解决了因为banner图的原因出现滚动条的问题】...
  3. IT应聘者的简历应该是怎么样的?
  4. linux7怎么安装yum,centos7下怎么安装yum
  5. 对AutoIt中控件和窗口的理解
  6. NYOJ 202 红黑树 数组模拟中序遍历
  7. The Falling Leaves UVA - 699
  8. SQL最全基础教程(保证你看了绝对点赞收藏)
  9. 【Scratch案例教学】scratch旋转风车 ​​​​scratch编程案例教学 scratch创意编程 少儿编程教案
  10. 程序员常用 英语单词
  11. matlab中m文件的命名规则 转,Matlab中m文件命名规则
  12. 使用两个路由器级连实现共用一个宽带
  13. 游戏实战篇|原神人物模型下载教程,并在Unity中给模型 添加动画【伯嫖最新原神所有人物模型】文末送书
  14. 计算机学院王春枝教授实验室,全国高等学校计算机科学与技术教学成果获奖证书.doc...
  15. 安装widows XP时蓝屏代码0X0000007B的问题的解决方案
  16. 动态规划及动态规划的应用
  17. 王者荣耀-数模论文分享(虽然结果我自己都不信)
  18. Springmvc-简单入门
  19. 网络安全(一):信息收集之玩转nmap(理论篇)
  20. centos7 apache 虚拟目录 You don't have permission to access / on this server 解决方法

热门文章

  1. 在路上,继续就好了。。。。
  2. 23种设计模式的有趣见解 .
  3. 使用Nexus创建私服
  4. RHEL系统网络安装(kikstart)
  5. CodeForces - 1328F Make k Equal(模拟)
  6. CodeForces - 1109A Sasha and a Bit of Relax(思维+异或和,好题)
  7. python学全栈还是运维_Python全栈学习——Python基础及Web开发
  8. Codeforces Beta Round #2--B题 (DP)
  9. Windows下编译和安装Boost库
  10. gh0st源码分析与远控的编写(二)