https://www.jianshu.com/p/d89313ac10dc

文章来源:知乎   作者:刘知远、李嫣然

刘知远关于NLP的精彩回答

从实用文本分析技术而言,如果只做主题聚类、文本分类等任务的话,中英文最大差别就在于,中文需要做自动分词,相关工具包已经很多了,包括题主提到的Jieba,还有哈工大的LTP,北理工的ICTCLAS,还有我们组研制的THULAC。当然,在文本分类时,到底是选词还是Ngram作为特征,在SVM+BOW时代曾是个问题。进入到深度学习时代,就直接可以用基于字的神经网络模型了。

从NLP研究角度而言,中英文在词性标注、句法分析等任务上颇有差异。主要体现在英语有明显的屈折变化(单复数、时态等)而汉语缺少这些屈折变化,亦即有学者总结的“汉语重义合,英语重形合”。所以,英语里一个词被标为动词还是名词,没有太多争议;汉语里一个词应该被标为动词还是名词,例如“热爱学习”、“劳动光荣”中的“学习”、“劳动”如果按照英文语法规范应当标注为名词。著名语言学家沈家煊先生就曾提出“汉语动词和名词不分立”的理论。在句法分析层面汉语也有一些自己的特点,具体需要请教专业的语言学家解答了。

从更广阔的语言研究角度而言,我觉得中英由于各自承载了两种截然不同的人类群体的文化信息,所以在更深层的文化内涵会有更明显的分野,例如两种语言的词汇联想网络、隐喻风格等,可能会有更大的不同。也许在NLP技术日渐成熟之后,我们可以透过语言更加定量地分析两种不同文化的差异。在这方面我非常感兴趣,期待更多专家指点交流。

伴随着估值持续走高,Uber吸引了越来越多的投资者。Uber在从一家轿车服务公司成长为庞大的物流公司的同时,与诸多对手及监管机构进行着抗争,并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。伴随着估值持续走高,Uber吸引了越来越多的投资者。Uber在从一家轿车服务公司成长为庞大的物流公司的同时,与诸多对手及监管机构进行着抗争,并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。

李嫣然关于NLP在中文vs英文的精彩回答

说一点点个人做过的工作和觉得中文有趣以及不同的地方:

1. 中文是象形文字(logograms)——注:这句不严谨,现在大多数汉字都是形声字,一部分 component 提供语义,一部分提供发音;这句话主要是想说提供语义的那些 components 和最初甲骨文很多是象形。就像英语有一些前缀后缀词根一样,中文也有这样类似的语义相关的语素——偏旁部首。偏旁部首是两个不同的东西,可以粗略地认为,部首(radical)是最主要的偏旁(components)。比如大家都知道,三点水的字多数和河流和水有关系等等。

2. 所以很自然的一个想法就是像英文那些利用 subunits(前缀后缀词根)的研究工作一样,把中文的偏旁部首加进来提供额外的信息。

3. 更疯狂的一个想法是,像甲骨文时代一样,很多字本身的含义就是由多个偏旁的含义“组合”在一起的;而很多词的含义又是由组成的单个字的含义拼接在一起的。

由上述2和3的思想的驱动,我们过去做过一个工作:

Yanran Li, Wenjie Li, Fei Sun, and Sujian Li. Component-Enhanced Chinese Character Embeddings. Proceedings of EMNLP, 2015. [pdf] [bib](https://link.zhihu.com/?target=http%3A//yanran.li/files/emnlp2015comp.pdf)是一个比较简单的工作,直接将 components 信息和字本身拼接在一起,作为 Word2Vec 模型的输入。这个工作后来还被改进到了很多更复杂的模型,得到了更好的一些结果[1][2]。同时,同期也有来自哈工大的研究团队发表了相似的研究成果[3]。这里值得一提的一点是,我们做的还是基于字级别的建模,并不是基于词的。虽然中文分词几乎被认为是标配,但是其实字级别的建模对于很多罕见词等等还是比较有帮助的,这个在后来和一些公司的交流中发现他们线上的一些模型也是字词结合的。但是在做这个工作的过程中,遇到了一些阻碍或者说可能未来继续的方向。一些也许也有意思的研究是:

4. 英文里,character-level 的一些相关建模和研究,比如 character-level LM[4][5] 都表现得效果不错。但是当时是觉得,英文的26个字母本身是没有任何含义的,所以如果把中文“下降”到偏旁部首这种有语义含义的级别,应该效果会很不错。然而效果只是轻微得好。这其中受限于:(1) 偏旁部首在汉字演化中改变非常大,不仅是形态,还有含义。尽管我们在做工作过程中进行了一些映射处理,但只是沧海一粟吧;(2)中文有时候也有非象形字,比如象声字,怎么识别和区分或者结合这两种字的建模也是个问题。

5. 就像刚才说的,我们希望中文多个字结合出来的词,也是有语义的。但是很多时候俩字结合出来意思就和单独俩字完全不一样了,这在英语里也比较少见。比如“美丽”,本身这俩字都是好看的意思,结合起来还是好看的意思。但是比如“东西”,这俩字明明是俩方位词,结合在一起就变成一种笼统的物体了。这种词义结合后的转变,其实应该可以用一些 NLP 的技术识别出来,并做一些有意思的研究。这个是我暂时还没进行下去但比较有兴趣的方向。

6. 在我本科的时候,学过一点点脑认知。当时有一些关于人脑到底是如何把文字和语义联系起来的研究,比如著名的格式塔理论等等。所以从最原始的出发点,我觉得现在的 NLP 技术也可以往这个方向探究一下。最近收到了一个心理测评机构的合作邀请,希望一起探究下中文字符认知的一些问题。超级开心啊!(感觉多少做了个有趣和有点意义的研究……QAQ

References:

[1] Jian Xu, Jiawei Liu, Liangang Zhang, Zhengyu Li, Huanhuan Chen. "Improve Chinese Word Embeddings by Exploiting Internal Structure". NAACL 2016.

[2] Rongchao Yin, Quan Wang, Rui Li, Peng Li, Bin Wang. "Multi-Granularity Chinese Word Embedding". EMNLP 2016.

[3] Yaming Sun, Lei Lin, Duyu Tang, Nan Yang, Zhenzhou Ji, Xiaolong Wang. "Radical-Enhanced Chinese Character Embedding". arXiv preprint 2014.

[4] Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. "Character-Aware Neural Language Models". AAAI 2016.

[5] Xiang Zhang, Junbo Zhao, Yann LeCun. "Character-level Convolutional Networks for Text Classification". NIPS 2015.

作者:Major术业
链接:https://www.jianshu.com/p/d89313ac10dc
来源:简书
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。

干货|NLP领域中文vs英文有什么异同点,中文NLP有什么独特的地方?相关推荐

  1. 如何用计算机把英文变成中文,电脑英文系统怎么设置回中文

    很多用户之前设置系统语言为英文,现在想要设置回中文但是却找到不到在哪设置.下面由小编为你整理了的相关方法,希望对你有帮助! 电脑英文系统设置回中文的方法 1.点击[开始],出现开始菜单,点击右侧倒数第 ...

  2. SQL 判断字段值是否有中文、英文、数字、提取中文、英文、数字

    –SQL 判断字段值是否有中文 create function fun_getCN(@str nvarchar(4000)) returns nvarchar(4000) as begin decla ...

  3. mysql英文设置中文_英文操作系统下的MySQL中文设置

    我下载的MySQL-5.6.16没有my.ini文件,所以到以前的MySQL Server 5.6安装目录下拷贝了一个,然后修改其中的basedir和datadir. 最重要的是要写一句话:defau ...

  4. 干货|4条实用小建议,送给初入NLP领域的你(附链接)

    来源:知乎 作者:李纪为 本文约5000字,建议阅读10分钟. 本文为你介绍了刚迈进NLP领域需要掌握的一些小技巧. ACL2019投稿刚刚落幕,投稿数超过了2800篇,可以说是历史以来最盛大的一届A ...

  5. 百家争鸣|国内外NLP领域学术界和工业界的牛人和团队

    https://mp.weixin.qq.com/s/t7ZM1Es72-_AsSX7KxqGMw 作者:沧笙踏歌 zenRRan有改动 根据这几年的积累,整理了一份国内外学术界和工业界的牛人和大牛团 ...

  6. 国内外NLP领域学术界和工业界的牛人和团队

    转载自https://mp.weixin.qq.com/s/MD2-xMWWXx7rpfWzd5XDxA 非常不错的总结 根据这几年的积累,整理了一份国内外学术界和工业界的牛人和大牛团队,供大家申请硕 ...

  7. 李纪为:初入NLP领域的一些小建议

    刚开始做算法的朋友会有遇到很多误区,比如沉迷新的模型,忽视基础等等.我强烈建议大家沉下心来读一下香侬科技李纪为博士的这个文章,对你会很有帮助.以下是原文. ACL2019投稿刚刚落幕,投稿数超过了28 ...

  8. 【转】初入NLP领域的一些小建议

    初入NLP领域的一些小建议 李纪为 ACL2019投稿刚刚落幕,投稿数超过了2800篇,可以说是历史以来最盛大的一届ACL.在深度学习的推动下,自然语言处理这个子领域也逐渐被推上人工智能大舞台的最前列 ...

  9. 复旦黄萱菁:顶会也喜欢“搞事情”文章,提示学习等已成为NLP领域的研究重点...

    导读:近年来,顶会投稿数量稳步增长,一些热门会议甚至出现投稿数破万的情况,"顶会热"成为AI领域关注的话题.同时,预训练模型等技术快速发展,推动着NLP领域的范式变革. 进入202 ...

最新文章

  1. html倒计时timer,JavaScript定时器设置、使用与倒计时案例详解
  2. 深圳SQL数据库823报错修复
  3. mysql 多个库一起导出_MYSQL 导出多个库
  4. 人工智能(15)---宽动态摄像头
  5. WIN7系统怎样增加C盘空间
  6. 面试遇Spark,别怂!
  7. Windows系统怎么将dmg文件转换为iso格式
  8. 鸿蒙系统操作界面跟苹果很像,华为鸿蒙系统的操作界面可能长这样 和安卓全完不同而且图标也太酷了...
  9. linux 可道云_帮助 - 可道云-私有云存储协同办公平台_企业网盘_企业云盘_网盘_云盘...
  10. 如何确认是文章发表在哪里?
  11. 小白DIY自己的系统镜像
  12. 树莓派cm4 ioboard配置虚拟网卡、静态ip、dhcp服务
  13. Modelsim设置默认窗口排版
  14. AWS SES发QQ邮箱拒收解决方案
  15. Three.js - 使用 ThreeBSP 对模型进行布尔运算
  16. python【模块】xml.etree.ElementTree 解析 xml
  17. sqlserver设置身份验证登录
  18. 利用ArcMap将CAD数据转为shp
  19. jQuery实现点击文本框弹出热门标签的提示示例
  20. 脑机接口技术的现状与未来!

热门文章

  1. 制作演示的福音,推荐屏幕录制软件:Adobe Captivate 2,特意使用这个录制一个简单的录制使用过程,让大家有直观印象...
  2. springboot ajax form json 请求方式
  3. 基于Spring+SpringMVC+Mybatis开发电影院订票系统前后台
  4. 用win-acme生成免费的泛域名证书,域名使用的阿里云
  5. 测序结果峰图分析物种鉴定方法1.0
  6. 【掌中英语】和天天一起:情景英语
  7. OSPF口字型拓扑实例二.V1
  8. JS总结:数组 字符串 对象
  9. 2013最新交通法规扣分细则
  10. php自动截止关闭连接,关闭wifi的自动连接功能可以防范?