NLP--自然语言处理与机器学习会议
整理至11月中旬在重庆参加的自然语言处理与机器学习会议,第一讲为自然语言处理。
由基本理论到实际运用,整理了基本的框架。
1. 自然语言处理基础
词性标注(POS):
为句子中的每个词语标注词性,可看做是句法分析的关键任务,也可以看做是句法分析的最低层次.对后续句法分析,语义消歧等任务非常有用.
POS集合,也就是基本词性规则:
常用的是PennTreebank set,包好45个tags
基本方法:
基于规则:人工基于词汇与其他语言知识构造标注规则
基于学习:基于人工语料进行训练
统计模型:HMM,Maximum EntropyMarkov(MEMM),conditional random field(CRF)
规则学习:transformation basedlearning(TBL)
序列POS:
POS问题可以看做最一个序列进行POS的问题.
基于分类的序列标注:
把每个词看做上下文的一个特征,如相邻的词,用分类算法来解决.
如:John saw thefish and decided to take it to the table.
Saw可以看成john + saw +fish的一个特征,用分类算法来POS.
缺点:
1.不容易集成来自左右两个方向上的词语标记信息.
2.难以表达与传递词语标签半段的不确定性,难以为序列中所有词语统一确定最可能的联合标签判断.
具体的算法有前向分类与后向分类.
基于概率的序列标注:概率序列标注模型允许集成序列中多个相互依赖的个体分类的不确定性,统一确定最可能的全局标签判断.
典型模型:HMM,MEMM,CRF
其中,HMM可使用监督学习与无监督学习,半监督学习等等.其中使用viterbi动态规划算法.
中文语法分析效果
总体F值为95%
主要错误为新词;命名实体识别效果偏低,效果跟文本类型有关.总体水品超过90%.
句法分析(句子结构)
类型:句法分析与依存关系分析;完全分析与浅层分析.
涉及知识:组块分析(chunking),Chomsky语法层次,Context Free Grammars(CFG)上下文无关语法,句法树(parsing)等.
句法结构分析(parsing):
1.给定一串终结符号和一个CFG,确定该符号是否能够被CFG所生成,同时为该符号串返回句法树.
2.搜索以获取句法树的推导
Top-down parsing:从初始符开始
Bottom-up parsing:从符号串中的终结符开始
3. 动态规划parsing方法
CKY(cocke-kasami-younger)算法;基于自底向上分析,需要对句法进行规范化
Enrley parser:自顶向下分析,不需要句法规范化,但更加复杂
Chart parser:融合自顶向下与自底向上搜索
统计句法分析
使用句法概率模型为每颗句法树计算概率值;允许使用有监督学习和无监督学习得到句法分析模型.
Probabilistic context freegrammar(PCFG):CFG的概率形式;以及概率话的CKY等.
已训练得到的树库:
见wiki:Treebank
中文句法分析效果:
短语结构总体水平F值>=80%,依存关系为90%
2. 互联网语义计算与信息总结
语义分析(句子含义):
获取语言单元的意义:不同层次,词汇级,句子级,篇章级
句法驱动的句子级语义分析:句子的语义分析由其组成成分的语义组合而得到.基于词汇和语法信息获取句子意义表达.
1.运用句法树生成一阶逻辑表达式.
2.语法角色标注:施事,受事,来源,目的,工具等.
语法分析效果:深层语义分析很困难,目前没有成熟的技术和系统;语义角色标注的总体水平(F值)在70%
篇章分析(discourseparsing)
篇章是一组连贯且具有结构的句子,如独白,对话.
主要任务:篇章分割(分段)句间关系识别,指代消解.
理想情况下需要深层文本理解技术来应对以上任务,但目前为止主要采用浅层分析方法.
1.篇章分割:
将文档分割成子话题的线性序列.如科技文章可分为:摘要,简介,方法,结果,结论等等.
应用:文档摘要:每个段落分别摘要;信息检索与信息抽取:在合适的段落上进行
相关任务:对于语音识别文本的段落分割.
方法:基于凝聚性的方法(Cohesion-based approach)
将文旦分割成子话题,每个子话题中的段落/句子之间相互凝聚子话题边界处的凝聚性较差
TextTiling算法.
2.篇章结构(discoursestructure):
基于连贯关系的篇章层次结构,类似于句法树的结构.树节点表示句子之间的连贯关系:discourse segment(notlinear)
应用:文摘系统:可以忽略或合并被elaboration关系连接的单元;问答系统:利用explanation关系进行回答;信息抽取系统:不需要对从没有连贯关系的单元上抽取的信息融合.
3.篇章解析
指代消除(referenceresolution):确定哪个实体被哪个语言表达所意指.
分类:
coreference resolution(共指消解):发现指向相同实体的指称表达式,也就是寻找共指链,如:{Mr.Obama,The president,he}
pronominal Anaphora Resolution(人称代词消解):如下一句的he指向Mr.Obama.
词汇语义计算
我想扁你->Ithink flat you.
研究意义:怎样表达词语的意义?词语之间是怎样关联的?同义词,反义词,上位词,下位词,相似不相似等等.
名词:词义(word senses):
一个词语的特定意义
一个词语可以有多个词义
一个词义能被一个注释所描述.如apple:水果,红色,黄色或者绿色,甜味.
词汇相似度(wordsimilarity)
同义词/反义词等二值关系
更宽松的准则:词汇相似度/词义距离(Word similarity or word semantic distance)
两种计算方法:
基于语义词典的方法(Thesaurus-based):构造一个wordnet,判断在wordnet中的关系
基于语料统计的方法(Distributional/Statisticalalgorithm):比较词语在语料库中的上下文.
基于Wordnet的词义相似度:
著名的英文词义关系计算资源,同义词库。
基本单元为一个synet,也就是一个同义词集合。
每个词条包含多个synet,用来注解。
不同的synets之间通过不同的词义关系相连。
语义词典方法的缺点:
许多语言没有好用的语义词典。许多新词不被包含。限于名词,对于形容词和动词并不完善。
基于语料统计的词汇相似度:
比如根据许多句话以及上下文,我们可以推断某个未知的英文单词的含义。语料统计也是相似的过程。通过互联网的语料,来统计某个词的语义。或者有机遇wiki百科的语义分析等。
词义消歧
计算完语义后,就可以通过语义来消歧。
互联网信息摘要
对海量的内容进行提炼与总结,以简洁,直观的摘要来概括用户所关注的主要内容。比如微博图谱,新闻摘要等等,是自然语言处理与篇章分析的一个主要运用。
版权声明:本文为博主原创文章,未经博主允许不得转载。
转载于:https://my.oschina.net/stevie/blog/691942
NLP--自然语言处理与机器学习会议相关推荐
- NLP自然语言处理-机器学习和自然语言处理介绍(五)
NLP自然语言处理-机器学习和自然语言处理介绍-知识抽取构建流程 1.什么是知识抽取 知识抽取,即从不同来源.不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱. 知识抽取的三个基本任 ...
- NLP自然语言处理-机器学习和自然语言处理介绍(四)
NLP自然语言处理-机器学习和自然语言处理介绍-事件抽取 一.案例介绍 1.背景 事件抽取技术的核心价值,是可以把半结构化.非结构化数据转换为对事件的结构化描述,进而支持丰富的下游应用. 比如说我们要 ...
- python自然语言处理实战 | NLP中用到的机器学习算法学习笔记
这是对涂铭等老师撰写的<Python自然语言处理实战:核心技术与算法>中第9章NLP中用到的机器学习算法 的学习笔记. 这里写目录标题 文本分类:中文垃圾邮件分类 文本聚类实战:用K-me ...
- NLP自然语言处理-机器学习和自然语言处理介绍(一)
"NLP自然语言处理-机器学习和自然语言处理介绍" 一.机器学习 1.什么是机器学习 从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法.但 ...
- 资源 | 2018年14个顶级AI和机器学习会议名录
编译 | AI [AI科技大本营导读]人工智能和机器学习已经跳出科幻小说的范畴,冲进了现实.不管是技术层面还是商业环境方面,这些领域都在迅速发展,紧跟潮流的步伐是非常重要的. 无论你是技术参与者还是战 ...
- 资源|2018年14个顶级AI和机器学习会议名录
编译 | AI [AI科技大本营导读]人工智能和机器学习已经跳出科幻小说的范畴,冲进了现实.不管是技术层面还是商业环境方面,这些领域都在迅速发展,紧跟潮流的步伐是非常重要的. 无论你是技术参与者还是战 ...
- Paper之ACLEMNLP:2009年~2019年ACL计算语言学协会年会EMNLP自然语言处理的经验方法会议历年最佳论文简介及其解读
Paper之ACL&EMNLP:2009年~2019年ACL计算语言学协会年会&EMNLP自然语言处理会的经验方法会议历年最佳论文简介及其解读 目录 ACL计算语言学协会年会& ...
- 【NLP】 NLP领域最具影响力的国内外会议介绍
众所周知,参加学术会议是进入学术圈.走进学术前沿的重要方式.在学术会议上,不仅可以集中听取最新的成果报告,还有讲习班.工作坊.社交活动等形式,了解那些不会写到论文中的八卦与动态,结识学术大佬和朋友,走 ...
- nlp自然语言处理_nlp满足可持续投资
nlp自然语言处理 Sustainable Investing is a growing investment strategy that seeks strong financial returns ...
- nlp自然语言处理_自然语言处理(NLP):不要重新发明轮子
nlp自然语言处理 介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...
最新文章
- java ee 6 sdk中文版,Java EE 6 SDK+Eclipse JEE+Android ADT-Fun言
- 转:人气资源大集合~~~2014年12月
- Oracle 常用sql整理
- SCCM2007系列教程之十操作系统部署(二)
- Dataset:机器学习和深度学习中对数据集进行高级绘图(数据集可视化,箱线图等)的简介、应用之详细攻略——daidingdaiding
- CentOS 7 搭建 LAMP
- propertysource注解_Java开发必须掌握的 20+ 种 Spring 常用注解
- 尤其是java程序员(转载)_JAVA程序员 学习任务(转载)
- CUDA bank 及bank conflict
- 理论计算机图形渲染技术是否已经到了没有什么可以研究的地步了?
- Servlet规范总结
- 服务器--apache启用多个端口的方法
- 编译或者运行找不到库解决
- mysql实验体会怎么写_数据库实验心得
- iOS 强制屏幕实现旋转功能,超级简单。
- LayoutInflater中的inflate方法详解(转载整理)
- Mysql安装错误码1722_软件error 1771, error1722,error 1723解决办法
- Consul + fabio 实现自动服务发现、负载均衡 1
- 关于数学建模、机器学习与深度学习的思考
- [python,2018-06-25] 高德纳箭号表示法