目录

文章目录

  • 目录
  • 前言
  • 句法分析技术1
  • 句法分析技术2
  • 句法分析技术3
  • 句法分析技术4

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

句法分析技术1

基于规则+统计结合的句法分析
判定输入的词序列是否合法,短语结构树,有向无环图。
句子:{主『定语,中心』}{谓语『状,谓{动宾【动,宾语(定语,中心词)】,补语}』}

状语修饰,核心动作。

提高语法分析结果,计算机的语法分析里面不明确。
词性层级:两种句法分析的区别因子进入短语结合规则。
句法分析和短语结合分析进入区别。
语法歧义示例。
汉语句法分析,句法分析细语,形式语法体系。
匹配模式方法,“正则文法”。
短语结构文法,信息处理系统。机器翻译运用,留下此路不通的牌子。
科研有风险,不是一帆风顺,需要有挑战精神的人去做
扩充转移网络,状态转移机,树邻接语法

句法分析技术2

基于合一运算的语法,复杂描述集的语法,合一运算实现该方法,依存语法,上下文颗粒度太大,短语限定在词汇上,K+语法,依存文法,形式语法体系模式,正则匹配。
短语结构语法分析很多方法。
扩充转移网络
回顾:Chomsky文法体系
G=(N,∑,P,S)G=(N,\sum,P,S)G=(N,∑,P,S)是一个文法,
α−>β∈P\alpha->\beta\in Pα−>β∈P
0型文法:对α−>β不作任何限制\alpha->\beta 不作任何限制α−>β不作任何限制
I型文法:∣α∣≤∣β∣|\alpha|\leq|\beta|∣α∣≤∣β∣
II型文法:上下文无关文法,α∈N上下文无关文法,\alpha \in N上下文无关文法,α∈N
III型文法:正则文法。
一个字串的推导是一系列文化规则的应用。
起始符推导到最好。强范式:基于词的语法。
格里巴克:形式语言自动化机。
一种语言LgL_gLg​是由某上下文无关文法推导出来的所有终结符号串的集合,其中的每个终结符串,称为合乎文法G,否则,称之为不合乎文法。上下文文法,扩充概率无关文法。
一个随机上下文无关语法,PCFG的三个假设。
1)位置无关2)上下文无关3)祖先无关。
推出非总结串,隐码模型,推出问题。
PCFG的三个基本问题。
一个语句W=WiWi−1Wi−2WnW=W_iW_{i-1}W_{i-2}W_nW=Wi​Wi−1​Wi−2​Wn​的P(W|G)也就是产生语句W的概率?
在语句W的句法结构有歧义的情况下,如何快速选择最佳的语法分析(parse)?
如何从语料库中训练G的概率参数使得P(W|G)最大(类比之前的问题,评价,解码,编码问题)
节点间的递推关系,叶节点到根节点的句法树。

向内算法

句法分析技术3

随机上下文无关文法
任何一个语句都可以视为一种语言模型。
一个句法树中的结点词句法树开始推导,自顶向下,自下向上。
某一部推导,对应于几个规则,开始推导,做出结果。
登上算法,尝试去做,EM算法,优化前进,无指导学习算法,PCFG的优点。
可以对句法分析的歧义,结果进行概率排序。
提高文法的容错能力。
词对结构分析,上下文对结构分析,随机上下文无关文法。
向前算法,节点值增加提前。
αij(A)=P(Wi,Wj∣A),i&lt;j\alpha_{ij}(A)=P(W_i,W_j|A),i&lt;jαij​(A)=P(Wi​,Wj​∣A),i<j
=∑B,C,∈RP(Wi,Wj,B,Wr+1..Wj,C∣A)=\sum_{B,C,\in R}P(W_i,W_j,B,W_{r+1}..W_j,C|A)=B,C,∈R∑​P(Wi​,Wj​,B,Wr+1​..Wj​,C∣A)
αi,j=P(A−&gt;Wi)i=j\alpha_{i,j}=P(A-&gt;W_i)i=jαi,j​=P(A−>Wi​)i=j

句法分析技术4

浅层句法分析,形式合规分析,结构分析就行。
部分分析,组块分析。
例句:
这一切已经引起世界各国的普遍关注。
S-k,r,c,p.
浅层专项研究。
基于HMM的浅层分析技术,ACL会议。他识别的目标是非递归的NLP,浅层句法分析,隐码是五元组,浅层分析状态空间如何定义。输出一对词性标记,一个组块开始。
照着看,任何阶段都可以用任何一个模型,不同的是标记的内容。
级联式有限状态分析句法。
# 句法分析技术5
基于规则的方法,需要大量人力,不好迁移。
总结:
概率上下文无关文法,句法分析是目前语言处理技术瓶颈之一。发现问题比解决问题更重要。
句法分析是必由之路,ACL每年关注,语法分析。
强化学习技术:免疫机制分析合适吗?
句法是形式,语义是内容。
完整合法性,没有公认的内容。
句法的强制性和语义的决定性,句法系统和语义系统是两个不同的系统,它们各自独立而又相互依存,彼此的对应关系十分复杂,统计规则之后讲应用。

自然语言处理笔记7-哈工大 关毅相关推荐

  1. 自然语言处理笔记4-哈工大 关毅

    目录 文章目录 目录 前言 汉语语料库的多级加工(1) 汉语语料库的多级加工(2) 汉语语料库的多级加工(3) 汉语语料库的多级加工(4) 汉语语料库的多级加工(5) 汉语语料库的多级加工(6) 汉语 ...

  2. 自然语言处理笔记2-哈工大 关毅

    目录 文章目录 目录 前言 自然语言处理概论(七) 自然语言处理概论(八) 数学基础和语言学基础(1) 数学基础和语言学基础(2) 数学基础和语言学基础(3) 数学基础和语言学基础(4) 数学基础和语 ...

  3. 自然语言处理笔记10-哈工大 关毅

    目录 文章目录 目录 前言 基于认知科学原理的相似模型(五) 基于认知科学原理的相似模型(六) 面向旅游领域的问答系统实验 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. ...

  4. 自然语言处理笔记6-哈工大 关毅

    目录 文章目录 目录 前言 Markov模型1 Markov模型2 Markov 模型3 Markov模型4 Markov模型(5) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后 ...

  5. 自然语言处理笔记9-哈工大 关毅

    目录 文章目录 目录 前言 课堂总结(一) 课堂总结(二) 课堂总结(三) 课堂总结(四) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  6. 自然语言处理笔记8-哈工大 关毅

    目录 文章目录 目录 前言 问答系统基础一 问答系统基础二 问答系统术语 问答系统基础三 问答系统基础四 问答系统基础五 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自 ...

  7. 自然语言处理笔记5-哈工大 关毅

    目录 文章目录 目录 前言 n-gram语言模型(一) n-gram语言模型(二) n-gram语言模型(三) n-gram语言模型(四) n-gram语言模型(五) n-gram语言模型(六) n- ...

  8. 自然语言处理笔记3-哈工大 关毅

    目录 文章目录 目录 前言 汉语的分词与频度统计(1) 汉语词汇的特点 汉语的分词与频度统计(2) 汉语的分词与频度统计(3) 汉语的分词与频度统计(4) 汉语的分词与频度统计(5) 汉语的分词与频度 ...

  9. 自然语言处理笔记11-哈工大 关毅

    目录 文章目录 目录 前言 一篇论文的诞生(1) 一篇论文的诞生(2) 一片论文的诞生(3) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题 ...

最新文章

  1. makefile清除目标文件的规则
  2. IO流(六)之CharArrayReader类与CharArrayWriter类
  3. python第三十二课——队列
  4. MySQL数据库:查看数据库性能常用命令
  5. Linux下Nginx访问web目录提示403Forbidden
  6. Vim-latex 插件 的安装
  7. vs2015 编译时项目出现NuGet程序包还原失败,找不到xxx.xxx.xxx版本的程序包,怎么解决这个问题?
  8. 函数式编程能否支持更高效的区块链基础设施?
  9. java calendar格式化_java日期处理专题:java 日期格式化
  10. wowza 技术交流群/ wowza 流媒体软件交流群
  11. Scrapy创建项目报错Scrapy – no active project,Unknown command解决办法
  12. windows 图片和传真查看器不能旋转
  13. 并发编程(十)ThreadPoolExecutor源码分析、拒绝策略、队列、示例代码
  14. FreeBSD常用命令110条
  15. 解决jmeter5.4.3在高分辨率下的显示问题
  16. 步步精心,打造高德 AR 实景步行导航(设计篇)
  17. spinal HDL - 01 - 环境搭建与Scala编程指南
  18. 摩拜创始人套现15亿:你的同龄人,正在抛弃你+韩寒回应
  19. 如何降低数据中心机柜的局部高热
  20. perl中DBD-oracle安装,perl DBD :: Oracle模块安装

热门文章

  1. css样式:背景、模式转换和盒子模型
  2. 盒子垂直居中的三种办法
  3. 怎样做一个好的PPT演讲
  4. goland 工具 破解码
  5. Freemarker动态模板渲染flyingsaucer将html转PDF(多页固定头尾)
  6. 使用scrapy框架爬取豆瓣影评
  7. JZSearch精准全文搜索引擎共享开发包 v4.5 u20121108
  8. 【Code Pratice】—— 《图解算法数据结构 ~ 第一章》
  9. 华为云王楠楠:分布式云原生全域调度的技术和实践
  10. 查全国银行CNAPS CODE的地址