目录

文章目录

  • 目录
  • 前言
  • Markov模型1
  • Markov模型2
  • Markov 模型3
  • Markov模型4
  • Markov模型(5)

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

Markov模型1

设X=(X1,X2,...Xt)是随机变量序列,其中每个随机变量的取值在有限集S=s1,S2,称为状态空间,时间不变性假设X=(X_1,X_2,...X_t)是随机变量序列,其中每个随机变量的取值在有限集S={s_1,S_2},称为状态空间,时间不变性假设X=(X1​,X2​,...Xt​)是随机变量序列,其中每个随机变量的取值在有限集S=s1​,S2​,称为状态空间,时间不变性假设
N阶Markov模型,只需修改状态空间的定义S’={X}。定义新的变量Xibelongtos′X_i belong to s'Xi​belongtos′
使得Xt=(Si−1,Si)X_t=(S_{i-1},S_i)Xt​=(Si−1​,Si​)并且约定:
P(Xi∣Xi−1)=P((Si−1,Si)∣(Si−2,Si−3))P(X_i|X_{i-1})=P((S_{i-1},S_i)|(S_{i-2},S_{i-3}))P(Xi​∣Xi−1​)=P((Si−1​,Si​)∣(Si−2​,Si−3​))
Markov模型的形式化表示,一个马尔可夫模型是一个三元组(S,π,A)(S,\pi,A)(S,π,A),其中S是状态的集合,π\piπ是初始状态的概率,A是状态间的转移概率。
发射字符依赖于当前状态,不同状态,有不同输出。
HMM:不同状态可以有相同输出,输出在状态转移中进行。

Markov模型2

HMM模型:
最大的灵活性在状态转移中以特定概率输出。
##HMM模型:
HMM是一个五元组(S,k,pi,a,b),其中s是状态的集合,k是输出字符的集合,pi是初始状态的概率,a是状态转移的概率。b是状态转移时输出字符的概率。
t:=1
以概率pip_ipi​在状态SiS_iSi​开始(ie,X1=i)
forever do
move from state Si to state Sj with
probability Aij(i,e,..Xt+1=j)A_{ij}(i,e,..{X_{t+1}=j})Aij​(i,e,..Xt+1​=j)
Emit observation symbol Ot=k
with probability b
t:=t+1
end
##HMM的基本问题
给定一个输出的字符序列。如何调整模型的参数使得产生这一序列的概率最大,IBM Watson医生。 隐马模型的基本问题:给定一个模型M=(S,k,pi,a,b),如何高效地计算某一输出字符序列的概率P(O|u)。
给定一个输出字符序列O和一个模型u,如何确定产生这一序列概率最大的状态序列
(X1,x2)
词网格分类,音字转换。网格cell states。
问题1:评价(evaluation)
给定一个模型u=(s,k,pi,a,b)如何高效地计算某一输出字符序列的概率P(O|u)。
O=(o1,o2,…,or),u=(a,b,pi)
计算P(O|u)。
给定词网格最优路径
方案一:直观方法。
X1–>o1
P(o|x,u)=bx1oz=∑P(O∣X,U)∗P(X∣u)\sum P(O|X,U)*P(X|u)∑P(O∣X,U)∗P(X∣u)
动态规划,递推求解。
αi(t)=P(O1,..Oi∣Xt)\alpha_i(t)=P(O1,..Oi|X_t)αi​(t)=P(O1,..Oi∣Xt​)
方案2:向前过程

=∑i=1αi(t)∗bjαijbj∗αt+1\sum_{i=1}\alpha_i(t)*b_j\alpha_{ij}b_j*\alpha_{t+1}i=1∑​αi​(t)∗bj​αij​bj​∗αt+1​

Markov 模型3

向前过程
RRGB
动态规划法
向后过程概述:
KaTeX parse error: Expected 'EOF', got '\lmd' at position 5: P(O|\̲l̲m̲d̲)=\sum_{1<j<N}p…
算法效率与前算法相同。
用途:参数训练问题的一个重要组成部分。
##解码
确定产生概率最大的状态
delta为在t时刻到达状态j,输出字符Ot时,输出前面t-1
个字符的最可能路径的概率。
delta_j(t)=max_{xi…xt+1}P(x1…xt+1,O1…Ot-1,Xt=1,Ot)
delta+{t+1}(j)=max_deltat(j)aijbij(ot+1)
viterbi algorithm:
初始化:
delta(i)=piibi(Oi)
phi(i)=0
递归:
最优路径 qt=phi_t=1(Qt+1)
把连乘变成加。
参数统计
argmax_uP(O|u)

Markov模型4

设计更新计算更新值。basic思想。
设定模型的初始值,U-old。
基于U_old计算输出U_new和O的概率。
如果P(o|u_new)-P(O|u_old)<某个阈值
停止
否则,U_old<-U_new返回step2.
Baum-Welch算法。
向前向后算法。
基于HMM的词性标注。
词性标注:
作用句法分析的前期步骤
难点:兼类词。
词性标准应用:
Tbest=argmaxPr(T|s)=argmaxP(S|t)P(T)
如何计算P(S|t)和P(T)
简化:
词wi的出现,仅仅依赖于它的词性标记,标记ti的出现仅仅条件依赖于它前面的标记t_i-1
公式转化 计算P(S|T)和P(T)
Pr(S|t)Pr(t)=\timr P(Wi|ti)P(Ti|ti-1)
使用最大相似度估计:
P(Ti|ti-1)=c(ti,tj)/c(ti)
音字转换
发射字符:状态是什么?
发射字是什么?
不是什么?转化为生产力的学习。

Markov模型(5)

HMM评价,解码编码问题
ch6尾声,音字转换
T=argmax(v|s)
语言单位间的远距离约束
递归模型
规则与统计相结合
采用规则的方法:
短语结合规则:
A+NP->NP
A+‘的’+NP->NP
M+‘枝’+NP->NP
短语匹配算法。
从词网格到元素网格
颗粒度疏,工作量太大。
规则匹配强度不够。
做了几个宣传词,要有自己的优势项。
还做了系统挂接问题。

自然语言处理笔记6-哈工大 关毅相关推荐

  1. 自然语言处理笔记4-哈工大 关毅

    目录 文章目录 目录 前言 汉语语料库的多级加工(1) 汉语语料库的多级加工(2) 汉语语料库的多级加工(3) 汉语语料库的多级加工(4) 汉语语料库的多级加工(5) 汉语语料库的多级加工(6) 汉语 ...

  2. 自然语言处理笔记2-哈工大 关毅

    目录 文章目录 目录 前言 自然语言处理概论(七) 自然语言处理概论(八) 数学基础和语言学基础(1) 数学基础和语言学基础(2) 数学基础和语言学基础(3) 数学基础和语言学基础(4) 数学基础和语 ...

  3. 自然语言处理笔记10-哈工大 关毅

    目录 文章目录 目录 前言 基于认知科学原理的相似模型(五) 基于认知科学原理的相似模型(六) 面向旅游领域的问答系统实验 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. ...

  4. 自然语言处理笔记9-哈工大 关毅

    目录 文章目录 目录 前言 课堂总结(一) 课堂总结(二) 课堂总结(三) 课堂总结(四) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  5. 自然语言处理笔记8-哈工大 关毅

    目录 文章目录 目录 前言 问答系统基础一 问答系统基础二 问答系统术语 问答系统基础三 问答系统基础四 问答系统基础五 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自 ...

  6. 自然语言处理笔记7-哈工大 关毅

    目录 文章目录 目录 前言 句法分析技术1 句法分析技术2 句法分析技术3 句法分析技术4 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题, ...

  7. 自然语言处理笔记5-哈工大 关毅

    目录 文章目录 目录 前言 n-gram语言模型(一) n-gram语言模型(二) n-gram语言模型(三) n-gram语言模型(四) n-gram语言模型(五) n-gram语言模型(六) n- ...

  8. 自然语言处理笔记3-哈工大 关毅

    目录 文章目录 目录 前言 汉语的分词与频度统计(1) 汉语词汇的特点 汉语的分词与频度统计(2) 汉语的分词与频度统计(3) 汉语的分词与频度统计(4) 汉语的分词与频度统计(5) 汉语的分词与频度 ...

  9. 自然语言处理笔记11-哈工大 关毅

    目录 文章目录 目录 前言 一篇论文的诞生(1) 一篇论文的诞生(2) 一片论文的诞生(3) 前言 硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论. 自然语言处理是一个非常难的问题 ...

最新文章

  1. 着手一个手游项目的思考
  2. 企业网站优化两个重点多加重视!
  3. SQL高效率语句(一)
  4. es6 --- forEach的实现
  5. 一分二功率分配器_一文学会微波功率分配器
  6. wince 自动启动程序设置
  7. SpringBoot-短信验证码-快速入门Demo(含redis)(手把手教你开通阿里云短信服务到写出个最终代码来)
  8. PTVS 安装操作指南
  9. Nginx stream模块初探
  10. SpringCloud Eureka自我保护机制介绍及配置
  11. oracle unpivot 索引_oracle pivot 和 unpivot 函数的使用
  12. Harmony OS — RadioButton RadioContainer单选按钮单选按钮组
  13. @OneToOne or @ManyToOne on references an unknown entity:
  14. 群晖NAS详细教程 DSM6.1.7版本(亲测有效)传统BIOS
  15. 山海经异兽录找不到服务器,星辰山海经异兽录
  16. 你想要的宏基因组-微生物组知识全在这(2022.10)
  17. cast 和convert和concat详解以及mysql和sqlserver兼容问题
  18. 漏洞扫描的原理与设计
  19. 基于BootStrap实现商城首页
  20. Android系统自带的层次状态机StateMachine(Hierarchical State Machine)

热门文章

  1. 评计算机中级职称上海积分,上海落户积分,这个中级职称(国家职业资格)性价比最高!...
  2. win7制作ntp服务器,win7系统搭建ntp服务器的处理步骤
  3. 大数据项目——团购网标签的生成
  4. 爬取豆瓣电影排名代码
  5. python 爬取豆瓣电影排名
  6. PTA-实验五-圆形体体积计算器
  7. wsappx是什么进程
  8. 曾经运维生涯中的几个“最”
  9. 从零开始搭建一个springCloud项目
  10. Rust系列(2):样样精通的Rust与其内功心法(上)