nlp知识点总结(下)
目录
拾壹:文档表示与相似度计算
一、词的表示
1. 独热表示
2. 词频-逆文档频率(TF-IDF)
3. 分布式表示与潜在语义索引LSI
4. 词嵌入表示
二、文档表示
1. 词袋表示
2. 主题模型
三、文本相似度计算
拾贰、信息抽取(IE)——命名实体识别(NER)
一、基于规则的方法
二、基于词典的方法
三、机器学习方法
1. 最大熵
2. 条件随机场CRFs
拾叁、信息抽取(IE)——其他
一、实体链接
二、关系抽取
1. 预定义关系抽取
2. 开放域关系抽取
3. 总结
三、事件抽取
拾壹:文档表示与相似度计算
一、词的表示
1. 独热表示
稀疏、维度大、无法表示语义关系。
2. 词频-逆文档频率(TF-IDF)
3. 分布式表示与潜在语义索引LSI
共现矩阵。慢,引入新词代价大。
4. 词嵌入表示
- Word2vec:两类方法——CBOW(预测当前词)和Skip-gram(预测上下文)。
- SGNS:skip-gram + 负采样(每个正样本构造k个负样本,多分类变二分类,逻辑斯蒂,权重作为词向量)。 给定目标词与待预测的上下文词,返回其确实是上下文的概率。
- SGNS中如何计算概率?:词向量的内积,再用sigmoid函数调整到0~1.使用梯度下降进行训练,参数包括目标词向量矩阵W与上下文词向量矩阵C。
- Glove:Word2vec只考虑了局部信息,而Glove加入了共现概率,增加了全局信息。
- Fasttext:n-gram,可以解决未登录词。
- 词向量表示不能解决一词多义和动态语义,也不能区分反义词(因为上下文很相似)。
二、文档表示
1. 词袋表示
- 用文档中每个词的独热表示的和表示文档
2. 主题模型
- 文档有多个主题,每个主题中词的概率不同
- 潜在狄利克雷分布(LDA)
三、文本相似度计算
- 欧式距离基于点的位置,非欧距离基于点的性质。
- 常用欧氏距离:L1范式(曼哈顿距离),L2范式。
- 杰卡德距离(集合相似度):集合之交的元素数除以集合之并的元素数。
- 余弦距离:结果是角度。
- 编辑距离:字符串变化的最少操作数(插入和删除),等于x + y - 2LCS。LCS为最长公共子序列。
- 汉明距离
拾贰、信息抽取(IE)——命名实体识别(NER)
为实体词指定一个标记,如Name,Organization等。
一、基于规则的方法
- 规则需要利用词性和词典;彼此可能冲突,对优先度有要求,且难以移植。
二、基于词典的方法
- 受限于词典的完备性、构建与更新、查找效率等,常与其他NER方法结合。
三、机器学习方法
1. 最大熵
- 分类模型,参数为每个特征的权重 λ 。
- 用MCLE可以推导出 λ 满足经验期望与模型期望相等。
- 逻辑回归在数学上等价于最大熵,但nlp中涉及的维数通常很大,故这里可能会做一个区分。
- 特征通常是0-1函数,自行定义,包括上下文本身和标记两部分。需掌握计算。
2. 条件随机场CRFs
- 最大熵模型难以考虑标机之间的联系。
- CRFs公式与最大熵一致,但 c 的含义不同,这里的 c 是一条标记路径,最大熵中是标记。
- 梯度上升更新参数 w,求概率最大。
- 要求掌握计算。
拾叁、信息抽取(IE)——其他
一、实体链接
将“实体提及”链接到知识库中对应的实体。
二、关系抽取
自动识别由一对实体和联系这对实体的关系构成的相关三元组。
1. 预定义关系抽取
- 任务:给定实体关系类别,给定语料,抽取目标关系对。
- 评测语料:专家标注语料,语料质量高,抽取的目标类别已经定义好。
- 采用机器学习的方法,将关系实例转换成特征表示,在标注语料库上训练关系分类模型。
2. 开放域关系抽取
区别:实体类别和关系类别不固定、数量大。
基于句法:识别表达语义的短语进行关系抽取,同时使用句法和统计数据进行过滤。优点是无需预先定义关系类别,但语义没有归一化,同一关系有不同表示。
基于知识监督:在Wikipedia文本中抽取关系(属性)信息,但无法获取关系类别,也无法获取训练语料。解决方案——在Infobox抽取关系信息,并在Wikipedia条目文本中进行回标,产生训练语料。
远距离监督:开放域信息抽取的一个主要问题是缺乏标注语料,远距离监督可使用知识库中的关系启发式的标注训练语料。但存在噪音。
- 关系推理:略
3. 总结
三、事件抽取
事件抽取具体可分为四个子任务:触发词识别、事件类型分类、论元识别、论元角色分类。
- 通常将前两个子任务合并为事件检测任务,后两个子任务合并为论元抽取任务。
- 事件检测:确认事件的触发词和及其对应的事件类型
- 论元抽取:确认事件中存在的论元及其扮演的角色 。
拾肆、深度学习简介
一、深度学习的兴起
- 通过RBM来进行逐层训练,达到无监督特征提取的目的,同时大大提升训练速度,从而达到构建更深层神经网络的目的。
- RBM——受限玻尔兹曼机,其中“受限”指同一层节点间不相连。
二、常用的深度学习模型
1. 激活函数
- 激活函数满足非线性、可导性与单调性。
- 挤压型激活函数:S型,如Sigmoid函数与Tanh函数,导数简单,对中央区增益较大。但指数计算代价大,反向传播时梯度消失 。Tanh是零均值的。
- 半线性激活函数:如ReLU函数、Leaky ReLU函数, 收敛速度快,能够避免梯度消失,但无界,且可能导致神经元死亡。
2. 深度神经网络DNN
- 通常层数>=3.
- 矩阵表示。上一层的输出作为下一层输入。
- 可以解决线性不可分问题(如异或问题)。
3. 卷积神经网络CNN
- 典型结构:卷积层【从不同视角看待原始输入,得到不同表示】,激活函数层【对每个卷积的结果作非线性变换】,池化层【把图像中一个区域用一个点表示】,全连接分类层。
- 卷积核:卷积网络之所以能工作,完全是卷积核的功劳,卷积核也是CNN中的主要参数。不同的卷积核能实现不同的功能,如“浮雕”“锐化”等等。
- 卷积运算:注意不是矩阵乘法!!!而是对应位置相乘,再求和。步长stride代表每次移动的格数。
- 填充:在原始矩阵外围加一圈0.
- 池化:又称下采样,分为最大值池化和平均值池化。主要作用是降维和扩大视野(忽略细节)。
- 优点:参数没那么多——因为卷积核可以共享;可以对局部特征进行抽取。
- 缺点:视野比较窄解决办法——多层神经网络,或卷积时跳着看。
4. 循环神经网络RNN
- DNN没有利用输入之间的联系(同一层没有边),而RNN中参数来自输入和前一个隐状态,且隐状态之间的参数W是一样的(共享)。
- 长短时记忆循环神经网络LSTM:设置记忆单元和遗忘门,控制哪些信息可以进入下一状态。用更复杂的结构代替了隐藏单元,可避免梯度消失,更好解决长距离记忆。
- 门限循环单元GRU:去掉了显式的记忆单元,设计了重置门(控制之前状态对当前输入的贡献)和更新门(相当于记忆单元)。其实际上是LSTM的一种简化版本或者特殊形式。
5. 注意力机制
- 动物或者人对所看到的场景做出反应时,都会集中于所看到场景的局部区域。这种对所摄入的场景的局部具有强烈的注意,而对其周围的场景弱化的机制,就称之为注意力机制。
拾伍、对话系统
一、聊天型对话系统
目前聊天型对话系统的主要作用还是娱乐,也有用于医疗的(如心理治疗)。
1. 基于规则的方法——Eliza
- 基本思想如下:根据用户输入中的关键词,触发合适的规则进行转换,得到回复句子。
- 具体的回复生成算法如下。
- 缺省回复是为了避免冷场,当未检测到触发词时,就随机选择缺省回复中的一条,如Please go on.
- 另一种处理方法是从记忆栈中调取,检测到特定词时触发规则并存入记忆栈,在冷场时调取。
- 为了使回复更加流畅,通常还会做一些细微的调整,如人称上的转变(I变you),一次对话中尽量不使用同样的规则(避免重复对话)等。
- 在下面的测试中,绿色为Eliza的提问,黑色为测试人员的回复。
2. 基于规则的方法——Parry
- Parry是第一个通过了图灵测试的系统,但这并不意味着其达到了人类智能水平,只能说在特定领域能够达到人类水平。 事实上,心理学家无法区分Parry与一个偏执型精神分裂症患者。
- 相比于Eliza,Parry最大的特点在于加入了情感变量(恐惧、愤怒和不信任)与人设,使得Parry的回复会随着对话的进行发生情感上的明显变化。
- Parry的表现如下。
- 这是Eliza与Parry的对话情况。黑色的是Eliza,绿色的是Parry。
nlp知识点总结(下)相关推荐
- 神经网络与机器学习 笔记—基本知识点(下)
神经网络与机器学习 笔记-基本知识点(下) 0.1 网络结构: 神经网络中神经元的构造方式与用于训练网络的学习算法有着密切的联系,有三种基本的网络结构: 0.7 知识表示 ...
- 【C++】-- C++11基础常用知识点(下)
上篇: [C++]-- C++11基础常用知识点(上)_川入的博客-CSDN博客 目录 新的类功能 默认成员函数 可变参数模板 可变参数 可变参数模板 empalce lambda表达式 C++98中 ...
- 概率论与数理统计 | 知识点总结(下)
参考资料 最大似然估计例题 何书元<概率论与数理统计> 6. 描述性统计 统计学的做法分为两种: 描述性统计: 从数据样本中计算一些平均值.标准差.最小值.最大值等概括 统计量, 画直方图 ...
- nlp知识点总结(上)
壹:语料库 一.什么是语料库 1. 定义 语料库(corpus)一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记. 2. 种类 共时语料库与历时语料库. 通用语料库与专用语料库.一般把抽 ...
- 多线程的相关知识点(下)
多线程的相关知识点 12.死锁 死锁的四个条件: 互斥: 资源x在任意时刻只能被一个线程持有 占有且等待: 线程1占有资源x的同时等待资源y,并不释放x 不可抢占: 资源x一旦被线程1占有后,其他线程 ...
- nlp知识点总结(中)
陆:句法分析 语言学的不同分支对应了不同的nlp基础技术,词法学对应于自动分词.词性标注等,而句法学对应的是句法分析. 句法(Syntax): 研究语言的句子结构,针对语言学两个基本关系中的组合关系. ...
- 盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳
作者 | 阿里文娱高级开发工程师千起 出品 | AI科技大本营(ID:rgznai100) 背景 随着5G时代来临,新媒体行业快速发展,盗版传播平台多样化.形式多样化,版权方难以通过有限的人力实现最大 ...
- 2021年11月网络规划设计师上午题知识点(下)
21.快速UDP网络连接(QUIC,Quick UDP Internet Connections)协议是由Google 公司提出的实验性网络传输协议.设计该协议目的是改进并最终替代TCP协议. QUI ...
- C 常见的面试知识点(下)
inline 内联函数的特征 相当于把内联函数里面的内容写在调用内联函数处: 相当于不用执行进入函数的步骤,直接执行函数体: 相当于宏,却比宏多了类型检查,真正具有函数特性: 编译器一般不内联包含循环 ...
最新文章
- 只服这篇“神文”:基于老子哲学、相对论的超级人工智能模型
- python爬取动态网页图片_python爬虫之爬取动态加载的图片_百度
- .NET常见线程简介
- 家庭扫地机器人竞争升级 带手臂提供移动服务或是未来方向
- 【体验】感谢朋友雪中送炭寄来的便携示波器,便携示波器开箱体验
- MySQL用户授权(GRANT)
- 企业级nginx服务优化(一)
- python申请内存函数_python进阶用法2 【从帮助函数看python内存申请机制】
- spring源码分析第六天------spring经典面试问题
- c语言程序设计点亮第一个LED,实验2__C语言程序设计及_LED跑马灯实验.ppt
- 重启用reboot后起不来_2021年中国“天眼”开放,美媒记者探访后感叹了……
- 在MVVM模式下,ListBox的Command绑定
- xargs 将标准输入转换成命令行参数
- 原版XP SP3安装程序集成识别SATA的AHCI驱动的解决方法
- 微信小程序云开发--数据库使用
- 高斯win和linux,微软雅黑在 win 和 Linux 下安装使用的对比
- 权威的PHP 5.6、7.0、7.1、7.2、7.3和7.4 php运行效率基准测试
- linux非连续内存,linux高端内存管理之非连续内存区(分配和释放)
- 如何把多个pdf文件合并成一个pdf
- linux 中的rime 输入法 自定义 新世纪五笔输入法
热门文章
- 虚拟机VirtualBox安装Android x86 4.0冰激凌三明治系统
- 听力阈值计算_听力损失如何计算出来的,具体等级的标准是什么?
- 【BZOJ3157/3516】国王奇遇记(数论)
- 操作系统实践 linux命令期末汇总
- 【MySQL报错 HResult=0x80131904】
- Hook:如何高效双向链接不同类型的信息资源?
- gitKraken安装于基本使用
- TCP三次握手过程,如果两次握手会怎么样?
- 探索神经网络三维魔方|MindSpore训练和端侧部署TinyNet
- kivy html5,kivy 使用webview加载网页