任务212:Entity Disambiguation (实体消歧)介绍

小米是公司还是吃的?
苹果是公司还是吃的?


根据左边的上下文找出左边的James Craig到底是右边(1)(2)(3)哪个James Craig

有一个描述库(1)苹果:一种水果(2)苹果:一家公司

(1)问题的句子,实体前找20个词,实体后找20个词,然后用tf-idf
(2)解释整句话使用tf-idf
(3)比较相似度
或者在不同上下文中,计算苹果的词向量,然后计算余弦相似度

任务214:Entity Resolution(实体统一)


一个人有不同的手机,如何知道不同手机是否属于同一个人?——发现组团欺诈
百度和百度有限公司?
同一个地址不同的写法?

任务215:实体统一算法

第一种方法:

第二种方法:
基于规则的方法——通常见于地址、公司名的消歧
定义描述库——利用描述库把同一公司不同表示方法的公司名转化为原型(类似stemming)

第三种方法:监督学习方法
选取实体、实体上下文转化成特征
转化为二分类问题

第四种方法:基于图

任务216:Co-reference Resolution(指代消解)介绍


(1)最简单的方法,离哪个实体近就指代谁
(2)有监督的方法
先打标签(张三,A)——>1
(李四,A)——>0
(张三,B)——>1
(李四,B)——>0
以张三、A为例,张三、张三左边的字符串、张三和A中间的字符串、A、A右边的字符串,全部用来提取特征(所有信息转化为向量的形式)

指代消解本身比较难还没有解决,实体消歧、实体统一比较简单,已经解决的问题

任务217: 什么是句法分析

语言模型:看到前面一系列单词,预测下一个单词

句法树、语法树

任务218: 句法分析的应用

从句法树提取一些特征出来
效果一般,特征太少的时候可以用

任务219: 语法


给定语法(左边),给定句子的情况下,如何生成好的语法树?

原先翻译是中文句子,句法分析成为中文语法树,然后转化为英文语法树,再句法分析转化为英文句子。(缺点是中间需要很多语言学家)

现在直接端到端(中文句子——>英文句子)

任务220: PCFG


PCFG更常用,它考虑了转化的概率,概率可以从训练数据里面计算出来

任务221: 评估语法树

给定语法(PCFG),和一个句子,会生成不同的语法树,如何评判生成树的好坏?
给语法树打分!
Training data人工标记好树结构,统计的方式计算概率

任务222: 寻找最好的树

任务223: CNF Form


dp算法:大问题转化为若干个子问题,子问题里面再选择其中最好的组合

CKY算法:为了控制复杂度,只能转化成两个符号(三个符号不行,一个符号、空都是可以的)

CNF不仅仅包括二值化,CNF比二值化的条件更加严苛
(1)CNF不能出现e(空)
(2)不能出现两个以上的符号
(3)也不能出现一个符号


去掉e,即NP为空,带入原来的规则又创造了一系列的规则

去掉一个符号,S—>VP,可以把S看成VP,创造一系列规则

接下来持续做



总结
CKY必须要符合Binarization,CNF不是必须的

任务224: CKY算法

这里的树向右转了45度

在填写第一行第二列这个格子的时候的时候要同时考虑左下边的fish和people(第一行第一列这个格子、第二行第二列这个格子)
在填写第二行第三列这个格子的时候的时候要同时考虑坐下边的people和fish(第二行第二列这个格子、第三行第三列这个格子)
在填写第三行第四列这个格子的时候的时候要同时考虑坐下边的fish和tanks(第三行第三列这个格子、第四行第四列这个格子)
最后要连乘。。。并且当有两个分支左边一样的时候,考虑概率最大的!

在填写第一行第三列这个格子的时候的时候要同时考虑左下边的fish和people和fish(第一行第一列这个格子、第二行第二列这个格子,第三行第三列这个格子)(考虑上一步转化为同时考虑第一行第二列这个格子、第三行第三列这个格子或者是第二行第三列这个格子、第一行第一列这个格子)。。。

填第一行第四个格子的时候,考虑:
(1)第一行第三列这个格子、第四行第四列这个格子
(2)第一行第一列这个格子、第二行第四列这个格子
(3)第一行第二列这个格子、第三行第四列这个格子


正推过去,反推回来

nlp(贪心学院)——实体消歧、实体统一、指代消解、句法分析相关推荐

  1. 信息抽取之实体消歧,统一

    1.前言 信息抽取相关内容可以参考信息抽取简介 和关系抽取详解 2.实体消歧的本质 如小米,它是一个实体,在有些句子中表示"小米公司",但在某些语句下它表示一种谷物 又比如: 怎么 ...

  2. 知识图谱(五)——实体消歧

    一.任务概述 多样性--同一实体在文本中会有不同的指称.eg:飞人.帮主.老大和MJ都指美国篮球运动员迈克尔·乔丹 歧义性--相同的实体指称在不同的上下文中可以指不同的实体.eg:迈克尔·乔丹指美国篮 ...

  3. 【创新实训】BERT4EL,基于文本相似度的实体消歧实现

    任务描述 现有douban.mtime.maoyan三个来源的电影,包含名称.简介.导演.演员.类型等等属性. 需要相同的电影融合为一个电影条目,其中maoyan数量很少,可以合并到mtime中. 参 ...

  4. 基于VSM的命名实体识别、歧义消解和指代消解

    前面讲述过两篇知识图谱相关的文章,这篇文章主要讲解基于向量空间模型(Vector Space Model)的相关应用,包括命名实体识别.实体消歧和跨文本指代消解:其最终目的是想通过它应用到知识图谱构建 ...

  5. 【工程处理技巧一篇】基于半规则数据的命名实体消歧识别【未完】

    作者:finallyly 出处:博客园(转载请注明作者和出处) 看到这篇文章的标题,您一定会以为此篇博客要讲解一个何等高深的算法.其实不然,本篇博客旨在分享笔者在处理那些繁杂.冗踏.低端甚至于极其TM ...

  6. 实体统一,实体消歧, 指代消解

    指代消解:比较难,目前还没有得到很好的结果.

  7. 命名实体如何进行概念消歧?

    1 引言 命名实体概念消歧是命名实体消歧(英语:Named Entity Disambiguation)的一个重要研究子领域(命名实体概念可见本文3.1章).什么叫概念消歧了?在这里举一个简单例子进行 ...

  8. 文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)

    文章目录 Abstract 1.Introduction 2. 相关工作 2.2 Entity-aware Relation Extraction 3.提出的模型 3.1 Solution Frame ...

  9. 【NLP】一文了解命名实体识别

    导读:从1991年开始,命名实体识别逐渐开始走进人们的视野,在各评测会议的推动下,命名实体识别技术得到了极大地发展,从最初的基于规则和字典的方法,到现在热门的注意力机制.图神经网络等方法,命名实体识别 ...

最新文章

  1. YOLOV4各个创新功能模块技术分析(二)
  2. seq2seq里的数学
  3. 【计算理论】图灵机 ( 非确定性图灵机 | 非确定性图灵机指令分析 | 计算过程 | 非确定性指令出现多个分支 | 非确定性图灵机转为计算树 | 计算树 )
  4. apache 版本_Apache Hudi 0.5.1版本重磅发布
  5. 在远程桌面在目标主机与客户机复制文件?
  6. keepalived+nginx实现nginx的高可用
  7. 信息抽取新SOTA!首个结构化生成式信息抽取预训练模型,一统信息抽取四大任务...
  8. RabbitMQ死信实战(生产者)
  9. const和define 区别
  10. Eclipse 插件开发遇到问题心得总结
  11. mysql5.5怎么升级补丁_mysql 5.5升级到5.7版本操作流程
  12. 【SQL】SQL语法树
  13. 【php数组函数序列】之sort() - 对数组的元素值进行升序排序
  14. Html5的vedio视频播放
  15. feign整合sential_Sentinel 和 Feign 集成时,方法名称写错
  16. 华为这份关于专利的会议纪要,都说了什么?(内含华为十大发明彩蛋)
  17. linux识别罗兰声卡,罗兰系列声卡直播K歌模式调试方法
  18. nmap命令的安装及用法
  19. 结合公司业务后,对极光推送的进一步思考
  20. win10自带c语言编程猫,编程猫教程:编程猫如何做游戏?

热门文章

  1. 雨听|更改移动8元保号套餐
  2. 快速学会!关于Android程序员最近的状况,已拿offer入职
  3. 使用二代数据进行基因survey-01cleandata(持续更新中)
  4. silk lobe资源公众号_优化政务微信公众号实现资源共享
  5. 防窜货PDA扫描程序 APP 出入库扫描打印
  6. 创想Ender3主板接线图,自动调平BL 3d touch如何连接
  7. NB-IoT和eMTC:窄带物联网双子“合”而不同
  8. 基于OpenCV的驾驶员疲劳鉴别系统
  9. AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定
  10. leetcode---二分搜索和BST【2020第一版】