命名实体识别 实体抽取

Named entity recognition is the task of categorizing text into entities, such as people, locations, and dates. For example, for the sentence, On April 30, 1789, George Washington was inaugurated as the first president of the United States , this sentence may be tagged with the following entities:

命名实体识别是将文本分类为实体的任务,例如人物,位置和日期。 例如,对于On April 30, 1789, George Washington was inaugurated as the first president of the United States宣告On April 30, 1789, George Washington was inaugurated as the first president of the United States ,该句子可能带有以下实体标记:

Image from Zach Monge
图片来自Zach Monge

You might be thinking, okay exactly how is this useful? Well, there are many potential uses of named entity recognition, but one is being able to make a database easily searchable. You might be thinking, why would I need to tag entities to make a database easily searchable? Can’t I just use a simple dictionary lookup to exactly match terms? Well, yes, you can, but this is far from ideal and just to show you how ineffective searches can be without named entity recognition, let’s walk through a real life example.

您可能会想,好吧,这到底有什么用? 好的,命名实体识别有许多潜在用途,但是其中一个功能是使数据库易于搜索。 您可能在想,为什么我需要标记实体以使数据库易于搜索? 我不能只使用简单的字典查找来完全匹配术语吗? 是的,可以,但是这远非理想,只是为了向您展示在没有命名实体识别的情况下如何进行无效搜索,让我们来看一个真实的例子。

例 (Example)

Recently I was ordering food at my local grocery store, Weis Markets, and was trying to add to my cart Perdue frozen chicken fingers. So I typed into the search bar:

最近,我在当地的杂货店Weis Markets点菜,并试图将Perdue冷冻鸡手指添加到我的购物车中。 所以我输入了搜索栏:

Weis MarketsWeis Markets

To my disappointment, my search did not yield any results:

令我失望的是,我的搜索没有得到任何结果:

Weis MarketsWeis Markets

At first I thought they may have been out of stock, but after searching for several other items, I kept getting no results. After awhile, I started to suspect that Weis’s search engine was only able to find search terms that almost exactly matched the product label (Note: I do not actually know the machinery behind Weis’s search engine). So I looked up on Google what the chicken fingers I wanted were exactly called and I realized they are called chicken tenders not fingers (of course!). So I typed perdue chicken tenders into the search box and it worked! I was then successfully able to add the chicken fingers to my cart.

起初我以为它们可能没货了,但是在搜索了其他几项之后,我一直没有得到任何结果。 一段时间后,我开始怀疑Weis的搜索引擎只能找到几乎与产品标签完全匹配的搜索词(注意:我实际上并不知道Weis搜索引擎背后的机制)。 因此,我在Google上查到了我想要的鸡手指的确切名称,然后我意识到它们被称为鸡肉而不是手指 (当然!)。 因此,我在搜索框中输入了perdue chicken tenders ,它起作用了! 然后,我成功地将鸡手指添加到购物车中。

Weis MarketsWeis Markets
Weis MarketsWeis Markets

I was happy that I was able to add the chicken fingers to my cart, but this was a lot of work to just find one item and I had this same issue with several other items. This made Weis’s online shopping almost unusable! Since then I have not purchased groceries online from this store — it’s just too much work.

我很高兴能够将鸡爪添加到购物车中,但是要找到一个项目却需要很多工作,而其他几个项目也遇到了同样的问题。 这使得Weis的在线购物几乎无法使用! 从那以后,我再也没有从这家商店在线购买杂货了-太累了。

解决方案 (The Solution)

Fortunately for Weis Market, there is a somewhat easy fix to their search engine issue and that is to use named entity recognition. With named entity recognition, the search engine should automatically tag each of the entities. For example, when I typed in perdue chicken fingers it should have tagged Perdue as the brand and chicken fingers as chicken tender (I am not not an expert in food categories, so I do not actually know if chicken tender would be a useful category).

幸运的是,对于Weis Market而言,可以轻松解决其搜索引擎问题,即使用命名实体识别。 使用命名实体识别,搜索引擎应自动标记每个实体。 例如,当我键入perdue chicken fingers ,应该将Perdue标记为品牌,并且将chicken fingers标记为鸡嫩(我不是食品类别的专家,所以我实际上不知道鸡嫩是否会是有用的类别) 。

Image from Zach Monge
图片来自Zach Monge

Then, this would search through a database, where each item has been previously tagged. So the actual chicken fingers I wanted may have been previously tagged with the following categories: brand=Perdue; food=chicken tender; frozen, fresh, canned: frozen.

然后,这将在数据库中进行搜索,每个项目之前都已在其中进行了标记。 因此,我之前想要的实际鸡手指可能以前被标记了以下类别: brand = Perdue; 食物 =鸡肉嫩; 冷冻,新鲜,罐头 :冷冻。

Image from Zach Monge
图片来自Zach Monge

With the use of these entities and a structured database, my search for perdue chicken fingers would have matched Perdue as the brand and chicken tender as the food and would likely have included the chicken fingers I wanted in my search results.

通过使用这些实体和结构化的数据库,我对perdue chicken fingers搜索将与Perdue作为品牌,而将chicken tender作为食品,并且可能将我想要的鸡手指包括在搜索结果中。

结论 (Conclusions)

So as you can see, named entity recognition can be extremely useful and is almost essential for some products. You can imagine all the possible other uses besides creating a search engine for a grocery store (e.g., recommending similar online articles based upon tagged entities, creating an easily searchable database of interview transcripts, etc.). Something I have not mentioned in this post is the machine learning approaches that may be used to actually conduct the named entity recognition task (in the example, the task of tagging entities in the search perdue chicken fingers). This is the first installment of a series of blog posts about named entity recognition and the next post will go more into the technical details. Lastly, if you think your company may benefit from named entity recognition, feel free to reach out to me — my contact information may be found on my website.

如您所见,命名实体识别可能非常有用,并且对于某些产品几乎是必不可少的。 您可以想象除了为杂货店创建搜索引擎之外,所有其他可能的用途(例如,基于标记的实体推荐类似的在线文章,创建易于搜索的采访记录数据库等)。 我在这篇文章中没有提到的是机器学习方法,可用于实际执行命名实体识别任务(在本示例中,是在搜索perdue chicken fingers中标记实体的任务)。 这是有关命名实体识别的一系列博客文章的第一部分,下一篇文章将进一步介绍技术细节。 最后,如果您认为您的公司可以从命名实体的认可中受益,请随时与我联系-我的联系信息可以在我的网站上找到 。

翻译自: https://towardsdatascience.com/why-your-company-should-care-about-named-entity-recognition-e00de2f45700

命名实体识别 实体抽取


http://www.taodudu.cc/news/show-863873.html

相关文章:

  • 机器学习 异常值检测_异常值是否会破坏您的机器学习预测? 寻找最佳解决方案
  • yolov3算法优点缺点_优点缺点
  • 主成分分析具体解释_主成分分析-现在用您自己的术语解释
  • netflix 数据科学家_数据科学和机器学习在Netflix中的应用
  • python画交互式地图_使用Python构建交互式地图-入门指南
  • 大疆 机器学习 实习生_我们的数据科学机器人实习生
  • ai人工智能的本质和未来_人工智能的未来在于模型压缩
  • tableau使用_使用Tableau探索墨尔本房地产市场
  • 谷歌云请更正这张卡片的信息_如何识别和更正Google Analytics(分析)报告中的(未设置)值
  • 科技情报研究所工资_我们所说的情报是什么?
  • 手语识别_使用深度学习进行手语识别
  • 数据科学的5种基本的面向业务的批判性思维技能
  • 大数据技术 学习之旅_数据-数据科学之旅的起点
  • 编写分段函数子函数_编写自己的函数
  • 打破学习的玻璃墙_打破Google背后的创新深度学习
  • 向量 矩阵 张量_张量,矩阵和向量有什么区别?
  • monk js_使用Monk AI进行手语分类
  • 辍学的名人_辍学效果如此出色的5个观点
  • 强化学习-动态规划_强化学习-第5部分
  • 查看-增强会话_会话式人工智能-关键技术和挑战-第2部分
  • 我从未看过荒原写作背景_您从未听说过的最佳数据科学认证
  • nlp算法文本向量化_NLP中的标记化算法概述
  • 数据科学与大数据排名思考题_排名前5位的数据科学课程
  • 《成为一名机器学习工程师》_如何在2020年成为机器学习工程师
  • 打开应用蜂窝移动数据就关闭_基于移动应用行为数据的客户流失预测
  • 端到端机器学习_端到端机器学习项目:评论分类
  • python 数据科学书籍_您必须在2020年阅读的数据科学书籍
  • ai人工智能收入_人工智能促进收入增长:使用ML推动更有价值的定价
  • 泰坦尼克数据集预测分析_探索性数据分析—以泰坦尼克号数据集为例(第1部分)
  • ml回归_ML中的分类和回归是什么?

命名实体识别 实体抽取_您的公司为什么要关心命名实体的识别相关推荐

  1. python识别中文人名_使用Python在NLP中的命名实体识别中提取人名

    我有一句话,我需要单独识别人名: 例如: sentence = "Larry Page is an American business magnate and computer scient ...

  2. 开发物体识别桌、_科研人员开发突破性的技术,允许盲人识别形状和物体

    一项令人难以置信的新技术正在让失明人士有能力识别形状和物体,而这些形状和物体都是在他们的大脑上"画出来"的.一篇描述该技术的研究论文刚刚发表在<细胞>杂志上,正如Sci ...

  3. 命名时取代基优先顺序_有机化学专题讲解——有机化合物的命名

    点击上方蓝字关注下呗 本期引言 有机化合物的命名 ☑回复"有机化学群"带你直达友军部队☑回复"真题"获取考研真题 有机化合物的命名 一.系统命名法 系统命名的基 ...

  4. python人脸识别解锁电脑_给你的电脑做个简单的“人脸识别认证”

    原标题:给你的电脑做个简单的"人脸识别认证" Simple "Face ID" for your PC 作者 | German Gensetskiy 翻译 | ...

  5. 用python实现人脸识别输出画像_这个是利用OpenCV TensorFlow来实现图片人脸识别

    安装 dlib dlib 是一个基于 C++ 编写的扩展库,包含有许多常用的机器学习算法以及图像处理函数. 并且还支持大量的数值计算,如矩阵.大整数随机运算等. 但是在编译安装 dlib 之前我们还需 ...

  6. 嘀嗒出行能识别手机卡吗_面具竟然能替代人脸解锁手机!人脸识别还安全吗?|人脸识别|手机|面具|人脸识别系统...

    最近,一个"面具可以替代人脸解锁手机的科学测试"再次引起人们对人脸识别技术安全性的忧虑.测试中,科研人员先将手机放置在一个三脚架上,再在手机对面放上面具,然后进行光线.色温以及角度 ...

  7. 苹果x人脸识别突然失灵_面具竟然能替代人脸解锁手机!人脸识别还安全吗?...

    最近,一个"面具可以替代人脸解锁手机的科学测试"再次引起人们对人脸识别技术安全性的忧虑.测试中,科研人员先将手机放置在一个三脚架上,再在手机对面放上面具,然后进行光线.色温以及角度 ...

  8. xmlstreamexception 参数实体未进行声明_命名实体识别研究进展概述

    Future丨Intelligence丨Nutrition丨Energy 让阅读成为习惯,让灵魂拥有温度 点击关注PKUFineLab  一起进步 命名实体识别研究进展概述 命名实体识别任务旨在从自然 ...

  9. python爬取电子病历_一种基于中文电子病历的实体识别方法技术

    本发明专利技术提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域.针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明专利技术通过构建整理医学词典,提出了一种半自动语料库标注方法, ...

最新文章

  1. Django高级管理静态文件和中间件5.1
  2. 一通骚操作,我把SQL执行效率提高了10000000倍!
  3. Java 关于File使用
  4. SLAM方向公众号、知乎、博客学习参考
  5. 面向消费者的自动文本分析(Automated Text Analysis for Consumer Research) 2017 JCR 论文阅读
  6. 微软集成 Edge 开发者工具到 Visual Studio ,工具迎来“大换血”?
  7. 未来 10 年的科技圈,将会因这 10 项技术而颠覆!
  8. oracle安装无响应,求教 pl/sql连接本机数据库是未响应问题
  9. 数据库系统概念第6版第三章答案
  10. 爱加密加固病毒分析-破解篇
  11. BPNN-Belief Propagation Neural Networks
  12. 计算机类课题研究方法,课题研究方法
  13. 支持向量机:Duality
  14. 1997年世界编程大赛一等奖作品(分享)
  15. php strtotime 2038 时间戳,PHP的strtotime计算2038年以上日期的时间戳错误
  16. 实现对绝对地址赋值详解实现绝对地址开始执行程序详解
  17. 如何用Matlab做一个3D头像
  18. 搜索引擎免费登录入口大全(转)
  19. SF超高速FTP搜索引擎(哈尔滨工业大学)
  20. 本科毕业生入户广州需要的材料清单

热门文章

  1. Packer创建阿里云本地镜像
  2. 浅谈C#中一种类插件系统编写的简单方法(插件间、插件宿主间本身不需要通信)...
  3. 基于RBAC的权限设计模型
  4. Ajax/CSS表格设计汇集
  5. 白盒测试基本路径生成工具_基于基本最短路径列生成的车辆路径问题
  6. oracle or 循环 查询,Oracle的循环和Corsor
  7. 华为鸿蒙升级了,鸿蒙系统暂缓升级,但从火爆程度来看,华为基本成了!
  8. c++ 数字后加f_c.4 计算摄氏温度
  9. 阿米洛无法打开蓝牙模式_企业为什么要学习阿米巴模式?
  10. 深度学习之卷积神经网络(3)卷积层实现