类似于人名/地名/组织机构名的命名体识别数据集,资源标注了大约10000条视频/音乐/书籍数据。数据的意义希冀能够基于此训练NLP模型识别句子中的视频/音乐/书籍等名称信息.

资源整理自网络,源地址:https://github.com/LG-1/video_music_book_datasets

   标注数据下载地址:

https://github.com/LG-1/video_music_book_datasets/tree/master/data

数据的标注过程:

1、先纯手动提取标记了一部分(大约5000条),基于标注数据训练一个base模型,基于base模型重新审视校正标注数据.

2、基于校正后的数据再训练一个模型,基于模型标注了另外约5000条数据.并对数据进行人工审核校验.

最终数据集包含9632条数据.

理论上来说,任务也会是标准的NER任务.

难点:同一个名称可能是书籍也可能是视频(电视电影可能是由小说改编而来,有些场景关注书籍,另外一些可能关注视频),有些句子则只是提供了一长串并列的名称,可能没有更多的辅助信息;

    示例:

放暑假了,最近剧荒,陈情令也才一个星期更新三次,根本不够看,问问大家有什么好看的电视剧或电影推荐吗?最好是那种搞笑,温暖的那种,日剧也可以,好像道骏枝佑的剧还不错!

    label: 陈情令/video

    最近有没有好看的电视剧推荐,国内国外的都可以,前两天再追少年派,但剧情走向越来越扯,非常想给编剧寄刀片,现在想看些正常三观的剧,大家有没有推荐哒?

    label: 少年派/video

    最近有些剧荒啊,有什么好看的电视剧或者电影可以推荐么?我看的也比较杂,权力的游戏,黑色止血钳,最近看的韩剧囚犯医生是大爱啊,类似这种类型的可以给我推荐一些么?

    label: 权力的游戏/video黑色止血钳/video囚犯医生/video

    我个人比较喜欢听古风歌曲,然后呢,我歌单里面可以给你推荐几首,归去来兮琵琶行清明上河图好可以去试着搜索一些古装剧的主题曲或者插曲

    label: 归去来兮/music琵琶行/music清明上河图好/music

    不知道你喜欢什么类型的小说,最近在看十宗罪,悬疑烧脑类的,讲述的是公安部门打击违法犯罪的故事,现在已经出到第六部了,估计够你看一个月了。大冰写的书也可以尝试看一下,文艺小清新类型的

    label: 十宗罪/book

最终提供的数据集转换成了标准的BIO标注格式,欢迎尝试使用。

往期精品内容推荐

波士顿动力最强新秀体操型Atlas机器人

NeurIPS-2019接收论文最全列表(1429)

文本生成公开数据集/开源工具/经典论文详细列表分享

基于GPT-2和百万源码训练实现全语言编程自动补全

深度学习-机器学习从入门到深入全套资源分享

深度神经网络压缩和加速相关最全资源分享

Graph Neural Network(GNN)最全资源整理分享

深度学习基础系列之2019深度学习暑期课程视频分享(中英字幕)

斯坦福NLP组-CS224n: NLP与深度学习-2019春全套资料分享

最全中文自然语言处理数据集、平台和工具整理

元学习(Meta Learning)最全论文、视频、书籍资源整理

10000条“视频/音乐/书籍数据”命名实体识别标记数据分享相关推荐

  1. NLP命名实体识别NER数据准备及模型训练实例

    NLP命名实体识别NER数据准备及模型训练实例 目录 NLP命名实体识别NER数据准备及模型训练实例 ​ 方案一

  2. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  3. 自然语言处理之——词性标注和命名实体识别

    1. 摘要 基于上次分享的分词技术介绍,本次继续分享在分词后与词相关联的两个技术:词性标注和命名实体识别.词性是词汇基本的语法属性,也可以称为词类.词性标注的行为就是在给定的中文句子中判定每个词的语法 ...

  4. 命名实体识别入门教程(必看)

    关于开发自己的命名实体识别先期思路: 虽然网上有很多相关代码,但实际如何入门材料较少,故整理下: CRF:先期可以用人民日报语料库去做,步骤如下: https://blog.csdn.net/hude ...

  5. 【NLP-NER】什么是命名实体识别?

    命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务.NER是信息提取.问答系统.句法分析.机器翻译等众多NLP任务的重要基础工具. 命名实体识别的准确 ...

  6. 命名实体识别以及词性自动标注

    一.命名实体识别 大数据风靡的今天,不从里面挖出点有用的信息都不好意思见人,人工智能号称跨过奇点,统霸世界,从一句话里都识别不出一个命名实体?不会的,让我们大话自然语言处理的囊中取物,看看怎么样能让计 ...

  7. 【AdaSeq基础】30+NER数据汇总,涉及多行业、多模态命名实体识别数据集收集

    简介 命名实体识别NER是NLP基础任务,一直以来受到学术界和业界的广泛关注,本文汇总了常见的中英文.多语言.多模态NER数据集介绍. 相关数据详情可以访问链接: https://github.com ...

  8. 2.文本预处理(分词,命名实体识别和词性标注,one-hot,word2vec,word embedding,文本数据分析,文本特征处理,文本数据增强)

    文章目录 1.1 认识文本预处理 文本预处理及其作用 文本预处理中包含的主要环节 文本处理的基本方法 文本张量表示方法 文本语料的数据分析 文本特征处理 数据增强方法 重要说明 1.2 文本处理的基本 ...

  9. [Python人工智能] 二十六.基于BiLSTM-CRF的医学命名实体识别研究(上)数据预处理

    这篇文章写得很冗余,但是我相信你如果真的看完,并且按照我的代码和逻辑进行分析,对您以后的数据预处理和命名实体识别都有帮助,只有真正对这些复杂的文本进行NLP处理后,您才能适应更多的真实环境,坚持!毕竟 ...

最新文章

  1. 2021年大数据Spark(四十一):SparkStreaming实战案例六 自定义输出 foreachRDD
  2. LeetCode刷题记录10——434. Number of Segments in a String(easy)
  3. 内部使用final参数的原因
  4. 【Eclipse】Java Compiler没有Annotaion Processing, 需要安装Eclipse Java Development Tools
  5. 第十节: 利用SQLServer实现Quartz的持久化和双机热备的集群模式 :
  6. AI算法岗为什么都要求C++?
  7. Mysql的MVCC是什么
  8. Pycharm使用os.system()执行cmd代码出现乱码的问题
  9. VMware端口映射
  10. c语言et1tr1怎么用,TMOD=0x11;ET0=1;TR0=0;ET1=1;TR1=0;EA=1;这是什么意思啊??谢谢啦
  11. 访问页面出错:The requested URL / was not found on this server. 网站打开出现404
  12. python栈是什么意思_Python算法之栈(stack)的实现
  13. mysql 法语字符比较_法语词典哪种比较好?
  14. 【算法详解-数学】(1)φ的基本知识
  15. matlab axisxy行列关系,在matlab中axis是什么意思
  16. logistic回归的一些直观理解(1.连接函数 logit probit)
  17. lisp边长注记,求一个标注断开的lisp 和标注合并
  18. 基于Carsim和Simulink的SIL软件在环仿真验证
  19. vscode:格式化json
  20. 【Unity实战100例】Unity自定义修改按键功能

热门文章

  1. linux下udp丢包和传输延迟,如何测试UDP数据包的丢包率和延迟
  2. 什么是 OOM, 为什么会 OOM 及一些解决方法
  3. Gorm之Tag标签用法详解
  4. Linux游戏<帝国时代(O.A.D)>汉化教程
  5. 如何构建内部开发者门户:企业参考指南
  6. 导航小车利用laser_scan_matcher实现建图
  7. javaScript中的map对象
  8. c 语言中整除的意义,整数和整除意义.doc
  9. 磁盘 扇区 柱面 linux,磁盘的基本知识:磁道、柱面和扇区
  10. 八大人气运动 时尚MM必练