我们下载的是train-v1.1.json.
用json打开
data=json.load(open(train-v1.1.json))

data是一个dict,长度是2,key是"data"和"version".
数据全在data[“data”]中
data[“data”]是一个长度为442的list,每一个元素是一个dict.
我们来看第一个元素:data[“data”][0]
这是一个dict,key是"title"和"paragraphs".
也就是说data[“data”]中每一个元素是一篇文章,用字典表示,文章的标题对应的key是title,文章中的所有段落用"paragraphs"表示.

paragraphs=data[“data”][0][“paragraphs”]

paragraphs是一个list,每一个元素代表这篇文章的一个段落,用一个dict表示,key是"context"和"qas".显然当前段落的文本就是"context"对应的字符串,而"qas"则是针对这个段落文本提出的问题和正确的答案。
question_and_answers=data[“data”][0][“paragraphs”][0][“qas”]
question_and_answers是整个数据集中所有段落的第一个段落的问题和答案。是一个list。每一个元素是一个dict。

如图,每一个元素表示的就是答案,问题,以及问题编号。答案中给出了答案的起始位置和答案的文本字符串。

下面用ppt画了一个草图

我们要的数据包括context,这代表一个段落,而对于这个段落会有几个问题和对应的答案,所以还需要question和text以及answer start,text就是question的答案。这个数据集好像一个question只有一个答案。

下面的数据处理代码希望帮助您理解

data=json.load(open("train-v1.1.json"))["data"]
result=[]
for each_article in data:assert type(each_article)==dict and list(each_article.keys())==["title","paragraphs"]paragraphs=each_article["paragraphs"]assert type(paragraphs)==listfor each_paragraph in paragraphs:assert type(each_paragraph)==dict and list(each_paragraph.keys())==["context","qas"]context=each_paragraph["context"]#tokens_list=word_tokenize(context)qas=each_paragraph["qas"]assert type(qas)==listfor each_qas in qas:assert type(each_qas)==dict and list(each_qas.keys())==["answers","question","id"]qa_id=each_qas["id"]question=each_qas["question"]answers=each_qas["answers"]assert type(answers)==listfor each_answer in answers:assert type(each_answer)==dict and list(each_answer.keys())==["answer_start","text"]answer=each_answer["text"]s_idx=each_answer["answer_start"]e_idx=s_idx+len(answer)result.append({"id":qa_id,"context":context,"question":question,"answer":answer,"s_idx":s_idx,"e_idx":e_idx})

result中的字段除了id外其余的就是我们训练需要的字段

SQuAD-1.1数据集介绍相关推荐

  1. NLP-阅读理解:数据集介绍及预处理【SQuAD、DuReader】

    一.SQuAD数据集 二.DuReader数据集 1.DuReader数据集介绍 DuReader,从名字(Du和Reader)就可以看出来,是百度整理出来的阅读理解数据集. DuRader数据集由一 ...

  2. K-近邻算法之案例:鸢尾花种类预测--数据集介绍

    K-近邻算法之案例:鸢尾花种类预测--数据集介绍 本实验介绍了使用Python进行机器学习的一些基本概念. 在本案例中,将使用K-Nearest Neighbor(KNN)算法对鸢尾花的种类进行分类, ...

  3. 深度学习常用数据集介绍

    数据集大全 数据集大全 介绍 目前接触到的数据集 1. [MNIST](http://yann.lecun.com/exdb/mnist/) 2. [CIFAR-10 / CIFAR-100](htt ...

  4. 【知识星球】数据集板块重磅发布,海量数据集介绍与下载

    有三AI知识星球的"数据集板块"正式上线,提供数据集介绍,论文下载,数据集下载3大功能,那些因为网速问题,因为需要签license的蛋疼问题,从此不再成为问题! 有三AI知识星球- ...

  5. OHSUMED数据集介绍

    1. OHSUMED数据集介绍 本实验中采用OHSUMED测试数据集合(其也被用于第9 届国际文本检索竞赛TREC9 的文档过滤子竞赛).OHSUMED 数据集合由William Hersh和他的同事 ...

  6. GCN(一)数据集介绍

    1.数据集介绍 1.1 数据集概述 Cora数据集由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.在数据集中,论文分为以下七类之一: 基于案例 遗传算法 神经网络 概率方法 强化学习 规则学 ...

  7. camvid数据集介绍_深度学习图像数据集介绍(MSCOCO)

    深度学习图像数据集介绍(MSCOCO) MSCOCO数据集是微软开发维护的大型图像数据集,次数聚集的任务包括识别(recognition),分割(segementation),及检测(detectio ...

  8. Imdb影评的数据集介绍与下载

    1. Imdb影评的数据集介绍 这是用于二分类情感分类的数据集,其包含的数据比以前的基准数据集要多得多. 我们提供了25,000电影评论用于训练,而25,000条电影评论用于测试. 也有其他未标记的数 ...

  9. 多目标跟踪数据集 :mot16、mot17数据集介绍

    文章目录 MOT16 数据集 MOT17数据集介绍 多目标跟踪数据集 MOT16 .MOT1数据集介绍: MOT16 数据集 数据集百度网分享: 点击此处 提取码: miao 文件格式: 解压MOT1 ...

  10. 语义分割之VOC2012、Cityscapes数据集介绍

    PASCAL-VOC2012 PASCAL-VOC2012数据集介绍官网: 参考 数据集下载地址:http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCt ...

最新文章

  1. python使用什么注释语句和运算-python 闯关之路一(语法基础)
  2. sqlplus 远程连接 oracle 12514 错误
  3. 【学习笔记】15、标准数据类型—集合
  4. SharePoint三个主要数据库
  5. 专题:区块链与数据共享(上)
  6. 复练-软考网规-虚拟化专题
  7. linux rhel5.6 使用163yum源
  8. Python学习杂记_2_格式化字符串的一些操作
  9. 纳加服务器授权文件,VJSAC(纳加VJMS3服务管理终端)
  10. Parallels Toolbox for mac(万能工具箱)中文版
  11. Excel如何对比两列数据
  12. 浅谈聚合支付系统的安全性
  13. 基于Eclipse+Java Swing + Mysql图书管理系统
  14. 中规中矩的linux安装jdk 1.8
  15. 系统思考正反馈之马太效应
  16. linux系统盘的概念,了解linux系统硬盘分区概念-SELinux入门-linux网卡配置及参数学习_169IT.COM...
  17. meta20 无法安装 google play_酷安最新版app-酷安最新版apk下载安装v10.5
  18. 2018 年,做平凡世界里的超人
  19. 如何在同一窗口打开多个终端并实现快捷键切换
  20. python推荐系统算法朴素贝叶斯_朴素贝叶斯算法在人才盘点中的应用(之一)

热门文章

  1. flutter 值得推荐的插件
  2. HTML+JS樱花飘落特效+鼠标点击特效
  3. Java基础小白入门教程-----百知教育java基础学习1---胡鑫喆
  4. 如何在Android 11 中正确请求位置权限?以及Android 8 - 11位置权限的变化及适配方法!
  5. python教程07-while语句的基本使用、for...in循环的使用、break与continue、打印矩形三角形九九乘法表、基础题、进阶题
  6. ESP32S2 固件烧录需满足的硬件环境整理
  7. 是个有趣的实验(10 interesting experiments)
  8. 琴弦发声原理【matlab调音_3】
  9. 生态 | 南大通用与安超云完成兼容互认证 携手助力国家网络安全发展
  10. 消防标识线是什么颜色?消防标志和标牌有什么设置要求?