DBLP 下载网站:
https://www.aminer.cn/citation

DBLP-Citation-network V13版本

5,354,309        #paper
48,227,950    #Citation Relationship
DBLP+Citation [2021-05-14]

解压得到json文件

由于python的json包只能处理字符串,所以需要对原始数据集的所有数据转成字符串

图中year的value非字符串类型

处理代码如下:

import redef readChunk(path,out_path,chunk_size=1024*1024*100):chunk_count=0with open(path,'r',encoding='utf-8') as fp:while True:chunk=fp.read(chunk_size) #读取一个chunk的数据############################################处理,写入新文件with open(out_path,'a',encoding='utf-8') as fo:#回调函数repldef repl(m):return (m.group(1).replace('NumberInt(', '"') + m.group(2) + m.group(3).replace(')', '"'))#中间部分的数字不需要替换pattern = re.compile(r"(NumberInt[(])(\d+)([)])")result=re.sub(pattern, repl, chunk)fo.write(result)chunk_count+=1if not chunk:breakreturn chunk_countpath=r'D:\ZHW-FILE\dblp.v13\dbpl-test.json'
out_path=r'D:\ZHW-FILE\dblp.v13\dbpl-test.json-new.json'
chunk_count=readChunk(path,out_path,chunk_size=1024*1024*200)
print('dblp processing finished')
print('chunk_count',chunk_count)

其中 path设置为dblp数据集的路径,out_path为处理完的dblp数据集。

处理完之后还不行,在使用python json包后还是报错,报错原因为文件的83576699行18列出现非字符串类型。使用EmEditor文本编辑器定位。发现错误,修改保存。

获取2010-2021年份的数据集

# 数据路径
import json
path = r"D:\ZHW-FILE\dblp.v13\dblpv13_new.json"
outpath=r'D:\ZHW-FILE\dblp.v13\dblpv13_new(2010-2021).json'# 读取文件数据
with open(path, "r",encoding='utf-8') as f:row_data = json.load(f)
print('加载dblp数据完毕')# 读取每一条json数据,保存在data_list
data_list=[]
for d in row_data:if 'year' in d:if int(d['year'])>=2010:data_list.append(d)else:print('find a data no have year')print(d)with open(outpath, 'w',encoding='utf-8') as fw:json.dump(data_list, fw)print('写入dblp数据(2010-2021)完毕')

path为上一步修改后的V13数据集,outpath为自定义保存的路径。

读取指定年份json文件

import jsonpath = r"D:\ZHW-FILE\dblp.v13\dblpv13_new(2010-2021).json"
with open(path, 'r', encoding='utf-8') as f:dicts = json.load(f)print('total paper numbers= ',len(dicts))

异质引文网络DBLP数据集(from AMiner)相关推荐

  1. 图网络常用数据集总结——Cora, CiteSeer, PubMed, PPI, BlogCatalog, Yelp

    Cora数据集(引文网络)由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集.该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个类别,类别分别是: 1)基于案例:2)遗 ...

  2. DBLP数据集简介及简单用法

    前一段时间利用大名鼎鼎的DBLP数据集做关于论文合作关系推荐的实验,感觉确实是一个非常不错的数据集,可挖掘的东西很多很多,在此对DBLP及其用法做一个简单介绍. 简介 DBLP--Digital Bi ...

  3. 【知识网络分析】引文网络(citation)

    引文网络(citation) 1 读取本地文献并构建引文网络数据集 2 网络数据集精简 3 剔除孤立点方法封装 4 网络图美化 5 社团群体划分并结合色谱图显示 6 网络节点中心度相关指标计算 1 读 ...

  4. 搭建SGC实现引文网络节点预测(PyTorch+PyG)

    目录 前言 数据集 模型实现 PyTorch实现 PyG实现 实验结果 完整代码 前言 SGC的原理比较简单,具体请见:ICML 2019 | SGC:简单图卷积网络 数据集 数据集采用节点分类常用的 ...

  5. DBLP数据集用weka数据挖掘 xml转csv格式文件

    DBLP数据集用weka数据挖掘 xml转csv格式文件 写在前面 xml转csv格式文件 数据预处理 weka数据挖掘 写在前面 之前做了中国科学院大学的一门研讨课<数据挖掘技术与应用> ...

  6. python:文献引文网络构建——基于web of science

    除了文献内容的文本特征外,文献之间的引文关系也是判断它们之间相似度的重要依据. 观察WOS中下载数据中的CR字段,是每篇文献的参考文献情况: 从图中可以看出,WOS是通过文献的DOI来标注参考文献的, ...

  7. weka dblp数据集挖掘

    weka dblp数据集挖掘) 任务描述:DBLP数据集作者关系挖掘 DBLP数据集是一个XML格式文件,这里可以下载压缩数据集 18年11月数据包大小约为2g,txt打不开这么大的文件,想看的话可以 ...

  8. 网络安全相关数据集下载

    网络安全相关数据集介绍与下载 原创 Asia-Lee 发布于2018-11-20 09:45:19 阅读数 3269 收藏 更新于2019-07-06 22:04:42 分类专栏: 网络安全 版权声明 ...

  9. pytorch基于GAN生成对抗网络的数据集扩充

    文章目录 前言 一.GAN基本原理 1.结构图 2.目标函数 二.实现 1.实现流程图 2.实例 2.1采集少量原始数据 2.2GAN模型训练(注意修改图片路径) 2.3用训练好的模型扩充数据集(生成 ...

最新文章

  1. 使用动态内表——ALV输出
  2. Linux有待完善的小缺陷的累记
  3. Java语言程序设计基础篇 循环(四)练习
  4. css3宽度变大动画_【动画演示】流量计的工作原理,真涨见识!
  5. Linux 命令(87)—— tail 命令
  6. 【Oracle19C】数据库基本知识
  7. matlab 读取odb,求教用C++方式读取abaqus的odb数据中的问题!!!
  8. 怎样任意裁剪图片?如何快速改变图片形状?
  9. VBA-保存指定工作表为工作簿文件
  10. 《工业控制系统信息安全防护指南》实施建议(下)
  11. 通过Mixamo生成人物动画并导入Unity实现资源可用的方法
  12. 直播推流方案及过程分解
  13. barcode4j CODE128/EAN128生成 不定长 msg值 分隔符
  14. 为什么在牛市入市,反而会亏钱?
  15. 对话|鲜丰水果:“看不见”的门店数字化
  16. [经验技巧] 小米路由器mini锐捷认证 (更新:解决无法自启问题)
  17. PIC单片机驱动LCD断码屏代码生成工具
  18. zabbix企业级实战笔记(原创)
  19. swagger2 介绍+注解说明
  20. SunnyWeather项目总结

热门文章

  1. javascritp 实现 带chekcbox功能的下拉框
  2. innerHtml和innerText
  3. 玖章算术荣获信通院“生成式人工智能技术和应用优秀案例”奖
  4. 函数formatDatetime的使用及说明
  5. CSS 背景-CSS background
  6. PLSQL 连接远程数据库,ORA-12638: 身份证明检索失败的解决方法
  7. html、aps网页设计,Dreamweaver8通过IIS建立站点对网页进行预览,设置详细方法
  8. 我的朗科运维第六课(2)
  9. linux的which命令
  10. Android阵营苹果,安卓党转苹果阵营:第一次使用iPhone要注意哪些问题