文 | 灵犀一指

本文从图网络的现有论文中梳理出了目前图网络被应用最多的数据集,主要有三大类,分别是引文网络、社交网络和生物化学图结构,分类参考了论文《A Comprehensive Survey on Graph Neural Networks》。(结尾附数据集下载链接)

1.引文网络(Cora、PubMed、Citeseer)

引文网络,顾名思义就是由论文和他们的关系构成的网络,这些关系包括例如引用关系、共同的作者等,具有天然的图结构,数据集的任务一般是论文的分类和连接的预测,比较流行的数据集有三个,分别是Cora、PubMed、Citeseer,它们的组成情况如图1所示,Nodes也就是数据集的论文数量,features是每篇论文的特征,数据集中有一个包含多个单词的词汇表,去除了出现频率小于10的词,但是不进行编码,论文的属性是由一串二进制码构成,只用0和1表示该论文有无这个词汇。

图1:引文网络流行数据集及其组成结构

文件构成

以cora数据集为例,数据集包含两个文件,cora.cites和cora.content,cora.cites文件中的数据如下:

即原论文和引用的论文,刚好构成了一条天然的边,cora.content文件的数据如下:

+

有论文id、上面说到的二进制码和论文对应的类别组成,其余两个数据集类似。

2.社交网络(BlogCatalog、Reddit、Epinions)

图2:社交网络示例图

BlogCatalog数据集是一个社会关系网络,图是由博主和他(她)的社会关系(比如好友)组成,labels是博主的兴趣爱好。Reddit数据集是由来自Reddit论坛的帖子组成,如果两个帖子被同一人评论,那么在构图的时候,就认为这两个帖子是相关联的,labels就是每个帖子对应的社区分类。Epinions是一个从一个在线商品评论网站收集的多图数据集,里面包含了多种关系,比如评论者对于另一个评论者的态度(信任/不信任),以及评论者对商品的评级。

文件构成

BlogCatalog数据集的结点数为10312,边条数为333983,label维度为39,数据集包含两个文件:

Nodes.csv:以字典的形式存储用户的信息,但是只包含节点id。

Edges.csv:存储博主的社交网络(好友等),以此来构图。

Epinions数据集包含文件如下:

Ratings_data.txt:包含用户对于一件物品的评级,文件中每一行的结构为user_id

item_id rating_value。

Trust_data.txt:存储了用户对其他用户的信任状态,存储方式为source_user_id

target_user_id trust_statement_value,其中信任状态只有信任和不信任(1、0)。

由于Reddit comments 数据集的文件太多,所以这里略过了,如果需要或者感兴趣的话,可以从文末的连接进入查看。

3.生物化学结构(PPI、NCI-1、NCI-109、MUTAG、QM9、Tox21)

PPI是蛋白质互作网络,数据集中共有24张图,其中20张作为训练,2张作为验证,2张作为测试,每张图对应不同的人体组织,实例如图3,该数据是为了从系统的角度研究疾病分子机制、发现新药靶点等等。

图3:蛋白质互作网络

平均每张图有2372个结点,每个结点特征长度为50,其中包含位置基因集,基序集和免疫学特征。基因本体集作为labels(总共121个),labels不是one-hot编码。

NCI-1、NCI-109和MUTAG是关于化学分子和化合物的数据集,原子代表结点,化学键代表边。NCI-1和NCI-109数据集分别包含4100和4127个化合物,labels是判断化合物是否有阻碍癌细胞增长得性质。MUTAG数据集包含188个硝基化合物,labels是判断化合物是芳香族还是杂芳族。

QM9数据集包括了13万有机分子的构成,空间信息及其对应的属性. 它被广泛应用于各类数据驱动的分子属性预测方法的实验和对比。

Toxicology in the 21st Century 简称tox21,任务是使用化学结构数据预测化合物对生物化学途径的干扰,研究、开发、评估和翻译创新的测试方法,以更好地预测物质如何影响人类和环境。数据集有12707张图,12个labels。

文件构成

PPI数据集的构成:

train/test/valid_graph.json:保存了训练、验证、测试的图结构数据。

train/test/valid_feats.npy:保存结点的特征,以numpy.ndarry的形式存储,shape为[n, v],n是结点的个数,v是特征的长度。

train/test/valid_labels.npy:保存结点的label,也是以numpy.ndarry的形式存储,形为n*h,h为label的长度。

train/test/valid/_graph_id.npy :表示这个结点属于哪张图,形式为numpy.ndarry,例如[1, 1, 2, 1...20].。

NCI-1、NCI-109和MUTAG数据集的文件构成如下:(用DS代替数据集名称)

n表示结点数,m表示边的个数,N表示图的个数

DS_A.txt (m lines):图的邻接矩阵,每一行的结构为(row, col),即一条边。

DS_graph_indicator.txt (n lines):表明结点属于哪一个图的文件。

DS_graph_labels.txt (N lines):图的labels。

DS_node_labels.txt (n lines):结点的labels。

DS_edge_labels.txt (m lines):边labels。

DS_edge_attributes.txt (m lines):边特征。

DS_node_attributes.txt (n lines):结点的特征。

DS_graph_attributes.txt (N lines):图的特征,可以理解为全局变量。

QM9的文件结构如下:

QM9_nano.npz:该文件需要用numpy读取,其中包含三个字段:

'ID' 分子的id,如:qm9:000001;

'Atom' 分子的原子构成,为一个由原子序数的列表构成,如[6,1,1,1,1]表示该分子由一个碳(C)原子和4个氢(H)原子构成.;

'Distance' 分子中原子的距离矩阵,以上面[6,1,1,1,1]分子为例,它的距离矩阵即为一个5x5的矩阵,其中行列的顺序和上述列表一致,即矩阵的第N行/列对应的是列表的第N个原子信息.

'U0' 分子的能量属性(温度为0K时),也是我们需要预测的值(分类的种类为13)

Tox21文件夹中包含13个文件,其中12个文件夹就是化合物的分类

图4:Tox21数据集的文件组成

下载地址

Cora:https://s3.us-east-2.amazonaws.com/dgl.ai/dataset/cora_raw.zip

Pubmed:https://s3.us-east-2.amazonaws.com/dgl.ai/dataset/pubmed.zip

Citeseer:https://s3.us-east-2.amazonaws.com/dgl.ai/dataset/citeseer.zip

BlogCatalog:http://socialcomputing.asu.edu/datasets/BlogCatalog

Reddit:https://github.com/linanqiu/reddit-dataset

Epinions:http://www.trustlet.org/downloaded_epinions.html

PPI:http://snap.stanford.edu/graphsage/ppi.zip

NCI-1:https://ls11-www.cs.uni-dortmund.de/people/morris/graphkerneldatasets/NCI1.zip

NCI-109:https://ls11-www.cs.uni-dortmund.de/people/morris/graphkerneldatasets/NCI109.zip

MUTAG:https://ls11-www.cs.uni-dortmund.de/people/morris/graphkerneldatasets/MUTAG.zip

QM9:https://github.com/geekinglcq/QM9nano4USTC

Tox21:https://tripod.nih.gov/tox21/challenge/data.jsp

nci60数据集_数据集 | 图网络一般适用的数据集整理相关推荐

  1. pandas的自带数据集_盘点 | Python自带的那些数据集

    01  Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提 ...

  2. python的自带数据集_盘点 | Python自带的那些数据集

    01 Seaborn自带数据集 在学习Pandas透视表的时候,大家应该注意到,我们使用的案例数据"泰坦尼克号"来自于seaborn自带的在线数据库,我们可以通过seaborn提供 ...

  3. unet训练自己的数据集_基于UNet网络实现的人像分割 | 附数据集

    点击上方↑↑↑"OpenCV学堂"关注我 来源:公众号 AI算法与图像处理 授权 以后我会在公众号分享一些关于算法的应用(美颜相关的),工作之后,发现更重要的能力如何理解业务并将算 ...

  4. hrsc2016 下载 数据集_中科图云

    所有图片均来自六个著名港口.图像分辨率介于2米和0.4米之间.图像尺寸范围从300到1500,其中大多数大于1000 x 600.训练,验证和测试集包含436个图像,1207个样本,分别为包括541个 ...

  5. 处理自己的数据集_手写代码实现KDD CUP99数据集的数据归一化处理

    归一化是数据处理的常用方法之一,目的是消除不同评价指标之间的量纲对数据分析结果的影响,使各指标处于同一数量级,以解决数据指标之间的可比性问题. 目前学术界关于归一化和标准化的概念还不统一,常常会把这两 ...

  6. mot数据集_【多目标跟踪】搞不懂MOT数据集,会跑代码有啥用!

    基本数据集介绍 MOT 数据集 数据集用的最多的是 MOTChallenge,专注于行人追踪的.https://motchallenge.net/15 年的都是采集的老的数据集的视频做的修正.参考论文 ...

  7. python数据集_【Python数据分析实战】divorce数据集

    1.数据集来源Divorce Predictors data set Data Set​archive.ics.uci.edu 2.库.函数和数据集的导入 import numpy as np imp ...

  8. msra数据集_干货下载 | 中文自然语言处理 语料/数据集

    来源:GitHub 作者:SophonPlus ChineseNlpCorpus 搜集.整理.发布中文自然语言处理 语料/数据集,与有志之士共同促进中文自然语言处理 的 发展. 情感/观点/评论 倾向 ...

  9. python合并两个数据集_在Python中合并两个数据集

    我有两组x-y数据,它们的x值应该合并.为了说明这一点,第一组如下所示:0.5;3.4 0.8;3.8 0.9;1.2 1.3;1.1 1.9;2.3 第二盘是这样的: ^{pr2}$ 数据在两个单独 ...

最新文章

  1. STM32F103V IWDG 独立看门狗操作
  2. How to post a Java object to http end point which accepts json string
  3. 如何在SAP云平台ABAP编程环境里把CDS view暴露成OData服务
  4. 聚数引智,承德大数据产业对接交流会将于2019中国国际数字经济博览会期间召开...
  5. 通过zabbix数据库批量查询服务器最新磁盘剩余空间
  6. 非法关机的时候,postgresql启动故障的解决
  7. 一直跳动的按钮插件_关于Excel--Power Click插件的一些说明
  8. 浪潮存储进逼国际一线厂商
  9. 实现局部滚动的两种方法:1.三行css代码2.使用BScroll框架
  10. JAVA制作QQ空间点赞_仿QQ空间点赞列表的实现【原创】
  11. QQ-----无形的“扫描器”
  12. 来点基础的东西,关于浮点数的大小端转换以及浮点数的格式解析
  13. 大连东软c语言编程题,大连东软信息学院C语言实验一 windows基本操作和turboc使用答案.doc...
  14. github中clone代码到本地与直接下载压缩包的区别
  15. 网易163vip邮箱、163.net邮箱、新浪vip邮箱、QQ邮箱,哪款更符合商务邮件的需求
  16. 买的美国服务器怎么上传文件,虚拟主机空间的文件怎样上传和实现的
  17. Markdown基本使用
  18. 太阳动态VPS代理IP保证爬虫程序稳定运行
  19. 概率论与数理统计---排列组合
  20. 链脉名片创始人陈润阳谈什么是新营销?

热门文章

  1. resultType及resultMap的用法
  2. 春季购车大促!经典瑞迈尊享购车3重豪礼
  3. Idea中使用Vim
  4. 任务栏没有输入法的解决方法
  5. IDEA配置JavaFX环境
  6. IOS调起微博直接到指定的个人页面
  7. 如何免费创建云端爬虫集群
  8. pthread_create函数详解
  9. 反射+抽象工厂改进经典案例
  10. listagg 函数导致中文乱码