A learning-based framework for miRNA-disease association identification using neural networks

源代码:GitHub - Issingjessica/MDA-CNN: this is the source code and data

learning-based framework for miRNA-disease association identification using neural networks | Bioinformatics | Oxford AcademicAbstractMotivation. A microRNA (miRNA) is a type of non-coding RNA, which plays important roles in many biological processes. Lots of studies have shown that mihttps://academic.oup.com/bioinformatics/article/35/21/4364/5448859?login=true

摘要

动机:微小 RNA (miRNA)是一种非编码 RNA,在许多生物学过程中起着重要作用。许多研究表明,miRNA 与人类疾病有关,这表明 miRNA 可能是各种疾病的潜在生物标志物。因此,揭示 miRNA 与疾病/表型之间的关系具有重要意义。

结果:我们提出了一个新的基于学习的框架,MDA-CNN,用于 miRNA 疾病的关联鉴定。该模型首先基于包括疾病相似性网络、 miRNA 相似性网络和蛋白质-蛋白质相互作用网络在内的三层网络捕获疾病与 miRNA 之间的相互作用特征。然后,采用自动编码器对每对 miRNA 和疾病的基本特征组合进行自动识别。最后,以简化的特征表示作为输入,使用一个卷积神经网络来预测最终的标签。评估结果表明,所提出的框架在 miRNA 疾病关联预测和 miRNA 表型关联预测两个任务上大大优于一些最先进的方法。

目录

1.引言

2.材料及方法

2.1.基于网络的特征提取(Network-based feature extraction)

2.1.1.关联得分计算(Association score calculation)

2.1.2.特征表示(Feature representation)

2.2.基于自动编码器的特征选择(Auto-encoder-based feature selection)

2.3.基于卷积神经网络的关联预测(Convolutional neural network-based association prediction)

3.结果

3.1.Experiment setup

3.2.Data description

3.3.Performance evaluation on predicting miRNA-disease associations

3.4.Performance evaluation on predicting miRNA-phenotype associations

3.5.Effects of MDA-CNN components

3.6.Case study

4.结论


1.引言

在本文中,我们提出了一个新的基于学习的框架,MDA-CNN,以确定之间的联系,一对 miRNA 和疾病。以下是四个主要贡献:

我们为 miRNA 疾病关联预测任务引入了一个基于学习的框架,该框架包含三个组成部分,即基于网络的特征提取器,基于自动编码器的特征选择器和基于 CNN 的关联预测器

为了更好地表示 miRNA 与疾病之间的相关性,我们构建了一个三层网络,中间增加了一个基因层。在此基础上,提出了一种新的基于回归模型的特征表示方法。

我们使用深层 CNN 架构来处理前一步产生的特征向量,以确定 miRNA-疾病对的最终标签。

评估结果显示,MDA-CNN 在 miRNA 疾病和 miRNA 表型关联鉴定方面优于一些最先进的方法。


2.材料及方法

我们提出了一种新的算法称为 MDA-CNN 来预测 miRNA 疾病的关联。MDA-CNN 的框架如图1所示,它包含三个步骤。首先,给定一个三层网络(图1a) ,我们应用回归模型来计算 疾病 - 基因 和 miRNA - 基因 关联评分,并根据这些关联评分生成疾病和 miRNA 对的特征向量。其次,给定一对 miRNA 和疾病,相应的特征向量通过基于自动编码器的模型来获得低维表示(图1b)。第三,基于最后一步获得的表达载体(图1c) ,构建了一个深层的 CNN 结构来预测 miRNA 与疾病之间的关联。

2.1.基于网络的特征提取(Network-based feature extraction)

众所周知,miRNA 通过调控转录后基因表达与许多疾病有关。 在这项工作中,我们添加了基因层网络作为桥梁,以提取miRNA-疾病对之间的相互作用特征。我们利用人类基因的 PPI 网络作为基因层网络。MiRNA 疾病对的特征提取包括两个步骤: (i)基于 PPI 网络和疾病(miRNA)网络计算疾病(miRNA)和基因之间的关联评分; (ii)为 miRNA-疾病对生成特征向量。对于每个 miRNA 疾病对,其特征向量是疾病向量和 miRNA 向量的串联。疾病(miRNA)特征向量中的元素代表了疾病(miRNA)与 PPI 网络中每个基因之间的关系。我们计算一个关联得分来测量疾病(miRNA)和基因之间的关系,而不是表示疾病(miRNA)和基因是否相关的二进制值。

2.1.1.关联得分计算(Association score calculation)

接下来,我们以疾病和基因层为例来说明我们的算法。miRNA 和基因之间的关联得分可以类似地计算出来。

分别是一个疾病网络和一个基因关联网络。 分别代表 所涉及的一系列疾病和基因。 之间的一组疾病基因关联性。受 Wu 等人(2008)的启发,疾病 d 和基因 g 之间的关联得分可以用 的 Pearson 相关系数来衡量

其中 是 d 和 中每种疾病之间相似性得分的向量,是 g 和中每种疾病之间的亲密度得分的向量,分别代表协方差和标准差。

给定 ,基因 g 和疾病 d 之间的亲密度得分可以定义如下:

其中 是与 d 相关的一组基因; 之间最短路径的平方。

我们不使用基于路径距离的相似性,而是使用回归模型来计算两种疾病 di 和 dj 之间的相似性。该模型能够考虑基因对不同疾病的重要性。该模型的定义如下:

是这个线性回归模型的回归系数, 是一组与 相关的基因,而 是每种疾病的偏差常数。代表了 的重要性。该回归模型的基本思想是通过相关基因测定两种疾病的相似性。给定 ,这个线性回归模型可以训练和用来计算疾病的相似性。请注意, 不同。

2.1.2.特征表示(Feature representation)

特征表示是应用机器学习算法的关键步骤。 然而,大多数现有的研究使用关联分数来连接疾病和 miRNA,这并不是为了表现疾病和 miRNA 之间复杂的相互作用而设计的。通过添加基因层,我们可以产生一个向量来表示 miRNA-疾病对的特征。

给定一个疾病 d,我们根据方程(1)计算 d 与基因层中涉及的每个基因之间的关联得分。在此之后,d 的特征向量可以生成为

其中 代表  涉及的一个基因,是  涉及的基因数。为了减少 中极端值(异常值)的影响,我们对 应用 softmax 标准化(Grover and Leskovec,2016)。具体来说,归一化向量 表示如下:

同样,给定一个 miRNA ,可以生成以下向量

对于 miRNA-疾病对,我们连接 作为特征表示的载体。

2.2.基于自动编码器的特征选择(Auto-encoder-based feature selection)

前一步生成的向量长度(例如 的级联)是 的两倍,它非常大而且有噪声。因此,我们应用自动编码器来识别基本特征组合,并自动降低每对 miRNA 和疾病的特征向量的维数。

自动编码器用于下游机器学习任务的降维,例如分类、可视化、通信和高维数据的存储(Chicco et al。 ,2014)。与广泛使用的主成分分析(PCA)方法不同,自动编码器是 PCA 的非线性推广,它使用自适应“编码器”网络将高维数据转换为低维编码,并使用类似的“解码器”网络从低维编码中恢复数据。然后使用低维代码作为原始数据的压缩表示。自动编码器的细节在补充文档中有描述。

在我们的实验中,向量 在进入自动编码器模型之前被串联。设 n 是涉及网络 的基因数。输入的原始尺寸为2n。在我们的模型中,我们使用均方误差(MSE)(Wax 和 Ziv,1977)作为损失函数。使用 sigmoid 激活函数和 Adam 算法来优化 MSE 损失。我们的自动编码器网络是由反向传播(BP)算法训练(Rumelhart 等,1988)。

2.3.基于卷积神经网络的关联预测(Convolutional neural network-based association prediction)

20世纪80年代末,Lecun (Lecun 等,1989)提出了 CNN,其在图像分类(Krizhevsky 等,2012) ,句子分类(Kim,2014)和结构图数据分类任务(Atwood 和 Towsley,2016)。在这项工作中,我们还选择了卷积神经网络作为监督式学习模型,以了解特征的最佳组合,并预测给定的 miRNA-疾病对的最终标签。所提出的模型的结构如图2所示。我们的模型包括以下几个层次: 卷积和激活层,最大池化层,全连接层和softmax层。卷积层和校正线性单元[ ReLU,(Nair and Hinton,2010)]激活层用于从输入中提取特征,这是维度减化步骤的输出(见第2.2节)。池化层层用于降维。最后的完全连接层和 softmax 层用于分类任务。

卷积层负责学习输入的子空间特征。模型的卷积层由四个卷积核组成。4 * 1权重向量与长度为 L 的输入向量卷积。在卷积之后,对于每个核,我们可以得到一个特征映射 C (从输入中提取的特定特征) ,它是一个具有长度的向量。特征映射 C 由以下方程式提取:

其中 ,X 是输入向量,是权重向量,初始化为截断的正态分布,平均值为0,标准差为0.1。高表明核能很好地捕捉输入子区域的特征。然后通过一个 ReLU 函数 ,忽略负输出,并传播来自前一层的正输出。尽管存在各种非线性,但由于其计算效率,稀疏性和消失梯度的可能性降低,ReLU 激活是最受欢迎的(Krizhevsky 等,2012; Lecun 等,2015)。

最大池化层用于对卷积层之后的潜在表征进行下采样。它取卷积层输出的非重叠子区域(即池大小为4)上的最大值,并在每个特征映射的邻域上输出最重要的特征。给定一个输入序列,池层的输出如下所示:

卷积层和最大池化层可以从输入向量中提取重要特征。然后,将所有核的输出连接到一个向量,并提供给全连接层。

最后两层是一个完全连接的层和一个softmax层。在全连接层中有50个隐藏单元。池化层的输出为 ,其中 n 是池层的级联输出的长度。完全连接层的输出是: ,其中 是权重矩阵,f 是 ReLU 激活。最终的 softmax 层用于分类任务。


3.结果

3.1.Experiment setup

我们在两个任务上评估我们的模型,即 miRNA 疾病关联预测和 miRNA 表型关联预测。两个任务中使用的数据集是独立的,没有重叠。在 miRNA 疾病关联预测的测试数据集中,阳性集从 HMDDv2.0 获得(Li 等,2013b)(http://www。Cn/hmdd).HMDD 是一个手动收集的数据库与 miRNA 疾病的关联实验支持的证据。由于负样本没有可用的数据集,所以我们随机生成一个与正样本大小相同的负样本集。对于 miRNA 表型关联,从 miRwalk2.0数据库(Dweep 和 Gretz,2015)( http://zmf.umm.uni-heidelberg.de/ apps/zmf/miRWalk2/)获得一组经过验证的 miRNA 表型关联。MiRWalk 包括经过验证的 miRNA 与表型之间的相互作用。我们还随机生成一个与正集大小相同的负集。在这两个任务中,我们使用10倍交叉验证(Kohavi 等,1995)。评估指标包括 ROC曲线曲线下的面积(AUROC)、精确召回曲线下的面积(AUPR)、精确度、召回和 f 1分数。

3.2.Data description

对于 miRNA-疾病关联预测,我们需要对相同类型的元素,即疾病,基因和 miRNA 有三个相似性网络。我们从 You 等人(2017)获得疾病相似性网络和 miRNA 相似性网络(http://www.escience.cn/system/file?%20fileId=84394)。我们利用来自人类蛋白质参考数据库(HPRD)的人类基因的蛋白质网络(宝林和波,2007)( Human Protein Reference Database )。涉及不同网络的关联是疾病基因和 miRNA 基因的关联。疾病与基因的关联来自 DisGeNET 数据库(Pi ~ nero et al。 ,2016)( http://www.disgenet.org/web/DisGeNET/menu ) ,只有手工策划的疾病与基因的关联被保留。miRNA 基因关联获自 miRWalk2.0数据库(Dweep 和 Gretz,2015)(http://zmf.umm.uni-heidelberg.de/apps/zmf/mirwalk2/).在计算过程中,我们去除了那些与疾病或 miRNAs 无关的基因。

3.3.Performance evaluation on predicting miRNA-disease associations

3.4.Performance evaluation on predicting miRNA-phenotype associations

3.5.Effects of MDA-CNN components

3.6.Case study


4.结论

最近,研究人员开始着重于通过计算工具识别 miRNA 疾病的相关性。在本文中,我们提出了一个基于学习的框架,命名为 MDA-CNN 来鉴定 miRNA 疾病/表型的关联。我们首先基于一个三层网络提取 miRNA 和疾病/表型的特征。然后,提出了一种基于自动编码器的特征选择模型。使用这个特征表示,我们提出了一个卷积神经网络结构,用于预测 miRNA 疾病/表型的关联。为了说明 MDA-CNN 的优点,我们将其与三种最先进的方法进行了比较。对 miRNA 疾病和 miRNA 表型相关性的实验表明,MDA-CNN 比现有的方法表现得更好,表明所提出的基于学习的框架设计得当。此外,对肺癌和心力衰竭的病例研究表明,MDA-CNN 可用于预测 miRNA 疾病的相关性。在未来,我们将开发一个网络服务器,包括更多类型的数据集,以方便使用 MDA-CNN。

MDA-CNN:基于学习的神经网络 miRNA-疾病关联识别框架(Bioinformatics)相关推荐

  1. 基于pytorch搭建神经网络的花朵种类识别(深度学习)

    基于pytorch搭建神经网络的花朵种类识别(深度学习) 文章目录 基于pytorch搭建神经网络的花朵种类识别(深度学习) 一.知识点 1.特征提取.神经元逐层判断 2.中间层(隐藏层) 3.学习权 ...

  2. 论文翻译:基于深度卷积神经网络的肉鸡粪便识别与分类

    Recognition and Classification of Broiler Droppings Based on Deep Convolutional Neural Network 基于深度卷 ...

  3. 基于一维卷积神经网络的滚动轴承故障识别

    基于一维卷积神经网络的滚动轴承故障识别 文章目录 基于一维卷积神经网络的滚动轴承故障识别 一.数据预处理 二.模型构建 三.模型训练 四.模型测试 总结 一.数据预处理 采用美国凯斯西储大学(CWRU ...

  4. 基于深度卷积神经网络的农作物病害识别

    基于深度卷积神经网络的农作物病害识别 1.研究思路 运用深度学习的方法,基 于ResNet-50以及 InceptionV3.MobileNet等神经网络,并在这些基础结构上改进部分模型.该研 究主要 ...

  5. 基于深度卷积神经网络的玉米病害识别

    基于深度卷积神经网络的玉米病害识别 1.研究思路 算法模型是先将图像预处理,应用Tripletloss双卷积神经网络结构学习玉米图像特征,再使用SIFT算法提取图像纹理细节,最后通Softmax对图像 ...

  6. 3D点云初探:基于全卷积神经网络实现3D物体识别

    基于全卷积神经网络实现3D物体识别 一.从2D图像识别到3D物体识别 二.ModelNet10:3D CAD数据集 1.存储格式 2.读取方法 3.点云可视化 可视化工具 plt可视化 4.数据集定义 ...

  7. Deep Learning:基于pytorch搭建神经网络的花朵种类识别项目(内涵完整文件和代码)—超详细完整实战教程

    基于pytorch的深度学习花朵种类识别项目完整教程(内涵完整文件和代码) 相关链接:: 超详细--CNN卷积神经网络教程(零基础到实战) 大白话pytorch基本知识点及语法+项目实战 文章目录 基 ...

  8. 基于MATLAB的神经网络训练的车牌识别系统

    资源下载地址:https://download.csdn.net/download/sheziqiong/85722567 资源下载地址:https://download.csdn.net/downl ...

  9. python2.7交通标志识别图_(四)深度学习初探:基于LeNet-5卷积神经网络的交通标志识别...

    1.项目任务 在常见深度学习模型的基础上(本文为LeNet-5),调整模型结构和参数,使用Tensorflow进行部署.利用公开的德国交通标志数据集进行训练,得到模型,并利用该模型对新的图片进行预测. ...

最新文章

  1. 我来告诉你【Redis】入门 一
  2. 将存储过程的返回值赋给变量
  3. win7 安装apache2.2服务错误
  4. (原创)自已实现服务器控件 之 简单的Label控件
  5. Programming C#.Classes and Objects.只读字段
  6. C语言输出最后一个空格去掉,新人提问:如何将输出时每行最后一个空格删除...
  7. linux链接 .o,Linux 链接概念 - osc_8ieji7o1的个人空间 - OSCHINA - 中文开源技术交流社区...
  8. java遍历hashmapk v_Java HashMap 遍历方式探讨
  9. qt Model/view (模型/视图)
  10. plcst语言编程教程_PLC编程(ST)语言常用语句及功能简介
  11. 电子统计台账:垂直流水账格式数据的导入
  12. 步进电机和伺服电机的区别
  13. laravel手册链接
  14. 【只摘金句】Linux开发模式带给我们的思考
  15. Placement blockage types
  16. Latex 常用(插入图片、参考文献等)
  17. python报错:patsy.PatsyError: error tokenizing input (maybe an unclosed string?)
  18. iOS内存管理—MRC
  19. Java习题练习:和尚挑水
  20. 在已安装win10环境中利用EasyBCD引导安装Ubuntu16.04

热门文章

  1. ES健康状态red问题处理
  2. shell个性化配置+vim简单配置
  3. CentOS7系统安装步骤详解
  4. Apple激活日期查询
  5. 引导区块链产业的主要原因是否影响正宇的发展
  6. html 练习:展示一首古诗词
  7. 《大话计算机》勘误汇总截至2019-07-26
  8. python中的- >符号
  9. wps中使用正则表达式
  10. underscore-1.8.3.js 源码解读全文注释版