欢迎关注微信公众号《生信修炼手册》!

从数据库中得到蛋白质的相互作用信息之后,我们可以构建蛋白质间的相互作用网络,但是这个网络是非常复杂的,节点和连线的个数很多,如果从整体上看,很难挖掘出任何有生物学价值的信息,所以我们需要借助一些算法来深入挖掘。

随着各个数据库中信息通量的不断提高,基于网络的分析方法越来越受欢迎,比如我们常见的蛋白质相互网络,基因共表达网络,转录因子调控网络,pathway网络等等,为了更好的理解后续的数据挖掘算法,首选要对网路的属性有一些基本了解。

从数据结构上看,我们所说的网络network是属于图Graph这一数据结构的,网络是一种比较直观的描述,就是点和点之间的连线,在算法上,为了准确描述一个网络,通常借助于邻接矩阵,示意如下

在网络中,根据节点的连线是否具有方向,可以划分为有向图和无向图两类,无向图中被一条线连接的两个节点其作用是相互的,比如基因共表达网络,两个基因间互为共表达基因,而有向图中,连线是有方向性的,比如转录因子调控网络,转录因子调控基因,所以连线由转录因子指向某个基因。

无向图的描述为undirected graph, 有向图的描述为directed graph。PPI网络由于蛋白的作用是相互的,所以通常归类为无向图。

除了连线的方向性,根据连线对应的值,可以将网络图分为加权和非加权两种, 以基因共表达网络为例,非加权图中连线是一个定性描述,两个基因具有共表达的趋势,就可以用连线连接,而加权图是一个定量描述,两个基因间共表达系数的大小对应边的值,在可视化时,值不同,对应边的粗细也不同。

邻接矩阵可以方便的描述任意一种类别的网络,如上图所示,邻接矩阵是一个二维矩阵,而且是一个方阵,行和列代表的都是图中的节点,在非加权图中,0代表两个节点没有连线,1代表两个节点间存在连线;在加权图中,每个单元格数值对应每条边的数值。

对于网络而言,需要了解以下几个基本概念

1. degree

网络由节点和边构成,对于一个节点而言, 该节点连线的多少,即为该节点的degree, 称之度,对于有向图,根据连线的防线,度又划分为入度和出度, 示意如下

图中每个节点上标记的数字就是该节点的度数。

2. shorest path

最短路径表示两个节点间的最短距离,在网络中,从一个节点到另外一个节点,可以有很多个路径,其中经过的节点数最少的称之为最短路径,示意如下

上述到A到B的最短路径为5。

3. closeness centrality

该统计量用来衡量节点的重要程度,基于最短路径进行定义,公式如下

4. Betweenness centrality

和closeness centrality类似,也是用来表征节点的重要程度,公式如下

在上图中。删除B和C中的任意一个,A都可以连接到E, 但是删除了D就不行了,所以D就比较重要。

5. density

密度代表的是网络中实际的连线数与理论最大连线数的比值,对于包含n个节点的网络,其最大的变数为任意两个节点之间都相连,共 n(n-1)/2, 示意如下


密度用来衡量一个网络的密集程度。

6. Clustering Coefficient

聚集系数,和密度类似,也叫做transitity,有两种定义,第一种称之为local clustering coefficient, 针对单个节点进行定义,对于某个节点而言,该统计量的值为与该节点直接相邻的邻近节点构成的网络的密度,示意如下

上图中的第一个网络,所有节点构成了一个clique, 即完全连通图,任意两个节点之间都存在了连线,local clustering coefficient 可以看做是衡量邻近节点组成的网络与完全联通图接近的程度,取值范围0到1,越接近于1,越接近一个完全连通图。

在此基础上,针对一个网络,还出现了average clustering coefficient的概念,就是计算每个节点的local clustering coefficient, 然后取平均值,公式如下

第二种是对于整个网络而言,称之为global clustering coefficient, 这个值的定义是在triangle graph的基础上,triangle graph直译过来就是三角形图,即3个节点构成的网络,示意如下

如上图所示,如果三个节点构成的网络是一个闭合的三角形,称之为closed triangle graph, 如果缺失了其中一条边,称之为open triangle graph。

global clustering coefficient 有以下两种定义方式

有文献研究发现真实世界的网络是一个scale-free network, 中文是无标度网络,意思是说在这个网络中,大部分的节点其度数都很低,只有部分节点有用很高的度数,示意如下

上图中的网络就是一个scale-free network, 只有黄色节点的度数较高,蓝色节点度数很低,在整个网络中,大部分都是蓝色节点,如果绘制该网络的节点度数分布图,应该是如下的一个趋势

横坐标为度数,纵坐标为为节点数,度数很低的节点占大多数,度数高的节点只是少数,当然这种描述是一种定性描述,为了准确描述,提出了幂律分布的概念,即上述分布图对应的表达式为

X代表度数,Y代表对应的节点数,有趣的是,将X和Y同时取对数,可以转换为一个线性方程, 推倒如下

取对数之后的分布如下

对数转换之后,可以通过线性拟合确定各个系数的值,在之前的WGCNA中,选择最佳的power其实就是这个原理,通过比较不同power值条件下,线性拟合的R2值的大小,选择一个拟合效果最好的值。

在复杂的网络中,会存在部分密度较高的区域,这样的区域称之为community, 也有module等叫法,示意如下

在community内部,连线的密度较高,而区域部分的连线就少。community被认为是具有生物学意义的集合。对于PPI网络而言,其modules通常有以下两种生物学含义

  1. protein complex
    蛋白质复合体,由多个蛋白质共同组成复合体,然后发挥生物学作用。

  2. functional module
    功能模块,比如位于同一个pathway中的蛋白,其相互作用肯定更加密切。

所以得到网络之后,我们需要去识别communities,目前的有多种算法可用选择,在PPI网络中,常用的有以下算法

  1. MCODE
  2. MCL
  3. Nwewan-Girvan fast greedy algorithm

在后续的文章中,会介绍相应的工具,来从PPI网络中挖掘信息。

扫描关注微信号,更多精彩内容等着你!

如何根据PPI网络进一步挖掘信息相关推荐

  1. 2018-3-12论文(非结构化网络中有价值信息数据挖掘研究)笔记一总体思路以及三种目前进行价值信息挖掘的研究思想

    文章主要的内容: 提出了基于关联规则的非结构化网路中有价值信息数据挖掘的方法 总体的思想: (1)利用特征提取的方法进行初步的分类与识别,提取出不同文本类型的特征, (2)利用关联规则方法计算各个类型 ...

  2. R语言summary.lm信息进一步挖掘

    R语言summary.lm信息进一步挖掘 废话不多说,直接上例子 (由于summary出来的结果是有截断的,以下比较会有一定误差,要精确的话可以自己从model里面取出相应系数) > data( ...

  3. String+CytoScape构建PPI网络

    1.下载CytoScape Cytoscape是一款专业强大好用的物生信息分析软件,主要达用于专业的研究人员使用,软件主要适用于整合模块化网络和生物科学联系网络图的绘制,支持多种文件格式,导入后就可以 ...

  4. 网络攻防之信息收集和社工技巧

    网络攻防之信息收集和社工技巧 工欲善其事必先利其器,在发起网络攻击之前,通过各种渠道收集信息,建立起针对渗透目标相对完善的信息库是首要任务,这里给大家分享几种信息收集的方式. 第一章 网站资产探测 1 ...

  5. STRING:蛋白质相互作用(PPI网络)数据库简介

    欢迎关注微信公众号<生信修炼手册>! 研究蛋白之间的相互作用网络,有助于挖掘核心的调控基因,目前已经有很多的蛋白质相互作用的数据库,而string绝对是其中覆盖的物种最多,相互作用信息做大 ...

  6. 【论文翻译】跨异构网络学习挖掘竞争关系

    跨异构网络学习挖掘竞争关系 跨异构网络学习挖掘竞争关系 摘要 发现和监控竞争对手是公司在全球市场保持领先地位的根本.现有的研究主要集中在挖掘单个数据源中的竞争关系,而竞争信息通常分布在多个网络中.在这 ...

  7. 20145326蔡馨熤《网络对抗》——信息搜集与漏洞扫描

    20145326蔡馨熤<网络对抗>--信息搜集与漏洞扫描 1.实验后回答问题 (1)哪些组织负责DNS,IP的管理. ICANN是一个集合了全球网络界商业.技术及学术各领域专家的非营利性国 ...

  8. 网络舆情舆论信息监督和收集的现代化技术解决方法

    在网络舆论场中,网民可以以多种形式发布及传播信息,而要对最新舆论新闻报道信息进行监督和收集无疑是个大难题.那么,到底应该如何收集和监督最新舆论新闻报道信息呢? 网络舆论场每天都会更新大量的信息,要从海 ...

  9. 无线网络现漏洞 信息泄露风险大增

    本文讲的是 :   无线网络现漏洞 信息泄露风险大增 , [IT168资讯]近日,深圳两家国内市场主流的无线设备厂家被曝所生产的某些型号及批次的无线路由器存在WPS(Wi-Fi Protected S ...

最新文章

  1. php 数组值的交集,PHP 数组交集与差集
  2. int数组转化为字符数组 java_Java 将int数组转换为字符串
  3. oracle 查询天,Oracle查询_ 单表查询
  4. Could not obtain transaction-synchronized Session for current thread
  5. Flutter 基础Widgets之AppBar详解
  6. c语言五子棋坐标覆盖,跪求C语言五子棋悔棋部分实现
  7. 一个能描述erp系统的小故事。
  8. ios获取手机 meid_共享充电宝并不简单,iOS也顶不住,隐私信息直接暴露
  9. 360美女运营孙哲:生活就应像花朵一样绽放
  10. 微软Power BI报表服务器学习总览
  11. 38. 遵循按照值传递的原则来设计函数子类
  12. centos普通用户和root用户之间相互切换
  13. psycopg2 : cursor already closed
  14. 一种用于指导模拟 IC 布局的定制图神经网络模型
  15. [CCC2022 J2] Fergusonball Ratings
  16. 前端数组如何传到后台
  17. 【路径规划】基于matlab蚁群算法机器人栅格地图最短路径规划【含Matlab源码 119期】
  18. 磁盘主分区转换为逻辑分区
  19. 信息系统项目管理-立项管理
  20. 计算机考试网络应用题一定要做到ie浏览器,2016年计算机二级《MSOffice》考前考试卷及答案...

热门文章

  1. bfs hrbust 2188
  2. synopsys license工具_Cadence or Synopsys?数字芯片实现工具大比拼!
  3. 华为p9 html尺寸,华为P9的屏幕尺寸是多少?
  4. Altera FPGA基本开发流程
  5. 求最小公倍数【牛客网】
  6. 奋斗吧,程序员——第五章 行路难!行路难!多歧路,今安在
  7. Python直男作死篇:生日蛋糕小游戏
  8. Flutter教程之Flutter 中的磨砂玻璃效果
  9. 谷粒商城-分布式基础篇2
  10. 转载linux一句话精彩问答