单细胞多组学数据允许同时对多种组学数据进行定量分析,以捕捉复杂的分子机制和细胞异质性。然而现有的工具不能有效地推断不同细胞类型的活性生物网络以及这些网络对外部刺激的反应。

来自:Single-cell biological network inference using a heterogeneous graph transformer

目录

  • 前置内容:HGT简述
  • HGT用于生物网络建模

前置内容:HGT简述

HGT来自:Heterogeneous Graph Transformer,WWW2020。在处理web-scale的大图时,HGT引入mini-batch采样算法(HGSampling),降低了对显存的要求。

  • 给定一个web规模的异构图,例如,一个学术网络,HGT只把它的one-hop edge作为输入。使用meta relationship参数化权重矩阵,不同类型的节点和边可以维护其特定的表示空间。

普遍的GNN总是先提取信息,再聚合信息,例如GCN,GAT。目前的一些异质图GNN方法没有充分利用异质图的属性信息,都是为边类型和节点类型单独分配权重矩阵。不同类型的节点数目和不同类型的边数目差别很大,对于那些出现次数不多的关系类型,就很难为它们学习到准确的权重。

  • 一个异质图的采样子图上的消息传递, t , s 1 , s 2 t,s_{1},s_{2} t,s1,s2分别为目标节点和两个不同的源节点,HGT采用 e 1 , e 2 e_{1},e_{2} e1,e2以及对应的元关系 < τ ( s 1 ) , ϕ ( e 1 ) , τ ( t ) > , < τ ( s 2 ) , ϕ ( e 2 ) , τ ( t ) > <\tau(s_{1}),\phi(e_{1}),\tau(t)>,<\tau(s_{2}),\phi(e_{2}),\tau(t)> <τ(s1),ϕ(e1),τ(t)>,<τ(s2),ϕ(e2),τ(t)>作为输入,为节点学习一个更符合实际的表征 H ( L ) H^{(L)} H(L),该表征可以用于下游任务。HGT包括三个组成部分:1.元关系感知的异构相互注意力,2.源节点传递的异构消息,3.特定于目标节点的异构消息聚合。

HGT用于生物网络建模

作者提出了利用单细胞多组学数据进行生物网络推理的算法架构DeepMAPS。它在一个异构图中对单细胞多组学数据建模,并使用一个 multi-head graph transformer(HGT)在局部和全局上下文中以一种鲁棒的方式学习细胞和基因之间的关系。

  • a.DeepMAPS 的总体框架。从输入的单细胞多组学数据进行细胞聚类和生物基因网络推断,主要包括五个步骤。b.图自编码器结合 HGT(异构图 transformer) 模型。利用整合后的细胞-基因矩阵构建了包含所有细胞(绿色)和基因(紫色)的异质图。HGT 模型在多个子图(以50个子图为例)上进行训练,尽可能多地覆盖整个图中的节点。每个子图被训练100轮;因此,整个训练过程迭代5000次。然后将训练好的模型应用到整个图中,学习和更新每个节点的嵌入。c.在一个 HGT 层中嵌入目标节点的更新过程。面板中的红色圆圈表示目标节点,黑色圆圈表示源节点。箭头表示目标节点和源节点之间的连接。彩色矩形表示不同节点的嵌入。在底部图的放大详细过程显示信息传递过程和注意力机制。一个 HGT层的最终输出是所有节点的节点嵌入更新。

在DeepMAPS框架中有五个主要步骤:

  • 通过去除低质量细胞和低表达基因对数据进行预处理,然后根据不同的处理时间采用不同的归一化方法。生成一个矩阵来表示每个基因在每个细胞中的活性。不同的scMulti-omics数据类型采用不同的数据整合方法。
  • 从整合后的矩阵构建异构图,以细胞和基因为node,以细胞中是否存在基因为edge。
  • 建立HGT模型,共同学习细胞和基因的低维embedding,并生成注意力分数,表示基因对细胞的重要性。
  • 基于HGT学习嵌入和注意力分数预测细胞聚类和功能基因模块。
  • 在每种细胞类型中推断出不同的生物网络,例如基因调节网络(GRN)和基因关联网络。

作为一个重要的训练结果,注意力分数代表基因对细胞的重要性。一个基因对一个细胞的注意力得分高,意味着该基因在定义细胞特性和表征细胞异质性方面相对重要。这种区分允许在每个细胞簇中构建可靠的基因关联网络,并作为DeepMAPS的最终输出。


利用HGT聚类单细胞多组学数据并推理生物网络相关推荐

  1. 基于单细胞多组学数据无监督构建基因调控网络

    在单细胞分辨率下识别基因调控网络(GRNs,gene regulatory networks)一直是一个巨大的挑战,而单细胞多组学数据的出现为构建GRNs提供了机会. 来自:Unsupervised ...

  2. 单细胞多组学数据介绍①——甲基化数据

    单细胞多组学数据介绍①--单细胞甲基化数据 一.甲基化数据格式介绍 1.cpg level data 2.feature level data 3. loading data 二.分析方法 1./QC ...

  3. scGEMA:基于单细胞多组学增强子的基因调控网络推断

    本文介绍由德国RWTH亚琛大学医学院的Ivan G Costa通讯发表在 bioRxiv 的研究成果:为了利用单细胞多组学数据定量表征基因调控,作者提出了scGEMA模型,一种基于单细胞多组学增强子的 ...

  4. 生物系统和疾病的多组学数据整合考虑和研究设计

    生物系统和疾病的多组学数据整合考虑和研究设计 1 生物系统 生物系统--组成 生物系统很复杂,具有许多调节功能,例如DNA,mRNA,蛋白质,代谢物,以及表观遗传功能(例如DNA甲基化和组蛋白翻译后修 ...

  5. 清华大学医学院 | 体外成熟人卵单细胞多组学研究及总结干细胞分化为配子进展文章...

    清华大学医学院纪家葵课题组近期在生殖医学顶级期刊<Human Reproduction> 及<Human Reproduction Update>分别发表体外成熟人卵单细胞多组 ...

  6. The Innovation | clusterProfiler:聚焦海量组学数据核心生物学意义

    导 读 clusterProfiler4.0同步支持最新版GO和KEGG数据,支持数千物种的功能分析,应对不同来源的基因功能注释(如cell markers, COVID-19等)提供了通用的分析方法 ...

  7. 这篇Nature子刊文章的蛋白组学数据PCA分析竟花费了我两天时间来重现|附全过程代码...

    复现PCA原图之蛋白组学数据 NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序 ...

  8. 生物信息学|MOLI:基于深度神经网络进行多组学数据整合并用于药物反应预测

    本篇推文引自:MOLI: multi-omics late integration with deep neural networks for drug response prediction 摘要 ...

  9. Rosetta蛋白大分子抗体对接设计及单细胞多组学数据分析CADD蛋白相互作用

    天然蛋白质具有临界稳定性的特征,然而临界稳定性使得蛋白质遭受胁迫压力后极易发生错误折叠并失去功能.体内蛋白质在错误折叠后产生的聚集沉淀被认为是多种疾病发生发展的原因.因此,优化蛋白质的稳定性是科学研究 ...

最新文章

  1. 地铁时光机第一阶段冲刺六
  2. forms oracle runtime_FRM-92101:forms Server在启动过程中失败
  3. 函数调用oracle,oracle 函数调用
  4. 自学编程是从python语言还是c语言开始-初中生想学编程,请问先学C语言好还是先学Python?...
  5. B-Tree 和 B+Tree
  6. 【机器学习】漫谈特征缩放
  7. Android Bitmap 研究与思考(上篇)
  8. 两根硬铜线并线接插座_高级电工原来都这样接电线,手法还没见过,我也立马学...
  9. ensp小实验走起来(路由下发、MSTP、VRRP、DHCP、DHCP中继、NAT、链路聚合)之配置
  10. 物联网常用的组网方式浅析
  11. 计算机出现硬盘数据丢失,硬盘数据丢失后的处理方法
  12. 华为交换机MSTP常见问题定位
  13. 非科班前端人的一道送命题:0.1+0.2 等于 0.3 吗?
  14. atitit 文件搜索 映象文件夹结构模式.docxAtitit 百度网盘 文件 与跨机器 文件 搜索 查询 检索 解决方案 最小化索引法 映象文件夹结构模式. 1. 生成文件夹 结构信息 1
  15. latex 目录层次设置
  16. Python函数嵌套
  17. (一)SLAM拓扑地图(地图的生成和显示)
  18. Time-Series Representation Learning via Temporal and Contextual Contrasting
  19. Windows、Linux密码破解—John、Hydra、hashcat、Mimikatz等工具基本使用
  20. java图片叠加_[原创]JAVA中图片上叠加文字的方法

热门文章

  1. 【Yolact训练自己的数据集(踩坑总结)】
  2. matlab铜期货,急停按钮一般是_______色、______形
  3. android畅言作业平台,畅言作业平台学生端
  4. 上传身份证照片js_身份证正反面上传插件
  5. html网页设计阶段性测试题
  6. 报错JSON parse error: Cannot deserialize value of type `java.lang.Integer` from String
  7. 如何从入门到专业的程序员
  8. c语言传感器串口通信,树莓派上使用C语言检测触碰传感器
  9. 群辉通过Docker搭建Redis集群
  10. RFID技术在通道门禁系统的应用