介绍:本文提出了一种灵活的机器学习方法,用于预测组织相容性白细胞抗原I类蛋白呈递给T细胞的病毒和癌症抗原。该方法旨在对新获得的样本进行预测,现在数据库中关于呈递HLA蛋白的信息很少。

1、Highlights:

  1. 为定制和新产生的数据集可以提供灵活的HLA抗原呈递预测;
  2. 预测较差的HLA等位基因得到改善;
  3. 在只有很少HLA注释的情况下,能够准确预测HLA类型;
  4. 拥有更加低维的数据表示;

2、摘要

目前最先进的方法可以准确预测HLA等位基因的表达,在比较具有代表性的等位基因中表现比较好,但是对于比较罕见和特征较差的等位基因中表现较差。本文提出的RBMs方法可以在定制和新获得的没有或者少量注释的样本上进行训练,RBM-MHC确保了对罕见等位基因预测的提高,同时对数据的要求更少。

3、方法

RBM-MHC是一种评分和分类方案,可以在定制数据集(如患者或者实验特定样本)以及更普遍的新获得的数据上进行实时训练,并且能够快速改进罕见等位基因的预测。

方法主要由两部分组成:

(1)RBM,一种学习序列概率分布的无监督方法,将sequence作为输入,然后学习序列的概率分布;RBM估计每个肽的呈递分数,并可以生成候选的呈递肽。还提供了肽的低维表示,对HLA的类型提供了清晰的解释。如下图所示;

训练集分为两种:用于训练RBM-MHC的多肽数据集,以及能够完成的相应的任务;

1、Allele-specific samples

2、Multi-allele samples

本文方法的总流程图:

序列对其程序的示意图,在构建主对齐时,符号“-”表示缝隙插入,符号“√”表示氨基酸删除;

主要由以下几个步骤组成:

1、训练数据集收集

RBM-MHC可以根据患者来源的临床样本或从公共存储库收集的数据集进行训练。本文中采用从IEDB中可用的质谱和结合亲和分析构建训练数据集。

2、Alignment

RBM-MHC采用固定长度序列,因此需要通过对比程序将肽序列缩减到相同长度。(通过插入方式),其中9长度是最丰富的,将肽序列减少到典型的9个残基长度。

在图的Main Alignment中,估计相同长度序列子集的位置权重矩阵轮廓,并分别使用matlab中的生物信息学工具箱seqprofile和profalign函数对这些轮廓进行对齐,考虑8-11长度进行对齐,从而得到一个最大对齐11长度;这种对齐长度用作种子来学习9长度的隐马尔可夫模型的配置文件。对齐HMM模板,长度不超过9的序列根据HMM的位置特异性的插入和删除概率(hmmprofalign函数)重新对齐到HMM的配置文件。然后利用第一次alignment来训练RBM-MHC。

在Alignment refinement(用于多等位基因样本的HLA分类)中,根据HLA-I分类器预测的假定“类别”(HLA类型),将多肽进行分组,构建HLA特异性HMM谱图;首先,将10%的标记数据和该类中分类的肽放在一起,按分类概率加权,反映了类分配的置信度。然后构建一个特定于HLA的HMM,使用这些HMM配置文件(本质上捕获每个HLA类型的单位点氨基酸频率模式)作为每个类对齐的种子。在step4中,根据最佳HMM对齐分数重新对齐肽段,取每个未标记的肽,并考虑每个了别的种子和对应的HMM对齐得分。然后对于每个肽,都保留与最高分对应的序列。这种最好的评分比对可以是一个不同于分类器预测的类,允许我们在后续迭代中更准确地重新分类肽,因此通过这一步有助于通过等位基因特异性HMM校准得分,纠正前面产生的分类错误。再重组之后再次重复RBM-MHC训练。

(2)利用这种有效的表示方法,仅使用少量注释,在监督的方式通过HLA限制对序列进行分类;

RBM通过学习的权值集,将序列映射到“隐藏单元”的表示上。在这个表示空间中,每个簇将具有相同HLA结合特异性的抗原分组在一起。通过HLA-I分类器,以每个簇中少数抗原(“标签”)的HLA-I限制知识为指导,进行线性分类,预测所有抗原的HLA-I类型。如下图所示:

具体的实验分析部分请参考原文:RBM-MHC: A Semi-Supervised Machine-Learning Method for Sample-Specific Prediction of Antigen Presentation by HLA-I Alleles

RBM-MHC: A Semi-Supervised Machine-LearningMethod for Sample-Specific Prediction of AntigenPresent相关推荐

  1. Elasticsearch:Supervised Machine Learning - 有监督的机器学习

    Elastic Stack 7.6 版本提供了端到端机器学习管道所需的最后一部分. 以前,机器学习专注于具有异常检测功能的无监督技术. 但是,在7.x发行版中已经发布了一些功能. 在 7.2 中,El ...

  2. 基于Python的完全监督机器学习教程 Complete Supervised Machine Learning With Python

    这门由行业和学术领袖开设的课程是为那些希望在数据科学领域建立有价值的职业生涯的人开设的 你会学到: 监督学习和非监督学习的原理及其区别. 线性和逻辑回归,决策树,回归树,随机森林,判别分析,支持向量机 ...

  3. 图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically

    前言 本博文主要对论文中提到的图构造方法进行梳理,论文自己提出的模型并未介绍,感兴趣的可以阅读原文 摘要 基于图的半监督学习GSSL主要包含两个过程:图的构建和标签推测.传统的GSSL中这两个过程是完 ...

  4. [arxiv 2021]Graph-Based Machine Learning Improves Just-in-Time Defect Prediction

    总结 建立单模投影后,利用顶点的中心性.社区和顶点嵌入算法获得点特征,再判断两点间标签 目标 实现对上传的代码的准时制的缺陷预测,可抽象为符号二部图的边符号预测. 准时制的优势 节约时间 提供属性:侧 ...

  5. IBM Machine Learning学习笔记(二)——Supervised Learning: Regression

    文章目录 一.Introduction to Supervised Machine Learning 二.Data Splits and Cross Validation 三.Regression w ...

  6. 机器学习(Machine Learning)入门科普

    =======================国外==================== Machine Learning 大家(1):M. I. Jordan (http://www.cs.ber ...

  7. 机器学习入门1-译文-机器学习是什么以及它的重要性(machine learning--what it is and why it matters)

    本文目录索引 1.前言 1.0侵删 1.0.1 20200920首发 1.0.2 良心翻译 1.1 此系列说明 1.2 聊点机器学习 1.2.1 机器学习的定义 1.2.2 知识发现.机器学习.人工智 ...

  8. Coursera | Applied Data Science with Python 专项课程 | Applied Machine Learning in Python

    本文为学习笔记,记录了由University of Michigan推出的Coursera专项课程--Applied Data Science with Python中Course Three: Ap ...

  9. The Cross-evaluation of Machine Learning-based Network Intrusion Detection Systems

    本文提出了交叉检验的框架,指的是在不同的数据集进行交叉验证.we endorse the idea of cross-evaluating ML-NIDS by using malicious sam ...

  10. 深度学习 —— 受限玻尔曼机 RBM

    能量基础模型(EBM) 能量基础模型为每一个感兴趣的变量设置分配一个标量能量.学习目的是改变能量函数以使它具有期待属性.例如我们希望通过理想或可行的设置获得低能量.能量基础的概率模型定义了能量函数的概 ...

最新文章

  1. synchronized(xxx.class)
  2. Java LinkedList boolean addAll(int index,Collection c)方法,带有示例
  3. HTML+CSS+JS实现 ❤️圣诞抓礼物小游戏❤️
  4. 主管问我:你以为单元测试,只是测试吗?
  5. android底部导航栏网络请求有冲突,Android 自定义底部导航栏 CustomizeTabLayout(支持访问网络图片、本地图片)...
  6. VS Code 中文注释显示乱码
  7. 【MTSP】基于matlab灰狼算法求解多旅行商问题(同始终点)【含Matlab源码 1564期】
  8. zbbz插件使用教程_CAD坐标自动标注zbbz插件非常实用(附压缩包及安装步骤)
  9. 中科方德桌面操作系统_国产操作系统——中科方德桌面操作系统,USB无线网卡配置...
  10. Microsoft Visual C++ 14.0 is required.
  11. vue动态style设置背景图片
  12. 如何玩好微信十亿流量?微趋道教你小程序推广最全攻略!
  13. sql根据出生日期算年龄
  14. 流程图中的实线_化工工艺流程图中的设备用细实线画出,主要物料流程线用粗实线画出。()_搜题易...
  15. 安卓前端车牌识别技术应用
  16. [网络爬虫|smtp协议|python]东方财富网爬虫,python smtp协议发送爬取数据至QQ邮箱
  17. 探究 PHP_CodeSniffer 的代码静态分析原理
  18. NaHCO3俗称小苏大,生活中的神器//2021-2-1
  19. 配置与管理FTP服务器
  20. oracle ora27072,【oracle案例】ORA-19502,ORA-27072

热门文章

  1. 我想给他拿给他拿台计算机的英文,NO-BOOK 傻瓜机英语口语中级版The machine can do the work of ten men.这机器...
  2. 【华三H3C设备命令最全大合集】
  3. photoshop2021补丁版v22.3.1完美兼容m1
  4. Pagerduty - prometheus - grafana测试告警的使用方法
  5. java 字符串驻留_Java中的字符串驻留
  6. java max重载_浅谈Java方法的重载
  7. 网络WIFI 无法连接 无法上网网络故障
  8. word excel转换成html格式的文件,将PPTWORDEXCEL转换成html格式
  9. 科大奥锐干涉法测微小量实验的数据_干涉法测微小量-集美大学基础物理虚拟仿真实验教学中心 | 物理实验中心...
  10. models.__dict__[args.model]()