论文解读：《i6mA-stack: A stacking ensemble-based computational prediction of DNA N6-methyladenine （6mA） sites in the Rosaceae genome》

1.文章概括
2.背景
3.数据和方法
- 3.1 数据集构造和预处理
- 3.2 特征向量构建
- 3.3 带交叉验证的递归特征消除(RFECV)
- 3.4 基分类器和堆叠
4.结果
- 4.1 用RFECV选择ONF
- 4.2 F.vesca and R.chinensis核苷酸偏好性分析
- 4.3 基分类器和元分类器的性能
- 4.4 在独立数据集上与现有方法的性能比较
5.Web服务器实现
6.讨论

文章地址：https://www.sciencedirect.com/science/article/abs/pii/S0888754320313628
DOI：https://doi.org/10.1016/j.ygeno.2020.09.054
服务器：http://nsclbio.jbnu.ac.kr/tools/i6mA-stack/
数据：http://nsclbio.jbnu.ac.kr/tools/i6mA-stack/#datasets
代码：https://github.com/Jhabindra-bioinfo2020/i6mA-stack

1.文章概括

DNA N6-甲基腺嘌呤(6mA)是一种表观遗传修饰，在真核生物和原核生物的多种细胞过程中都起着至关重要的作用。蔷薇科基因组中6mA位点的准确信息可能有助于理解基因组6mA的分布和各种生物学功能，如表观遗传。各种研究表明，通过实验确定6mA位点是可能的，但这一过程既耗时又昂贵。为了克服实验方法的缺陷，作者提出了一种基于机器学习(ML)技术的精确计算范式来识别中国月季(Rosa chinensis(R.chinensis))和中国刺梨(Fragaria Vesca)的6mA位点。为了提高模型的性能和避免过拟合，采用带交叉验证的递归特征消除(RFECV)策略，从二进制编码(BE)、环功能氢化特性(RFHC)、核苷酸的电子离子相互作用伪电位(EIIP)、二核苷酸物理化学特性(DPCP)和三核苷酸物理化学特性(TPCP)5种不同的DNA序列编码方案中提取最佳特征数(ONF)子集。作者使用ONF子集训练了一个基于ML的双层堆叠模型，创建了一个名为‘i6mA-STACK’的生物信息学工具。该工具的性能总体上优于其同类工具，目前可在http://nsclbio.jbnu.ac.kr/tools/i6mA-stack/上使用。

2.背景

表观遗传学是指不直接改变遗传密码的完整性的遗传表型变化。N6-甲基腺嘌呤或6mA（腺嘌呤中嘌呤环的第六位）是DNA分子中最重要的表观遗传修饰之一。它在许多生物学功能的调节中起着至关重要的作用，包括转基因遗传、基因表达、核心定位、细胞周期调节、 DNA修复和复制、限制性修改（R-M）系统。然而，这些生物学功能在较高真核续中的6mA改性，仍然很大程度上不清楚，因为6mA分布模式是特异性的，这导致功能统一性不同。一系列研究已经为不同物种中重要腺嘌呤甲基化的分布和生物学功能提供了一些洞察力。例如，最近由Zhao-Yu Liu等人进行的一项研究，在F.Vesca和Rosaceae家族的r.chinensis中观察到6mA分布。此外，少数研究表明，原核生物中的6mA水平（0.002-2.7％）比真核生物（0.000006-0.8％）高。真核生物中腺嘌呤甲基化(6 mA)位点低的原因尚不清楚，但可能与回文序列的大小、存在和长度的差异、基因组的复杂性以及复杂的表观遗传过程有关。
已经提出了许多实验方法来识别6mA位点，例如高效液相色谱(HPLC)分离和串联质谱(MS/MS)以及基于单分子实时(SMRT)测序的技术。然而，在包括抗体检测在内的这些实验方法中发现了几个问题：抗体检测不是定量的，识别其他腺嘌呤碱基修饰的几率很高，抗体检测和MS/MS的输出可能会受到细菌等微生物的破坏。基于SMRT测序的技术不能区分6 mA和另一种腺嘌呤碱基修饰，如N1-腺嘌呤(1mA)。此外，由于这些方法劳动密集型、耗时和昂贵，在对基因组中腺嘌呤碱基修饰位点的电子预测似乎是一种替代方法。最近，机器学习算法已经成为一种很有前途的工具，可以解决这些问题，并帮助实验科学家识别6mA的位点。
近年来，已经开展了基于物种特定ML的研究和基于深度学习的研究，以预测6mA的位点。然而，由于6mA分布的物种特异性，现有的方法不足以预测蔷薇科基因组中的6mA位点，或者这些方法不是为蔷薇科基因组设计的。此外，到目前为止，只有一篇研究文章确定了蔷薇科基因组中的6mA位点。随后提出了一种基于ML的方法，其中融合多个特征表示是一个关键概念；然而，分类器的性能仍有待提高。因此，我们的目标是建立一种有效的生物信息学工具来识别蔷薇科基因组中的6 mA位点。
本文介绍了一种新的在线DNA 6mA位点预测工具。作者探索了不同的特征编码方案和ML技术，以进一步提高对两个物种的预测精度。首先，将五种编码方案融合成一个由1570个特征向量组成的集合。接下来，使用RFECV算法从1570维集中提取ONF(210个特征)子集，独立于这两个物种。然后，将ONF集合编码到原始DNA序列中，训练4个基于ML的基分类器，并将选择的基分类器的预测键合概率和非键合概率作为元分类器的输入，得到最终的模型。在独立的测试数据上，与以前的方法相比，该方法在预测精度上有了显著的提高。下图显示了构建i6mA堆栈的一般工作流程。对于给定的蔷薇科基因组DNA序列，使用41-nt扫描窗口(W)。

3.数据和方法

3.1 数据集构造和预处理

从mdr数据库中获得了黄曲霉和中国大黄基因组的正序列(包含序列的6mA位点)。根据Chen等人的观点以及Feng等人的研究成果，修饰QV(ModQV)分数为30或更高是标记相关腺嘌呤核苷酸为修饰的位置的阈值的最佳高质量。因此，本文利用≥30的modQV构建阳性数据集。所有的阳性、阴性序列均含有41-nt，其中腺嘌呤‘A’为中心碱基。根据前人的研究，41-nt序列的长度为时预测效果最好。使用CD-HIT软件，截止阈值为70.00%，以最小化偏差，去除精选序列中的冗余，并删除高序列相似性。在应用这两个过程构建可靠的数据集后，我们分别从F.vesca和R.chinensis中得到了2313个和956个非冗余阳性序列的6mA位点。从这两个数据集中随机选取了大约15.00%的序列(F.vesca和R.chinensis分别为347个和143个6mA位点)作为独立数据集，其余85.00%的序列(F.vesca和R.chinensis分别为1966个和813个6mA位点)作为训练数据集。
从同一基因组文件中获得了F.vesca和R.chinensis的阴性样本(含有非6mA位点的序列)，其中6mA位点(位于中心的腺嘌呤)未被SMRT鉴定。为此，使用Pybedtools来分离两个物种全基因组中的非6mA位点(阴性样本)和已知6mA位点(阳性样本)。通过这个过程，我们得到了大量以A为中心的阴性样本。为了独立构建这两个物种的非6mA样本，从F.vesca和R.chinensis基因组中随机选择负序列。为了从阴性样本中删除冗余序列，使用CD-HIT软件，截止阈值为70.00%。下表汇总了阳性阴性样本数据集。

3.2 特征向量构建

作者使用了五种编码方案来对样本序列进行编码。它们分别是：二进制编码(BE)或Onehot编码、环功能氢化学性质(RFHC)、核苷酸的电子-离子相互作用伪电位(EIIP)、二核苷酸物理化学性质(DPCP)、三核苷酸物理化学性质(TPCP)。
二进制编码(BE)或Onehot编码：把碱基ACGTN编码成二进制，每个碱基对应5位编码，共415=205维。
环功能氢化学性质(RFHC)：‘A’:[1,1,1], ‘C’:[0,0,1], ‘G’:[1,0,0], ‘T’:[0,1,0], ‘N’:[0,0,0]，共编码成413=123维特征。
核苷酸的电子-离子相互作用伪电位(EIIP)：‘A’:[0.1260],‘G’:[0.0806],‘C’:[0.1340],‘T’:[0.1335], ‘N’:[0.0000]。共编码成41维特征。
二核苷酸物理化学性质(DPCP)：每个二核苷酸对应6个表示，共编码成（41-2+1）*6=240维特征。
三核苷酸物理化学性质(TPCP)：每个三核苷酸对应11个表示，共编码成（41-3+1）*6=429维特征。

3.3 带交叉验证的递归特征消除(RFECV)

递归特征消除(RFE)是一种众所周知的特征选择过程，它符合模型并删除最弱的特征，直到达到指定数量的特征；然而，通常事先不知道应该选择多少特征以获得最佳结果。为了找到最优特征数(ONF)，使用交叉验证(CV)和RFE方法对不同的特征子集进行评分并选择最佳特征子集。在每一步中，使用五倍交叉验证方法消除20%的次要特征。为了实现这一部分，使用了Python环境中的RFECV包。对于每个41-NTS长序列，作者分别为BE、RFHC、EIIP、DPCP和TPCP编码205、123、41、240和429维向量。对于41-nts长度的序列，五种类型的特征方案被整合到一个新的特征组中，这导致每个序列总共有1038个特征。接下来，应用RFECV方法从每个序列的集成(1038)特征集中选择ONF。剔除了最不重要的特征，最终优化的子集包含了210个最重要的特征。为了消除RFECV中不太重要的特征，采用了线性核支持向量机(SVM)。对于这两个物种的数据集，作者发现支持向量机是本研究中采用的基于ML的分类器中性能最好的。在安装支持向量机之后，可以访问分类器系数。因此，可以通过将这些系数的大小彼此比较来生成ONF组。消除ML中最不重要的特征对于避免过度拟合、加快训练速度、减少计算时间和复杂度具有重要作用。因此，这种方法最终会产生更好的分类结果。

3.4 基分类器和堆叠

为了选择用于第一层堆叠的基分类器和用于第二层堆叠的元分类器，作者使用五种传统的ML算法对五种类型的序列编码方案和ONF进行了仔细的评估：Logistic回归(LR)、支持向量机(SVM)、随机森林(RF)、高斯朴素贝叶斯(GNB)和装袋(Bag)。作者观察到ONF在预测6mA位点方面提供了丰富的信息，而支持向量机代表了最强大的分类器。五个分类器的简要介绍和它们的配置细节在补充材料(B部分)中给出。
堆叠可以组合不同种类的基分类器，并通过训练元分类器来并行学习，以通过从基分类器的预测中提取来生成预测。该方法使用原始训练数据集训练基分类器(第一级学习器)，然后生成一个新的数据集来训练元分类器(第二级学习器)。对于元分类器，将基分类器的输出作为输入特征，而将原始标签用作新训练数据的标签，但这会导致过度拟合。为了避免叠加集成方法产生的过拟合，使用了交叉验证方法，将数据集分成k个部分，并在k个连续的轮次中，使用k−1个部分来拟合基分类器：在每一轮中，将基分类器应用于不用于模型的单个子集。
根据以往的研究，为了获得更好的解空间预测信息，严格推荐使用具有相互不同的基本操作原理的基分类器。在堆叠集成学习中，针对特定情况选择合适的基分类器是一个主要的挑战。这是因为如果基分类器高度相关并生成相似的输出，则它们的组合不会产生准确的预测。相反，当基分类器是独立的并做出不同的预测时，可以很容易地猜测出独立的错误被抵消的机会更大。另一方面，Breiman声称，尽管堆叠方法在实践中工作得很好，并且已经成功地应用于几个机器学习和生物信息学任务，但它还没有被证明正式满足最优化原则。在算法1的三个步骤中，给出了堆叠集成算法的详细流程。

选择堆叠的基本分类器(CB)组合的步骤，根据基分类器工作原理的不同，我们对五种不同的组合进行了评价。这五种组合如下：

CB1: consists of SVM, LR, and RF
CB2: consists of SVM, LR, and BAG
CB3: consists of SVM, LR, and GNB
CB4: consists of SVM, LR, GNB, and RF
CB5: consists of SVM, LR, GNB, and BAG
对于这一系列的基本量词组合，作者努力将具有不同基本原理的基本量词组合在一起。例如，对于CB4和CB5，前三个基分类器SVM、LR、GNB具有不同的工作原理，它们分别与基于树的算法RF和BAG相结合。虽然基分类器有更多可能的组合，但我们在这里给出了性能最好的五个集合。在每个集合中，基分类器的所有组合以并行和组合的方式学习，对于本研究中使用的数据集，根据最强分类器的表示，使用支持向量机作为元级分类器是合理的。

4.结果

作者通过五种类型的特征编码方案和ONF来展示所有五种基于ML的算法的性能，演示了ONF如何帮助提高这些分类器的性能。对五种堆叠框架的性能进行了比较，并选择了最优的堆叠模型作为i6mA-stack生物信息学工具。

4.1 用RFECV选择ONF

构建i6mA-stack在识别两个基因组中的6mA位点时表现良好的原因之一是由于通过不同的特征学习方案获得的ONF组。为了说明这一点，作者在Scikit-Python库中计算了t-SNE，并在二维空间的散点图中可视化了结果，使用成本函数来优化低维空间和高维空间中的实例对之间的相似性度量。在本研究中，所有参数都保留为默认值(n_components=2，perplexity=30，learning_rate=200和每种编码方案的迭代次数[n_iter]=1000)。图2显示了F.vesca数据集中6个特征描述符的6mA和非6mA序列的分布。绿色和红色的圆圈分别表示6mA和非6mA。图中显示，通过RFECV用生成的ONF(210特征)编码的6mA和非6mA序列很容易分离，尽管有几个序列重叠。作者还计算了R.chinensis数据集的t-SNE分布，在补充材料(图3)中给出了。S1)。它还表明，与五种原始编码方案相比，当编码ONF特征集时，6mA和非6mA样本更容易区分。

通过RFECV从每种编码方案中选择的ONF的数量如图3所示。

4.2 F.vesca and R.chinensis核苷酸偏好性分析

为了分析6mA和非6mA的序列在位置特异性上的统计学差异，使用双样本LOGO软件(在p0.05水平上)。LOGO软件已在一系列出版物中用于研究不同物种核苷酸组成的位置特异性偏好。作者检查了‘A’核苷酸位于长度为41-nt的DNA序列的第21位，如图4所示。对于F.vesca，‘A’碱基在15-18，25和28位出现过多，而‘G’碱基在1，3，5-14，20，22-24，26，29-34，35，38，39和41位出现过多。‘A’碱基在1-7、10、14、22-24、26、27、30和35-41位明显偏低，而‘T’碱基在8、11-14、17-20、23、25、26、28、29和39位明显偏低。在R.chinensis中，‘A’碱基在第1、3、7、10、12、13、15-20、25、28、29、32-34和37位密集，而‘C’碱基在第6、19、24、27、30和36位出现过多。G碱基在第15、17-19、25、27、28、30、32、37、40和41位明显偏低。核苷酸在特定位置的过度表达和不足表达可能对识别6mA位点有重要信息。
此外，作者还显示了在输入序列的每个位置上每种编码方案的ONF的贡献，如图5A所示(F.vesca)和图5B(用于R.chinensis)。在这两个物种的情况下，输入序列中的几乎所有核苷酸都有助于生成长度为210的最终特征向量。这些结果表明，远端核苷酸有助于区分6mA和非6mA。

4.3 基分类器和元分类器的性能

基于这五种编码方案和ONF，作者首先分析了五种广泛使用的基于ML的算法，即SVM、RF、LR、GNB和BAG算法的预测性能。五种编码方案和五种基于ML的算法的性能在补充材料(E部分)中给出。结果表明，与其他5种编码方案相比，基于最大似然分类算法的ONF在预测任务中的准确率更高，支持向量机的分类性能优于其他分类器。表2显示了五种特征编码方案和由支持向量机分类的ONF的性能，并且可以清楚地看到，当通过SVM分类时，ONF特征对于实现两个物种的五种编码方案中的每一种都明显更有帮助。
如图6所示，ROC曲线表明，对于这两个物种，通过ONF的支持向量机始终比其他编码方案执行得更好。

表3表明，与其他基于ML的方法(即RF、LR、GNB和BAG)相比，优化的线性核支持向量机具有更高的CV精度。F.vesca支持向量机的ACC值为0.9376，MCC值为0.8753，AUC值为0.9740，而中国大黄树的ACC值为0.9161，MCC值为0.8154，AUC值为0.9630，而线性核支持向量机的ACC值、MCC值和AUC值分别为0.9161、0.8154和0.9630。值得注意的是，LR提供了第二高的性能。在学习原理上，支持向量机和支持向量机各有不同，但性能最好。因此，除了选择支持向量机作为元分类器外，还可以选择支持向量机和LR作为关键的基分类器。此外，RF算法、GNB算法和BAG算法都表现出了令人满意的性能，ACC值都在83.00%以上。为了确定基分类器的最佳组合，我们构建了五个CB，即CB1、CB2、CB3、CB4和CB5，如第2.3节所述。表4显示了这两个物种的每种组合的性能。从表4中，我们注意到Cb1、Cb2、Cb3、Cb4和Cb5堆叠模型集提供了类似的性能，ACC值大于0.9300。然而，CB4提供了最高的性能，它包括SVM、LR、GNB和RF作为基分类器，SVM作为元分类器。在5倍CV的基准数据集上，对于F.vesca，Cb4的Sn为0.9694，Sp为0.9321，Acc为0.9510，Mcc为0.9025，AUC为0.9880。对于R.chinensis基准数据集上的五倍CV，CB4提供了Sn为0.9408，Sp为0.9394，Acc为0.9401，MCC为0.8800，AUC为0.9766。因此，CB4(i6mA-stack)被选为对这两个物种的最终6mA预测。此外，当在两个物种的训练数据集上进行测试时，堆叠模型获得的结果明显优于单个分类器获得的结果：图7给出了五个基于ML的分类器和堆叠模型CB4(i6 mA堆栈)的比较AUC曲线。

4.4 在独立数据集上与现有方法的性能比较

为了测试i6mA-stack是否可以在看不见的数据集上识别6mA的位置，作者在独立的测试数据集上运行了该模型。用不同比例的正负序列构建独立的数据集。F.vesca分别为：1：1[347份阳性样本和347份阴性样本]，1：5[347份阳性样本和1735份阴性样本]，1：15[347份阳性样本和5202份阴性样本]。R.chinensis数据集也分别为：1：1[143份阳性样本和143份阴性样本]、1：5[143份阳性样本和715份阴性样本]和1：15[143份阳性样本和2145份阴性样本]。在两个物种的比率组中，负序列不重叠。图8显示了的预测器在两个物种的所有独立数据集上生成的精确召回曲线(PRC)。

为了公平比较，作者只使用了一种方法：i6mA-Fuse，这是Mehedi Hasan等人使用MD最近建造的一种网络服务器。到目前为止，该服务器是唯一一个用于鉴定蔷薇科基因组中6mA位点的基于网络的服务器。尽管有几种在线工具可用于预测不同物种的6mA位点，但由于6 Ma位点的物种特异性，这些工具并未包括在本研究中。作者在i6mA-Fuse网络服务器上使用相同的独立数据集的正负比。表5列出了i6mA-Fuse和i6mA-stack的表现。对于F.Vesca，对于1：1比率独立的数据集，i6mA-Fuse产生的SN为0.9379，SP为0.8889，ACC为0.9148，MCC为0.8292，AUC为0.9520。除Sn外，其余各项参数都得到了改善，SP提高了8.22%，ACC提高了2.61%，MCC提高了5.42%，AUC提高了1.8%。对于R.chinensis，i6mA-stack模型SN高2.31%，SP高2.53%，ACC高2.33%，MCC高4.79%，AUC高1.9%。对于比例为1：5的独立数据集，除灵敏度外，F.vesca的SP、ACC、MCC和AUC分别提高了8.83%、5.19%、8.45%和0.9%，而R.chinensis的SN、SP、ACC、MCC和AUC分别提高了1.6%、0.55%、1.12%、2.24%和2.24%。类似地，当基于F.vesca的独立数据集以1：15的比率评估预测时，i6mA-stack的性能在SN、SP、ACC、MCC和AUC上分别比i6mA-Fuse高0.44%、9.65%、4.43%、8.59%和2%，而对于R.chinensis，i6mA-stack的性能比i6mA-Fuse 在SN高1.53%，SP比Sp高1.24%，ACC高1.4%，MCC高2.8%，AUC高5.25%。基于不平衡数据集的独立测试结果，我们的方法增加了对不平衡数据集比率增加的健壮性和稳定性，而i6mA-Fuse在不平衡数据集上表现不佳。
这些结果表明，所提出的i6mA-stack模型是对现有方法的改进，因此在计算生物学领域和相关学术界是一个很有前途的预测工具。i6mA-stack的优越性能可以从以下几个方面解释：减少数据集冗余，通过不同的编码方案选择ONF，以及基础学习者和元学习者的适当组合。另一方面，尽管已经对堆叠系综进行了大量的理论分析，但对堆叠系综模型的机理还没有完全理解。应该注意的是，作者的方法旨在组合异质(字符不同)和强(即每个基分类词本身表现相对较好)的基分类词，而不是同质(同类)和弱的基分类词。
此外，值得一提的是，最近的一篇论文(HLPpred-Fuse)使用了集成方法来预测溶血肽及其活性，可以注意到，在六个基本分类器(RF、ERT、SVM、GB、AB和KNN)中，一些分类器具有相同的基本工作原理(同构)：例如，RF和ERT都是基于树的算法。作者的方法(使用异质原理)类似于HLPpred-Fuse的方法。

5.Web服务器实现

用Python和Flask库开发了一个用户友好且可公开访问的Web服务器：http://nsclbio.jbnu.ac.kr/tools/i6mA-stack/

6.讨论

通过融合5种不同的DNA序列编码方案，并通过RFECV提取最佳特征，发展了一种新的基于堆叠的机器学习方法(i6mA-stack)，用于预测F.vesca and R.chinensis的6mA位点。作者提出的模型使用一组基本学习器(如SVM、LR、RF和GNB)来生成作为元学习器的SVM的输出。综上所述，本研究主要分为三个步骤：训练线性支持向量机从RFECV方法中提取最有用的进化信息特征，将这些特征作为堆叠的第一步来训练基学习器，并将基学习器的输出与线性支持向量机相结合作为堆叠的元阶段或第二阶段。结果表明，i6mA-stack的第二阶段支持向量机在训练数据集上F.vesca的ACC为95.10%，MCC为0.9025，AUC为0.9880；R.chinensis的ACC为94.01%，MCC为0.8800，最大似然比为0.9766。与另一种方法的比较表明，作者提出的方法在独立的测试数据集上提供了良好的结果，可以作为预测DNA序列中6mA的一个有前途的工具。此外，将堆叠模型与本研究中采用的各个基于ML的算法的性能进行了比较，结果表明i6mA-stack在基准数据集上的性能要好于基准数据集。作为最后一点，作者希望可靠的6 mA位点识别和验证与基于堆积的ML方法合作，将为更有效的计算机辅助甲基化位点预测铺平道路。

论文解读：《i6mA-stack: 基于堆叠框架的蔷薇科基因组DNA N6-甲基腺嘌呤(6mA)位点的计算预测》相关推荐

论文解读PCT: Point Cloud Transformer（用于点云处理的Transformer)
最近几年transformer越来越火,在NLP.CV等领域都取得了很大的成功.这篇文章作者利用了transformer能够处理无序数据的特点,将transformer应用到点云的处理上.它的想法是基 ...
CVM2021| PCT: Point cloud transformer（分类+分割任务SOTA）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨paopaoslam 来源丨泡泡机器人SLAM 标题:PCT: Point cloud tra ...
PCT: Point Cloud Transformer
PCT:点云Transformer Meng-Hao Guo Tsinghua University gmh20@mails.tsinghua.edu.cn Jun-Xiong Cai Tsinghu ...
FastFormers 论文解读：可以使Transformer 在CPU上的推理速度提高233倍
自Transformers诞生以来,紧随其后的是BERT,在几乎所有与语言相关的任务中,无论是问题回答,情感分析,文本分类还是文本生成,都占据着NLP的主导地位. 与RNN和LSTM消失的梯度问题(不 ...
Point Cloud Transformer(PCT)代码实现
Point Cloud Transformer(PCT)代码实现目前最火热的Transformer在自然语言和图像识别中扮演了极其重要的角色,在点云数据集中也不例外,清华大学近期提出在点云中运用Tr ...
论文解读：《基于BERT和二维卷积神经网络的DNA增强子序列识别transformer结构》
论文解读:<A transformer architecture based on BERT and 2D convolutional neural network to identify DN ...
Point Cloud Transformer（PCT）阅读翻译
PCT: Point Cloud Transformer 1. Introduction transformer是一种 encoder-decoder结构,包含了三个模块:输入词嵌入,位置(顺序)编码 ...
论文阅读 PCT：Point Cloud Transformer
论文阅读 PCT:Point Cloud Transformer PCT 介绍 Input Embedding native 版本 enhanced 版本 Attention PCT 介绍 PCT是基 ...
AI论文解读：基于Transformer的多目标跟踪方法TrackFormer
摘要:多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化.定位并构建时空上的跟踪轨迹.本文将这个任务构建为一个帧到帧的集合预测问题,并提出了一个基于transformer的端到端的多目标跟踪方 ...
论文解读：《功能基因组学transformer模型的可解释性》
论文解读:<Explainability in transformer models for functional genomics> 1.文章概括 2.背景 3.相关工作 4.方法 4. ...

论文解读：《i6mA-stack: 基于堆叠框架的蔷薇科基因组DNA N6-甲基腺嘌呤(6mA)位点的计算预测》