TransformerCPI文献阅读

本博文基于《TransformerCPI: Improving compound–protein interaction prediction by sequence-based deep learning with self-attention mechanism and label reversal experiments》这篇文章进行讲解，该文章发表在2020的Bioinformatics上，作者来自中国科学院上海药物研究所药物研究国家重点实验室，中国科学院大学和上海科技大学。文章的背景是化合物-蛋白质相互作用（CPI）的识别是药物发现和化学基因组学研究中的关键任务，而没有三维（3D）结构的蛋白质占了潜在的生物靶标的很大一部分，这要求开发仅使用蛋白质序列信息来预测的方法CPI。但是，基于序列的CPI模型可能会遇到一些特定的陷阱，包括使用不合适的数据集，隐藏的配体偏差以及不适当地分割数据集，从而导致对它们的预测性能的高估。而作者的主要工作是，构建了专门用于CPI预测的新数据集，提出了一个名为TransformerCPI的新型Transformer神经网络，并引入了更为严格的标签反转实验来测试模型是否学习了真实的交互特征。在新的实验中，TransformerCPI的性能大大提高，还可以根据权重突出蛋白质序列和化合物原子的重要相互作用区域，这可能有助于化学生物学研究，为进一步的配体结构优化提供有用的指导。该论文的源码公开在github上。

一、任务背景

化合物-蛋白质相互作用（CPI）的识别在发现hit化合物方面起着重要的作用。常规方法已经研究了数十年，例如基于结构的虚拟筛选和基于配体的虚拟筛选，并在药物发现中获得了巨大的成功。但是，在某些情况下不适合使用常规的筛选方法，例如，蛋白质的三维（3D）结构未知或已知配体数据集的数量太少。因此，有学者提出了一种称为化学基因组学的新观点，当没有蛋白质3D结构时，也可以预测的化合物-蛋白质相互作用。关于作为二元分类任务的CPI问题，可以将化合物视为一维序列或分子图（即2D结构），而将蛋白质序列视为一维序列。
随着深度学习的飞速发展，CPI研究中已经使用了很多种端到端的模型：
（1）DeepDTA使用卷积神经网络（CNN）提取化合物和蛋白质的低维实值特征，然后将两个特征向量连接起来并经过完全连接的层以计算最终输出。
（2）WideDTA和Conv-DTI遵循了与DeepDTA类似的想法，WideDTA还利用了两个额外的功能，即配体最大共同结构（LMCS）和蛋白质模体和结构域（ PDM），以提高模型性能。
（3）将化合物结构视为分子图的话，CPI-GNN和GraphDTA使用了图神经网络而不是CNN来学习化合物的表示。
（4）在DeepAffinity和Gao’s工作中，RNN也被用来提取化合物和蛋白质的特征向量。Zheng’s工作也将化合物和蛋白质视为序列信息。
尽管很多基于深度学习或机器学习的新模型在各种数据集上均表现出令人满意的性能，但是，很少有人花费精力去评估它们在外部测试或实际应用中的泛化能力。由于深度学习是一种数据驱动的技术，因此了解模型真正学习的内容并避免意外因素的影响至关重要。最近，谷歌的研究人员提出了机器学习应避免的三个陷阱，包括分割数据不恰当（splitting data inappropriately），隐藏变量（hidden variable）和弄错目标（mistaking the objective）。受AI行业中这些警告的启发，作者想知道基于化学基因组学的CPI建模是否面临类似的问题，并总结了三个独特的问题：

1 Using inappropriate datasets（使用不合适的数据集）

数据是深度学习模型的核心基础，在某种程度上，模型学习的内容主要取决于所输入的数据集，而不合适的数据集会使模型容易偏离目标。CPI建模的总体目标是用蛋白质和配体特征的抽象表示形式，预测不同蛋白质与不同化合物之间的相互作用。因此，相互作用的信息是模型应从数据集中学习的关键要素。以前基于化学基因组学的CPI预测模型使用不合适的数据集来构建深度学习模型，例如DUD-E数据集和Human数据集，收集DUD-E数据集的目的是训练基于结构的虚拟筛选。此外，DUD-E，MUV，Human和BindingDB中的大多数配体仅在一类中出现，并且阴性样本的生成可能引入了无法检测到的噪声。这些数据集可以只通过配体信息分开，无法不能保证模型学习到蛋白质信息或相互作用的特征。

2 Hidden ligand bias（隐藏的配体偏差）

深度学习系统通常被称为黑匣子模型，因此很难解释该模型确切学习了什么以及该模型基于什么进行预测。在验证集和测试集上获得更好的性能通常意味着研究结束了，很少人会花费精力来进一步研究模型是否以预期的方式学习。在DUD-E和MUV数据集中已经报道了隐藏的配体偏差问题，这引起了药物设计领域的广泛关注。隐藏的配体偏差是指模型主要根据配体pattern进行预测而不是根据相互作用的特征，从而导致理论建模和实际应用之间有偏差。比如，基于结构的虚拟筛选，基于3D-CNN的模型以及在DUD-E数据集上训练的其他模型。我们想知道基于化学基因组学的CPI建模是否面临类似的问题，从而以Human数据集为例，重新研究了先前的CPI-GNN典型模型，以研究隐藏的配体偏差的潜在影响。下图A显示了在人类数据集上训练的CPI-GNN模型的权重分布图。

用于提取蛋白质特征的CNN块的权重明显集中在零，这表明在进行预测时很少考虑蛋白质信息。相反，用于提取复合特征的GNN块的权重分布宽而平坦。因此，作者认为配体信息比蛋白质信息更重要。在上图B中阐明了仅配体信息的进一步训练及其与原始模型的比较，其中将数据集随机划分了10次，并在10次划分中对两个模型进行了评估。在两个样本的t检验中，AUC分布差异的p值大于0.05，这表明单独使用配体信息可能会比使用配体和蛋白质信息的原始CPI-GNN模型取得更具有竞争力的性能。因此，CPI-GNN模型主要学习如何对不同的配体进行分类，而不是对不同的CPI对进行分类，这增加了预测错误的风险。这些结果突出了配体pattern可能误导模型的可能性。

3 Splitting dataset inappropriately（不恰当地划分数据集）

隐藏配体偏差的风险很难消除，但可以降低。通常，机器学习研究人员会将数据随机分为训练集和测试集。然而，在随机划分的测试集上使用传统的分类测量，我们并不清楚模型是否学习了真实的相互作用特征或其他的隐藏变量。因此，测试集应该根据建模的实际目标和应用场景进行设计，而不是简单地随机划分。

为了解决上面3个问题，作者提出了一个名为TransformerCPI的新型Transformer神经网络，构建了针对CPI建模的新数据集，并引入了更为严格的标签反转实验，以评估数据驱动模型是否陷入AI的常见陷阱里。结果，TransformerCPI在三个公共数据集和两个标签反转数据集上均取得了最佳性能。此外，作者还通过将注意力权重映射回蛋白质序列和化合物分子，进一步研究了TransformerCPI的可解释性，以揭示其潜在的预测机制，结果还证实了TransformerCPI的自注意力机制可用于捕获所需的相互作用特征。作者希望这些发现可以引起研究者的注意，以提高CPI建模的泛化和解释能力。

二、主要内容

1 TransformerCPI的模型结构

作者提出的模型基于Transformer架构，该架构最初是为神经机器翻译（NMT）任务而设计的。Transformer是一种自回归的编码器-解码器模型，结合了多头注意层和位置前馈功能来解决序列到序列（seq2seq）任务。最近，Transformer架构在语言表示学习任务中取得了巨大成功，并且已经建立了许多新颖而强大的预训练模型，例如BERT，GPT-2，Transformer-XL和XLnet。Transformer也用于化学反应预测，但是它仍然局限于seq2seq任务中。受其捕获两个序列之间特征的强大能力的启发，作者修改了Transformer架构，将化合物和蛋白质视为两种序列来预测CPI。提出的TransformerCPI的总体如下图所示，其中作者仍然用的是Transformer的解码器，但是修改了其编码器和最终的线性层。

为了将蛋白质序列转换为序列表示，作者首先将蛋白质序列拆分为overlapping的3-gram氨基酸序列，然后通过预训练方法word2vec将所有单词翻译为实值嵌入。Word2vec是一种无监督的技术，用于学习描述复杂句法和语义词关系的高质量分布式矢量表示，其中包括两种称为SkipGram和Continue Bag-of-Words（CBOW）的预训练技术。 Skip-Gram用于从上下文中预测某个单词，而CBOW用于从给定单词中预测上下文。集成Skip-Gram和CBOW，word2vec最终可以将单词映射到低维实值向量，其中具有相似语义的单词映射成彼此接近的向量。已经有一些应用word2vec表示蛋白质序列的工作，其中氨基酸序列将恒定长度k（k-mers）的“片段”拆分为单词，并将整个氨基酸序列视为文档。我们按照这些工作来预处理蛋白质序列，并将UniProt中的所有人类蛋白质序列作为语料库包括在内，以对word2vec模型进行预训练，并将隐藏维数设置为100。在我们之前构建的大型语料库上对word2vec模型进行了30个epochs的训练之后，蛋白质序列可以推断为100维实值向量。
将蛋白质的序列特征向量传递给编码器，以了解蛋白质的更多抽象表示形式。值得注意的是，作者用相对简单的结构替换了编码器中的原始自注意层。考虑到传统的Transformer架构通常需要庞大的训练语料库，并且容易在小型或中等规模的数据集上过拟合，因此作者使用了Conv1D的门控卷积网络和使用门控线性单位（GLU），因为它们在作者设计的数据集上表现出更好的性能。门控卷积网络的输入是蛋白质特征向量的序列。作者计算隐含层 h 0 , . . . , h L h_0, ..., h_L h0,...,hL的公式如下：

最初使用RDKit python软件包将每个原子特征表示为大小为34的向量，原子特征的汇总如下表所示。然后，作者使用GCN通过集成其相邻原子特征来学习每个原子的表示。

GCN最初是为解决半监督节点分类问题而设计的，可以将其转移到解决分子表示问题。

当获得蛋白质序列表示和原子表示时，成功地将蛋白质和化合物转换为两个序列，这符合Transformer的结构。相互作用的特征是通过Transformer的解码器学习的，该解码器由自注意层和前馈层组成。在作者的工作中，蛋白质序列是编码器的输入，原子序列是解码器的输入，解码器的输出是包含相互作用特征且与原子序列长度相同的相互作用序列。鉴于原子特征向量的顺序对CPI建模没有影响，作者删除了TransformerCPI中的位置嵌入。解码器中的关键技术是多头自注意力层。多头自注意层由几个按比例缩放的点注意层组成，以提取编码器和解码器之间的相互信息。自注意层接受三个输入，即键K，值V和查询Q，并按以下方式计算注意力权重：

其中的缩放因子取决于层的大小。这种注意力机制允许解码器动态地专注于编码器输出的一些关键部分，从而直接捕获给定两个序列的交互特征。此外，原始Transformer旨在解决序列预测任务并利用掩码操作来覆盖解码器中每个单词的下游上下文。作者修改了解码器的掩码操作，以确保模型可访问整个序列，这是将Transformer体系结构从自回归任务转换为分类任务的最关键的修改之一。

TransformerCPI是使用Pytorch 1.2.0实现的，而word2vec模型是通过Gensim 3.4.0构建和训练的。基本的Transformer模型有6个层，具有512个隐藏维度，但作者将层数从6个减少到3个，将隐藏层的维数从512个减少到64个。蛋白质表示，原子表示，隐藏层和交互特征表示的维度为64。保留了原来的8个注意力头，因为此配置实现了卓越的泛化能力。在训练中，作者使用了LookAhead优化器和RAdam优化器，它解决了没有学习率warmup的Adam优化器最严重的收敛问题。TransformerCPI的超参数和设置如下表所示。

2 数据集

2.1 公开数据集

作者在之前的三个基准数据集——Human数据集，C.elegans数据集和BindingDB数据集上对模型进行了比较。 Human数据集和C.elegans数据集包括DrugBank 4.1和Matador的正CPI对以及通过系统筛选框架获得的高度可信的负CPI样本。具体来说，Human数据集包含1052种独特化合物与852种独特蛋白质之间的3369种正的相互作用； C.elegans数据集包含1434个独特化合物和2504个独特蛋白质之间的4000种正相互作用，并且训练集，验证集和测试集被随机拆分。 BindingDB数据集包含来自公共数据库的39747个阳性示例和31218个阴性示例。 BindingDB的训练集，验证集和测试集都经过了精心设计，并且测试集包括CPI对，其中测试集中的蛋白质或配体在训练集中没有出现过。因此，BindingDB数据集可以评估模型对未知配体和蛋白质的泛化能力。

2.2 标签反转数据集

为了构建专门用于基于化学基因组学的CPI建模的数据集，作者遵循两个规则：
（i）从经过实验验证的数据库中收集CPI数据；
（ii）每个配体应同时存在于两类中。
之前的许多研究都是通过CPI对的随机交叉组合或使用基于相似度的方法来生成负样本的，这可能会引入意想不到的噪声和不被注意的偏差。
首先，作者从GLASS数据库构建了一个GPCR数据集。 GLASS数据库提供了大量经过实验验证的GPCR-配体关联，这满足了第一个规则。 GLASS数据库使用 I C 50 IC_{50} IC50， K i Ki Ki和 E C 50 EC_{50} EC50作为结合亲和力值，将其转换为负对数—— p I C 50 pIC_{50} pIC50， p K i pK_{i} pKi和 p E C 50 pEC_{50} pEC50。如同早期工作，作者设定阈值6.0将原始数据集分为正样本集和负样本集。然后，选择遵循第二条规则的蛋白质-化合物对来构建最终的GPCR数据集。最终的GPCR数据集包括5359个配体，356个蛋白质和15343 CPI。
其次，作者基于KIBA数据集构建了Kinase数据集。KIBA数据集结合了各种生物活性类型，包括 I C 50 IC_{50} IC50， K i K_i Ki和 K d K_d Kd，并消除不同生物活性类型之间的不一致，这大大降低了数据集中的偏差。KIBA数据集包含从ChEMBL和STITCH收集的467个靶标和52498个配体，那确保了KIBA中的数据是经过实验验证的。鉴于大多数配体只出现一次，作者效仿一项工作（SimBoost）对原始KIBA数据集进行过滤，获得229种蛋白质和2111种化合物。然后，作者使用KIBA的阈值12.1将数据集分为正样本集和负样本集，选择同时存在于正样本集和负样本集的化合物，共产生1644种化合物，229种蛋白质和111237 CPI。下表总结了作者构建的GPCR数据集和Kinase数据集。

如前所述，隐藏的配体偏差可能导致数据驱动模型学习数据中意外的统计线索或pattern，而不是所需CPI信息。为了测试模型是否真正了解相互作用特征并准确评估隐藏配体偏差的影响，作者提出了更严格的标签反转实验。标签逆转实验如下图所示，其中训练集中的配体仅出现在一类样本中（正或负相互作用CPI对），而在测试集中配体仅出现在另一类样本中。

通过这种方式，该模型被迫利用蛋白质信息来了解相互作用模式，并对那些所选配体做出相反的预测。如果模型仅存储配体模式，则不可能做出正确的预测，因为其存储的配体在测试集中具有错误的（相反）标签。因此，该标签逆转实验是专门设计用于评估基于化学基因组学的CPI模型，并且能够指示隐藏的配体偏向产生了多大的影响。
对于GPCR集和Kinase集，作者分别随机选择了500个和300个配体，并将所有涉及这些配体的阴性CPI样本汇集在测试集。同样，作者分别选择了另外500个和300个配体，并将它们所有相关的阳性样本集中在测试集中。在该实验设计下，最终建立了具有1537个交互作用的GPCR测试集和具有19685个交互作用的Kinase测试集。其余数据集用于确定超参数，并选择最佳模型以进行标签逆转实验进行评估。

2.3 标签反转数据集的数据分布

在训练模型之前，作者研究了GPCR集和Kinase集的数据分布。由于每种配体可能以多种阳性和阴性类别出现，分别代表与不同蛋白质的相互作用或非相互作用，因此对在阳性和阴性样本中出现的频率进行了分析。基于这个问题，作者计算出每个配体的两类对数比率，以描述数据分布：

三、结果和讨论

1 在公开数据集的性能

许多机器学习方法，例如K近邻（KNN），随机森林（RF），L2-逻辑回归（L2），支持向量机（SVM），新报告的基于序列的模型CPI-GNN和DrugVQA已在这些数据集上进行了评估。 GraphDTA最初是为回归任务设计的，在这里，作者将其最后一层定制为二进制分类任务。由于这些数据集没有3D结构信息，因此没有对依赖蛋白质的3D结构信息的模型进行比较。作者效仿与CPI-GNN相同的训练和评估策略，重复3种不同的随机种子（DrugVQA也是这种策略）来评估TransformerCPI。另外，AUC，precision和recall被展示在表4和表5。由于文献中未提及KNN，RF，L2，SVM的实现，因此未对这些模型在BindingDB数据集进行比较。表6中显示了每个模型的精确召回曲线下面积（PRC）和AUC。在三个公共数据集上，TransformerCPI优于其他模型。

2 在标签反转数据集上的性能

作者选择CPI-GNN，GraphDTA和GCN作为参考，并根据AUC和PRC比较了TransformerCPI与这些模型的性能。下图总结了这些模型的AUC和PRC。

为了进行公平的比较，每个模型都在相同的验证集上进行了微调。如上图所示，所有模型在GPCR和Kinase的验证集上均实现了相似的性能，但是，在测试集上观察到了这些模型之间的巨大性能差距。尽管这些模型在随机拆分验证集上具有相似的性能，但它们所学到知识彼此之间却存在很大差异，这在更严格的标签反转实验中得到了揭示。
在GPCR上，TransformerCPI在AUC和PRC方面均胜过CPI-GNN，GraphDTA和GCN，显示出更高的捕获化合物和蛋白质之间相互作用特征的能力。与其他模型相比，在标签逆转实验中，CPI-GNN表现最差，因此作者认为GPCR数据集的配体pattern可能会在CPI-GNN中带来不可忽略的影响，产生配体偏差。在Kinase集上，TransformerCPI的AUC和PRC优于CPI-GNN，GraphDTA和GCN，baseline模型的AUC均小于0.5，因此Kinase数据集的配体pattern可能在所有baselines中带来不可忽略的影响。此外，GraphDTA和GCN在GPCR数据集上表现良好，接近TransformerCPI，但在Kinase集上表现较差。相比之下，TransformerCPI在两个数据集上都取得了最好的性能，显示了它的鲁棒性和泛化能力。总的来说，这些结果表明作者提出的TransformerCPI具有学习蛋白质和配体之间相互作用的能力，标签反转实验可以有效地评估隐藏的配体偏差对模型的影响，更重要的是，所提出的建模方案有助于降低基于化学基因组学的CPI任务的常见风险。

3 模型的数据依赖性

在比较GPCR集和Kinase集之间的结果时，还应注意，TransformerCPI，GraphDTA和GCN的性能在GPCR上要比Kinase要好得多。作者认为这种性能差异可能有两个潜在原因：第一个是GPCR集和Kinase集的数据分布不同，从而导致两个数据集之间的性能差距。第二个是GPCR的序列特征对TransformerCPI来说更容易学习。
如下图所示，GPCR的log_ratio分布的峰位在0处，这意味着GPCR中的大多数配体具有相等数量的相互作用对和非相互作用对。相反，Kinase的log_ratio分布的峰显着移至-1，表明Kinase组中的大多数配体具有比相互作用对多近十倍的非相互作用对。因此，正对和负对的高度不平衡分布可能会给数据集带来严重的配体偏差，这可能会增加数据驱动的模型记住配体pattern的风险，从而导致Kinase集预测性能下降。

另一个潜在的原因是，GPCR的与CPI相关的序列特征比Kinase更易于学习。尽管GPCR家族共享大量的α-螺旋区域和七个跨膜结构，但整个家族中的结合位置和结合口袋更加多样化，这使得模型相对容易地学习与CPI相关的序列特征以区分相互作用对和非相互作用对。然而，与GPCR家族相比，Kinase家族具有更保守的ATP结合口袋，具有更少的不同残基，这要求模型必须学会检测和理解蛋白质序列的微小变化，因此区分相互作用和非相互作用对模型来说更具有挑战性。此外，TransformerCPI的数据依赖性还告诉我们，基于化学基因组的CPI预测，尤其是蛋白质序列的表示，仍有改进的空间。

4 模型消融研究

以前的基于化学基因组学的CPI模型分别和独立地提取配体和蛋白质特征，然后将这两个特征向量连接起来作为输入特征。为了验证Transformer编码器-解码器体系结构的作用，作者评估了TransformerCPI消融模型，该模型在相同的标签反转实验上用常规向量concat代替了Transformer解码器。如第2节中的图所示，这种消融过程极大地损害了GPCR集和Kinase集上TransformerCPI的性能，表明自注意机制与编码器-解码器体系结构确实在提取两种类型序列之间的相互作用特征中起着关键作用。

5 模型可解释性

尽管深度学习被称为黑盒算法，但了解模型如何进行预测以及模型是否可以提供优化建议或指导是必不可少的。由于Transformer结构和自注意力机制的存在，通过蛋白质序列和化合物原子的注意力权重可以很容易地理解模型背后的机制。
如下图所示，注意力权重已映射到化合物原子上，以揭示TransformerCPI所学的知识。当面对不同的化合物-蛋白对时，TransformerCPI注意不同的原子，并将化合物-蛋白对正确地分为相互作用和非相互作用两类。

在这里，TransformerCPI生成对应于不同蛋白质的不同配体特征，这与配体的结合模式在与不同蛋白质相互作用时是不同的事实是一致的。因此，TransformerCPI很难记住配体模式，因为配体特征针对不同的蛋白质而变化。该结果也解释了为什么TransformerCPI在标签反转实验中显示出更好的性能。基于特定蛋白质上下文的TransformerCPI的动态特征提取有助于该模型提取相互作用的关键信息，同时还可以降低隐藏的配体偏差的可能性。此外，TransformerCPI的解码器动态整合蛋白质序列和化合物原子的特征以形成直接相互作用的特征，这与语言翻译任务相似，并且与配体与蛋白质的结合过程非常吻合。
为了进一步验证原子的注意力权重的含义，作者选择了化合物吩噻嗪来显示TransformerCPI的解释。吩噻嗪是一种针对多巴胺受体（DA）的经典抗精神病药，其结构活性关系（SAR）已得到深入研究。如下图所示，注意力权重突出显示的吩噻嗪原子与吩噻嗪的SAR非常吻合，这证实了TransformerCPI能够捕获真实的相互作用特征并找出与蛋白质相互作用的关键原子。此重要信息有助于药用化学家推测靶分子的潜在SAR，并可能为进一步的结构优化提供有用的指导。

在解释了原子级注意力机制之后，作者还研究了蛋白质序列的注意力权重，以了解蛋白质序列的哪些部分成为关注的焦点。结果，TransformerCPI可以粗略推测配体与GPCR家族的结合位点是在细胞外区域还是跨膜区域，并检测Kinase家族的ATP结合口袋。以组胺H1受体，5-HT1B受体和丝裂原激活的蛋白激酶8（MAPK8）及其相应的活性成分为例。
如下图所示，TransformerCPI成功地将配体与组胺H1受体的结合位点定位在跨膜区，将配体与5-HT1B受体的结合位点定位在细胞外区域，并检测到MAPK8的ATP结合口袋，进一步验证TransformerCPI已学习生物学知识并获得了结构上的见解。

这些结果表明，TransformerCPI可以推测新化合物是结合到GPCR靶标的跨膜区还是细胞外区域，这在药物设计中很有用，尤其是当GPCR靶标的3D结构未知时。同时，突出显示的区域涉及更广泛的区域，并不对应于确切的结合位点残基。为了解决这个问题，需要合并具有精确注释的更高质量的数据，新的基于序列的深度表示学习也可能有助于更好地编码和解码结构信息。例如，Ethan C. Alley等人最近提出了一种新的表示方案，已证明用于研究蛋白质序列的效率有所提高。
总体而言，基于化学基因组学的CPI仍有很长的路要走，作者希望这项工作能够引起研究者对CPI建模问题的关注，并为进一步的研究提供有用的指导。此外，实验设计在深度学习中起着重要的作用，应将更多的精力用于评估深度学习模型实际学习的内容。这样，在深度学习的未来发展中，不仅应强调新的深度学习方法，而且应强调新的验证策略和实验设计。

四、总结

在这项工作中，具有自注意机制的Transformer体系结构被修改为解决基于序列的CPI分类任务，从而产生了一个名为TransformerCPI的模型，该模型在三个基准数据集上均显示出高性能。作者将其与先前报告的CPI模型和基于传统机器学习的控制模型进行了比较，并注意到，在这些基准测试中，大多数模型都产生了令人印象深刻的结果。考虑到CPI预测的挑战性，作者认为这些模型可能会面临深度学习的潜在陷阱。为了解决这些潜在陷阱，作者构建了特定于基于化学基因组学的CPI任务的新数据集，并设计了更严格的标签反转实验，作为基于化学基因组学的CPI建模的新度量。与其他模型相比，TransformerCPI在新实验中获得了显着改善的性能，表明它可以学习所需的相互作用特征并降低隐藏的配体偏差的风险。最后，通过将注意力权重映射到蛋白质序列和复合原子上来研究模型的解释能力，这可以帮助确定预测是否可靠和具有物理意义。总体而言，TransformerCPI提供了模型解释的途径，并为化学生物学研究做出了贡献，为进一步的配体结构优化提供了有用的指导。