文章目录

jTrans: Jump-Aware Transformer for Binary Code Similarity Detection
- background
- Problem definition
- overview
- - Preprocessing
  - Modeling Jump Instruction
- dataset
- evaluation
- - compare model
  - Performance

jTrans: Jump-Aware Transformer for Binary Code Similarity Detection

core：将控制流信息嵌入到transformer的解决方案

background

Binary code similarity detection(BCSD)可以识别两个二进制代码片段之间的相似程度，这有着广泛的应用，包括已知的漏洞发现，恶意软件检测和聚类，软件剽窃检测，补丁分析，以及软件供应链分析。（应用与价值）

在机器学习应用到该领域之前，传统的bcsd严重依赖于手工提取的cfg特征，它可以捕获句法知识，如bindiff采用图同构技术来计算两个函数的cfg之间的相似性，但这种相似性可能会根据编译器的优化而改变，而注入bingo等方案通过计算cfg片段的相似性来实现对cfg变化的更大稳健性。这些手工特征很难捕捉到二进制代码的精确语义，因此仅具备较低的准确性。

而机器学习的最先进方案是SOTA，一般来讲，这些解决方案是将目标二进制代码嵌入到向量中，并计算函数在向量空间的相似度。

一些解决方案使用nlp的语言模型来模拟汇编语言，如asm2vec等，而另一些解决方案则使用gn来学习cfg的表示方法并计算其相似性。也存在同时结合两种方法的方案，使用nlp学习基本快的表示，并通过gnn来处理cfg中的基本快特征。尽管性能有所提升，但现有的方法有几个局限性。

基于nlp的汇编语言建模只考虑了指令顺序徐和它们之间的关系，有关程序实际执行的控制流信息没有被考虑，因此仅依靠nlp的方法将缺乏对分析的二进制文件的语义理解，而且也不能很好的适应代码中可能出现的重大变化，这些变化是编译器所带来的结果。
仅依靠cfg会错过每个基本块中指令的语义，使用gnn来处理cfg只能捕获结构信息，一般来讲，gnn相对难以训练和并行使用。
现有解决方案所使用的数据集不够大不够多样化，缺乏一个共同的大型基准。

jTrans，一个基于transformer的新型模型，旨在解决上述问题，并支持现实世界的二进制相似性检测。将捕获指令于一的nlp模型和控制流信息的cfg结合起来，推断二进制代码的表示。将控制流信息融合到transformer架构中。

Problem definition

问题的正式定义，bcsd是一个计算二元函数相似度的基本任务，可用于以下3种情况：

一对一，返回一个源函数与目标函数的相似度分数
一对多，返回目标函数与函数池中所有函数的相似度分数
多对多，根据相似度将函数池分为若干组

研究重点在一对多情况。

下图所示了一个二进制函数的例子，左边是线性的汇编指令，右边是cfg控制流图；

二进制相似性判断的大致流程如下：

overview

jtrans基于transformer-encoder架构，包括几个重要的变化，旨在对二进制分析这一挑战性的领域更加有效。

对汇编指令进行预处理，使其包含程序的跳转关系，即控制流信息。修改transformer的单个输入标记的嵌入，使跳转的起点和终点位置在语义上相似
Masked language model(MLM)要求根据邻居的内容来预测屏蔽的标记内容，从而迫使模型对指令之间的关系形成上下文理解。增加辅助训练任务，要求模型理解跳转指令的目标。

应用BERT存在以下两个难点：

词汇外的token，jtrans只能在固定词汇表上进行训练，不包括在词汇表中的token需要以一种能够使转换器有效处理的方式进行表示。
对jump指令进行建模，在预处理后，源token与目标token之间的有效信息所剩极少，bert很难推断它们之间的关联关系，这使得上下文推断更加困难。

Preprocessing

为了减轻oov问题，使用ida pro产生汇编指令序列，然后应用以下表计划策略来规范和减少词汇量：

使用操作码和操作数作为token
使用代替字符串
使用代替常量值
外部函数调用保留，内部函数调用代替为
对于每个跳转对，使用jump_XXX替换源标记

Modeling Jump Instruction

引入位置编码使模型确定标记之间的距离，并且修改位置编码机制以反映跳跃指令的效果，通过参数贡献使他们具有很强的上下文联系（即使不像两个连续的标记那样接近）

只关注直接跳转指令，间接跳转识别是一个公开挑战，无法处理。

框架如下所示：

微调

为了使相同的函数对距离最小，使不相同的函数对距离最大，通过对比学习的目标函数微调训练。

dataset

创建了一个超大型数据集

evaluation

compare model

Genius[21]。该基线是一种非深度学习方法。Genius以归属控制流图的形式提取原始特征，并使用位置敏感散列（LSH）来生成用于漏洞搜索的数字向量。我们根据其官方代码2实现了这个基线。

Gemini [59]. 这个基线为每个基本块提取手工制作的特征，并使用GNN来学习被分析函数的CFG表示。我们根据其官方Tensorflow代码3实现了这一方法，并在整个评估过程中使用其默认参数设置。

SAFE[43]。这个基线采用了一个带有注意力机制的RNN架构来生成分析函数的表示，它接收汇编指令作为输入。我们根据其官方的Pytorch代码4和默认的参数设置来实现这一基线。

Asm2Vec[14]。该方法使用CFG上的随机行走来采样指令序列，然后使用PV-DM模型来共同学习函数和指令标记的嵌入。这种方法不是开源的，因此我们使用了一个非官方的实现5。我们使用了它的默认参数设置。

GraphEmb[44]。这个基线使用word2vec[45]来学习指令标记的嵌入。接下来，它使用RNN为每个基本块生成独立的嵌入，最后使用structure2vec[7]来结合嵌入并生成分析函数的表示。为了使这个基线可以扩展到像BinaryCorp-26M这样大的数据集，我们使用Pytorch重新实现了作者的原始Tensorflow源代码6。

OrderMatters[62]。这种方法结合了两种类型的嵌入。第一种嵌入类型使用BERT为每个基本块创建一个嵌入，然后使用GNN将所有这些嵌入结合起来，生成最终的表示。第二种类型的嵌入是通过在CFG上应用CNN获得的。然后，这两种嵌入被串联起来。这种方法不是开源的，其在线黑盒API7不能满足本研究的需要。我们使用报告中的超参数自行实现。

Performance

基于NLP的软件安全研究（三）相关推荐

基于NLP的软件安全研究（二）
文章目录 Cross-Language Binary-Source Code Matching with Intermediate Representations abstract introduct ...
基于NLP的软件安全研究（一）
文章目录 CENTRIS: A Precise and Scalable Approach for Identifying Modified Open-Source Software Reuse ab ...
基于NLP处理企业家传记文档
基于NLP处理中国企业家文档 1. 实验环境本次技术采用Python编程,Python可以从官网https://www.python.org/下载,选出适合用户操作系统的二进制发行版后,按提示一步一 ...
NLP分析技术的三个层面
NLP分析技术的三个层面 NLP分析技术大致分为三个层面:词法分析.句法分析和语义分析. 1)词法分析词法分析包括分词.词性标注.命名实体识别和词义消歧. 分词和词性标注好理解. 命 ...
matlab 基于GUI的PID研究
基于GUI的PID研究本例子中设计一个PID控制器来研究不同参数对输出结果的影响,PID控制器由比例单元 P.积分单元 I 和微分单元 D 组成.PID 控制器是一个在工业控制应用中常见的反馈回路部 ...
图像信噪比计算公式_CT 科研设计之图像质量对比研究三步曲
CT科研是CT技术的窗口,帮助医务工作者开展CT科研也是我们的责任和义务! 问如何科学地比较不同重建技术的图像质量? 答首先要排除其他影响图像质量的因素, 然后进行客观指标的比较, 最后进行主观指 ...
在Unity中实现基于粒子的水模拟(三：混合屏幕)
在Unity中实现基于粒子的水模拟(三:混合屏幕) 文章目录在Unity中实现基于粒子的水模拟(三:混合屏幕) 前言一.着色算法介绍 1.折射 2.反射二.准备纹理 1.获取纹理 2.模糊纹理 ...
基于NLP的书法字体分析、统计及可视化
基于NLP对书法字体进行分析.统计.可视化选题3: 对十二个"一"的文艺创作作业进行文本分析.统计和可视化任务主题: 对全体同学的文艺创作进行文本 ...
基于无线信号的手势识别研究现状调查
摘要:进入21世纪以来,人机交互技术持续发展,手势识别是代表之一.2013年,华盛顿大学的研究人员提出了使用无线信号进行手势识别的方法,给传统的手势识别技术带来的一定的挑战,但是这一技术并不是很成熟, ...

基于NLP的软件安全研究（三）