利用angr进行二进制静态分析
简介:
angr是一个二进制代码分析工具,能够自动化完成二进制文件的分析,并找出漏洞。angr基于python,它将以前多种分析技术集成进来,它能够进行动态的符号执行分析,也能够进行多种静态分析。本文以介绍angr的基本信息与静态分析二进制文件方法为主。
Angr的基本过程:
(1)将二进制程序载入angr分析系统
(2)将二进制程序转换成中间语言(intermediate representation,IR)
(3)将IR语言转换成语义较强的表达形式,比如,这个程序做了什么,而不是它是什么。
(4)执行进一步的分析,比如,完整的或者部分的静态分析(依赖关系分析,程序分块)、程序空间的符号执行探索(挖掘溢出漏洞)、一些对于上面方式的结合。
安装方法:
Linux:(两种不同方法)
1. 依赖:sudo apt-getupdate; sudo apt-get upgrade;
sudo apt-getinstall python-dev libffi-dev build-essential libssl-dev python-pip;
虚拟环境:sudo pipinstall urllib3 request virtualenvwrapper virtualenv
下载angr-dev:git clone https://github.com/angr/angr-dev; cd angr-dev
自动化安装:./setup.sh-i -e angr(自动化安装一切)
2. 安装依赖:sudo apt-get install python-dev libffi-dev build-essential virtualenvwrapper
安装angr:mkvirtualenv angr && pip install angr
两种安装方法可以先尝试一种,安装失败再尝试另一种。
安装之后都可以用workon angr命令进入angr环境。进入angr环境然后进入Python环境,使用import angr导入angr环境。
另:若分析CFG信息,需要安装angr-utils:
gitclone https://github.com/axt/angr-utils. 然后python setup.pybuild;python setup.py install
Angr的使用:
1.装载:
angr的二进制装载组件是CLE,它负责装载二进制对象(以及它依赖的任何库)和把这个对象以易于操作的方式交给angr的其他组件。
angr将这些包含在Project类中。一个Project类是代表了二进制文件的实体。angr的大部分操作都会经过它。
使用angr装载一个二进制文件(比如说,“/bin/true”),需要这样做:
>>>import angr
>>> b = angr.Project("/bin/true")
这样操作之后,b就是主二进制文件以及它依赖的所有库的代表。可以从b这个project中得到二进制文件的一些信息:
# 这是二进制文件的入口点
>>>print b.entry
# 这些是二进制文件内存空间中的最小地址和最大地址
>>>print b.loader.min_addr(), b.loader.max_addr()
# 这些是文件的全名
>>>print b.filename
2.中间语言
由于angr需要处理很多不同的架构,所以它必须选择一种中间语言(IR)来进行它的分析。angr使用Valgrind的中间语言——VEX来完成这方面的内容。VEX中间语言抽象了几种不同架构间的区别,允许在他们之上进行统一的分析:
·寄存器名。在不同架构间的寄存器数量和名字是不一样的,但是现代的各CPU设计有通用之处:每一种CPU包含几个通用寄存器,一个寄存器装载栈指针,一系列寄存器装载状态标志等等。中间语言提供了一个统一的、抽象的对于不同平台的寄存器接口。VEX模型将寄存器作为一个独立的内存空间,使用偏移来访问它们(比如,AMD64的rax寄存器在这个内存空间的偏移16的地址上)。
·内存访问。不同的架构使用不同的方式访问内存。比如ARM既可以通过小端序也可以通过大端序来访问内存。中间语言必须能够抽象分离出其中的差异。
·内存分段。一些架构,比如x86,通过使用特殊的段寄存器实现内存的分段。中间语言能够理解这样的内存访问机制。
·指令的副作用。大多数的指令有产生一些影响。比如,ARM中Thumb模式下的大多数操作会更新状态标志,栈上的push/pop操作更新栈指针。在分析中通过ad hoc 的方式来跟踪这些影响是愚蠢的,所以中间语言使这些影响很清晰直接。
将二进制代码转换为VEX已经有了很好的支持。VEX是一种支持大量目标机器语言的架构无关、无副作用的语言。它抽象了机器指令到中间表达来使程序更易于分析。这一中间语言有四个主要的对象类:
·表达式(Expressions)。IR表达式代表了一个计算出的数值或者常量。这包括了内存装载,读寄存器以及算数计算的结果。
·操作(Operations)。IR操作描述了对IR表达式的修改。这包括了整形的运算,浮点型的运算,位运算等等。一个IR操作应用于IR表达式会产生一个IR表达式作为结果。
·临时变量(Temporary variables)。VEX使用临时变量作为内部寄存器:IR表达式在使用过程中存储在临时变量中。临时变量的值可以通过IR表达式重新获取。这些临时变量被从t0开始编号,且是强类型的(比如64位的整形或者32位的浮点型)。
·语句(Statements)。IR语句模型根据目标机器而改变,比如内存存储和写寄存器产生的效果,IR语句使用IR表达式获取可能用到的值。比如,一个内存存储操作的IR语句使用IR表达式作为要写入的目标地址,使用另一个IR表达式作为要写入的内容。
·块(Blocks)。一个IR块是一系列IR语句的集合,代表了目标架构上的一个扩展块(术语为“IR超级块(IR Super Block)”或者“IRSB”)。一个超级块可以有多个出口。在基本块中间有条件退出时,会使用特殊的退出IR语句。一个IR表达式被用来代表在块的最后无条件退出时的目标指向。
Angr中使用一个叫做pyvex的库作为Python和Vex的接口,pyvex可以通过 Project.factory.block接口来访问。有很多种不同的对象可以用来访问一个块的属性,但是他们在分析特定的字节序列的时候具有共通特性。通过factory.block构造器,可以得到一个能够轻松转换成几种不同代表的Block对象。尝试.vex来获取pyvex的IRSB,或者.capstone获取Capstone块:
>>>import angr
# 装载二进制程序
>>> b = angr.Project("/bin/true")
# 转换入口点为基本块
>>> irsb = b.factory.block(b.entry).vex
>>> irsb.pp()
# 转换特定地址为基本块
>>> irsb = b.factory.block(0x401340).vex
>>> irsb.pp()
# 这是代表了这一基本块的最后无条件退出时的跳转目标的IR表达式
>>>print irsb.next
# 这一无条件退出的类型(比如,一个函数调用,或者从一个函数返回,或者是系统调用等等)
>>>print irsb.jumpkind
# 你也可以将它以良好的可读方式打印出来
>>> irsb.next.pp()
# 遍历每一个语句并且将它们打印出来
>>>for stmt inirsb.statements:
... stmt.pp()
# 打印代表了数据的IR表达式以及其被对应的存储语句存储下来的类型
>>>import pyvex
>>>for stmt inirsb.statements:
... ifisinstance(stmt,pyvex.IRStmt.Store):
... print"Data:",
... stmt.data.pp()
... print""
... print"Type:",
... print stmt.data.result_type
... print""
# 打印基本块中每一个条件退出的条件和跳转目标
...for stmt in irsb.statements:
... ifisinstance(stmt,pyvex.IRStmt.Exit):
... print"Condition:",
... stmt.guard.pp()
... print""
... print"Target:",
... stmt.dst.pp()
... print""
# 这些是在IRSB中的每一个临时变量的类型
>>>print irsb.tyenv.types
# 这是获取第0个临时变量的类型的一种方法
>>>print irsb.tyenv.types[0]
3.分析
了解了angr的装载和IR,下面来用例子说明angr的分析模块。Analyses可以从程序中获取一些信息的自定义的分析行为,包括:
这里以分析CFG为例来调用analyses,生成一个accurate CFG:
>>>import angr
>>> b=angr.Project(‘/bin/true’,load_optins={‘auto_load_libs’:False})
>>> cfg= b.analyses.CFGAccurate(keep_state=True)
在构造CFGFast或者CFGAccurate或其他分析行为时,有很多不同的选项可以设置,具体请参考http://angr.io/api-doc/index.html。需要说明的是,CFG图是NetworkX di-graph,也就是如果需要生成CFG图形视图,需要安装networkx。
例子:
import angr
from angrutils import plot_cfg
proj = angr.Project("<...>/ais3_crackme",load_options={'auto_load_libs':False})
main = proj.loader.main_bin.get_symbol("main")
start_state = proj.factory.blank_state(addr=main.addr)
cfg = proj.analyses.CFG(fail_fast=True, starts=[main.addr],initial_state=start_state)
plot_cfg(cfg, "ais3_cfg", asminst=True, remove_imports=True, remove_path_terminator=True)
输出CFG:(图中为部分CFG)
在对构造的CFG进行信息提取时,以粗粒度CFI为例,可以在CFG中得到所有遍历到的函数头信息与函数大小;利用pyvex中IRSB的信息可以得到所有jumpkind为call的基本块,而基本块的最后一条IMark信息就是call指令地址。其他的类似于call target,jump target,return target等信息也可以通过脚本去生成的CFG和IRSB模块中提取。
参考资料:
http://www.angr.io/api-doc/index.html
https://docs.angr.io/INSTALL.html
https://github.com/angr/angr-doc/blob/master/docs/toplevel.md
http://www.angr.io/
利用angr进行二进制静态分析相关推荐
- 符号执行:利用Angr进行简单CTF逆向分析
一.符号执行概括 简单的来说,符号执行就是在运行程序时,用符号来替代真实值.符号执行相较于真实值执行的优点在于,当使用真实值执行程序时,我们能够遍历的程序路径只有一条,而使用符号进行执行时,由于符号是 ...
- 利用Python实现二进制转化为十进制数字
Python将二进制变为十进制 直接上代码 参考自莫凡的遗传算法 def translate(pop): #数据转换,二进制转十进制a = pop.dot(2 ** np.arange(10)[::- ...
- 用angr解二进制题目1
上图是程序的流程,大概说一下,int main(int argc,char *argv[],char *env[]) 先判断argc是不是2,如果不是直接打印You need to enter the ...
- 二进制python_利用Python对二进制数据进行按位处理
标签: 最近在用Python做数据包解析,遇到一些要按位处理二进制数据的问题.折腾了一个早上,大概有一点思路,记下来备忘吧. 我要解决的问题是判断一个字节的某几位是否为特定的值,比如判断一个字节的前四 ...
- (逆向)angr 执行二进制函数
关于angr: github 搜索angr 首先编译源码: #include<stdio.h> unsigned int ORHash(char *str , int len){ ...
- 简单的利用栈 将二进制转换成十六进制
将刚刚的二进制转换成八进制的程序改改就行了,如果有能读懂刚刚程序的人,这个so easy 就是换几个数,我就不多解释了 #include <stdio.h> #include <st ...
- c 语言解析png图片文件信息,利用C/C++二进制读写png文件的方法示例
前言 二进制文件不是以ASCII代码存放数据的,它将内存中数据存储形式不加转换地传送到磁盘文件,因此它又称为内存数据的映像文件.因为文件中的信息不是字符数据,而是字节中的二进制形式的信息,因此它又称为 ...
- 利用python将二进制图片转化成图片并展示
mnist数据集的数据以二进制格式存储,下面读取mnist数据集的指定图片并展示 import torch.optim from network import Mnist_network import ...
- 动若脱兔:深入浅出angr--初步理解符号执行以及angr架构
一:概论 angr作为符号执行的工具,集成了过去的许多分析方式,它不仅能进行动态符号执行,而且还能进行很多静态分析,他在分析二进制程序中能发挥很大的作用,下面为一些应用: 1:利用符号执行探究执行路径 ...
最新文章
- 汇编学习笔记(3)-80x86指令集
- Linux常用命令~~~
- 摘自网络上总结出的一些开源的技术
- 差分约束——vijos1589
- 大数据云端实验室项目实战-微博舆情大数据分析有感
- 开发中接口的类型都有哪些以及如何调用?
- 《游戏大师Chris Crawford谈互动叙事》一第 6 章 数学之苦劳
- 三诺 n20g 微型计算机,就是要更完美 三诺N-20GIII提升巨大
- 3D全景图php代码,HTML5 Canvas实现360度全景图的示例代码
- 网站443端口经常受到攻击怎么办
- 你为什么遇不到好公司
- 阿里-蚂蚁金服-一面电面-上海-java研发实习生
- 《C#语言和数据库技术基础》单词必备
- 华为鲲鹏是芯片还是服务器,关于芯片:眼见为实华为鲲鹏架构服务器生态大揭秘...
- js实现盒子水平垂直居中
- 阿里张勇:数据驱动的透明是平台治理的基础
- 【框架】idea找不到xxx依赖项怎么办
- 对实体完整性和参照完整性的认识
- docekerfile文件详解
- 【王爽汇编】实验9 根据材料编程
热门文章
- trap water_25 Water Effect Photoshop教程和画笔
- SQL Sever 查询表结构命令
- Relu函数与Leaky Relu函数的理解
- Bannner图片无线轮播
- arraymap android,深入剖析 Android中的 ArrayMap
- 谷歌留痕,批量关键词组合+URL编码工具极速版
- oracle 一个实例创建多个数据库_创建多个Oracle数据库及相应的实例
- 【pyhton】【airtest自动化】利用pyhton写一个双十一淘宝领猫币的脚本解放双手吧
- Java基础:ArrayList类和Arrays类
- Dreamhost初次使用感受