简介:

angr是一个二进制代码分析工具,能够自动化完成二进制文件的分析,并找出漏洞。angr基于python,它将以前多种分析技术集成进来,­­­它能够进行动态的符号执行分析,也能够进行多种静态分析。本文以介绍angr的基本信息与静态分析二进制文件方法为主。

Angr的基本过程:

(1)将二进制程序载入angr分析系统

(2)将二进制程序转换成中间语言(intermediate representation,IR)

(3)将IR语言转换成语义较强的表达形式,比如,这个程序做了什么,而不是它是什么。

(4)执行进一步的分析,比如,完整的或者部分的静态分析(依赖关系分析,程序分块)、程序空间的符号执行探索(挖掘溢出漏洞)、一些对于上面方式的结合。

安装方法:

Linux:(两种不同方法)

1.  依赖:sudo apt-getupdate; sudo apt-get upgrade;

sudo apt-getinstall python-dev libffi-dev build-essential libssl-dev python-pip;

虚拟环境:sudo pipinstall urllib3 request virtualenvwrapper virtualenv

下载angr-dev:git clone https://github.com/angr/angr-dev; cd angr-dev

自动化安装:./setup.sh-i -e angr(自动化安装一切)

2.  安装依赖:sudo apt-get install python-dev libffi-dev build-essential virtualenvwrapper

安装angr:mkvirtualenv angr && pip install angr

两种安装方法可以先尝试一种,安装失败再尝试另一种。

安装之后都可以用workon angr命令进入angr环境。进入angr环境然后进入Python环境,使用import angr导入angr环境。

另:若分析CFG信息,需要安装angr-utils:

gitclone https://github.com/axt/angr-utils. 然后python setup.pybuild;python setup.py install

Angr的使用:

1.装载:

angr的二进制装载组件是CLE,它负责装载二进制对象(以及它依赖的任何库)和把这个对象以易于操作的方式交给angr的其他组件。

angr将这些包含在Project类中。一个Project类是代表了二进制文件的实体。angr的大部分操作都会经过它。

使用angr装载一个二进制文件(比如说,“/bin/true”),需要这样做:

>>>import angr

>>> b = angr.Project("/bin/true")

这样操作之后,b就是主二进制文件以及它依赖的所有库的代表。可以从b这个project中得到二进制文件的一些信息:

# 这是二进制文件的入口点
>>>print b.entry
 
# 这些是二进制文件内存空间中的最小地址和最大地址
>>>print b.loader.min_addr(), b.loader.max_addr()
 
# 这些是文件的全名
>>>print b.filename
 

2.中间语言

由于angr需要处理很多不同的架构,所以它必须选择一种中间语言(IR)来进行它的分析。angr使用Valgrind的中间语言——VEX来完成这方面的内容。VEX中间语言抽象了几种不同架构间的区别,允许在他们之上进行统一的分析:

·寄存器名。在不同架构间的寄存器数量和名字是不一样的,但是现代的各CPU设计有通用之处:每一种CPU包含几个通用寄存器,一个寄存器装载栈指针,一系列寄存器装载状态标志等等。中间语言提供了一个统一的、抽象的对于不同平台的寄存器接口。VEX模型将寄存器作为一个独立的内存空间,使用偏移来访问它们(比如,AMD64的rax寄存器在这个内存空间的偏移16的地址上)。

·内存访问。不同的架构使用不同的方式访问内存。比如ARM既可以通过小端序也可以通过大端序来访问内存。中间语言必须能够抽象分离出其中的差异。

·内存分段。一些架构,比如x86,通过使用特殊的段寄存器实现内存的分段。中间语言能够理解这样的内存访问机制。

·指令的副作用。大多数的指令有产生一些影响。比如,ARM中Thumb模式下的大多数操作会更新状态标志,栈上的push/pop操作更新栈指针。在分析中通过ad hoc 的方式来跟踪这些影响是愚蠢的,所以中间语言使这些影响很清晰直接。

将二进制代码转换为VEX已经有了很好的支持。VEX是一种支持大量目标机器语言的架构无关、无副作用的语言。它抽象了机器指令到中间表达来使程序更易于分析。这一中间语言有四个主要的对象类:

·表达式(Expressions)。IR表达式代表了一个计算出的数值或者常量。这包括了内存装载,读寄存器以及算数计算的结果。

·操作(Operations)。IR操作描述了对IR表达式的修改。这包括了整形的运算,浮点型的运算,位运算等等。一个IR操作应用于IR表达式会产生一个IR表达式作为结果。

·临时变量(Temporary variables)。VEX使用临时变量作为内部寄存器:IR表达式在使用过程中存储在临时变量中。临时变量的值可以通过IR表达式重新获取。这些临时变量被从t0开始编号,且是强类型的(比如64位的整形或者32位的浮点型)。

·语句(Statements)。IR语句模型根据目标机器而改变,比如内存存储和写寄存器产生的效果,IR语句使用IR表达式获取可能用到的值。比如,一个内存存储操作的IR语句使用IR表达式作为要写入的目标地址,使用另一个IR表达式作为要写入的内容。

·块(Blocks)。一个IR块是一系列IR语句的集合,代表了目标架构上的一个扩展块(术语为“IR超级块(IR Super Block)”或者“IRSB”)。一个超级块可以有多个出口。在基本块中间有条件退出时,会使用特殊的退出IR语句。一个IR表达式被用来代表在块的最后无条件退出时的目标指向。

Angr中使用一个叫做pyvex的库作为Python和Vex的接口,pyvex可以通过 Project.factory.block接口来访问。有很多种不同的对象可以用来访问一个块的属性,但是他们在分析特定的字节序列的时候具有共通特性。通过factory.block构造器,可以得到一个能够轻松转换成几种不同代表的Block对象。尝试.vex来获取pyvex的IRSB,或者.capstone获取Capstone块:

>>>import angr

# 装载二进制程序

>>> b = angr.Project("/bin/true")

# 转换入口点为基本块

>>> irsb = b.factory.block(b.entry).vex

>>> irsb.pp()

# 转换特定地址为基本块

>>> irsb = b.factory.block(0x401340).vex

>>> irsb.pp()

# 这是代表了这一基本块的最后无条件退出时的跳转目标的IR表达式

>>>print irsb.next

# 这一无条件退出的类型(比如,一个函数调用,或者从一个函数返回,或者是系统调用等等)

>>>print irsb.jumpkind

# 你也可以将它以良好的可读方式打印出来

>>> irsb.next.pp()

# 遍历每一个语句并且将它们打印出来

>>>for stmt inirsb.statements:

...     stmt.pp()

# 打印代表了数据的IR表达式以及其被对应的存储语句存储下来的类型

>>>import pyvex

>>>for stmt inirsb.statements:

...     ifisinstance(stmt,pyvex.IRStmt.Store):

...         print"Data:",

...         stmt.data.pp()

...         print""

...         print"Type:",

...         print stmt.data.result_type

...         print""

# 打印基本块中每一个条件退出的条件和跳转目标

...for stmt in irsb.statements:

...     ifisinstance(stmt,pyvex.IRStmt.Exit):

...         print"Condition:",

...         stmt.guard.pp()

...         print""

...         print"Target:",

...         stmt.dst.pp()

...         print""

# 这些是在IRSB中的每一个临时变量的类型

>>>print irsb.tyenv.types

# 这是获取第0个临时变量的类型的一种方法

>>>print irsb.tyenv.types[0]

3.分析

了解了angr的装载和IR,下面来用例子说明angr的分析模块。Analyses可以从程序中获取一些信息的自定义的分析行为,包括:

这里以分析CFG为例来调用analyses,生成一个accurate CFG:

>>>import angr

>>> b=angr.Project(‘/bin/true’,load_optins={‘auto_load_libs’:False})

>>> cfg= b.analyses.CFGAccurate(keep_state=True)

在构造CFGFast或者CFGAccurate或其他分析行为时,有很多不同的选项可以设置,具体请参考http://angr.io/api-doc/index.html。需要说明的是,CFG图是NetworkX    di-graph,也就是如果需要生成CFG图形视图,需要安装networkx。

例子:

import angr

from angrutils import plot_cfg

proj = angr.Project("<...>/ais3_crackme",load_options={'auto_load_libs':False})

main = proj.loader.main_bin.get_symbol("main")

start_state = proj.factory.blank_state(addr=main.addr)

cfg = proj.analyses.CFG(fail_fast=True, starts=[main.addr],initial_state=start_state)

plot_cfg(cfg, "ais3_cfg", asminst=True, remove_imports=True, remove_path_terminator=True)

输出CFG:(图中为部分CFG)

在对构造的CFG进行信息提取时,以粗粒度CFI为例,可以在CFG中得到所有遍历到的函数头信息与函数大小;利用pyvex中IRSB的信息可以得到所有jumpkind为call的基本块,而基本块的最后一条IMark信息就是call指令地址。其他的类似于call target,jump target,return target等信息也可以通过脚本去生成的CFG和IRSB模块中提取。

参考资料:

http://www.angr.io/api-doc/index.html

https://docs.angr.io/INSTALL.html

https://github.com/angr/angr-doc/blob/master/docs/toplevel.md

http://www.angr.io/

利用angr进行二进制静态分析相关推荐

  1. 符号执行:利用Angr进行简单CTF逆向分析

    一.符号执行概括 简单的来说,符号执行就是在运行程序时,用符号来替代真实值.符号执行相较于真实值执行的优点在于,当使用真实值执行程序时,我们能够遍历的程序路径只有一条,而使用符号进行执行时,由于符号是 ...

  2. 利用Python实现二进制转化为十进制数字

    Python将二进制变为十进制 直接上代码 参考自莫凡的遗传算法 def translate(pop): #数据转换,二进制转十进制a = pop.dot(2 ** np.arange(10)[::- ...

  3. 用angr解二进制题目1

    上图是程序的流程,大概说一下,int main(int argc,char *argv[],char *env[]) 先判断argc是不是2,如果不是直接打印You need to enter the ...

  4. 二进制python_利用Python对二进制数据进行按位处理

    标签: 最近在用Python做数据包解析,遇到一些要按位处理二进制数据的问题.折腾了一个早上,大概有一点思路,记下来备忘吧. 我要解决的问题是判断一个字节的某几位是否为特定的值,比如判断一个字节的前四 ...

  5. (逆向)angr 执行二进制函数

    关于angr: github 搜索angr 首先编译源码: #include<stdio.h> unsigned int ORHash(char *str , int len){     ...

  6. 简单的利用栈 将二进制转换成十六进制

    将刚刚的二进制转换成八进制的程序改改就行了,如果有能读懂刚刚程序的人,这个so easy 就是换几个数,我就不多解释了 #include <stdio.h> #include <st ...

  7. c 语言解析png图片文件信息,利用C/C++二进制读写png文件的方法示例

    前言 二进制文件不是以ASCII代码存放数据的,它将内存中数据存储形式不加转换地传送到磁盘文件,因此它又称为内存数据的映像文件.因为文件中的信息不是字符数据,而是字节中的二进制形式的信息,因此它又称为 ...

  8. 利用python将二进制图片转化成图片并展示

    mnist数据集的数据以二进制格式存储,下面读取mnist数据集的指定图片并展示 import torch.optim from network import Mnist_network import ...

  9. 动若脱兔:深入浅出angr--初步理解符号执行以及angr架构

    一:概论 angr作为符号执行的工具,集成了过去的许多分析方式,它不仅能进行动态符号执行,而且还能进行很多静态分析,他在分析二进制程序中能发挥很大的作用,下面为一些应用: 1:利用符号执行探究执行路径 ...

最新文章

  1. 汇编学习笔记(3)-80x86指令集
  2. Linux常用命令~~~
  3. 摘自网络上总结出的一些开源的技术
  4. 差分约束——vijos1589
  5. 大数据云端实验室项目实战-微博舆情大数据分析有感
  6. 开发中接口的类型都有哪些以及如何调用?
  7. 《游戏大师Chris Crawford谈互动叙事》一第 6 章 数学之苦劳
  8. 三诺 n20g 微型计算机,就是要更完美 三诺N-20GIII提升巨大
  9. 3D全景图php代码,HTML5 Canvas实现360度全景图的示例代码
  10. 网站443端口经常受到攻击怎么办
  11. 你为什么遇不到好公司
  12. 阿里-蚂蚁金服-一面电面-上海-java研发实习生
  13. 《C#语言和数据库技术基础》单词必备
  14. 华为鲲鹏是芯片还是服务器,关于芯片:眼见为实华为鲲鹏架构服务器生态大揭秘...
  15. js实现盒子水平垂直居中
  16. 阿里张勇:数据驱动的透明是平台治理的基础
  17. 【框架】idea找不到xxx依赖项怎么办
  18. 对实体完整性和参照完整性的认识
  19. docekerfile文件详解
  20. 【王爽汇编】实验9 根据材料编程

热门文章

  1. trap water_25 Water Effect Photoshop教程和画笔
  2. SQL Sever 查询表结构命令
  3. Relu函数与Leaky Relu函数的理解
  4. Bannner图片无线轮播
  5. arraymap android,深入剖析 Android中的 ArrayMap
  6. 谷歌留痕,批量关键词组合+URL编码工具极速版
  7. oracle 一个实例创建多个数据库_创建多个Oracle数据库及相应的实例
  8. 【pyhton】【airtest自动化】利用pyhton写一个双十一淘宝领猫币的脚本解放双手吧
  9. Java基础:ArrayList类和Arrays类
  10. Dreamhost初次使用感受