背景介绍

在证劵交易所领域,曾经发生用户证券账号被盗事件,导致客户资产损失,例如:黑客获得了用户A的证券账号密码,利用多次的低买高卖将资产转移。本文中针对此类对敲欺诈的场景,采用将用户交易数据转换为图片,进而利用 Amazon SageMaker 图像分类算法 ResNet 进行模型训练和推理,在此类欺诈行为识别上得到了很好的效果。这种将交易数据转换为图像分类的方式简化了通常的特征提取的复杂度,可以作为防欺诈或者交易行为特征识别的方式的新的尝试。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术,观点,和项目,并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏,看到这里请一定不要匆匆划过, 点这里让它成为你的技术宝库!

1. 数据准备

整个数据准备过程包括用户特征分析,样本数据构造,样本数据格式转换几个步骤。

项目包下载 Link

本机安装 python3.9 版本环境。并且提前准备如下几个依赖包的安装

python -m pip install requests
python -m pip install matplotlib
python -m pip install numpy

1.1 数据行为分析

对敲欺诈的交易行为特征比较突出,会出现集中的低买高卖的特点,此类特点也会与老鼠仓行为类似。根据用户的交易行为与股票当日的5分钟 k 线图合并表示如下图:

红色点表示买入,绿色点表示卖出。用户的行为呈现为多次的连续低卖高卖。

1.2 数据集准备

在金融欺诈的场景中,大多数情况下实际发生的欺诈样本是少量的,因此要得到好的模型训练效果,我们需要分析用户行为的特征,在此基础上进行数据的模拟。

1.2.1 获取 K 线

执行K线生成脚本 generateKline.py ,生成某日的K线数据,本案例从 alphavantage 获取美股最新的 Coinbase(股票代码COIN) 80条5分钟k线。免费 APIkey 请自行从alphavantage官网申请。

1.2.2 生成黑客用户交易记录

执行脚本 genRandomHackerTrades.py ,生成模拟黑客交易记录表格。模拟逻辑为:

– 找到 Top 10 的 COIN 的5分钟 k 线数据中超过5%波幅的k线数据。

– 随机选择3-5个5分钟 k 线,生成低价买入的成交价格。生成高价卖出的成交价格。

– 生成 csv 文件,分别存放到 ./buy/ 和./sell/目录。生成文件样例

1.2.3 生成用户交易记录

执行脚本 genNormal.py,生成模拟正常用户交易记录数据。在实际的证券交易所风控可获取实际用户数据生成记录。本案例中的模拟逻辑是:随机获取 COIN 的5分钟k线,生成1-2个买卖记录。

执行脚本 genRandomHackerTrades.py 生成模拟的黑客交易记录数据。模拟逻辑是:获取 COIN 日k线中的 top 10 价格振幅最大的k线单元,然后随机从 top10 中选择3个单元,模拟生成低买高卖的点位。

1.2.4 将交易记录转换为图像

采用 matplotlib 库,绘制k线图像,把用户交易为圆点,绿色表示卖,红色表示买。黑客行为生成图像脚本为 generateHackerImg.py,获取黑客交易记录文件,绘制 K 线,如图-1所示,黑客行为的特点是出现短时间内集中的低买高卖行为,经过多轮测试,我们需要对图像进行处理,去掉与用户行为不想关的信息。

– 去掉 k 线展示

– 去掉 x,y 轴刻度显示

– 将图像尺寸缩小到2.5英寸*1.5英寸,dpi 调整为100.

生成效果图如下:

2. 模型训练与发布

经过以上的步骤,在 traindata 目录下,我们获得了 hacker 和 normal 两个类别的图像训练数据。下面就可以采用 Amazon Sagemaker 的内置算法 resNet 进行图像分类模型训练了。

2.1 数据集准备

使用RecordIO tool(im2rec)创建两个 .lst 文件。一个文件是用于训练的数据集(75%)。另一个文件是用于验证的数据集(25%) 将.lst 文件和 jpg 图片文件上传到一个S3 bucket。

2.2 数据训练与模型发布

1.在 sagemaker 中创建一台 Jupyter Notebook 实例,创建过程参考官方文档:https://docs.aws.amazon.com/sagemaker/latest/dg/howitworks-create-ws.html

2.下载实验所需训练步骤脚本:/jupter/image-classify-jpg.ipynb,上传至 Notebook 环境。

3.按照步骤执行 notebook,完成模型训练,模型发布。关于图像分类训练的详细说明可参考link。

脚本运行完成后,会输出模型的训练结果,获取更多的交易对来生成训练样本会得到更好的效果,在 2000 hacker 样本和 2000 normal样本的数据规模下,得到的模型效果:

train:accuracy = 0.9850000143051147
validation:accuracy = 0.9962120056152344
train:accuracy:epoch = 0.9850000143051147
validation:accuracy:epoch = 0.9962120056152344

模型部署为实时访问端点:antiFraud-imageclassification-ep–2022-05-14-08-14-04。 可在后面的反欺诈业务流程中通过 Amazon SDK 实时调用,获得推理结果。

3. 业务流程设计参考:

在证券交易所,可以选择合适的触发时机来触发用户是否有欺诈行为的推理过程。例如在每天用户出金时实时推理或者每天晚上批量推理的方式。 我们按照实时推理的方式实现如下的业务流程。

  1. 从业务测发送触发消息到 Amazon SQS,消息体接口中具备基本的用户 id 信息。

  1. Lambda 接收到 SQS 消息,从交易数据库获取用户的24小时交易信息,获取涉及的交易对的5分钟 k 线数据,生成此用户的交易行为图像,图像的格式也采用相同的处理:去掉 k 线显示;去掉 x,y 轴刻度显示;图像尺寸缩小到5英寸*2.1英寸,dpi=100。

  1. 生成的用户交易图像 调用实时推理接口,我们就可以获得推理结果,此用户行为是否是欺诈行为,如果概率超过90%,我们写入风控表。

4. Amazon Lambda 如何支持 python 图形库

在此业务流程的实现中,lambda 函数引用了 matplotlib,numpy 等库,具备生成图片的能力,要实现此能力需要采用如下几个步骤。

  1. 理解 Lambda 的运行时环境,选择不同的 CPU 架构,在安装 Python 库是需要下载不同的 WHL 包

  1. 创建 Lambda Layer,用于存放几个公共类库,创建 Layer 的指导参见Link

因为 Python 的类库是需要区分安装的平台。windows,mac,linux 会有不同的安装包,同时 CPU 的架构不同也有区分。ARM 架构与X86_64架构。从https://pypi.org 搜索需要下载的包,跳转到下载页面。我们需要下载的是https://pypi.org/project/matplotlib/#files, 因为我创建的 lambda 是使用了 python3.9 运行环境,在 X86_64 架构下。因此我会选择下图中红线的 WHL 包

mkdir layer
cd layer
mkdir pylibs
cd pylibs
wget https://files.pythonhosted.org/packages/e1/81/0a73fe71098683a1f73243f18f419464ec109acae16811bf29c5d0dc173e/matplotlib-3.5.2-cp39-cp39-manylinux_2_5_x86_64.manylinux1_x86_64.whl
wget https://files.pythonhosted.org/packages/8d/d6/cc2330e512936a904a4db1629b71d697fb309115f6d2ede94d183cdfe185/numpy-1.23.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whlunzip '*.whl'
pip3 install -t . pyparsing==2.4.7
pip3 install -t . cycler==0.10.0
pip3 install -t . pytz
pip3 install -t . packaging
rm *.whl
rm -rf __pycache__
cd ..
zip -r lambdalayer.zip pylibs

以上完成 layer zip 包的制作,参照创建 Lambda Layer 的步骤,将zip包部署为 Lambda Layer 即可。

此解决方案中的 Lambda 函数请参见

https://github.com/aws-samples/amazon-sagemaker-antifraud-in-capitalmarket-imageclassify/blob/main/lambda/imageClassify.py

5. 总结

本文介绍了在证券领域,采用将用户时间序列类行为转换为图像,进而利用成熟的AI 图像分类算法来实现用户异常行为识别的方法。并且在连续对敲获利的场景中获得较好的效果。在解决方案中采用了 AMAZON SageMaker ,AMAZON Lambda,AMAZON SQS 快速完成了模型的训练,部署及业务流程的构建。期望能够给大家带来启发。

6. 参考资料

[1]https://mxnet.apache.org/versions/1.6/api/r/docs/api/im2rec.html

[2]https://matplotlib.org/stable/plot_types/index.html

[3]https://sagemaker-examples.readthedocs.io/en/latest/introduction_to_amazon_algorithms/imageclassification_caltech/Image-classification-lst-format-highlevel.html

本篇作者

Richard Lee

Amazon 解决方案架构师,负责基于 Amazon 云计算方案的架构咨询和落地实施;有电信,金融行业经验。加入 Amazon 前曾在华为软件任职项目经理,技术架构师,在 cryptocurrency 领域创业公司担任技术管理者。喜欢钻研跨领域技术创新。

文章来源:https://dev.amazoncloud.cn/column/article/6309d40de0f88a79bcfae802

金融交易行为监测方法——利用 CNN 模型实现行为识别相关推荐

  1. 利用CNN和迁移学习方法识别植物叶片疾病

    利用CNN和迁移学习方法识别植物叶片疾病 Abstract 及时发现和早期预防作物病害对提高产量至关重要.由于深度卷积神经网络(CNN)在机器视觉领域取得了令人瞩目的成果,本文采用深度卷积神经网络(C ...

  2. 从爬虫构建数据集到CNN模型的验证码识别,一步一步搭建基于Python的PC个人端12306抢票程序

    写在前面:这个程序不是一个人能在短时间内完成的,感谢达纳,王哥的支持帮助.也感谢小平老师,没有压迫,就没有项目. 简介:这是一篇很硬核的Blog, 有一定Python基础的童鞋方能看懂,本程序的主要内 ...

  3. 孤立词语音识别(1)——利用HMM-GMM模型实现数字识别(完整收发系统)

    实现功能 系统可分为两部分: 发送端实现读取excel中的内容,合成连续语音: 接收端读取该音频,识别后重新生成excel文件: 发送端 从定好格式的excel文件中读取需要的信息: 根据第1步得到的 ...

  4. 深度学习CNN模型预测电影评论中的情感问题

    情感分析是一种自然语言处理问题,其中理解文本并预测潜在意图. 在这篇文章中,您将了解如何使用Keras深度学习库在Python中预测电影评论的积极或消极情绪. 阅读这篇文章后你会知道: 关于自然语言处 ...

  5. Python 3 利用机器学习模型 进行手写体数字检测

    0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...

  6. python机器学习手写字体识别_Python 3 利用机器学习模型 进行手写体数字检测

    0.引言 介绍了如何生成手写体数字的数据,提取特征,借助 sklearn 机器学习模型建模,进行识别手写体数字 1-9 模型的建立和测试. 用到的几种模型: 1. LR,Logistic Regres ...

  7. 一种基于改进的LeNet-5 CNN模型通过图像监控雾度的方法

    一.介绍 近年来,空气污染不仅困扰发达国家,也有许多发展中国家,尤其是快速发展中的国家,例如中国和印度.在阴霾天气条件下,空气中有害颗粒物的浓度会升高,这对人民的健康构成了巨大威胁,对社会和经济发展构 ...

  8. DL之DNN优化技术:利用Dropout(简介、使用、应用)优化方法提高DNN模型的性能

    DL之DNN优化技术:利用Dropout(简介.入门.使用)优化方法提高DNN模型的性能 目录 Dropout简介 Dropout使用 Dropout应用 Dropout简介 随机失活(dropout ...

  9. 【转】自然语言系列学习之表示学习与知识获取(五)融合文本和知识,利用cnn方法进行关系抽取

    本文重点放在怎么利用知识表示学习,辅助我们进行关系抽取,首先介绍如何利用分布式表示去融合知识和文本进行文本的抽取. 前文提到利用知识图谱学习了知识表示,就可以预测任意两个实体之间的关系,它是通过t-h ...

最新文章

  1. 调用支付宝接口android最新,Android 外接sdk之支付宝
  2. java鼠标监听事件_JAVA 鼠标事件监听ACTIONLISTENER
  3. windows、linux下命令行登录oracle数据库方法,查询sga参数值sql语句
  4. 射频篇(三) 模拟、射频器件学习(3) ——锁相环(PLL)
  5. ASP.NET获取客户端IP及MAC地址
  6. php foreach next,foreach next 操作数组指针移动问题,多个数连加,连除,连减,连乘php版本...
  7. 企业库(V4.1)入门学习手记
  8. 手机如何通过路由器共享计算机硬盘,手机如何访问电脑硬盘之ES文件浏览器?...
  9. Python学习1----在win系统中搭建Python编程环境
  10. matlab for 循环中怎么做到只取其中一个数_公益心 码客行(8)—— 循环语句
  11. hashmap hash冲突怎么解决_对HashMap的思考及手写实现
  12. 快播案:程序正义、盗版和色情
  13. 淘宝账号如何快速提升到更高等级
  14. 考出面试者基本功的 10 个简单编程题
  15. 2022-2028全球与中国多通道光纤旋转接头(FORJ)市场现状及未来发展趋势
  16. 跨境电商系统对接-进口篇
  17. 血色冲锋队洛谷P1332(福建省历届夏令营)
  18. 利用思维导图,快速整理小学语文复习重点,建议为孩子收藏!
  19. 小红书api_【实习精选】oppo、小红书等名企实习汇总(96)
  20. 评价体系的构建之指标筛选

热门文章

  1. 几款主流 NoSql 数据库的对比
  2. Web——Vaadin
  3. 推荐一款我喜欢的代码主题风格
  4. 使用 iconfont 中的 svg 图标
  5. 小米路由器R2D安装Misstar Tools2.0教程
  6. android手机上传不了图片,关于Web Uploader手机上传不了图片的问题
  7. 一个本科生去面试算法工程师自取其辱的故事
  8. SDUT-程序设计基础-实验2-选择结构
  9. 交流接触器的matlab仿真,交流接触器集成化智能控制及仿真
  10. Re-ID 2019 Review