文章目录

前言

客户交易行为分析

时间维度的分析

交易次数随时间的可视化分析

交易金额随时间的可视化分析

交易有效时段设置

每天24小时交易次数的分布

交易属性的分析

客户交易次数的可视化分析

客户平均交易金额的可视化分析

客户交易流入流出的可视化分析

客户交易流入流出金额的可视化分析

文本数据预处理

文本数据的分析

交易附言词云绘制

交易附言关键词提取

前言

上一节我们实现了数据的处理工作,接下来根据处理之后的数据进行客户交易行为的分析


客户交易行为分析

本部分主要包括以下四个步骤:

时间维度的分析:对交易时间进行分析,探索交易随时间的分布规律

交易属性的分析:对交易金额和次数进行分析,探索不同客户的交易属性

文本数据预处理:为了便于后续分析,对交易附言的文本进行预处理

文本数据的分析:对预处理后的文本进行分析,例如绘制词云分布图和提取关键词等

时间维度的分析

交易次数随时间的可视化分析

使用value_counts()函数统计data中每天的交易次数,接着使用Pandas绘图机制,调用plot()函数绘制每天的交易次数随时间的折线分布图,并设置分布图的标题,x轴y轴标签。

从图中可以看出大致在2030附近的交易次数比较多。

交易金额随时间的可视化分析

使用groupby()函数统计data中每天的交易总金额(每笔交易金额取绝对值),接着使用Pandas绘图机制,调用 plot()函数绘制每天的交易总金额随时间的折线分布图

交易金额有正有负,代表资金流入流出。取绝对值代表交易金额有流动。

从折线分布图中可以看出:交易的发生时间主要集中在2030年左右的交易金额比较大。

交易有效时段设置

从前面的交易数量分布折线图中,我们可以看出客户的交易主要集中在2030附近,其它时间分布较少。为了使交易数据更为集中,需要选择做一个时间限定,选取2025到2030之间的数据进行分析

设置有效时间后查看图形的变化如下图所示:

时间重新设置为2027至2028之间会比较明显的看出图形的特点,这段时间的交易金额都差不多,处于一种波动状态。

每天24小时交易次数的分布

之前的图形观察了总交易次数随时间的宏观变化情况,对交易的有效时间段也进行了限定。接下来从每天的交易时段上进行分析,通过绘制柱状图的方法,统计交易数据中发生时间分布在每天24小时内的各时间段交易次数。

交易属性的分析

客户交易次数的可视化分析

从每个客户出发,可视化分析不同客户的交易分布

使用value_counts()函数统计data每个客户的交易次数,接着调用kdeplot()函数画出客户交易次数的核密度图,并且设置×轴标签为交易次数,y轴标签为频率。

客户的交易次数从0-140不等,主要分布在100-110之间。在此后的指标构建中,我们要根据客户的交易记录构建指标。如果在此平台交易次数来判断用户是否为休眠客户、活跃用户等。

客户平均交易金额的可视化分析

使用groupby()函数对data中的user_id进行分组,统计每个客户的平均交易金额,接着调用kdeplot()函数画出客户交易次数的核密度图。

从图中可以看出客户平均交易金额在6到35之间。

客户交易流入流出的可视化分析

接下来从交易次数和交易金额两个维度上对不同流向的交易做对比,以此来探索客户的行为和消费习惯。首先对金额流出型和金额流入型做定义,将payment字段取值大于零的交易记录定义为金额流出,取值小于零的交易记录定义为金额流入,对取值为0的交易记录不进行定义。接下来分别计算两种金额流动方向下的交易次数,并通过可视化的方法进行展示和分析。

从图中可以得出结论:客户整体的流入流出均在20到100之间

客户交易流入流出金额的可视化分析

上一步对金额流出型和金额流入型的交易做定义,将payment字段取值大于零的交易记录定义为金额流出,取值小于零的交易记录定义为仓额流入,对取值为0的交易记录不进行定义。接下来分别计算两种金额流动方向下的客户交易平均金额,并通过可视化的方法进行展示和分析。

先从data中选取出金额流入流出的交易记录,分别保存在变量input_payment和output_payment 中。再对变量input_payment和output_payment分别进行分组,计算每个客户的流入流出平均金额,分别保存在变量input_payment_mount和output_payment_mount中。再使用distplot()函数分别绘制客户流入和流出平均金额的直方分布图,分别保存在子图ax1和ax2中,最后绘制出图像。

流入为负值,流入为正,所以图中横轴0的位置不同。

流入流出分布基本一致,流出的金额跨度略大一点,流入-18到0,流出是0-20

文本数据预处理

文本数据预处理就是交易附言本文预处理,可以从时间和交易行为两个维度对客户进行分析之后,接下来还可以挖掘交易附言文本中的信息,探索文本内容的主题,以此找寻客户标签构建的方向。

由于分词时占用计算资源较大,在实现过程中对数据进行了采样,使用sample()函数,设立随机种子取出20000行进行计算。

文本数据的分析

使用tf-idf模型来进行文本数分析,tf-idf值越大说明这个词越重要,也可以说这个词是关键词。接下使用tf-idf算法提取出整个数据中交易附言部分出现的关键词。中文处理库jieba可以满足需求,关键词提取所使用逆文档频率(idf)文本语料库可以自定义设置,在这里使用jieba库中默认的新闻语料库。

词云对象wordcloud 创建好之后,使用generate()函数,传入绘制词云的文本数据即可绘制词云。传入的文本数据为字符串格式,将每条交易附言进行了拼接,保存在变量describe_document中,可以理解为客户交易附言组成的一个文档。

交易附言词云绘制

绘制词云图代码如下图所示,为了减少运算的时间,在绘制词云图时也进行采样,随机取出20000行进行计算。将data[ 'describe_cutted']进行拼接,保存在变量describe_document中,创建词云对象wordcloud,背景颜色为white,设置粗黑简体,背景图案为变量mask1,放大规模为2,不允许词语重复,随机种子设置为30。最后根据创建的词云对象wordcloud,使用generate()函数生成词云图。

词云图如下图所示:

可以看出,词云图中的信用卡,支付吧,网银,分期付款等词语的出现频率较高,在词云图中比较明显,一眼可以看出哪个词的出现较多。

交易附言关键词提取

使用jieba.analyse.extract_tags()函数提取describe_document 中的前50个关键词,并返回关键词权重值,保存在变量tags 中,然后提取出关键词。

从关键词提取可以看出每个词以及它的词语的比重,和上面的词云图结果相似,网银,支付宝,分期付款,信用卡,微信等的关键词比重较高,所以可以得出在词云图中的图形较大。

总结

至此,用户的客户交易行为分析已经完成,下一步将进行客户体系标签的计算

大数据精准营销应用(二)相关推荐

  1. 大数据精准营销:买水培栀子花该推送啥

    文章讲的是大数据精准营销:买水培栀子花该推送啥,要说作为一个媒体人,每天对着电脑是常态,早晨上班到晚上下班,电脑对媒体人而言,比手机都亲,于是笔者也预备做个防辐射措施,买盆栀子花,一是心想真的能吸收一 ...

  2. 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

    重磅推荐专栏: <Transformers自然语言处理系列教程> 手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用! 转载请注明:转载 from http:// ...

  3. 大数据精准营销应用(一)

    文章目录​​​​​​​ 前言 一.精准营销简介 二.大数据精准营销过程 三.大数据精准营销方式 四.项目目标 五.项目流程 六.数据的处理​​​​​​​ 数据的预览 数据的读取 数据的解析 数据预处理 ...

  4. 转 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

    转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609  近期参加了CCF举办的"大数据精准营销中搜狗用 ...

  5. 大数据精准投放平台_大数据精准营销+全媒体精准投放+信息流广告=真实有效得客户...

    原标题:大数据精准营销+全媒体精准投放+信息流广告=真实有效得客户 什么是信息流? 信息流广告的投放特点是个性化投放,可以通过筛选APP去做精准投放.信息流依托海量的用户数据和信息流生态体系,可精准捕 ...

  6. 运营商大数据精准营销获客的优点

    谈起精准营销,咱们自己的竞争对手群体,直接就是为我们提供精准客源渠道的最大资源池! 现阶段最新的获客方式,就是从竞争对手的手中把他们的精准客户资源变为自己的. 2022年最火的运营商大数据精准营销是拒 ...

  7. 大数据精准营销|七大关键要素

    说到大数据精准营销,不得不提到精准营销的关键要素,今天我们就来分享一下大数据精准营销的七个关键要素! 01用户画像 用户画像是根据用户社会属性.生活习惯和消费行为等信息而抽象出的一个标签化的用户模型. ...

  8. 大数据精准营销有哪些特性呢?

    随着互联网的发展,搜索引擎的出现极大地方便了人们的上网体验.我们习惯了第一时间在搜索引擎上搜索,当我们遇到我们不理解的问题,或者不知道我们习惯的事情,希望得到解答.在搜索引擎中通过输入关键词进行搜索, ...

  9. 未来大数据精准营销构想 一个合格的DMP平台要具备哪些条件?

    随着互联网技术的发展,大数据已经不是一个概念,数据商业化在近几年真正影响着行业的发展和人们的生活的方方面面,在数据技术的驱动下,数字营销已经能够帮组企业更广泛更精准的覆盖人群,DMP 这个词对于广告主 ...

  10. 大数据精准营销发展趋势如何,为什么能够做到精准营销?

    企业可以通过大数据分析最近客户在网上喜欢看什么内容?喜欢去哪些网站?他们最关注的是产品的哪一个点的需求,只要了解客户的真正需求,我们就可以很准确地判断潜在市场的大小及产品设计生产成什么样,小走很多的弯 ...

最新文章

  1. RandLA-Net测试
  2. 实现接口Controller定义控制器
  3. 如何用VC++新建一个项目
  4. java dbrecord_JFinal 独创 Db + Record 模式
  5. CentOS设置永久静态路由
  6. 50-20-190-配置-Flink 配置文件详解-flink-conf.yaml
  7. HTML文字阴影荧光,小编,文章里的“发光”文字怎么做的?
  8. 绕障飞行器(D 题)--2020 年TI 杯大学生电子设计竞赛
  9. matlab遗传算法工具箱介绍和详细使用方法【matlab优化算法工具箱】
  10. JDK10你必须了解的新特性
  11. 在别人的空间里看到的收藏在这里
  12. HTTP中200、302、304、404和500等响应状态码含义
  13. 【MindInsight】在win下安装MindInsight遇到“ No module named apos;fcntlapos;“问题
  14. 360校园招聘2015技术类笔试题
  15. 前端调用手机摄像头权限进行扫码解析
  16. 王者荣耀服务器微信和qq,为什么王者荣耀微信区和QQ区玩起来像两个游戏?
  17. Unicode算法漏洞几乎祸害所有编程语言,Rust紧急发布补丁
  18. 谷歌庆祝2008年北京奥运会倒计时365天LOGO
  19. 如何将word转换为带书签的pdf文件
  20. SpringBoot微架构-李兴华-专题视频课程

热门文章

  1. git补充子模块,git下载文件夹是空的
  2. 数据共享交换平台的问题及解决方案
  3. HTML+JavaScript飞机大战小游戏简易版
  4. Android优秀项目下载列表
  5. 平流式沉淀池流量计算_平流沉淀池计算公式(高版本格式)
  6. 潜水喷泉泵喷头流量计算
  7. 农业品牌化,离中国还有多远?
  8. Unicode对汉字的编码 1
  9. 品茗股份承办第四届中国BIM(数字建造)经理高峰论坛在杭召开
  10. 【Python爬虫实战】爬取5K分辨率超清唯美小姐姐壁纸