摘要
本文以阿里金融为引子简要地介绍了大数据的商业价值、大数据分析的目的和大数据技术手段和工具;再介绍了海量数据的分类和3类大数据分析平台及各类平台对比;接着介绍了如何利用大数据处理技术处理金融行业中客户管理、营销管理和风险管理方面的海量数据;最后提出了大数据处理的核心和金融行业在大数据背景下的发展要求。
关键词:金融,大数据分析

Abstract
Taking Alibaba Economy as a primer, this paper briefly introduces the commercial value of big data, ambitions of big data analysis and its techniques and tools. Later, it describes the 3 perspectives, which are related to a big data solution, needed to be considered: the massive data, the 3 big data analytic platforms and contrast of these platforms. Then, it explains how to use big data analyzing the massive data concerning Customer Management, Market Management and Risk Management in Economic Industry. At last, it comes up with the core of big data technique and the requirements to the Economic Industry in the context of big data.
Keywords:Economic Industry, big data

1引言
有人把2013年定义为大数据元年——据IBM的某项调查,已经有28%的企业开始做大数据的试验;有47%的企业已经开始做大数据的相关活动[1]。大数据的应用在许多企业已经实现了突破性的进展。其中,其最具代表性的突破要数阿里金融的崛起。
阿里金融于2010年4月拿到了小额信贷牌照,截至2012年6月底,已为超过12.9万家小微企业、个人创业者提供融资服务,贷款总额超过260亿元[5];到2012年底,阿里金融的阿里微贷企业已超20万家[1]。
对于数据在阿里金融中的地位,阿里金融总裁胡晓明只用一句话来表达:数据是第一生产力[2]。
就阿里金融而言,利用大数据和云计算等互联网技术和思想,加上西方的管理理念所形成的的风险管理能力,构成了阿里金融最核心的能力。
因此,大数据时代下,数据可以说是金融行业的根,在整体中最具养分。
利用大数据这种新型的信息处理方式,通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,探索并发现新的商机、对客户和市场进行新的洞察,实现业务创新和流程创新,这就是大数据的价值。
同时,在近年来社交化网络大发展的背景下,金融行业中各企业所面临的内外部环境在不断改变,影响企业决策和行为的数据也跟着改变,这些企业面临着“大交易数据”和“大交互数据”的双重数据环境[1]。大数据分析的目的,是要实现这两类数据的集成与融合,增强企业的洞察力。
目前大数据的技术手段和工具的不断增强,是很多大数据的分析已成为可能。比如说音频处理技术,客户打电话到客服中心,我们已经有技术手段将音频直接转换成文本,并从文本中截取关键词来进行分析。再比如说,华尔街有一家名为“德温特资本市场”的公司,通过分析全球3.4亿微博账户的留言,来判断民众的情绪。该公司发现,高兴时民众会买股票,而焦虑时就会抛售股票。他们就依此买卖股票,2012年第一季度就获得了7%的收益率。所有这些技术手段的应用都可以为企业带来极大的市场空间,赢得巨大的经济利益[3]。
2 大数据分析的解决方案
2.1 海量数据的分类
在大数据时代,企业常常面临三种类型的海量数据,它们所要求的分析手段不尽相同[1](如图2.1所示)。

图 2.1 海量数据类型维度
纵向表示数据类型,横向表示数据形态。纵向数据类型来分,企业存在结构化数据、半结构化数据和非结构化数据;横向按数据形态来分,企业存在静态数据和动态数据。通过这两个维度的组合,我们把企业的海量数据归纳成三类:
静态海量结构化数据。比方说,人事系统、财务系统、ERP系统、CRM系统等。这类数据往往可以通过构建“企业级数据仓库平台”来进行数据整合,通过商业智能应用来实现业务报表、决策分析和数据挖掘。
静态海量非结构化数据。比方说文本、报告、音频、视频、社交网络、邮件等。这类数据往往需要企业建立一个基于Hadoop的“非结构化数据平台”,实现非结构化数据的存储,进而实现企业搜索、文本分析和内容挖掘。
动态海量流数据。网络点击率、日志文件、实时传感信息、实时路况信息,实时行情信息等。这类信息是流动着的,像流水一样,如果不加以利用它就流过去了。这类数据可以通过建立流数据平台,实现实时业务监测、实时营销等应用。
这三种平台需要不同的分析方法。传统的数据仓库,通过商业智能应用,实现业务报表、决策分析和满足监管需求。非结构化数据平台,通过自然语言处理、文本分析和内容挖掘,实现舆情分析、声誉度分析、精准营销等应用。流数据平台,通过实时的流数据处理,实现实时欺诈监测、实时产品服务、实时质量控制等应用。
一个企业如果要进行业务创新,往往会从尚未开发的非结构化数据和流数据中受到启发,非结构化数据和流数据的每一个业务应用,都是一种业务创新或流程创新[1]。这三种技术和分析能力的结合,可以突破传统的分析模式,挖掘新的业务亮点和商机,实现产品创新、流程创新、服务创新和客户体验创新,进而实现管理创新。
2.2 大数据分析相关系统
2.2.1 Hadoop
Hadoop是效仿Google的FileSystem和MapReduce而实现的一套海量数据分布式处理的开源软件框架,被广泛部署运用于雅虎、Facebook等互联网企业。它由两部分组成,一是HDFS分布式文件系统,另一部分是MR框架(MapReduce Framework)。
HDFS是MapReduce的数据存储来源。HDFS按照一定粒度的数据分块来划分文件,并将这些数据分块分散存放在集群中的不同节点,为MapReduce提供并行计算的数据存储。同时,HDFS利用多副本存放策略来保障数据的可靠性、可用性,并提供较高的数据输入输出吞吐率。MapReduce框架是进行海量数据并行计算的框架,由一个Master节点和多个Worker节点构成。Master节点用于任务划分、任务调度;而Worker节点用于接收来自于Master节点分配的Map或Reduce任务,并执行这些任务,同时将任务的状态回馈给Master节点。Hadoop通过计算移动到急群众的各个节点,在各个节点进行并行计算任务(Map阶段),产生结果后将集群中各节点的数据汇总反馈至客户端(Reduce阶段)。
2.2.2 Hive
Hive是Facebook开源的基于Hadoop的数据仓库平台。通过Hive,可以方便地进行海量数据提取、转换加载(ETL)工作。Hive定义了一个类似于SQL的查询语言HQL,能够将用户编写的SQL转化为相应的MapReduce程序。当然,用户也可以自定义Mapper和Reducer来完成更为复杂的分析工作。作为互联网领域应用最为广泛的开源数据仓库,基于MapReduce的Hive在扩展性和容错性方面有强大的优势,其前景被业界一直看好。但是相比传统并行数据仓库,Hive在存储引擎支持、执行引擎高晓华以及多样化接口等方面,有待进一步发展。
2.2.3 Pig
Pig是一个基于Hadoop的大规模数据分析平台,使程序员可以更加方便地进行大规模数据处理。Pig Latin是一门吸收了SQL语法的过程式语言。它在保存了过程式语言灵活性的同时,很大程度上吸纳了声明式语言易于进行数据处理描述的特点。该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。
2.2.4 大数据分析平台小结
综上所述,目前广泛使用的开源海量数据处理系统大都以Hadoop作为数据存储和并行处理的基础框架——HDFS提供海量数据存储平台,MR框架提供海量数据并行计算模型。Hive和Pig都是在Hadoop之上提供了类SQL的解决方案,这大大减少了并行处理程序开发的难度,使用户不必具备较强的程序编写能力,进而更多地关注业务逻辑。以上海量数据处理系统在高可用性、高容错、扩展性方面都提供了很好的支持。三者具体比较如表2.1.

表 2.1 大数据分析平台比较
3. 金融行业下的大数据处理
随着银行业务的载体与社交媒体、电子商务的融合越来越紧密,仅对原有15%的结构化数据进行分析已经不能满足发展的需求。企业需要借助大数据战略打破数据边界,囊括85%的大数据分析,来构建更为全面的企业运营全景视图。以科技引领业务发展,未来银行也同样需要借助由大数据构建的企业经营全景视图来进行风险管理、产品营销、业务创新等活动,进而寻找最优的模式支持商业决策[3]。下面我们来阐述大数据处理技术在银行业应用的几个场景。
3.1 客户管理
随着大数据的大量涌现,尤其是在社交网络的背景下,服务渠道不应仅局限于传统的银行渠道,而应整合新的客户接触点(即社交媒体网站等),这种趋势已经变得日益清晰。银行业发展战略也逐步从以产品为中心转向以客户为中心,客户成为银行发展的重要驱动力[3]。银行不仅仅销售产品和服务,而且还应为用户提供完美的多渠道体验,成为真正以客户为中心的组织。了解客户到底是谁以及客户最真实的需求成为银行经营者最为关注的问题。
银行可以通过大数据分析平台,接入客户通过社交网路、电子商务、终端设备等媒介产生的非结构化数据,构建全面的客户视图。根据用户行为对用户进行聚类分析,进而可以有效地甄别出优质客户、潜力客户以及流失客户。
事例一:花旗银行工作人员可以利用大数据分析获取银行客户信息并且分析客户的下一步需求,进而向客户营销相关金融产品。比如,某人为自己的孩子开办了一款信用卡,当孩子上大学后,就会分析这位客户所需要的金融产品。如果之后家长有装修厨房的计划,那么花旗银行的工作人员会向这位家长推荐适合装修的款贷,满足口各方面的潜在需求。
事例二:客户流失分析。借助大数据平台搜集到客户行为记录,通过对已流失客户的行为进行分析,找到客户流失发生时的关键路径,进而能够利用流失客户的行为模式有效定位有流失倾向的客户,以便工作人员能够在客户流失前进行挽回工作。
3.2 营销管理
借助大数据分析平台,通过对形式多样的用户数据(用户消费数据、浏览记录、购买路径等)进行挖掘、追踪、分析,将不同客户群体进行聚类,有助于获取用户的消费习惯、风险收益偏好等特征信息。从而根据不同客户特性打造个性化的产品营销服务方案,将最适合的产品服务推介给最需要的客户。以主动营销和个性化营销打破传统无差异的、被动的产品服务营销方式。大数据的有效使用,不仅可以提升银行产品的精确营销水平,而且可以提升客户对银行服务的认可程度以及客户经理在营销过程中的专业程度[3]。
例如,银行针对不同的客户分类推荐相应的理财产品,根据客户的购买习惯和风险偏好进行产品的理财产品,根据客户的购买习惯和风险偏好进行产品组合营销;根据客户的产品清单和浏览记录进行路径分析,主动推送关联产品营销等,真正做到个性化的主动营销服务。
在银行产品同质化较为严重的现状下,谁能首先运用“大数据”进行灵活的营销管理,谁就有更多的机会在竞争中拔得头筹。
3.3 风险管理
随着银行业务的快速发展,银行经营者必须有效地甄别风险、防范风险和控制风险。风险管理成为银行稳健发展至关重要的一环。社会化媒体的互动、实时的传感器数据、电子商务和其他新的数据源,正给银行经营带来一系列的挑战。仅仅借助传统的解决方案,无法全面进行风险管理。大数据分析帮助银行了解客户的自然属性和行为属性,结合客户行为分析、客户信用度分析、客户风险分析以及客户的资产负债状况,建立完善的风险防范体系[4]。
事例:Wonga是英国一家小额贷款公司,他们利用海量数据挖掘算法来做一些贷款业务。Wonga对过去客户的各种碎片化信息进行数据获取和整理,用大量的数据串成了客户特征的全貌,同时根据不良贷款等风险信号不断完善调整模型,有效控制风险。如今它已获得了5亿美金的年利润,其风险管理能力也获得业界的认可。
4 小结
4.1 大数据正在改造企业
大数据的本质,是利用企业内部信息,并结合新的数据类型,来创造价值。它将非结构化信息这种新的数据源,带进企业已有的核心数据中,创建洞察。看看大数据的先行者:
在零售业,沃尔玛将天气数据加入它的配送算法,对其配送路线进行建模,以优化和改善它的物流。这样一来,沃尔玛能在天气模式改变之前,在顾客涌入商店之前,保证所有商品能及时送达商店[4]。
在纽约市,警方已经在整个城市安装了交通摄像头,这些摄像头可以读取机动车牌照。由此,他们将识别的牌照与车管局的数据进行实时匹配,从而识别被盗车辆,并在第一时间让其实力街道接受检查。因为大多数的罪犯都是用偷来的汽车作业[4]。
大数据技术现在已有能力、开创性地获取和处理上述诸如天气数据、图像信息等这些从未拿来使用和分析的新的数据类型和海量数据。企业可以利用这些新的数据类型和非结构化的数据,多方面建立新的商业洞察。企业需要拥抱这种改变,从大数据中挖掘新的商机,并建立新的商业模式。
4.2 大数据的核心是数据分享
数据分析和挖掘说得多了,便存在一种想法——数据分析和挖掘是大数据时代的核心。然而阿里巴巴集团主席兼CEO马云却说大数据时代的核心不是分析数据,而是分享数据,并且是分享得越多越值钱,“如果只是停留在数据分析,那还是相当于拿冲锋枪当棍子使”[2]。美国的整个金融系统都有一个联网体系,所有人都在享受其中的价值。
4.3 金融行业在大数据背景下的发展要求
大数据技术的发展带来企业经营决策模式的转变,驱动着行业变革,衍生出新的商机和发展契机[2]。驾驭大数据的能力已被证实为领军企业的核心竞争力,这种能力能够帮助企业打破数据边界,绘制企业运营全景视图,做出最优的商业决策和发展策略。
金融行业在大数据浪潮中,要以大数据平台建设为基础,夯实大数据的收集、存储、处理能力;重点推进大数据人才的梯队建设,打造专业、高效、灵活的大数据分析团队。不断提升企业智商,挖掘海量数据的商业价值,从而在数据新浪潮的变革中拔得头筹,赢得先机。

参考文献
[1]张平. 大数据如何在企业落地生根——访 IBM 大中华区全球企业咨询部谢国忠[J]. 企业管理, 2013, 7: 046.
[2]王雪玉. 互联网挑战银行之一: 阿里金融[J]. 金融科技时代, 2013 (5).
[3]李蹯, 贾鸿飞. 大数据时代银行业的机遇与挑战[J]. 中国金融电脑, 2012 (12): 25-29.
[4]谢国忠.大数据正在改造企业.企业管理,2013,7:110.
[5]张毅菁. 金融业面对大数据的机遇与挑战[J]. 中国外资, 2013 (18): 46-47.

金融行业下的大数据处理概述相关推荐

  1. 《大数据》专题征文:国产环境下的大数据处理系统

    点击上方蓝字关注我们 <大数据>专题征文:国产环境下的大数据处理系统 (截稿时间:2021年5月31日) 目前,我国在一些前沿领域开始进入并跑.领跑阶段,但仍然面临很多"卡脖子& ...

  2. 一共81个,开源大数据处理工具汇总(下)转

    作者:大数据女神-诺蓝(微信公号:dashujunvshen).本文是36大数据专稿,转载必须标明来源36大数据. 接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要 ...

  3. 大数据处理语言U-SQL介绍

    微软宣布了新的 Azure 数据湖(Azure Data Lake)服务,该服务被用于云分析,包括了一个超大规模信息库:一个在 YARN 上建立的新的的分析服务,该服务允许数据开发者和数据科学家分析全 ...

  4. 大数据处理——Hadoop解析(一)

    概述 这个时代被称之为大数据时代,各行各业生产的数据量呈现爆发性增长,并且基于这些爆发性增长的数据做深层次的数据挖掘.分析.因此,我们可以很容易的感觉到,在这样一个大数据的时代,我们很多做事情的方法正 ...

  5. 第三代大数据处理方案Flink

    Apache Flink Flink作为第三代流计算引擎,同采取了DAG Stage拆分的思想构建了存粹的流计算框架.被人们称为第三代大数据处理方案.该计算框架和Spark设计理念出发点恰好相反. S ...

  6. 【大数据处理技术】第三篇 大数据处理与分析(暂停更新)

    大数据分析与处理 第7章 MapReduce 7.1 概述 7.1.1 分布式并行编程 7.1.2 MapReduce 模型简介 7.1.3 Map 和 Reduce 函数 7.2 Mapreduce ...

  7. 【大数据处理】广州餐饮店铺爬虫并可视化,上传至hdfs

    1. 前言 本次大数据处理基于Python爬虫与VirtualBox下的Ubuntu系统. 从某美食网站的爬虫来获取广州餐饮店铺数据,数据清洗后再上传至hadoop的hdfs中. 大数据的各种软件安装 ...

  8. (一)大数据学习引言——大数据概述

    一.大数据的概念 概念 大数据是指:无法在现有的常规软件工具对其内容进行抓取.管理和处理的数据集合. 特征 Volume:数据量足够大 Variety:数据的种类多样 Velocity:数据的增长速度 ...

  9. 大数据学习笔记(一)——大数据概述

    第一章 大数据概述 1.1 大数据时代 1.1.1 信息科技为大数据时代提供技术支持 ①存储设备容量不断増加--解决了信息存储的问题 ②CPU处理能力大幅提升--解决了信息处理的问题 ③网络带宽不断増 ...

最新文章

  1. java SE环境变量配置
  2. jsp+Servlet+JavaBean+JDBC+MySQL项目增删改查
  3. Python学习之迭代器协议
  4. 手写自己的MyBatis框架-操作流程
  5. 汇编语言(十九)之删除数组中的元素
  6. mysql desc show_mysql 查看信息的命令(show\desc\explain)
  7. socket 怎么设置心跳判断连接
  8. MySQL索引的原理,B+树、聚集索引和二级索引的结构分析
  9. excel文件工作表保护快速撤销
  10. 使用Graphics在鼠标点击画圆圈扩散效果
  11. gitlab安装教程、gitlab官网、英文文档
  12. kswapd和pdflush
  13. jit和jitx区别_JIT的核心思想是什么?
  14. MATLAB中用李沙育图形分析光栅尺sincos信号正交性
  15. 真正的 IT 男是什么样的?
  16. 湖大重现L.Cracked Pipes
  17. 基于python的气象数据分析统计服_基于Python的风向风速数据分析的设计与实现
  18. java商城开发可以说是日臻完美
  19. 云服务器centos7创建用户
  20. 手机移动web页面的排版与布局一点经验(尺寸单位兼容行。)

热门文章

  1. Python OpenCV第六课:播放AVI文件
  2. angular 判断字符串为空_总结:44个Python3字符串内置方法大全及示例
  3. 子桓说:陈冠希的39岁才是多数人羡慕的中年
  4. win10系统托盘图标不见了_手把手传授win10系统英特尔核芯显卡托盘图标不见了的步骤...
  5. 电路设计_路由器方案比较
  6. 七夕打算如何向女神表白?这5个表白神器让你俘获女神的心!
  7. android assets文件大小,Android 常见问题之Assets文件大小限制
  8. 草图转换网络:SketchyGAN 和 style2paints
  9. java script练习题_java script 练习题
  10. ggplot对感兴趣的区域放大