经历了多年的BI专题应用建设,有幸能在一个传统企业里探索大数据应用的建设过程,发现了很多不一样的地方,获得了不同的感受,在此以一个真实的案例的建设过程来品味其中的不同,也许能获得一些启示。

课题是怎么来的?

大数据应用最大的挑战,就是未来的不确定性,因此,传统公司动辄提前半年进行投资预算规划的方式是不太适合大数据的。

做大数据几年,虽然说现在靠谱的大数据的商业模式也就在广告、金融、公益等方面,但真要下决心干某个大数据应用项目,其突发性、偶然性也非常强,因为对于大数据这个不成熟事物,无论是哪类公司,观望占了很大部分,对大数据的质疑有之,对于大数据安全的惶恐有之,对于合作模式的疑惑有之,更多的是不停的提出想法,不停的被否定。

企业顺应大势成立了大数据团队,最痛苦的是不知道干什么,什么能干,什么不能干,也没啥可借鉴的经验,这跟当前创业公司也类似吧,不知道哪种模式是靠谱的。

大数据几乎无所不能,但真要做起来,其实当前是能者寥寥,虽然趋势不可挡,但这一波搞大数据应用的,似乎大多要死在黎明前,一个概念从提出到最终普世大众,的确路慢慢儿修远兮。

今天要聊的,是个公益课题,电话反欺诈,课题有一定的偶然性,安全部门提到了,问我们能不能做做看,感觉社会意义很大,比如腾讯有反欺诈盒子,360有拦截系统,本来某公司希望来做这个课题,但综合各方面因素,还是决定自己做。

作出这个决策的实际一天不到,所以决定自己做,基于以下几个因素:

  • 一是这个大数据应用是有显著效益的。
  • 二是很好评估,不像很多BI应用产出无法评估,备受质疑。
  • 三是公司大数据平台建立了,提供了基础条件。
  • 四是自主建模团队建立了一年多了,不需要太依赖合作伙伴,因此也无需走那套冗长的招标流程,失败的代价也会小。

团队如何组建?

跟传统的安排不同,抛出这个课题后,主动接受这个挑战的,却是一名从一线刚过来的同事,面对不确定性,想来大多数有资历的员工也会犹豫老半天吧,这个也有一定偶然性。

谷歌讲到了招聘人才,提到了无论多大代价也要找到创意精英,而做大数据,更加需要,需要主动型的创意精英,如果传统企业每个人仍然像传统那样局限在自己一亩三分地,很难有创新突破。

很幸运,我们有一只黑天鹅。

这种自愿组队模式的确有很大的好处,不按计划分配,尊重个人的意愿,更能激发人的主动性,团队组建也非常快,当天组队,第二天就开干,不存在类似项目的繁琐流程。

虽然团队成立有一定的偶然性,但的确与与企业近年来在大数据组织创新、人才引进和人员流动上的努力分不开。

假如没有大数据组织的成立,谁牵头都是个问题;假如不扔掉传统的包袱,很难有人专心做这个;假如没有企业内的人才流动和外部人才的引入,我们也干不了这个事。

那么平台资源如何解决?

在那个传统BI小型机时代,要做一个项目,抛开硬件资源环境的投资立项过程不说,光是一个新项目的集成估计也不止一个月。

而这个项目不同之处是:

  • 一是基于大数据平台的租户能力,资源申请所见即所得,加上流程,一周内全部搞定。
  • 二是提供的组件较为丰富,特别是流处理资源的快速提供,为反欺诈的实时性提供了坚实的基础,换在几年前基本不可能。
  • 三是公司技术团队的保障,使得大多技术问题得以尽快解决,这也有赖于公司在大数据平台上的末雨绸缪。

某人说过,凡是能用钱解决的问题都不是问题,但技术这个东西,虽然用钱的确可能解决,但对于大多数公司,钱都是个大问题,因此技术问题的解决又是何其艰难。

比如我们碰到Kafka的一些问题,长期难解决,大多企业的机制流程恐怕也不允许随便开价100万招个技术专家来解决吧,传统企业的自我技术进步是部血泪史,外面的专家开价开不起,自己的专家起来了,又怕被人家挖。

接下来谈谈开发历程。

敏捷开发现在提得很多了,但感觉以前BI的建设就是最大的敏捷,最极致的情况,一个人搞定需求、开发、上线和维护,当然,现在软件工程的确还是要靠分工协作,需要一套方法论来解决显性迭代和维护配合的问题。

大数据创新太特殊了,没必要循规蹈矩,抛开全部的束缚,一切要为速度让步。原因是失败可能性很大,速度越快成本越低,同时既然对于公司原有业务没有影响,因此可以放手去干,什么文档都可以不要,什么既定流程都可以不遵守,反正光脚不怕穿鞋的。

因此,这个课题做的非常快。

第10天,做出一个反欺诈简单模型,包括了案例分析、数据准备、数据建模及验证等,我们的观点是第一个版本可以粗糙一点,希望尽快验证这个事情的可行性,否则一切都是徒劳,因此就是讨论和验证数据。

当时规定两个礼拜如果出不了结果,就会放弃,这类应用失败可能性很高,但船小好调头,以后做一些创新,都建议给创新做个时间止损点。

第25天,生产完成部署,也就是具备系统支撑能力,除了系统部署方案需要专业部门把关,其他基本是能省就省,当时的想法是,这类创新项目最好一个月就能搞上线,起码能测试吧,相对以前BI应用项目动辄半年甚至1年的节奏,的确大不同。

创新,速度始终是王道,因此日报变成刚需,也回忆起了某位离职运营商去创业的一个领导,他说每天凌晨就要看昨天的日报,以便安排当天的工作,我们可能做不到这么疯狂,但日报的节奏是对的。

第30天,一直在外呼现场进行验证迭代,直到36天,获得认可为止,以后就是持续调优,但这个数据已经可以投入生产了。一般电话诈骗很难在事中干预,但这个模型做到了,准确度达到90%以上,通过实时事中干预挽回收入损失超千万。

这个应用就是中国移动的天盾大数据反欺诈系统,它就是这么诞生的,没有什么大汇报,没有什么流程,就是很轻很轻的来了。

现在算法还有很多问题,反欺诈矛与盾的争夺是很艰辛的,面上的风光底下是每天建模师的艰苦卓绝的努力,上了很多新算法,很多很多失败,拉低了成功率,对于这个大家是异常焦虑的,群里总是不停的讨论,大家都知道这个是核心竞争力,路还很长,还需要坚持。

这个应用还难言成功,只是传统企业在大数据应用上的一次不同的尝试,但不管怎样,互联网快速迭代的那套的确是给了很大的启示,自己做了,才知道原来的差距是如此巨大,自己的能力是如此脆弱。

从课题的角度讲,要认识到大数据这个事物的不确定性,选择它具有偶然性,没有规划能预料到这个,当前大数据变现商业模式也并不成熟,不要奢望投资大数据马上有产出,也许能力储备是第一位的。

从组织的角度讲,大数据人才属于稀缺人才,要么打破原有框架,不拘一格外部找人才,要么充分企业内挖潜,让人员能流动起来。流动的人才有一个特点,即至少有一颗骚动的心,主动性对于做成功一件事极为重要。

从能力的角度讲,假如要向大数据转型,则还是要对“没有一个大数据公司,能依靠合作伙伴获得成功”这句话有所敬畏,大数据的核心能力要掌握在自己手里。

从平台的角度讲,如果没有大数据平台的建立,这个项目能够有效果也许是半年以后的事情,但机会稍纵即逝,没人会等你这么久,因此此类基础设施建设不能犹豫,“书到用时方恨少”。

从开发的角度讲,先设定一个小目标,搞他个十万八万的,只要有点看得见的产出就行啊,快速迭代,始终是王道,失败了也没什么大不了,我们缺的就是经验,多头并行也不是不可以,只要有足够的创意精英。

当然说易行难,以上几点对于大多数公司来说是如此不易,也不能以一个应用的成功与否说明任何问题,大数据要成功,就像黑天鹅,有一定偶然性,但如果连准备的勇气都没有,没有一点实质改革的动作,就没有任何成功的可能了。

本文作者:傅一平

来源:51CTO

一个大数据应用是如何炼成的?相关推荐

  1. 千亿大数据处理能力是如何炼成的?

    (此文来自乐字节) 源起谷歌"三驾马车" 聊起大数据,就绕不开谷歌的"三驾马车".早在 2003 年,谷歌发表第一篇论文--谷歌文件系统(GFS):第二年,谷歌 ...

  2. 大数据高地,这样炼成!

    游客行走在贵州贵安新区,仿佛来到了一个"云上的城市". 为守住青山绿水,走出一条新的经济发展道路,贵州将大数据领域作为经济增长点之一,一直在发力--从最接地气的数据中心.呼叫中心, ...

  3. 大数据权威是怎样炼成的

    满脑子自由,无所不知,知识之于他就像一颗红通通的太阳,在他炙热的话语中,好像说了一整个浩瀚宇宙的故事:细致精湛的金丝框眼镜,完全藏不住渴切的灵魂,怎么有人可以对这个世界如此好奇,像和宇宙宣战的心跳声如 ...

  4. 一个“好”的数据分析师是怎样炼成的?

    如果你现在或将来要管理一个分析师团队,这篇文章也可以帮助管理人员找出他们希望在各自团队中发展的特点. 许多公司都在分析工具有资金投入,拥有合适的工具是必要的,但还不够,投资使用这些工具的人更为重要! ...

  5. 电视台成阿里云下一个大数据重塑目标

    本文讲的是电视台成阿里云下一个大数据重塑目标,[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台 ...

  6. 从鳄鱼哥尼流绘本思考,数据分析师是怎样炼成的?(二)

    作者:友盟+王晓荣 本文为故事连载,共计五期,本文为第二期,这是一个半调侃式的故事,很多情景都暗含了作者过往的经历.主线是一个数据分析师的成长历程,暗线会分享数据运营的三阶段:基础分析体系搭建.精细化 ...

  7. 数据决策成共识 大数据产业期待点“数”成金

    开放创造价值 应用仍需挖掘 大数据产业期待点"数"成金 互联网时代,大数据全面融入现代社会生产生活,并将深刻改变全球经济和安全格局.大数据不仅是一种技术,更是战略资源.我国大数据产 ...

  8. 个是云计算,一个大数据,一个人工智能,

    我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提 ...

  9. 成为一个大数据开发工程师的学习步骤--文字版

    本博客搬运自我知乎所出视频成为一个大数据开发工程师的学习步骤? - 知乎大数据的学习是有条件限制的,首先你需要是一名普通的工程师,如果你是Java工程师的话更好,但如果你是小-https://www. ...

最新文章

  1. 刷题_thinkinginjava_吸血鬼数字
  2. Java开发主流框架是什么?
  3. 10-表格添加、删除
  4. boost::describe模块宏BOOST_DESCRIBE_PP_POINTER的测试程序
  5. 【Python面试】 说说Python变量、函数、类的命名规则?
  6. Unity3d Android安卓JDK9打包失败
  7. 序列中连续值之间的差值列表
  8. 计算机编程与数控宏程序实例教程,数控车床编程教程,图文实例详解
  9. Android paint 效果研究
  10. android libpng16,Android NDK 开发之 CMake 编译 libpng
  11. java 获取全球国家名称,语言,简称
  12. uniapp开发hbuilder连接安卓模拟器mumu
  13. linux的shell版url爬虫
  14. 第一次进入Eclipse MARS2界面后的一些基本设置
  15. 谷歌浏览器无法使用翻译功能的解决方案,谷歌浏览器无法翻译怎么办?谷歌浏览器右键翻译失效了?
  16. 联想Y430p win8.1装win7双系统
  17. DVB-条件接收系统(CAS)
  18. python怎么画长方形_python怎么画矩形
  19. Android和风SDK,AndroidSDK——和风天气使用初体验
  20. 大学计算机课外知识教案,大学计算机论文精选范文

热门文章

  1. linux搭建博客-day 7安装Nginx
  2. c语言利用循环结构解决密码转换,C语言课件第六章循环结构.ppt
  3. 2019/3/27写给自己
  4. 免装版_一款好用的便签工具 桌面便签免安装版
  5. 三国将星录java阵容_三国将星录,通关攻略
  6. medit 和 .mesh 文件
  7. 3.7.6 - String Methods
  8. 图书馆用文本文件booklist.txt记录图书的书目,其中包括book1,book2,.....,book10.现在又要采购一批新书,编写程序将新的书目添加到目录中。
  9. php手机电脑,php实现用手机关闭计算机(电脑)的方法
  10. 关于NLP相关技术全部在这里:预训练模型、信息抽取、文本生成、知识图谱、对话系统...