满大街都能听到大数据, big data 的言论,去问问这些谈论的人,什么是大数据,能用来做什么,十有八九的回答,都会说这些数据量大,所以才叫大数据。
不仅仅是行业外的业余人员这么看大数据,业内专业IT人员,都这么叫,包括知名的招聘网站,所以看到这类招聘,直接忽略,不专业!
你知道“大数据”怎么备份吗,知道“大数据”怎么采集吗,知道模型为什么这么用呢?
不知道,你还一口一个大数据!连养数据的概念和意识都没有,扯什么大数据?

现实情况是,采集数据的人只负责采集,不问下游即数据应用怎么玩的;
应用数据做计算的人,只负责处理模型,反复验证模型的可用性和可靠性,不管上游数据怎么采集来的,有多少做了预处理,预处理方案是什么,脏数据怎么洗掉的?
上游采集系统的渠道,质量和全面性都直接决定了下游模型结果的质量,毫不犹豫的会影响最终决策的制定。

上游数据采集不全面,导致下游模型该用的特征没有历史数据做铺垫,数到用时方恨少!这就是采集方案的不到位。
试问,一个 ETL 怎么可能知道哪些数据要抽呢,还不是跟着模型的需求来?
而做模型的人,是否能一开始就想明白数据采集的覆盖面有多广,要多深?大多数是做不到的。
随着业务的深入,需要采集的数据量不仅增大,数据维度也变宽,建模人员也就不能一开始就面面俱到,规定哪些数据要采了。

一个转变,从数据化运营到运营数据,即从用数据到养数据的转变。

余晟对《决战大数据》的评论,有对原文的陈述,即引用原文的例子和概念,大量夹杂的是自己对大数据行业的理解和扩展。能从书中见到书外,功底深厚,学识不仅丰富,写作角度更显得引人入胜。
如果能对书中的概念,提出自己的看法,那是最好不过的。每一个认真看书的人,都会针对特别难懂的地方,提出自己的理解,以求别人来解惑,或者认证,认同。而这一点,余晟是没有写到的。可能他的领悟已经超出我对本书的理解范围了

如果你对业务不理解,不能很好的提出精准解决问题的问题,甚至当前面临的困境都不能准确描述出来,那么思考是懒惰的,是无效的。
在数据时代,用数据化思考问题,是一门崭新的领域。很多解决方案都是在问题里。你要做的就是用数据来填充和回答这些问题
而往往大多数的人,都还只在寻找答案的过程中。因为到达顶峰那一路上的问题,都需要你自己去回答! 有时候你可能连问都懒得问自己!

数据对于企业和用户来说,意味着什么?
企业价值就是利益最大化,在奉数据为瑰宝的电商平台,企业价值就是点击购买率。
用户价值就是提高用户体验,让用户买到自己急需的产品或者服务。

有时候企业价值与用户价值是有强烈冲突的。企业追求的利润最大化理念,会引导用户购买产品,推荐系统就是干这事的,而忽略了用户的意愿。
很多人在网络上逗着逗着,就迷失了自我,对于电商推荐的产品,碰到新奇事物就会下单购买,比如我,看到有趣的书,就照单收了。
你说这些书对我有什么急需的功效吗,好像有也好像没有,但是买来储存着以后看,说不定哪天还绝版了呢。
既扩展了用户价值,还提高了企业价值。
大数据的本质,就是用来分析用户,还原真实的屏幕数字背后的逻辑。
不用“大”来形容,数据的本质就是洞悉用户,与大小无关。

cookies是一个既好与坏的东西,他能帮我们省去重复填写个人资料的流程,但也容易被不法分子窃取个人资料,导致滥用。
扫描一遍cookies就获知了用户的基本信息,非常低成本的手段。
衍生一点,如果不懂计算机技术,怎么知道获取用户信息的手段呢?作为运营人员,怎么知道还有cookies这么好用的技术手段来帮他们实现用户鉴别的功能
这就是人在企业活动中,不知不觉形成的断层。如果不去摸索,不去跨专业的研究,人最终被固化在一个领域中,突破不了专业的壁垒,打通不了上下链的耦合,看不到业务链上的全景色,颇为遗憾!

而大数据的目的就是为了能够让人打通这一系列的业务关节,使得链条通畅,最终还原用户的真实需求。
还原用户的真实需求,关键一点是甄别当前用户的唯一性,即识别同一个人的使用场景。这是比较难的一部分。
现在的通信手段非常发达,有手机,pad, pc甚至 Mac.
我们如何确保收集到的数据能够按人汇总呢,即一个人的行为数据,不论他是使用如何方式在使用网络,都能被准确归总到一起,而不和其他网络用户混淆?
在IoT(Internet of Things) 万物联网的时代,每个设备公司都捏着一部分的用户数据,在这一点数据中找生存,异常艰难。
这里的每个设备公司,掌握的仅仅是“碎片化的个人”而已,窥探不到整个人。
将来的数据,必定是公司与公司之间共享,或者“一桶化”包办,比如支付宝,微信。

回归到企业价值上来,对企业价值负责的还是人,首领是CEO。那么CEO最关心哪些数据呢?
我们是技术人员,怎么能想明白CEO关心的是什么,不在其位不谋其政。
问题就在这里,你是当上CEO了之后,才有了CEO应该有的本事,还是在当之前就已经有了CEO的能力?

还是那句话,通往巅峰之路上的问题,每一个都算数,都需要我们自己去想明白,并解决掉!

作为一个数据分析师,顶级的数据分析师,需要向最高领导 CEO 汇报的数据师,你会交上一份什么样的商业分析报告?
如果你对当前企业面临的问题不是很敏感,对 CEO 的困惑担忧,不是特别重视,你的商业报告有什么用?

如果我们不是数据分析师,而是数据系统架构师,那么同样,面临 CTO 的例会,我们同样也要交上一份合理的分析报告。
只不过架构师,面临的问题不再纯粹是业务问题,还需要重点突出对业务所在系统架构的瓶颈做出分析判断,并提供解决措施。
若平时不对系统的瓶颈做关注与分析,不敏感数据对于用户的体验,这份报告也难以做的令人满意。

《决战大数据》这本书,理论上看起来都很完美,但是如果不能用现实的案例来验证,这本书就是一本“别人的书”。因为书里的思想,有可能是过期的,有可能是别人编撰的,成为不了你的思想。每个人的思想都是独一无二的,哪怕是“乌合之众”的一员,同样也带有自己的情感诉求,放到陌生的环境,依然有自己处理问题的方法方式。

在《别再死盯着ROI》这篇文章里,车品觉谈到了他当年的一个决定,根据复购率最高的30%的广告关键词进行跟踪,看看跟着这些广告词而来购物的用户,在三个月后,是不是还会再次进行登录并购物。

这个故事背后的实现,完全靠技术。技术人员在此场景中,完全是产品经理的枪,指哪打哪。做的好,都是产品经理的功劳,当然一部分的产品经理都是在背着风险,因为产品经理或者营运做不好,是直接和收入挂钩的,而技术,则永远是在背后做贡献。

技术员有着明确的敌人,就是技术难题;而产品,则有太多的敌人,有时候看不清敌人在哪;有时候明知道敌人就在哪里,却苦思冥想而不得战术要领。两者都是在费脑子,只不过这么看来,技术的脑子费得不如产品那么多,那么强度大。

如果技术要赶上产品或者运营的思路或者能做得更好,当然最好。但是术业有专攻,这样的人凤毛麟角,不是嘛。

《别再做“碰巧游戏》开篇就给了我们一个很好的方向:趋势。
大量的产品经理,高级开发在一个招聘网站开始活跃,说明某一家公司内部出现了一股趋势。抓住这股趋势就能干点事情。所谓的趋势,就是人气。人气往哪里跑,那里就肯定有市场。如果拿不到政府公布的新生婴儿出生率,那么单看网络上6岁以下妈妈群,妈妈团的数量,就能知道是不是围绕着儿童这一主题市场,做点事情。如果每年大量的毕业生找不到工作,失业率上升,是不是可以考虑培训机构。数字背后意味着市场都懂,关键是怎么去分析得到趋势所向。

互联网未来的人才之战,应该在于分析师,即”市场解码员“。而这些”市场解码员“的最终杀手锏应该是一张或者多张”仪表盘“。在大数据工程师眼中最没有技术含量的”仪表盘“,技术简单,实现方便,现成的js库一拉,什么都能给你解决的了。但是”仪表盘“上为什么有这表那表,这图那图,大数据工程师一般都不会去深究的,他们木讷的脸上只有这两个字:”需求“!

《全域大数据》,即数据的上帝视角。每个人的行为数据都掌握在一家公司收下,这家公司不火才奇怪。根据你的消费行为,直接量身打造属于你的消费圈,你所到的每个地方都能满足你的购物,旅游,保险需求,那你的口袋还能扎紧嘛?

而目前的现状是,这些数据都需要流通成本。无论是消费数据,医疗数据的买卖,每个公司得到的都只是片面的生活场景,而且能否鉴定是同一个消费者,都存在技术困难。那么使用成本就更高了。

《数据分类与数据价值》:毫无疑问,数据的价值来自于数据分类与数据融合。数据分类实现是, 提炼精简的前提;数据的融合,是产生价值的必要条件,任何孤立的数据,不利于很好的扩展数据的应用。

细节的实现上,经常会有主数据管理一说。我觉得主数据管理很虚,因为并不是特别量化的行为。我们用主数据,到底用来做什么呢?

得到一些灵感还是来自于这篇文章:
https://blog.csdn.net/bbqk9/article/details/6031944

文中指出元数据与主数据的不同,似乎一下就能帮你明白主数据的范畴。元数据是数据的数据,即定义数据的数据,比如HR系统中的雇员,定义雇员的表或者试图,这些数据库对象就是元数据。而雇员在每个部门的应用软件中,昵称,职位和编号,都会有不同,如何在每个系统中都准确无误的描述这个人,就要用到主数据。一旦某一个系统更改了有关这名雇员的信息,这份更正的雇员信息,需要同步到其他系统里面。

精确的维护主数据是产生数据价值的前提,是定制客户化营销策略的一种保障。主数据也是分类数据的一种,因此维护它具有极高的战略意义。

重读《决战大数据》有感相关推荐

  1. 重读《拿破仑传》有感

    14岁那年,当第一次读到<拿破仑传>的时候,被深深震撼,看到西方世界竟然也有类似秦皇汉武般伟大的君王,当初年少无知,更多的关注拿破仑一生征战,攻无不克战无不胜,如同战神一般的威名.革命之子 ...

  2. 『2月特刊』伟大的朋友丨拿破仑(1)

    关注"Ai时速" 智慧赢未来!  Ai时速  因着Ai的美好:用速度和激情创享Ai时代! 职业创业|PK分享|成长进化 拿破仑 写在前面 " 你们也许会抱怨天下人负我,我 ...

  3. [收藏] 王永民先生:自我白描

    自我白描 1.一维介绍 一介书生,半个农民.发明了"五笔字型"和"五笔数码"两套汉字键入技术并加以推广.党和国家给予了太多的荣誉,难副其实. 2.二维介绍 6岁 ...

  4. 【原创中】儿子,听爸爸跟你说

    可爱的宝贝儿子:           可能你现在正在家里小床上酣睡,可惜爸爸不能在你身边陪着你.无数个夜晚,你妈妈他们睡在你身边照顾你,你知道他们有多辛苦吗?等你长大了,我会告诉你做父母的艰辛,我们并 ...

  5. 你若安好便是晴天nbsp;---------…

    原文地址:你若安好便是晴天 ---------读林徽因传有感作者:静听花开的声音 每个人来到世上,都是匆匆过客,有些人与之邂逅,转身忘记:有些人与之擦肩,必然回首.所有相遇和回眸都是缘分,当你爱上了某 ...

  6. 我的读书清单(持续更新)

    我的读书清单(持续更新) 2017-05-31 <一千零一夜>2006(四五年级) <中华上下五千年>2008(初一) <鲁滨孙漂流记>2008(初二) <钢 ...

  7. 经典书籍--经济 投资 管理 修身 谋略 自传

    第1部 <经济表> 弗朗斯瓦·魁奈(法国1694-1774) 第2部 <国富论> 亚当·斯密(英国1723-1790) 第3部 <人口原理> 托马斯·罗伯特·马尔萨 ...

  8. 转帖:一生必读经典书籍大全,看看你读过几本?

    转自:http://apps.hi.baidu.com/share/detail/15371447 30部必读的经济学经典 第1部 <经济表> 弗朗斯瓦·魁奈(法国1694-1774) 第 ...

  9. 22下半年:来长沙建第二支团队与所读的30本书(含哲学文学历史书单/笔记)

    前言 自从之前写了这三篇文章:<我的求学十年(00至10)>.<我的十年青春(10至20)>.<20 21九死一生.22上半年读20本书>之后,我便决心每隔半年便把 ...

  10. “时间都到哪里去了?”

    快到12点了,还是坚持把今天的事记一下. 今天比较忙. 1 早晨睡过头了,把一个上午的课全逃掉了.昨天晚上本来是预计今天好好去上课的,呜呜,都是晚睡惹得祸. 2 下午的时候看微机接口实验的汇编程序,没 ...

最新文章

  1. MySQL 获得当前日期时间 函数
  2. Android 修改手机hosts域名 (绑定host域名 )
  3. 学编程一定要掌握的186个关键单词!
  4. C# 截取图片的方法
  5. Ubuntu 安装 chrome
  6. 青蛙跳台阶问题暨斐波那契数列
  7. 自考计算机哪个简单,自考哪个专业好考?
  8. WPF基础(八)bitmapImage.EndInit()引发异常 未找到适用于完成此操作的图像处理组件:可能是收发图片格式不一致导致的。
  9. WordPress社交网络菜单图标更改——SVG图标
  10. 中国全电动注塑机行业发展趋势及未来需求前景预测报告(2022-2027年)
  11. 计算机找不到ac97前面板怎么办,电脑Win7系统前面板耳机插孔没有声音解决方法(音频设置+前面板插线方法)...
  12. 【开源库分享】雷电模拟器自动化操作库 C#版本
  13. 看《赘婿》我不仅收获了快乐,还收获了独特的目标管理方法(OKRs-E)
  14. 【附源码】计算机毕业设计java学习资源共享网站设计与实现
  15. uvm打印信息冗余度和重载打印信息
  16. actuator的端口暴露
  17. (小技巧) 如何让Linux 机器CPU使用率变高
  18. 小白入门:什么是CURD?
  19. Proxmox VE安装使用心得记录
  20. Python 变量类型,关于变量的实现和原理

热门文章

  1. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java水果库存管理系统30q2h
  2. 【前端js】实现剑指offer|leetcode(二)——数组题目集合
  3. 蓝牙技术|上半年全国新增 130 万台充电桩,蓝牙充电桩将成为市场主流
  4. 基于Web开发的房产系统软件源码
  5. 情人节程序员用HTML网页表白【守护爱情(泡泡游戏)】 HTML5七夕情人节表白网页源码 HTML+CSS+JavaScript
  6. IT 技术人需要思考的 15 个问题
  7. 俄罗斯作家协会将推出知识产权贷款区块链平台
  8. 【2021-01-22】JS逆向之七麦数据analysis获取
  9. Windows Server学习过程中遇到的一些摘抄
  10. 如何将高版本服务器系统转为低版本,iOS高版本备份恢复到低版本系统的方法