本文公众号来源:大数据肌肉猿 作者:无精疯

最近也开始接触大数据相关的东西,看到这篇文章非常通俗易懂地讲解了大数据究竟是干嘛的,推荐阅读!

(本文由虐狗的嫌疑,放下40米长刀再食用!)

大纲:

一、写作背景

二、开始淘宝

2.1 推荐系统(导购员)

2.2 大数据平台开发(店里监控布局)

2.3 实时计算(收银员)

2.4 数据仓库(储物间)

2.5 数据分析(店长)

2.6 离线计算(会计)

2.7 数据挖掘(精算师)

三、总结

一、写作背景

1.总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她都没听懂,她也不知道怎么跟她朋友说。最好的解决方法是换女票,当然这是不存在的,想都不会想也不敢想。于是乎说写篇她看完也能知道大数据的文章给她。

2.下次要是有人问你大数据开发是什么,希望你能把这篇文章分享给他。

二、开始淘宝

2.1 推荐系统(导购员)

一打开女票的手机淘宝页面,就发现推荐栏叫我女票换包。

推荐商品栏以及热搜和搜索框中的内容,都是根据你定制的。你最近经常搜的物品和浏览的东西都被记录起来,然后被贴上标签。像我女票应该是被贴上「小仙女」、「时尚」、「少女」等标签,下次的女神节,情人节等节日活动的对象就是他们。

这个就是大数据中的推荐系统,专门猜你喜欢,类似导购,提高你的购买率。

2.2 大数据平台开发(店里监控布局

那么数据是怎么被记录的?被记录的又是什么数据?

你的昵称,设备IP,浏览的足迹,每个商品停留的时间,浏览的时间段都是后台要采集的数据。

首先我们搭建一个平台,专门去定制收集数据的手段以及采取的策略和存放这些数据的地方,这就是大数据平台的搭建。类似你在你店里布置了监控探头,录音等设备,然后有其他店员通过这些设备帮你观察消费者的言行举止等等行为。

2.3 实时计算(收银员)

当你在浏览商品的时候,你会发现旁边会有实时的推荐,如下图:

这是因为你在浏览商品的过程中数据不断被收集,然后被投放到上述的推荐系统中。但是那些用户名,商品等信息不一定都是规则的,有可能是数字,有可能是符号。所以我们这边要有一个程序员,专门负责实时的处理这些数据,把这些数据处理成有规则的,并存储到数据仓库中。至于为什么这样做,下面会解释。

这个过程就是大数据的实时计算,它具有时效性,就是不能停,立刻马上做出响应的。把它比喻成收银员就是为了突出实时,别人要结账你得立即做出响应。

2.4 数据仓库(储物间)

前面提到了数据仓库,顾名思义,存储数据的仓库。在我们一些工厂或者企业的仓库里,我们通常都会按循序、分类放好我们的物品,要制定规则,哪些能放,哪些不能放,哪些需要处理之后才能放。比如说你要放一个柜子,可能不能放,但你如果把它拆成木板就可以放,等要用的时候要拿这些木板去组装就行。

所以才有上述的实时计算,因为它要遵守数据仓库管理员制定的规则,将数据按照规格处理好才能进行存放。

2.5 数据分析(店长)

当你从淘宝给你推荐的商品挑选出你喜欢的之后,点击直接购买并付款。淘宝系统会生成一条你订单的数据到数据库里面,上面会有你的收件地址、联系方式、商品信息、数量等。

而这些数据有什么用呢?你可能会想说,留底当凭证啊。对的,不过不止这个作用。

举个例子:马云开会说:我要看一下这十年的内衣销售明细,各个地区的销售情况。这时候有个部门就要去整理出这些报表了,那就是数据分析部门,他们要从海量的数据中去分析这些指标,并整理成报表给马老板看。

马老板看了这些数据之后,得出一个结论:「浙江女性胸部全国最小」。然后呢?肯定是以后往浙江多进一些小码的内衣,以增加销售量,然后可能再顺带卖点木瓜什么的。

这就是数据分析带来的好处,为我们公司的高层提供决策上的支持。

2.6 离线计算(会计)

不对啊,十年的数据量,能说查就查吗?数据量得多大啊!没错,不可能说要什么数据立马就能查出来的。最理想的方案就是:当天结束就计算当天的指标,把销售额,地址什么的统计好,然后每星期再统计一下,每个月再统计一下,以此类推。那算十年不就分分钟的事?

对的,那这些事情谁来做呢?当然是我们离线计算工程师。离线计算顾名思义,实时计算的对立方,我们做的是幕后工作。可以将实时计算工程师想象为收银员,每个顾客买单时都得结账并打印发票什么的,不能拖延。离线计算则是会计,每天下班之后看着账单点数,看看今天哪些东西各卖多少。可以慢悠悠地算一个晚上,数据对就行,没人在乎你算了多久。

2.7 数据挖掘(精算师)

那这些处理好的数据不能光存着啊,得挖掘出它的价值。没错,根据这些订单数据,我们能推测出未来商品的一个销售走势,哪个地区需要投放哪些商品,这就是数据挖掘。数据挖掘相当于我们企业的精算师顾问,他会从你已有的数据去分析你之后的走势,给你提供一些有价值可供参考的建议。

我们要给数据挖掘系统投放有价值的数据,它类似我们人脑,输入的数据越有价值和参考性,预测的结果越准,否则只会误导。

三、总结

好了,通过以上步骤,淘宝更懂我女朋友了,它会推送更多符合我女票的胃口的商品,然后下单之后的数据会帮助那些商家投放更多种类的商品到该地区,选择更多了,我女朋友也更喜欢在淘宝购物了。


推荐阅读:

  • 《大型网站系统与Java中间件》读书笔记 (二)

  • 面试官:“谈谈Spring中都用到了那些设计模式?”。

  • 【吐血推荐】什么是领域驱动设计?DDD?

  • 基础:为什么计算机只认识0和1?

  • 面试题:你的Redis怎么持久化的


200多篇原创技术文章海量视频资源精美脑图面试题

长按扫码可关注获取

欢迎关注点个再看

通过淘宝,大白话讲解大数据各个方向的分工相关推荐

  1. 通过女票的淘宝历程,大白话讲解大数据各个方向的分工

    浙江女性胸部全国最小! --马云 本文转自公众号"大数据肌肉猿",作者无精疯 1 背景 总跟女票说我是做大数据的,女票也跟她朋友说我是做大数据的,但一问是啥,我跟我女票解释了半天她 ...

  2. 【大数据】通过女票的淘宝历程,大白话讲解大数据各个方向的分工

    浙江女性胸部全国最小! --马云 大纲: 一.写作背景 二.开始淘宝 2.1 推荐系统(导购员) 2.2 大数据平台开发(店里监控布局) 2.3 实时计算(收银员) 2.4 数据仓库(储物间) 2.5 ...

  3. 淘宝走过的大数据之路

    回顾丨13年来,淘宝走过的大数据之路 来源:CSDN大数据 时间:2016-11-07 10:19:15 作者: - 淘宝大数据之路 - 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘 ...

  4. 大数据系统开发综合实践(淘宝双11大数据批处理分析系统、NBA 、淘宝购物大数据实时展示、Spark GraphX)

    cqupt || xmu--大数据系统开发综合实践 代码放在了GitHub上 链接 task01 大数据批处理系统 淘宝双11大数据批处理分析系统 task02 大数据查询分析计算系统 NBA 统计大 ...

  5. 接近淘宝 80%的大数据实时计算平台,从0搭建的经验和坑

    上周一,来自武汉的直播平台斗鱼TV宣布C轮融资,腾讯领投的 15 亿人民币,距其获得 B 轮1亿美元不到半年,也是大写的牛逼. 但小寻更关心他们的大数据架构,作为一个在 2 年多时间里崛起的公司,其流 ...

  6. 淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道

     淘宝杨志丰:OceanBase--淘宝结构化大数据解决之道 时至今日,"Big data"(大数据)时代的来临已经毋庸置疑,尤其是在电信.金融等行业,几乎已经到了" ...

  7. 淘宝双11大数据分析(数据准备篇)

    文章目录 前言 数据内容分析 `user_log.csv`文件内容含义 `train.csv` 和 `test.csv` 文件内容含义 数据上传到Linux系统并解压 数据集的预处理 文件信息截取 导 ...

  8. 【TIANCHI】天池大数据竞赛(学习赛)--- 淘宝用户购物行为数据可视化分析

    目录 前言 一.数据集的来源和各个字段的意义 二.数据分析 1.引入库 2.读入数据 3.查看数据数量级 4.PV(Page View)/UV访问量 5.漏斗模型 6.用户购买商品的频次分析. 7.A ...

  9. 天池赛:淘宝用户购物行为数据可视化分析

    目录 前言 一.赛题介绍 二.数据清洗.特征构建.特征可视化 1.数据缺失值及重复值处理 2.日期分离,PV及UV构建 3.PV及UV可视化 4.用户行为可视化 4.1 各个行为的面积图(以UV为例) ...

最新文章

  1. linux6.5下安装oracle 11,centos6.5下安装oracle11g
  2. Linux/Windows配置stm32免费开发环境详细流程
  3. ls:显示指定目录的详细信息
  4. linux搭建--ubuntu使用qemu-kvm,libvirt搭建虚拟机,并搭建libvmi来虚拟机自省(三)
  5. 从道的角度来论述大数据对企业价值
  6. 《Python绝技:运用Python成为顶级黑客》 用Python进行取证调查
  7. 点到点链路上的 OSPF
  8. IO流之流的操作规律
  9. 控制系统--线性定常数系统的传递函数
  10. 【背包问题】完全背包问题
  11. 语音芯片ic分类以及sop8的otp语音芯片对比 选型
  12. 会员直推奖php程序_PHP自适应卡益源码 前台直销系统报单费直推奖
  13. 程序人生----禅修10日
  14. Vue 记录一次安装插件引起的项目崩溃(This is probably not a problem with npm,there is likely additional logging outp)
  15. 写作的感悟:低头走路与抬头看天
  16. tf.train.Saver()
  17. 【统计学】【2015.09】基于状态空间模型的时间序列预测与插值
  18. 男孩年级轻轻就猝死,看到他最后时刻做的事,我被警醒了(漫画)
  19. JS 特性:可选链(?.)
  20. AndroidStudio插件开发(进阶篇之Editor)

热门文章

  1. python居中填充_python – 在matplotlib的刻度标记之间居中的x-tick标签
  2. 武大公选计算机音乐,在武大,物理+哲学+语言学+音乐......=?
  3. 淘宝天猫电商运营创业经验分享
  4. 【Unity3DRPG入门学习笔记第四卷】Navigation 智能导航地图烘培
  5. Hadoop的改进实验(中文分词词频统计及英文词频统计)(2/4)
  6. 程序员,我心中永恒的痛……
  7. vscode安装使用,开发python项目环境配置
  8. 微盘java 反射原理图_Java 从入门到精通-反射机制
  9. SpringBoot-thymeleaf模板集成
  10. 鬼哥讲解MUT的应用生态