Alibaba作为一家拥有多业务的互联网公司,进行用户数据的大数据分析,已成为推动数据化运营的必然选择。大数据分析,第一步必然是取得需要的数据,今天我们来看看淘宝的用户行为数据采集的细节。任何一个小话题,细看都大有文章。

一、用户在购物网站上的任何一个行为都有分析的价值

1、基础信息。UV(独立ip地址的浏览量)、PV(页数被查看的数量)解决了流量来源统计、页面流量统计的问题,但随着互联网业务的发展,这些分析数据已经远远不能满足用户细分研究的需求。

2、扩展信息。用户在鼠标在某个链接上的停留时间、输入焦点的移动变化(代表对某个信息的关注度),这些行为并不触发浏览器加载新页面,无法通过常规的log日志分析出来,必须用新的办法。

二、WEB浏览器客户端的数据采集办法

1、客户端日志采集。因为数据不能完全依靠传统基于http服务器端的log文件进行进行数据分析,因为用户鼠标的移动并不会产生log文件的修改。新的处理办法:日志采集工作一般由一小段被植入页面html文档的JavaScript脚本来执行,脚本被客户端浏览器执行时,当用户的事件发生时,将触发JavaScript脚本执行。

2、客户端日志发送。采集脚本执行时,会向日志服务器发一个日志请求,将采集到的数据发送到日志服务器。在多数情况下,事件发生后会被立即执行,但在个别情况,会延迟发送。采集到的信息一般以URL参数放到http请求行,被送到日志服务器进行处理。

3、服务器端日志收集。日志服务器收到客户端送来的日志请求后,会向浏览器发送响应,以避免客户端的浏览器处于未执行成功的状态。同时日志服务器将数据写入缓冲区,完成收集。

4、服务器端日志解析存档。进入缓冲区的数据,会被日志处理程序读出,并被解析,通过处理后转存入标准的日志文件中。并通过消息中间件,将数据送给实时、或离线大数据分析工具中。

三、APP端的数据采集方法

APP分为两种:纯Native APP、嵌入H5的Hybrid APP。现在一般都是第二种,例如大家使用的支付宝。Native页面一般采用采集SDK进行日志采集,而H5的App则采用浏览器的页面日志采集方式进行采集。

四、高峰时期日志采集的处理办法

以双11时段,客户端的日志采集量非常惊人,因此需要做特殊处理。

1、对日志进行分析,结合日志的重要程度、大小,实现了日志服务器端的拆分。

2、在实时处理方面,也做了很多优化,提高吞吐量。

3、延时上报。即让满足条件的日志被暂存在客户端,待流量下降后,再将数据上传到服务器端。

淘宝大数据体系之数据采集相关推荐

  1. 淘宝大数据之路【转】

    原文地址:https://yq.aliyun.com/articles/62528 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数 ...

  2. 淘宝大数据解析之timetunnel

    1. 下载安装JDK.本文使用的是jdk-7u4-linux-i586.tar.gz. 2. 下载apache-maven-3.0.4-bin.tar.gz,解压到目标文件夹: root@ubuntu ...

  3. java spark淘宝大数据分析可视化系统(源码+数据+报告)

    下载地址:https://download.csdn.net/download/a13689028602/18298100 项目介绍 java spark淘宝大数据分析可视化系统(源码+数据+报告) ...

  4. 大数据基础课01 如何在庞大的大数据体系中明确路径?

    你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...

  5. 淘宝卖家数据分析体系

    自己写的淘宝卖家数据分析体系,可以看看,一些内容还不完整,只供参考! 分析项目 细分 数据来源 内容 总览 店铺总体经营情况 量子恒道销售总览(销售额.客单.成交用户数等) 包括销售额.访客数.成交转 ...

  6. 从BAT看企业构建大数据体系的六层级

    文章讲的是从BAT看企业构建大数据体系的六层级,本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建.例如创业型公司,在缺乏数据研发实力的时候, ...

  7. “淘宝大物流”深度剖析,玄机重重

    [本文已经在IT168媒体发表] 链接: http://cio.it168.com/a2010/0615/1066/000001066746.shtml "绝对不会做物流",这是淘 ...

  8. 广州市城市智能交通大数据体系研究与实践

    广州市城市智能交通大数据体系研究与实践 张孜1, 黄钦炎2, 冯川2 1 广州市交通运输局,广东 广州 510620 2 广州交通信息化建设投资营运有限公司,广东 广州 510620 摘要:为了构建现 ...

  9. 淘宝评论数据抓取简记

    刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用. 淘宝商品详情页面下方有如下script: <script>window.App = (window.App || {}); ...

  10. 归因分析:淘宝直播数据助理及其价值研究

    导读:近年来,直播带货成为一种新的流行业态.主播在直播间与线上消费者实时互动,这极大的提高了信息交流的效率.在这种实时性极强的场景,主播对直播间实时信息的使用有可显著影响直播间的带货情况. 为了让主播 ...

最新文章

  1. Spring事务异常回滚,try catch 捕获异常不回滚
  2. python类装饰器详解-Python类装饰器实现方法详解
  3. 云计算是数据分析的最佳场所吗?
  4. 树莓派模拟电路_9.树莓派3B+ PWM操作
  5. 几个重要的java数据库访问类和接口
  6. OpenCV4Android JavaCameraView实现
  7. Python实现线性回归2,梯度下降算法
  8. android ImageView 之 android:scaleTye=
  9. html总结:文本框填满表格
  10. 2016第三届科学数据大会——科学数据与创新发展
  11. 【今日CV 计算机视觉论文速览】Thu, 28 Mar 2019
  12. 在js中访问html页面,javascript – 在IE9的html页面中访问js里面的全局函数
  13. python网易云_小白都懂的Python爬虫之网易云音乐下载
  14. 数据库服务器如何备份详细教程!
  15. 图书管理系统之带验证码登录界面
  16. 【设计模式】单例模式是什么?如何实现单例模式?单例模式常见问题?
  17. 六:分布式架构存储设计
  18. 电信 802.1p 设置_电信VoLTE免费开通
  19. php 五角星,php使用GD库画五角星
  20. 佳能Canon PIXMA MG2545S 打印机驱动

热门文章

  1. 企业要如何利用360评估法做好人才盘点?
  2. #define 喵 int_【吃鸡大作战第三季】第12集 告白小雪喵
  3. 3dsMax学习笔记01_用VRayMtl材质制作玻璃材质
  4. 享元模式(羽量级模式、蝇量级模式Flyweight,对象结构型模式)
  5. 网络编程三剑客之sed
  6. Financial crime in times of Covid-19 – AML and cyber resilience measures 整理
  7. vue中yarn install报错:info There appears to be trouble with your network connection. Retrying…
  8. 确实有必要好好学英语
  9. 在使用html5的video标签播放视频时为何只有声音却没有图像
  10. android 音乐共存,酷我音乐自制共存版