淘宝大数据体系之数据采集
Alibaba作为一家拥有多业务的互联网公司,进行用户数据的大数据分析,已成为推动数据化运营的必然选择。大数据分析,第一步必然是取得需要的数据,今天我们来看看淘宝的用户行为数据采集的细节。任何一个小话题,细看都大有文章。
一、用户在购物网站上的任何一个行为都有分析的价值
1、基础信息。UV(独立ip地址的浏览量)、PV(页数被查看的数量)解决了流量来源统计、页面流量统计的问题,但随着互联网业务的发展,这些分析数据已经远远不能满足用户细分研究的需求。
2、扩展信息。用户在鼠标在某个链接上的停留时间、输入焦点的移动变化(代表对某个信息的关注度),这些行为并不触发浏览器加载新页面,无法通过常规的log日志分析出来,必须用新的办法。
二、WEB浏览器客户端的数据采集办法
1、客户端日志采集。因为数据不能完全依靠传统基于http服务器端的log文件进行进行数据分析,因为用户鼠标的移动并不会产生log文件的修改。新的处理办法:日志采集工作一般由一小段被植入页面html文档的JavaScript脚本来执行,脚本被客户端浏览器执行时,当用户的事件发生时,将触发JavaScript脚本执行。
2、客户端日志发送。采集脚本执行时,会向日志服务器发一个日志请求,将采集到的数据发送到日志服务器。在多数情况下,事件发生后会被立即执行,但在个别情况,会延迟发送。采集到的信息一般以URL参数放到http请求行,被送到日志服务器进行处理。
3、服务器端日志收集。日志服务器收到客户端送来的日志请求后,会向浏览器发送响应,以避免客户端的浏览器处于未执行成功的状态。同时日志服务器将数据写入缓冲区,完成收集。
4、服务器端日志解析存档。进入缓冲区的数据,会被日志处理程序读出,并被解析,通过处理后转存入标准的日志文件中。并通过消息中间件,将数据送给实时、或离线大数据分析工具中。
三、APP端的数据采集方法
APP分为两种:纯Native APP、嵌入H5的Hybrid APP。现在一般都是第二种,例如大家使用的支付宝。Native页面一般采用采集SDK进行日志采集,而H5的App则采用浏览器的页面日志采集方式进行采集。
四、高峰时期日志采集的处理办法
以双11时段,客户端的日志采集量非常惊人,因此需要做特殊处理。
1、对日志进行分析,结合日志的重要程度、大小,实现了日志服务器端的拆分。
2、在实时处理方面,也做了很多优化,提高吞吐量。
3、延时上报。即让满足条件的日志被暂存在客户端,待流量下降后,再将数据上传到服务器端。
淘宝大数据体系之数据采集相关推荐
- 淘宝大数据之路【转】
原文地址:https://yq.aliyun.com/articles/62528 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台,淘宝大数 ...
- 淘宝大数据解析之timetunnel
1. 下载安装JDK.本文使用的是jdk-7u4-linux-i586.tar.gz. 2. 下载apache-maven-3.0.4-bin.tar.gz,解压到目标文件夹: root@ubuntu ...
- java spark淘宝大数据分析可视化系统(源码+数据+报告)
下载地址:https://download.csdn.net/download/a13689028602/18298100 项目介绍 java spark淘宝大数据分析可视化系统(源码+数据+报告) ...
- 大数据基础课01 如何在庞大的大数据体系中明确路径?
你好,我是荒川,目前在一线大厂做高级算法专家,曾经主导过数据平台建设.推荐系统数据流框架设计.数字化内容运营平台.用户画像平台等大型项目.在这些工作的过程中,我有幸熟悉了以个性化推荐为应用的大数据体系 ...
- 淘宝卖家数据分析体系
自己写的淘宝卖家数据分析体系,可以看看,一些内容还不完整,只供参考! 分析项目 细分 数据来源 内容 总览 店铺总体经营情况 量子恒道销售总览(销售额.客单.成交用户数等) 包括销售额.访客数.成交转 ...
- 从BAT看企业构建大数据体系的六层级
文章讲的是从BAT看企业构建大数据体系的六层级,本文将企业大数据体系的构建分为六个层级,但并非是线性过程,每个层级之间或有基础关系,但并不是说一定要逐层构建.例如创业型公司,在缺乏数据研发实力的时候, ...
- “淘宝大物流”深度剖析,玄机重重
[本文已经在IT168媒体发表] 链接: http://cio.it168.com/a2010/0615/1066/000001066746.shtml "绝对不会做物流",这是淘 ...
- 广州市城市智能交通大数据体系研究与实践
广州市城市智能交通大数据体系研究与实践 张孜1, 黄钦炎2, 冯川2 1 广州市交通运输局,广东 广州 510620 2 广州交通信息化建设投资营运有限公司,广东 广州 510620 摘要:为了构建现 ...
- 淘宝评论数据抓取简记
刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用. 淘宝商品详情页面下方有如下script: <script>window.App = (window.App || {}); ...
- 归因分析:淘宝直播数据助理及其价值研究
导读:近年来,直播带货成为一种新的流行业态.主播在直播间与线上消费者实时互动,这极大的提高了信息交流的效率.在这种实时性极强的场景,主播对直播间实时信息的使用有可显著影响直播间的带货情况. 为了让主播 ...
最新文章
- Spring事务异常回滚,try catch 捕获异常不回滚
- python类装饰器详解-Python类装饰器实现方法详解
- 云计算是数据分析的最佳场所吗?
- 树莓派模拟电路_9.树莓派3B+ PWM操作
- 几个重要的java数据库访问类和接口
- OpenCV4Android JavaCameraView实现
- Python实现线性回归2,梯度下降算法
- android ImageView 之 android:scaleTye=
- html总结:文本框填满表格
- 2016第三届科学数据大会——科学数据与创新发展
- 【今日CV 计算机视觉论文速览】Thu, 28 Mar 2019
- 在js中访问html页面,javascript – 在IE9的html页面中访问js里面的全局函数
- python网易云_小白都懂的Python爬虫之网易云音乐下载
- 数据库服务器如何备份详细教程!
- 图书管理系统之带验证码登录界面
- 【设计模式】单例模式是什么?如何实现单例模式?单例模式常见问题?
- 六:分布式架构存储设计
- 电信 802.1p 设置_电信VoLTE免费开通
- php 五角星,php使用GD库画五角星
- 佳能Canon PIXMA MG2545S 打印机驱动
热门文章
- 企业要如何利用360评估法做好人才盘点?
- #define 喵 int_【吃鸡大作战第三季】第12集 告白小雪喵
- 3dsMax学习笔记01_用VRayMtl材质制作玻璃材质
- 享元模式(羽量级模式、蝇量级模式Flyweight,对象结构型模式)
- 网络编程三剑客之sed
- Financial crime in times of Covid-19 – AML and cyber resilience measures 整理
- vue中yarn install报错:info There appears to be trouble with your network connection. Retrying…
- 确实有必要好好学英语
- 在使用html5的video标签播放视频时为何只有声音却没有图像
- android 音乐共存,酷我音乐自制共存版