点击上方 蓝字 关注我们

你是否和我有同样的感觉,不知道从什么时候开始我们的隐私已经彻彻底底地暴露,在互联网场景下我们就是在裸奔。列举几个情景,你应该也会感同身受。

想必在某宝上搜索过自己心仪的商品后,推荐页面就会弹出各种各样与搜索商品相似的推荐;更有甚者在某些APP上看视频或浏览误触了某辅导的小广告,除了收到各式各样中小学课程推荐,接着就会接到各式各样的推销电话。

上述情景的发生,是由于各类手机APP通过数据埋点技术、数据上报技术采集了我们的行为信息,基于行为信息对于我们的年龄,职业,需求等作出预判,从而推荐我们相应的商品。那么各类APP都会采集用户的哪些信息,这些信息是如何通过数据埋点技术被采集到,又是如何进行数据上报的呢?

作为数据分析师或者是即将转行数据分析的你,有必要系统地了解下从用户行为到用户数据的整个流程,为之后数据埋点的工作做一个简单的铺垫。

01

从数据产生流程浅谈数据埋点

互联网的海量数据是通过数据埋点技术采集用户行为数据而产生的,每当用户在客户端发生一个行为操作,这个操作行为会被对应页面位置背后的代码收集到,这就是数据埋点技术;采集到的数据通过SDK(Software Development Kit)上报,这就是数据技术上报技术;上报后的数据通过一些系列处理流程入库到数仓形成海量的用户数据。

以上的过程就是用户数据产生的过程,这个过程中涉及到三个重要的主体,分别是用户,客户端和服务器。我们需要关注三个问题:第一,是用户的哪些行为会被采集到的,分别是在客户端还是在服务端被采集到;第二,实现这些用户数据采集的技术有哪些以及它们之间的异同;第三,采集到的这些用户数据之后是如何实现数据上报的。后面几节内容会一一介绍这三个问题,理解了这三个问题,对于数据分析师需要开展的数据埋点工作大有益处。

02

为什么需要数据埋点

说到这里,你肯定已经理解了数据产生的流程,但为什么要进行数据埋点获取用户行为习惯呢?当然是要对业务进行数据监控,对产品进行优化,对用户进行精细化运营以实现盈利最大化。那如何实现呢?这就需要数据分析师上场对海量的用户数据进行分析,提出相应的方案。俗话说,“巧妇难无米之炊”,如果没有数据埋点获取海量数据,数据分析师这个“巧妇”就很难施展自己的才华了。所以数据埋点无论是对于数据分析师来说还是对于企业来说都极其重要,数据埋点埋得好能够方便分析师们分析业务问题快速得出结论,同时辅助业务进行决策,以实现业务KPI,形成闭环。

03

网站和APP采集能采集哪些用户数据

网站或者APP能够采集到的用户的四类信息,第一是设备的硬件能力,例如设备品牌,型号,主板,CPU,屏幕分辨率等等信息;第二是软件能力,就算没有点击网页或者APP,像横竖屏,截屏,摇一摇等操作也会被记录下来;第三是数据权限,新注册某款软件时,对于相册、通讯录、GPS等比较私密的信息一般会跳出是否授权的操作选项,如果用户同意授权,那么网页或者APP就能够采集到的这些信息;第四是用户行为,用户只要对网页或者APP进行操作,行为都会被记录下来。

虽然网站或APP在用户授权的情况下可以采集到用户的各类数据,但是作为数据分析师在做数据埋点文档的时候,并不需要追求大而全,可以根据业务提的需求文档对相应的行为进行埋点记录即可。

04

数据埋点的分类及其方式

数据埋点的方法根据其位置分类,可分为前端埋点和后端埋点。

前端埋点通过SDK进行数据采集,为了减少移动端的数据流量,通常对采集的数据进行压缩、暂存,打包上报。对于那些不需要实时上报的的事件,通常只在wifi环境下上报,因此会出现上报的延迟与漏报的现象。

而后端采集数据则是通过调用API接口采集信息,使用内网传输信息,基本不会因为网络原因丢失数据,所以后端传输的数据可以非常真实地反应用户行为。

https://zhuanlan.zhihu.com/p/102258485

而前端埋点又可以视其自动化程度,分为代码埋点(手动埋点)、全埋点(无埋点或全自动媒体)以及可视化埋点。

各类埋点的定义、异同、优点、缺点以及适用场景都已经总结如下表。

05

主流的数据上报技术

埋点能够获取用户设备、行为等方面的信息,获取信息后需要进行上报,然后入库储存,最后数据分析师才能拿到这些数据进行分析。说到这里,为大家介绍下主流的数据上报技术。目前,主流的数据上报技术有客户端主动上报以及服务端,和前端埋点及后端埋点遥相呼应。

客户端上报

手机里装的APP我们可以认为它们是客户端,用户对客户端进行操作后,客户端通过网络发送HTTP请求给服务端,同时将数据上报给服务端。如果用户每操作一次,客户端就将数据上报一次,而一款产品的用户的数量级少说也是上万级别的,操作一次上报一次无疑对服务器的压力是极大的。所以,客户端会对用户数据进行积攒,我们称这个积攒下来的数据为数据包,在某个时间点客户端统一将数据包上传给服务器。

因为用户的操作节点和数据的上报节点并不是时时同步的,所以客户端的这种上报方式我们称为异步上报。而整个上报的过程都是需要网络的,在极端情况下,客户端正准备上报数据包,但这时候突然断网,如果网络没有重连机制或者一直连不上网,这个数据包就会丢失,我们称作为丢包。这也从一定层面解释了客户端上报的数据可能因为丢包等情况的存在不一定那么准确。

服务端获取

在网页中,用户首次看到的一切,都是从服务器返回的(APP 不同,因为部分界面和逻辑已经安装在了用户的设备上,展示这部分界面不需要网络请求)。那么服务器在应答你的客户端请求的时候,也能拿到一些基本信息,比如你的浏览器类型、版本号、屏幕分辨率、IP 地址等等

http://www.woshipm.com/data-analysis/3195604.html

06

总结

回到文章开头的小情景,对于隐私保护你有新的想法了嘛?我们目前能做的就是对于私密信息的授权要谨慎,不要再互联网上填写个人信息,特别是上传身份证等等。

讲完数据埋点的相关背景知识,想要入门数据分析的你对于数据埋点又有了新的认识。那么如何选择前端埋点还是后端埋点,如何做好一份数据埋点文档也是数据分析师必备的技能,给10个再看,我们更新下一篇教会你做一份优质的数据埋点文档的方法论!

参考文章

http://www.woshipm.com/data-analysis/3195604.html

http://www.woshipm.com/data-analysis/665420.html

https://zhuanlan.zhihu.com/p/65834362

https://zhuanlan.zhihu.com/p/102258485

https://www.jianshu.com/p/6f5d60b04b93

https://zhuanlan.zhihu.com/p/40985361

https://cloud.tencent.com/developer/news/473370

https://www.sensorsdata.cn/blog/shu-ju-jie-ru-yu-mai-dian/

https://zhuanlan.zhihu.com/p/41084975

https://tech.meituan.com/2017/03/02/mt-mobile-analytics-practice.html

https://zhuanlan.zhihu.com/p/58868009

https://www.zhihu.com/question/36411025/answer/1264259674

https://www.zhihu.com/market/paid_column/1226257638931050496/p/1226266001714663424

https://zhuanlan.zhihu.com/p/260472122

http://www.woshipm.com/data-analysis/872543.html

如果您觉得我们的文章还不错,请分享,点赞,再看,一键三连!!!

END

指标体系相关文章持续更新中,欢迎加入数据人专属交流群

指标体系|入职新公司如何为新业务搭建一套通用的指标体系并快速实现指标体系落地

2021-01-14

数据分析师在数据治理流程中承担的角色

2021-01-11

指标体系|从中国人口数据谈指标体系构建

2020-12-28

指标体系|四个模型教会你指标体系构建的方法

2021-01-04

数据人必会的Excel|掌握32个Excel小技巧,成为效率达人(一)

2021-01-08


http://www.taodudu.cc/news/show-7174732.html

相关文章:

  • EasyCrawler-爬取某岛国的病例统计网
  • YOLOV4网络结构总结
  • yolov4 网络结构解析
  • 任知阁:把格局打开
  • 周鸿祎经典语录
  • 格局 也就是识 语录(一)
  • 照片编辑软件app有哪些?照片编辑软件分享。
  • 推荐一款超实用的免费照片编辑软件给大家!
  • [USACO2.1] 顺序的分数 法雷数列
  • 【洛谷1892】团伙 并查集
  • 【hdu4403】 A very hard Aoshu problem dfs
  • [USACO2.1] 三值的排序 乱搞
  • 【noip2012】 文化之旅 floyd
  • 【bzoj1003】[ZJOI2006]物流运输 最短路+dp
  • 【bzoj1217】[HNOI2003]消防局的设立 贪心
  • 纯CSS3实现苹果iOS 7风格进度条
  • jQuery对话框
  • 强大的js焦点图插件myFocus.js
  • css3实现扁平化风格APP应用图标时钟动画
  • PHP+MySql+jQuery实现红蓝投票功能
  • bzoj1083(kruskal)
  • 超图大数据环境搭建之单机版hadoop搭建
  • 苹果cmsv10视频播放下载2tu风格模板
  • 怎样管理呼叫中心的人员
  • 呼叫中心系统成本及定价方式
  • 医院建设呼叫中心系统的必要性
  • 呼叫中心php开发接口,呼叫中心API功能
  • 单片机实验-开发板动态显示电路移植
  • 2021秋招-场景题-垃圾评论、垃圾短信、垃圾邮件的检测技术方法
  • Python爬取斗图啦,妈妈再也不会担心我无图可刷了

数据埋点|从隐私保护浅谈数据生命周期,初识数据埋点相关推荐

  1. 浅谈 React 生命周期

    浅谈 React 生命周期 浅谈 React 生命周期 旧版的生命周期 新版的生命周期 详解各个生命周期函数 constructor getDerivedStateFromProps render c ...

  2. 线上分享 | 浅谈用户生命周期运营

    作为互联网从业者,你可能在很多地方都看到过"用户生命周期"这个词.如果用户必定流失,那就要尽一切可能延长用户的生命周期,并且产生商业价值. 本次分享会带你划分用户结构,用RFM模型 ...

  3. 浅谈vue —— 生命周期

    记于vue生命周期的学习 每个 Vue 实例在被创建时都要经过一系列的初始化过程--例如,需要设置数据监听.编译模板.将实例挂载到 DOM 并在数据变化时更新 DOM 等.同时在这个过程中也会运行一些 ...

  4. 从前端Vue/Axios到后端交互--浅谈Vue生命周期、Ajax调用

    一.基本需求 介绍: 此项目实现了对数据库数据的增删查改,后端使用Spring+MyBatis+SpringMVC,前端使用了Vue+JavaScript+AJAX,前后端实现了异步交互,前端页面可以 ...

  5. 浅谈“政务互联网+”“政务大数据”

    作为在"电子政务"行业持续工作了已16个年头的"老挨踢"人,计划把"政务互联网+"&"政务大数据"作为2017年 ...

  6. python读取图像数据流_浅谈TensorFlow中读取图像数据的三种方式

    本文面对三种常常遇到的情况,总结三种读取数据的方式,分别用于处理单张图片.大量图片,和TFRecorder读取方式.并且还补充了功能相近的tf函数. 1.处理单张图片 我们训练完模型之后,常常要用图片 ...

  7. 嵌入式AI —— 6. 为糖葫芦加糖,浅谈深度学习中的数据增广

    没有读过本系列前几期文章的朋友,需要先回顾下已发表的文章: 开篇大吉 集成AI模块到系统中 模型的部署 CMSIS-NN介绍 从穿糖葫芦到织深度神经网络 又和大家见面了,上次本程序猿介绍了CMSIS- ...

  8. 本地差分隐私 随机响应_大数据时代下的隐私保护

    本文作者程越强.孙茗珅.韦韬 1 引言 在大数据的时代,越来越多的服务和产品是围绕用户数据(隐私)建立的.这样虽然带来了个性化的服务,提高了服务质量和精度,但是在数据收集.使用以及公布的过程中,用户隐 ...

  9. 【数据应用案例】隐私保护与PATE方法

    案例来源:@百度安全实验室 @AI科技评论 @雷锋网 案例地址:http://www.freebuf.com/column/147115.html,https://mp.weixin.qq.com/s ...

最新文章

  1. 编写运行最简单的java程序——使用记事本编写java程序
  2. 通俗理解 Kubernetes 中的服务,搞懂后真“有趣”
  3. C#代码实现把网页文件保存为mht文件
  4. SQL复习(w3school)笔记
  5. java多线程队列_java多线程消费者生产者模式(BlockingQueue 通过阻塞队列实现)
  6. 20155335俞昆《java程序设计》第十周总结
  7. 【英语学习】【Daily English】U12 E-World L04 I bought it on a Swiss website
  8. 维基百科文件解析成中文遇到的变量类型、编码问题
  9. 写渗透测试/cnvd/src/cve报告文档
  10. 十年微博与没落搜狐的社交求变
  11. 华硕路由器的虚拟服务器,华硕(ASUS)路由器中继设置_华硕路由器无线中继模式设置教程-192路由网...
  12. 请问如何让路由器信号增强
  13. Intellij IDEA什么是 moudle 什么是project ?与eclipse的差别
  14. PHP验证码类庫,php验证码类
  15. 2012~2020年期货全品种TICK数据共享更新至2020.7.24
  16. 在iPad上使用Office 365
  17. 谷歌seo工具有哪些
  18. 51单片机 IIC OLED屏幕驱动+Proteus仿真+实物验证示例程序
  19. el-table筛选数据
  20. 某网站登录页面存在用户手机号信息泄露

热门文章

  1. On-Demand Resources Guide中文版(按需加载资源--上)
  2. Win32控制台程序界面类
  3. 【网络】什么是MTU|MTU 优化|最大传输单元
  4. Reveal分析IOS界面,plist文件读取
  5. 如何卸载NyanProgressBar插件
  6. 粒子动态背景--在Vue3中使用VueParticles
  7. Android Studio2021使用Pytorch完成智能交通场景应用App开发
  8. JAX vs Tensorflow
  9. 分布式拒绝服务(DDOS)攻击发展趋势
  10. asixs 响应慢_想开始慢跑锻炼,入手一双asics跑鞋怎么选?