背景

你可能听说过Growingio、神策等数据分析平台,本文主要介绍实现留存分析工具相关的内容。留存分析是一种用来分析用户参与情况/活跃程度的分析模型,可考查进行初始行为后的用户中,有多少人会进行后续行为,这是衡量产品对用户价值高低的重要指标。如,为评估产品更新效果或渠道推广效果,我们常常需要对同期进入产品或同期使用了产品某个功能的用户的后续行为表现进行评估 [1]。大部分数据分析平台主要包括如图的几个功能(以神策为例)

本文主要介绍留存分析工具的优化方案(只涉及数据存储和查询的方案设计,不涉及平台)。

我想每个数据/产品同学在以往的取数分析过程中,都曾有一个痛点,就是每次查询留存相关的数据时,都要等到天荒地老,慢!而最近采用优化方案的目的也是为了提高查询的效率和减少数据的存储,可以帮助产品快速地查询/分析留存相关的数据。优化方案的核心是在Clickhouse中使用Roaringbitmap对用户进行压缩,将留存率的计算交给高效率的位图函数,这样既省空间又可以提高查询速度。希望本实践方案可以给你带来一些帮助和启示。下面主要分3个部分详细介绍:Roaringbitmap简介、思路与实现、总结与思考。

一、Roaringbitmap 简介

下面先简单介绍一下高效的位图压缩方法Roaringbitmap。先来看一个问题:

给定含有40亿个不重复的位于[0,2^32-1]区间内的整数集合,如何快速判定某个数是否在该集合内?

显然,如果我们将这40亿个数原样存储下来,需要耗费高达14.9GB的内存,这是难以接受的。所以我们可以用位图(bitmap)来存储,即第0个比特表示数字0,第1个比特表示数字1,以此类推。如果某个数位于原集合内,就将它对应的位图内的比特置为1,否则保持为0,这样就能很方便地查询得出结果了,仅仅需要占用512MB的内存,不到原来的3.4% [3]。但是这种方式也有缺点:比如我需要将1~5000w这5000w个连续的整数存储起来,用普通的bitmap同样需要消耗512M的存储,显然,对于这种情况其实有很大的优化空间。2016年由S. Chambi、D. Lemire、O. Kaser等人在论文《Better bitmap performance with Roaring bitmaps》与《Consistently faster and smaller compressed bitmaps with Roaring》中提出了roaringbitmap,主要特点就是可以极大程度地节约存储及提供了快速的位图计算,因此考虑用它来做优化。对于前文提及的存储连续的5000w个整数,只需要几十KB。

它的主要思路是:将32位无符号整数按照高16位分桶,即最多可能有2^16=65536个桶,论文内称为container。存储数据时,按照数据的高16位找到container(找不到就会新建一个),再将低16位放入container中。也就是说,一个roaringbitmap就是很多container的集合 [3],具体细节可以自行查看文末的参考文章。

二、思路与实现

我们的原始数据主要分为:

1.用户操作行为数据table_oper_raw

包括时间分区(ds)、用户标识id(user_id)和用户操作行为名称(oper_name),如:20200701|6053002|点击首页banner 表示用户6053002在20200701这天点击了首页banner(同一天中同一个用户多次操作了同一个行为只保留一条)。实践过程中,此表每日记录数达几十亿行。

2.用户属性数据table_attribute_raw

表示用户在产品/画像中的属性,包括时间分区(ds)、用户标识(user_id)及各种用户属性字段(可能是用户的新进渠道、所在省份等),如20200701|6053002|小米商店|广东省。实践过程中,此表每日有千万级的用户数,测试属性在20+个。

现在我们需要根据这两类数据,求出某天操作了某个行为的用户在后续的某一天操作了另一个行为的留存率,比如,在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存率是20%。同时,还需要考虑利用用户属性对留存比例进行区分,例如只考虑广东省的用户的留存率,或者只考虑小米商店用户的留存率,或者在广东的小米商店的用户的留存率等等。一般来说,求留存率的做法就是两天的用户求交集,例如前文说到的情况,就是先获取出20200701的所有操作了“点击banner”的用户标识id集合假设为S1,然后获取20200702的所有操作了“点击app签到”的用户标识id集合假设为S2,最后求解S1和S2的交集:

可以看到,当s1和s2的集合中用户数都比较大的时候,join的速度会比较慢。

在此我们考虑前文说到的bitmap,假若每一个用户都可以表示成一个32位的无符号整型,用bitmap的形式去存储,S1和S2的求交过程就是直接的一个位比较过程,这样速度会得到巨大的提升。而Roaringbitmap对数据进行了压缩,其求交的速度在绝大部分情况下比bitmap还要快,因此这里我们考虑使用Roaringbitmap的方法来对计算留存的过程进行优化。

1. 数据构建

整个过程主要是:首先对初始的两张表——用户操作数据表table_oper_raw和用户筛选维度数据表table_attribute_raw中的user_id字段进行编码,将每个用户映射成唯一的id(32位的无符号整型),分别得到两个新表table_oper_middle和table_attribute_middle。再将他们导入clickhouse,使用roaringbitmap的方法对用户进行压缩存储,最后得到压缩后的两张表table_oper_bit和table_attribute_bit,即为最终的查询表。流程图如下:

(1).生成用户id映射表

首先,需要构建一个映射表table_user_map,包含时间分区(ds)、用户标识id(user_d)及映射后的id(id),它将每个用户(String类型)映射成一个32位的无符号整型。这里我们从1开始编码,这样每个用户的标识就转化成了指定的一个数字。

(2).初始数据转化

分别将用户操作数据表和用户筛选维度数据中的imei字段替换成对应的数值,生成编码后的用户操作数据:

和用户筛选维度数据:

(3).导入clickhouse

首先在clickhouse中创建相同结构的表,如table_oper_middle_ch:


同样的,在clickhouse中创建表tableattributemiddle_ch。然后用spark将这两份数据分别导入这两张表。这一步导入很快,几十亿的数据大概10分多钟就可以完成

(4).Roaringbitmap压缩

对于用户操作流水数据,我们先建一个可以存放bitmap的表table_oper_bit,建表语句如下:

用户属性数据table_attribute_bit也类似:

这里索引粒度可设置小值,接着用聚合函数groupBitmapState对用户id进行压缩:

这样,对于用户操作数据表,原本几十亿的数据就压缩成了几万行的数据,每行包括操作名称和对应的用户id形成的bitmap:

同样的,用户属性的数据也可以这样处理,得到table_attribute_bit表,每行包括某个属性的某个属性值对应的用户的id形成的bitmap:

至此,数据压缩的过程就这样完成了。

2. 查询过程

首先,简要地介绍下方案中常用的bitmap函数(详细见文末的参考资料):1.bitmapCardinality

返回一个UInt64类型的数值,表示bitmap对象的基数。用来计算不同条件下的用户数,可以粗略理解为count(distinct)2.bitmapAnd

为两个bitmap对象进行与操作,返回一个新的bitmap对象。可以理解为用来满足两个条件之间的and,但是参数只能是两个bitmap3.bitmapOr

为两个bitmap对象进行或操作,返回一个新的bitmap对象。可以理解为用来满足两个条件之间的or,但是参数也同样只能是两个bitmap。如果是多个的情况,可以尝试使用groupBitmapMergeState举例来说,假设20200701这天只有[1,2,3,5,8]这5个用户点击了banner,则有:

# 返回5
select bitmapCardinality(user_bit)
from tddb.table_oper_bit
where ds = 20200701 AND oper_name = '点击banner'

又如果20200701从小米商店新进的用户是[1,3,8,111,2000,100000],则有:

# 返回3,因为两者的重合用户只有1,3,8这3个用户
select bitmapCardinality(bitmapAnd(
(SELECT user_bit
FROM tddb.table_oper_bit
WHERE (ds = 20200701) AND (oper_name = '点击banner')),
(SELECT user_bit
FROM tddb.table_attribute_bit
WHERE ds = 20200701 and (attr_id = 'first_channel') and (attr_value IN ('小米商店')))))

有了以上的数据生成过程和bitmap函数,我们就可以根据不同的条件使用不同的位图函数来快速查询,具体来说,主要是以下几种情况:

a. 操作了某个行为的用户在后续某一天操作了另一个行为的留存:

如“20200701点击了banner的用户在次日点击app签到的留存人数”,就可以用以下的sql快速求解:

b. 操作了某个行为并且带有某个属性的用户在后续的某一天操作了另一个行为的留存:
如“20200701点击了banner且来自广东/江西/河南的用户在次日点击app签到的留存人数”:

c. 操作了某个行为并且带有某几个属性的用户在后续的某一天操作了另一个行为的留存:

如“20200701点击了banner、来自广东且新进渠道是小米商店的用户在次日点击app签到的留存人数”:

3. 实践效果

根据这套方案做了实践,对每日按时间分区、用户、操作名称去重后包括几十亿的操作记录,其中包含千万级别的用户数,万级别的操作数。最后实现了:

存储

原本每日几十G的操作流水数据经压缩后得到的表table_oper_bit为4GB左右/天。而用户属性表table_attribute_bit为500MB左右/天

查询速度

clickhouse集群现状:12核125G内存机器10台。clickhouse版本:20.4.7.67。查询的表都存放在其中一台机器上。测试了查询在20200701操作了行为oper_name_1(用户数量级为3000+w)的用户在后续7天内每天操作了另一个行为oper_name_2(用户数量级为2700+w)的留存数据(用户重合度在1000w以上),耗时0.2秒左右

反馈

最后和前端打通,效果也是有了明显的优化,麻麻再也不用担心我会转晕~

三、总结与思考

总的来说,本方案的优点是:

存储小,极大地节约了存储

查询快,利用bitmapCardinality、bitmapAnd、bitmapOr等位图函数快速计算用户数和满足一些条件的查询,将缓慢的join操作转化成位图间的计算

适用于灵活天数的留存查询

便于更新,用户操作数据和用户属性数据分开存储,便于后续属性的增加和数据回滚

另外,根据本方案的特点,除了留存分析工具,对于用户群分析,事件分析等工具也可以尝试用此方案来解决。PS : 作者初入坑ch,对于以上内容,有不正确/不严谨之处请轻拍~ 欢迎交流~

参考文献:
[1] 解析常见的数据分析模型——留存分析:https://www.sensorsdata.cn/blog/jie-xi-chang-jian-de-shu-ju-fen-xi-mo-xing-liu-cun-fen-xi/

[2] RoaringBitmap数据结构及原理:https://blog.csdn.net/yizishou/article/details/78342499

[3] 高效压缩位图RoaringBitmap的原理与应用:https://www.jianshu.com/p/818ac4e90daf

[4] 论文:Better bitmap performance with Roaring bitmaps:https://arxiv.org/abs/1402.6407v9?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+DanielLemiresArticlesOnArxiv+(Daniel+Lemire%27s+articles+on+arXiv)

[5] Clickhouse文档-位图函数:https://clickhouse.tech/docs/zh/sql-reference/functions/bitmap-functions/

Clickhouse 在大数据分析平台 - 留存分析相关推荐

  1. 大数据分析平台有哪些主要功能

    销售报表.市场调研.盈利分析--随着信息量的不断丰富,相信各大企业已经为各种业务需求存储了大量的数据,数据的规模可能达到数GB或者数TB.随着网络科技的不断发展,这些信息量可能还会达到数PB.EB甚至 ...

  2. ClickHouse数据库培训实战 (PB级大数据分析平台、大规模分布式集群架构)

    一.ClickHouse数据库培训实战课程 (PB级大数据分析平台.大规模分布式集群架构)视频教程 为满足想学习和掌握ClickHouse大数据分析专用的数据库,风哥特别设计的一套比较系统的Click ...

  3. canoco5冗余分析步骤_打造高性能的大数据分析平台

    大数据时代,大数据的应用与挖掘,大数据的分析和决策,大数据在经济社会的运行轨道上发挥着愈来愈重要的作用.对于大数据分析,现在好多互联网金融公司和传统的商业银行.证券基金公司都非常看重.个个都想在大数据 ...

  4. 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

    简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...

  5. 电商Sass平台-商城运营后台原型-仓储管理-订单管理-店铺运营-采购管理-数据分析-交易分析-留存分析-客户管理-用户运营-围栏管理-商品管理-流量分析-电商erp后台管理-用户权限-销量分析

    axure作品内容介绍:电商Sass平台-商城运营后台原型-仓储管理-订单管理-平台运营-采购管理-数据分析-交易分析-留存分析-客户管理-用户运营-围栏管理-商品管理-店铺装修-门店管理-商品档案- ...

  6. BI大数据分析平台,精细化分析的必备工具

    在日常的工作中,经常会遇到要做经营决策时,数据分析却掉链子的情况,比如当老板临时提出要进一步分析某类商品的销售情况时,得重新开发报表.BI大数据分析平台能不能随时随地实现精细化数据分析,避免数据分析跟 ...

  7. 从固化报表到自助分析,企业如何构建一站式大数据分析平台?

    "数据没有分析是一种资源的浪费,分析没有数据是做无用功." 近年来,随着企业数据化建设进程加快,越来越多的企业逐渐从单一报表开发模式过渡到"报表+自助"双模式阶 ...

  8. 信访分析 大数据_北京市信访办推大数据分析平台 可实时监测信访形势

    中新网北京11月17日电(记者 张尼)17日,记者从北京市信访矛盾分析研究中心了解到,北京市信访办正积极构建"智慧信访"大数据分析平台.未来该平台可通过机器学习.人工智能大数据分析 ...

  9. 大数据分析平台洱源县_大数据平台与分析

    大数据平台与分析 Big Data Platform And Analysis 大数据体系 大数据时代有效利用创新业务内容及模式,通过快速满足用户的个性化需求,增加用户黏性,是大数据为运营商带来新的机 ...

最新文章

  1. R语言使用ggplot2包的快速可视化函数qplot绘制分组箱图(jitter、分组颜色配置)实战
  2. 二十一世纪贫穷人的2008条语录
  3. 用平方映射理解tanh
  4. 组合数学 —— 康托展开
  5. [转载] Python3 open()函数
  6. 【C语言】计算器实现
  7. 计算机中的振动原理,机械振动
  8. 2.flashFXP破解
  9. 从网易云音乐看新媒体内容运营法则
  10. java applet.newaudioclip_Java Applet
  11. 程序员修炼(一)----剑指天下
  12. 网速卡慢延迟大怎么解决?
  13. 银联在线php支付接口,ecshop银联在线支付接口插件(官方版)
  14. 概率论-一维随机变量及其分布思维导图
  15. 主成分分析应用之主成分回归
  16. Abaqus GUI程序开发之常用的Abaqus内核指令(一)
  17. Learning NGINX 学习NGINX Lynda课程中文字幕
  18. 【Android】判断你的应用在前台还是在后台
  19. Mybatis-plus分页查询不生效之问题排查
  20. 数字万用表怎么采集数据?数字万用表软件免费下载

热门文章

  1. 第三章 CSS 选择器的命名
  2. 互联网人没有想多——互联网人能当中国的新中产的机遇和挑战
  3. c语言——直接插入排序实现(时间复杂度与空间复杂度分析)
  4. vue : 无法加载文件 C:\Users\Administrator\AppData\Roaming\npm\vue.ps1,因为在此系统上禁止运行脚本
  5. ICDsoft主机半价优惠码推荐
  6. 仿微信表情输入键盘(支持 Gif 表情图文混排 )
  7. vue导出excel加一个进度条_vue导出excel遇到的问题解决方法
  8. iPhone 11首发评测:你该不该用它换旧iPhone
  9. 树大总结(王道+红皮书)
  10. php 10到50的随机数,【单选题】php中以下能输出1到10之间的随机数的是( )