回归分析beta值的标准_学好这20%,就能解决80%的数据分析问题 | 数据产品经理必看...
文末领取【 网络服务行业数据报告】
很多人觉得,做数据产品经理就没有必要掌握数据分析相关技能了,终于可以远离了枯燥的数据分析工作。如果真这么觉得,那么就大错特错了,一个好的数据产品经理,不仅要有产品sense,还要有好的分析思路,因为一个数据产品需求大部分都是由分析需求固化而来的。
很多时候,数据产品和分析是分不开的,一个好的数据产品经理,要掌握常用的数据分析框架和方法,才能使做出来的数据产品让数据分析师和业务人员使用更顺手,更贴近业务。
在进行数据分析之前,一般都会先想一下分析框架和分析方法,数据分析方法一般有常规分析、统计模型分析以及自建模型分析。掌握这三种分析思路,就能解决大部分分析需求,并根据分析需求固化为数据产品。下面重点讲一下这三个分析方法。
常规分析
1
其实很多公司80%的分析需求都是可以通过常规分析解决,很多分析师一般把业务相关数据从hive或者mysql中导入到excel,然后在excel中通过简单的表格、线图等方式来简单直观的分析数据。常规分析经常会用到同环比分析法和ABC分析法,即分析对比趋势和分析占比情况。
同环比分析应用到数据产品中常见的有业务周、月、日报等,例如,拿很多互联网公司都关注的核心指标DAU(日活跃用户数),周报里一般都会对比DAU的周环比变化,如果上涨或者下跌的比较大的话,就要进一步查找分析业务原因。
同比:某个周期的时段与上一个周期的相同时段比较,如今年的6月比去年的月,本周的周一比上周的周一等等。同比增长率=(本期数-同期数)/同期数×100%。
环比:某个时段与其上一个时长相等的时段做比较,比如本周环比上周等等。环比增长率=(本期数-上期数)/上期数×100%。
至于ABC分析法,一般是以某一指标为对象,进行数量分析,以该指标各维度数据与总体数据的比重为依据,按照比例大小顺序排列,并按照一定的比重或累计比重标准,将各组成部分分为ABC三类。举一个通俗易懂的例子,经过长期的观察发现:
美国80%的人只掌握了20%的财产,而另外20%的人却掌握了全国80%的财产,而且很多事情都符合该规律。
于是可以应用此规律在业务上,通过合理分配时间和力量到A类-总数中的少数部分,将会得到更好的结果。当然忽视B类和C类也是危险的,但是它确实得到与A类相对少得多的注意。
举一个比较简单的例子,在分析支付订单量的数据中,对各个城市的支付订单量做ABC分析法进一步分析,如图1所示,发现武汉、杭州、上海等地的支付订单量占比很大,这样就可以在运营活动中进一步关注占比比较高的城市,重点支持下这部分城市的活动推广。
图1 各城市支付订单量占比情况
统计模型分析
2
当掌握了很大的数据量,希望在数据中挖掘出更多信息的时候,一般都可以应用成熟的模型进行比较深入的分析,例如,经常会面对如下的业务场景:
测产品在未来一年内的日活用户数会按什么趋势发展,预估DAU。
上线了某个营销活动,预估活动效果怎么样,用户参与度情况。
对现有用户进行细分,到底哪一类用户才是目标用户群。
一些用户购买了很多商品后,哪些商品同时被购买的几率高。
针对于第一个案例,要用到回归分析,可以理解成几个自变量通过加减乘除或者比较复杂的运算得出因变量,例如预估DAU,因变量是DAU,和他有关的自变量有新增用户、老用户、老用户留存、回流用户等,然后根据历史数据,通过回归分析拟合成一个函数,这样就可以根据未来可能的自变量,进一步得出因变量。现在常用的回归分析主要有线性和非线性回归、时间序列等。
举个简单的例子,通过之前的业务支付订单量要预测未来的订单量情况作参考,在排除其他因素干扰的情况下,可以通过简单的线性回归根据支付订单量的历史值,进一步拟合出未来90的支付订单量曲线情况,如下图2所示。
图2 线性回归预测支付订单量
针对第二个案列,根据以往活动的数据,分析活动的各个影响因素在满足什么情况时才会产生我们想要的效果,并可以根据有活动时和没有上线活动时的各项数据输入到系统中,这个函数就会根据判断活动效果会与哪些因素有关,目前常用的分类分析方法有:决策树、贝叶斯、KNN、神经网络等。
关于第三个案例,可以用聚类分析,细分市场、细分用户群里都属于聚类问题,这样更方便了解用户的具体特征,从而针对性的做一些营销等,常见的聚类分析一般有K均值聚类、分布估计聚类等。
关于聚类分析,最常用的就是对用户进行分类,首先,要选取聚类变量,要尽量使用对产品使用行为有影响的变量,但是还是要注意这些变量要在不同研究对象上有明显差异,这些变量之间又不存在高度相关,例如,年龄、性别、学历等。
然后,把变量对应的数据输入到模型中,选择一个合适的分类数目,一般会选拐点附近的几个类别作为分类数目,如下图3。接下来,要观察各类别用户在各变量上的表现,找出不同类别用户区别去其他用户的重要特征,选取最明显的几个特征,最后进行聚类处理。
图3 R2曲线
关于第四个案例,要用到关联分析,在电商中的应用场景比较大,最经典的案例当属啤酒与尿不湿的搭配销售,常用的关联分析有购物篮分析、属性关联分析等。
做关联分析一般要理解频繁项集和关联规则两个概念,频繁项集是经常出现在一块儿的物品的集合,关联规则暗示两种物品之间可能存在很强的关系。
下面用一个例子来说明这两种概念:例如图4,给出了某个杂货店的交易清单。
图4 订单交易情况
频繁项集是指那些经常出现在一起的商品集合,图中的集合{葡萄酒,尿布,豆奶}就是频繁项集的一个例子。从这个数据集中也可以找到诸如尿布->葡萄酒的关联规则,即如果有人买了尿布,那么他很可能也会买葡萄酒。
另外,为了评估关联分析的效果和可信性,定义了可信度和置信度这两个概念。规则{尿布}➞{啤酒}的可信度被定义为”支持度({尿布,啤酒})/支持度({尿布})”,由于{尿布,啤酒}的支持度为3/5,尿布的支持度为4/5,所以”尿布➞啤酒”的可信度为3/4。这意味着对于包含”尿布”的所有记录,我们的规则对其中75%的记录都适用。
自建模型分析
3
当以上两种分析方法都不能满足业务的分析需求时,这时候就需要自建模型进行分析,例如每个公司的业务模式都不太一样,当要分析用户在生命周期产生的价值(LTV)时,就需要根据自己的业务模式进行自建模型分析。
对于一般依靠广告营收的公司,LTV会与用户活跃天数和Arpu(每用户平均收入)值有关,而Arpu值方面,每个公司都有自己的广告营收模式,所以Arpu值细分下去都是不太一样的。自建模型是为了满足业务需求,将各个指标灵活自由组合,从而保证分析的有效性和针对性。
具体来看,定义LTV=平均活跃天数*Arpu值=平均活跃天数*(指标1* 参数1 + 指标2* 参数2 + 指标3 * 参数3+……),其实,除了平均活跃天数需要预测外,后面的几个指标的值都比较明确,直接输入固定值就可以。
平均活跃天数预测方式:
图5 留存率曲线
图6 DAU曲线
如上图5和6的所示根据实际留存率和实际ArpuDau进行截断天数内平均活跃天数预测:
(1)INPUT /每日实际留存数,OUTPUT/beta(α,β)曲线,预测哪一天就根据beta曲线返回对应值。预测非线性拟合,起始点和终点权重较大。
对beta曲线目前分为三个partition:
乐观预估:因ArpuDau持续上涨导致波动过大,输出值过大。
稳健预估:为保证输出值稳定平滑,进行log导数限制。
当前平均预估:在稳健预估无法输出有效值时采用此预估方法,根据当前留存和Arpu值作为重点,对未来进行预估。
(2)ArpuDau根据实际情况按公式进行每日计算,一段时间后Arpu值趋于稳定。
(3)LTV公式= ∑(留存beta1*Arpu1+留存beta2*Arpu2+….+留存betak*Arpuk),可简单理解为∑留存beta*∑ArpuDau
k值由模型调用者决定,660天LTV预估同样可由模型调用者进行修改调整。
其实,以上的分析方法和思路,数据产品经理只需要掌握基本的20%就能解决80%的问题。剩下的20%的问题,可以交给更专业的数据分析师们去解决,当然,多学一些分析方法,对以后的数据工作还是很有帮助的。
毕竟,数据产品和数据分析是分不开的,都是基于数据需求解决一定问题出发的,选择什么方法去解决问题,还是需要具体深入到业务中去。
End.
作者:大鹏
来源:一个数据人的自留地
本文为转载分享,如侵权请联系后台删除
文末长按海报领取【 网络服务行业数据报告】
· 爱数据每周免费直播 ·
直播主题:大数据开发岗位相关说明
直播内容:
“值钱”的数据开发岗位前景如何?
数据开发转岗的重点是什么?
优秀的数仓开发工程师必备哪些技能和知识?
“不限学历也能拿高薪”是真的么?
直播时间:5月13日周三晚20:30准时直播分享
回归分析beta值的标准_学好这20%,就能解决80%的数据分析问题 | 数据产品经理必看...相关推荐
- 回归分析beta值的标准_读懂回归分析-SPSS为例(无广告)
提示:之前发的一篇知乎文,因为末尾添加了个人联系等,知乎站务做了删除处理.现在已经去除了个人联系方式.全文阅读约需20分钟.谢谢! 回归分析,方差分析是统计学入门的常开课程.导入数据,输出结果,谈论一 ...
- 产品功能树图_数据产品经理之图表设计
本文介绍了数据产品经理需要懂的常用图表设计,并针对19种图表的定义.适用场景.优缺点,进行了分析说明. 概述 数据产品经理在日常产品设计时经常需要设计一些图表来对数据进行更好的展现,也能方便用户更好的 ...
- 前端H5怎么切换语言_第一章 产品经理必懂的前端技术- 上
产品经理为什么要懂一些前端技术? 当前端H5工程师说CSS时,你是否知道他在表达什么? 当andriod工程师说这个文本要用TextView时,你是否明白TextView是什么? 当ios工程师说这个 ...
- 股票beta值的均值_如何在R中找到值的均值
股票beta值的均值 In statistics, mean is defined as the 'average' value that you get when you add all the v ...
- E站账号cookie分享_产品经理必懂知识点—cookie和session
作为一个产品经理,如果不了解cookie和session很难设计好产品,尤其对于网站产品经理而言,cookie和session是一个必须要懂的知识点.如果在中大型企业做产品经理,这个cookie和se ...
- 图书馆的uml概念类图是什么_产品经理必学UML:类图
本篇文章主要介绍了UML静态视图中的类图,包括类图的概念.用途及相关元素,供大家一起参考和学习. UML(Unified Modeling Language)又称统一建模语言或标准建模语言,可以看做用 ...
- 需求分析 应该先写业务还是功能_产品经理必知:产品调研中功能调研的标准“姿势”...
编辑导语:产品调研是产品经理最熟悉不过的工作内容了,产品调研包括很多内容,其中之一就是功能调研了.本篇文章种,作者为我们分析了为什么要做产品调研以及产品调研和功能调研的区别,最后通过实战案例为我们总结 ...
- 京东运营插件_技术中台产品经理必知的那些易混词儿(1):组件、套件、 中间件、插件……...
编辑导语:在产品经理做技术中台时,有很多需要知道的专有名词概念:比如:组件.套件.中间件.插件等等,本文作者对此进行了解释和梳理,便于产品经理可以快速理解技术中台产品的逻辑和思维,我们一起来看一下. ...
- 开课吧怎么样_开课吧数据产品经理课程包括什么?开课吧培训的怎么样
开课吧数据产品经理训练营课程培养懂数据.懂技术.懂商业战略并会在业务场景中应用的数据产品经理. 开课吧 开课吧数据产品经理课程能收获什么? 从大处着眼,了解数据产品经理的前世今生: 四界定数据产品经理 ...
最新文章
- Debug模式下加载文件,运行程序异常的慢
- axios get请求_Axios使用指南
- python 视频剪裁,剪切,合并
- JavaScript EventLoop
- python同时发大量请求_python http服务器,多个同时请求
- MySQL高级 大批量插入数据
- 五分钟搞懂后缀数组!
- 基于微信小程序开发的仿微信demo
- Python自动检测视频画面的旋转角度
- python测试代码怎么写_如何使用python做单元测试?
- 二分--1043 - Triangle Partitioning
- 关于安装PHP补装PDO与PDO_MYSQL操作
- 微信小程序怎么让图片充满屏幕_小程序怎么为微信引流?微信小程序的裂变模式...
- Python入门:使用turtle库 绘制时钟(经典画表)
- YetAnotherKeyDisplayer(YAKD屏幕上显示键盘操作)源码下载及编译(Win10,VS2022)
- 如何用计算机打开苹果手机,苹果手机如何投屏到电脑
- BF算法与KMP算法
- 虚拟pc服务器 翻译,单机服务器配置文件;ServerSettings.ini【翻译】
- 绝地求生组装电脑配置推荐2021 适合玩吃鸡游戏电脑清单
- BeautifulSoup安装
热门文章
- linux下内存的统计和内存泄露问题的定位-转
- java override报红_Eclipse @override报错解决
- h2 sync mysql_solo 从 h2 迁移到 mysql
- wifi 中间人攻击_揭秘3·15晚会“Wi-Fi中间人攻击”的操作原理
- Hive jdbc执行seelct 语句时报 return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
- 构建入门Restful Web服务
- 2017杭州云栖大会FAQ(持续更新中)
- Hadoop2.x介绍与源代码编译
- Python 的lambda表达式的一些小细节
- css在线工具_已迁移