因果推断是目前学术界和业界都在研究的热门内容。在常用的数据分析方法中,关注的是事件之间的相关性,而无法去识别事件之间的因果性,而很多时候在做决策与判断的时候,我们需要的是因果性。比如,我们想知道A事件的发生是否会导致B事件的出现,这种“导致”实际上是一种因果关系,而不仅仅是相关关系。目前,因果推断应用于业务数据分析的方法有很多,本文主要介绍一下因果推断中的“断点回归”。

断点回归是自然实验中的一种观察方法,简单理解就是在回归过程中,观察在临界点处是否出现“断点”,并分析引起“断点”的政策因素P对回归的因变量Y的具体影响。举个例子,在分析某一平台博主的收益时,发现关注人数超过10万后,会得到一个“V”的标志,现在想知道,有无“V”对平台博主的收益的影响,就可以使用“断点回归”的方法。接刚才的例子,如果我们使用“断点回归”来分析有无“V”对平台博主的收益的影响,我们可以观察关注人数在10万附近(包括接近10万但不到10万,以及超过10万但超过的不多)的平台博主的收益情况,看是否有显著差别。如果存在显著差别,说明“V”标志的有无会对平台博主的收益产生影响(因果性)。

用数理语言来表达“断点回归”的核心思想就是,对于一个回归方程L(y)=f(x),如果在x=a处引入了一个政策P(这个政策P在实际业务中可以是某个运营活动、某种触发机制、某类奖励等等),使得在x=a的附近邻域(a-e , a+e)内,以x∈(a-e,a)为范围建立的回归方程L1和以x∈(a,a+e)为范围建立的回归方程L2,它们的条件期望是相同的,但截距项不同,则说明政策P在x=a处对回归方程的因变量y产生了显著影响(因果性P→y的改变)。

断点回归常用的模式包括两种,分别是精确断点回归(SRD)和模糊断点回归(FRD)。检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从a跳跃为b,0<a<b<1,则为模糊断点回归。模糊断点回归的特征是:在断点x=c处,个体得到处理的概率从a跳跃到b,其中0<a<b<1。但即使x>c,也不一定得到处理,但得到的处理的概率在x=c处有不连续的跳跃。本质上有点类似于工具变量法。对于模糊断点回归,再举个例子就是:高考成绩上线并不能完全保证上大学,能否上大学还取决于填报志愿,甚至有些上线考生放弃上大学 的机会;而即使成绩未上线,但也可能因某种特长而得到加分,从而得到上大学的机会。上大学的概率确实在分数线的位置上有一个不连续的跳跃。

在业务数据分析中,由于断点回归可以使要研究的内容在断点附近构成一个准自然实验,就可以应用于ABtest这类随机试验无法进行的场景。其中,自然实验实际上是一种观察性研究,是指不加干预地、实验对象自然地分为若干组,对实验对象的结果进行观察比较。

断点回归比较适用于这样一类业务数据分析问题:对于某个业务场景下使用了某种策略S,这种策略S造成某种连续性指标V在V=a处产生了跳跃。举个例子来说,对于提高APP用户营收的业务场景下,使用的策略S为“用户下单次数达到10次后奖励一张100元无门槛优惠券”,检测的连续性指标V为用户的付费金额。如果将用户的下单次数T作为自变量,用户的付费金额W作为因变量绘制散点图,则可能会发现在T=10时产生了“断点”,即左右两侧有跳跃变化,此时就可以在T=10的附近划定一个区域,进行断点回归,以研究该奖励策略S和用户付费金额W的变化之间是否存在因果关系。但要注意的是,在使用断点回归时,也要做一些统计检验,比如平衡性检验等,以确保断点回归的假设前提是满足的。

最后区分一下断点回归和工具变量。断点回归和工具变量之间是突变和渐变之间的关系。断点回归依赖于一个明确的断点,比如一本线,一本线上和下哪怕是0.5分,都是截然不同的两个学校;而工具变量所表达的关系,则可以是一个趋势,比如说下雨和在家看电视,我们知道下雨会导致更大的概率在家看电视,但是我们不能说下雨所有人就一定在家看电视。所以下雨只能成为工具变量,而不能作为断点。用图来表示的话,断点回归泾渭分明,但是代价是只能用断点左右的一部分数据;而工具变量是层次渐进,比断点要模糊,但是能用的数据范围更大。

因果推断:断点回归应用于业务数据分析的思路相关推荐

  1. 利用网络信息减少因果推断中的confounding bias--结合两种思路的新方法

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本期AI TIME PhD专场,我们有幸邀请到了来自亚利桑那州立大学的博士生郭若城,为我们带来他的精彩分享--利用网络信息减少因果推断中 ...

  2. 投入产出核算的知识应用于业务数据分析的思路

    <国民经济核算>是经济统计学本科生的重要课程,在这门课程里会涉及到一个章节,叫做"投入产出核算".该章节的核心是编制一个投入产出表,用来搭建经济学中理论和事实之间的桥梁 ...

  3. 干货 | 携程火车票基于因果推断的业务实践

    作者简介 Seven,数据分析师,专注用户增长.数据科学等领域. 一.背景 携程作为旅游平台,跟用户需求息息相关,理解和识别各个策略/系统对转化/收益的因果关系尤为重要,在这个过程中需要将影响因变量的 ...

  4. 数据分析36计(24):因果推断结合机器学习估计个体处理效应

    个体异质性为何重要 传统的因果推断分析,主要关注焦点是平均处理效应(Average Treatment Effect).许多科学和工程都会面临这样的挑战,从个性化的医疗救治方案,到定制型的营销建议都需 ...

  5. 数据分析36计(29):价格需求弹性和因果推断

    目前出现了很多关于机器学习如何实现因果推断的理论论文,但还缺乏实际的应用场景和应用案例,这里探讨如何供应商利用因果推断计算价格弹性,从而指导价格的制定和浮动. 为什么关注价格弹性 经济学课程里谈到价格 ...

  6. 苗旺:因果推断,观察性研究和 2021 年诺贝尔经济学奖

    [专栏:前沿进展]因果推断是当下人工智能.机器学习领域中的热门话题之一.在 11 月 26 日的青源 Talk 中,北京大学助理教授.青源会会员苗旺分享了题为「因果推断,观察性研究和 2021 年诺贝 ...

  7. 因果推断笔记——数据科学领域因果推断案例集锦(九)

    文章目录 1 腾讯看点:启动重置问题 1.1 观测数据 . 实验数据的理论介绍 2.2 启动重置问题阐述:短期.长期.异质 2.3 短期影响的解决 2.4 长期影响构造准实验 2.5 异质性用户 1. ...

  8. 因果推断笔记——自整理因果推断理论解读(七)

    之前有整理过一篇:因果推断笔记-- 相关理论:Rubin Potential.Pearl.倾向性得分.与机器学习异同(二) 不过,那时候刚刚开始学,只能慢慢理解,所以这边通过一轮的学习再次整理一下手里 ...

  9. 因果推断笔记——python 倾向性匹配PSM实现示例(三)

    因果推断笔记-- 相关理论:Rubin Potential.Pearl.倾向性得分.与机器学习异同(二) 因果推断笔记--因果图建模之微软开源的dowhy(一) 文章目录 0 观测数据的估计方法 0. ...

最新文章

  1. python工具使用笔记
  2. (筆記) 如何使用Visual C++ 6.0開發Win32 DLL? (C/C++) (VC++)
  3. 易语言 mysql 卡死_易语言操作MYsql 所有课程停发
  4. 特征工程的宝典-《Feature Engineering for Machine Learning》翻译及代码实现
  5. mysql实体_mysql实体关系
  6. 《c语言从入门到精通》看书笔记——第14章 文件
  7. 洛谷 P1968 美元汇率
  8. 【python】动态调用函数名
  9. DCOM EXCE权限配置问题
  10. CSS3 背景裁剪区域 background-clip属性
  11. 我与前端之间不得不说的三天两夜之html基础
  12. 可以玩java游戏的软件_手机上能玩电脑游戏的软件有哪些 用什么软件可以在手机上玩电脑游戏...
  13. linux下载git并为git配置连接ssh
  14. GEO TCGA公共数据挖掘培训
  15. Hacking Vim: 插件管理器Pathogen(02)
  16. Python入门(二)-编程环境
  17. 长期激励应占“一席之地” 穆穆-movno1
  18. opencv2计算机视觉编程手册(中文)pdf
  19. 媒体该如何展示事实之美?
  20. 360安全杀毒软件扫描计算机病毒吗,360杀毒软件全盘扫描杀毒教程

热门文章

  1. 金刚经知识地图(下)
  2. 电商ERP 网店管家 供应链 CRM 是产业转型升级最为实用的产品 快客 轻公司 快响应
  3. SVPWM与SYPWM谐波注入脉宽调制实现与对比
  4. 听说技术大佬们离不开这些App
  5. 如何参与github开源项目,成为contributor
  6. 妙用Spring的事务超时时间timeout
  7. IC卡(M1卡)梯控日期的算法解析和计算
  8. 地质调查走上云端 国家地质云平台正式上线背后的技术力量
  9. 让人捧腹的15个英语文化陷阱
  10. OA选型方法论之教育OA系统