原文发于计量经济学服务中心 2018-12-03

断点回归(RD)学习手册(包含设计前提条件内生分组等显著性检验、精确断点&模糊断点等全套标准操作)

断点回归由Thistlewaite and Campbell(1960)首次使用,但直到1990年代末才引起经济学家的重视。

Thistlethwaite、Campbell于1960年首次提出使用断点回归设计研究处理效应, 在该文中他们的目的是研究奖学金对于未来学业的影响, 学生是否获得奖学金取决于考试的分数。 由于奖学金由学习成绩决定,故成绩刚好达到获奖标准与差一点达到的学生具有可比性。如果考试分数大于获奖标准分数, 则进入处理组;如果考试分数小于获奖标准分数, 则进入控制组。因此处理变量在获奖标准分数处形成了一个断点, 该研究设计的主要思想是可以利用靠近这一断点附近的样本来有效估计处理效应。

Angrist and Lavy(1999)在研究班级规模对成绩的影响时,利用以色列教育系统的一项制度进行断点回归;该制度限定班级规模的上限为40名学生,一旦超过40名学生(比如41名学生),则该班级被一分为二。

此后30年, 该方法并未引起学术界的重视,直到1990年以后, 断点回归设计开始被应用于各种领域,并且近年来成为因果分析和政策评估领域最重要的研究方法。

Hahn et al(2001)提供了断点回归在计量经济学理论基础。目前,断点回归在教育经济学、劳动经济学、健康经济学、政治经济学以及区域经济学的应用仍方兴未艾。参见Imbens and Lemieux(2008),Van Der Klaauw(2008)以及Lee and Lemieux(2010)的文献综述。

断点回归设计是一种准自然实验, 其基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率, 由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的, 即不存在人为操控使得个体落入某一侧的概率更大, 则在临界值附近构成了一个准自然实验。一般将该连续变量X称为分组变量 (assignment variable) 。

一.断点回归操作动作建议

在进行断点回归(RD)设计时,一般有如下步骤:

▍ 1、参考变量分布连续性检验/检验内生分组

这里检验内生分组,即主要检验配置变量,其实就是RD中个体是否将自行进入断点两侧,决定是否进入实验的,并是否存在某种跳跃性的变化。如果存在内生分组,个体将自行进入实验,导致在断点两侧的分布不均匀,这样分组变量x的密度函数f(x)在x=c处不连续,出现左右极限不相等的情况。

McCrary(2008)提出了一种核密度函数的检验方法(命令是DCdensity,介绍见下述操作),将参考变量划分成不同的区间并计算各区间中的个体数量,如果个体能够操纵参考变量,我们将能观测到断点左右个体数量有较大差别,比如很多个体通过操纵到了断点的右侧,那么,在断点右侧的区间中个体数量可能将大大超过断点左侧区间中个体的数量,利用带宽选择和曲线拟合方法, 可以检验在断点处c是否存在跳跃 。

▍ 2、检查为精确断点回归还是模糊断点回归分析

检验处理变量是否完全由“某连续变量是否超过某一断点”所决定,如果个体被处理的概率从0跳跃为1,即为精确断点回归,如果个体被处理的概率从 a跳跃为 b,0

▍ 3、图形分析

画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处行为,为断点回归设计提供理论支撑。

▍ 4、检验结果对不同带宽、不同多项式次数的稳健性

设置不同带宽, 通过选择最优带宽,再检验并选择相对应的模型。stata断点回归命令有相关的操作选项。另外还有图形选择(在最优带宽处画线),可以考虑加协变量进行选择。

▍ 5、检验其他影响结果变量的因素(协变量),在断点处是否存在跳跃

检验协变量在断点处 是否存在跳跃,若是存在跳跃,说明该协变量的条件密度函数在断点处不是连续的,需要剔除。若将存在跳跃的协变量剔除。则需要重新选择最优带宽再重新进行断点回归分析。

▍ 5、显著性检验

模型估计完成后,可以进行下列模型设定检验,以判断估计结果的稳健性(见赵西亮编著的《基本有用的计量经济学》)

(1)协变量连续性检验,也称为伪结果检验( pseudo outcome)。以协变量 作为伪结果,利用与前面相同的方法,检验相应的RDD估计量是否显著,如果 显著说明这些协变量不符合连续性假设,上文的RDD估计量可能存在问题。

(2)参考变量分布连续性检验,如果参考变量分布连续,意味着在断点处个体没有精确操纵参考变量的能力,局部随机化假设成立,从而保证断点附近左右样本能够代表断点处的总体。(此处与检验内生分组一致)

(3)伪断点检验( pseudo cutoff point)。在参考变量的其他位置,比如断点 左右两侧中点位置作为伪断点,利用同样的方法估计RDD估计量,我们知道在 伪断点干预效应为零,如果发现伪断点的RDD估计量不为零,则说明我们的RDD设计可能有问题,可能混杂了其他未观测因素的影响,得到的因果效应可能是由其他未观测混杂的跳跃造成的,而不完全是干预的影响

(4)带宽选择的敏感性检验。选择不同的带宽对RDD估计量进行重新估 计,检验估计结果是否有较大的变量,如果差异较大,尤其是影响方向有变化说明RDD设计可能有问题。

上述显著性检验其实在前面进行分析时候已经部分有所提及需要进行检验的。

二.断点回归设计前提条件检验:检验内生分组

在进行断点回归(RD)设计时,样本数据需要满足一定的前提条件,比如,断点两侧除断点(Cutoff)处理效应外,其他因素需保持平衡(滑)以及不存在Selective Sorting。

而断点回归的前提假设:Wi的条件密度在X=c0处连续。另外进行断点分析前,需要首先考察变量分组变量是否有内生分组的存在,意思就是样本个体事先知道分组原则等信息,然后通过自身选择来选择是否进入处理组,这样的内生分组将导致断点回归失效。

本文提供一种基于断点两侧样本分布密度来进行检验的方法:McCrary(2008)。它主要通过考察分布变量的密度函数在断点处是否连续进而实现检验样本是否存在选择性偏误,主要分为两步检验:第一步,将分组变量在断点处两侧尽量等距离细分,并计算每组的标准化频率;第二步,使用三角核估计进行局部线性回归,并计算密度函数估计值,然后检验密度函数在断点c处是否连续。

McCrary(2008)可以通过非官方命令DCdensity来实现,其中DC表示Discontinuity,可以来检验分组变量的密度函数在断点处是否连续。依此判断,是否存在内生分组问题。

该命令的下载地址为:https://eml.berkeley.edu/~jmccrary/DCdensity/

然后将该命令的DCdensity.ado下载安装或者复制到C:adoplus,Mac系统的需要自己sysdir查询外部命令安装路径,自行复制下载。命令语法格式为:

DCdensity assign_var,breakpoint(#) generate(Xj Yj r0 fhat se_fhat) graphname(filename)

其中,assign_var 为分组变量,必选项breakpoint(#)用来指定断点位置,generate(Xj Yj r0 fhat se_fhat)用来指定输出变量名,graphname用来命名指定密度函数图。

操作应用如下:

本文使用断点回归命令rd所系统自带的数据进行演示,该案例考察美国国会选区如果有一名民主党众议员对该选区联邦指出的影响。传统上,民主党倾向于大政府,故一个选区如果有民主党众议员,则该议员可能为该选区争取更多的联邦支出。然而,直接对二者进行回归可能存在遗漏变量问题或双向因果问题。为此,使用民主党候选人的得票率作为分组变量,以0.5作为断点(在两党政治中,得票率大于或等于0.5则当选,反之落选),进行断点回归。数据集votex.dta,其中结果变量为lne(选区联邦开支的对数)、分组变量为d(民主党候选人得票率减去0.5)、处理变量win(民主党候选人当选),以及一系列协变量。

数据描述性分析结果如下:

检验分组变量的密度函数是否在断点处不连续。

可以看出断点两侧密度函数估计值的置信区间有很大部分重叠,所以断点两侧的密度函数不存在显著差异,检验结果为不存在内生分组,可以继续进行断点回归分析。

三.断点回归模型选择:精确断点or模糊断点

按照在断点处个体得到处理效应概率的变化特征可以分为两种类型(即断点回归可以分为两种类型):一种类型是精确断点回归设计 (sharp regression discontinuity design, 以下简称SRD) , 其特征是在断点 (也就是上面所说的临界点) X=c处, 个体接受政策干预的概率从0跳跃到1;另一种是模糊断点回归设计 (fuzzy regression discontinuity, 以下简称FRD) , 其特征是在断点X=c处, 个体接受政策干预的概率从a变为b, 其中a≠b,0

断点回归(RD)的操作过程相关推荐

  1. 断点回归matlab,【独家发布】使用地理边界进行断点回归设计

    2016-7-4 11:14:48 上传 下载附件 (131.44 KB) 使用地理边界进行断点回归设计 断点回归设计(Regression Discontinuity Design)是近年来十分流行 ...

  2. Stata: 断点回归 (RDD) 教程

      作者:张子楠 (浙江财经大学) Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号 Stata连享会   计量专题 || 精品课程 || 简书推文 || ...

  3. RDD: 断点回归的非参数估计及Stata实现

    作者: 崔颖(中央财经大学) Source: Non-Parametric Regression Discontinuity (Francis, 2013)   连享会计量方法专题--   本篇推文介 ...

  4. RDD断点回归-handbook

    一.RDD原理分析 原理部分的说明可以参考陈强<高级计量经济学及stata应用> !!注:搞清楚原理非常重要 重要概念辨析: 1 结果变量,因变量(Y, outcome variable; ...

  5. Stata:时间断点回归RDD的几个要点

    原文链接:https://www.lianxh.cn/news/56cc4fa415482.html 目录 1. 时间断点的特点 2. 三个可能陷阱 2.1 样本量问题 2.2 时序特征 2.3 假设 ...

  6. Stata: 断点回归 (RDD) 中的平滑性检验

      作者:李鑫 (云南大学) 连享会 - 与君分享 lianxh.cn   Stata连享会   主页 || 视频 || 知乎 扫码查看连享会最新专题.公开课视频和 100 多个码云计量仓库链接. 连 ...

  7. Stata:断点回归RDD简明教程

    原文链接:https://www.lianxh.cn/news/789f031b0c110.html 目录 1. RDD基本原理 2. 图形观察 2.1 生成模拟数据 2.2 断点效应的图形观察 3. ...

  8. 如何用Stata完成(shui)一篇经济学论文(十三):断点回归(上)

    目录 连续性检验:检验配置变量 断点处变化的唯一性:前定变量的检验 断点回归涉及的知识点挺多的,相关文章介绍也很详细了,相信香樟的[经典回顾]运用断点回归设计做研究的规定动作大家都已经看过(没看过赶紧 ...

  9. RDD:断点回归的非参数估计及Stata实现

    原文链接:https://www.lianxh.cn/news/f51c762f78644.html 断点回归 (RDD) 的应用日益广泛.在 「连享会-RDD 专辑1」 和 「连享会-RDD 专辑2 ...

最新文章

  1. 进程上下文和中断上下文
  2. 什么样的文献有html阅读,有关html的参考文献
  3. 【c语言】打印*型金字塔
  4. 分布式文件系统FastDFS+nginx的使用配置
  5. UOJ#449. 【集训队作业2018】喂鸽子
  6. effective python编写高质量Python代码的59个有效方法 pdf下载
  7. 移动端ajax,jQuery基于$.ajax设置移动端click超时处理方法
  8. 如何在string.Format方法中输出大括号({})
  9. PHP5.4 Apache Mysql搭配与多站点配置
  10. NLP—2.语言模型及文本表示
  11. linux逻辑卷管理(LVM)
  12. [Ubuntu] fg、bg让你的进程在前后台之间切换
  13. linux 服务器 硬盘测试工具,linux硬盘检测工具:Smartmontools使用指南
  14. mysql 银行卡卡号长度_卡bin查询sql分享
  15. Android MTK修改手机型号
  16. erphpdown最新版下载v11.12,WordPress内容付费插件
  17. python能处理数据的优点_Python在数据处理方面的优缺点
  18. 网站速度对谷歌SEO优化的影响
  19. 图形学:纹理寻址模式与UVTiling
  20. 微信小程序开发技术介绍 有哪些?

热门文章

  1. 手动实现 SpringBoot 日志链路追踪,无需引入组件,日志定位更方便!
  2. python middleware_Django框架教程之中间件MiddleWare浅析
  3. @ControllerAdvice基础介绍
  4. LaTeX从零上手——学习路线
  5. 哈工大计算机自动化那个好就业6,从哈工大转专业人数看学科冷热,计算机很香,土木工程悲剧了...
  6. contextmenu样式 wpf_ContextMenu 样式和模板
  7. 从文本挖掘来解读许巍
  8. Flutter学习-基础Widget
  9. Java基础知识——Stream
  10. 调用Web Service实现天气预报