一、Tobit模型

在某些情况下,被解释变量Y的取值范围会受到限制,比如研究家庭医疗保险支出的影响因素时,某此家庭没有医疗支出即数字全部为0,也或者研究家庭收入水平时,某些样本家庭完全没有收入那么收入就全部为0,也或者数据调查中有一项为收入为10万以上,那么10万以上的具体数据就‘截尾’(没有10万以上,最多就到10万),又比如研究存款的影响因素,但是有的样本存储为负数(即其为负债非存储),诸如此类,按常理应该是正常的正态数据,但是其被解释变量出现‘断层’(删失),均可使用tobit模型进行研究(而不是常用的ols线性回归)。

特别提示:

  • 删除数据分为两类,分别是‘左删失leftcensor’和‘右删失rightcensor’。上述中小于等于数字0即为左删失,10万即为右删失;

  • SPSSAU默认支持左删失和右删失的设置,如果不设置,则其完全等于普通ols线性回归。

二、案例分析

以下介绍使用SPSSAU-在线SPSS分析工具做tobit回归模型。

1、背景

当前有一项关于工资影响因素的研究,被解释变量为ln工资,解释变量为年龄,是否结婚(数字1代表结婚,数字0代表未结婚),子女数量,受教育年限共4个。被解释变量ln工资为工资取对数,如果没有工资则为数字0。明显的,类似这样的数据应该使用ols线性回归,但考虑到数据中有很多工资为0(即没有工资),此时就可考虑使用tobit模型更加适合。为更加方便的查看被解释变量的数据分布情况,将ln工资作直方图如下:

从上图可以明显的看到,数字出现删失,即有一部分数据集中在数字0。当然在分析的时候可考虑筛选出数字大于0的数据再进行ols线性回归也可(但这样做会减少样本利用率),如果说筛选出ln工资大于0后再做直方图如下:

明显的可以看到,筛选出ln工资大于0的数据,其明显的服从正态分布,使用ols线性回归非常适合。正因为此,tobit目的在于解释‘删失或受限’的数据情况。本案例使用tobit回归模型研究年龄,是否结婚,子女数量,受教育年限共4项对于ln工资的影响情况。

2、 理论

Tobit回归模型用于解决‘删失/受限被解释变量’这种问题,如果被解释变量中的数据有出现‘删失/受限’,此时进行ols回归并不科学。删失分为两种,分别是‘左删失leftcensor’和‘右删失rightcensor’,如果说小于等于某个数字的数据‘不正常’(左删失leftcensor),也或者大于等于某个数字的数据‘不正常’(右删失rightcensor),此时均可使用Tobit模型。

3、 操作

本案例操作截图如下:

本案例中有左删失数据,且leftcensor为0,因此在‘LeftCensored’中输入数字0,本案例数据并没有右删失值,因此不设置‘RightCensored’。

4、 SPSSAU输出结果

SPSSAU共输出4类表格,分别是Tobit回归模型似然比检验,Censor数据样本汇总,Tobit回归分析结果汇总和Tobit回归分析结果汇总-简化格式。说明如下:

5、文字分析

上表格展示Tobit回归模型似然比检验结果,其一般用于判断模型是否有意义,原理上Tobit模型使用极大似然法进行计算,因而可对似然比检验结果进行关注。从上表可知,似然比检验的p值为0.000<0.05,即说明放入4个解释变量对于模型有帮助,即说明模型构建有意义。

上表格展示删失数据的分布情况。共有2000个样本,本案例设定左删失leftcensor为数字0,上表格展示出共有657个样本为左删失数据(即在657个样本数据小于等于数字0),比例为32.85%,没有设置右删失rightcensor,则没有右删失数据。

上表格展示出tobit回归模型拟合结果。模型公式为:ln工资 = -2.808 + 0.052*年龄 + 0.484*是否结婚 + 0.486*子女数量 + 0.115*受教育年限。模型的McFadden R 方为0.064,即意味着4个解释变量对于工资的解释力度为6.4%【特别提示:通常情况下对此指标的关注度较低】。

最终具体分析可知:

年龄的回归系数值为0.052,并且呈现出0.01水平的显著性(z=9.078,p=0.000<0.01),意味着年龄会对工资产生显著的正向影响关系,年龄越大工资越高。是否结婚的回归系数值为0.484,并且呈现出0.01水平的显著性(z=4.677,p=0.000<0.01),意味着是否结婚会对工资产生显著的正向影响关系,即相对未婚群体,已婚群体的工资明显更高。子女数量的回归系数值为0.486,并且呈现出0.01水平的显著性(z=15.329,p=0.000<0.01),意味着子女数量会对工资产生显著的正向影响关系,子女数量越多的群体工资收入越高。受教育年限的回归系数值为0.115,并且呈现出0.01水平的显著性(z=7.617,p=0.000<0.01),意味着受教育年限会对工资产生显著的正向影响关系,即受教育年限越多的群体工资收入会越多。

总结分析可知:年龄, 是否结婚, 子女数量, 受教育年限共4项均会对工资产生显著的正向影响关系。

上表格展示出Tobit回归模型的简化结果表格,该表格列出模型的关键信息点,可直接使用。

6、 剖析

提示‘没有uncensored数据’,如果设置leftcensored或rightcensored后,导致未删失数据个数为0,则会出现此提示。

三、疑难解惑

1、Tobit回归时的模型似然比检验不通过,显示模型无意义?

Tobit回归模型用于解决有删失数据的样本,当然也可考虑使用ols回归(此时不考虑删失数据这一问题),与此同时,也可考虑先筛选过滤掉删失数据,然后再进行ols回归。建议可对比ols回归和tobit回归的结果,综合进行判断。

2、McFadden R 方非常低?

Tobit回归时McFadden R 方的意义相对较小,一般不用过多关注此指标。

SPSSAU数据科学分析平台-让数据分析非常简单,登录SPSSAU官网免费体验

结合案例说说Tobit回归模型相关推荐

  1. python归一化 增大差异_Python逻辑回归模型原理及实际案例应用

    前言 上面我们介绍了线性回归, 岭回归, Lasso回归, 今天我们来看看另外一种模型-"逻辑回归". 虽然它有"回归"一词, 但解决的却是分类问题 目录 1. ...

  2. 信贷产品额度定价场景下的回归模型效果评估

    在信贷风控的决策流程中,我们必然会在某些节点放入模型来使用,例如A卡(申请).B卡(行为).C卡(催收).F卡(反欺诈)等.当我们线下建立好一个模型之后,只有通过样本内外的多次测试,以及模型性能指标达 ...

  3. R语言cox回归模型案例(绘制列线图、校正曲线):放疗是否会延长胰脏癌手术患者的生存时间

    R语言cox回归模型案例(绘制列线图.校正曲线):放疗是否会延长胰脏癌手术患者的生存时间 目录

  4. R语言Logistic回归模型案例基于AER包的affair数据分析

    R语言Logistic回归模型案例基于AER包的affair数据 目录 R语言Logistic回归模型案例基于AER包的affair数据 #数据加载及目标变量二值化

  5. R语言Logistic回归模型案例:低出生婴儿体重的影响因素分析(列线图、校准曲线)

    R语言Logistic回归模型案例:低出生婴儿体重影响因素分析(列线图.校准曲线) 目录 R语言Logistic回归模型案例:低出生婴儿体重影响因素分析(列线图.校准曲线ÿ

  6. R语言Logistic回归模型案例:分析吸烟、饮酒与食管癌的关系

    R语言Logistic回归模型案例:分析吸烟.饮酒与食管癌的关系 目录 R语言Logistic回归模型案例分析吸烟.饮酒与食管癌的关系 #样例数据

  7. R语言条件Logistic回归模型案例:研究饮酒与胃癌的关系

    R语言条件Logistic回归模型案例:研究饮酒与胃癌的关系 目录 R语言条件Logistic回归模型案例:研究饮酒与胃癌的关系 #样例数据

  8. R语言泊松回归模型案例:基于AER包的affair数据分析

    R语言泊松回归模型案例:基于AER包的affair数据分析 目录 R语言泊松回归模型案例基于AER包的affair数据分析 #数据加载

  9. R的爬虫和回归模型案例-以北京自如房租价格为例

    一.背景 爬虫向来不是R的专长,但并不代表R在此方面一事无成.正好在学习R的rvest爬虫包,不如边学边做,自己来做一个案例. 作为一名消费者,自如不错的管理服务和靠谱的房源使得在帝都想省事儿的我们, ...

最新文章

  1. 陶哲轩之后,有人在这个猜想的证明之路上又前进了一步
  2. 网络营销外包专员浅析从用户角度出发如何完善网络营销外包?
  3. U3D prefab
  4. ST新一代烧写工具 STM32CubeProgrammer
  5. 树状数组 + 位运算 LA 4013 A Sequence of Numbers
  6. server数据库与oracle,浅析Oracle和SQL Server-数据库专栏,ORACLE
  7. 怎么在Windows 11中为音频输出选择扬声器
  8. java安装找不到uri,【找不到与请求 URI匹配的 HTTP 资源】(转)
  9. Windows phone 7 之ToggleSwitch
  10. AM5728 + 映美精工业相机图像处理案例
  11. c语言文件操作可重入,C语言试题
  12. Connect Four四子棋c++程序 - 善后处理(3)
  13. 微场景:移动互联时代的营销革命
  14. Zynq-PS-SDK(4) 之 GIC 配置
  15. 2012年每周推荐阅读汇总
  16. 怎么给word文档注音_如何为整篇word文档加拼音标注
  17. 知乎电商创业准备_你准备参加早期创业了吗
  18. CC2652 on-chip OAD程序升级记录全过程
  19. oracle mysql 客户端,安装Oracle数据库客户端
  20. 雷达技术与仿真实现(二)

热门文章

  1. 安装完SQL Server后,解决本地服务器连接失败的方法(仅供参考)
  2. **海量搜索解决方案_Spring Data Solr [篇1/共3篇]*
  3. Carla学习(八)利用carla制作自己的kitti数据集
  4. 快速地随机抽取一定比例的BAM文件
  5. table 固定表头
  6. RDD的依赖关系、窄依赖、宽依赖、RDD的缓存、RDD缓存方式、DAG的生成、RDD容错机制之Checkpoint
  7. 操盘机器人新增板块资金流向分析模型,可自定义板块、分析周期以及系统自动学习功能...
  8. IDA简单使用及源码修改教程
  9. Linux环境下Spark集群搭建
  10. error LNK2005 --类的声明和定义放在一个文件中