作者:herain  R语言中文社区专栏作者

知乎ID:https://www.zhihu.com/people/herain-14


前言

我们讨论过因变量为数值型的一元线性和多元线性预测模型,今天我们来讨论定型变量的回归模型,定性变量可以说是一种类别变量,比如男/女,优/良/差,是/否,真/假,黑/白等,因变量的结果集是有限的,可预设的,定性变量的回归模型,就是基于历史数据训练出来一种数学表达式,来判断新数据的属于哪一种定性因变量的概率大小。为日常的常见的是否类决策,提供准确度的数值度量。

目录

一,简述什么是定性因变量?

二,定性变量回归方程的意义?

三,定性因变量回归的特殊问题?

四,引入Logistic模型,解决定性因变量回归的特殊问题

五,Logistic模型实战

一、简述什么是定性因变量

在许多社会经济问题中,所研究的因变量往往只有两个可能结果,这样的因变量也可用虚拟变量来表示,虚拟变量的取值可取0或1。0/1 对应现实意义的假/真,这是对多种因素触发结果的一种二分描叙。二分描述就是一种二分定性,定性结果集「0,1」或「假,真」。表示结果的变量,统称为定性变量,本质是分类变量

二、定性变量回归方程的意义

设因变量y是只取0,1两个值的定性变量,考虑简单线性回归模型:

在这种y只取0,1两个值的情况下,因变量均值有着特殊的意义。

由于是0-1型贝努利随机变量,则得如下概率分布:

根据离散型随机变量期望值的定义,可得:

得到:  因变量均值y是自变量水平为x是y=1的概率。

三、定性因变量回归的特殊问题

3.1

离散非正态误差项

对一个取值为0和1的因变量,误差项 只能取两个值:

当 时, 

当  时, 

显然,误差项是两点型离散分布,当然正态误差回归模型的假定就不适用了。

3.2

零均值异方差性

当因变量是定性变量时,误差项仍然保持零均值,这时出现的另一个问题是误差项εi的方差不相等。0-1型随机变量的方差为:

 的方差依赖于,是异方差,不满足线性回归方程的基本假定。

3.3

回归方程的限制

当因变量为0、1虚拟变量时,回归方程代表概率分布,所以因变量均值受到如下限制:

对一般的回归方程本身并不具有这种限制,线性回归方程将会超出这个限制范围。

3.4

特殊问题的解决办法

对于普通的线性回归所具有的上述3个问题,虽然可以找到一些相应的解决办法。例如,对于误差项不是正态的情形,最小二乘法求得的无偏估计量在绝大多数情况下是渐近正态的。因此,当样本容量较大时,未知参数的估计与误差项假设为正态分布时的方式相同;对于异方差情况,可以用加权最小二乘法来处理;对受回归方程限制的情况,对模型范围内的x来说,可以通过确保拟合模型的因变量均值不小于0和不大于1来处理。但是这些并不是从根本上解决问题的办法,为了从根本上解决问题,我们需要构造一个自动满足以上限制的模型来处理。

四、引入Logistic模型,解决上述问题

第一,回归函数应该改用限制在[0,1]区间内的连续曲线,而不能再沿用直线回归方程。

限制在[0,1]区间内的连续曲线有很多,例如所有连续型随机变量的分布函数都符合要求,我们常用的是Logistic函数与正态分布函数。Logistic函数的形式为 :

第二,因变量本身只取0、1两个离散值,不适于直接作为回归模型中的因变量。

由于回归函数 表示在自变量为  的条件下 的平均值,而是0-1型随机变量,因而就是在自变量为的条件下等于1的比例。这提示我们可以用 等于1的比例代替 本身作为因变量。

五、Logistic模型实战

数据:某地区45个家庭数据的调查,其中y是分类变量(是否有私家车,1表示有,0表示没有)x 表示家庭年收入单位万元,根据这些数据建立Logistic回归模型,估计年收入15万元的家庭买私家车的可能性。

x       y15      120      110      012      18       030      16       016      122      136      17       024      16       011      018      125      112      010      015      17       022      17       016      118      121      17       09       06       020      116      112      015      19       0

基于R语言操作如下:

 1> library(readxl) 2> data3.1 <- read_excel("/Users/MLS/desktop/多元统计基于R/eg3.1.xls",sheet=1) 3 4> glm.logit<-glm(y~x, family=binomial, data=data3.1) 5Warning message: 6glm.fit:拟合機率算出来是数值零或一  7> summary(glm.logit) 8 9Call:10glm(formula = y ~ x, family = binomial, data = data3.1)1112Deviance Residuals: 13     Min        1Q    Median        3Q       Max  14-1.21054  -0.05498   0.00000   0.00433   1.87356  1516Coefficients:17            Estimate Std. Error z value Pr(>|z|)  18(Intercept) -21.2802    10.5203  -2.023   0.0431 *19x             1.6429     0.8331   1.972   0.0486 *20---21Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 12223(Dispersion parameter for binomial family taken to be 1)2425    Null deviance: 62.3610  on 44  degrees of freedom26Residual deviance:  6.1486  on 43  degrees of freedom27AIC: 10.1492829Number of Fisher Scoring iterations: 9

根据R计算我们得到回归模型函数:

计算  时 的概率:

1> yp<-predict(glm.logit, data.frame=(x=15))
2> p.fit<-exp(yp)/(1+exp(yp));
3> p.fit
41
50.9665418

有R计算结果可知:年收入15万的家庭买私家车的概率为97%。

我们用Logistic回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,就是异方差性并没有解决,回归模型不是等方差的,应该对模型式用加权最小二乘估计。权重系数: ,优化模型的路漫漫。

往期精彩:

  • R语言:data.table语句批量生成变量

  • 【R语言实用技巧】随机排序、随机抽样与分层抽样

  • R语言中文社区2018年终文章整理(作者篇)

  • R语言中文社区2018年终文章整理(类型篇)

公众号后台回复关键字即可学习

回复 爬虫            爬虫三大案例实战
回复 Python       1小时破冰入门
回复 数据挖掘     R语言入门及数据挖掘
回复 人工智能     三个月入门人工智能
回复 数据分析师  数据分析师成长之路 
回复 机器学习     机器学习的商业应用
回复 数据科学     数据科学实战
回复 常用算法     常用数据挖掘算法

开工后的第一个周末就要到了,开心吧

逻辑斯蒂回归:家庭买私家车的概率相关推荐

  1. 瞎聊机器学习——LR(Logistic Regression)逻辑斯蒂回归(一)

    逻辑斯蒂回归是我们在学习以及工作中经常用到的一种分类模型,下面通过本文来讲解一下逻辑斯蒂回归(logistic regression,下文简称LR)的概念.数学推导. 一.逻辑斯蒂回归的概念 首先希望 ...

  2. 逻辑斯蒂回归(logisic regression)和SVM的异同

    逻辑斯蒂回归主要用于二分类,推广到多分类的话是类似于softmax分类.求 上述问题可以通过最大化似然函数求解. 上述问题可以采用最小化logloss进行求解. 一般地,我们还需要给目标函数加上正则项 ...

  3. 用二项逻辑斯蒂回归解决二分类问题

    逻辑斯蒂回归: 逻辑斯蒂回归是统计学习中的经典分类方法,属于对数线性模型.logistic回归的因变量可以是二分类的, 也可以是多分类的 基本原理 logistic 分布 折X是连续的随机变量,X服从 ...

  4. 【Python-ML】SKlearn库逻辑斯蒂回归(logisticregression) 使用

    # -*- coding: utf-8 -*- ''' Created on 2018年1月12日 @author: Jason.F @summary: Scikit-Learn库逻辑斯蒂回归分类算法 ...

  5. 局部加权回归、逻辑斯蒂回归、感知器算法—斯坦福ML公开课笔记3

    转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9113681 最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少 ...

  6. ML之NBLoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+TfidfVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测

    ML之NB&LoR:利用NB(朴素贝叶斯).LoR(逻辑斯蒂回归)算法(+TfidfVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析-五分类预测 目录 输出结果 ...

  7. ML之NBLoR:利用NB(朴素贝叶斯)、LoR(逻辑斯蒂回归)算法(+CountVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析—五分类预测

    ML之NB&LoR:利用NB(朴素贝叶斯).LoR(逻辑斯蒂回归)算法(+CountVectorizer)对Rotten Tomatoes影评数据集进行文本情感分析-五分类预测 目录 输出结果 ...

  8. 一文“妙”解逻辑斯蒂回归(LR)算法

    一.前言 在感知器算法中,如下图 如果我们使用一个f(z)=z函数,作为激励函数,那么该模型即为线性回归.而在逻辑斯蒂回归中,我们将会采用f(z)=sigmoid(z) 函数作为激励函数,所以它被称为 ...

  9. 机器学习第八篇:详解逻辑斯蒂回归算法

    01|基本概念: 在介绍逻辑回归模型以前,先介绍一下逻辑斯谛分布. 设X是连续型随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数F(x)和密度函数f(x): 逻辑斯谛分布的分布函数F(x)的曲线如图 ...

  10. 逻辑斯蒂回归_逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习...

    本文包括: 重要概念 逻辑斯蒂回归和线性回归 二项逻辑斯谛回归模型 逻辑斯蒂回顾与几率 模型参数估计 多项逻辑斯谛回归 其它有关数据分析,机器学习的文章及社群 1.重要概念: 在正式介绍逻辑斯蒂回归模 ...

最新文章

  1. sim中do文件/memory(readmemb命令符)/移位编写
  2. java常见证书类型和密钥库类型
  3. c++读二进制文件结束的时候总会异常_python专题文件操作
  4. php pdo mysql存储过程_MySQL从PHP PDO中的存储过程检索变量
  5. 阿里Java面试题剖析:为什么使用消息队列?消息队列有什么优点和缺点?
  6. NOIP 模拟 box - 费用流 / 匈牙利
  7. gdb查看空指针 linux_5 个鲜为人知 GNU 调试器(GDB)技巧
  8. 热电偶校验仪_热电偶校验方法_热电偶的使用方法及维修经验
  9. selenium webdriver处理HTML5的视频播放
  10. 【CVPR 2021】Revisiting Knowledge Distillation: An Inheritance and Exploration Framework
  11. android 游戏音效格式,Android基础 - Android Studio 添加游戏音效
  12. Simon Knowles:30年做成三家独角兽公司,AI芯片创业的底层逻辑
  13. seacms_locoy.php,seacms_v6.6
  14. 20190919CF训练
  15. 虎头蛇尾的韩文学习记录
  16. 在Windows程序中打开控制台的程序
  17. 次世代游戏:科技巨头对游戏业未来的看法
  18. linux 上下文切换时对用户task和内核task区别对待——针对fpu
  19. 【电子学会】2019年09月图形化三级 -- 猫咪抓老鼠游戏
  20. Chrome浏览器 改成黑色主题(含控制台)

热门文章

  1. 编写 if 时尽量不要带 else
  2. 笑死,小米新logo是这么来的
  3. 最受欢迎Java数据库访问框架(DAO层)
  4. 你见过哪些操蛋的代码?切勿模仿! 否则后果自负
  5. 华为:行业危机时,只做一件事:抢人!
  6. 亲历阿里巴巴五轮面试分享
  7. 看完这篇还不了解 Nginx,那我就哭了!
  8. 别闲的没事去听讲座!
  9. 使用 /proc 文件系统
  10. Java主类结构:变量与常量