在这里,我通过我的作业来介绍一下如何用GLM进行数据分析(这里主要用R进行分析),不过还没拿到答案,所以也不确定结果是否正确,不论怎样,介绍一下整个分析的思路也足够了。

以上是数据的一些介绍,简单来说就是分析急诊室就诊次数和一些变量之间的关系吧,首先我们来分析一下这些数据的大致情况:

可以看到,一大堆变量,包括响应变量都是右偏的,一般来说这时候我们就可以对他们应用log transformation(这里需要注意,因为变量具有较多的0值,所以采取log(x+1)做变换,这也是一个小技巧)来缓和这种现象,我们可以通过直方图来观察转换前后的状况,同时也观察有没有需要剔除极端数据。

在观察直方图的过程中,也发现了complication这个变量其实是严重的不平衡。一般来说,对这种数据有很多处理方法,我可能比较极端一点,喜欢直接剔除它,当然,也不是说不要就不要的,主要还是要分析complication对于0和1这两种情况,我们的ER_visits有没有明显的区别,所以我们可以通过图表画出来:

可以看到,0和1的ER_visits其实分布都比较接近,也就是说不会因为complication的不同取值而导致响应变量有明显变化,所以我这里选择剔除这个变量。

除此之外,我们还注意到对于drug和comorbidities这两个变量,即使使用了log变换,结果还是右偏:

这种情况下,我选择直接对他们进行二分类,把大于0的数据分为一类,用1表示,等于0的用0表示。然后,我们再重新观察数据:

经过初步处理,数据的分布就比一开始好很多了。我们也可以隐约看出ER_visits和total_cost、age之间的正比关系,但是,也要注意到,这时候total_cost和interventions之间的相关系数较大,也就是说,在构建模型的时候,我们只能保留两者其中之一。

以上主要是针对数值数据的预处理,接下来是对类别数据的预处理,首先我们通过表格观察数据是否严重不平衡:

在这里没有特别需要处理的数据,然后我们可以通过箱线图,初步探索一下各个变量和响应变量之间的关系:

到目前为止,我们就基本完成了数据的预处理了,接下来,就可以正式构建一个GLM模型了。

想浏览更多关于数学、机器学习、深度学习的内容,可浏览本人博客

用广义线性模型进行数据分析(上)相关推荐

  1. R语言对数线性模型loglm函数_用R语言进行数据分析:常规和广义线性模型

    用R语言进行数据分析:常规和广义线性模型 线性模型 对于常规的多重模型(multiple model)拟合,最基本的函数是lm(). 下面是调用它的方式的一种改进版: >fitted.model ...

  2. 广义线性模型到底是个什么鬼?

    以下文章内容摘自网络:说人话的统计学 原标题:广义线性模型到底是个什么鬼? ❉说人话的统计学❉ 从逻辑回归模型开始,我们连续讲了好多集有些相似又特点各异的几种统计模型.它们有个统一的旗号,叫做「广义线 ...

  3. 广义线性模型(Generalized Linear Model)之二:Logistic回归

    广义线性模型(Generalized Linear Model)之二:Logistic回归 一.引入:多元线性回归模型 二.Logistic回归模型 三.非条件logistic回归模型 (一)介绍 ( ...

  4. R语言广义线性模型Logistic回归模型C Statistics计算

    R语言广义线性模型Logistic回归模型C Statistics计算 区分能力指的是回归模型区分有病/无病.有效/无效.死亡/存活等结局的预测能力.比如,现有100个人,50个确定患病,50个确定不 ...

  5. UA MATH571A 多元线性回归IV 广义线性模型

    UA MATH571A 多元线性回归IV 广义线性模型 广义线性模型 二值被解释变量 Probit模型 Logit模型 系数的最大似然估计 系数的推断 Wald检验 似然比检验 二项回归 拟合优度检验 ...

  6. 牛顿方法、指数分布族、广义线性模型—斯坦福ML公开课笔记4

    转载请注明:http://blog.csdn.net/xinzhangyanxiang/article/details/9207047 最近在看Ng的机器学习公开课,Ng的讲法循循善诱,感觉提高了不少 ...

  7. c++ error函数_R语言中广义线性模型(GLM)中的分布和连接函数分析

    原文链接:http://tecdat.cn/?p=14874 通常,GLM的连接函数可能比分布更重要.为了说明,考虑以下数据集,其中包含5个观察值 x = c(1,2,3,4,5)y = c(1,2, ...

  8. 机器学习(二)——广义线性模型、生成学习算法

    http://antkillerfarm.github.io/ 逻辑回归(续) 注:Ronald Aylmer Fisher,1890-1962,英国人,毕业于剑桥大学.英国皇家学会会员.尽管他被称作 ...

  9. 广义线性模型_算法小板报(四)——初探广义线性模型和最大熵模型

    一.简介 1948年信息论的创始人香农借鉴物理学中熵的概念,正式提出了信息熵,从数学上解决了"不确定性"的量化问题,开启了信息论研究的先河.在物理学中有熵增加定理,一切孤立物理系统 ...

最新文章

  1. Spring源码分析【1】-Tomcat的初始化
  2. 【HDU 4511】小明系列故事——女友的考验(AC自动机+DP)
  3. android百度网盘倍速,百度网盘在线倍数播放-全网最强,已做群组视频适配,不用保存文件也可倍速,无vip限制(附加安卓倍速版)...
  4. django-celery使用
  5. OSI七层与TCP/IP五层
  6. Angular2官网项目 (4)--路由
  7. BugkuCTF-MISC题妹子的陌陌
  8. 【程序设计】流程图的规范和绘制
  9. 4-5:TCP协议之连接管理机制(三次握手、四次挥手详解)
  10. android volley post 参数,带有标题和正文的Android Volley POST请求
  11. LTE学习:LTE系统中RB、RBG、CCE、REG分别是如何定义的
  12. H5 可堆叠的圆环进度条,支持任意数量子进度条
  13. 7-31 查验身份证 (15 分)
  14. 爱的历史摘录(西蒙·梅)
  15. SpringBoot_快速实战搭建项目
  16. 计算机开机密码设置要求,电脑开机密码怎么设置,开机密码设置很简单!
  17. 数据挖掘招聘关键字分析
  18. Android 通话录音功能
  19. linux版高德导航软件下载,高德导航2017
  20. 870987-63-6,Ir[dF(CF3)ppy]2(dtbbpy)PF6,(Ir[dF(CF3)ppy]2(dtbpy))PF6铱催化剂

热门文章

  1. kill不掉mysqld
  2. fedora 18 19 20 21 22 23 怎么安装中文语言包
  3. Silverlight 2.5D RPG游戏技巧与特效处理:(五)HLSL渲染动画
  4. AI工具分享第二期:11款国内外AI绘画提示词工具整理
  5. [Leetcode] 772. Basic Calculator III 解题报告
  6. svn报错Checksum mismatch while updating ......
  7. 【转载】Oracle 概要文件IDLE_TIME限制用户最大空闲连接时间
  8. 【RDMA】RDMA 编程实例(rdma_cm API)
  9. html中文本不自动换行,CSS禁止文本自动换行代码
  10. SQL中IS NOT NULL与!=NULL的区别