从统计学的角度来看,机器学习大多的方法是统计学中分类与回归的方法向工程领域的推广。

  “回归”(Regression)一词的滥觞是英国科学家Francis Galton(1822-1911)在1886年的论文[1]研究孩子身高与父母身高之间的关系。观察1087对夫妇后,得出成年儿子身高=33.73+0.516*父母平均身高(以英寸为单位).他发现孩子的身高与父母的身高相比更加温和:如果父母均非常高,那么孩子身高更倾向于很高但比父母矮;如果父母均非常矮,那么孩子身高更倾向于很矮但比父母高。这个发现被他称作"回归到均值"(regression to the mean).这也说明了的回归模型是软模型,回归模型更多的刻画了事物间的相关性而非因果性,它并不像物理模型或是一些函数(例如开普勒行星运动定律)那样严格苛刻。

1.从一元线性回归说起

  我们判断体重是否合理时,却要先量量自己的身高。因为无论在生理角度还是审美角度,体重与身高是有关系的。通常可认为人体是均匀的,即身高与体重间的关系是线性的,那么我们无非希望建立一个一元线性回归模型

y=β01x+ε,

x是当前的身高、ε是误差项,β0与β1是两个常数,通常认为每个身高下的ε都是独立的,且服从均值为0,方差为σ2的正态分布,记作ε-i.i.d~N(0,σ2).由于存在误差,当前身高x下的体重y,记作y|x,同样存在y|x~N(β01x,σ2),因此我们将自己的身高x带入,就可以得到该身高下体重均值,并且有99.74%的把握认为该身高下,体重应该在(β01x-3σ,β01x+3σ)之间。当然,如果偏离了这个区间,体重就是不标准的,但是,这也要求σ的值不能太大。

  一元线性回归就是要通过样本数据估计出β0与β1这两个常数的取值。当然,这是个仁者见仁、智者见智的问题,体重偏瘦的人为了保持身材,不希望有胖子的数据干扰模型;胖子会为了控制体重仅选择身高-体重最标准的人数据。当然,考虑女生身高与体重关系时选择男生的数据也是不合理的。我们依据自己的标准,选择不同身高下n个人的身高-体重数据(x1, y1), (x2, y2) ,…, (xn, yn),用最小二乘法得到β0、β1的估计值:

由于样本数据是我们按照规则挑选出来的,可以认为几乎不存在噪声数据,即σ的值不会太大,因此,当前身高下标准的体重范围也会缩小,使得模型更加精准有效。这样使用最小二乘法得到经验回归方程,即得到这样的一条直线

是安全的。经验回归方程对样本中的任意的身高xi的都能给出体重的估计值,体重的真实值与估计值的差称为真实的残差

由于残差存在正负,为了累计残差的效果,将全部样本点的残差进行平方再求和就得到了残差平方和。最小二乘法就是求解让残差平方和达到最小的优化问题。最小二乘法是让经验回归模型对全体样本的冲突达到最小,即使经验回归模型不经过样本中的任意一个点,但它会经过样本的均值点

2.模型参数的估计过程

3.最小二乘估计的性质

首先,最小二乘估计是线性的。β01的估计值是y1,y2,…,yn的线性组合。同时,该估计是无偏的,即β01的估计值的期望分别与β01相同。

考虑模型是否有效,我们就要求估计值的方差

综上,对于给定的x0,y0的估计值服从与以下正态分布

  这说明了在经验回归模型中,不同xi的估计值是无偏的,但方差大小一般不同。最小二乘法是唯一方差最小的无偏估计,也就是说,在全体的无偏模型中,最小二乘法的估计效果是最好的。从y0的估计值分布中我们可以看出,如果想减小模型的方差,就要扩大样本容量,即增大n的值。同时,尽可能使样本的分散以增大Lxx.回到上面的体重-身高建模问题,如果选择不同身高、相同性别且体重-身高比例均为标准的人,那么运用最小二乘法很容易估计出该性别下最标准体重-身高的线性关系。

[1]Regression towards mediocrity in hereditary stature. Francis Galton, Journal of the Anthropological Institute, 1886, 15: 246 – 263

转载于:https://www.cnblogs.com/miluroe/p/5350154.html

从统计看机器学习(一) 一元线性回归相关推荐

  1. 机器学习——回归——一元线性回归

    目录 理论部分 1.1 回归问题 1.2 回归问题分类 1.3 线性回归 1.4 一元线性回归 1.4.1 基本形式 1.4.2 损失函数 1.4.3 训练集与测试集 1.4.4 学习目标 1.4.5 ...

  2. 机器学习(二)-一元线性回归算法(代码实现及数学证明)

    解决回归问题 思想简单,实现容易 许多强大的非线性模型的基础 结果具有很好的可解释性 蕴含机器学习中的很多重要思想 回归问题:连续值 如果样本 特征 只有一个 称为简单线性回归 y=ax + b 通过 ...

  3. 机器学习基础-一元线性回归-01

    回归分析 Regression 一元线性回归 • 回归分析(regression analysis)用来建立方程模拟两 个或者多个变量之间如何关联 • 被预测的变量叫做:因变量(dependent v ...

  4. 【机器学习】机器学习之一元线性回归

    目录 一.什么是一元线性回归 二.使用Excel完成一元线性回归 (1)选取20组数据进行回归 (2)选取200组数据进行回归 (3)选取2000组数据进行回归 (4)选择20000组数据进行回归 三 ...

  5. 机器学习(一元线性回归模型)

    模型:一元线性回归模型 回归分析:建立方程模拟两个或者多个变量之间是如何相互关联,被预测的变量称为因变量(结果),用来进行预测的变量称为 自变量(输入参数),当输入参数只有一个(输出1个)时,称为一元 ...

  6. 机器学习(3) 一元线性回归(最小二乘法实现)

    一元线性回归是分析只有一个自变量x 和 因变量y 线性相关关系的方法.一个经济指标的数值往往受许多因素影响,若其中只有一个因素是主要的,起决定性作用,则可用一元线性回归进行预测分析. 一元线性回归分析 ...

  7. 从统计看机器学习(二) 多重共线性的一些思考

    从一个生活中的现象说起:我们在装机时,不会安装一款以上的解压软件,也不希望被莫名其妙地安装额外的管家.与此相反,我们会安装多款播放器.那么,这是为什么呢?当然,也可以思考这样一个问题,好评的软件那么多 ...

  8. 机器学习入门-一元线性回归模型的骚操作

  9. 机器学习入门(二)一元线性回归

    目录 2.一元线性回归 2.1 什么是线性回归 2.2 代价函数 2.2.1 假设函数 2.2.2 代价函数 2.3 梯度下降法 2.3.1 引出问题 2.3.2 梯度下降法 2.3.3 梯度下降法的 ...

最新文章

  1. 【干货】网络中常用的9个命令,超级实用
  2. 一个Java工程师的入门级Linux命令集
  3. 从补码的来源剖析到为啥补码=原码按位取反+1
  4. JavaScript——变量与基本数据类型
  5. live555学习笔记7-RTP打包与发送
  6. MemoryCache 使用不当导致的一个 BUG
  7. 第一个 Python 程序
  8. oracle pl/sql 包
  9. HOWTO: Create and submit your first Linux kernel patch using GIT
  10. [html] url、href、src 详解
  11. maven简单工具命令
  12. 数据库复习 库 表 记录的 增删改查 基础
  13. SBUS2,一个增强型的SBUS协议,可实现双向通讯功能。SBUS2和SBUS区别到底在哪呢?
  14. 2020-02-09 改udev硬件配置策略,改ETHTOOL_OPTS 或改 `/etc/NetworkManager/dispatcher.d/20-ethtool`...
  15. python有趣的代码-python有趣的一行代码
  16. python - bs4提取XML/HTML中某个标签下的属性
  17. 详解利用ShoeBox制作位图字体
  18. 浏览器重定向(302)次数限制问题
  19. Axure RP大数据可视化大屏BI原型模板组件库源文件
  20. STM3库文件 hal_uart.c的使用

热门文章

  1. C++考试习题之考试预测题
  2. Go之strings标准库
  3. 苹果带计算机记录工作和备忘录一样的软件,有没有类似苹果自带备忘录的便签软件?...
  4. 从零开始的VIO——Allan方差工具
  5. SuperMap超图使用简单笔记
  6. 怎样在计算机里添加新的打印机地址,网络一体打印机怎么样添加扫描地址
  7. 为什么中国需要职业经理人?
  8. split问题,英文句号不能分开字符串
  9. 对话搜狗陈伟,揭秘搜狗AI合成主播背后的前沿技术
  10. 高德地图标识大全_为什么自动驾驶汽车不能使用普通地图导航?