相信大家初高中都学习过求解回归线方程,大学概率论的第九章也有讲,忘记了也不要紧,这里简单回忆一下:

线性回归方程为:

我们可以先求出x、y的均值:

对于系数  :          

对于系数 :         

例:已知x、y之间的一组数据:

x 0 1 2 3
y 1 3 5 7

求y与x的回归方程:

答案 :  其实连起来就是一条线段

一、什么是回归分析

Regression

回归分析我们通常叫做 Regression ,它其实是一大类方法。我们之前了解到的Predicition它即包括了Regression也包括了Classification,即回归和分类。像是决策树适合的离散型输出,我们一般叫做分类;而对于连续型输出的问题,比如用户的满意度、一个家庭一年的开销或者是用户星级的评价、用户的点击又或是一些概率等等,就要用到这次介绍的Regression方法。

回归分析是描述变量间关系的一种统计分析方法

• 例:在线教育场景

• 因变量 Y:在线学习课程满意度

• 自变量 X:平台交互性、教学资源、课程设计

• 预测性的建模技术,通常用于预测分析

• 预测的结果多为连续值(但也可以是离散值,甚至是二值)

二、简单线性回归

线性回归 (Linear regression)

因变量和自变量之间是线性关系,就可以使用线性回归来建模

线性回归的目的即找到最能匹配(解释)数据的截距和斜率

  • 有些变量间的线性关系是确定性的
x 1 2 3 4 5 6
y 3 5 7 9 11 13

所以当 x=7时,我们预测为15.

  • 然而通常情况下,变量间是近似的线性关系
x 1 2 3 4 5 6
y 3 2 8 8 11 13

我们要解决的问题就是如何得到一条直线能够最好地解释数据?

拟合数据