1.OLS说明

最小二乘法。给定序列X(x1,x2...xn),y,估计一个向量A(a0,a1.a2....)令y'=a0+a1*x1+a2*x2+...+an*xn, 使得(y'-y)^2最小,计算A。

2.代码如下

来源《python机器学习实践指南》

import patsy
import statsmodels.api as sm
f = 'Rent ~ Zip + Beds'
y, X = patsy.dmatrices(f, su_lt_two, return_type='dataframe')
results = sm.OLS(y, X).fit()
print(results.summary())

结果如下:

接下来一个一个说明

名称 说明
左边参数    
Dep. Variable Rent     

Which variable is the response in the model

输出Y变量的名称Rent

Model OLS  

What model you are using in the fit

使用的参数确定的模型OLS

Method

Least Squares

How the parameters of the model were calculated

使用最小二乘法的方法确定参数

Date Sat,31 Oct 2015 日期
Time 13:44:15 时间
No. Observations 262

The number of observations (examples)

样本数目

DF Residuals 227

Degrees of freedom of the residuals. Number of observations - number of parameters

残差的自由度(等于 观测数(No. Observations)-参数数目(Df Model+1(常量参数)))

残差:指实际观察值与估计值(拟合值)之间的差

Df Model: 34 模型参数个数(不包含常量参数),对应于coef中的行数
右边参数    
R-squared 0.377

The coefficient of determination. A statistical measure of how well the regression line approximates the real data points

可决系数,说明估计的准确性

“可决系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好

相关说明见下文

Adj.

R-squared

0.283

The above value adjusted based on the number of observations and the degrees-of-freedom of the residuals

修正方,见3.5

F-statistic 4.034

A measure how significant the fit is. The mean squared error of the model divided by the mean squared error of the residuals

Prob (F-statistic)    
Log-likelihood    
AIC  

Akaike Information Criterion

AIC=2k+nln(SSR/n)

BIC    

https://blog.datarobot.com/ordinary-least-squares-in-python

3.统计学相关参数:

SSE(和方差、误差平方和):The sum of squares due to error
MSE(均方差、方差):Mean squared error
RMSE(均方根、标准差):Root mean squared error
R-square(确定系数):Coefficient of determination
Adjusted R-square:Degree-of-freedom adjusted coefficient of determination

下面我对以上几个名词进行详细的解释下,相信能给大家带来一定的帮助!!

一、SSE(和方差)

该统计参数计算的是拟合数据和原始数据对应点的误差的平方和,计算公式如下

SSE越接近于0,说明模型选择和拟合更好,数据预测也越成功。接下来的MSE和RMSE因为和SSE是同出一宗,所以效果一样

二、MSE(均方差)
该统计参数是预测数据和原始数据对应点误差的平方和的均值,也就是SSE/n,和SSE没有太大的区别,计算公式如下

三、RMSE(均方根)
该统计参数,也叫回归系统的拟合标准差,是MSE的平方根,就算公式如下

在这之前,我们所有的误差参数都是基于预测值(y_hat)和原始值(y)之间的误差(即点对点)。从下面开始是所有的误差都是相对原始数据平均值(y_ba)而展开的(即点对全)!!!

四、R-square(确定系数)
在讲确定系数之前,我们需要介绍另外两个参数SSR和SST,因为确定系数就是由它们两个决定的
(1)SSR:Sum of squares of the regression,即预测数据与原始数据均值之差的平方和,公式如下

(2)SST:Total sum of squares,即原始数据和均值之差的平方和,公式如下

细心的网友会发现,SST=SSE+SSR,呵呵只是一个有趣的问题。而我们的“确定系数”是定义为SSR和SST的比值,故

其实“确定系数”是通过数据的变化来表征一个拟合的好坏。由上面的表达式可以知道“确定系数”的正常取值范围为[0 1],越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好

五、修正的公式(Adj. R-squared)

其中n是样本数量(No. Observations),p是模型中变量的个数(Df Model)。

我们知道在其他变量不变的情况下,引入新的变量,总能提高模型的。修正就是相当于给变量的个数加惩罚项。

换句话说,如果两个模型,样本数一样,一样,那么从修正​​​​​​​的角度看,使用变量个数少的那个模型更优。使用修正​​​​​​​也算一种奥卡姆剃刀的实例。

statsmodels中的summary解读(使用OLS)相关推荐

  1. 理解statsmodels中OLS对应基金alpha、beta、R-squared

    概解statsmodels <理解patsy & Design Matrices> To fit most of the models covered by statsmodels ...

  2. HashMap中ConcurrentModificationException异常解读

    HashMap中ConcurrentModificationException异常解读 参考文章: (1)HashMap中ConcurrentModificationException异常解读 (2) ...

  3. C#中的summary

    初学C#,看公司代码的过程中一步一步学习,现将学习过程中发现的一些知识总结整理出来,无论难易,以供后续不时之需. 在C#中,<summary> 标记应当用于描述类型或类型成员. 使用 &l ...

  4. python回归模型_缺少Python statsmodels中OLS回归模型的截取

    我正在进行滚动,例如在 this link( https://drive.google.com/drive/folders/0B2Iv8dfU4fTUMVFyYTEtWXlzYkk)中找到的数据集的1 ...

  5. python最小二乘法拟合模型的loocc误差_线性回归模型库Statsmodels 中 OLS 回归(普通最小二乘法回归)...

    Statsmodels 是 Python 中一个强大的统计分析包,包含了回归分析.时间序列分析.假设检 验等等的功能.Statsmodels 在计量的简便性上是远远不及 Stata 等软件的,但它的优 ...

  6. return在php中用法,细致解读PHP中return用法(附代码)_后端开发

    在大部分编程言语中,return关键字能够将函数的实行效果返回,PHP中return的用法也迥然不同,对初学者来讲,控制PHP中return的用法也是进修PHP的一个入手下手. 起首,它的意义就是返回 ...

  7. java vo命名规则_阿里java开发手册中命名规约解读之DO/BO/DTO/VO/AO

    前言 在阅读<阿里巴巴Java开发手册>时,看到命名规则中有这样一条 虽然知道这些是根据Java对象的角色所分配名称的后缀,但是没有弄清楚分别是什么意思,日常开发中也没有使用到. 网上查找 ...

  8. 自动驾驶系统设计的那些底层软件开发中的重点解读

    作者 | Jessie 出品 | 焉知 知圈 | 进"计算平台群"请加微yanzhi-6,备注计算 众所周知,随着自动驾驶和智能网联技术的飞速发展,传统的汽车开放系统架构CP Au ...

  9. Prometheus核心概念:你是如何在项目中使用Summary类型的Metric的?

    目录 1 背景 2 微服务项目中如何监测请求耗时呢? 3 使用Prometheus的Summary类型来统计HTTP请求耗时 3.1 实践:如何使用Summary类型Metric? 3.2 源码分析: ...

最新文章

  1. 对话框编程之非模态对话框 [04]
  2. Vue.js2.0开发环境搭建(四)
  3. 动态改变ListView布局
  4. java8 stringbuilder_为什么 Java 8 中不需要 StringBuilder 拼接字符串
  5. sqlserver还原到mysql_SQLSERVER完整数据库还原(简单恢复模式)
  6. 编译Android源码致命错误解决方案
  7. 让Sublime Text 2支持GBK
  8. 2022电大国家开放大学网上形考任务-中华文化概说非免费(非答案)
  9. Python 二次开发 AutoCAD 简介
  10. Guitar Pro8.0吉他打谱作曲中文版有哪些新功能?
  11. html中首页的概念,网页开发网页的相关概念你知道吗?
  12. 并行计算系列-阿姆达尔定律(Amdahl‘s Law)
  13. 达内python怎么样_在达内学Python怎么样?我能学会吗?
  14. 常见的数学建模比赛汇总(参考资料)
  15. 贴图通道、贴图类型和材料类型
  16. java保存数据到session中_java session如何存取数据
  17. JAVA支付宝小程序授权登陆,并生成二维码(证书方式)
  18. 盘点6款装机必备软件
  19. 用ajax修改成功怎么返回页面,jquery操作ajax返回的页面元素
  20. 水泥行业无组织排放治理之路

热门文章

  1. 如果是痛苦,那么请快些把它结束!
  2. PTA R7-1 判断素数
  3. signed integer overflow报错解决
  4. 蒜香法棍--疑难杂症
  5. OpenMP的介绍及简单使用(1)
  6. 突破效率边界,深度分析新医疗环境下医美机构智能化营销之道
  7. 数据结构之图知识点总结
  8. 脑袋空空时,浅浅的摸一下鱼
  9. 刑侦大队对涉及六个嫌疑人的一桩疑案的分析,编一程序,将作案人找出来(更好的逻辑分析)
  10. 5-HT2A靶向药物|适应症|市场销售-上市药品前景分析