jupyter多元线性回归算法预测房价
目录
- 一、概念
- 二、Excel预测房价
- 三、Python预测房价(不用Sklearn)
- 1.上传数据文件
- 2.导入数据
- 3.数据清洗
- 4.热力图
- 5.多元线性回归建模
- 6.模型末尾提示可能存在多元共线性,需要处理一下
- 四、使用Sklearn包预测房价
- (一)不处理数据
- 1.导入相关包和数据
- 2.多元线性回归
- (二)处理数据
- 1.异常值处理
- 2.进行多元线性回归
- 五、三种方式对比
- 六、总结
- 参考资料
一、概念
社会经济现象的变化往往受到多个因素的影响,因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归 。
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。这里只介绍多元线性回归的一些基本问题。
多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验 。
选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。
二、Excel预测房价
删除不合理的数据,如:
将neighborhood移到最右边,便于选择X的数据,打开数据分析中的回归进行相关选择:
分析结果:
回归结果分析:
在图中的回归统计子表中,字段Multiple R代表复相关系数R,也就是R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本次数据集回归分析得到的
R=0.788654
,这表明x和y之间的关系为高度正相关。R Square是复测定系数,也就是相关系数R的平方。Adjusted R Square是调整后的复测定系数R2,该值为0.621974
,说明自变量能说明因变量y的62.20%,因变量y的38.8%要由其他因素来解释。标准误差用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好。观察值是用于估计回归方程的数据的观察值个数,本次数据集共有5414条数据,所以观察值为5414。
在图中的方差分析子表中,Significance F为F检验显著性统计量,它的P值为0,小于显著性水平0.05,故而能够确定该回归方程回归效果显著,且方程中至少有一个回归系数显著不为0。
设因变量price为y,自变量house_id为x1,自变量area为x2,自变量bedrooms为x3,自变量bathrooms为x4。在图中的第三张子表中,Coefficients为常数项和b1~b4的值,据此便可以估算得出回归方程为:
y= 344.1818x1+-1020.02x2+7997.111x3+ 4183.78
。但根据Coefficients估算出的回归方程可能存在较大的误差,在第三张子表中更为重要的一列是P-value列,P-value为回归系数t统计量的P值。由表中P-value的值可以发现,自变量area的P值远小于显著性水平0.05,因此这个自变量与y相关。其余自变量P值大于显著性水平0.05,说这两个自变量与y相关性较弱,甚至不存在线性相关关系。
三、Python预测房价(不用Sklearn)
1.上传数据文件
2.导入数据
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
df = pd.read_csv('house_prices.csv')
df.info();
df.head()
3.数据清洗
数据缺失分类
- 行记录缺失,实际上就是记录丢失
- 数据列值缺失,数据记录中某些列值空缺
数据库 Null
Python返回对象None
Pandas Numpy NaN
个别情况下,部分缺失值会使用空字符串代替
缺失值处理方式- 直接删除 带有缺失值的行记录(整行删除)或者列字段(整列删除),删除意味着会消减数据特征,不适合直接删除缺失值的情况:
数据记录不完整情况且比例较大(如超过10%),删除会损失过多有用信息。
带有缺失值的数据,记录大量存在着明显的数据分布规律的特征
带有缺失值的数据,记录的目标标签(即分类中的Label变量)主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确。- 填充缺失值 相对直接删除而言,用适当方式填充缺失值,形成完整的数据记录是更加常用的缺失值处理方式。常用的填充方法如下:
统计法
对于数值型的数据,使用均值、加权均值、中位数等方填充
对于分类型数据,使用类别众数最多的值填充。
模型法:更多时候我们会基于已有的其他字段,将缺失字段作为目标变量进行预测,从而得到最为可能的补全值。如果带有缺失值的列是数值变量,采用回归模型补全;如果是分类变量,则采用分类模型补全。
专家补全:对于少量且具有重要意义的数据记录,专家补足也是非常重要的一种途径。
其他方法:例如随机法、特殊值法、多重填补等。- 真值转换法 承认缺失值的存在,并且把数据缺失也作为数据分布规律的一部分,将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中。但是变量的实际值可以作为变量值参与模型计算,而缺失值通常无法参与运算,因此需要对缺失值进行真值转换。
以用户性别字段为例,男 女 未知- 不处理 数据分析和建模应用中很多模型对于缺失值有容忍度或灵活的处理方法,因此在预处理阶段可以不做处理。常见的能够自动处理缺失值的模型包括:KNN、决策树和随机森林、神经网络和朴素贝叶斯
KNN 模型中缺失值不参与距离计算
缺失值处理套路
找到缺失值
分析缺失值在整体样本中的占比
选择合适的方式处理缺失值
(1)异常值处理
# 异常值处理
# ================ 异常值检验函数:iqr & z分数 两种方法 =========================
def outlier_test(data, column, method=None, z=2):""" 以某列为依据,使用 上下截断点法 检测异常值(索引) """""" full_data: 完整数据column: full_data 中的指定行,格式 'x' 带引号return 可选; outlier: 异常值数据框 upper: 上截断点; lower: 下截断点method:检验异常值的方法(可选, 默认的 None 为上下截断点法),选 Z 方法时,Z 默认为 2"""# ================== 上下截断点法检验异常值 ==============================if method == None:print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')print('=' * 70)# 四分位点;这里调用函数会存在异常column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)# 1,3 分位数(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)# 计算上下截断点upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)# 检测异常值outlier = data[(data[column] <= lower) | (data[column] >= upper)]print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')print(f"上截断点:{upper}, 下截断点:{lower}")return outlier, upper, lower# ===================== Z 分数检验异常值 ==========================if method == 'z':""" 以某列为依据,传入数据与希望分段的 z 分数点,返回异常值索引与所在数据框 """""" paramsdata: 完整数据column: 指定的检测列z: Z分位数, 默认为2,根据 z分数-正态曲线表,可知取左右两端的 2%,根据您 z 分数的正负设置。也可以任意更改,知道任意顶端百分比的数据集合"""print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')print('=' * 70)# 计算两个 Z 分数的数值点mean, std = np.mean(data[column]), np.std(data[column])upper, lower = (mean + z * std), (mean - z * std)print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")print('=' * 70)# 检测异常值outlier = data[(data[column] <= lower) | (data[column] >= upper)]return outlier, upper, lower
(2)调用函数
outlier, upper, lower = outlier_test(data=df, column='price', method='z')
outlier.info(); outlier.sample(5)
未处理前:
处理后:
删除错误数据:
# 这里简单的丢弃即可
df.drop(index=outlier.index, inplace=True)
4.热力图
# 热力图
def heatmap(data, method='pearson', camp='RdYlGn', figsize=(10 ,8)):"""data: 整份数据method:默认为 pearson 系数camp:默认为:RdYlGn-红黄蓝;YlGnBu-黄绿蓝;Blues/Greens 也是不错的选择figsize: 默认为 10,8"""## 消除斜对角颜色重复的色块# mask = np.zeros_like(df2.corr())# mask[np.tril_indices_from(mask)] = Trueplt.figure(figsize=figsize, dpi= 80)sns.heatmap(data.corr(method=method), \xticklabels=data.corr(method=method).columns, \yticklabels=data.corr(method=method).columns, cmap=camp, \center=0, annot=True)# 要想实现只是留下对角线一半的效果,括号内的参数可以加上 mask=mask
调用函数:
# 通过热力图可以看出 area,bedrooms,bathrooms 等变量与房屋价格 price 的关系都还比较强## 所以值得放入模型,但分类变量 style 与 neighborhood 两者与 price 的关系未知
heatmap(data=df, figsize=(6,5))
注:由于只能分析数值变量之间的相关性,所以 style 与 neighborhood 两者与 price 的关系无法分析。
5.多元线性回归建模
代码:
## 利用回归模型中的方差分析
## 只有 statsmodels 有方差分析库
## 从线性回归结果中提取方差分析结果
import statsmodels.api as sm
from statsmodels.formula.api import ols # ols 为建立线性回归模型的统计学库
from statsmodels.stats.anova import anova_lm
from statsmodels.formula.api import olslm = ols('price ~ area + bedrooms + bathrooms', data=df).fit()
lm.summary()
结果:
模型优化:
# 设置虚拟变量
# 以名义变量 neighborhood 街区为例
nominal_data = df['neighborhood']# 设置虚拟变量
dummies = pd.get_dummies(nominal_data)
dummies.sample() # pandas 会自动帮你命名# 每个名义变量生成的虚拟变量中,需要各丢弃一个,这里以丢弃C为例
dummies.drop(columns=['C'], inplace=True)
dummies.sample()
# 将结果与原数据集拼接
results = pd.concat(objs=[df, dummies], axis='columns') # 按照列来合并
results.sample(3)
# 对名义变量 style 的处理可自行尝试
# 再次建模
lm = ols('price ~ area + bedrooms + bathrooms + A + B', data=results).fit()
lm.summary()
结果:
6.模型末尾提示可能存在多元共线性,需要处理一下
# 自定义方差膨胀因子的检测公式
def vif(df, col_i):"""df: 整份数据col_i:被检测的列名"""cols = list(df.columns)cols.remove(col_i)cols_noti = colsformula = col_i + '~' + '+'.join(cols_noti)r2 = ols(formula, df).fit().rsquaredreturn 1. / (1. - r2)test_data = results[['area', 'bedrooms', 'bathrooms', 'A', 'B']]
for i in test_data.columns:print(i, '\t', vif(df=test_data, col_i=i))
# 发现 bedrooms 和 bathrooms 存在强相关性,可能这两个变量是解释同一个问题
# 果然,bedrooms 和 bathrooms 这两个变量的方差膨胀因子较高,# 也印证了方差膨胀因子大多成对出现的原则,这里我们丢弃膨胀因子较大的 bedrooms 即可
lm = ols(formula='price ~ area + bathrooms + A + B', data=results).fit()
lm.summary()
# 再次进行多元共线性检测
test_data = df[['area', 'bathrooms']]
for i in test_data.columns:print(i, '\t', vif(df=test_data, col_i=i))
四、使用Sklearn包预测房价
(一)不处理数据
1.导入相关包和数据
import pandas as pd
import numpy as np
import seaborn as sns
from sklearn import datasets
from sklearn.linear_model import LinearRegression
df = pd.read_csv('house_prices.csv')
df.info()#显示列名和数据类型类型
df.head(7)#显示前7行,默认5行
2.多元线性回归
# 进行多元线性回归
model=LinearRegression()
l_model=model.fit(x,y)
print('回归系数')
print(model.coef_)
print('截距')
print(model.intercept_)
print('回归方程: Y=(',model.coef_[0],')*x1 +(',model.coef_[1],')*x2 +(',model.coef_[2],')*x3 +(',model.intercept_,')')
回归方程:Y=226.42116973833478X1+49931.5031172071X2-12224.717244965826X3+64356.04135007528
(二)处理数据
1.异常值处理
# 异常值处理
# ================ 异常值检验函数:iqr & z分数 两种方法 =========================
def outlier_test(data, column, method=None, z=2):""" 以某列为依据,使用 上下截断点法 检测异常值(索引) """""" full_data: 完整数据column: full_data 中的指定行,格式 'x' 带引号return 可选; outlier: 异常值数据框 upper: 上截断点; lower: 下截断点method:检验异常值的方法(可选, 默认的 None 为上下截断点法),选 Z 方法时,Z 默认为 2"""# ================== 上下截断点法检验异常值 ==============================if method == None:print(f'以 {column} 列为依据,使用 上下截断点法(iqr) 检测异常值...')print('=' * 70)# 四分位点;这里调用函数会存在异常column_iqr = np.quantile(data[column], 0.75) - np.quantile(data[column], 0.25)# 1,3 分位数(q1, q3) = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)# 计算上下截断点upper, lower = (q3 + 1.5 * column_iqr), (q1 - 1.5 * column_iqr)# 检测异常值outlier = data[(data[column] <= lower) | (data[column] >= upper)]print(f'第一分位数: {q1}, 第三分位数:{q3}, 四分位极差:{column_iqr}')print(f"上截断点:{upper}, 下截断点:{lower}")return outlier, upper, lower# ===================== Z 分数检验异常值 ==========================if method == 'z':""" 以某列为依据,传入数据与希望分段的 z 分数点,返回异常值索引与所在数据框 """""" paramsdata: 完整数据column: 指定的检测列z: Z分位数, 默认为2,根据 z分数-正态曲线表,可知取左右两端的 2%,根据您 z 分数的正负设置。也可以任意更改,知道任意顶端百分比的数据集合"""print(f'以 {column} 列为依据,使用 Z 分数法,z 分位数取 {z} 来检测异常值...')print('=' * 70)# 计算两个 Z 分数的数值点mean, std = np.mean(data[column]), np.std(data[column])upper, lower = (mean + z * std), (mean - z * std)print(f"取 {z} 个 Z分数:大于 {upper} 或小于 {lower} 的即可被视为异常值。")print('=' * 70)# 检测异常值outlier = data[(data[column] <= lower) | (data[column] >= upper)]return outlier, upper, lower
调用函数并丢弃异常值项:
outlier, upper, lower = outlier_test(data=df, column='price', method='z')#获得异常数据
outlier.info(); outlier.sample(5)
df.drop(index=outlier.index, inplace=True)#丢弃异常数据
2.进行多元线性回归
#取出自变量
x=df[['area','bedrooms','bathrooms']]
y=df['price']
# 进行多元线性回归
model=LinearRegression()
l_model=model.fit(x,y)
print('相关系数')
print(model.coef_)
print('截距')
print(model.intercept_)
print('回归方程: Y=(',model.coef_[0],')*x1 +(',model.coef_[1],')*x2 +(',model.coef_[2],')*x3 +(',model.intercept_,')')
回归方程:Y=185.2804151475469X1+72712.12763403064X2-48721.04131342967X3+98019.63138340652
五、三种方式对比
Excel: y= 344.1818x1+-1020.02x2+7997.111x3+ 4183.78
不用Sklearn包: y=265.0309x1+38940x2-13730x3-151100
使用Sklearn包:
不处理数据:Y=226.42116973833478X1+49931.5031172071X2-12224.717244965826X3+64356.04135007528
处理数据:Y=185.2804151475469X1+72712.12763403064X2-48721.04131342967X3+98019.63138340652
可以看到几种方式求出来的回归方程各不相同,甚至差异很大。
六、总结
由于特征项增多,不使用sklearn包求回归方程的求法变得更加困难,需要更好的算法,而sklearn包给我们提供了相关函数,只需要调用就好了。
参考资料
https://blog.csdn.net/weixin_43196118/article/details/108462140
https://blog.csdn.net/weixin_42831571/article/details/103429908
https://blog.csdn.net/qq_47281915/article/details/120928871?spm=1001.2014.3001.5501
jupyter多元线性回归算法预测房价相关推荐
- 多元线性回归算法预测房价——Excel、jupyter+sklearn
嘿!我是目录 一.多元线性回归 1. 定义 2. 数据清洗 2.1 缺失值处理 2.2 异常值(离群点)处理 3. 特征共线性问题 二.用Excel做房价预测线性回归 1. 配置Excel 2. 完善 ...
- 多元线性回归算法预测房价
目录 一.多元线性回归 1.定义 2.房价问题分析 二.使用Excel进行多元先回归预测 1.导入数据 2.完善数据集 1.删除数据偏差 2. 处理非数据数值 3.Excel做线性回归 三.用jupy ...
- 机器学习(二)多元线性回归算法预测房价
机器学习(二)多元线性回归算法预测房价 本篇文章已作为重庆交通大学19级微课<机器视觉>大作业提交,提前声明,避免抄袭误会 "garbage in garbage out&quo ...
- 多元线性回归算法预测房价【人工智能】
目录 一.理论知识 二.Excel多元线性回归 1.数据集 2.数据分析 三.借助Sklearn库实现多元线性回归 1.基础包与数据导入 2.变量探索 3.分析数据 4.建立线性回归模型 5.Skle ...
- 多元线性回归之预测房价
目录 一.多元线性回归 二.用EXCEL来做 三.Juypter中分析(不使用Sklearn) 四. 模型优化 五. 总结 六 . 参考链接 一.多元线性回归 在回归分析中,如果有两个或两个以上的自变 ...
- 大数据分析案例-基于多元线性回归算法预测学生期末成绩
- 【经典案例】 | 多元线性回归模型预测房价(附Python代码与数据)
- 基于线性回归算法的房价预测项目
1. 查看数据的基本信息 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn a ...
- python 预测算法_通过机器学习的线性回归算法预测股票走势(用Python实现)
本文转自博客园,作者为hsm_computer 原文链接:https://www.cnblogs.com/JavaArchitect/p/11717998.html在笔者的新书里,将通过股票案例讲述P ...
最新文章
- 使用OpenCV实现图像增强
- Could not find Developer Disk Image
- 反弹端口 HTTP代理 HTTP隧道技术
- yolov5的3.0版本代码在训练的时候报错:ImportError: cannot import name ‘amp‘ from ‘torch.cuda‘ 以及yolov5的3.0环境安装
- Windows10 yolox 安装
- redis VS kafka
- 订单系统:从0到1设计思路
- 记录mysql的配置表误删
- 网络套接字(Network socket)
- C语言中的字节对齐以及其相关处理
- FLEX:target和currentTarget属性的区别
- 罗马仕php30重量,充电宝多少毫安最好?这3款罗马仕充电宝必须收藏
- 经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
- 连载8:时域信号相乘相当于频域卷积
- iF.svnadmin安装部署
- php店铺处罚功能开发,Shopee平台店铺扣分惩罚机制详析!
- 一文带你全方位了解网卡
- 苹果4s手机装 java微信_苹果4s微信版本过低怎么办 大师来详解
- Error opening device
- 保险业的5项CX预测
热门文章
- 添加员工功能400报错
- 安科瑞三相电动机保护器ARD2F怎么选型
- xml文件报错:The reference to entity “characterEncoding“ must end with the ‘;‘ delimiter.
- 华为云早报 “会思考”的红绿灯来了!
- 【简单粗暴】秒数换算时分秒
- 职称计算机做点题就行,2020职称计算机模拟考试练习题130
- 第二证券|北上资金连续六周净流入,持续看好大消费板块
- python模拟支付宝扫码登录_GitHub - Jaccorot/alipay_python: 支付宝 alipay python接口,支持担保交易,即时到帐和自动发货接口...
- ubuntu20.04摄像头opencv无法调用-摄像头驱动问题
- Select下拉框结合Ajax使用