Kaggle房价预测:数据探索——练习
主要借鉴了Kaggle基础问题——房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA并进行总结。
本篇,主要进行数据探索,对数据的基本特征有一个全局的大致了解。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
import seaborn as sns
from scipy.stats import norm
from scipy import stats
%matplotlib inline
首先,我们拿到了数据集的csv文件,可以直接利用pandas导入得到DataFrame数据:
df_train = pd.read_csv(r'E:\kaggle\house_price_regression\train.csv')
与 numpy
的ndarray数据相比,DataFrame数据自带有行列信息,且有很多便捷的方法可以直接进行快速分析。
例如,可以查看数据的基本布局信息。
df_train.head() # 可以查看(默认)前5行数据信息
# df_train.tail() # 可以查看后10行数据信息
Id | MSSubClass | MSZoning | LotFrontage | LotArea | Street | Alley | LotShape | LandContour | Utilities | … | PoolArea | PoolQC | Fence | MiscFeature | MiscVal | MoSold | YrSold | SaleType | SaleCondition | SalePrice | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | 1 | 60 | RL | 65.0 | 8450 | Pave | NaN | Reg | Lvl | AllPub | … | 0 | NaN | NaN | NaN | 0 | 2 | 2008 | WD | Normal | 208500 |
1 | 2 | 20 | RL | 80.0 | 9600 | Pave | NaN | Reg | Lvl | AllPub | … | 0 | NaN | NaN | NaN | 0 | 5 | 2007 | WD | Normal | 181500 |
2 | 3 | 60 | RL | 68.0 | 11250 | Pave | NaN | IR1 | Lvl | AllPub | … | 0 | NaN | NaN | NaN | 0 | 9 | 2008 | WD | Normal | 223500 |
3 | 4 | 70 | RL | 60.0 | 9550 | Pave | NaN | IR1 | Lvl | AllPub | … | 0 | NaN | NaN | NaN | 0 | 2 | 2006 | WD | Abnorml | 140000 |
4 | 5 | 60 | RL | 84.0 | 14260 | Pave | NaN | IR1 | Lvl | AllPub | … | 0 | NaN | NaN | NaN | 0 | 12 | 2008 | WD | Normal | 250000 |
5 rows × 81 columns
由上表可见,数据共有81列,我们可以查看这些特征的具体名称:
df_train.column # 查看各个特征的具体名称
Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
'Alley', 'LotShape', 'LandContour',
Kaggle房价预测:数据探索——练习相关推荐
- 0907实战KAGGLE房价预测数据
数据集: 本文主要对KAGGLE房价预测数据进行预测,并提供模型的设计以及超参数的选择. 该数据集共有1460个数据样本,80个样本特征 数据集介绍可参照: House Prices - Adv ...
- kaggle房价预测-回归模型
目录 1 项目背景 2 初始数据分析 目标值分析 特征与目标值相关性 变量特征相关性 3 数据预处理 目标变量正态分布化 异常值处理 缺失值处理 转换特征 保存训练集和测试集 4 模型预测 岭回归 l ...
- kaggle房价预测问题
参考:https://blog.csdn.net/m0_37870649/article/details/80979783 sklean的线性模型完成kaggle房价预测问题 https://www. ...
- 梯度消失和梯度爆炸_知识干货-动手学深度学习-05 梯度消失和梯度爆炸以及Kaggle房价预测...
梯度消失和梯度爆炸 考虑到环境因素的其他问题 Kaggle房价预测 梯度消失和梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion). 当神经网络的层数较多 ...
- (pytorch-深度学习系列)简单实现kaggle房价预测-学习笔记
实现kaggle房价预测 导入所需模块: %matplotlib inline import torch import torch.nn as nn import numpy as np import ...
- Pytorch kaggle 房价预测实战
Pytorch kaggle 房价预测实战 0. 环境介绍 环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的 动手学深度学习 网站和 视频讲解 小技巧:当遇到函数看不懂的时候 ...
- Transformer 实现 Kaggle 房价预测竞赛
Kaggle 房价预测竞赛是典型的机器学习中的回归问题,需要在训练集上对于房间的 N 个特征和房价之间的关系进行拟合,在测试集上,模型即可根据房间特征对房价作出预测.考虑到需要拟合多种特征之间的关系, ...
- 二手车价格预测数据探索
二手车价格预测数据探索 1.赛题理解 [类型]属于回归问题. [数据字段] 训练数据字段: 字段名字 含义 类型 name 汽车编码 int regDate 汽车注册时间 int model 车型编码 ...
- 天猫用户重复购买预测——数据探索
天猫用户重复购买预测--数据探索 1. 理论 1.1 缺失数据处理 1.2 不均衡样本 1.2.1 随机欠采样 1.2.2 随机过采样 1.2.3 基于聚类的过采样方法 1.2.4 SMOTE算法 1 ...
- Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索
[导读]Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束.这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对房屋的售 ...
最新文章
- 241. Different Ways to Add Parentheses
- java8 streams_Java SE 8新功能介绍:使用Streams API处理集合
- 一文读懂 | 进程并发与同步
- vue项目接口地址暴露_vue组件暴露和.js文件暴露接口操作
- 在SQL SERVER里面用命令查包含某字段的表
- 广东学考计算机专业要多少排位,太难了!2021年学考录取分数大暴涨!深职、广轻需要300分以上?...
- 支持向量机原理(三)线性不可分支持向量机与核函数
- python如何输入n个数字_python如何一次性输入多个数
- php正则表达式修饰符详解
- 【文末福利】500行代码,教你用python写个微信飞机大战
- Oracle客户端安装简易教程
- Android中热更新实现--Sophix方案
- 【刷题】LOJ 6008 「网络流 24 题」餐巾计划
- 启动错误Passenger::SecurityException “Line too long”
- ubuntu中ping停不下来的解决
- Windows10压缩卷时可压缩空间远小于实际剩余空间的解决方案
- Comodo的多域名通配符https证书
- Android Animator(Android动画)
- java闭锁_【Java并发编程三】闭锁
- 吴恩达推荐好文:中国人工智能的崛起
热门文章
- Ubuntu 下Caffe的安装过程 -- 之一
- SEO原创AI:效果优势揭秘!
- PrestaShop网上购物系统
- 基于卷积神经网络的垃圾分类算法及其实现
- Python期末复习题:文件
- 舜和优质TPE、TPR热塑性弹性体供应
- python语言特点多模型_GitHub - zkyzq/py-kenlm-model: python | 高效使用统计语言模型kenlm:新词发现、分词、智能纠错等...
- 论企业文化建设步骤和落地方法
- ubuntu中selenium+chrome截图时中文显示成方框问题的解决方法
- python直播发弹幕_Golang、Python中刷直播视频弹幕的功能。