主要借鉴了Kaggle基础问题——房价预测的两篇教程Comprehensive data exploration with Python和House Prices EDA并进行总结。

本篇,主要进行数据探索,对数据的基本特征有一个全局的大致了解。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split
import seaborn as sns
from scipy.stats import norm
from scipy import stats
%matplotlib inline

首先,我们拿到了数据集的csv文件,可以直接利用pandas导入得到DataFrame数据:

df_train = pd.read_csv(r'E:\kaggle\house_price_regression\train.csv')

numpy 的ndarray数据相比,DataFrame数据自带有行列信息,且有很多便捷的方法可以直接进行快速分析。

例如,可以查看数据的基本布局信息。

df_train.head()  # 可以查看(默认)前5行数据信息
# df_train.tail()  # 可以查看后10行数据信息
Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour Utilities PoolArea PoolQC Fence MiscFeature MiscVal MoSold YrSold SaleType SaleCondition SalePrice
0 1 60 RL 65.0 8450 Pave NaN Reg Lvl AllPub 0 NaN NaN NaN 0 2 2008 WD Normal 208500
1 2 20 RL 80.0 9600 Pave NaN Reg Lvl AllPub 0 NaN NaN NaN 0 5 2007 WD Normal 181500
2 3 60 RL 68.0 11250 Pave NaN IR1 Lvl AllPub 0 NaN NaN NaN 0 9 2008 WD Normal 223500
3 4 70 RL 60.0 9550 Pave NaN IR1 Lvl AllPub 0 NaN NaN NaN 0 2 2006 WD Abnorml 140000
4 5 60 RL 84.0 14260 Pave NaN IR1 Lvl AllPub 0 NaN NaN NaN 0 12 2008 WD Normal 250000

5 rows × 81 columns

由上表可见,数据共有81列,我们可以查看这些特征的具体名称:

df_train.column  # 查看各个特征的具体名称

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
'Alley', 'LotShape', 'LandContour',

Kaggle房价预测:数据探索——练习相关推荐

  1. 0907实战KAGGLE房价预测数据

    数据集: 本文主要对KAGGLE房价预测数据进行预测,并提供模型的设计以及超参数的选择. 该数据集共有1460个数据样本,80个样本特征   数据集介绍可参照:  House Prices - Adv ...

  2. kaggle房价预测-回归模型

    目录 1 项目背景 2 初始数据分析 目标值分析 特征与目标值相关性 变量特征相关性 3 数据预处理 目标变量正态分布化 异常值处理 缺失值处理 转换特征 保存训练集和测试集 4 模型预测 岭回归 l ...

  3. kaggle房价预测问题

    参考:https://blog.csdn.net/m0_37870649/article/details/80979783 sklean的线性模型完成kaggle房价预测问题 https://www. ...

  4. 梯度消失和梯度爆炸_知识干货-动手学深度学习-05 梯度消失和梯度爆炸以及Kaggle房价预测...

    梯度消失和梯度爆炸 考虑到环境因素的其他问题 Kaggle房价预测 梯度消失和梯度爆炸 深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion). 当神经网络的层数较多 ...

  5. (pytorch-深度学习系列)简单实现kaggle房价预测-学习笔记

    实现kaggle房价预测 导入所需模块: %matplotlib inline import torch import torch.nn as nn import numpy as np import ...

  6. Pytorch kaggle 房价预测实战

    Pytorch kaggle 房价预测实战 0. 环境介绍 环境使用 Kaggle 里免费建立的 Notebook 教程使用李沐老师的 动手学深度学习 网站和 视频讲解 小技巧:当遇到函数看不懂的时候 ...

  7. Transformer 实现 Kaggle 房价预测竞赛

    Kaggle 房价预测竞赛是典型的机器学习中的回归问题,需要在训练集上对于房间的 N 个特征和房价之间的关系进行拟合,在测试集上,模型即可根据房间特征对房价作出预测.考虑到需要拟合多种特征之间的关系, ...

  8. 二手车价格预测数据探索

    二手车价格预测数据探索 1.赛题理解 [类型]属于回归问题. [数据字段] 训练数据字段: 字段名字 含义 类型 name 汽车编码 int regDate 汽车注册时间 int model 车型编码 ...

  9. 天猫用户重复购买预测——数据探索

    天猫用户重复购买预测--数据探索 1. 理论 1.1 缺失数据处理 1.2 不均衡样本 1.2.1 随机欠采样 1.2.2 随机过采样 1.2.3 基于聚类的过采样方法 1.2.4 SMOTE算法 1 ...

  10. Kaggle 房价预测竞赛优胜方案:用 Python 进行全面数据探索

    [导读]Kaggle 的房价预测竞赛从 2016 年 8 月开始,到 2017 年 2 月结束.这段时间内,超过 2000 多人参与比赛,选手采用高级回归技术,基于我们给出的 79 个特征,对房屋的售 ...

最新文章

  1. 241. Different Ways to Add Parentheses
  2. java8 streams_Java SE 8新功能介绍:使用Streams API处理集合
  3. 一文读懂 | 进程并发与同步
  4. vue项目接口地址暴露_vue组件暴露和.js文件暴露接口操作
  5. 在SQL SERVER里面用命令查包含某字段的表
  6. 广东学考计算机专业要多少排位,太难了!2021年学考录取分数大暴涨!深职、广轻需要300分以上?...
  7. 支持向量机原理(三)线性不可分支持向量机与核函数
  8. python如何输入n个数字_python如何一次性输入多个数
  9. php正则表达式修饰符详解
  10. 【文末福利】500行代码,教你用python写个微信飞机大战
  11. Oracle客户端安装简易教程
  12. Android中热更新实现--Sophix方案
  13. 【刷题】LOJ 6008 「网络流 24 题」餐巾计划
  14. 启动错误Passenger::SecurityException “Line too long”
  15. ubuntu中ping停不下来的解决
  16. Windows10压缩卷时可压缩空间远小于实际剩余空间的解决方案
  17. Comodo的多域名通配符https证书
  18. Android Animator(Android动画)
  19. java闭锁_【Java并发编程三】闭锁
  20. 吴恩达推荐好文:中国人工智能的崛起

热门文章

  1. Ubuntu 下Caffe的安装过程 -- 之一
  2. SEO原创AI:效果优势揭秘!
  3. PrestaShop网上购物系统
  4. 基于卷积神经网络的垃圾分类算法及其实现
  5. Python期末复习题:文件
  6. 舜和优质TPE、TPR热塑性弹性体供应
  7. python语言特点多模型_GitHub - zkyzq/py-kenlm-model: python | 高效使用统计语言模型kenlm:新词发现、分词、智能纠错等...
  8. 论企业文化建设步骤和落地方法
  9. ubuntu中selenium+chrome截图时中文显示成方框问题的解决方法
  10. python直播发弹幕_Golang、Python中刷直播视频弹幕的功能。