入坑作。发现坑真的很多。
因为我小白一个,所以基本上是跟着第二次学习内容的代码来的,本以为这样会简单一点,没想到就算这样也会经常出错,要自己一条一条看哪里出错了,要怎么弄之类的。
更多学习移步datawhale零基础入门数据挖掘
首先,先载入数据。
我是用jupyter写的,jupyter因为默认打开路径直接改到了一个我专门用来放各种需要写的东西之类,所以一打开就找到了。
因为是新手小白,我刚开始想

import missingno as msno

时候发现自己并没有


pip install missingno

所以只好先用anacondaprompt,在终端里安装好了missingno,再继续用jupyter打开。

然后立刻出了第二个问题。

path = './datalab/231784/'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', sep=' ')

改了地址之后,发现并不能用。原因是
engine常常默认是C,得改成python才可以。
所以,改了代码变成

path = 'E:\\数据挖掘\\file\\'
Train_data = pd.read_csv(path+'used_car_train_20200313.csv',engine='python', sep=' ')
Test_data = pd.read_csv(path+'used_car_testA_20200313.csv', engine='python',sep=' ')

这样就不会显示出错啦。

其次,我们看一看数据大概是什么样子的。
可以用以下三个代码试一试。

Train_data.head().append(Train_data.tail())
Train_data.shape
Test_data.head().append(Test_data.tail())

就可以看到啦。如下图


然后我们可以通过

.describe()

describe函数来对数据的一些信息,比如方差、最大值、最小值等有一些判断。
还可以通过

.info()

来了解每列type中是否存在异常值的情况。

随后,我们需要判断数据缺失值和数据异常值,并对这些值进行相应处理,以更好地进行数据分析。
这时候,就要提到之前费尽心思下得missingno了,这是一个能够比较好的缺失值可视化包。

msno.matrix(Train_data.sample(250))


我们注意到也有许多空缺值,但我们就直接替换成nan。
后面我还根据自己需要删除了一些不必要的数据,这里就不详细赘述了。
在初步了解了price的大致分布后,我们就可以用matplotlib进行绘图啦。
先尝试一下无界约翰逊分布。

import scipy.stats as st
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)

就可以得到啦。

也可以进行对数转换后再处理数据。
之后我们还可以针对各个数据做独特的分析和相关性分析。
今天就写到这里啦。

二手车交易价格预测1相关推荐

  1. 【直播】王茂霖:二手车交易价格预测-千变万化特征工程(河北高校数据挖掘邀请赛)

    二手车交易价格预测-千变万化特征工程 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析.特征工 ...

  2. 【直播】王茂霖:二手车交易价格预测 Baseline 提高(河北高校数据挖掘邀请赛)

    二手车交易价格预测 Baseline 提高 目前 河北高校数据挖掘邀请赛 正在如火如荼的进行中.为了大家更好的参赛,王茂霖分享了 从0梳理1场数据挖掘赛事!,完整梳理了从环境准备.数据读取.数据分析. ...

  3. 【算法竞赛学习】二手车交易价格预测-Baseline

    二手车交易价格预测-Baseline Baseline-v1.0 版 Tip:这是一个最初始baseline版本,抛砖引玉,为大家提供一个基本Baseline和一个竞赛流程的基本介绍,欢迎大家多多交流 ...

  4. 【算法竞赛学习】二手车交易价格预测-Task5模型融合

    二手车交易价格预测-Task5 模型融合 五.模型融合 Tip:此部分为零基础入门数据挖掘的 Task5 模型融合 部分,带你来了解各种模型结果的融合方式,在比赛的攻坚时刻冲刺Top,欢迎大家后续多多 ...

  5. 【算法竞赛学习】二手车交易价格预测-Task4建模调参

    二手车交易价格预测-Task4 建模调参 四.建模与调参 Tip:此部分为零基础入门数据挖掘的 Task4 建模调参 部分,带你来了解各种模型以及模型的评价和调参策略,欢迎大家后续多多交流. 赛题:零 ...

  6. 【算法竞赛学习】二手车交易价格预测-Task3特征工程

    二手车交易价格预测-Task3 特征工程 三. 特征工程目标 Tip:此部分为零基础入门数据挖掘的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,欢迎大家后续多多交流. 赛题:零基础入 ...

  7. 【算法竞赛学习】二手车交易价格预测-Task2数据分析

    二手车交易价格预测-Task2 数据分析 二. EDA-数据探索性分析 Tip:此部分为零基础入门数据挖掘的 Task2 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友,欢迎大家 ...

  8. 【算法竞赛学习】二手车交易价格预测-Task1赛题理解

    二手车交易价格预测-Task1 赛题理解 一. 赛题理解 Tip:此部分为零基础入门数据挖掘的 Task1 赛题理解 部分,为大家入门数据挖掘比赛提供一个基本的赛题入门讲解,欢迎后续大家多多交流. 赛 ...

  9. 阿里天池二手车交易价格预测(一)——EDA

    阿里天池二手车交易价格预测(一)--EDA Exploratory Data Analysis是数据科学领取理解和分析数据的方法,通过不断的收集.分析和假设验证,以取得对数据的深入理解. EDA的价值 ...

  10. 【二手车交易价格预测】赛题理解

    一.赛题背景 本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第一场 -- 零基础入门数据挖掘之二手车交易价格预测大赛. 赛题以二手车市场为背景,要求选手预测二手汽车的交易价格,这是一 ...

最新文章

  1. 在vs里不重启模拟器进行Symbian调试
  2. 子域名绑定html,DEDE二级域名(多站点)绑定详解
  3. getprivateprofilestring读不到数据_Tomcat NIO(11)请求数据读取
  4. 【转载】android客服端+eps8266+单片机+路由器之远程控制系统
  5. 【Matplotlib】【Python】如何使用matplotlib颜色映射
  6. band math函数_波段运算(bandmath)工具中常用的函数
  7. java计算机毕业设计-智慧农业水果销售系统源码+mysql数据库+系统+lw文档+部署
  8. 刘帅嵌入式系统-ORR逻辑或操作指令
  9. ABAP——smartform添加图片
  10. ssh免密码登录3种解决方法
  11. 计算机网络波动大,网络不稳定怎么办,小编教你电脑网络不稳定怎么办
  12. 深信服 TCL 21届秋招内推
  13. “早知道这些我的公司就不会死”系列(二):Cohort Analysis
  14. 独立电子商务网站运营成本
  15. 威联通建php邮件服务器_威联通TS-563虚拟机安装LEDE+单网口NUC+VLAN配置(网件GS105V2)...
  16. SpringCloud Gateway架构流程 和 内置的路由断言介绍
  17. 京东首曝无人仓 四款机器人引爆智慧物流黑科技
  18. 网页上的视频怎么下载
  19. 电脑qq浏览器怎么滚动截长图_Mac系统如何轻松实现网页长截图功能
  20. 百度与浙江广电战略签约,共同打造“未来传播力”

热门文章

  1. Android10源码编译报错ninja: build stopped: subcommand failed处理
  2. 百度前端技术学院:第二十八天到第三十天 给爱的人发个邮件吧
  3. eclipse修改配置
  4. PACT: PARAMETERIZED CLIPPING ACTIVATION FOR QUANTIZED NEURAL NETWORKS
  5. 计算机专业找工作学什么好,学电脑学什么专业好找工作
  6. AI记单词,人工智能记单词。
  7. BatchNormalization
  8. 世界杯与国产开源(一)
  9. 贝叶斯(上)—下雨天吃什么?
  10. C++判断一个链表是否为回文结构