数据分析模板一赛题分析(预测房屋租金)
总结一份属于自己的模板,不管三七二十一,拿来先套用。方便自己学习和记录。
拿到一份赛题数据,我们要赛题分析。就做以下2点。
- 认识数据
- 对比赛数据做EDA
1.认识数据
- 了解比赛的背景
你是做金融数据分析,还是房价预测,还是房屋租金预测,还生物信息方面的预测,它都有背景知识查看。 - 分类问题还是回归问题
- 熟悉比赛的评分函数
2.对比赛数据做EDA
- 数据分析
- 缺失值分析
- 特征值分析
- 是否有单调特征列(单调的特征列很大可能是时间)
- 特征nunique分布
- 出现在测试集中的community,但是在训练集中数量较少
- 统计特征值出现频次大于100的特征
- Label分布
- 不同的特征值的样本label的分布
实际操作:
在实际拿到训练数据时候:
1.明确预测指标,要知道我们的损失函数或者评价函数是什么,需要它最大还是最小。
2.了解数据概况,我们这次用的是预测房屋租金的数据,那就要了解50多个特征,房屋编号,面积,房型等等,看一眼有了解就行。
3.总体情况一览。用DateFrame中的info(),describe(),shape去查看我们的数据类型,大小。
4.前三部就是在认识数据,这一步直接把对比赛数据做EDA内容拿下来,挨着分析,代码走起。
小结: 这就是数据分析第一部分模板(简单是简单,至少有框架,你不能上来乱七八糟无从下手)。就是认识数据和对数据做EDA(EDA可以去kaggle里面看,很多人都在分享)。
代码这两天就附上,还有数据。GitHub上。
数据分析模板一赛题分析(预测房屋租金)相关推荐
- 第一次认真的二手车交易价格预测--赛题分析
二手车交易价格预测--赛题分析 数据比赛步骤 一. 赛题分析 1.1 学习目标 1.2 了解赛题 1.2.1 赛题概况 1.2.2 数据概况 train.csv 1.2.3 预测指标 一般问题评价指标 ...
- 2023年电赛国赛仪器仪表类赛题分析和预测
2023年电赛国赛仪器仪表类赛题分析和预测 前言: 2023年题目应当与往年差异不大,无非是仪器类.电源类.控制类.通信类等几大类.但近几年随着科学技术的发展,电赛也添加了许多的新元素,比如互联网+. ...
- 【数据挖掘】 基于二手车交易价格预测-赛题分析
文章目录 1. 赛题背景 2. 赛题数据 字段表 3. 评测标准 4. 结果提交 5. 赛题分析 想要看更加舒服的排版.更加准时的推送 关注公众号"不太灵光的程序员" 干货推送,微 ...
- 2020“数维杯”国际大学生数学建模竞赛赛题分析
2020"数维杯"国际大学生数学建模竞赛赛题分析 1.ABCD赛题分析 1.1A题翻译:中国螺纹钢需求预测 1.2B题翻译:股票价格的混沌模型 1.3C题翻译:城市道路最佳除雪方案 ...
- Web_Traffic_Part1赛题分析
Web_Traffic_Part1赛题分析 1 简介1.1 赛题细节 1.1.1 赛题背景 1.1.2 比赛规则 1.1.2.1 比赛时间 1.1.2.2 赛制规则 1.2 数据说明 1. ...
- A5.2021年全国数学建模竞赛B题-赛题分析与评阅要点(乙醇偶合制备C4烯烃分析)
A5.2021年全国数学建模竞赛B题-赛题分析与评阅要点(乙醇偶合制备C4烯烃分析),本文转载竞赛赛题.评阅要点,进行赛题解读和分析. 评阅要点为竞赛组委会官方公布,完整体现了解题思路. 本文首发于 ...
- HDU6292 赛题分析【水题】
赛题分析 Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 512000/512000 K (Java/Others) Total Submis ...
- 新闻分类大赛赛题分析
@新闻分类大赛赛题分析 本文对天池新闻文本分类比赛进行赛题分析. 1 数据格式 训练集为csv格式文件,使用pandas读取前十行,结果如图. import pandas as pd train_df ...
- DW学习-二手车预测赛题分析
一.赛题解析 1.赛题概况 以二手车市场为背景,预测二手汽车的交易价格.数据源于交易平台的二手车交易记录,总数据量超过40W,31列变量信息,15列为匿名变量.为保证比赛公平,抽取15万条作为训练集, ...
最新文章
- Linux环境变量加载的研究
- 找出数组中最长的连续数字序列(JavaScript实现)
- 微软软件推送服务器,向 UWP 应用添加推送通知 - Azure Mobile Apps | Microsoft Docs
- Luogu T24242 购物券Ⅰ(数据已加强)
- Java 并发框架全览,这个牛逼!
- 19道Python练习题
- 方案接口服务器问题记录
- 给页面中的所有链接新窗口中打开
- 两组回归系数差异检验_调节效应检验中的回归系数差异检验
- Android从assets和res中读取文件
- 拓端tecdat|R语言极值理论:希尔HILL统计量尾部指数参数估计可视化
- JavaScript函数重载(js函数重载)
- Ubuntu20.04显卡驱动安装
- [转]Windows10 中文版 英文语言包安装失败解决
- wps序号打乱重新排序_WPS中Excel怎么自动排序
- 如何使用计算机网络打印机,电脑怎么连接网络打印机 网络打印机连接方法
- ios开发App的图标背景色不能是透明
- 有关振动试验夹具的问题
- 小米4s刷 android7,小米 MI 4S(小米4S 全网通 安卓7.0)获取Root权限服务含精简系统方案...
- 书生云签10亿元、EB级订单,中国超融合迎来春天