使用sklearn预测共享单车出行情况
近期文章
导入数据
import pandas as pd
df = pd.read_csv('data/train.csv')
df.head()
我们看一下季节和假期对出行对影响,用到seaborn库对可视化。
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
grid = sns.FacetGrid(df, row='holiday', col='season')
grid.map(plt.scatter, 'temp', 'casual', alpha=0.4)
grid.add_legend()
从上面可以看出季节对出行影响较少,但是否为节假日对出行影响很大。
数据预处理
把datetime列数据变为pd.datetime类型后,可以使用其特殊对日期数据操作。
我们将日期分为月、日、时三个列。
我们对温度、湿度数据进行标准正态化处理,最后剔除掉datetime列。
df['datetime'] = df['datetime'].apply(pd.to_datetime)
#df['month'] = df['datetime'].dt.month
df['month'] = df['datetime'].apply(lambda x:x.month)
df['day'] = df['datetime'].apply(lambda x:x.day)
df['hour'] = df['datetime'].apply(lambda x:x.hour)
df['temp'] = (df['temp']-df['temp'].mean())/df['temp'].std()
df['atemp'] = (df['atemp']-df['atemp'].mean())/df['atemp'].std()
df['humidity'] = (df['humidity']-df['humidity'].mean())/df['humidity'].std()
df.drop(['datetime'], axis=1, inplace=True)
df.sample(5)
X = df[['season', 'holiday', 'workingday', 'weather', 'temp', 'atemp', 'humidity', 'windspeed', 'month', 'day', 'hour']]
y = df['count']
数据分割
将数据按照三七开,三分测试数据,七分训练数据。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2019)
训练模型
这里因为我们对y是连续型变量,所以我们做的不是分类模型,而是回归模型。这里选了DecisionTreeRegressor、RandomForestRegressor分别测试
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
dtr = DecisionTreeRegressor()
dtr.fit(X_train, y_train)
dtr.score(X_test, y_test)
0.7334594631440063
DecisionTreeRegressor决策树模型准确率达到73%,还不错。再看看RandomForestRegressor表现如何
rfr = RandomForestRegressor(n_estimators=200)
rfr.fit(X_train, y_train)
rfr.score(X_test, y_test)
0.8639249009469554
没怎么清洗数据、调参数炼丹药,RandomForestRegressor模型准确率就能达到86%,棒棒哒~
近期文章
课件获取方式,请在公众号后台回复关键词“单车预测”
使用sklearn预测共享单车出行情况相关推荐
- 神经网络之预测共享单车使用情况
神经网络之预测共享单车使用情况 该项目为优达学城Deep Learning Foundation Nanodegree Program的Neural Network阶段项目 原始数据和代码可以在 ht ...
- 优达学城-神经网络之预测共享单车使用情况 代码分析
优达学城-神经网络之预测共享单车使用情况 代码分析 标签(): 机器学习 代码来自于优达学城深度学习纳米学位课程的第一个项目 https://cn.udacity.com/course/deep-le ...
- 基于keras 搭建LSTM GRU模型预测 共享单车使用情况 完整代码+数据 数据分析 计算机毕设
项目运行教程:https://www.bilibili.com/video/BV1nT411k7dT/?spm_id_from=333.999.0.0 附完整代码数据:
- python共享单车案例分析_python分析数据分析项目:共享单车租用情况影响因素探索分析...
python分析数据分析项目:共享单车租用情况影响因素探索分析
- 共享单车出行数据分析及可视化报告
声明:仅供学习交流 1.导入pandas.numpy以及datetime库 2.数据清洗及预处理 2.1读取文件路径以及设置行距和列距 2.2将英文字段名修改成对应的中文 2.3 计算day数据集和 ...
- 教你用300万共享单车出行数据,预测骑行目的地 !(附源码)
点击有惊喜 摩拜单车在北京的单车投放量已经超过40万.用户可以直接在人行道上找到停放的单车,用手机解锁,然后骑到目的地后再把单车停好并锁上.因此,为了更好地调配和管理这40万辆单车,需要准确地预测每个 ...
- 大数据分析案例-基于随机森林算法预测共享单车租赁数量
- 智能共享单车出行平台
- 2020FME博客大赛——基于FME的共享单车租赁站点布局、广告精准投放分析
作者:余林清 单位:成都市规划信息技术中心 1分析背景及内容 提到共享单车,不难想到它主要是用来接驳地铁与公交站点,然而共享单车对城市规划的影响远不止如此,它还能为城市交通政策.道路规划.公交线网规划 ...
最新文章
- python爬虫日志(9)爬取代理
- 值得收藏的45个Python优质资源(附链接)
- ORACLE将查询字段指定为某种类型
- 设置tableView的分割线从最左端开始
- ScanTailor-ScanTailor 强大的多方位的满足处理扫描图片的需求
- 运维工程师要失业了?抛开噱头与调侃,闲聊我心中的运维!
- 面试题50. 第一个只出现一次的字符
- 计算科学导论读书笔记
- CDR X7(CorelDRAW)注册下载详细安装教程,序列号功能齐全
- stm32 win7 64位虚拟串口驱动安装失败解决办法
- linux在gpt分区装系统,linux安装到GPT分区
- Cobalt Strike Malleable C2
- 主引导记录MBR详解
- “融晶保肾调代谢”公益健康大讲堂(第二期)在贵阳强直医院开展
- 奥运五环的绘制-进阶
- 健康管理系统3.0(微信小程序 + JQuery + html + 爬虫 + MySQL + spring boot 只用于学习,不可商用)
- FRED中全息元件的建模
- 利用matlab实现DMD动态模态分解(在一维信号或二维流场矢量中的应用)
- 免费高效的Speedpdf,一款好用的在线转换神器
- 微信企业号开发:微信考勤Cookies的使用