使用sklearn预测共享单车出行情况

导入数据

import pandas as pd
df = pd.read_csv('data/train.csv')
df.head()

我们看一下季节和假期对出行对影响，用到seaborn库对可视化。

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
grid = sns.FacetGrid(df, row='holiday', col='season')
grid.map(plt.scatter, 'temp', 'casual', alpha=0.4)
grid.add_legend()

从上面可以看出季节对出行影响较少，但是否为节假日对出行影响很大。

数据预处理

把datetime列数据变为pd.datetime类型后，可以使用其特殊对日期数据操作。

我们将日期分为月、日、时三个列。

我们对温度、湿度数据进行标准正态化处理，最后剔除掉datetime列。

df['datetime'] = df['datetime'].apply(pd.to_datetime)
#df['month'] = df['datetime'].dt.month
df['month'] = df['datetime'].apply(lambda x:x.month)
df['day'] = df['datetime'].apply(lambda x:x.day)
df['hour'] = df['datetime'].apply(lambda x:x.hour)
df['temp'] = (df['temp']-df['temp'].mean())/df['temp'].std()
df['atemp'] = (df['atemp']-df['atemp'].mean())/df['atemp'].std()
df['humidity'] = (df['humidity']-df['humidity'].mean())/df['humidity'].std()
df.drop(['datetime'], axis=1, inplace=True)
df.sample(5)

X = df[['season', 'holiday', 'workingday', 'weather', 'temp', 'atemp', 'humidity', 'windspeed', 'month', 'day', 'hour']]
y = df['count']

数据分割

将数据按照三七开，三分测试数据，七分训练数据。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2019)

训练模型

这里因为我们对y是连续型变量，所以我们做的不是分类模型，而是回归模型。这里选了DecisionTreeRegressor、RandomForestRegressor分别测试

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
dtr = DecisionTreeRegressor()
dtr.fit(X_train, y_train)
dtr.score(X_test, y_test)

0.7334594631440063

DecisionTreeRegressor决策树模型准确率达到73%，还不错。再看看RandomForestRegressor表现如何

rfr = RandomForestRegressor(n_estimators=200)
rfr.fit(X_train, y_train)
rfr.score(X_test, y_test)

0.8639249009469554

没怎么清洗数据、调参数炼丹药，RandomForestRegressor模型准确率就能达到86%，棒棒哒～

近期文章

课件获取方式，请在公众号后台回复关键词“单车预测”

使用sklearn预测共享单车出行情况相关推荐

神经网络之预测共享单车使用情况
神经网络之预测共享单车使用情况该项目为优达学城Deep Learning Foundation Nanodegree Program的Neural Network阶段项目原始数据和代码可以在 ht ...
优达学城-神经网络之预测共享单车使用情况代码分析
优达学城-神经网络之预测共享单车使用情况代码分析标签(): 机器学习代码来自于优达学城深度学习纳米学位课程的第一个项目 https://cn.udacity.com/course/deep-le ...
基于keras 搭建LSTM GRU模型预测共享单车使用情况完整代码+数据数据分析计算机毕设
项目运行教程:https://www.bilibili.com/video/BV1nT411k7dT/?spm_id_from=333.999.0.0 附完整代码数据:
python共享单车案例分析_python分析数据分析项目：共享单车租用情况影响因素探索分析...
python分析数据分析项目:共享单车租用情况影响因素探索分析
共享单车出行数据分析及可视化报告
声明:仅供学习交流 1.导入pandas.numpy以及datetime库 2.数据清洗及预处理 2.1读取文件路径以及设置行距和列距 2.2将英文字段名修改成对应的中文 2.3 计算day数据集和 ...
教你用300万共享单车出行数据，预测骑行目的地 !（附源码）
点击有惊喜摩拜单车在北京的单车投放量已经超过40万.用户可以直接在人行道上找到停放的单车,用手机解锁,然后骑到目的地后再把单车停好并锁上.因此,为了更好地调配和管理这40万辆单车,需要准确地预测每个 ...
大数据分析案例-基于随机森林算法预测共享单车租赁数量
智能共享单车出行平台
2020FME博客大赛——基于FME的共享单车租赁站点布局、广告精准投放分析
作者:余林清单位:成都市规划信息技术中心 1分析背景及内容提到共享单车,不难想到它主要是用来接驳地铁与公交站点,然而共享单车对城市规划的影响远不止如此,它还能为城市交通政策.道路规划.公交线网规划 ...

使用sklearn预测共享单车出行情况

近期文章

导入数据

数据预处理

数据分割

训练模型

近期文章

使用sklearn预测共享单车出行情况相关推荐

最新文章

热门文章