近期文章

导入数据

import pandas as pd
df = pd.read_csv('data/train.csv')
df.head()

我们看一下季节和假期对出行对影响,用到seaborn库对可视化。

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
grid = sns.FacetGrid(df, row='holiday', col='season')
grid.map(plt.scatter, 'temp', 'casual', alpha=0.4)
grid.add_legend()

从上面可以看出季节对出行影响较少,但是否为节假日对出行影响很大。

数据预处理

把datetime列数据变为pd.datetime类型后,可以使用其特殊对日期数据操作。

我们将日期分为月、日、时三个列。

我们对温度、湿度数据进行标准正态化处理,最后剔除掉datetime列。

df['datetime'] = df['datetime'].apply(pd.to_datetime)
#df['month'] = df['datetime'].dt.month
df['month'] = df['datetime'].apply(lambda x:x.month)
df['day'] = df['datetime'].apply(lambda x:x.day)
df['hour'] = df['datetime'].apply(lambda x:x.hour)
df['temp'] = (df['temp']-df['temp'].mean())/df['temp'].std()
df['atemp'] = (df['atemp']-df['atemp'].mean())/df['atemp'].std()
df['humidity'] = (df['humidity']-df['humidity'].mean())/df['humidity'].std()
df.drop(['datetime'], axis=1, inplace=True)
df.sample(5)

X = df[['season', 'holiday', 'workingday', 'weather', 'temp', 'atemp', 'humidity', 'windspeed', 'month', 'day', 'hour']]
y = df['count']

数据分割

将数据按照三七开,三分测试数据,七分训练数据。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2019)

训练模型

这里因为我们对y是连续型变量,所以我们做的不是分类模型,而是回归模型。这里选了DecisionTreeRegressor、RandomForestRegressor分别测试

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
dtr = DecisionTreeRegressor()
dtr.fit(X_train, y_train)
dtr.score(X_test, y_test)
0.7334594631440063

DecisionTreeRegressor决策树模型准确率达到73%,还不错。再看看RandomForestRegressor表现如何

rfr = RandomForestRegressor(n_estimators=200)
rfr.fit(X_train, y_train)
rfr.score(X_test, y_test)
0.8639249009469554

没怎么清洗数据、调参数炼丹药,RandomForestRegressor模型准确率就能达到86%,棒棒哒~

近期文章

课件获取方式,请在公众号后台回复关键词“单车预测

使用sklearn预测共享单车出行情况相关推荐

  1. 神经网络之预测共享单车使用情况

    神经网络之预测共享单车使用情况 该项目为优达学城Deep Learning Foundation Nanodegree Program的Neural Network阶段项目 原始数据和代码可以在 ht ...

  2. 优达学城-神经网络之预测共享单车使用情况 代码分析

    优达学城-神经网络之预测共享单车使用情况 代码分析 标签(): 机器学习 代码来自于优达学城深度学习纳米学位课程的第一个项目 https://cn.udacity.com/course/deep-le ...

  3. 基于keras 搭建LSTM GRU模型预测 共享单车使用情况 完整代码+数据 数据分析 计算机毕设

    项目运行教程:https://www.bilibili.com/video/BV1nT411k7dT/?spm_id_from=333.999.0.0 附完整代码数据:

  4. python共享单车案例分析_python分析数据分析项目:共享单车租用情况影响因素探索分析...

    python分析数据分析项目:共享单车租用情况影响因素探索分析

  5. 共享单车出行数据分析及可视化报告

    声明:仅供学习交流 1.导入pandas.numpy以及datetime库 2.数据清洗及预处理 2.1读取文件路径以及设置行距和列距 2.2将英文字段名修改成对应的中文 2.3  计算day数据集和 ...

  6. 教你用300万共享单车出行数据,预测骑行目的地 !(附源码)

    点击有惊喜 摩拜单车在北京的单车投放量已经超过40万.用户可以直接在人行道上找到停放的单车,用手机解锁,然后骑到目的地后再把单车停好并锁上.因此,为了更好地调配和管理这40万辆单车,需要准确地预测每个 ...

  7. 大数据分析案例-基于随机森林算法预测共享单车租赁数量

  8. 智能共享单车出行平台

  9. 2020FME博客大赛——基于FME的共享单车租赁站点布局、广告精准投放分析

    作者:余林清 单位:成都市规划信息技术中心 1分析背景及内容 提到共享单车,不难想到它主要是用来接驳地铁与公交站点,然而共享单车对城市规划的影响远不止如此,它还能为城市交通政策.道路规划.公交线网规划 ...

最新文章

  1. python爬虫日志(9)爬取代理
  2. 值得收藏的45个Python优质资源(附链接)
  3. ORACLE将查询字段指定为某种类型
  4. 设置tableView的分割线从最左端开始
  5. ScanTailor-ScanTailor 强大的多方位的满足处理扫描图片的需求
  6. 运维工程师要失业了?抛开噱头与调侃,闲聊我心中的运维!
  7. 面试题50. 第一个只出现一次的字符
  8. 计算科学导论读书笔记
  9. CDR X7(CorelDRAW)注册下载详细安装教程,序列号功能齐全
  10. stm32 win7 64位虚拟串口驱动安装失败解决办法
  11. linux在gpt分区装系统,linux安装到GPT分区
  12. Cobalt Strike Malleable C2
  13. 主引导记录MBR详解
  14. “融晶保肾调代谢”公益健康大讲堂(第二期)在贵阳强直医院开展
  15. 奥运五环的绘制-进阶
  16. 健康管理系统3.0(微信小程序 + JQuery + html + 爬虫 + MySQL + spring boot 只用于学习,不可商用)
  17. FRED中全息元件的建模
  18. 利用matlab实现DMD动态模态分解(在一维信号或二维流场矢量中的应用)
  19. 免费高效的Speedpdf,一款好用的在线转换神器
  20. 微信企业号开发:微信考勤Cookies的使用

热门文章

  1. Java垃圾回收基本过程
  2. 示例:教你在.NET应用程序中创建OMR工作表扫描仪软件
  3. 不会和女朋友聊天的都过来看看:和女朋友聊什么话题好?
  4. 怎么给idea配置Tomcat
  5. javascript搜索框联想搜索_JavaScript实现搜索联想功能
  6. 【MySQL】Navicat for MySQL创建数据库
  7. 20162303石亚鑫预备作业02
  8. 锤子宣布调整T1手机价格 降价幅度达千元
  9. 英语知识系列:英语单词的可数名词与不可数名词
  10. IEEE 802简介 802.11 802.15