作者|TIMOTHY102 编译|VK 来源|Analytics Vidhya

介绍

Airbnb是一个在线市场,允许人们将自己的房产或空余房间出租给客人。每预订3位客人,收取12%和6%的佣金。

该公司自2009年成立以来,已从每年帮助2.1万名客人找到住处,发展到每年帮助600万人度假,目前在90个不同国家的34000个城市列出了惊人的80万套房产。

在本文中,我将使用Kaggle-newyorkcityairbnb开放数据集,尝试用TensorFlow建立一个神经网络模型来进行预测。

目标是建立一个合适的机器学习模型,能够预测未来住宿数据的价格。

在本文中,我将展示我创建的Jupyter Notebook。你可以在GitHub上找到它:https://github.com/Timothy102/Tensorflow-for-Airbnb-Prices

加载数据

首先,让我们看看如何加载数据。我们用wget直接从Kaggle网站上获取数据。注意-o标志表示文件名。

数据集应该如下所示。共有48895行16列。

数据分析与预处理

Seaborn有一个非常简洁的API,可以为各种数据绘制各种图形。如果你对语法不太熟悉,可以查看本文:https://www.analyticsvidhya.com/blog/2019/09/comprehensive-data-visualization-guide-seaborn-python/

在pandas数据帧上使用corr之后,我们将其传递给一个heatmap函数。结果如下:

既然我们有经度和经度以及邻里数据,让我们创建一个散点图:

此外,我删除了重复项和一些不必要的列,并填写了“reviews_per_month”,因为它有太多的缺失值。数据看起来像这样。它有10列,没有零值:

很好,对吧?

首先,电脑是做数字的。这就是为什么我们要把分类列转换成一个one-hot编码的向量。这是使用pandas的factorize方法完成的。你可以使用很多其他工具:

为了使损失函数保持在稳定的范围内,让我们对一些数据进行规范化,使平均值为0,标准差为1。

特征交叉

我们必须做出一个改变,这是一个必不可少的改变。为了使经度和纬度与模型输出相关联,我们必须创建一个特征交叉。下面的链接应该为你提供足够的背景知识,使你能够正确地感受到特征交叉:

  • https://developers.google.com/machine-learning/crash-course/feature-crosses/video-lecture
  • https://www.kaggle.com/vikramtiwari/feature-crosses-tensorflow-mlcc

我们的目标是介绍经纬度交叉,这是本书中最古老的技巧之一。如果我们只将这两列作为值放入模型,它将假定这些值与输出逐步相关。

相反,我们将使用特征交叉,这意味着我们将把经度*经度地图分割成一个网格。幸运的是,TensorFlow使它变得容易。

我通过迭代(max-min)/100,从而生成一个分布均匀的帧网格。

我用的是100×100网格:

本质上,我们在这里所做的,是定义一个bucked列和前面定义的边界,并创建一个DenseFeatures层,然后将传递给Sequential API。

如果你不熟悉Tensorflow语法,请检查文档:https://www.tensorflow.org/api_docs/python/tf/feature_column/

现在,终于,我们为模型训练做好了准备。除了拆分数据部分,也就是说。

显然,我们必须创建两个数据集,一个包含所有数据,另一个包含预测得分。由于数据大小不匹配,这可能会给我们的模型带来问题,所以我决定截断太长的数据。

创建模型

最后,建立了Keras序列模型。

我们使用Adam优化器、均方误差损失和两个指标来编译模型。

此外,我们使用两个回调:

  • 早停,这是不言而喻的

  • 降低高原学习率。

经过50个epoch的训练,batch大小为64,我们的模型是相当成功的。

结尾

我们使用纽约市的AirBnB数据建立了一个全连接的神经网络来预测未来的价格。Pandas和seaborn使得可视化和检查数据变得非常容易。我们在模型中引入了经纬度交叉作为特征的思想。并且多亏了Kaggle的开放数据集,我们得到了一个完全可操作的机器学习模型。

原文链接:https://www.analyticsvidhya.com/blog/2020/10/predicting-nyc-airbnb-rental-prices-tensorflow/

欢迎关注磐创AI博客站: http://panchuang.net/

sklearn机器学习中文官方文档: http://sklearn123.com/

欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/

用TensorFlow预测纽约市AirBnB租赁价格相关推荐

  1. New York City Airbnb Open Data(纽约市Airbnb开放数据集)

    原文: New York City Airbnb Open Data Airbnb listings and metrics in NYC, NY, USA (2019) Since 2008, gu ...

  2. 自创数据集,使用TensorFlow预测股票入门(转)

    自创数据集,使用TensorFlow预测股票入门(转) 来源:机器之心 STATWORX 团队近日从 Google Finance API 中精选出了 S&P 500 数据,该数据集包含 S& ...

  3. 如何优雅地用TensorFlow预测时间序列:TFTS库详细教程

    向AI转型的程序员都关注了这个号☝☝☝ 作者 | 何之源 前言 如何用TensorFlow结合LSTM来做时间序列预测其实是一个很老的话题,然而却一直没有得到比较好的解决.如果在Github上搜索&q ...

  4. 自创数据集,用TensorFlow预测股票教程 !(附代码)

    来源:机器之心 本文长度为4498字,建议阅读8分钟 本文非常适合初学者了解如何使用TensorFlow构建基本的神经网络. STATWORX 团队近日从 Google Finance API 中精选 ...

  5. 使用tensorflow预测函数的参数值(a simple task)

    已知x1,x2,x3,y 根据y = aax1 + bbx2 + abx3 预测参数a和b import tensorflow as tf import numpy as npx1_data = np ...

  6. Python Tensorflow神经网络实现股票预测

    神经网络(NN)它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型.这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的.在提供数据量足够大情 ...

  7. Tensorflow神经网络预测股票均价

    一.简介 1.目标: 已知股票的「开盘价」和「收盘价」,利用神经网络来预测「收盘均价」 2.数据源: 日期(data):[ 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. ...

  8. 如何将TensorFlow Serving的性能提高超过70%?

    点击上方↑↑↑蓝字关注我们~ 「2019 Python开发者日」7折优惠最后2天,请扫码咨询 ↑↑↑ 译者 | Major 出品 | AI科技大本营(ID:rgznai100) TensorFlow已 ...

  9. 如何像用MNIST一样来用ImageNet?这里有一份加速TensorFlow分布式训练的梯度压缩指南

    作者 | 王佐 今年的 NIPS 出现 "Imagenet is the new MNIST" 口号,宣告使用 MNIST 数据集检验网络模型性能已经成为过去式.算法工程师们早就意 ...

最新文章

  1. R语言笔记2:读写数据所需的主要函数、与外部环境交互
  2. 数学_方向导数和梯度
  3. 全景照片不怕歪!Facebook 用神经网络矫正扭曲的地平线
  4. 靠Python数据分析已赚10w的本科生
  5. VMProtect 与 ASProtect 在VC中的SDK编程
  6. iOS - 切换图片/clip subview/iCarousel
  7. 怎么转换html文件为mp3,如何把音频转换成mp3_音频文件怎么转mp3格式-系统城
  8. hashmap赋值给另一个hashmap_图解设计一个 HashMap
  9. dojo Quick Start/dojo入门手册--开始使用dojo.js
  10. Lua 和 C 交互中虚拟栈的操作和遍历
  11. 深度学习目标检测之 YOLO v1
  12. js中innerHTML和innerText jQuery中html()和text()的区别
  13. myeclipse 怎么安装与激活
  14. java半解释半编译_编译型语言、解释型语言、半编译半解释型语言
  15. [LUOGU] P1111 修复公路
  16. phpcms开启在线编辑模版 方法
  17. 物联网卡使用过程中的注意事项
  18. img引用网络图片资源无法加载问题解决
  19. python图像量化及采样处理
  20. 著名的php项目,PHP著名开源项目汇总

热门文章

  1. 基于asp.net007个人网站博客系统
  2. 局域网文件共享故障解决高招(组图)
  3. 大数据技术与应用实验报告5
  4. 赛迪研究院发布《2019中国大数据产业发展白皮书》
  5. JAVA毕设项目幼儿早教系统软件设计与实现(Vue+Mybatis+Maven+Mysql+sprnig+SpringMVC)
  6. 英特尔亮剑10nm FPGA:引爆智慧互联新世界
  7. TBSS和dpabifiber
  8. linux——linux基础习题
  9. 电子工程师的发展方向
  10. 分组求和,将一列的数据求和