Booking网站爬虫,获取酒店评论内容(Python)
1、爬虫目标
booking旅游网站香港地区酒店的评论内容
2、爬虫步骤
(1)gethotelurl.py
从https://www.booking.com/reviews/hk/city/hong-kong.zh-cn.html中爬出香港排名前272家酒店的对应的网页评论地址,存储在hotel_revelant_informs.txt中。
(2)booking.py
(注:该代码爬的是英文评论,如若想要中文评论内容,按照注释中的修改90、91行即可)
从hotel_revelant_informs.txt中读取相应内容(英文评论落地页、英文文件名、英文评论数),然后爬取对应的评论内容,储存为以‘数字’+‘英文文件名’命名的txt文档中。
(3)merge.py
将爬出来的200多家酒店的英文评论合并成一个total_en.txt文件。(要将中文评论合并成一个只需将相关的en改成zn即可)
3、注意事项
gethotelurl.py和booking.py中
headers = {‘User-Agent’: ‘换成自己的User—Agent(详见使用说明)’}
User-Agent来源(以Google Chorme浏览器为例):
(1)进入网页,鼠标右键检查
(2)找到User-Agent
注:若第3步没出现,随便点击网站内任意链接即可
4、代码链接
http://download.csdn.net/download/weixin_40638517/10163668
Booking网站爬虫,获取酒店评论内容(Python)相关推荐
- 某投诉网站爬虫-获取对应的投诉信息
某投诉网站爬虫-获取对应的投诉信息 此爬虫原本是一道面试题,说难不难,说简单也不简单:因为站点的反爬机制,我现在也没摸清楚,不过目前看来应该是你在一段时间内访问数据超过对应的数量就会封ip 5-10分 ...
- python爬虫获取服务器信息,通过python自动化获取服务器信息,并写入到excel(示例代码)...
简介这篇文章主要介绍了通过python自动化获取服务器信息,并写入到excel(示例代码)以及相关的经验技巧,文章约943字,浏览量170,点赞数4,值得参考! 博主目前在电信外包工作,比较坑,因为涉 ...
- Python爬虫——aiohttp异步协程爬取同程旅行酒店评论
大家好!我是霖hero Python并发编程有三种方式:多线程(Threading).多进程(Process).协程(Coroutine),使用并发编程会大大提高程序的效率,今天我们将学习如何选择多线 ...
- 送书 | aiohttp异步协程爬取同程旅行酒店评论并作词云图
大家好!我是啃书君! Python并发编程有三种方式:多线程(Threading).多进程(Process).协程(Coroutine),使用并发编程会大大提高程序的效率,今天我们将学习如何选择多线程 ...
- Python3 实现大众点评网酒店信息和酒店评论的网页爬取
**作者:**Mr. Ceong 链接:http://blog.csdn.net/leigaiceong/article/details/53188454 Python3 实现大众点评网酒店信息和酒店 ...
- python携程酒店评论_携程酒店评论爬虫心得
携程酒店评论爬虫心得 发布时间:2018-09-02 15:58, 浏览次数:613 携程酒店评论爬虫心得 这次爬取数据,遇到了不少的困难,也走了很多弯路,特此写下帮助记忆.以下基本是我爬取数据的过程 ...
- 如何科学地蹭热点:用python爬虫获取热门微博评论并进行情感分析
前言:本文主要涉及知识点包括新浪微博爬虫.python对数据库的简单读写.简单的列表数据去重.简单的自然语言处理(snowNLP模块.机器学习).适合有一定编程基础,并对python有所了解的盆友阅读 ...
- python爬虫获取百度贴吧内容
python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容 博主是一个比较懒的人,不会按时更 ...
- Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库
Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...
最新文章
- Fedora 7 播放器totem
- 【Swift】 GETPOST请求 网络缓存的简单处理
- VC++向txt文件中写入字符串
- Activity管理(一):activity运行机制
- opencv编程解决warning C4003: “max”宏的实参不足
- 973分成功通过CCNA。。
- Dapper基础知识三
- gtp文件服务器,GTP中文网吉它谱吉他谱guitar网站
- nginx反向代理模块配置详解_Nginx服务器的反向代理proxy_pass配置方法讲解
- 南开大学20春计算机应用基础,南开大学-2020春学期《计算机应用基础》在线作业.txt.pdf...
- 数据库---连接查询,数据表之间的并交集关系
- Docker-07-docker compose
- 万能的林萧说:我来告诉你,一个草根程序员如何进入BAT。 - 今日头条(www.toutiao.com)...
- 君正T31 ACC解码
- js获取当前url路径
- MES系统架构初版ZXW
- 谷歌浏览器代理服务器出现问题怎么办?(最快的解决办法)
- C#、C++、Java、Python 选择哪个好?
- 你还记得大明湖畔的oop原则吗?
- 硬盘无刷电机驱动,适用于四线的无刷马达。