爬取上海好玩的地方排名(去哪儿网)
import requests
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup
def get_urls(n):return ['https://travel.qunar.com/p-cs299878-shanghai-jingdian-1-' + str(i+1) for i in range(n)]# 创建函数,获取分页网址
def get_informations(u):ri = requests.get(u)# requests访问网站soupi = BeautifulSoup(ri.text,'lxml')# bs解析页面infori = soupi.find('ul',class_="list_item clrfix").find_all('li')# 获取列表内容datai = []for i in infori:#print(i.text)dic = {}dic['lat'] = i['data-lat']dic['lng'] = i['data-lng']dic['景点名称'] = i.find('span',class_="cn_tit").textdic['攻略提到数量'] = i.find('div',class_="strategy_sum").textdic['点评数量'] = i.find('div',class_="comment_sum").textdic['景点排名'] = i.find('span',class_="ranking_sum").textdic['星级'] = i.find('span',class_="total_star").find('span')['style'].split(':')[1]datai.append(dic)return datai
# url = get_urls(4)
# data = get_informations(url[0])
# print(data)
# df = pd.DataFrame(data)
# df.to_csv('d:/wsqpy/learn/shanghai.csv',sep=';',encoding='gbk')counts = np.arange(3)#数字代表页数
url = get_urls(3)
dati = []
for i in counts:data = get_informations(url[i])dati.extend(data)#detai += data
print(dati)
df = pd.DataFrame(dati)
df.to_csv('d:/wsqpy/learn/shanghai1.csv', sep=';', encoding='gbk')
爬取上海好玩的地方排名(去哪儿网)相关推荐
- 使用python爬取全国所有热门景点数据---去哪儿网
要爬取去哪儿上面的所有的热门景点的数据 可以先再 搜索出 搜索 热门景点 http://piao.qunar.com/ticket/list.htm?keyword=%E7%83%AD%E9%97%A ...
- python 爬取上海体育彩票文章标题、时间、内容
python期末大作业 爬取上海体育彩票文章标题.时间.内容 并计算词频.生成特殊形状的词云图 利用selenium爬取内容代码: # https://www.shsportslottery.com/ ...
- 中国大学排名python爬虫_Python爬虫入门实例三之爬取软科中国大学排名
写在前面 这个例子是笔者今天在中国大学MOOC(嵩天 北京理工大学)上学习的时候写下来的.但是很快写完之后我就发现不对劲,首先课程给的例子是中国好大学网站的排名,但是现在这个网站已经重构了,原来的链接 ...
- python外环是什么意思_爬取上海地铁站并且规划出行路线
源码源码:源码链接 需求和目标 爬取网站:上海地铁的百科词条 获取的爬虫数据结果保存样式如下 { '莘庄站': {'subway': ['上海地铁1号线', '上海地铁5号线'], 'neibour' ...
- Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘
更多详情请查看Honker Python | 使用Python爬取Wallhaven网站壁纸并上传百度网盘 给大家推荐一款超好用的壁纸下载网站-- wallhaven 第一次知道这个网站的时候,惊为天 ...
- python中国大学排名爬虫写明详细步骤-python爬虫爬取2020年中国大学排名
from bs4 import BeautifulSoup # 网页解析 获取数据 import re # 正则表达式 进行文字匹配 import urllib.request, urllib.err ...
- 爬取最好大学网站大学排名
上半年在学bs4时的一个爬虫,主要是针对table标签的,可用于爬取其他类似网站,代码比较好更改 # -*- coding: utf-8 -*- import requests from bs4 im ...
- Python网络爬虫——爬取和分析NBA球员排名及各项数据
一.选题的背景介绍(15分) NBA受到世界各地极大多数人的喜爱,不分年龄,学生.员工.劳动工人等社会各界都有热爱篮球的人,也有各自喜欢信仰的球星,在NBA中国官方网站里他们更好的了解和清楚自己喜爱的 ...
- python多进程爬取上海房价并画出热力图分析
一.分析目的 1.探索上海市的房价区域分布 2.看看购房者都喜欢购买哪里的房子 二.数据采集 采集我爱我家上海区域的一万两千个小区的数据,采集的字段有小区.位置.最近30条成交套数.在售.在租.成交均 ...
最新文章
- 逆生长!小鼠「逆龄疗法」登Nature子刊,有望用于人类
- Challenges(分组、聚合、连接)
- WHUST 2015 Summer Contest #11
- eye care staff
- java 默认参数 实例化_如何使用Kotlin中的默认构造函数参数值实例化对象?
- 微信支付H5支付开发文档
- unity 彩带粒子_iOS动画开发----粒子系统---彩带效果
- ubuntu系统设置开机自启动
- Undertow 实现反向代理
- Python视频制作 MoviePy框架的基础使用
- 正则表达式限制只能输入中文英文数字
- 我的世界php motd,MiniMOTD - 服务器列表带有RGB渐变的MOTD插件[1.12.x-1.16.x]【Bukkit】...
- 在vue里面使用eval()函数
- 用 PHP 来刷leetCode 之 三数之和
- Update From 用法
- 图书馆管理系统代码html语言,html图书管理系统
- 在vue项目中使用gsap,实现极佳的2d动画效果
- 车机如何安装鸿蒙os,鸿蒙小车安装详细教程
- Abode Audition 的使用
- VisionPro 9.X 各版本下载地址