selenium等动态爬取北京市公共自行车网站

获取北京市公共自行车网点经纬度等数据

#coding=utf-8from selenium import webdriver
from time import sleep
import re
import pandas as pd# 2.构造网址
url = r'http://bjggzxc.jtw.beijing.gov.cn/bdmap.html'# 3.打开浏览器
browser = webdriver.Chrome(r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')
browser.get(url)
sleep(10)       #视网速而定
html = str(browser.page_source.encode('utf8'))
# print(html)# 4.寻找按钮多节点
# 末页数字
page_final = browser.find_elements_by_xpath('''//span[@style]''')
final_num = int(page_final[1].text[1:-1])station_all = []
for j in range(final_num):buttons_st = browser.find_elements_by_xpath('''//tr[@id]''')st_many = len(buttons_st)for i in range(st_many):station_num_1 = buttons_st[i].text.split('\n')  #第一个站点station_lon = re.findall('class="datagrid-cell datagrid-cell-c1-lon">(.*?)</div></td>',html)browser.implicitly_wait(30)# print(station_lon)station_lon_1 = station_lon[i]      #第一个站经度station_lat = re.findall('class="datagrid-cell datagrid-cell-c1-lat">(.*?)</div></td>',html)station_lat_1 = station_lat[i]      #第一个站纬度station_1 = [station_num_1[0],station_num_1[1],station_lon_1,station_lat_1]station_all.append(station_1)#下一页节点buttons_page = browser.find_elements_by_xpath('''//div[@class='datagrid-pager pagination']//span[@class="l-btn-text"]''')next_page_bt = buttons_page[2]  #下一页browser.execute_script('arguments[0].click();',next_page_bt)      #点击按钮html = str(browser.page_source.encode('utf8'))browser.implicitly_wait(30)print(station_all)
print(len(station_all),len(station_all[-1]))path=r'.\beijing_public_bike2.csv'
table=pd.DataFrame(station_all)
table.to_csv(path, encoding='gbk')# browser.close()

selenium等动态爬取北京市公共自行车网站相关推荐

python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
多彩投网站动态爬取[python+selenium]
目标网站遇到的坑这个网站为了反爬虫,使用了很多策略,而这些策略都会是爬虫中可能遇到的坑. 目的: 目的是爬取这个网页中的这个状态的项目(projectStatus=6)(估计是表示结束了的意思) ...
python爬取js动态网页_Python 从零开始爬虫(八)——动态爬取解决方案之 selenium
selenium--自动化测试工具,专门为Web应用程序编写的一个验收测试工具,测试其兼容性,功能什么的.然而让虫师们垂涎的并不是以上的种种,而是其通过驱动浏览器获得的解析JavaScript的能力. ...
利用python爬虫技术动态爬取地理空间数据云中的元数据（selenium）
python爬取地理空间数据云selenium动态点击爬取的网址秀一下: 爬取的信息是什么呢? 这个信息的爬取涉及到右边按钮的点击,这属于动态爬取的范畴,需要用到selenium 好了,那么开始写代 ...
python +selenium+phantomjs 登录爬取新浪微博动态js页面
登录新浪微博最近新浪微博好烦,都取消不了验证码这个难搞得东西,而且跳来跳去,一改版以前的代码就都不能用了.目前整理的资料有三种方法: 1. 设Cookie:简单粗暴,免去了模拟登录的好多麻烦,只是要 ...
使用selenium和pyquery爬取京东商品列表
今天一起学起使用selenium和pyquery爬取京东的商品列表.本文的所有代码是在pycharm IDE中完成的,操作系统window 10. 1.准备工作安装pyquery和selenium类 ...
Python爬虫实战03：用Selenium模拟浏览器爬取淘宝美食
1 目标站点分析淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息.这样我们只要关系操 ...
SeleniumChrome实战:动态爬取51job招聘信息
一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息输入会 ...
Python高级特性与网络爬虫（二）：使用Selenium自动化测试工具爬取一号店商品信息
上一篇介绍了Ajax动态渲染的页面的分析和爬取,通过JavaScript动态渲染的页面的方式不只有ajax这一种,还有很多其他的方式,分析他们的网页结构和加密参数难度非常大,为了解决这样的页面的数据爬 ...

selenium等动态爬取北京市公共自行车网站

selenium等动态爬取北京市公共自行车网站相关推荐

最新文章

热门文章