获取北京市公共自行车网点经纬度等数据

#coding=utf-8from selenium import webdriver
from time import sleep
import re
import pandas as pd# 2.构造网址
url = r'http://bjggzxc.jtw.beijing.gov.cn/bdmap.html'# 3.打开浏览器
browser = webdriver.Chrome(r'C:\Program Files\Google\Chrome\Application\chromedriver.exe')
browser.get(url)
sleep(10)       #视网速而定
html = str(browser.page_source.encode('utf8'))
# print(html)# 4.寻找按钮多节点
# 末页数字
page_final = browser.find_elements_by_xpath('''//span[@style]''')
final_num = int(page_final[1].text[1:-1])station_all = []
for j in range(final_num):buttons_st = browser.find_elements_by_xpath('''//tr[@id]''')st_many = len(buttons_st)for i in range(st_many):station_num_1 = buttons_st[i].text.split('\n')  #第一个站点station_lon = re.findall('class="datagrid-cell datagrid-cell-c1-lon">(.*?)</div></td>',html)browser.implicitly_wait(30)# print(station_lon)station_lon_1 = station_lon[i]      #第一个站经度station_lat = re.findall('class="datagrid-cell datagrid-cell-c1-lat">(.*?)</div></td>',html)station_lat_1 = station_lat[i]      #第一个站纬度station_1 = [station_num_1[0],station_num_1[1],station_lon_1,station_lat_1]station_all.append(station_1)#下一页节点buttons_page = browser.find_elements_by_xpath('''//div[@class='datagrid-pager pagination']//span[@class="l-btn-text"]''')next_page_bt = buttons_page[2]  #下一页browser.execute_script('arguments[0].click();',next_page_bt)      #点击按钮html = str(browser.page_source.encode('utf8'))browser.implicitly_wait(30)print(station_all)
print(len(station_all),len(station_all[-1]))path=r'.\beijing_public_bike2.csv'
table=pd.DataFrame(station_all)
table.to_csv(path, encoding='gbk')# browser.close()

selenium等动态爬取北京市公共自行车网站相关推荐

  1. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  2. 多彩投网站动态爬取[python+selenium]

    目标网站 遇到的坑 这个网站为了反爬虫,使用了很多策略,而这些策略都会是爬虫中可能遇到的坑. 目的: 目的是爬取这个网页中的这个状态的项目(projectStatus=6)(估计是表示结束了的意思) ...

  3. python爬取js动态网页_Python 从零开始爬虫(八)——动态爬取解决方案 之 selenium

    selenium--自动化测试工具,专门为Web应用程序编写的一个验收测试工具,测试其兼容性,功能什么的.然而让虫师们垂涎的并不是以上的种种,而是其通过驱动浏览器获得的解析JavaScript的能力. ...

  4. 利用python爬虫技术动态爬取地理空间数据云中的元数据(selenium)

    python爬取地理空间数据云selenium动态点击 爬取的网址秀一下: 爬取的信息是什么呢? 这个信息的爬取涉及到右边按钮的点击,这属于动态爬取的范畴,需要用到selenium 好了,那么开始写代 ...

  5. python +selenium+phantomjs 登录爬取新浪微博动态js页面

    登录新浪微博 最近新浪微博好烦,都取消不了验证码这个难搞得东西,而且跳来跳去,一改版以前的代码就都不能用了.目前整理的资料有三种方法: 1. 设Cookie:简单粗暴,免去了模拟登录的好多麻烦,只是要 ...

  6. 使用selenium和pyquery爬取京东商品列表

    今天一起学起使用selenium和pyquery爬取京东的商品列表.本文的所有代码是在pycharm IDE中完成的,操作系统window 10. 1.准备工作 安装pyquery和selenium类 ...

  7. Python爬虫实战03:用Selenium模拟浏览器爬取淘宝美食

    1 目标站点分析 淘宝页面信息很复杂的,含有各种请求参数和加密参数,如果直接请求或者分析Ajax请求的话会很繁琐.所以我们可以用Selenium来驱动浏览器模拟点击来爬取淘宝的信息.这样我们只要关系操 ...

  8. SeleniumChrome实战:动态爬取51job招聘信息

    一.概述 Selenium自动化测试工具,可模拟用户输入,选择,提交. 爬虫实现的功能: 输入python,选择地点:上海,北京 ---->就去爬取上海,北京2个城市python招聘信息 输入会 ...

  9. Python高级特性与网络爬虫(二):使用Selenium自动化测试工具爬取一号店商品信息

    上一篇介绍了Ajax动态渲染的页面的分析和爬取,通过JavaScript动态渲染的页面的方式不只有ajax这一种,还有很多其他的方式,分析他们的网页结构和加密参数难度非常大,为了解决这样的页面的数据爬 ...

最新文章

  1. 微服务架构之「 容错隔离 」
  2. 分析mysql日志文件_MySQL日志文件与分析
  3. 码农如何快速打造一个有设计感的网站
  4. 11月上旬息壤网络域名总量呈负增长 份额跌破1%
  5. 创新设计模式:抽象工厂模式
  6. 两千内给力的大屏手机(二)
  7. 创建python的虚拟环境(图文教程),并使用。
  8. JavaScript(js)/上
  9. crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset
  10. 信息学奥赛一本通 1978:【18NOIP普及组】标题统计 | 洛谷 P5015 [NOIP2018 普及组] 标题统计
  11. webpack使用文档
  12. Git添加多个SSH key公钥
  13. 5G 套餐最快本月开售;谷歌被指骗取人脸数据;Calibre 4.0 发布 | 极客头条
  14. Linux下Gcc生成和使用静态库和动态库详解(转)
  15. [转载] numpy入门4:线性代数
  16. verilog状态机以及编码详解
  17. linux系统安装klocwork,linux下klocwork的使用
  18. 健康体检管理系统源码 运营级PEIS系统源码 PEIS健康体检系统源码 PEIS源码 B/S架构开发
  19. Mybatis Generator配置文件
  20. Pycharm浏览器打开报错解决

热门文章

  1. PS学习记录111111--如何在PS中创建一个干净的网页布局
  2. h3c服务器Console安装系统,H3C设备通过Console口登录设备的配置方法介绍
  3. 主板上的南桥和北桥是什么意思?
  4. word罕见问题 解决记录
  5. LLNet模型实现——模型训练(完结)
  6. 决策树进阶——剪枝处理
  7. 樱桃键盘驱动在哪下_Ins风深空灰白光限定版-杜伽K310机械键盘上手
  8. myBase Desktop 6.5.1 无限期试用
  9. ubuntu下安装foxi reader阅读器
  10. 遭遇EBUIITI.SYS,QBNLWVQCIMQBOS.DLL,JSRLDZLVYUNXEO.DLL,JSRLDZLVYUNXEO.DLL等