斗鱼房间信息自动化爬取
此处选择的网址是斗鱼绝地求生界面。使用自动化测试工具selenium,为什么选selenium而不要requests呢? 因为在翻页的时候网址不会变化,使用requests没有next_url不太方便。xpath路径最好自己写,灵活一点,F12选中元素copy xpath只能选中单个元素。
主要遇到了两个坑。一个是在加载页面和翻页的时候,要time.sleep()几秒。二是写“下一页”标签的xpath路径时,class属性中有空格,就算复制过来,空格也会自动消失,需要自己手动写。
import time
from pprint import pprint
from selenium import webdriverclass douyu(object):def __init__(self):self.start_url='https://www.douyu.com/g_jdqs'self.driver=webdriver.Chrome()def get_content_list(self):time.sleep(10)div_list=self.driver.find_elements_by_xpath('//div[@class="DyListCover-content"]')list=[]for i in div_list:dict = {}dict['anchor']=i.find_element_by_xpath('./div[2]/h2').textdict['people_num']=i.find_element_by_xpath("./div[2]/span").textdict['title']=i.find_element_by_xpath("./div[1]/h3").get_attribute('title')list.append(dict)pprint(list)def next_page(self):# 这里有个大坑!!class属性前面有空格self.to_next=self.driver.find_elements_by_xpath("//li[@class=' dy-Pagination-next']")return self.to_nextdef save_content(self):#保存数据自定义。上面打印出来了,不保存也没关系。passdef run(self):self.driver.maximize_window()self.driver.get(self.start_url)self.get_content_list()while self.next_page():self.to_next[0].click()time.sleep(5)self.get_content_list()self.driver.close()if __name__ == '__main__':dy=douyu()dy.run()
斗鱼房间信息自动化爬取相关推荐
- python_斗鱼自动化爬取到MySQL1.0
斗鱼爬虫项目 斗鱼爬虫分析 确定目标 使用工具 涉及到的模块: 目标分析 代码部分 项目结果 项目注意点 项目总结 斗鱼爬虫分析 使用python对斗鱼平台进行自动化爬取. 确定目标 爬取斗鱼直播分类 ...
- 【selenium爬虫】 selenium自动化爬取京东图书信息
一.题目要求:搜索京东图书页,自动点击详情页进入,爬取数据信息并且存储到csv中二.解题思路:1.需要下载一个chromedriver.exe.下载地址:ChromeDriver Mirror 注意: ...
- 如何使用selenium自动化爬取淘宝信息
如何使用自动化爬取淘宝信息 1.首先我们要确保安装了谷歌浏览器,并且是84.0版本 因为接下来我们要用到自动化这款软件,必须得和版本相匹配,否则就会失败 2.然后接下来,打开我们的taobao文件选择 ...
- 自动化爬取淘宝数据--(保存到文本中)
普通版本的爬取淘宝网页 #淘宝商品信息 #从selenium中引入webdriver from selenium import webdriver import time #输入查询关键词 keywo ...
- selenium自动化爬取Boss直聘职位数据 按照热门城市
from selenium import webdriver import time import re import pandas as pd import os 在爬取的过程中可能会有登陆弹窗, ...
- Python爬虫-网易云音乐自动化爬取下载
文章目录 前言 爬取分析 完整代码 爬取效果 拓展代码 前言 上一篇简述了如何使用 Python 爬虫自动爬取CSDN博客排行榜数据并自动整理成Excel文件,这篇文章来看看如何自动化爬取网易云音乐的 ...
- pythongui界面实现爬取b站弹幕_Python爬虫自动化爬取b站实时弹幕实例方法
免费资源网,https://freexyz.cn/ 最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频.我们都是知道b站是一个弹幕网站,那你 ...
- python 全自动化爬取必应图片
python 全自动化爬取必应图片 from selenium import webdriver import requests import time import re import urllib ...
- python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...
一.设计方案 1.主题式网络爬虫名称:微博热搜榜前20信息数据爬取进行数据分析与可视化 2.爬取内容与数据特征分析:爬取微博热搜榜前20热搜事件.排名与热度,数据呈一定规律排序. 3.设计方案概述:思 ...
最新文章
- MVC中实现 加载更多...
- 在git下搭建个人博客
- python 元类的call_python3 全栈开发 - 内置函数补充, 反射, 元类,__str__,__del__,exec,type,__call__方法...
- 解决RM删除没有释放空间问题
- 画手cv什么意思_lt;3招gt;助你搞定工科出国留学申请简历(CV)!
- 蠕虫病毒往往是通过进入计算机系统,2012年甘肃省三职生计算机考试题
- [SQL面试经验] 经典sql面试题及答案第1期
- linux蓝牙安装程序,Linux 端蓝牙调试工具
- FPGA的NIOS-II
- web常见的屏幕尺寸
- linux环境hexo和GithubPages搭建个人博客
- Android攻城狮AsyncTask
- 用Unity3d开发Android游戏
- Mac上浏览器无法联网的解决方法
- 依据三极管规格是中的特性曲线,三极管的做放大电流时基极电阻阻值怎样计算选取(注意文中是三极管在放大区,不是饱和导通区,导通的条件是基极电流增大使βIb>>Ic)
- 2023美国大学生数学建模竞赛(美赛)思路代码
- UCOSⅢ 任务管理
- Julia 构建对角矩阵 diag matrix
- shell实现除法计算器
- 微信curl上传客服头像接口遇到的坑