斗鱼房间信息自动化爬取

此处选择的网址是斗鱼绝地求生界面。使用自动化测试工具selenium，为什么选selenium而不要requests呢？因为在翻页的时候网址不会变化，使用requests没有next_url不太方便。xpath路径最好自己写，灵活一点，F12选中元素copy xpath只能选中单个元素。
主要遇到了两个坑。一个是在加载页面和翻页的时候，要time.sleep()几秒。二是写“下一页”标签的xpath路径时，class属性中有空格，就算复制过来，空格也会自动消失，需要自己手动写。

import time
from pprint import pprint
from selenium import webdriverclass douyu(object):def __init__(self):self.start_url='https://www.douyu.com/g_jdqs'self.driver=webdriver.Chrome()def get_content_list(self):time.sleep(10)div_list=self.driver.find_elements_by_xpath('//div[@class="DyListCover-content"]')list=[]for i in div_list:dict = {}dict['anchor']=i.find_element_by_xpath('./div[2]/h2').textdict['people_num']=i.find_element_by_xpath("./div[2]/span").textdict['title']=i.find_element_by_xpath("./div[1]/h3").get_attribute('title')list.append(dict)pprint(list)def next_page(self):# 这里有个大坑！！class属性前面有空格self.to_next=self.driver.find_elements_by_xpath("//li[@class=' dy-Pagination-next']")return self.to_nextdef save_content(self):#保存数据自定义。上面打印出来了，不保存也没关系。passdef run(self):self.driver.maximize_window()self.driver.get(self.start_url)self.get_content_list()while self.next_page():self.to_next[0].click()time.sleep(5)self.get_content_list()self.driver.close()if __name__ == '__main__':dy=douyu()dy.run()

斗鱼房间信息自动化爬取相关推荐

python_斗鱼自动化爬取到MySQL1.0
斗鱼爬虫项目斗鱼爬虫分析确定目标使用工具涉及到的模块: 目标分析代码部分项目结果项目注意点项目总结斗鱼爬虫分析使用python对斗鱼平台进行自动化爬取. 确定目标爬取斗鱼直播分类 ...
【selenium爬虫】 selenium自动化爬取京东图书信息
一.题目要求:搜索京东图书页,自动点击详情页进入,爬取数据信息并且存储到csv中二.解题思路:1.需要下载一个chromedriver.exe.下载地址:ChromeDriver Mirror 注意: ...
如何使用selenium自动化爬取淘宝信息
如何使用自动化爬取淘宝信息 1.首先我们要确保安装了谷歌浏览器,并且是84.0版本因为接下来我们要用到自动化这款软件,必须得和版本相匹配,否则就会失败 2.然后接下来,打开我们的taobao文件选择 ...
自动化爬取淘宝数据--（保存到文本中）
普通版本的爬取淘宝网页 #淘宝商品信息 #从selenium中引入webdriver from selenium import webdriver import time #输入查询关键词 keywo ...
selenium自动化爬取Boss直聘职位数据按照热门城市
from selenium import webdriver import time import re import pandas as pd import os 在爬取的过程中可能会有登陆弹窗, ...
Python爬虫-网易云音乐自动化爬取下载
文章目录前言爬取分析完整代码爬取效果拓展代码前言上一篇简述了如何使用 Python 爬虫自动爬取CSDN博客排行榜数据并自动整理成Excel文件,这篇文章来看看如何自动化爬取网易云音乐的 ...
pythongui界面实现爬取b站弹幕_Python爬虫自动化爬取b站实时弹幕实例方法
免费资源网,https://freexyz.cn/ 最近央视新闻记者王冰冰以清除可爱和专业的新闻业务水平深受众多网友喜爱,b站也有很多up主剪辑了关于王冰冰的视频.我们都是知道b站是一个弹幕网站,那你 ...
python 全自动化爬取必应图片
python 全自动化爬取必应图片 from selenium import webdriver import requests import time import re import urllib ...
python爬取微博热搜显示到折线图_微博热搜榜前20信息数据爬取进行数据分析与可视化...
一.设计方案 1.主题式网络爬虫名称:微博热搜榜前20信息数据爬取进行数据分析与可视化 2.爬取内容与数据特征分析:爬取微博热搜榜前20热搜事件.排名与热度,数据呈一定规律排序. 3.设计方案概述:思 ...

斗鱼房间信息自动化爬取

斗鱼房间信息自动化爬取相关推荐

最新文章

热门文章