用selenium库
先导包
我这已经导过了,只要导完不报错就行

代码附上

# 导包
from selenium import webdriver
import time
# 爬取海鲜 标题  主播类型  主播名  主播热度  链接
class Douyu(object):def __init__(self):self.url = 'https://www.douyu.com/directory/all'self.driver = webdriver.Chrome()def paqu(self):# 等待1秒time.sleep(1)# 获取标签el_list = self.driver.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li/div')# 创建列表保存所有爬取的数据list_duyu =[]# 遍历标签,通过xpath获取标签并的到文本内容for el in el_list:temp ={}temp['title'] = el.find_element_by_xpath('./a/div[2]/div[1]/h3').texttemp['title'] = temp['title'].encode("gbk", "ignore").decode("gbk")temp['type'] = el.find_element_by_xpath('./a/div[2]/div[1]/span').texttemp['主播'] = el.find_element_by_xpath('./a/div[2]/div[2]/h2').texttemp['热度'] = el.find_element_by_xpath('./a/div[2]/div[2]/span').text# temp['链接'] = el.find_element_by_xpath('//*[@class="LazyLoad is-visible DyImg DyListCover-pic"]/img | //*[@class="LazyLoad is-visible DyImg DyListCover-pic"]/picture/img').text# temp['链接'] = el.find_element_by_xpath('./a/div[1]/div[1]/img |  //*[@id="listAll"]/section[2]/div[2]/ul/li/div/a/div[1]/div[1]//picture/img').get_attribute("src")temp['链接'] = el.find_element_by_xpath('./a').get_attribute("href")list_duyu.append(temp)return list_duyudef tiqu(self,data):for da in data:print(da)def run(self):# url#driver#paquself.driver.get(self.url)while True:data = self.paqu()#tiquself.tiqu(data)#fanyitry:el_next = self.driver.find_element_by_xpath('//*[@class=" dy-Pagination-next"]/span')print(el_next)self.driver.execute_script('window.scrollTo(0,100000)')el_next.click()except:break
#                 主入口
if __name__ == '__main__':douyu = Douyu()douyu.run()

python爬取某海鲜直播标题,热度等相关推荐

  1. python爬取b站直播弹幕代码

    以下是使用Python爬取B站直播弹幕的代码示例: import requests import json import timedef get_real_url(room_id):# 获取直播间的真 ...

  2. python 爬取上海体育彩票文章标题、时间、内容

    python期末大作业 爬取上海体育彩票文章标题.时间.内容 并计算词频.生成特殊形状的词云图 利用selenium爬取内容代码: # https://www.shsportslottery.com/ ...

  3. Python 爬取51cto博客标题浏览量、评论量、收藏

    介绍 提到爬虫,互联网的朋友应该都不陌生,现在使用Python爬取网站数据是非常常见的手段,好多朋友都是爬取豆瓣信息为案例,我不想重复,就使用了爬取51cto博客网站信息为案例,这里以我的博客页面为教 ...

  4. python爬取贴吧所有标题的评论_用BS4爬取贴吧文章的作者信息时,如何兼顾爬取高亮的作者信息?...

    百度贴吧上的文章信息中,一般的作者信息代码,如下所示: 别让依靠成 而有部分作者信息是橙色的.如下所示: 冰缘瑞雪... # -*-coding:utf-8-*- """ ...

  5. Python爬取百度搜索的标题和真实URL的代码和详细解析

    网页爬取主要的是对网页内容进行分析,这是进行数据爬取的先决条件,因此博客主要对爬取思路进行下解析,自学的小伙伴们可以一起来学习,有什么不足也可以指出,都是在自学Ing,回归正题今天我们要来爬取百度搜索 ...

  6. python爬斗鱼直播数据图片_Python爬取2000万直播数据——看20万游戏主播能否月入100万...

    原标题:Python爬取2000万直播数据--看20万游戏主播能否月入100万 她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格 社会在发展,时代在进步.伴随着未曾停息的拥护声 ...

  7. python爬取CSDN论坛

    通过python爬取SCDN论坛的标题,返回请求网址 使用requests请求网址 lxml中etree请求数据 time延时 openpyxl保存再excel中 网站共有100页数据,5000个论坛 ...

  8. python爬斗鱼直播_Python爬取2000万直播数据——看20万游戏主播能否月入100万

    作者 | 朱小五and王小九来源 | 凹凸数读 她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格 社会在发展,时代在进步.伴随着未曾停息的拥护声和反对声,电竞行业逐渐被接受,被 ...

  9. python爬取新闻网站内容findall函数爬取_Python爬取新闻网标题、日期、点击量

    最近接触Python爬虫,以爬取学校新闻网新闻标题.日期.点击量为例,记录一下工作进度 目前,感觉Python爬虫的过程无非两步: Step1.获取网页url(利用Python库函数import ur ...

最新文章

  1. MongDB的安装和基本操作 一(权限设置)
  2. 大话中文文本分类之TextRNN
  3. 工作单元php,PHP面向对象之工作单元
  4. jsfiddle网站介绍
  5. C#函数式编程之标准高阶函数
  6. java反斜杠\的用法
  7. 【线性规划与网络流24题】汽车加油行驶问题 分层图
  8. 全志A33-BootLoader的两个阶段:boot0和second boot
  9. QT C1041错误
  10. SQL Server 2014数据访问层
  11. [SinGuLaRiTy] 二分图匈牙利算法
  12. 讲幻灯片的基本技巧——2021年中会议发言之二
  13. 什么是PaaS云平台?
  14. mysql省市县三级互动_省市县三级联动的SQL语句
  15. Mac快速关闭当前窗口
  16. 【华为MateBook13】更换1TB固态硬盘SSD+重装win10系统+安装NVIDIA显卡驱动+电脑管家+指纹驱动+蓝牙驱动+Office激活
  17. leetcode 413. 等差数列划分
  18. 使用OpenCV和Python进行人脸识别
  19. cesium模型纹理替换
  20. tabIndex 和 aria注意点

热门文章

  1. charles如何抓微信视频号中的视频
  2. 15.windbg-dds、dps、dqs、PE文件解析
  3. ## stm32F1 VL53L0X例程及部分代码讲解(可调工作模式版)
  4. CAN总线bus-off错误恢复处理
  5. Oracle当前日志组出错,【案例】Oracle报错ORA-00313 ORA-00312 ORA-27037当前联机日志损坏恢复...
  6. 想让你的摄影作品像电影大片一样?50种色彩亮度调整lr预设推荐
  7. Obsidian 同步 Remotely Save S3 配置指南
  8. android通知栏使用情况,Android通知栏(Notification)介绍及使用
  9. more命令 – 显示文本文件内容
  10. HSTS 防止网站劫持