使用selenium爬取腾讯热点新闻

     在爬取之前我一直都陷入了一个误区,我认为只用selenium就可以实现这个工作，事实上它确实是可以，只不过selenium是自动化测试工具,可以驱动浏览器(有界面,无界面)来执行特定的操作,可以模仿人的点击下拉等各种基本操作,对于js加密的信息的抓取非常有效。它更适用于动态和交互。所以在提取信息得时候结合bs4或者xpath更方便一点。经过大佬指点，这里强推xpath.![在这里插入图片描述](https://img-blog.csdnimg.cn/20200427094746986.png)

打开网址会发现页面默认加载10条信息，随着页面向下滚动，页面是自动加载的。
这里借用某大佬的思想：

调用 window.srollBy’执行页面滚动。
利用random对单次滚动距离、滚动时间进行选取，模拟人工操作。

import random
for i in range(20):pixel = random.randint(800,1000)driver.execute_script(f'window.scrollBy(0,{pixel})')time.sleep(random.random()+1)

完整代码如下：

import time
from selenium import webdriver
from lxml import etreedriver = webdriver.Chrome('D:\software\Annaconda3\chromedriver')
driver.get('https://news.qq.com/')

由于页面默认加载10条，这里实现页面滚动，动态加载。

import random
for i in range(20):pixel = random.randint(800,1000)driver.execute_script(f'window.scrollBy(0,{pixel})')time.sleep(random.random()+1)html = driver.page_sourcetree = etree.HTML(html)infos = tree.xpath('//ul[@class="list"]/li/div[@class="detail"]/h3/a')
infolist = []count = 0for i,info in enumerate(infos):title = info.xpath('text()')[0]href = info.xpath('@href')[0]print(i+1,title,href)infolist.append([i+1,title,href])

结果如下：

存为csv文件

#保存import pandas as pd
name = ['序号','新闻标题','新闻链接']
df = pd.DataFrame(columns=name, data=infolist)
df.to_csv('腾讯新闻热点.csv',index=False)

使用selenium爬取腾讯热点新闻相关推荐

爬虫 spider08——爬取腾讯娱乐新闻【使用redis去重】
根据爬虫 spider07--爬取腾讯娱乐新闻 https://blog.csdn.net/qq_41946557/article/details/102566143 进行修改! 代码: impor ...
python编程100例头条-python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
python爬虫今日头条_python 简单爬取今日头条热点新闻(
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
python爬虫爬取今日头条_python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
scrapy实践二（selenium爬取腾讯漫画【失败】）
前言一个月前曾学习过爬取腾讯动漫全站的示例代码,现在再用scrapy尝试过程新建spider爬虫编写普通selenium爬虫爬取漫画观察网页,确定目标本次目标是爬取热门排行下的漫画右键检 ...
python 头条上传_python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
使用selenium爬取腾讯动漫！国漫也有好看的！
前言本来只是想学习一下selenium模块的简单使用,然后一直添加功能,感觉能把它变成一个项目了,于是乎,就有了这篇文章写得很烂,速度很慢,但不影响这是我的第一次尝试,如果师傅们花时间看看我的代码 ...
python爬虫今日头条_python 简单爬取今日头条热点新闻(一)
今日头条如今在自媒体领域算是比较强大的存在,今天就带大家利用python爬去今日头条的热点新闻,理论上是可以做到无限爬取的: 在浏览器中打开今日头条的链接,选中左侧的热点,在浏览器开发者模式netwo ...
使用selenium爬取腾讯动漫
文章目录前言一.Download.py 1.导入模块 2.构造Download类 3.Download 类中的函数 (1)login() (2)loading() (3)comic_info() ...

使用selenium爬取腾讯热点新闻

使用selenium爬取腾讯热点新闻相关推荐

最新文章

热门文章