Python爬取网络段子

小白自学Python，部分段子网页无法访问，使用 try: 处理异常需要很长时间，期待大佬指点

#爬取糗事百科段子
import requests
from lxml import etree#设置UA
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}#设置需要爬取页数
page=int(input("请输入您需要的页数："))#获取各页链接
url2=[]
for x in range(1,page+1):url2.append("https://www.qiushibaike.com/8hr/page/"+str(x))#print(url2)#读取各页信息
for url in url2:response=requests.get(url,headers=headers).texthtml=etree.HTML(response)result1=html.xpath('//div//a[@class="recmd-content"]/@href')#print(result1)for site in result1:xurl="https://www.qiushibaike.com"+site#print(xurl)response2=requests.get(xurl).texthtml2=etree.HTML(response2)result2=html2.xpath("//div[@class='content']")try:print(result2[0].text)except Exception as e:print("错误：糗百君的飞船出了一点小毛病……")

Python爬取网络段子相关推荐

完全小白篇-使用Python爬取网络小说
完全小白篇-使用Python爬取网络小说一.找一个你要爬取的小说二.分析网页网页的展示方式需要用到的库文件三.向网站发送请求四.正则提取五.跳转的逻辑六.后续处理七.保存信息进入do ...
python爬取去哪网数据_Python爬虫入门：使用Python爬取网络数据
1 网络爬虫引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫如何实现爬虫? 简单的讲,一共 ...
python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
【爬虫实战】手把手教你使用python爬取网络小说
文章目录写作缘起上代码思路分析效果展示写在最后写作缘起南墙最近发现自己常用的看小说网站多了许多广告,果然商业化的现今网上几无净土啊,便决定自己写个小说下载器,这样看小说贼爽上代码 im ...
python爬取网络小说_Python爬取起点中文网月票榜前500名网络小说介绍
观察网页结构进入起点原创风云榜:http://r.qidian.com/yuepiao?chn=-1 老套路,懂我的人都知道我要看看有多少内容和页数需要爬. https://ask.hellobi. ...
python爬取电子书_python爬取计算机电子书（源码移步github）
摘要:今年第一个项目,python爬取网络上公开的计算机电子书近8000本,在此基础上简要分析计算机专业的发展变迁.部分整理好的书籍下载链接见文末.代码链接见文末. 计算机诞生以来不到100年,学术的 ...
完全小白篇-用python爬取豆瓣电影影评
完全小白篇-用python爬取豆瓣影评打开豆瓣电影随机电影的所有影评网页跳转逻辑分析影评内容获取方法逐一正则提取影评针对标签格式过于多样的处理针对提出请求的频率的限制存储方式(本次sq ...
爬虫python爬取页面请求_Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
爬虫python爬取页面请求_03 Python网络爬虫第三弹《爬取get请求的页面数据》,urllib...
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

Python爬取网络段子

Python爬取网络段子相关推荐

最新文章

热门文章