小白自学Python,部分段子网页无法访问,使用  try:  处理异常需要很长时间,期待大佬指点

#爬取糗事百科段子
import requests
from lxml import etree#设置UA
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}#设置需要爬取页数
page=int(input("请输入您需要的页数:"))#获取各页链接
url2=[]
for x in range(1,page+1):url2.append("https://www.qiushibaike.com/8hr/page/"+str(x))#print(url2)#读取各页信息
for url in url2:response=requests.get(url,headers=headers).texthtml=etree.HTML(response)result1=html.xpath('//div//a[@class="recmd-content"]/@href')#print(result1)for site in result1:xurl="https://www.qiushibaike.com"+site#print(xurl)response2=requests.get(xurl).texthtml2=etree.HTML(response2)result2=html2.xpath("//div[@class='content']")try:print(result2[0].text)except Exception as e:print("错误:糗百君的飞船出了一点小毛病……")

Python爬取网络段子相关推荐

  1. 完全小白篇-使用Python爬取网络小说

    完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...

  2. python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据

    1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...

  3. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

  4. 【爬虫实战】手把手教你使用python爬取网络小说

    文章目录 写作缘起 上代码 思路分析 效果展示 写在最后 写作缘起 南墙最近发现自己常用的看小说网站多了许多广告,果然商业化的现今网上几无净土啊,便决定自己写个小说下载器,这样看小说贼爽 上代码 im ...

  5. python爬取网络小说_Python爬取起点中文网月票榜前500名网络小说介绍

    观察网页结构 进入起点原创风云榜:http://r.qidian.com/yuepiao?chn=-1 老套路,懂我的人都知道我要看看有多少内容和页数需要爬. https://ask.hellobi. ...

  6. python爬取电子书_python爬取计算机电子书(源码移步github)

    摘要:今年第一个项目,python爬取网络上公开的计算机电子书近8000本,在此基础上简要分析计算机专业的发展变迁.部分整理好的书籍下载链接见文末.代码链接见文末. 计算机诞生以来不到100年,学术的 ...

  7. 完全小白篇-用python爬取豆瓣电影影评

    完全小白篇-用python爬取豆瓣影评 打开豆瓣电影 随机电影的所有影评网页 跳转逻辑 分析影评内容获取方法 逐一正则提取影评 针对标签格式过于多样的处理 针对提出请求的频率的限制 存储方式(本次sq ...

  8. 爬虫python爬取页面请求_Python网络爬虫第三弹《爬取get请求的页面数据》

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

  9. 爬虫python爬取页面请求_03 Python网络爬虫第三弹《爬取get请求的页面数据》,urllib...

    一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...

最新文章

  1. vue中使用elmentUI的Upload组件提交文件和后台接收
  2. navicat for mysql 导入psc文件
  3. 懂AI值百万年薪?你不知道的开发者薪资榜单大盘点
  4. javascript的程序控制结构及语句------(2)循环控制语句、跳转语句、对话框
  5. linux的静态编译elf无法调试,macos-运行arm-elf-gcc编译代码时出现段错误
  6. 《C++ Primer 第五版》第二章(第5小节)——using和typedef,auto和decltype总结
  7. 阿里云实时数仓Hologres年度发布,解读数仓新趋势
  8. matlab m文件参数传递,请问这个.m文件的参数传什么?
  9. Netty工作笔记0028---NIO 网络编程应用--群聊系统3--客户端编写1
  10. Centos开放查看端口 防火墙关闭打开
  11. oracle联合运算,Oracle UNION运算符
  12. hdu 4302 Holedox Eating
  13. 凸优化第九章无约束优化 9.4最速下降方法
  14. 一句话说明sync, fsync, fdatasync的区别
  15. Hadoop--基础知识点--4--hadoop集群-docker搭建
  16. Android Room数据库使用
  17. 给虚拟机下载安装jdk,hadoop等(非常详细的步骤)
  18. android设置UI界面背景,Android ROM定制——界面美化基础(framework-res、SystemUI修改)...
  19. 20个vue开源项目免费模板源码
  20. 【融创同智 竞促发展】2019AIIA杯人工智能巡回赛及专项赛工作通气会在京成功召开

热门文章

  1. Echars中国城市地图-解决图层分离问题
  2. 关于ST公司的BootLoader流程的总结
  3. JS控制网页中Flash影片的播放(附带各参数)
  4. PLsql中设置登录用户和密码
  5. 用Matlab求解一维非稳态周期性导热问题(有限单元法+隐式离散+高斯赛德尔迭代法)
  6. 如何实现标签元素在HTML页面中居中显示
  7. 刘汝佳算法入门笔记(1)
  8. 生产计划进度需时刻跟进
  9. 铁通用户,宽带测速很快,可是上网很慢的解决办法
  10. 机器学习(浙大课程b站)第四章