Python爬取网络段子
小白自学Python,部分段子网页无法访问,使用 try: 处理异常需要很长时间,期待大佬指点
#爬取糗事百科段子
import requests
from lxml import etree#设置UA
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}#设置需要爬取页数
page=int(input("请输入您需要的页数:"))#获取各页链接
url2=[]
for x in range(1,page+1):url2.append("https://www.qiushibaike.com/8hr/page/"+str(x))#print(url2)#读取各页信息
for url in url2:response=requests.get(url,headers=headers).texthtml=etree.HTML(response)result1=html.xpath('//div//a[@class="recmd-content"]/@href')#print(result1)for site in result1:xurl="https://www.qiushibaike.com"+site#print(xurl)response2=requests.get(xurl).texthtml2=etree.HTML(response2)result2=html2.xpath("//div[@class='content']")try:print(result2[0].text)except Exception as e:print("错误:糗百君的飞船出了一点小毛病……")
Python爬取网络段子相关推荐
- 完全小白篇-使用Python爬取网络小说
完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...
- python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据
1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...
- python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...
python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...
- 【爬虫实战】手把手教你使用python爬取网络小说
文章目录 写作缘起 上代码 思路分析 效果展示 写在最后 写作缘起 南墙最近发现自己常用的看小说网站多了许多广告,果然商业化的现今网上几无净土啊,便决定自己写个小说下载器,这样看小说贼爽 上代码 im ...
- python爬取网络小说_Python爬取起点中文网月票榜前500名网络小说介绍
观察网页结构 进入起点原创风云榜:http://r.qidian.com/yuepiao?chn=-1 老套路,懂我的人都知道我要看看有多少内容和页数需要爬. https://ask.hellobi. ...
- python爬取电子书_python爬取计算机电子书(源码移步github)
摘要:今年第一个项目,python爬取网络上公开的计算机电子书近8000本,在此基础上简要分析计算机专业的发展变迁.部分整理好的书籍下载链接见文末.代码链接见文末. 计算机诞生以来不到100年,学术的 ...
- 完全小白篇-用python爬取豆瓣电影影评
完全小白篇-用python爬取豆瓣影评 打开豆瓣电影 随机电影的所有影评网页 跳转逻辑 分析影评内容获取方法 逐一正则提取影评 针对标签格式过于多样的处理 针对提出请求的频率的限制 存储方式(本次sq ...
- 爬虫python爬取页面请求_Python网络爬虫第三弹《爬取get请求的页面数据》
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
- 爬虫python爬取页面请求_03 Python网络爬虫第三弹《爬取get请求的页面数据》,urllib...
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib. ...
最新文章
- vue中使用elmentUI的Upload组件提交文件和后台接收
- navicat for mysql 导入psc文件
- 懂AI值百万年薪?你不知道的开发者薪资榜单大盘点
- javascript的程序控制结构及语句------(2)循环控制语句、跳转语句、对话框
- linux的静态编译elf无法调试,macos-运行arm-elf-gcc编译代码时出现段错误
- 《C++ Primer 第五版》第二章(第5小节)——using和typedef,auto和decltype总结
- 阿里云实时数仓Hologres年度发布,解读数仓新趋势
- matlab m文件参数传递,请问这个.m文件的参数传什么?
- Netty工作笔记0028---NIO 网络编程应用--群聊系统3--客户端编写1
- Centos开放查看端口 防火墙关闭打开
- oracle联合运算,Oracle UNION运算符
- hdu 4302 Holedox Eating
- 凸优化第九章无约束优化 9.4最速下降方法
- 一句话说明sync, fsync, fdatasync的区别
- Hadoop--基础知识点--4--hadoop集群-docker搭建
- Android Room数据库使用
- 给虚拟机下载安装jdk,hadoop等(非常详细的步骤)
- android设置UI界面背景,Android ROM定制——界面美化基础(framework-res、SystemUI修改)...
- 20个vue开源项目免费模板源码
- 【融创同智 竞促发展】2019AIIA杯人工智能巡回赛及专项赛工作通气会在京成功召开