写出来的爬虫,肯定不能只在一个页面爬,只要要爬几个页面,甚至一个网站,这时候就需要用到翻页了

其实翻页很简单,还是这个页面http://bbs.fengniao.com/forum/10384633.html,话说我得给这个人增加了多大的访问量啊......

10384633重点关注下这个数字,这个就是页面的名称,现在尝试把这个数字+/-1看看有没有结果

验证http://bbs.fengniao.com/forum/10384634.html

可以看到,这个页面是可以访问的

再试试http://bbs.fengniao.com/forum/10384632.html,这次不截图了,可以自己去试试,也是可以访问的

那么接下来就好办了,只要把这个数字每次+1或-1就可以了,甚至可以从http://bbs.fengniao.com/forum/1.html开始尝试连接,一直+1,直到502或404断开

下面上代码,还是用之前的内容,这次加了个页面处理的函数

#!/usr/bin/python#coding: UTF-8

importurllibimporturllib2importre#处理地址,并获取页面全部的图片地址

defget_image_url(url):#url_format = urllib2.Request(url) #1

url_open = urllib.urlopen(url) #2

url_read = url_open.read() #3

re_value = re.compile('(?<=src\=\").*?\.jpg')

image_url_list= re.findall(re_value,url_read) #4

returnimage_url_list#这个函数专门用来下载,前面两行是将图片连接中/前面的内容全部删除,留下后面的文件名用来保存文件的,try不说了,不清楚请翻回去看容错

defdown_image(image_url):

rev= '^.*/'file_name= re.sub(rev,'',image_url)try:

urllib.urlretrieve(image_url,file_name)except:print 'download %s fail' %image_urlelse:print 'download %s successed' %image_url#这个函数用来处理页面,每次+1

defget_page(url):

url_num= re.search('(?<=\/)[0-9]+(?=\.)',url)

url_num=url_num.group()

url_num_1= int(url_num) + 1url=url.replace(url_num,str(url_num_1))returnurlif __name__ == '__main__':

url= 'http://bbs.fengniao.com/forum/10384633.html'

for n in range(1,10):

url=get_page(url)

image_url_list=get_image_url(url)for image_url inimage_url_list:

down_image(image_url)#5

其实可以给get_page传两个参数,一个是URL另一个是递增的数值,就变成了get_page(url,n),但是我没有这么写,可以思考下为什么,如果把for n in range(1,10)改成while True会怎样?嘿嘿......回头人家封你IP可别找我啊

python爬虫怎么翻页_python爬虫_入门_翻页相关推荐

  1. python网上批量下载表格_python爬虫智能翻页批量下载文件的实例详解

    python爬虫遇到爬取文件内容时,需要一页页的翻页爬取,这样很是麻烦,其实可以获取每个列表信息下的文件名和文件链接,让文件名和文件链接处理为列表,保存后下载,实现智能翻页批量下载文件,本文以以京客隆 ...

  2. python爬虫下一页_python爬虫怎么获取下一页的url

    如何用python实现爬虫抓取网页时自动翻页在你没有任何喜欢的人的时候,你过得是最轻松快乐的,尽管偶尔会觉得孤单了点. 小编把网页的第一篇内容抓取好了,但是用python怎么抓取后面的 又如何停止那天 ...

  3. python爬虫什么书好_python爬虫入门06 | 爬取当当网 Top 500 本五星好评书籍

    来啦,老弟 image 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 - 那么接下来 我们就使用 requests ...

  4. python手机壁纸超清_Python爬虫-王者荣耀高清壁纸下载

    绪论 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.python是一种跨平台的计算机程序设计语言.是一种 ...

  5. python爬虫教材推荐 豆瓣_Python爬虫入门教程:豆瓣Top电影爬取

    基本开发环境Python 3.6 Pycharm 相关模块的使用requests parsel csv 安装Python并添加到环境变量,pip安装需要的相关模块即可. 爬虫基本思路 一.明确需求 爬 ...

  6. python爬虫基础项目教程_Python爬虫开发与项目实战_Python教程

    资源名称:Python爬虫开发与项目实战 内容简介: 随着大数据时代到来,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语 ...

  7. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  8. python爬虫抓取房产_Python爬虫实战(3):安居客房产经纪人信息采集

    1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的&q ...

  9. python壁纸数据抓取_python爬虫系列之 xpath实战:批量下载壁纸

    一.前言 在开始写爬虫之前,我们先了解一下爬虫 首先,我们需要知道爬虫是什么,这里直接引用百度百科的定义网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照 ...

  10. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

最新文章

  1. java extend 和 implements 的区别
  2. idea不识别yml配置文件,怎么办?
  3. Json工具类 - JsonUtils.java
  4. thinkphp路由配置 php7.0,thinkphp3.2 路由设置方法
  5. [转载]关于申请国外博后的一点经验和想法
  6. linux windows 丢失,Win10预览版9879硬盘丢失的Linux解决方案
  7. table每行自动触发ajax,table.ajax.reload()成功后未触发:function()
  8. Slam中几种变换的理解
  9. DAN疼之后上些基础知识---自定义HttpModule和httpHandler
  10. linux添加 usr bin,Linux基础之/bin、 /sbin、/ usr/bin,、/usr/sbin的用处
  11. 华为畅享20plus能更鸿蒙不,甘南收购华为畅享20Plus尾插排线数据线耳机
  12. 812计算机专业排名,新鲜出炉2019年美国大学计算机工程专业排名榜单 麻省位居首位!...
  13. 例 9.7 有n个结构体变量,内含学生学号、姓名和3门课程的成绩。要求输出平均成绩最高的学生的信息(包括学号、姓名、3门课程成绩和平均成绩)。
  14. Z04 - 999、Flink与电商指标分析
  15. 开奖计算---五星直选复式
  16. 斐波那契数列素数判断
  17. TensorFlow Slim 工具包使用
  18. 学习型红外遥控器设计(2) 红外遥控学习方案设计
  19. IOSOpenDev~抛弃数据线,用无线路IFILE上传文件
  20. 团队管理之性能实施团队日志3

热门文章

  1. spring cloud gateway集成druid报异常:Error creating bean with name ‘statViewServletRegistrationBean‘
  2. Tailwind Table
  3. DataTables 数据维度合并展示
  4. VS2019 Android Emulator安装失败
  5. 从宏观的角度讨论网络应用怎么运行及其前端代码系统编写和优化
  6. 2020高考倒计时html,2020高考倒计时激励句子100句精选大全
  7. python自动化登录163邮箱发送邮件
  8. OTA系列小问答:汽车OTA技术架构主要有哪些?域控制器作为OTA master 有什么要求?
  9. 【不忘初心】Windows11 22000.776 X64 [纯净精简版][2.6G](2022.6.23)
  10. 聊一聊Java垃圾回收与卡表技术