上篇讲了如何爬取一张图片,这里就爬取 大妈之家 的一部漫画吧!
可以通过修改目标地址,爬取任意一部 大妈之家 的一部漫画!
本篇内容
“”"
1、抓取西刺代理网站的代理ip
2、并根据指定的目标url,对抓取到ip的有效性进行验证
3、最后存到指定的path
4、随机提取代理ip
5、爬取目标网站的漫画,存放在D:\getting
“”"

为了保证爬取工作的正常进行,我们有必要建设属于自己的ip池。在被目标网站封锁ip的情况下,让爬取工作顺利进行。
这了介绍的代理ip网站是 http://www.xicidaili.com/
通过爬取它提供的代理ip,建立自己的IP池。
并调取代理IP对目标网站进行访问。

提几个爬取中遇到的问题:(感谢正义的反派人士提供了解决方法)
1.大妈之家在每一话的一页中都包含了同一话的所以图片,可以通过运行页面信息附带js代码获得,可以将回复打印出来看到 eval 之后包含了js代码。也可单页访问,但要注意访问时,会自动跳转到新的页面。
2.如果爬取的图大小恒定,例如 256 168 ,且损坏不能打开,要注意目标网站的反爬虫措施,大妈之家 的方法是 检查了跳转来到当前网站的上次所在地址,根据正义的反派人士的方法已经解决。值得注意的是,部分网站采用的预先加载一副等待图片后,再跳转带目标网站,这类需要对跳转代码进行分析处理。

直接上图


源代码就不贴出来了,正义的反派人士已经介绍得非常详细了,如有需要源代码请访问我的博客主页。
一些反爬虫的方法,在博客中有介绍。
最后推荐 漫画 黑社会的超能力女儿

下一篇就去爬取一些网站用户信息,代码不开源。

从零开始的爬虫学习(二)爬取动漫之家的漫画相关推荐

  1. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

  2. Python爬虫学习之爬取淘宝搜索图片

    Python爬虫学习之爬取淘宝搜索图片 准备工作 因为淘宝的反爬机制导致Scrapy不能使用,所以我这里是使用selenium来获取网页信息,并且通过lxml框架来提取信息. selenium.lxm ...

  3. 笨方法学 python3 豆瓣_python3 爬虫学习:爬取豆瓣读书Top250(一)

    本节课,我们试着来写一个基础的爬虫,来爬取一下豆瓣读书top250的内容:主要涉及的知识就是我们之前讲过的requests库. 网页分析 我们先选取一个待会准备爬取的网站,咱们选个较好爬的网页,豆瓣读 ...

  4. 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析

    为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...

  5. WebMagic爬虫入门教程(二)一个完整的爬取动漫之家的实例

    (一)前言 我的上一篇博客已经说明如何爬取某一个网页的动漫数据,这里重点说一下一个完整的爬虫实例. 和上一篇文章相比,多了的就是动画种类,日文名什么的. 推荐这个爬取博客的:http://blog.c ...

  6. 网络爬虫学习2 - 爬取网页的通用代码框架、HTTP协议、Requests库的各种方法

    网络爬虫MOOC学习打卡 - 第二天 文章目录 网络爬虫MOOC学习打卡 - 第二天 一.爬取网页的通用代码框架 1.理解requests库的异常 2.Respones类提供了一个方法 -- r.ra ...

  7. python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数

    python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...

  8. Python 柱状图 横坐标 名字_Python爬虫实例(二)——爬取新馆疫情每日新增人数

    python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...

  9. Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

最新文章

  1. 微信小程序---系统信息-位置信息-定位信息
  2. 2015中学计算机考试题,2017年初中信息技术考试试题及答案
  3. JZOJ 1980. 【2011集训队出题】Construct
  4. 激光slam-- .pgm格式地图分析及修改方法
  5. 5 大场景深度探讨何为 Serverless 架构模式?
  6. 【MySQL】时间格式转换 DATE_FORMAT函数篇
  7. android file hascode,AndroidStudio集成Lombok
  8. SQL Server2016的彻底删除
  9. xodo pdf android,Xodo PDF查看器和编辑器「Xodo PDF Viewer Editor」
  10. k8s启动Pod报错CrashLoopBackOff
  11. 计算机绘图cad期末考试试题,20年广东理工学院成人高考期末考试 计算机绘图(AutoCAD) 复习资料.pdf...
  12. 晶振负载电容和谐振电容的计算方法
  13. USB,蓝牙,以太网,还是WIFI?
  14. 飞机气动导数的插值计算_Matlab
  15. Yolov5进阶之一摄像头实时采集识别
  16. 下载安装pip-19.0
  17. R语言怎么写积分_手记(4):定积分
  18. python获取星期几_如何在Python中获取日期的星期几?
  19. 互联网高薪职业3D建模师到底是什么?游戏建模很赚钱吗?
  20. 计算机硬件甩,计算机硬件 篇一:手把手教你更新CPU微码-x99平台最后的挣扎

热门文章

  1. 【方案开发】医用级人体体温计额温仪方案
  2. 【C++】寻找并输出11~999之间的数m,它满足m、m^2和m^3均为回文数。
  3. 阿里java架构师+职级_阿里 P8 高级架构师年入100W+,到底什么水平?
  4. 西门子WINCC日常问题记录
  5. OpenCV 实现哈哈镜效果
  6. Redash二次开发整理
  7. 蚌埠市商标代办机构服务流程以及时间介绍
  8. 剪辑视频,怎么虚化边框缩小原视频
  9. 面试题:软件测试面试题小享
  10. 浅谈新手入行前端自学到什么程度才能找工作?