• 使用的库
from bs4 import BeautifulSoup
import requests
import os
import re
from pyquery import PyQuery as pq
from urllib3.exceptions import InsecureRequestWarning
import urllib3
urllib3.disable_warnings(InsecureRequestWarning)
  • 步骤思想

1.先是获取漫画主页的集数

2.根据拿取的集数访问固定页面(这个页面有规律,这个很容易看出来)

3.让后就是爬取图片保存到本地

主要拿取的数据为js数据,这里需要单独拿取每一章节的图片地址

直接上代码:

user-agent  如果拿取不到数据,这里需要修改其值

class downIamge(object):# ================================== 抓取多页数据 ==================================def parseMultiplePages(self, url, page, page_num):self.page = pageself.page_num = page_numself.hread = {'Upgrade-Insecure-Requests': '1','Referer': 'https://manhua.fzdm.com/2/' + str(self.page) + '//index_' + str(self.page_num) + '.html','user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}try:wb_data = requests.session().get(url, headers=self.hread, verify=False)if wb_data.status_code == 200:# print(wb_data.content)soup = BeautifulSoup(wb_data.text, 'lxml')# for child in soup.descendants:title = soup.find_all('script', type='text/javascript')# print(title[1])for name in title[1]:spl=re.search(r'"\S*?\.jpg"',str(name))   #正则表达式,拿取每个图片的url地址self.new_mhurl=spl.group()else:print("超过访问限制")except:for page_num in range(0, 18):url = 'http://manhua.fzdm.com/2/{}/index_{}.html'.format(935, page_num)parseMultiplePages(url, 935, page_num)def downImage(self):path = "海贼王/" + str(self.page)url = re.sub('"', '', str(self.new_mhurl))imageUrl = "http://p17.xiaoshidi.net/" + urlprint(imageUrl)wb_data = requests.session().get(imageUrl, headers=self.hread, verify=False)if not os.path.exists(path):os.mkdir("海贼王/" + str(self.page))else:print(self.page_num)with open(path + '/{}.jpg'.format(self.page_num), 'wb')as f:f.write(wb_data.content)def getNumber(self):self.hread = {'Upgrade-Insecure-Requests': '1','Referer': 'https://manhua.fzdm.com/2/','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'}url = 'https://manhua.fzdm.com/2/'rep_data = requests.get(url, headers=self.hread, verify=False).textdoc = pq(rep_data)data = doc('.pure-g  li a').items()thisset = list()for title in data:t = title.attr('href')thisset.append(t)return thisset[3:5]  #这里爬去为最新的前两章节if __name__ == '__main__':# dl_chapters(935,938)dwon = downIamge()number = dwon.getNumber()for page in number:for page_num in range(0, 20):url = 'http://manhua.fzdm.com/2/{}index_{}.html'.format(page, page_num)dwon.parseMultiplePages(url, page, page_num)dwon.downImage()

python爬去风之动漫---海贼王案例相关推荐

  1. python爬去淘宝西装数据

    python爬去淘宝西装数据 啥也不说代码先码上 #爬取数据 from selenium import webdriver from bs4 import BeautifulSoup import t ...

  2. Python爬去樱花动漫 超简单

    没事干,就像爬爬樱花动漫 一,观察网页 樱花动漫有国漫,日漫,欧美,港台等分区,他们的网址有略微不同,类似于这样. 国漫:https://www.yhdmwz.com/gcdm.html 日漫:htt ...

  3. python爬去segementfault上的博客文章

    利用Scray框架爬去segementfault上的保存到数据库然后发送到自己的邮箱 先显示部分源码: coding:utf-8 ! /usr/bin/python ''' Author fiz Da ...

  4. python爬去起点小说名以及评分

    起点的排序眼花缭乱,什么点击量,收藏量,月票量什么的,唯独没有按评分的排序.我觉得挺奇怪的,评分是个很值得参考的标准,起点居然不做???既然他不做,那我自己做吧. 大体思路:先写个爬虫把书籍信息爬下来 ...

  5. python爬去音乐_python爬去音乐

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 本文为大家分享了python爬取酷狗音乐排行榜的具体代码,供大家参考,具体内容如 ...

  6. python爬去哪儿攻略

    Python爬取去哪儿的攻略 入门教程 不需要html和css的相关知识也可以做 代码实现的步骤 1.向目标网页发送网络请求 2.获取数据,网页源代码 3.筛选我们要的数据 4.向每一个详情页链接发送 ...

  7. python爬去电影天堂恐怖片+游戏

    1.爬去方式python+selenium 2.工作流程 selenium自动输入,自动爬取,建立文件夹,存入磁力链接到记事本 3.贴上代码 #!/usr/bin/Python # -*- codin ...

  8. python爬去百度图片_爬虫篇| 爬取百度图片(一)

    什么是爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模 ...

  9. python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生

    人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...

最新文章

  1. opencv orb
  2. 操作系统(二十四)多生产者多消费者问题
  3. android mock测试资源,Android 单元测试 --Mock 及 Mockito
  4. Android Glide图片加载框架(一)基本用法
  5. Oracle基础语句
  6. 正则表达式超级生成工具 Regulator
  7. 2.14 加载Firefox配置
  8. 是时候研读一波导师的论文--一个简单有效的联合模型
  9. 2015轻院校赛 H五子棋
  10. win10远程桌面Android软件,Microsoft发布了适用于Android的远程桌面应用程序10.0.7版的重大更新...
  11. Java实现图片水印
  12. ubuntu16.04安装翻译软件stardict
  13. 【JavaScript】简易打地鼠游戏
  14. kali安装小企鹅输入法
  15. dubbo线程池exhausted
  16. Tableau筛选器:仪表板中运用地图做筛选器
  17. Windows10系统部分软件出现中文乱码解决方法
  18. Python学习手册 - 基础知识汇总(精简版)
  19. 【SRE笔记 2022.8.16 Linux命令基础01】
  20. 处理效应模型stata实例_Stata手动:各类匹配方法大全 A——理论篇

热门文章

  1. 计算机中的电介质,计算机科学技术-第三章静电场中的电介质.doc
  2. IBM SPSS Statistics 26 for mac统计分析spss软件安装包下载安装教程Mac系统
  3. 聚焦“碳中和”,成都超算中心牵手重庆大学唱好“成渝双城记”
  4. SolidWorks三维助手(二)
  5. 汇编语言 DOSBOX的安装与masm的汇编
  6. (五)Saving Data保存数据
  7. android 字体失真,Android 图片及文字模糊效果
  8. deepfake 的深度学习技术 Facewap
  9. Servlet | Servlet原理、开发第一个带有Java小程序Servlet
  10. Windows小技巧 -- 批处理文件实现目录下文件批量打包压缩