用Python爬取斗破苍穹漫画。刚好我自己也练练手,
1 分析漫画网站,http://www.manhuatai.com/
2 分析网页发现,图片的URL很有规则
3 https://mhpic.jumanhua.com/comic/D%2F斗破苍穹拆分版%2F689话V%2F1.jpg-mht.middle
【上面链接后面的2F689代表698话】【上面链接后面的2F1代表每一话的第几章图片】
4 接下来就简单了,用for循环可以获取到图片并保存,

但是有个问题,我们不知道每一话的标题
比如 第689话 战幻身(中)

好在所有的章节信息都在http://www.manhuatai.com/doupocangqiong/这个链接里面,用正则把他们都提取出来。

先看下图片

贴上全部代码,

import requests
import re
import osdef baocun_img(zidian,book_name):n = 0for i, k in zidian.items():path = r"C:\Users\MI\Desktop\python\斗破苍穹\{}".format(book_name[n])os.makedirs(path)for pn_pn in range(1, int(k)+1):url = 'https://mhpic.cnmanhua.com/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%E6%8B%86%E5%88%86%E7%89%88%2F{}%E8%AF%9D%2F{}.jpg-mht.middle'.format(i,pn_pn)re = requests.get(url)with open(path+'\{}{}.jpg'.format(book_name[n], pn_pn),'wb') as f:f.write(re.content)f.close()print(book_name[n],'已经完成')n += 1def book_url():url = 'http://www.manhuatai.com/doupocangqiong/'res = requests.get(url)res.encoding = 'utf-8'book_nam = re.findall('title="第\d+话\s\S+\(\S\)', str(res.text))#得到每一话的名字book_ = re.findall('第\d+话\s\S+\(\S\)\(\d+P\)', str(res.text))book_p =re.findall('\d+P', str(book_))book_pn = re.findall('\d+', str(book_p))book_name1 = re.sub(r'title="|\s|\(|\)', '', str(book_nam))book_name = re.findall(r"'(.+?)'",book_name1)#将字符串转化为listbook_i = re.findall(r"\d+话", book_name1)book_id =re.findall(r'\d+', str(book_i))zidian = dict(zip(book_id,book_pn))baocun_img(zidian,book_name)book_url()

Python爬取斗破苍穹漫画相关推荐

  1. Scrapy爬取斗破苍穹漫画

    Scrapy爬取斗破苍穹漫画 文章目录 Scrapy爬取斗破苍穹漫画 前言 一.创建项目.创建爬虫 二.实战 1.items.py如下: 2.settings.py如下: 3.pipelines.py ...

  2. 使用python爬取斗破苍穹小说网

    使用python爬取斗破苍穹小说网,学会了以后就不用去看付费的小说了不多bb直接上源码 import requests from bs4 import BeautifulSoupdef file(): ...

  3. python爬取收费漫画_Python爬虫,爬取腾讯漫画实战

    先上个爬取的结果图 最后的结果为每部漫画按章节保存 运行环境 ide vs2019 python3.7 chrome.chromedriver chrome和chromedriver的版本需要相互对应 ...

  4. python爬取收费漫画_python爬取收费漫画_Python爬虫,爬取腾讯漫画实战

    先上个爬取的结果图 最后的结果为每部漫画按章节保存 运行环境 ide vs2019 python3.7 chrome.chromedriver chrome和chromedriver的版本需要相互对应 ...

  5. python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站

    注意事项 版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...

  6. Python爬取古风漫画网

    #!/user/bin/python # -*- coding: utf-8 -*-import requests from bs4 import BeautifulSoup from urllib ...

  7. python爬取付费漫画_python selenium爬取kuku漫画

    在爬取这个网站之前,试过爬取其他网站的漫画,但是发现有很多反爬虫的限制,有的图片后面加了动态参数,每秒都会更新,所以前一秒爬取的图片链接到一下秒就会失效了,还有的是图片地址不变,但是访问次数频繁的话会 ...

  8. python爬取付费漫画_Python爬虫---爬取腾讯动漫全站漫画

    标签,我猜测每部漫画的地址信息就存储在这些标签里面 随便打开一个<li>标签,点击里面包裹的链接地址会跳转到一个新的网页,这个网页正是我想要找的漫画地址,可以见得我的猜测是正确的,等到实际 ...

  9. 有一分热,发一分光,用Python 爬取鲁迅先生《经典语录》

    大家好,我是天作. 正值五四青年节,<后浪>看的人热血沸腾.B站版本视频的底部,评论最多的一段话之一便是鲁迅先生这句. "愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话 ...

最新文章

  1. P6620 [省选联考 2020 A 卷] 组合数问题(斯特林数、下降幂)
  2. iPad Air PSD设计模板
  3. java 获取指定日前的前一天
  4. Castle ActiveRecord学习实践:构建配置信息
  5. qq批量登录软件_20191228分享,雪藏了几天的软件合集分享,心痛一小编,开心一大家。...
  6. 视觉SLAM十四讲学习笔记-第七讲-视觉里程计-ICP和实践
  7. Mysql数据库详解
  8. java实用工具类——使用java代码实现ftp上传下载工具类
  9. halcon 相似度_怎样用深度学习判断两张图片的相似度?
  10. TOJ 3436: 相邻数
  11. (web前端网页制作课作业)使用HTML+CSS制作非物质文化遗产专题网页设计与实现
  12. 《那些年啊,那些事——一个程序员的奋斗史》——43
  13. 教你用Python向MySQL中插入一百万条测试数据
  14. Xing: The Land Beyond — 从课堂到 Steam* 的卓越之旅
  15. 每晚定时重启IIS和数据库服务可节省服务器资源
  16. JSON排除指定字段的4种方法
  17. 7-11 互评成绩(25 分)
  18. 计算机毕业做项目管理,计算机专业毕业论文-项目管理系统.doc
  19. linux usb 总线驱动程序,Linux下的USB总线驱动
  20. 虚拟化技术 - EXSI

热门文章

  1. 2019年伯克利大学 CS294-112《深度强化学习》第2讲:监督学习和模仿学习(笔记)
  2. 安装算量软件图纸比例操作
  3. python爬虫系列(2)—— requests和BeautifulSoup
  4. bugfree的下载方式
  5. CV17 HOG特征提取算法
  6. 在PowerShell中查看环境变量Path
  7. mysql 当前日期前后n天
  8. Date类型时间格式注解
  9. Nginx——Nginx缓存集成
  10. Python 爬虫案例(二)--附件下载