爬取漫画

  • 一次性加载的网站:使用requests + bs4就足够了
  • 带加载的网站:使用requests + selenium无界面操作
import requests, os, pprint, time, re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup# 无界面初始化
chrome_opt = Options()      # 创建参数设置对象.
chrome_opt.add_argument('--headless')   # 无界面化.
chrome_opt.add_argument('--disable-gpu')    # 配合上面的无界面化.
chrome_opt.add_argument('--window-size=1366,768')   # 设置窗口大小, 窗口大小会有影响.# 创建Chrome对象并传入设置信息.
driver = webdriver.Chrome(chrome_options=chrome_opt)# “咒术回战”的漫画主网站
manhuaWebMap = 'https://www.xxxxxxxxxxxxxxxxxxxxxxxx.com'
# 获取html文本形式
res = requests.get(manhuaWebMap).text
# 解析lxml
soup = BeautifulSoup(res, 'lxml')
# 选中Id属性为"chapter-list-1"下的所有<li>标签
elems = soup.find(id="chapter-list-1").find_all('li')
# 读取标签
for i in elems:# 选中<a>标签的位置mainTarge = i.find('a')# 漫画第几话地址manhuaOneMap = mainTarge.get('href')# 漫画第几话编号manhuaOneName = mainTarge.get('title')print(f'Downloading page {manhuaOneName}')manhuaFolderMap = fr'G:\xxxxx\咒术回战\{manhuaOneName}'# 创建存放路径,exist_ok设置为True,若路径存在不报错os.makedirs(manhuaFolderMap, exist_ok=True)driver.get(f'https://www.manhuabei.com/{manhuaOneMap}')#得到页数pageNumber = int((driver.find_element_by_xpath('//*[@id="images"]/p').text)[-3:-1])for j in range(1, pageNumber+1):driver.get(f'https://www.manhuabei.com/{manhuaOneMap}?p={j}')# 图片地址manhuaPageMap = driver.find_element_by_xpath('//*[@id="images"]/img').get_attribute('src')try:with open(fr'{manhuaFolderMap}\{str(j).rjust(2, '0')}.jpg', 'wb') as f:# 写入get到的图片f.write(requests.get(manhuaPageMap).content)except Exception:passfinally:time.sleep(1)print('-------------------------------------------')time.sleep(3)
print(len(elems))

Python爬取漫画之咒术回战相关推荐

  1. 用python爬取漫画,代入感太强了

    导语: 哈喽,哈喽~当有人给你安利了一部超级好看的漫画时. 你点进去看了一下,这画风,这剧情,代入感太强我现在宣布我就是女主了. 但是看着看着,要vip你又没有,这是什么人间疾苦啊!我的女主光环呢? ...

  2. 用python爬取漫画!

    作者: 锋小刀 微信搜索[Python与Excel之交]关注我的公众号查看更多内容 Hi~ 大家好! 今日教大家用Python爬取某网站的全部漫画,让你想看什么漫画就看什么漫画!本文代码量有的多,请耐 ...

  3. python怎么爬取_宅男福利,教你怎么用Python爬取漫画

    抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩 首页中每个漫画的url是类似这样存储的: K.O.I 偶像之王 然后用lxml通过cssselect(tr>td>a)将能用到 ...

  4. python 爬取漫画《黑鹭尸体宅配便》

    想看<黑鹭尸体宅配便>这部漫画,全网找了一圈,资源特别少,手机资源上很少,虽然网页能看,但是想用手机看比较耗费流量.就想把漫画下载下来,能放在手机上看 用requests+re访问漫画网站 ...

  5. Python 爬取漫画以及JS解析

    漫画屋 - 爬取所有漫画(js解析-只要有就能获取) JS解析网站大体流程(自我感觉一般都是这个流程) 网站踩点 ----- 先去查看这个网站数据加载的一种方式或者说网站加载的流程 接口分析 ---- ...

  6. python动画篮球大小_产品经理必备打野技能 之 用Python爬取漫画《篮球少年王》...

    前段时间一直看动漫<鸭子的天空>别名篮球少年王,视频更新得比较慢,而且还要vip才能看~ 于是看看有没有漫画可以看,B站漫画上倒是有,要158元(真富贵)解锁才能看,我支持正版,但我喜欢免 ...

  7. Python爬虫实战,requests+tqdm模块,爬取漫画数据(附源码)

    前言 今天给大家介绍的是Python爬取漫画数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取 ...

  8. Python爬取斗破苍穹漫画

    用Python爬取斗破苍穹漫画.刚好我自己也练练手, 1 分析漫画网站,http://www.manhuatai.com/ 2 分析网页发现,图片的URL很有规则 3 https://mhpic.ju ...

  9. python 爬取整部漫画(简单的图片爬取)

    用python爬取整部漫画 文章目录 用python爬取整部漫画 契机 收集信息  目录页   内容页 开始爬取   目录页   内容页 完整代码 契机 最近突然少女心爆棚,追上了一本甜甜的恋爱日漫& ...

最新文章

  1. 微信接口调用 ---ACCESS_TOKEN
  2. Spring Boot怎么样处理静态资源(静态资源映射规则)_Web开发
  3. vr体验馆项目_VR安全体验馆在江苏方洋项目推广应用啦!
  4. Think in AngularJS:对比jQuery和AngularJS的不同思维模式
  5. Java加密与解密的艺术~DESede实现
  6. 字符串string 、byte[]、MemoryStream、Base64String的相互转换
  7. html span标签 不换行(有时span带中文时候是可以自动换行的)
  8. Mvn : Maven的依赖管理 依赖冲突 解决思路
  9. Blockchain.com将于今日7:59暂停XRP交易
  10. 上dj是什么意思_火花塞上的每个编码是什么意思
  11. c#“集合已修改;可能无法执行枚举操作”
  12. iOS Crash类别总结
  13. 管理员登录页面html代码,Admin管理员登录界面
  14. redis 雪崩、击穿、穿透
  15. java中File流转Base64
  16. 基于朴素贝叶斯的兴趣分类
  17. Android开机启动流程
  18. 外贸独立站之Facebook广告
  19. mysql连接耗尽_避免数据库连接被耗尽的三种配置
  20. 生命周期组件框架:带有多状态机的单实现类

热门文章

  1. 平衡树——旋转的原理、左旋转、右旋转、LR、RL
  2. Flutter「发布预览版 2」让 iOS 应用至臻完美
  3. Ansys-HFSS-路由器WiFi天线设计仿真-套筒天线-单极天线
  4. 游戏的本质[转自网易]
  5. android wear听音乐,用户反映Android Wear影响蓝牙耳机的音质
  6. A40i-linux 扩展文件系统分区
  7. 严谨而浪漫!20个来自德国网页设计
  8. 弘辽科技:为什么你的店铺排名一直上不去?
  9. 图解三种备份方式(LAN,LAN free,Server free)
  10. 放大招啦,用Python来预测双色球