Python爬取漫画之咒术回战
爬取漫画
- 一次性加载的网站:使用requests + bs4就足够了
- 带加载的网站:使用requests + selenium无界面操作
import requests, os, pprint, time, re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup# 无界面初始化
chrome_opt = Options() # 创建参数设置对象.
chrome_opt.add_argument('--headless') # 无界面化.
chrome_opt.add_argument('--disable-gpu') # 配合上面的无界面化.
chrome_opt.add_argument('--window-size=1366,768') # 设置窗口大小, 窗口大小会有影响.# 创建Chrome对象并传入设置信息.
driver = webdriver.Chrome(chrome_options=chrome_opt)# “咒术回战”的漫画主网站
manhuaWebMap = 'https://www.xxxxxxxxxxxxxxxxxxxxxxxx.com'
# 获取html文本形式
res = requests.get(manhuaWebMap).text
# 解析lxml
soup = BeautifulSoup(res, 'lxml')
# 选中Id属性为"chapter-list-1"下的所有<li>标签
elems = soup.find(id="chapter-list-1").find_all('li')
# 读取标签
for i in elems:# 选中<a>标签的位置mainTarge = i.find('a')# 漫画第几话地址manhuaOneMap = mainTarge.get('href')# 漫画第几话编号manhuaOneName = mainTarge.get('title')print(f'Downloading page {manhuaOneName}')manhuaFolderMap = fr'G:\xxxxx\咒术回战\{manhuaOneName}'# 创建存放路径,exist_ok设置为True,若路径存在不报错os.makedirs(manhuaFolderMap, exist_ok=True)driver.get(f'https://www.manhuabei.com/{manhuaOneMap}')#得到页数pageNumber = int((driver.find_element_by_xpath('//*[@id="images"]/p').text)[-3:-1])for j in range(1, pageNumber+1):driver.get(f'https://www.manhuabei.com/{manhuaOneMap}?p={j}')# 图片地址manhuaPageMap = driver.find_element_by_xpath('//*[@id="images"]/img').get_attribute('src')try:with open(fr'{manhuaFolderMap}\{str(j).rjust(2, '0')}.jpg', 'wb') as f:# 写入get到的图片f.write(requests.get(manhuaPageMap).content)except Exception:passfinally:time.sleep(1)print('-------------------------------------------')time.sleep(3)
print(len(elems))
Python爬取漫画之咒术回战相关推荐
- 用python爬取漫画,代入感太强了
导语: 哈喽,哈喽~当有人给你安利了一部超级好看的漫画时. 你点进去看了一下,这画风,这剧情,代入感太强我现在宣布我就是女主了. 但是看着看着,要vip你又没有,这是什么人间疾苦啊!我的女主光环呢? ...
- 用python爬取漫画!
作者: 锋小刀 微信搜索[Python与Excel之交]关注我的公众号查看更多内容 Hi~ 大家好! 今日教大家用Python爬取某网站的全部漫画,让你想看什么漫画就看什么漫画!本文代码量有的多,请耐 ...
- python怎么爬取_宅男福利,教你怎么用Python爬取漫画
抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩 首页中每个漫画的url是类似这样存储的: K.O.I 偶像之王 然后用lxml通过cssselect(tr>td>a)将能用到 ...
- python 爬取漫画《黑鹭尸体宅配便》
想看<黑鹭尸体宅配便>这部漫画,全网找了一圈,资源特别少,手机资源上很少,虽然网页能看,但是想用手机看比较耗费流量.就想把漫画下载下来,能放在手机上看 用requests+re访问漫画网站 ...
- Python 爬取漫画以及JS解析
漫画屋 - 爬取所有漫画(js解析-只要有就能获取) JS解析网站大体流程(自我感觉一般都是这个流程) 网站踩点 ----- 先去查看这个网站数据加载的一种方式或者说网站加载的流程 接口分析 ---- ...
- python动画篮球大小_产品经理必备打野技能 之 用Python爬取漫画《篮球少年王》...
前段时间一直看动漫<鸭子的天空>别名篮球少年王,视频更新得比较慢,而且还要vip才能看~ 于是看看有没有漫画可以看,B站漫画上倒是有,要158元(真富贵)解锁才能看,我支持正版,但我喜欢免 ...
- Python爬虫实战,requests+tqdm模块,爬取漫画数据(附源码)
前言 今天给大家介绍的是Python爬取漫画数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取 ...
- Python爬取斗破苍穹漫画
用Python爬取斗破苍穹漫画.刚好我自己也练练手, 1 分析漫画网站,http://www.manhuatai.com/ 2 分析网页发现,图片的URL很有规则 3 https://mhpic.ju ...
- python 爬取整部漫画(简单的图片爬取)
用python爬取整部漫画 文章目录 用python爬取整部漫画 契机 收集信息 目录页 内容页 开始爬取 目录页 内容页 完整代码 契机 最近突然少女心爆棚,追上了一本甜甜的恋爱日漫& ...
最新文章
- 微信接口调用 ---ACCESS_TOKEN
- Spring Boot怎么样处理静态资源(静态资源映射规则)_Web开发
- vr体验馆项目_VR安全体验馆在江苏方洋项目推广应用啦!
- Think in AngularJS:对比jQuery和AngularJS的不同思维模式
- Java加密与解密的艺术~DESede实现
- 字符串string 、byte[]、MemoryStream、Base64String的相互转换
- html span标签 不换行(有时span带中文时候是可以自动换行的)
- Mvn : Maven的依赖管理 依赖冲突 解决思路
- Blockchain.com将于今日7:59暂停XRP交易
- 上dj是什么意思_火花塞上的每个编码是什么意思
- c#“集合已修改;可能无法执行枚举操作”
- iOS Crash类别总结
- 管理员登录页面html代码,Admin管理员登录界面
- redis 雪崩、击穿、穿透
- java中File流转Base64
- 基于朴素贝叶斯的兴趣分类
- Android开机启动流程
- 外贸独立站之Facebook广告
- mysql连接耗尽_避免数据库连接被耗尽的三种配置
- 生命周期组件框架:带有多状态机的单实现类