爬取漫画

一次性加载的网站：使用requests + bs4就足够了
带加载的网站：使用requests + selenium无界面操作

import requests, os, pprint, time, re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup# 无界面初始化
chrome_opt = Options()      # 创建参数设置对象.
chrome_opt.add_argument('--headless')   # 无界面化.
chrome_opt.add_argument('--disable-gpu')    # 配合上面的无界面化.
chrome_opt.add_argument('--window-size=1366,768')   # 设置窗口大小, 窗口大小会有影响.# 创建Chrome对象并传入设置信息.
driver = webdriver.Chrome(chrome_options=chrome_opt)# “咒术回战”的漫画主网站
manhuaWebMap = 'https://www.xxxxxxxxxxxxxxxxxxxxxxxx.com'
# 获取html文本形式
res = requests.get(manhuaWebMap).text
# 解析lxml
soup = BeautifulSoup(res, 'lxml')
# 选中Id属性为"chapter-list-1"下的所有<li>标签
elems = soup.find(id="chapter-list-1").find_all('li')
# 读取标签
for i in elems:# 选中<a>标签的位置mainTarge = i.find('a')# 漫画第几话地址manhuaOneMap = mainTarge.get('href')# 漫画第几话编号manhuaOneName = mainTarge.get('title')print(f'Downloading page {manhuaOneName}')manhuaFolderMap = fr'G:\xxxxx\咒术回战\{manhuaOneName}'# 创建存放路径，exist_ok设置为True，若路径存在不报错os.makedirs(manhuaFolderMap, exist_ok=True)driver.get(f'https://www.manhuabei.com/{manhuaOneMap}')#得到页数pageNumber = int((driver.find_element_by_xpath('//*[@id="images"]/p').text)[-3:-1])for j in range(1, pageNumber+1):driver.get(f'https://www.manhuabei.com/{manhuaOneMap}?p={j}')# 图片地址manhuaPageMap = driver.find_element_by_xpath('//*[@id="images"]/img').get_attribute('src')try:with open(fr'{manhuaFolderMap}\{str(j).rjust(2, '0')}.jpg', 'wb') as f:# 写入get到的图片f.write(requests.get(manhuaPageMap).content)except Exception:passfinally:time.sleep(1)print('-------------------------------------------')time.sleep(3)
print(len(elems))

Python爬取漫画之咒术回战相关推荐

用python爬取漫画，代入感太强了
导语: 哈喽,哈喽~当有人给你安利了一部超级好看的漫画时. 你点进去看了一下,这画风,这剧情,代入感太强我现在宣布我就是女主了. 但是看着看着,要vip你又没有,这是什么人间疾苦啊!我的女主光环呢? ...
用python爬取漫画！
作者: 锋小刀微信搜索[Python与Excel之交]关注我的公众号查看更多内容 Hi~ 大家好! 今日教大家用Python爬取某网站的全部漫画,让你想看什么漫画就看什么漫画!本文代码量有的多,请耐 ...
python怎么爬取_宅男福利，教你怎么用Python爬取漫画
抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩首页中每个漫画的url是类似这样存储的: K.O.I 偶像之王然后用lxml通过cssselect(tr>td>a)将能用到 ...
python 爬取漫画《黑鹭尸体宅配便》
想看<黑鹭尸体宅配便>这部漫画,全网找了一圈,资源特别少,手机资源上很少,虽然网页能看,但是想用手机看比较耗费流量.就想把漫画下载下来,能放在手机上看用requests+re访问漫画网站 ...
Python 爬取漫画以及JS解析
漫画屋 - 爬取所有漫画(js解析-只要有就能获取) JS解析网站大体流程(自我感觉一般都是这个流程) 网站踩点 ----- 先去查看这个网站数据加载的一种方式或者说网站加载的流程接口分析 ---- ...
python动画篮球大小_产品经理必备打野技能之用Python爬取漫画《篮球少年王》...
前段时间一直看动漫<鸭子的天空>别名篮球少年王,视频更新得比较慢,而且还要vip才能看~ 于是看看有没有漫画可以看,B站漫画上倒是有,要158元(真富贵)解锁才能看,我支持正版,但我喜欢免 ...
Python爬虫实战，requests+tqdm模块，爬取漫画数据（附源码）
前言今天给大家介绍的是Python爬取漫画数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本数据爬取 ...
Python爬取斗破苍穹漫画
用Python爬取斗破苍穹漫画.刚好我自己也练练手, 1 分析漫画网站,http://www.manhuatai.com/ 2 分析网页发现,图片的URL很有规则 3 https://mhpic.ju ...
python 爬取整部漫画（简单的图片爬取）
用python爬取整部漫画文章目录用python爬取整部漫画契机收集信息目录页内容页开始爬取目录页内容页完整代码契机最近突然少女心爆棚,追上了一本甜甜的恋爱日漫& ...

Python爬取漫画之咒术回战

爬取漫画

Python爬取漫画之咒术回战相关推荐

最新文章

热门文章