工具

  • Python3

    • requests
    • pypdf2
  • Linux
    • convert
    • pdftk
  • calibre,电子书格式转换神器

漫画爬取

这一部分使用Python代码完成

第三方库:

requestsbs4

# coding: utf-8
import requests# 这里爬取的是"漫画台"的漫画
index_url = "http://www.manhuatai.com"# 观察需要爬取的漫画,可以发现几个规律# 多点开几个漫画的图片可以发现,它的图片地址是由不同章节和页数来变化的,所以我们只需要替换下面的两个数字即可完成整个漫画的爬取。661表示话与1表示页数
pic_url = "http://mhpic.manhualang.com/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%2F661%E8%AF%9DSM%2F1.jpg-mht.middle"# 再观察爬取的漫画,发现每一话最多只有9页,总共有661话。所以综上,两个循环即可完成爬取def scrapy():for index in range(1, 662):for num in range(1, 10):# 不足100话的时候需要填充为三位数if index < 10:hua = "00" + str(index)else:hua = "0" + str(index)pic_url = "http://mhpic.manhualang.com/comic/D%2F%E6%96%97%E7%A0%B4%E8%8B%8D%E7%A9%B9%2F{}%E8%AF%9DSM%2F{}.jpg-mht.middle".format(hua, index)s = requests.get(url)print("正在爬取第{}话第{}张".format(hua, num))# 保存图片到本地,名字为话+页with open("{}-{}.jpg".format(hua, num), "wb") as pic:pic.write(s.content)print("第{}话第{}张爬取完毕".format(hua, num))if __name___ == "__main__":# 运行代码scrapy()

写在后面,这部分代码也可以使用threading加快爬取速度

图片转pdf

这里使用到了Linux下的命令convert

convert input.jpg output.pdf

本来可以直接将所有图片转换成一个pdf,但是由于不知名的原因,这样转换出来的pdf是不完整的。所以我借助了python来调用convert逐一转换。

import os
# 获取当前文件夹下所有的文件,无序
pic_lst = os.listdir()
for pic in pic_lst:# 除去本身这个代码if "jpg" in pic:# 调用convertos.system("convert {} {}".format(pic, pic[:-4] + ".pdf"))
# 这里有一点失误,jpg图片和pdf文件混在了一个文件夹下,将pdf放进pdf_dir进行合成
mkdir pdf_dir && mv *.pdf pdf_dir

pdf合成

这里使用到了pdftk,Linux下的pdf操作工具,需要额外下载

pdftk 1.pdf 2.pdf 3.pdf output.pdf

但是我不想下载这个工具,还是使用的python的第三方库pypdf2来完成这项工作

我在github上简单的封装了合并pdf的代码,直接copy下来用就行,这里需要值得注意pdf的顺序

github地址

pdf转mobi

以上就是爬取漫画并制作pdf过程,但是我是要放到kindle上阅读的,所以我还需要转换成mobi格式(据说支持更友好)。很遗憾convert转换出来的mobi不能阅读,借助了calibre这个软件。

最后,感觉还是pdf阅读效果更好。。。QAQ

用Python爬取漫画并转换格式为pdf和mobi相关推荐

  1. 用python爬取漫画,代入感太强了

    导语: 哈喽,哈喽~当有人给你安利了一部超级好看的漫画时. 你点进去看了一下,这画风,这剧情,代入感太强我现在宣布我就是女主了. 但是看着看着,要vip你又没有,这是什么人间疾苦啊!我的女主光环呢? ...

  2. 用python爬取漫画!

    作者: 锋小刀 微信搜索[Python与Excel之交]关注我的公众号查看更多内容 Hi~ 大家好! 今日教大家用Python爬取某网站的全部漫画,让你想看什么漫画就看什么漫画!本文代码量有的多,请耐 ...

  3. 通过html直接显示txt内容_10分钟教你用Python爬取Baidu文库全格式内容

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...

  4. 10分钟教你用Python爬取Baidu文库全格式内容

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:向柯玮,周航 程序猿声 PS:如有需要Python学习资料的小伙伴可 ...

  5. python怎么爬取_宅男福利,教你怎么用Python爬取漫画

    抓取漫画的由来也是看了知乎上有人说用爬取漫画,然后自己也玩玩 首页中每个漫画的url是类似这样存储的: K.O.I 偶像之王 然后用lxml通过cssselect(tr>td>a)将能用到 ...

  6. python 爬取漫画《黑鹭尸体宅配便》

    想看<黑鹭尸体宅配便>这部漫画,全网找了一圈,资源特别少,手机资源上很少,虽然网页能看,但是想用手机看比较耗费流量.就想把漫画下载下来,能放在手机上看 用requests+re访问漫画网站 ...

  7. Python爬取漫画之咒术回战

    爬取漫画 一次性加载的网站:使用requests + bs4就足够了 带加载的网站:使用requests + selenium无界面操作 import requests, os, pprint, ti ...

  8. Python 爬取漫画以及JS解析

    漫画屋 - 爬取所有漫画(js解析-只要有就能获取) JS解析网站大体流程(自我感觉一般都是这个流程) 网站踩点 ----- 先去查看这个网站数据加载的一种方式或者说网站加载的流程 接口分析 ---- ...

  9. Python爬取视频(m3u8格式)

    提示:爬虫必备,m3u8常见视频格式的爬取!

  10. Python爬取网站小说保存txt,pdf文件

    # 爬取小说 http://www.hengyan.com/dir/9495.aspxfrom lxml.html import etree import requests import re imp ...

最新文章

  1. 四位共阳极数码管显示函数_Verilog笔记
  2. 技术干货 | 视频最佳体验之自适应调节系统
  3. 【九章算法免费讲座第一期】转专业找CS工作的“打狗棒法”
  4. tornado-简介和原理
  5. C/C++编译器教程之如何安装vs,看了的人应该都会装,只要不手残
  6. Hyperledger Fabric 命令整理
  7. java聊天室源工程文件_socket实现java聊天室,公告等功能,前后端分离(附源码)...
  8. JAVA→异常、异常类体系结构、try→catch→finally处理异常、throw new Exception(“重构异常“);、throws Exception{ }、自定义异常
  9. 在OLT上查看SLAN
  10. linux系统中配置NFS实现文件共享
  11. java 字符串排序_Java控制台输入字符串及字符串比较
  12. 基于SSM车牌识别停车场管理系统
  13. 测试苹果电脑性能软件xbench在哪,mac性能测试网址
  14. sort(function(a,b){return a -b})函数排序问题
  15. 节点英雄榜之脑海链:构建区块链化的知识变现经济生态
  16. 老生常谈-forwar的与redirect的区别与联系
  17. python 图片处理模块_python Image 模块处理图片
  18. java的发展(8-17新特性整理)
  19. html怎么进入阅读模式,怎么用浏览器看小说进入阅读模式
  20. 经典的机器学习200道面试题及答案

热门文章

  1. 【2017满分】尔雅 刘忠良 绿色康复答案题库
  2. 全网最强最细postman接口测试教程(一)
  3. 互联网下一个风口 国务院印发《促进大数据发展行动纲要》
  4. 计算机命令关闭445端口,关闭445端口命令是什么?设置关闭445端口的步骤教程
  5. 如何以16进制打开dll文件
  6. putty远程linux系统时间修改,使用putty远程linux服务
  7. 文本密度 php,基于最大文本密度的网页正文抽取方法
  8. 小游戏市场被微信点燃,社交平台蜂拥而至谁能分到蛋糕?
  9. 楼天成 中国大学生编程第一人
  10. 联想 缺少计算机所需的介质驱动程序,联想笔记本缺少驱动应该怎么办