阅读本文大概需要 3 分钟。

将网页转换为pdf之前用过 wkhtmltopdf 这个工具,对应的 Python 库是 pdfkit,但是最终转换出来的效果总是不尽如意。

最近发现一个新的库 WeasyPrint , 经过一番测试效果非常不错,无论是从官方网站的介绍还是提供的文档,看得出作者应该是花了不少心思来做这件事。

最重要的是,安装简单,使用方便。不像pdfkit调用的都是 wkhtmltopdf 提供的指令,而 WeasyPrint 是一个原生的Python项目,所以特别适合做 Python 定制开发,当然,它也需要依赖其它第三方库。

安装

WeasyPrint 能在 Linux, macOS and Windows 多平台支持,因为WeasyPrint需要依赖 cairo, Pango 和 GDK-PixBuf ,所以这些软件需要独立安装,而 WeasyPrint 可以直接通过 pip 安装。

Mac

brew install python3 cairo pango gdk-pixbuf libffi

Window

Windows的安装要稍微麻烦些, 主要是安装 GTK+ 这个库,下载地址:https://github.com/tschoonj/GTK-for-Windows-Runtime-Environment-Installer/releases/download/2020-11-22/gtk3-runtime-3.24.23-2020-11-22-ts-win64.exe

安装WeasyPrint

pip install WeasyPrint

不出意外的话,你现在就可以使用 WeasyPrint 这个工具了。执行 weasyprint 命令, 指定要转换的 url 地址和 pdf 文件名即可。

我们随便指定一个 URL 地址,这里以我的博客为例

weasyprint https://foofish.net/base64.html  base64.pdf

最后生成的效果图

这就完了吗?

肯定不是,如果只是单纯的转换一个网页,直接用浏览器的打印功能,然后另存为 PDF 就可以了。没必要绕个这么大的弯子来做这件事。

我们之所以用它来做 PDF 转换肯定是希望它能够为我们实现自动化、批量化、个性化的任务。

构建 HTML 对象

生成 PDF 文件前,首先需要构建一个 HTML 对象,HTML 对象可以通过 url 链接、文件路径,或者是 HTML 文档字符串指定

from weasyprint import HTMLHTML(filename='../foo.html')HTML(url='http://weasyprint.org')HTML(string='''<h1>The title</h1><p>Content goes here
''')

生成 pdf 文件只需要调用 html 对象的 write_pdf 方法

一个最简单的例子:

from weasyprint import HTML
HTML('https://foofish.net/base64.html').write_pdf('base64.pdf')

在转换的时候,你还可以自定义样式

from weasyprint import HTML, CSS
HTML('https://foofish.net/base64.html').write_pdf('base64.pdf',stylesheets=[CSS(string='body { font-family: serif !important }')])

当然不仅可以生成PDF,也可以生成PNG图片, 只需要调用 html.write_png(“filename.png”)。

Document对象

此外,HTML 对象的 render 方法返回一个 document 对象,通过 document 对象可以拿到所有页码(page)数据,这样你就可以获取指定页的数据来生成 PDF 或者将多个 HTML 的 document 对象合并成一个 PDF 文件。

例如,将每页单独生成一张图片

html1 = HTML("https://foofish.net/base64.html")
document = html1.render()
for i, page in enumerate(document.pages):document.copy([page]).write_png('page_%s.png' % i)

例如:将两个链接整个生成一个PDF文件


html1 = HTML("https://foofish.net/base64.html")
html2 = HTML("https://foofish.net/python-wsgi.html")
pages = []
pages.extend(html1.render().pages)
pages.extend(html2.render().pages)
HTML(string="").render().copy(pages).write_pdf("foofish.pdf")

好文和朋友一起看~

牛逼,这个 PDF 库比其它工具好用 99 倍相关推荐

  1. 牛逼,这个PDF库比其它工具好用99倍

    将网页转换为pdf之前用过wkhtmltopdf这个工具,对应的python库是pdfkit,但是最终转换出来的效果总是不尽如意. 最近发现一个新的库 WeasyPrint , 经过一番测试效果非常不 ...

  2. 阿里内部的那个牛逼带闪电的Java诊断工具arthas终于开源了

    在阿里巴巴内部,有很多自研工具供开发者使用,其中有一款工具,是几乎每个Java开发都使用过的工具,那就是Arthas,这是一款Java诊断工具,是一款牛逼带闪电的工具.该工具已于2018年9月份开源. ...

  3. 阿里内部的那个牛逼带闪电的Java诊断工具终于开源了

    文章目录 日常开发遇到的问题 Arthas安装 使用as.sh安装 使用arthas-boot安装 卸载 简单的应用 查看dashboard 通过thread命令来获取到arthas-demo进程的M ...

  4. 牛逼的Python库MoviePy!利用Python自动剪辑tiktok视频!

    最近看到一个Github项目,作者利用Python写了一个自动生成tiktok视频的脚本,受到热捧. 现在像抖音.tiktok上有很多流水线生产的视频,不少视频博主靠这个赚了很多,我觉得蛮有意思,这里 ...

  5. 整理37个超牛逼的Python库,用过6个算你牛!

    人生苦短,快学Python! 用了 2 周的时间整理了 Python 中所有的网站开发库(下文简称:Web 框架),供大家学习参考. Q:Web 框架到底是什么? A:Web 框架主要用于网站开发.开 ...

  6. 牛逼,Java中表达式引擎工具就用它!建议收藏,一定用的到!!

    最近在负责一个和定价有关的系统,要做分层的价格决策.在决策过程中有两个诉求: 1.需要根据一定的表达式公式,进行分层决策.如订单金额大于1000元时,给10块钱红包,介于100和1000之间的给5元红 ...

  7. 整理37个超牛逼的Python库,用过一半算你牛

    用了 2 周的时间整理了 Python 中所有的网站开发库(下文简称:Web 框架),供大家学习参考. Q:Web 框架到底是什么? A:Web 框架主要用于网站开发.开发者在基于 Web 框架实现自 ...

  8. 牛逼的python库-python命令行调试工具pdb的基本用法

    实际工作过程中都是采用linux远程ssh模式进行无界面开发,代码出问题需要调试,一般有两种解决方案 使用print("")控制开输出信息 使用log.debug("&q ...

  9. 超牛逼的在线网站seo分析工具:Ahrefs反向链接检查

    这个seo工具如果用来分析对手网站外链结构,很多具体的数据信息查询的非常清楚.这些数据都很有利于对网站进行优化分析. 下面就简单介绍一下这个工具的几个特色用法 一:外部链接综合参考报告 Ahrefs可 ...

最新文章

  1. Nginx实现负载均衡(整合SpringBoot小demo)
  2. synchronized,ReentrantLock解决锁冲突,脏读的问题
  3. sharepoint对象模型性能比较
  4. 在Windows Live Writer中插入C# code
  5. Linux 设备驱动开发思想 —— 驱动分层与驱动分离
  6. 修改linux默认启动级别(包括Ubuntu)
  7. 一文总结More Effective c++
  8. python s append_Python Pandas Series.append()用法及代码示例
  9. php获得mp3文件总时间,php获得音频文件信息,php获得mp3文件信息
  10. 【Linux】vim简介及安装
  11. 嗯嗯------摘抄
  12. 搜狗输入法 linux 卸载,ubuntu彻底卸载搜狗拼音输入法
  13. java pv uv 统计_shell统计pv和uv、独立ip的方法
  14. Automated Installations of Multiple RHEL/CentOS 7 Distributions using PXE Server and Kickstart Files
  15. python用链表求两数之和_python 算法 - 008 计算两个链表所代表的整数之和 (整数相加法)...
  16. matlab对摄像头实时运动目标检测,基于Matlab实时运动目标跟踪检测系统
  17. 肖秀荣:2022考研政治大纲解读及复习建议
  18. 创客学院9天C语言六
  19. 使用 UI Flow 从O365管理界面下载报告时遇到的问题和解决办法
  20. 两片74161实现60进制_设计60进制的计数器_用eda设计60进制计数器_74ls161(3)

热门文章

  1. 怎么清除谷歌浏览器的缓存
  2. 判断苹果黑条_iPhone12 悄悄隐藏着7个细节,你可能不知道
  3. 微信小程序管理软件的技术特点
  4. 36 | MySQL中神奇的用户临时表怎么用?
  5. 【图像处理】多帧降噪算法
  6. 千元内哪款蓝牙耳机隔音效果好?四款降噪蓝牙耳机测评
  7. Java第八课. 面向对象特征3-多态抽象类
  8. idea 破解版链接
  9. DevOps 什么是 CI/CD?
  10. 索尼a5100_女生的第一台微单 佳能M100对阵索尼A5100