大家在日常的工作学习过程中,都会遇到一个问题就是将pdf中的文本内容转化为word的形式,也就是从只读变成可读写的形式。面对这种情况,大家大都采用网上的工具,但是网上的工具良莠不齐,很难达到我们的需求。

今天,小编就带领大家利用python来实现如何将pdf的内容转化为word文档。同时我们还将提取pdf中的图片,保存到我们的指定文件夹内。

01.文字的提取

我们首先要做的是对于pdf中文本的提取,如下图所示:

Pdf中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取pdf中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其主要的函数如下图所示:

程序首先利用get_content_from_pdf函数来返回pdf中提取到的数据;

然后分别创建了PDFResourceManager对象来保存共享数据内容,PDFPageAggregator对象来将资源对象处理成我们需要的格式,而PDFPageInterpreter则是用来处理页面的内容;

程序中page_index用来帮助我们设定需要提取哪几页的内容,对于我们需要提取的页面,通过创建的PDFPageInterpreter对象来对页面信息进行解释;

最后通过PDFPageAggregator对象来对数据进行处理;

这里的layout中就包含了页面解析出来的各种对象。包括文本,图片等信息。但是小编发现,对于图片的提取,pdfminer的效果很不好,所以后面针对于图片的提取,小编采用的fitz库进行单独的处理,取得很好的图片提取效果。说了这么多,我们先来看一下对于文本的处理结果。

我们的pdf是一个两页的pdf文档,我们只让程序去提取第一页的文本,从上图可以看出,程序完整的提取出第一页的文本,没有任何的错误。

02.图片的提取

有了对于文字的处理,接下来我们就来看一下如何提取pdf中的图片,并将其保存到本地。对于图片的提取,程序如下图所示:

上述的程序中,我们利用fitz库来提取pdf文档中的对象,然后通过字符串匹配来判断对象是不是图片类型,如果不是的话,我们直接进行跳过即可。

如果判断对象是图片类型的话,我们边可以通过创建PixMap对象来提取图片,并保存到我们指定的路径下即可。结果如下图所示:

上图可以看出,我们正确的将图片进行了提取,从而达到了我们的图片提取的目的,而且小编也尝试过多个图片的提取,同样也是没有任何压力。可以在短短的几秒内完成pdf文档的所有图片的提取。

以上就是小编为大家带来的pdf转word的提取,我们经过讲解,不仅仅完成了对于pdf文档中文本的提取,而且还完成了对于图片的提取,从而大大的缓解我们工作的压力,提高了工作的效率,大家也赶快下载源码,应用起来吧。

目前wx搜索Python 【菜鸟学Python】排第二,汇聚了30万Python爱好者,累计原创近400篇趣味干货(爬虫,数据分析,算法,面试指南,原创趣味实战,Python游戏,机器学习),欢迎一起学Python,交流指正。

python读取pdf内容转word_卧槽!Pdf转Word用Python轻松搞定!相关推荐

  1. 如何给PDF文件添加页眉页脚,一分钟轻松搞定

    如何给PDF文件添加页眉页脚?很多在使用PDF文件的人都会有这样的问题,不知道如何给PDF文件添加页眉页脚,想要给PDF文件添加页眉页脚需要使用到PDF编辑器,下面就使用迅捷PDF编辑器为大家操作一下 ...

  2. CAD转换PDF格式怎么弄?教你几种方法轻松搞定!

    CAD是从事与艺术创作相关等行业的打工人们必需的工作软件,可以用来完成建筑设计图.设计图纸等.在日常的工作中,一些伙伴经常需要传输图纸给合作方来完成探讨.但是CAD图纸需要使用专业软件才能打开,这就给 ...

  3. PDF在转Excel免费的!在线工具!轻松搞定

    PDF处理,是很多小伙伴的"痛",工作学习中,PDF转换.PDF编辑.PDF和图片的各种问题都需要快速解决,但是付费就很肉疼了. 今天给大家推荐这个神仙PDF工具,解决你的所有PD ...

  4. python pdf转word 表格_太赞了!Pdf转Word,我用Python 轻松搞定表格和水印!

    原标题:太赞了!Pdf转Word,我用Python 轻松搞定表格和水印! 继上一次为大家推出了将pdf转word之后(卧槽!Pdf转Word用Python轻松搞定!),引起了大家的热烈讨论,我也总结了 ...

  5. 九十七、轻松搞定Python中的PDF办公自动化系列

    @Author:Runsen @Date:2020/7/15 人生最重要的不是所站的位置,而是内心所朝的方向.只要我在每篇博文中写得自己体会,修炼身心:在每天的不断重复学习中,耐住寂寞,练就真功,不畏 ...

  6. python中读取文件内容-Python读取文件内容的三种常用方式及效率比较

    本文实例讲述了Python读取文件内容的三种常用方式.分享给大家供大家参考,具体如下: 本次实验的文件是一个60M的文件,共计392660行内容. 程序一: def one(): start = ti ...

  7. python怎么读文件内容-Python读取文件内容为字符串的方法(多种方法详解)

    以下笔记是我在 xue.cn 学习群之数据分析小组所整理分享的心得.相关背景是:我选择中文词频统计案例作为考察大家python基础功掌握程度. 以小见大,下面是2个小技能的具体实战: 如何灵活地处理文 ...

  8. python火狐配置文件_Python+Selenium中级篇之4-封装一个自己的类-浏览器引擎类/Python读取配置文件内容...

    封装一个自己的类-浏览器引擎类 前一篇文章我们知道了,如何去封装几个简单的Selenium方法到我们自定义的类,这次我们编写一个类,叫浏览器引擎类,通过更改一个字符串的值,利用if语句去判断和控制启动 ...

  9. PDF怎么编辑修改内容?教你一招轻松搞定

    怎么编辑修改PDF文件中的内容呢?大家在日常中使用PDF文件的时候,如果发现文件中出现错误的内容时,想要编辑修改里面的文字,怎么才能做到呢?大家都知道PDF文件不能直接在里面编辑,所以有很多小伙伴想知 ...

  10. 可免费编辑 PDF 内容的 7 大 PDF 编辑工具

    有时您可能希望编辑 PDF 文档中的敏感信息,例如财务帐号和 ID 号,以便在不泄露隐私的情况下共享 PDF.编辑 PDF 是从 PDF 中删除私有内容.使用PDF 编辑工具可以轻松完成编辑.市场上有 ...

最新文章

  1. Ehcache的基本概念
  2. Apache Commons fileUpload实现文件上传
  3. jsp到java xml配置,JSP中web配置:web.xml
  4. purple-class2-默认选项切换
  5. ios开发读取剪切板的内容_为你找到3款Mac平台好用的剪切板工具,你值得拥有!...
  6. Android控件用法总结之EditText
  7. 【java】 java 反序列化过滤器 ObjectInputFilter
  8. ELK 6.2版本部署
  9. 如何使keystone更有效率
  10. eclipse 配置Maven问题解决办法:新建maven工程时报错:Could not resolve archetype org.apache.maven.archetypes .
  11. DockOne微信分享(一一零):Docker在沪江落地的实践
  12. sklearn 学习实践之——基于自带数据集(波士顿房价、鸢尾花、糖尿病等)构建分类、回归模型
  13. Java制作验证码的完整代码
  14. UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xff in position 0: illegal multibyte sequence
  15. PDF文件添加图片、文字合成(java)
  16. 高等数学—两个重要的极限定理
  17. GNU GRUB 2.02系统启动项管理设置
  18. 小数,分数,百分数及倍数的怎么表达?怎么读? kira86 于2010-07-07发布 l 已有1958人浏览增大字体 减小字体 常态文玩 数百名外教任意选,每天陪你练口语 一个积分学英语,您的账户
  19. 导致香港服务器运行不稳定的因素有哪些?
  20. 质数检验(埃拉托色筛选法、根号x复杂度算法)

热门文章

  1. 手工删除oracle的方法
  2. learning - Haskell AND Lisp vs. Haskell OR Lisp - Programmers Stack Exchange
  3. Android对system_server中binder的ioctl调用拦截
  4. 毕业后半年就变成了一条“狗
  5. 本周leetcode刷题总结!(二叉树)
  6. Topaz DeNoise AI 3.6.2 for Mac(图片降噪软件)
  7. 如何通过FTP从Mac快速发送和接收文件
  8. macOS应用程序打开时出现崩溃的情况,怎样处理?
  9. 比char还小的变量
  10. PostgreSQL Server进程检查启动脚本