点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

你若盛开,清风自来。

大家好,我是皮皮。

一、前言

前几天在帮助粉丝解决问题的时候,遇到一个简单的小需求,需要批量提取pdf文件目标信息,这里拿出来跟大家一起分享,后面再次遇到的时候,可以从这里得到灵感。

二、需求澄清

下面他下载的pdf文件,有几百个文件,这里拿出部分做示例,每个pdf文件里边有一个统一社会信用代码,后面的数字和字符是他的目标信息,需要提取出来。

三、实现过程

这里实现主要借用了pdf文件读取库和正则表达式来提取,先给出单个pdf文件提取的方法,代码如下所示:

from pdfminer import high_level
import retext = high_level.extract_text('1.pdf')  # 提取pdf中的文本信息
# print(text)
regex = r'统一社会信用代码:(.*?)\n'
xinyongcode = re.findall(regex, text)
print(xinyongcode)

有了前面的代码打底之后,接下来就可以实现批量处理了,代码如下所示:

from pdfminer import high_level
from pdfminer.layout import LTTextContainer  # 文本容器
import re
import osfor root, dirs, files in os.walk('./'):# root 表示当前正在访问的文件夹路径; dirs 表示该文件夹下的子目录名list;files 表示该文件夹下的文件list# 遍历文件for f in files:file_name = os.path.join(root, f)if file_name.endswith('.pdf'):text = high_level.extract_text(file_name)  # 提取pdf中的文本信息regex = r'统一社会信用代码:(.*?)\n'xinyongcode = re.findall(regex, text)print(xinyongcode[0])

代码运行之后,可以依次得到所有文件携带的目标信息,如下图所示:

剩下的工作就不多赘述了,大家自行考虑即可。

三、总结

大家好,我是皮皮。这篇文章主要盘点一个批量提取pdf文件目标信息的实用案例,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting),应粉丝要求,我创建了一些高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐:

  • 盘点一个网络爬虫POST请求参数构造的问题

  • 盘点一个Python基础中循环判断遇到一个小问题

  • 重装pycharm和Python环境以后,以前的文件selenium获取不到元素了?

  • 不使用内置函数的情况下,如何使用Python实现求平均值、最大值和最小值?

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

盘点一个批量提取pdf文件目标信息的实用案例相关推荐

  1. Python3,9行批量提取PDF文件的指定内容,这种操作,保证人见人爱....

    批量提取PDF文件指定内容 1.引言 2.代码实战 2.1 介绍 2.2 安装 2.3 实例 3.总结 1.引言 小屌丝:鱼哥, 你有没有什么办法,提取PDF文档的内容. 小鱼:这个还问我?? 小屌丝 ...

  2. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  3. Python脚本工具,PyMuPDF批量提取PDF文件中的图片

    如何批量快速提取出PDF中的图片文件,你是否遇到这样的一个问题,尤其是PPT文件转换为PDF文件,需要快速提取其中的图片文件,如果你恰好会那么一点py,同时复制粘贴没问题的话,那么相信你也能够很轻松的 ...

  4. 个人永久性免费-Excel催化剂功能第88波-批量提取pdf文件信息(图片、表格、文本等)...

    日常办公场合中,除了常规的Excel.Word.PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦.此篇给大家送一pdf文件提取信息 ...

  5. Python批量提取PDF文件中的文本

    首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import os import sys import time pdfs = (pdfs for pdfs ...

  6. 3个方法提取PDF文件里的图片

    PDF文件可以保护文档内容不容易被更改,但也因为这样,有一些需求无法进行操作.比如PDF文件里的图片,不能通过另存为保存下来. 那如果想要提取PDF文件里的图片要如何操作呢?下面分享三个方法给大家. ...

  7. Python工具源码,Python批量提取PPT文件中的图片

    在办公场景当中,同样也有这样一个需求,那就是快速批量把PPT文件中的图片提取出来,毕竟一个个点击另存为太过于繁琐,以及耗费时间,前面本渣渣分享过如何应用Python批量提取PDF文件中的图片,而这一篇 ...

  8. 批量提取pdf文件名到excel

    如何批量提取pdf文件名到excel?pdf因为其稳定性强的原因成为最常用的办公文件,有时候我们在网上下载的文件大都是pdf格式的.现在我向大家提一个问题,如果电脑里某个文件夹中保存了很多数量的pdf ...

  9. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

最新文章

  1. 根据STATUS信息对MySQL进行优化
  2. 3Animation动画的创建,CCSpeed,CCFollow
  3. 功率曲线k值_特性曲线在参数计算中的应用
  4. 力扣62-不同路径(C++,留个思路)
  5. 一次问题处理后的处理流程总结
  6. java8模块化_Java9系列第8篇-Module模块化编程
  7. jquery 利用CSS 控制打印样式
  8. Java进阶篇设计模式之十三 ---- 观察者模式和空对象模式
  9. vue-lazyload的使用
  10. UI 自定义视图 ,视图管理器
  11. matlab中图例的字怎么改,matlab中legend函数在添加图例时的使用方法
  12. 对偶式与反函数_对偶式和反函数什么关系,是不是都是一样,还是怎么回事啊,...
  13. golang学习之五:error、painc、recover
  14. 桌面虚拟化 VMware Horizon View 7 安装部署指南 云办公系统安装部署
  15. vue子元素点击事件与父元素点击事件冲突 子元素点击事件不触发
  16. MySQL-06-MD5加密
  17. powershell免杀可替换的关键字
  18. [iOS]监控屏幕旋转
  19. 《全数据时代的炼金师》读书笔记(二)
  20. 华为od机考题目-考古学家

热门文章

  1. OpenCV_颜色检测实现肤色检测(类处理彩色图像进阶)
  2. 飞音网络电话V2.0.3.0 [语质卓越 绿色小巧]
  3. 201871010128-杨丽霞《面向对象程序设计(java)》第二周学习总结
  4. 一站解决经常使用的软件的护眼方法:edge,vscode,win10等
  5. Linux的NAT如何处理ICMP这类带外信息
  6. Java工程师学习指南(初级篇)
  7. android 短视频编辑,分享Android短视频制作(最简洁的一个)
  8. 第十四届蓝桥杯(web应用开发)模拟赛2期 -大学组
  9. Haxe的结构体与匿名结构体
  10. 30多年前的那场芯片战争,日本是如何一败涂地的?