python提取pdf中的图片_提取PDF中内容(表格篇)
由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的。但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难。不时会碰到看的到内容却难以直接利用编辑的情况,即使拥有Adobe或者国产福昕等软件高级版的加持,批量处理,将其内容变成excel等容易处理的数据形式依然有所不便。所以借用Python超大的模块库当中的pdfplumber来解决这个问题(其主要针对PDF中的表格处理有优势,关于文字和图片等之后再更)
为了方便展示,我仅用跨2页的表格做展示,多页原理相同,单页就更加简单。由于可能涉密我把关键数字隐去,不过跨页的结构明显。我们的目标就是把PDF中的表格内容下载成excel形式保存。
# pdfplumber 获取PDF中的表格和数据import pdfplumber #读取文件pdf = pdfplumber.open("tableTest.pdf")#提取表格自定义函数,模块自带函数pages的参数[代表正在获取的页面] def getTable(pageNumber): #.extract_table()函数代表正在提取目标page中的表格中的数据 table = pdf.pages[int(pageNumber)].extract_table() return table#这就不用解释了import pandas as pd # 建立一个空list来存放提取额数据dataList = [] #你可以把范围设置到任何需要的数字,这里pdf只有两页,故为0和1。for y in (0,1): #利用前述自定义函数对每一页去提取数据 for x in getTable(y): #巧用filter函数--去掉原有格式当中额空值和None。 dataList.append(list(filter(None,x))) #print(list(filter(None,i))) #整理表格,这个只涉及pandas知识故不再赘诉finaleTable = pd.DataFrame(list(dataList))finaleTable.columns = finaleTable.loc[0,:]finaleTable.drop(0,axis=0,inplace=True)finaleTable.to_excel('test.xlsx',encoding='GBK')
运行结果如下,核心代码也就10行,还犹豫啥--人生苦短Python是岸!
python提取pdf中的图片_提取PDF中内容(表格篇)相关推荐
- 用jsp_servlet实现在mysql中存储图片_从数据库中读取并生成图片的Servlet
从数据库中读取并生成图片的Servlet 作者:未知 文章来源:www.jspcn.net 发布日期:2005年01月19日 作者:邵望 日期:2000-12-24 21:44:55 大体思路 ...
- PDF中的图片如何提取出来?分享两种提取方法
怎么把PDF文件中的图片提取出来呢?PDF文件大家在学习或者是办公中都会经常使用到.我们在做一份文件时,往往是需要查找资料来补充内容的,很多时候我们查找出的资料是PDF文件格式,如果发现里面的图片做到 ...
- 怎么从扫描的PDF文档/图片里提取文字
时间浪费在打字上可不好! 关于"怎么从扫描的PDF文档/图片里提取文字",我集思广益,得到如下结果: 首先是这里的一篇文章:http://hi.baidu.com/d_zzn047 ...
- docx文档怎么排列图片_PDF文档中的图片怎么提取出来?不得不说这两个方法太好用了...
原标题:PDF文档中的图片怎么提取出来?不得不说这两个方法太好用了 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道P ...
- pdf里的图片怎么提取
pdf里的图片怎么提取?为什么大家越来越喜欢使用pdf文件格式呢?因为pdf文件不仅能包含文字,还能包含图片,并且pdf文件兼容大部分的设备,不管在电脑上还是在手机上都能稳定的打开查看,并且文件的格式 ...
- 将图片名写入txt文件 根据txt文件中的图片名提取特定图像 将图片插入word
本文讲述3种方法,分别是:1. 将图片名写入txt文件:2. 根据txt文件中的图片名提取特定图像:3. 将图片插入word 将图片名写入txt文件(可将训练集.测试集中图片名分别记录在txt文件中) ...
- 当Excel文件中包含图片时转pdf
当Excel文件中包含图片时转pdf excel文件转pdf时,有很多工具可以使用,但是我在实际运用过程中发现,如果excel文件包含图片时,并不能是吸纳很好的效果.我的解决思路是:excel中的非图 ...
- ypora中的图片传入到CSDN中显示错误
ypora中的图片传入到CSDN中显示错误 文章目录 ypora中的图片传入到CSDN中显示错误 一.需要购买阿里云OSS 1.首先需要进入阿里云官网购买,如下图 二.需要安装PinGo 1.百度搜索 ...
- python docx 合并文档 图片_使用python抓取大量简历文档内数据(word:docx;pdf;图片等)输出表格文件...
1. 文章背景描述: 近期公司有员工离职了,技术岗位的. 让HR招人,招聘进度也太慢了,实在等不及,就撸起袖子自己上.(之前从来没招聘过) 自己在某招聘网站注册后,花了若干人民币,短时间收到大量求职者 ...
最新文章
- 使用sqlmap 绕过防火墙进行注入测试
- UVa1418 - WonderTeam(构造法)
- 网易云音乐TFBOYS线上演唱会破纪录,稳定线上体验如何实现?
- 数据结构php语言,PHP语言做网页开发,会用到什么数据结构,算法?
- Matplotlib Line2D设置
- dubbo日志关闭_不可忽视的Dubbo线程池避坑指南
- Linux学习笔记007---Centos7中配置静态ip
- vs 如何将源文件转换成可执行文件_如何将图片文件转换成PDF文件?
- 力扣 ---- java
- 动态规划思想-----求数组中出现最多数
- 数据结构 第一章 绪论
- windows10中安装anaconda和pytorch
- pythonwin下载中文版_Python官方下载 v3.9.0中文版_Win10镜像官网
- 想搭建一个手游平台怎么做?需要了解哪些细节?
- android 9.0极光推送闪退,极光推送集成Module中遇到的坑
- “我是技术总监,我确实答不出那么多技术细节”
- openid与商户appid不匹配
- 老菜鸟致青春,程序员应该选择java 还是 c#-
- 黑苹果 双系统 macos 与Windows蓝牙设备共享
- 进制转换 和 正数负数——原码,反码,补码