由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的。但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难。不时会碰到看的到内容却难以直接利用编辑的情况,即使拥有Adobe或者国产福昕等软件高级版的加持,批量处理,将其内容变成excel等容易处理的数据形式依然有所不便。所以借用Python超大的模块库当中的pdfplumber来解决这个问题(其主要针对PDF中的表格处理有优势,关于文字和图片等之后再更)

为了方便展示,我仅用跨2页的表格做展示,多页原理相同,单页就更加简单。由于可能涉密我把关键数字隐去,不过跨页的结构明显。我们的目标就是把PDF中的表格内容下载成excel形式保存。

# pdfplumber 获取PDF中的表格和数据import pdfplumber #读取文件pdf = pdfplumber.open("tableTest.pdf")#提取表格自定义函数,模块自带函数pages的参数[代表正在获取的页面] def getTable(pageNumber):      #.extract_table()函数代表正在提取目标page中的表格中的数据    table = pdf.pages[int(pageNumber)].extract_table()    return table#这就不用解释了import pandas as pd # 建立一个空list来存放提取额数据dataList = [] #你可以把范围设置到任何需要的数字,这里pdf只有两页,故为0和1。for y in (0,1):     #利用前述自定义函数对每一页去提取数据    for x in getTable(y):        #巧用filter函数--去掉原有格式当中额空值和None。        dataList.append(list(filter(None,x)))        #print(list(filter(None,i)))        #整理表格,这个只涉及pandas知识故不再赘诉finaleTable = pd.DataFrame(list(dataList))finaleTable.columns = finaleTable.loc[0,:]finaleTable.drop(0,axis=0,inplace=True)finaleTable.to_excel('test.xlsx',encoding='GBK')

运行结果如下,核心代码也就10行,还犹豫啥--人生苦短Python是岸!

python提取pdf中的图片_提取PDF中内容(表格篇)相关推荐

  1. 用jsp_servlet实现在mysql中存储图片_从数据库中读取并生成图片的Servlet

    从数据库中读取并生成图片的Servlet 作者:未知    文章来源:www.jspcn.net 发布日期:2005年01月19日 作者:邵望 日期:2000-12-24 21:44:55 大体思路 ...

  2. PDF中的图片如何提取出来?分享两种提取方法

    怎么把PDF文件中的图片提取出来呢?PDF文件大家在学习或者是办公中都会经常使用到.我们在做一份文件时,往往是需要查找资料来补充内容的,很多时候我们查找出的资料是PDF文件格式,如果发现里面的图片做到 ...

  3. 怎么从扫描的PDF文档/图片里提取文字

    时间浪费在打字上可不好! 关于"怎么从扫描的PDF文档/图片里提取文字",我集思广益,得到如下结果: 首先是这里的一篇文章:http://hi.baidu.com/d_zzn047 ...

  4. docx文档怎么排列图片_PDF文档中的图片怎么提取出来?不得不说这两个方法太好用了...

    原标题:PDF文档中的图片怎么提取出来?不得不说这两个方法太好用了 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道P ...

  5. pdf里的图片怎么提取

    pdf里的图片怎么提取?为什么大家越来越喜欢使用pdf文件格式呢?因为pdf文件不仅能包含文字,还能包含图片,并且pdf文件兼容大部分的设备,不管在电脑上还是在手机上都能稳定的打开查看,并且文件的格式 ...

  6. 将图片名写入txt文件 根据txt文件中的图片名提取特定图像 将图片插入word

    本文讲述3种方法,分别是:1. 将图片名写入txt文件:2. 根据txt文件中的图片名提取特定图像:3. 将图片插入word 将图片名写入txt文件(可将训练集.测试集中图片名分别记录在txt文件中) ...

  7. 当Excel文件中包含图片时转pdf

    当Excel文件中包含图片时转pdf excel文件转pdf时,有很多工具可以使用,但是我在实际运用过程中发现,如果excel文件包含图片时,并不能是吸纳很好的效果.我的解决思路是:excel中的非图 ...

  8. ypora中的图片传入到CSDN中显示错误

    ypora中的图片传入到CSDN中显示错误 文章目录 ypora中的图片传入到CSDN中显示错误 一.需要购买阿里云OSS 1.首先需要进入阿里云官网购买,如下图 二.需要安装PinGo 1.百度搜索 ...

  9. python docx 合并文档 图片_使用python抓取大量简历文档内数据(word:docx;pdf;图片等)输出表格文件...

    1. 文章背景描述: 近期公司有员工离职了,技术岗位的. 让HR招人,招聘进度也太慢了,实在等不及,就撸起袖子自己上.(之前从来没招聘过) 自己在某招聘网站注册后,花了若干人民币,短时间收到大量求职者 ...

最新文章

  1. 使用sqlmap 绕过防火墙进行注入测试
  2. UVa1418 - WonderTeam(构造法)
  3. 网易云音乐TFBOYS线上演唱会破纪录,稳定线上体验如何实现?
  4. 数据结构php语言,PHP语言做网页开发,会用到什么数据结构,算法?
  5. Matplotlib Line2D设置
  6. dubbo日志关闭_不可忽视的Dubbo线程池避坑指南
  7. Linux学习笔记007---Centos7中配置静态ip
  8. vs 如何将源文件转换成可执行文件_如何将图片文件转换成PDF文件?
  9. 力扣 ---- java
  10. 动态规划思想-----求数组中出现最多数
  11. 数据结构 第一章 绪论
  12. windows10中安装anaconda和pytorch
  13. pythonwin下载中文版_Python官方下载 v3.9.0中文版_Win10镜像官网
  14. 想搭建一个手游平台怎么做?需要了解哪些细节?
  15. android 9.0极光推送闪退,极光推送集成Module中遇到的坑
  16. “我是技术总监,我确实答不出那么多技术细节”
  17. openid与商户appid不匹配
  18. 老菜鸟致青春,程序员应该选择java 还是 c#-
  19. 黑苹果 双系统 macos 与Windows蓝牙设备共享
  20. 进制转换 和 正数负数——原码,反码,补码

热门文章

  1. 基于jsp+ssm的办公用品领用管理系统
  2. solidworks装配体改为柔性_建模,装配,工程图,SOLIDWORKS日常操作就在这里
  3. Unity Mesh基础系列(三)立方体球(更好更圆)
  4. java 三元运算符效率_Java笔记之三元运算符
  5. 数势科技黎科峰:零售业的数字化升级之路
  6. 一根“韭菜”的自我修养
  7. 隐藏文件无法取消隐藏属性的解决[转]
  8. android 仿淘宝、京东商品详情页 向上拖动查看图文详情控件
  9. 基金基础问题答疑汇总
  10. Kubernetes基本入门-集群资源(二)