(二)python编辑PDF文件:pdfplumber库操作
文章参考知乎 >> 传送门
(一)字符操作
(1)pdf文件任意页字符提取
import pdfplumber
with pdfplumber.open("D:\\Desktop\\1.pdf") as pdf:for page in pdf.pages:text = page.extract_text() # 提取文本print(text)
(2)提取所有pdf文字并写入文本中
import pdfplumber
with pdfplumber.open("D:\\Desktop\\111.pdf") as pdf:for page in pdf.pages:text = page.extract_text()#提取文本txt_file = open("D:\\Desktop\\111.txt",mode='a',encoding='utf-8')txt_file.write(text)
(二)表格操作
(1)读取pdf文件表格,并存入 list
import pdfplumber
with pdfplumber.open("D:\\Desktop\\1.pdf") as pdf:page = pdf.pages[0]tablet_char = page.extract_tables()
T = sum(tablet_char, []) # by sum, descent the dimension of tablet object
for var in T:print(var)
注意:
- 单独使用 extract_tables 方法,得到的是一个只有一个对象的二维 list (即最外面还有一层
[ ]) - 这里使用 sum 函数,将 tablet_char 对象和 空列表进行和运算,这里 sum 的和运算是在后面一个对象中进行的,以此实现tablet_char 对象的降维
(2)提取表格,保存为excel文件(需要import openpyxl 库)
import pdfplumber
import openpyxl
from openpyxl import Workbook #保存表格,需要安装openpyxl
with pdfplumber.open("D:\\Desktop\\1.pdf") as pdf:page01 = pdf.pages[0]table = page01.extract_table()workbook = Workbook()sheet = workbook.activefor row in table:sheet.append(row)workbook.save(filename="D:\\Desktop\\1.xlsx")
(二)python编辑PDF文件:pdfplumber库操作相关推荐
- (一)python编辑PDF文件:pdfplumber库
本文参考Github: pdfplumber 库 (一)安装(cmd运行): pip install pdfplumber (二)类 顶层类:pdfplumber.PDF 核心类:pdfplumber ...
- python 读取pdf cid_记一次为解决Python读取PDF文件的Shell操作
一.背景 本想将 PDF 文件转换为 Word 文档,然后网上搜索了一下发现有挺多转换的软件.有的是免费的.收费,咱也不知哪个好使,还得一个个安装试用.先不说能不解决问题,就这安装试用想想就脑壳疼.便 ...
- 如何编辑PDF文件?
文章来源:https://www.reneelab.com.cn/how-to-edit-pdf-file.html 目录 一.本地PDF编辑方法 1.都叫兽™PDF转换软件 2.Adobe Acro ...
- python读取pdf文件_深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
- 【第三方库】PHP实现创建PDF文件和编辑PDF文件
目录 引入Setasign/fpdf.Setasign/fpdi 解决写入中文时乱码问题 1.下载并放置中文语言包(他人封装):https://github.com/DCgithub21/cd_FPD ...
- python学习的第二十五天:对PDF文件的读写操作
文章目录 python学习的第二十五天:对PDF文件的读写操作 对Excel操作的补充 python的实用方法 获取指定文件下的所有内容 shutil模块(封装了高级的文件操作函数) PDF的相关操作 ...
- python对PDF文件操作
python对PDF文件操作 下载模块PyPDF2,以页为基本单位对PDF文件进行读写操作,无法直接操作每一页内容. PDF文件读操作 导入函数 from PyPDF2 import PdfFileR ...
- 利用Python提取PDF文件中的文本信息
如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...
- python读取pdf文件_python读取pdf文件
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 一.安装pdfminer3k模块?二. 读取pdf文件import sysimp ...
最新文章
- jquery1.6中的.prop()和.attr()异同
- 燕赵志愿云如何认证_如何获得云安全专家CCSP认证
- 在 Mac OSX 版的 LispBox 环境上安装配置 SBCL 详细过程
- 算法与数据结构(希尔排序)
- 每日一博 - 常见的Spring事务失效事务不回滚案例集锦
- 算法系列之使用赫夫曼编码的实战应用【对文件进行压缩、解压缩】
- oracle数据库安装跳坑
- combinatorial_identities习题1.1分析与解答
- GroupCoordinator分析
- 全向轮移动平台参数校准
- python使用minidom读写xml
- 【Expression 序列化】WCF的简单使用及其Expression Lambada的序列化问题初步解决方案(三)...
- C#获取屏幕大小或任务栏大小
- 天勤2022数据结构(四)数组、矩阵与广义表
- 时域、频域和时频分析的区别
- android中timepicker 常用属性,Android中实现日期时间选择器(DatePicker和TimePicker)
- mysql io瓶颈_服务器IO瓶颈对MySQL性能的影响
- uniapp上班考勤打卡情况日历展示
- https://blog.csdn.net/qq_43412289
- 使用jquery对接高德地图地址四级联动