文章参考知乎 >> 传送门

(一)字符操作

(1)pdf文件任意页字符提取

import pdfplumber
with pdfplumber.open("D:\\Desktop\\1.pdf") as pdf:for page in pdf.pages:text = page.extract_text()  # 提取文本print(text)

(2)提取所有pdf文字并写入文本中

import pdfplumber
with pdfplumber.open("D:\\Desktop\\111.pdf") as pdf:for page in pdf.pages:text = page.extract_text()#提取文本txt_file = open("D:\\Desktop\\111.txt",mode='a',encoding='utf-8')txt_file.write(text)

(二)表格操作

(1)读取pdf文件表格,并存入 list

import pdfplumber
with pdfplumber.open("D:\\Desktop\\1.pdf") as pdf:page = pdf.pages[0]tablet_char = page.extract_tables()
T = sum(tablet_char, [])  # by sum, descent the dimension of tablet object
for var in T:print(var)

注意:

  1. 单独使用 extract_tables 方法,得到的是一个只有一个对象的二维 list (即最外面还有一层
    [ ])
  2. 这里使用 sum 函数,将 tablet_char 对象和 空列表进行和运算,这里 sum 的和运算是在后面一个对象中进行的,以此实现tablet_char 对象的降维

(2)提取表格,保存为excel文件(需要import openpyxl 库)

import pdfplumber
import openpyxl
from openpyxl import Workbook #保存表格,需要安装openpyxl
with pdfplumber.open("D:\\Desktop\\1.pdf") as pdf:page01 = pdf.pages[0]table = page01.extract_table()workbook = Workbook()sheet = workbook.activefor row in table:sheet.append(row)workbook.save(filename="D:\\Desktop\\1.xlsx")

(二)python编辑PDF文件:pdfplumber库操作相关推荐

  1. (一)python编辑PDF文件:pdfplumber库

    本文参考Github: pdfplumber 库 (一)安装(cmd运行): pip install pdfplumber (二)类 顶层类:pdfplumber.PDF 核心类:pdfplumber ...

  2. python 读取pdf cid_记一次为解决Python读取PDF文件的Shell操作

    一.背景 本想将 PDF 文件转换为 Word 文档,然后网上搜索了一下发现有挺多转换的软件.有的是免费的.收费,咱也不知哪个好使,还得一个个安装试用.先不说能不解决问题,就这安装试用想想就脑壳疼.便 ...

  3. 如何编辑PDF文件?

    文章来源:https://www.reneelab.com.cn/how-to-edit-pdf-file.html 目录 一.本地PDF编辑方法 1.都叫兽™PDF转换软件 2.Adobe Acro ...

  4. python读取pdf文件_深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  5. 【第三方库】PHP实现创建PDF文件和编辑PDF文件

    目录 引入Setasign/fpdf.Setasign/fpdi 解决写入中文时乱码问题 1.下载并放置中文语言包(他人封装):https://github.com/DCgithub21/cd_FPD ...

  6. python学习的第二十五天:对PDF文件的读写操作

    文章目录 python学习的第二十五天:对PDF文件的读写操作 对Excel操作的补充 python的实用方法 获取指定文件下的所有内容 shutil模块(封装了高级的文件操作函数) PDF的相关操作 ...

  7. python对PDF文件操作

    python对PDF文件操作 下载模块PyPDF2,以页为基本单位对PDF文件进行读写操作,无法直接操作每一页内容. PDF文件读操作 导入函数 from PyPDF2 import PdfFileR ...

  8. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  9. python读取pdf文件_python读取pdf文件

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 一.安装pdfminer3k模块?二. 读取pdf文件import sysimp ...

最新文章

  1. jquery1.6中的.prop()和.attr()异同
  2. 燕赵志愿云如何认证_如何获得云安全专家CCSP认证
  3. 在 Mac OSX 版的 LispBox 环境上安装配置 SBCL 详细过程
  4. 算法与数据结构(希尔排序)
  5. 每日一博 - 常见的Spring事务失效事务不回滚案例集锦
  6. 算法系列之使用赫夫曼编码的实战应用【对文件进行压缩、解压缩】
  7. oracle数据库安装跳坑
  8. combinatorial_identities习题1.1分析与解答
  9. GroupCoordinator分析
  10. 全向轮移动平台参数校准
  11. python使用minidom读写xml
  12. 【Expression 序列化】WCF的简单使用及其Expression Lambada的序列化问题初步解决方案(三)...
  13. C#获取屏幕大小或任务栏大小
  14. 天勤2022数据结构(四)数组、矩阵与广义表
  15. 时域、频域和时频分析的区别
  16. android中timepicker 常用属性,Android中实现日期时间选择器(DatePicker和TimePicker)
  17. mysql io瓶颈_服务器IO瓶颈对MySQL性能的影响
  18. uniapp上班考勤打卡情况日历展示
  19. https://blog.csdn.net/qq_43412289
  20. 使用jquery对接高德地图地址四级联动

热门文章

  1. 资产负债表比率的计算
  2. 服务器文件系统格式,2. Linux 文件系统
  3. Java用广度优先搜索快速搜索文件
  4. 【京东商城首页实战9】导航菜单栏和下拉列表
  5. 灭火机器人C语言程序,灭火小车传感器接法与单片机源程序
  6. 《Linux从零开始学(视频教学版)》简介
  7. Baidu Push SDK - 百度云推送
  8. 数据库置疑的处理步骤(以数据库'shop07'为例)
  9. 管螺纹如何标注_螺纹的种类竟有这么乱,你才接触过几种?看完你就知道了
  10. DOM中NodeListNamedNodeMapHTMLCollection简介