pdfplumber库中提供了一个extract_text()方法来帮助我们提取PDF文件中的文字。我们只需要使用pdfplumber中的open()方法打开我们希望提取文字的PDF文件,然后对所需提取文字的页面使用extract_text()方法即可提取出所需文字。

若希望提取出文件中全部文字,利用循环遍历PDF文件中所有页面即可

代码示例

import pdfplumber
import os#提取一页文字
def extract_text_onepage (filepath,wpage):pdf = pdfplumber.open(filepath)page = pdf.pages[wpage]print(page.extract_text())#提取全部文字
def extract_text_allpage (filepath):pdf = pdfplumber.open(filepath)for page in pdf.pages:print(page.extract_text())if __name__ == '__main__':path = os.getcwd()  #获取当前的操作目录,因为pdf文件放在了当前目录中path += '\\paper2020.pdf' #文件名extract_text_onepage(path,1)extract_text_allpage(path)

利用python中pdfplumber库提取PDF文件中文字相关推荐

  1. 通过Python的pdfplumber库提取pdf中表格数据

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...

  2. 使用python的PyPDF2 库删除pdf文件中的空白页

    参考文章:https://blog.csdn.net/xingxtao/article/details/79056341 pdf中的第4页和第10页是空白页.为了将其删除,使用以下代码: from P ...

  3. python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!

    在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...

  4. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  5. Python提取PDF文件中的表格文本保存为Excel文件

    "Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...

  6. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  7. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  8. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  9. Python脚本工具,PyMuPDF批量提取PDF文件中的图片

    如何批量快速提取出PDF中的图片文件,你是否遇到这样的一个问题,尤其是PPT文件转换为PDF文件,需要快速提取其中的图片文件,如果你恰好会那么一点py,同时复制粘贴没问题的话,那么相信你也能够很轻松的 ...

最新文章

  1. 定时清理tomcat日志文件
  2. 正确实现用spring扫描自定义的annotation
  3. leetcode算法题--二叉树的前序遍历
  4. topcoder srm 500 div1
  5. [转载] 七龙珠第一部——第091话 克林反败为胜
  6. Linux kernel crypto的介绍
  7. springboot去掉git版本控制_关于 Git 提交这些规范,你都遵守了吗?
  8. 怎样对流媒体进行压力测试_暖气片怎样安装效果好?暖气片正确的安装,采暖效果更好!...
  9. C# 读取根目录的json文件中的某个值
  10. Vue里引入three.js
  11. 深度学习(二十五)基于Mutil-Scale CNN的图片语义分割、法向量估计
  12. 如何将unity3d动画嵌入html,在Unity3D中使用精灵动画引擎制作动画的两种方法
  13. 为什么说 Web 开发永远不会退出历史舞台?
  14. Hadoop SequenceFile存储格式入门
  15. Github README.md中添加图片
  16. 【基于物理的渲染(PBR)白皮书】(一) 开篇:PBR核心知识体系总结与概览
  17. vmware使用显卡
  18. Tensor A must be from the same graph as Tensor B
  19. 微信小程序 一键下载所有图片和视频
  20. Google Play搜不到自己应用

热门文章

  1. Iphone 官方的开发指南
  2. 织梦cms、帝国cms、PHPcms优缺点解析
  3. 尼古拉·特斯拉(膜拜伟人)转自百度百科
  4. 【Flask教程】Flask开发基础与入门
  5. 神经网络学习小记录47——ShuffleNetV2模型的复现详解
  6. Apache Ftp客户端工具FtpClient
  7. 【转贴】公务员考试图形推理热点题型分析
  8. 浏览器 全屏 html,浏览器全屏.html
  9. 2020李宏毅机器学习笔记-Generative Adversarial Network - Conditional GAN
  10. ITK入门教程(1)添加噪声