利用python中pdfplumber库提取PDF文件中文字
pdfplumber库中提供了一个extract_text()方法来帮助我们提取PDF文件中的文字。我们只需要使用pdfplumber中的open()方法打开我们希望提取文字的PDF文件,然后对所需提取文字的页面使用extract_text()方法即可提取出所需文字。
若希望提取出文件中全部文字,利用循环遍历PDF文件中所有页面即可
代码示例
import pdfplumber
import os#提取一页文字
def extract_text_onepage (filepath,wpage):pdf = pdfplumber.open(filepath)page = pdf.pages[wpage]print(page.extract_text())#提取全部文字
def extract_text_allpage (filepath):pdf = pdfplumber.open(filepath)for page in pdf.pages:print(page.extract_text())if __name__ == '__main__':path = os.getcwd() #获取当前的操作目录,因为pdf文件放在了当前目录中path += '\\paper2020.pdf' #文件名extract_text_onepage(path,1)extract_text_allpage(path)
利用python中pdfplumber库提取PDF文件中文字相关推荐
- 通过Python的pdfplumber库提取pdf中表格数据
文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...
- 使用python的PyPDF2 库删除pdf文件中的空白页
参考文章:https://blog.csdn.net/xingxtao/article/details/79056341 pdf中的第4页和第10页是空白页.为了将其删除,使用以下代码: from P ...
- python提取pdf表格数据_Python骚操作,提取pdf文件中的表格数据!
在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...
- 利用Python提取PDF文件中的文本信息
如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...
- Python提取PDF文件中的表格文本保存为Excel文件
"Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...
- python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...
- Python使用pdfminer3k提取PDF文件中的文本
推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...
- Python办公自动化——提取pdf文件中表格并到Excel
Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...
- Python脚本工具,PyMuPDF批量提取PDF文件中的图片
如何批量快速提取出PDF中的图片文件,你是否遇到这样的一个问题,尤其是PPT文件转换为PDF文件,需要快速提取其中的图片文件,如果你恰好会那么一点py,同时复制粘贴没问题的话,那么相信你也能够很轻松的 ...
最新文章
- 定时清理tomcat日志文件
- 正确实现用spring扫描自定义的annotation
- leetcode算法题--二叉树的前序遍历
- topcoder srm 500 div1
- [转载] 七龙珠第一部——第091话 克林反败为胜
- Linux kernel crypto的介绍
- springboot去掉git版本控制_关于 Git 提交这些规范,你都遵守了吗?
- 怎样对流媒体进行压力测试_暖气片怎样安装效果好?暖气片正确的安装,采暖效果更好!...
- C# 读取根目录的json文件中的某个值
- Vue里引入three.js
- 深度学习(二十五)基于Mutil-Scale CNN的图片语义分割、法向量估计
- 如何将unity3d动画嵌入html,在Unity3D中使用精灵动画引擎制作动画的两种方法
- 为什么说 Web 开发永远不会退出历史舞台?
- Hadoop SequenceFile存储格式入门
- Github README.md中添加图片
- 【基于物理的渲染(PBR)白皮书】(一) 开篇:PBR核心知识体系总结与概览
- vmware使用显卡
- Tensor A must be from the same graph as Tensor B
- 微信小程序 一键下载所有图片和视频
- Google Play搜不到自己应用