PDF文件的读取 - pdfplumber和fitz(PyMuPDF)
1. 通过文件路径读取
本文是截止2020年最新的pdf文本流和字节流的读取方式(pdfplumber和fitz读取pdf)
pdfplumber:
- pdf = pdfplumber.open(path)
fitz:
- pdf = fitz.open(path)
- pdf = fitz.Document(path)
2.读取二进制的pdf文件
2.1 先拿到pdf的bytes类型数据:
# 方式1:通过打开文件的方式获取
with open(path, 'rb') as f:pdf_bytes = f.read() # 此时pdf_bytes是pdf格式的bytes数据
# 方式2:通过拿取post请求获取的bytes数据
# 以flask为例
from flask import requestfiles = request.files.get('files') # request获取表单文件,.get('files')是从字典中拿取key为'files'的文件
pdf_bytes = files.read() # flask的read()方法把它读取为bytes数据
2.2 读取pdf的bytes数据
pdfplumber:
import io
import pdfplumberf = io.BytesIO(pdf_bytes)
pdf = pdfplumber.load(f) # .load(f)方法可以读取BytesIO二进制流的数据
fitz
import fitzwith fitz.Document(stream=pdf_bytes, filetype='pdf') as pdf:print('我们拿取到了pdf对象, 可以用于后面的信息处理')pass# 也可以写成
pdf = fitz.Document(stream=pdf_bytes, filetype='pdf')
print('我们拿取到了pdf对象, 可以用于后面的信息处理')
pdf.close()
PDF文件的读取 - pdfplumber和fitz(PyMuPDF)相关推荐
- java操作office和pdf文件java读取word,excel和pdf文档内容
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...
- MATLAB下pdf文件操作读取示例
这里写目录标题 摘要 原文件 预处理为txt 代码实现 摘要 当遇到一些需要大量数据的项目,数据的读取与储存显得尤为重要.怎样把数据从其他格式的文件中读取,并运用到程序中是很多时候我们要解决的问题.对 ...
- python 从PDF文件中读取书签/目录
python 从PDF文件中读取书签/目录 代码介绍 需要使用到的函数 代码部分 有时候需要将PDF文件中的书签读取出来进行处理,因此写这篇博客记录具体的处理过程(某些pdf文件会出现打不开报错的情况 ...
- python 保存pdf文件_PyPDF2读取PDF文件内容保存到本地TXT实例
我就废话不多说了,大家还是直接看代码吧! from PyPDF2.pdf import PdfFileReader import pandas as pd def Pdf_to_txt(pdf): f ...
- python下载网页中的pdf文件_Python读取网页上的pdf文件,输出字符串
读取一个本地pdf文件,输出字符串 # -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDF ...
- php读取doc pdf文件,PHP读取创建txt,doc,xls,pdf类型文件
PHP读取或者创建txt,doc,xls,pdf各个类型文件的方法. php读取(文本.txt)文件: 一般是使用fopen.fgets的方法,例如: $fp=fopen('文件名.txt','r') ...
- Android 将文本和图片写入到pdf文件以及读取手机里的pdf文件
1.首先讲一下将文本和图片写入到pdf文件这个功能实现的思路 获取PdfDocument对象-->通过page.getCanvas()获取一个Canvas对象-->在这个Canvas上进行 ...
- python读取pdf文件_python读取pdf文件
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 一.安装pdfminer3k模块?二. 读取pdf文件import sysimp ...
- java 生成pdf文件_Java 中HTTP响应数据生成PDF,PDF文件的读取
将HTTP响应数据生成PDF,这一步的话,就比较坑,浪费了好多时间,查了很多资料,也是我想把它记录下来的主要原因, 废话少说,先说踩的坑 1.区分字符流.字节流 这里可以百度一下,但是简言之就是: j ...
最新文章
- buu 信息化时代的步伐
- 【终极办法!】idea没有import project解决办法
- 放大器的传递函数_保证放大器的稳定性什么最重要?反馈电阻一定要选对!
- [转]Multiple outputs from T4 made easy
- c语言实训作业总结,c语言程序设计上机实践心得报告
- 怎么修改SQL Server服务器选项,Analysis Services 实例的 SPN 注册 | Microsoft Docs
- 怎么修改html的空格大小,如何改变空格的大小 word空格间隔很大怎么调整
- ExtJs十(ExtJs Mvc用户管理之二)
- u盘写保护+计算机管理,电脑如何去除u盘写保护?
- Ordinal Regression 年龄估计(CVPR2016)
- JS时间的计算,剩余时间的计算
- 系统—怎么关闭windows自带的安全中心
- 个人力扣刷题笔记 LCP 03. 机器人大冒险
- gcc中的 -I -L(大写l) -l(小写l) -Wl,-rpath 选项
- 云计算机lol,云电脑玩英雄联盟卡不卡?
- QCC512x QCC302x Earbud 跑通新建工程 —— ADK6.x 环境搭建、 自带例程
- 如何用算法绘制一张上海外滩夜景图
- 专利学习笔记6:在线系统的登录方法
- 美图秀秀网页版新功能上线 新增磨皮祛痘
- Vue笔记_01双向数据绑定原理