1. 通过文件路径读取

本文是截止2020年最新的pdf文本流和字节流的读取方式(pdfplumber和fitz读取pdf)

pdfplumber:
  • pdf = pdfplumber.open(path)
fitz:
  • pdf = fitz.open(path)
  • pdf = fitz.Document(path)

2.读取二进制的pdf文件

2.1 先拿到pdf的bytes类型数据:
# 方式1:通过打开文件的方式获取
with open(path, 'rb') as f:pdf_bytes = f.read()  # 此时pdf_bytes是pdf格式的bytes数据
# 方式2:通过拿取post请求获取的bytes数据
# 以flask为例
from flask import requestfiles = request.files.get('files')  # request获取表单文件,.get('files')是从字典中拿取key为'files'的文件
pdf_bytes = files.read()  # flask的read()方法把它读取为bytes数据

2.2 读取pdf的bytes数据

pdfplumber:
import io
import pdfplumberf = io.BytesIO(pdf_bytes)
pdf = pdfplumber.load(f)  # .load(f)方法可以读取BytesIO二进制流的数据
fitz
import fitzwith fitz.Document(stream=pdf_bytes, filetype='pdf') as pdf:print('我们拿取到了pdf对象, 可以用于后面的信息处理')pass# 也可以写成
pdf = fitz.Document(stream=pdf_bytes, filetype='pdf')
print('我们拿取到了pdf对象, 可以用于后面的信息处理')
pdf.close()

PDF文件的读取 - pdfplumber和fitz(PyMuPDF)相关推荐

  1. java操作office和pdf文件java读取word,excel和pdf文档内容

    在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应 ...

  2. MATLAB下pdf文件操作读取示例

    这里写目录标题 摘要 原文件 预处理为txt 代码实现 摘要 当遇到一些需要大量数据的项目,数据的读取与储存显得尤为重要.怎样把数据从其他格式的文件中读取,并运用到程序中是很多时候我们要解决的问题.对 ...

  3. python 从PDF文件中读取书签/目录

    python 从PDF文件中读取书签/目录 代码介绍 需要使用到的函数 代码部分 有时候需要将PDF文件中的书签读取出来进行处理,因此写这篇博客记录具体的处理过程(某些pdf文件会出现打不开报错的情况 ...

  4. python 保存pdf文件_PyPDF2读取PDF文件内容保存到本地TXT实例

    我就废话不多说了,大家还是直接看代码吧! from PyPDF2.pdf import PdfFileReader import pandas as pd def Pdf_to_txt(pdf): f ...

  5. python下载网页中的pdf文件_Python读取网页上的pdf文件,输出字符串

    读取一个本地pdf文件,输出字符串 # -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDF ...

  6. php读取doc pdf文件,PHP读取创建txt,doc,xls,pdf类型文件

    PHP读取或者创建txt,doc,xls,pdf各个类型文件的方法. php读取(文本.txt)文件: 一般是使用fopen.fgets的方法,例如: $fp=fopen('文件名.txt','r') ...

  7. Android 将文本和图片写入到pdf文件以及读取手机里的pdf文件

    1.首先讲一下将文本和图片写入到pdf文件这个功能实现的思路 获取PdfDocument对象-->通过page.getCanvas()获取一个Canvas对象-->在这个Canvas上进行 ...

  8. python读取pdf文件_python读取pdf文件

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 一.安装pdfminer3k模块?二. 读取pdf文件import sysimp ...

  9. java 生成pdf文件_Java 中HTTP响应数据生成PDF,PDF文件的读取

    将HTTP响应数据生成PDF,这一步的话,就比较坑,浪费了好多时间,查了很多资料,也是我想把它记录下来的主要原因, 废话少说,先说踩的坑 1.区分字符流.字节流 这里可以百度一下,但是简言之就是: j ...

最新文章

  1. buu 信息化时代的步伐
  2. 【终极办法!】idea没有import project解决办法
  3. 放大器的传递函数_保证放大器的稳定性什么最重要?反馈电阻一定要选对!
  4. [转]Multiple outputs from T4 made easy
  5. c语言实训作业总结,c语言程序设计上机实践心得报告
  6. 怎么修改SQL Server服务器选项,Analysis Services 实例的 SPN 注册 | Microsoft Docs
  7. 怎么修改html的空格大小,如何改变空格的大小 word空格间隔很大怎么调整
  8. ExtJs十(ExtJs Mvc用户管理之二)
  9. u盘写保护+计算机管理,电脑如何去除u盘写保护?
  10. Ordinal Regression 年龄估计(CVPR2016)
  11. JS时间的计算,剩余时间的计算
  12. 系统—怎么关闭windows自带的安全中心
  13. 个人力扣刷题笔记 LCP 03. 机器人大冒险
  14. gcc中的 -I -L(大写l) -l(小写l) -Wl,-rpath 选项
  15. 云计算机lol,云电脑玩英雄联盟卡不卡?
  16. QCC512x QCC302x Earbud 跑通新建工程 —— ADK6.x 环境搭建、 自带例程
  17. 如何用算法绘制一张上海外滩夜景图
  18. 专利学习笔记6:在线系统的登录方法
  19. 美图秀秀网页版新功能上线 新增磨皮祛痘
  20. Vue笔记_01双向数据绑定原理

热门文章

  1. 社会网络分析重要库简介
  2. 顺序表(顺序存储结构)
  3. java学习之——开篇
  4. 大师眼里的人生最高境界
  5. 哪些业务需要办理直播类文网文?具体办理流程
  6. Kurento 源码解析系列(3)- RtpEndpoint端点初始化解析
  7. error LNK2019:无法解析的外部符号
  8. 【调剂】双一流河南大学 作物逆境国家重点实验室 卢福浩课题组 接收 生物信息学 硕士研究生调剂...
  9. Xposed原理与应用Api
  10. 区块链笔记:区块链概念、相关对比、技术特点、CAP定理、FLP定理、价值网络