Fitz完成PDF转TXT

前言
1、本机为Inspiron 5005,为64位,所用操作系统为Windos 10。所使用开发环境为Anacondajupyter notebook
2、本教程主要实现了安装Anacondajupyter notebook,使用Fitz完成PDF转TXT。

Anaconda和Jupyter notebook简介
1、Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包以及其依赖项,并且也集成了Jupyter notebook。(注:安装了Anaconda就可以,不用再安装python。)
2、Anaconda支持Linux、Mac、Windows,包含众多流行的科学计算、数据分析的Python包。
3、Anaconda和Jupyter notebook已经成为了数据分析的标准环境。
4、Jupyter Notebook是一个基于网页的交互式笔记本,支持运行多种编程语言,它本质上是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。用途包括:数据清理和转换,数值模拟,统计建模,机器学习等

安装Anaconda和Jupyter notebook
1、点击链接去清华大学开源软件镜像网站上下载如下图红框中框出的版本。(注:此版本只适用于Windows的64位操作系统,若是其他操作系统请按自身操作系统对应版本下载。)

2、找到刚刚下载好的软件,双击打开,如图,然后点击next即可。

3、点击I Agree即可。

4、选择All Users,然后点击Next即可。

5、如下图红框中所示,更改安装路径,然后点击Next即可。(注:这个文件夹不要使用中文或者空格、特殊字符。)

6、直接点击Install即可。

7、在如下界面耐心等待安装完成,可能会花点时间。

8、安装完成后会出现如下界面,然后点击Next即可。

9、若有这一步,点击Skip即可。

10、取消勾选,点击Finish即可,安装Anaconda结束。(注:这一步后面的为配置环境变量的过程,配置环境变量可以使电脑更好、更便捷地使用Anaconda,但不一定是必须。)

11、在键盘上按下win键,然后在搜索框中输入“环境变量”,点击如下图中红框中的“编辑系统环境变量”。

12、点击“环境变量”。

13、选中Path,然后点击编辑即可。

14、如下图所示,将自己安装Anaconda的如下路径逐步新建添加到环境变量中,最后点确定即可。(注:要确定自己的Anaconda安装的路径,并且一次只可以新建一条,有耐心点,慢慢创建完就好。)

15、点击确定。

16、在键盘上按下win键,然后在搜索框中输入“cmd”,点击如下图中红框中的“命令提示符”。

17、在窗口中输入python,然后按下回车键,查看有没有python环境,若有的话,应当如下图所示。

18、在窗口中输入exit(),然后按下回车键,退出python环境。再输入conda --version,查看有没有conda环境,若有的话,应当如下图所示。(注:如果提示conda不是内部或外部命令,那一般是Anaconda的环境变量没配置好。好好检查一下。)

19、在键盘上按下win键,然后在搜索框中输入“Anaconda”,双击如下图中红框中的“Anaconda Prompt”,打开Anaconda Prompt,显示如下界面即可。(注:到这一步安装和配置Anaconda就彻底完成了。)

使用Anaconda和Jupyter notebook完成PDF转TXT
1、在自己认为空间很大的磁盘下创建一个文件夹,可自己任意命名。

2、将刚刚自己创建的文件夹的路径复制,然后打开Anaconda Prompt,在其中先输入命令E:,然后输入命令cd Teach_Code。(注:输入第一个命令的时候一定要按照自己的文件夹路径进入电脑相应磁盘。)

3、输入命令conda create -n teach python=3.10,创建一个名称为teach、python版本为3.10的虚拟环境。

4、输入命令y

5、输入命令conda activate teach,激活虚拟环境teach。

6、输入命令pip install ipykernel ipython,安装将虚拟环境添加到jupyter notebook所需要的包。

7、输入命令pip install PyMuPDF,安装将PDF转成TXT所需要的包。

8、输入命令python -m ipykernel install --user --name teach --display-name teach,将在Anaconda中创建的虚拟环境teach添加到jupyter notebook中,出现如下界面即证明添加成功。

9、输入命令jupyter notebook,在当前目录下打开jupyter notebook。

10、在打开的jupyter notebook中,我们可以看到当前文件夹是空的,因为我们打开的是我创建的文件夹,所以是空的。然后点击New->teach,创建一个以teach为虚拟环境的.ipynb文件。

11、将我们要处理的PDF文件放入我们刚开始创建的文件夹中,比如我的就是Teach_Code。

12、在刚刚jupyter notebook中创建的.ipynb文件中写如下代码。
(注:示例代码如下)

# 导入当前要使用的PDF转换文字工具包
import fitz
import datetime
import time# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # 进行文字精度以及运行时间测试 # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
# 获取当前系统时间
start_time = datetime.datetime.now()# 打开 PDF 文件
with fitz.open('Mass spectrometry of inorganic, coordination, and organometallic compounds.pdf') as doc:# 创建一个空字符串text = ""# 遍历每一页for page in doc:# 获取当前页的文本内容page_text = page.get_text()# 将当前页的文本内容添加到总字符串中text += page_text + "\n"# 将文本保存到 .txt 文件中
with open('example.txt', 'w', encoding='utf-8') as file:file.write(text)# 获取程序执行时间
end_time = datetime.datetime.now()
elapsed_time = end_time - start_time
milliseconds = int(elapsed_time.total_seconds() * 1000)print(f"处理一个281页PDF的时间:{milliseconds} 毫秒")
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #

13、点击运行,即可得到如下图所示结果。

14、也可以在我们开头创建的文件夹中看到我们生成的example.txt文件,如果有兴趣还可以看看.txt文件的内容是否与你需要的一直。(注:本教程到此就结束了,大家如有兴趣可以多去了解了解。)

2023-07-13 Fitz完成PDF转TXT相关推荐

  1. 使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现

    转载请注明出处:http://blog.csdn.net/dongdong9223/article/details/76273859 本文出自[我是干勾鱼的博客] 这里讲一下使用Lucene对doc. ...

  2. 21 07 13学习总结

    21.07.13学习总结 Column: July 13, 2021 Tags: learning experience LOL的终极魔典真好玩(逃), 今天B站还被拿下了, 笑嘻了 00:30-03 ...

  3. 基于python fitz的pdf文件处理器--已开源

    "音符文档助手"软件操作手册 目录 1.软件介绍 2.界面展示 3.安装教程 4.操作手册 5.注意事项 6.作者鸣谢 7.代码示例 [介绍] 音符文档助手PC端是一款实现word ...

  4. PHP将PDF转为TXT文件,pdf转中文txt,pdf中文txt

    pdf转中文txt,pdf中文txt 最近项目需要实现根据关键字搜索pdf内容,实现思路就是提取pdf文本,然后进行索引. 工具上选择: IText 4.16之后采用agpl License,不能用作 ...

  5. 【python】office操作,doc转docx、ppt,pptx转pdf,pdf转txt

    1.安装liboffice sudo apt-get install libreoffice sudo apt-get install libreoffice-l10n-zh-cn libreoffi ...

  6. Asp.net实现直接在浏览器预览Word、Excel、PDF、Txt文件(附源码)

    功能说明 输入文件路径,在浏览器输出文件预览信息,经测试360极速(Chrome).IE9/10.Firefox通过 分类文件及代码说明  DemoFiles 存放可测试文件 Default.aspx ...

  7. 如何把pdf转换为txt文档,pdf转txt的好方法

    如何把pdf转换为txt文档,pdf转txt的好方法.txt文档是每个电脑都自带的文字编辑工具.而pdf文件的缺点就是在于文件本身无法进行编辑.修改.当pdf文件中的内容产生错误时,就需要将pdf文件 ...

  8. 如何实现Word、PDF,TXT文件的全文内容检索?

    作者 | HENG 来源 | https://www.cnblogs.com/strongchenyu/p/13777596.html 简单介绍一下需求 能支持文件的上传,下载 要能根据关键字,搜索出 ...

  9. 【第五组】头脑风暴+核心竞争力+NABCD+个人(用例+功能+技术说明书) 最后修改时间 2017.07.13...

    2017.07.13版 因为对之前版本做了较多修改,所以重新发了,并且在博客下方保留原有版本作为记录. 头脑风暴结果: 刚开始我们无法确定要做一个什么样的应用程序,总结之前可视化课程的作业,我们提出了 ...

最新文章

  1. MyBatis入门学习教程-调用存储过程
  2. QT中如何才能使用cos,sin等三角函数
  3. 笔记-高项案例题-2019年上-人力资源管理
  4. shell脚本中数组的长度表示
  5. C# - 自动生成分页存储过程
  6. Pytorch常用总结(持续更新...)
  7. 密码学基础(三):非对称加密(RSA算法原理)
  8. STC8H8K系列汇编和C51实战——实现跑马灯(汇编版)
  9. 2021年焊工作业压力焊考试题库
  10. 在vs里配置其他编译器
  11. 暗黑版微信,官方发布! (附下载链接)
  12. 金仓数据库学习笔记(一)
  13. 回收站的文件删了怎么恢复,回收站文件恢复的两种方法
  14. 104.android 简单的检查小米、华为、OPPO、VIVO手机系统是否打开通话自动录音功能,跳转通话录音页面,安卓怎么检查开启通话自动录音,安卓开启自动录音
  15. Hololens学习(一)安装 部署Hololens开发环境
  16. ionic开发记账软件《易跟金》
  17. Capital One数据泄露影响1.06亿人,嫌疑人已被捕
  18. 常见界面布局之LinearLayout线性布局
  19. jQuery 库中的 $() 是什么
  20. 服务器硬盘红灯常亮_服务器硬盘灯常亮红色

热门文章

  1. 微信小程序跳转php页面,微信小程序页面跳转方法总结
  2. 杰理AC690X系列---TF卡的DATE和CLK引脚复用AD采集(6)
  3. html 自动缩放div,动态调整div的css缩放以适应容器的大小
  4. ES中根据数组长度来搜索
  5. 子类的构造函数和析构函数
  6. (转)【电子书:pdf+txt】梳理:从混乱到有序,人生提效50%--董泉
  7. 图像质量检测方法方式
  8. 应急消防通道总是被占用?安防告警视频平台越加必要
  9. 阿里java接口自动化实践pdf_接口自动化测试设计
  10. python识别数字程序_python实现识别手写数字 python图像识别算法