使用 C# 提取 PDF 文件中的所有文字(支持 .NET Core)
PDF 是 Portable Document Format 的简称,意为“可携带文档格式”,是由 Adobe Systems 用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF 文件以 PostScript 语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即 PDF 会忠实地再现原稿的每一个字符、颜色以及图象。
鉴于 PDF 文件格式比较复杂,一般通过第三方组件来对 PDF 进行操作,本文使用的是 itext7 。
官网:https://itextpdf.com/
NuGet:https://www.nuget.org/packages/itext7/
通过 NuGet 引入 itext7 组件之后,可以使用以下代码提取 PDF 文件中的文字:
using System.Collections.Generic;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
public static class PdfHelper
{public static IEnumerable<string> ExtractText(string filename){using (var r = new PdfReader(filename))using (var doc = new PdfDocument(r)){for (int i = 1; i < doc.GetNumberOfPages(); i++){ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);yield return text;}}}
}
示例代码:
var lines = PdfHelper.ExtractText("{PDF文件路径}").ToList();
需要注意的是:如果你的 PDF 文件是基于图片的扫描版,那么本文的代码是无法提取到文字的,你需要的是 OCR 技术。
使用 C# 提取 PDF 文件中的所有文字(支持 .NET Core)相关推荐
- Python提取PDF文件中的表格文本保存为Excel文件
"Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...
- python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...
- vscode中打开pdf文件_提取pdf文件中的文字
环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...
- Python使用pdfminer3k提取PDF文件中的文本
推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...
- 利用Python提取PDF文件中的文本信息
如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...
- 如何提取PDF文件中的一页或几页——转载,真好用
如何提取PDF文件中的一页或几页 首先,我们需要在电脑中安装Adobe Acrobat软件: 用Adobe Acrobat 打开我们要处理的PDF文件: 点击左侧的"页面缩略图"按 ...
- 如何提取PDF文件中的一页或几页
如何提取PDF文件中的一页或几页 首先,我们需要在电脑中安装Adobe Acrobat软件: 用Adobe Acrobat 打开我们要处理的PDF文件: 点击左侧的"页面缩略图"按 ...
- Python办公自动化——提取pdf文件中表格并到Excel
Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...
- 提取pdf文件中文字的两种方法
如今,在我们的工作与学习中已经不是单单使用word.Excel等格式文件了,pdf格式的文件已经被广泛地运用到我们的办公室中.大家都知道pdf文件是不可直接编辑与修改的,使用起来有些不便.那么当我们需 ...
最新文章
- java:BIO, NIO
- 使用Golang搭建gRPC服务提供给.NetCore客户端调用
- poj2513 Fence Repair(小根堆)
- 算法竞赛入门经典(第二版) | 例题4-5 追踪电子表格中的单元格 (UVa512,Spreadsheet Tracking,World Finals)(解法一)
- CentOS7安装Docker与使用篇
- 卸载docker后部署k8s后docker无法启动问题
- 哦~最重要的产品链接忘了发了
- 牛客题霸-SQL篇——10~20题
- 动态代理 aop切面实现事务管理
- ISL22346WFRT20Z-TK 数字电位器 4路 I²C
- 组态S7-200Smart间PROFINT通信生成GSDML文件
- window强制删除文件bat
- linux ubuntu git报错fatal: unsafe repository git config --global --add safe.directory解决方案
- 网站不收录的原因和提高网站收录量的方法
- itext修改pdf文字
- Openerp权限设置总结
- CodeLite 15.0.0+ Clang 编译器 build失败
- SLA,SLO和SLI工程师指南
- 产品经理如何开好需求评审会
- 基于若依系统进行模块化开发(使用eclipse)