使用 C# 提取 PDF 文件中的所有文字（支持 .NET Core）

PDF 是 Portable Document Format 的简称，意为“可携带文档格式”，是由 Adobe Systems 用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF 文件以 PostScript 语言图象模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即 PDF 会忠实地再现原稿的每一个字符、颜色以及图象。

鉴于 PDF 文件格式比较复杂，一般通过第三方组件来对 PDF 进行操作，本文使用的是 itext7 。

官网：https://itextpdf.com/

NuGet：https://www.nuget.org/packages/itext7/

通过 NuGet 引入 itext7 组件之后，可以使用以下代码提取 PDF 文件中的文字：

using System.Collections.Generic;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
public static class PdfHelper
{public static IEnumerable<string> ExtractText(string filename){using (var r = new PdfReader(filename))using (var doc = new PdfDocument(r)){for (int i = 1; i < doc.GetNumberOfPages(); i++){ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);yield return text;}}}
}

示例代码：

var lines = PdfHelper.ExtractText("{PDF文件路径}").ToList();

需要注意的是：如果你的 PDF 文件是基于图片的扫描版，那么本文的代码是无法提取到文字的，你需要的是 OCR 技术。

使用 C# 提取 PDF 文件中的所有文字（支持 .NET Core）相关推荐

Python提取PDF文件中的表格文本保存为Excel文件
"Python小屋"编程比赛正式开始推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...
python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...
vscode中打开pdf文件_提取pdf文件中的文字
环境说明 windows10系统 python3.6版本安装网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...
Python使用pdfminer3k提取PDF文件中的文本
推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...
利用Python提取PDF文件中的文本信息
如何利用Python提取PDF文件中的文本信息日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...
如何提取PDF文件中的一页或几页——转载，真好用
如何提取PDF文件中的一页或几页首先,我们需要在电脑中安装Adobe Acrobat软件: 用Adobe Acrobat 打开我们要处理的PDF文件: 点击左侧的"页面缩略图"按 ...
如何提取PDF文件中的一页或几页
如何提取PDF文件中的一页或几页首先,我们需要在电脑中安装Adobe Acrobat软件: 用Adobe Acrobat 打开我们要处理的PDF文件: 点击左侧的"页面缩略图"按 ...
Python办公自动化——提取pdf文件中表格并到Excel
Python办公自动化--提取pdf文件中表格合并到Excel 需求描述现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...
提取pdf文件中文字的两种方法
如今,在我们的工作与学习中已经不是单单使用word.Excel等格式文件了,pdf格式的文件已经被广泛地运用到我们的办公室中.大家都知道pdf文件是不可直接编辑与修改的,使用起来有些不便.那么当我们需 ...

使用 C# 提取 PDF 文件中的所有文字（支持 .NET Core）

使用 C# 提取 PDF 文件中的所有文字（支持 .NET Core）相关推荐

最新文章

热门文章