PDF 是 Portable Document Format 的简称,意为“可携带文档格式”,是由 Adobe Systems 用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF 文件以 PostScript 语言图象模型为基础,无论在哪种打印机上都可保证精确的颜色和准确的打印效果,即 PDF 会忠实地再现原稿的每一个字符、颜色以及图象。

鉴于 PDF 文件格式比较复杂,一般通过第三方组件来对 PDF 进行操作,本文使用的是 itext7 。

官网:https://itextpdf.com/

NuGet:https://www.nuget.org/packages/itext7/

通过 NuGet 引入 itext7 组件之后,可以使用以下代码提取 PDF 文件中的文字:

using System.Collections.Generic;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
public static class PdfHelper
{public static IEnumerable<string> ExtractText(string filename){using (var r = new PdfReader(filename))using (var doc = new PdfDocument(r)){for (int i = 1; i < doc.GetNumberOfPages(); i++){ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();string text = PdfTextExtractor.GetTextFromPage(doc.GetPage(i), strategy);yield return text;}}}
}

示例代码:

var lines = PdfHelper.ExtractText("{PDF文件路径}").ToList();

需要注意的是:如果你的 PDF 文件是基于图片的扫描版,那么本文的代码是无法提取到文字的,你需要的是 OCR 技术。

使用 C# 提取 PDF 文件中的所有文字(支持 .NET Core)相关推荐

  1. Python提取PDF文件中的表格文本保存为Excel文件

    "Python小屋"编程比赛正式开始 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020 ...

  2. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  3. vscode中打开pdf文件_提取pdf文件中的文字

    环境说明 windows10系统 python3.6版本 安装 网上很多说需要安装pdfminer3k和pdfminer3k.six,我尝试了先安装pdfminer3k后安装pdfminer3k.si ...

  4. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  5. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  6. 如何提取PDF文件中的一页或几页——转载,真好用

    如何提取PDF文件中的一页或几页 首先,我们需要在电脑中安装Adobe Acrobat软件: 用Adobe Acrobat 打开我们要处理的PDF文件: 点击左侧的"页面缩略图"按 ...

  7. 如何提取PDF文件中的一页或几页

    如何提取PDF文件中的一页或几页 首先,我们需要在电脑中安装Adobe Acrobat软件: 用Adobe Acrobat 打开我们要处理的PDF文件: 点击左侧的"页面缩略图"按 ...

  8. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  9. 提取pdf文件中文字的两种方法

    如今,在我们的工作与学习中已经不是单单使用word.Excel等格式文件了,pdf格式的文件已经被广泛地运用到我们的办公室中.大家都知道pdf文件是不可直接编辑与修改的,使用起来有些不便.那么当我们需 ...

最新文章

  1. java:BIO, NIO
  2. 使用Golang搭建gRPC服务提供给.NetCore客户端调用
  3. poj2513 Fence Repair(小根堆)
  4. 算法竞赛入门经典(第二版) | 例题4-5 追踪电子表格中的单元格 (UVa512,Spreadsheet Tracking,World Finals)(解法一)
  5. CentOS7安装Docker与使用篇
  6. 卸载docker后部署k8s后docker无法启动问题
  7. 哦~最重要的产品链接忘了发了
  8. 牛客题霸-SQL篇——10~20题
  9. 动态代理 aop切面实现事务管理
  10. ISL22346WFRT20Z-TK 数字电位器 4路 I²C
  11. 组态S7-200Smart间PROFINT通信生成GSDML文件
  12. window强制删除文件bat
  13. linux ubuntu git报错fatal: unsafe repository git config --global --add safe.directory解决方案
  14. 网站不收录的原因和提高网站收录量的方法
  15. itext修改pdf文字
  16. Openerp权限设置总结
  17. CodeLite 15.0.0+ Clang 编译器 build失败
  18. SLA,SLO和SLI工程师指南
  19. 产品经理如何开好需求评审会
  20. 基于若依系统进行模块化开发(使用eclipse)

热门文章

  1. mendeley中如何重复引用同一篇参考文献_如何写好科学论文
  2. 虚拟机创建好了启动就黑屏_vmospro 最强大的手机虚拟机来啦!
  3. 真希望你在25岁之前,养成这个习惯
  4. matlab求解微分方程的数值解
  5. 关于Xshell6反复需要更新
  6. Ubuntu修改时区为UTC/CST时间
  7. 工业机器人技术参数有哪些?
  8. MATLAB的figure图像提取数据至excel中
  9. 2分钟短视频视频之感
  10. 几个非常实用的Android开发工具,几个安卓开发辅助工具