C# 用 iTextSharp 将 PDF 转成文本的代码
把开发过程中常用的一些代码段做个珍藏,下面的代码是关于C# 用 iTextSharp 将 PDF 转成文本的代码。
using System;
using System.IO;
using iTextSharp.text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;public class ParsingPDF {static string PDF;static string TEXT2;public void parsePdf(String src, String dest){PdfReader reader = new PdfReader(src);StreamWriter output = new StreamWriter(new FileStream(dest, FileMode.Create));int pageCount = reader.NumberOfPages;for (int pg = 1; pg <= pageCount; pg++){byte[] streamBytes = reader.GetPageContent(pg);PRTokeniser tokenizer = new PRTokeniser(streamBytes);while (tokenizer.NextToken()){if (tokenizer.TokenType == PRTokeniser.TokType.STRING){output.WriteLine(tokenizer.StringValue);}}}output.Flush();output.Close();}static void Main(string[] args){if (args.Length < 1 || args.Length > 2){Console.WriteLine("USAGE: ParsePDF infile.pdf <outfile.txt>");return;}else if (args.Length == 1){PDF = args[0];TEXT2 = Path.GetFileNameWithoutExtension(PDF) + ".txt";}else{PDF = args[0];TEXT2 = args[1];}try{DateTime t1 = DateTime.Now;ParsingPDF example = new ParsingPDF();example.parsePdf(PDF, TEXT2);DateTime t2 = DateTime.Now;TimeSpan ts = t2 - t1;Console.WriteLine("Parsing completed in {0:0.00} seconds.", ts.TotalSeconds);}catch (Exception ex){Console.WriteLine("ERROR: " + ex.Message);}public class MyTextRenderListener : IRenderListener{protected StreamWriter output;public MyTextRenderListener(StreamWriter output){this.output = output;}public void BeginTextBlock(){output.Write("<");}public void EndTextBlock(){output.WriteLine(">");}public void RenderImage(ImageRenderInfo renderInfo){}public void RenderText(TextRenderInfo renderInfo){output.Write("<");output.Write(renderInfo.GetText());output.Write(">");}
C# 用 iTextSharp 将 PDF 转成文本的代码相关推荐
- 将PDF转换成文本,用python写代码
可以使用 Python 中的 PyPDF2 库来将 PDF 文件转换为文本. 首先,需要安装 PyPDF2: pipinstall pypdf2 然后,你可以使用以下代码来打开 PDF 文件并读取其内 ...
- linux pdf 转 txt文件,linux 下 pdf 转换成txt(示例代码)
pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转:如果是扫描的,就比较麻烦需要用到OCR技术(文字识别). 在linux下: 依赖包 poppler-utils tesser ...
- C#使用iTextSharp将数据导出成PDF
这个导出PDF还是满费劲的,百度了好久都是零零散散的,要不就是收费的,最终还是拼出来了一个简单的版本. using System; using System.Collections.Generic; ...
- itextsharp 获取文本_利用iTextSharp提取PDF文件中的文本内容
最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用.于是我的想法是先把PDF转换为Text,然后再对比Text的内容.现在问题的关键变成了如何提取PDF中的文本,在 ...
- 使用iTextSharp 导出PDF 详解(转)
PDF文件是目前比较流行的电子文档格式,在办公自动化(OA)等软件的开发中,经常要用到该格式,但介绍如何制作PDF格式文件的资料非常少,在网上搜来搜去,都转贴的是同一段"暴力"破解 ...
- 该怎样才能将PDF转换成HTML
2019独角兽企业重金招聘Python工程师标准>>> 将PDF转换成HTML网页格式,是快速打造专业级网站的方法之一.当用户找到了非常详实的PDF资料,打算将之制作成为网页格式时, ...
- linux中将文本中的单词换掉的指令_为什么说从PDF中提取文本是一件困难的事?...
PDF文档处理工作中,总是绕不开对文本提取的需求.很多用户觉得我们PDFlux好用,所以对其中的底层技术也非常感兴趣.也有人为认为,从PDF里抽取文本段落和表格,应该非常简单! 近期,我们会对PDF文 ...
- pdf转换成html python,在Python中将pdf转换为html
Python 2.6 我试图解析我的pdf文件,其中一种方法是将其转换为html并提取标题和段落. 所以,我尝试了pdf2htmlEX,它将我的pdf转换成html格式,而不干扰我的pdf格式...到 ...
- 怎样把pdf转换成word
PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了,网络上的PDF资料也越来越多,但是我们往往想要提出某些资料里面的部分文字内容进行二次编辑,那么我们这里就是讲比较通用的PDF转为WO ...
最新文章
- 关于ubuntu 16.04 docker常用命令
- java版扫雷下载_Java 实现扫雷游戏(MineSweeper)
- Redis基础高级学习笔记
- 常见工具:dp与px互转,屏幕宽度与高度获取
- art-template入门(三)之语法
- Spring AOP方法分析
- 聚焦核心竞争力:自建与外购
- SQLite学习手册(索引和数据分析/清理)-转
- SSI与Biss、Endat、Hipeface
- 测绘——AutoCAD教育版打印戳去除
- 《自己动手写网络爬虫》读书笔记——宽度优先爬虫和带偏好的爬虫
- vtp协议服务器配置,配置交换机VTP协议
- medusa详细使用教程
- DH(Diffie-Hellman)算法本元根(原根)求法
- 论文阅读笔记:Layer Normalization
- 美拉德不做鬼佬BBQ,只做中国餐饮文化
- mint系统用wine打开exe文件
- mysql定时任务(Navicat)
- 报泰山学堂计算机条件,山大泰山学堂被曝以高考排名选生源 山大回应
- 如何为vs2017安装svn
热门文章
- python 设置精度_在python中以全微秒精度设置文件的mtime
- Java经典面试:完美世界java开发待遇
- CW——一款简易且有趣的文本编辑器
- 树莓派教程(1)——手把手教你在无显示器的情况下使用树莓派
- 大数据培训课程:Hive配置总结
- uni-app实现二维码以及小程序实现二维码
- 三一重机遇到百度智能云,工程机械维保有了新方案
- 【研究型论文】Encrypted Malware Traffic Detection via Graph-based Network Analysis
- scala中object和class的理解---apply方法是初始化方法
- android颜色识别