把开发过程中常用的一些代码段做个珍藏,下面的代码是关于C# 用 iTextSharp 将 PDF 转成文本的代码。

using System;
using System.IO;
using iTextSharp.text;
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;public class ParsingPDF {static string PDF;static string TEXT2;public void parsePdf(String src, String dest){PdfReader reader = new PdfReader(src);StreamWriter output = new StreamWriter(new FileStream(dest, FileMode.Create));int pageCount = reader.NumberOfPages;for (int pg = 1; pg <= pageCount; pg++){byte[] streamBytes = reader.GetPageContent(pg);PRTokeniser tokenizer = new PRTokeniser(streamBytes);while (tokenizer.NextToken()){if (tokenizer.TokenType == PRTokeniser.TokType.STRING){output.WriteLine(tokenizer.StringValue);}}}output.Flush();output.Close();}static void Main(string[] args){if (args.Length < 1 || args.Length > 2){Console.WriteLine("USAGE: ParsePDF infile.pdf <outfile.txt>");return;}else if (args.Length == 1){PDF = args[0];TEXT2 = Path.GetFileNameWithoutExtension(PDF) + ".txt";}else{PDF = args[0];TEXT2 = args[1];}try{DateTime t1 = DateTime.Now;ParsingPDF example = new ParsingPDF();example.parsePdf(PDF, TEXT2);DateTime t2 = DateTime.Now;TimeSpan ts = t2 - t1;Console.WriteLine("Parsing completed in {0:0.00} seconds.", ts.TotalSeconds);}catch (Exception ex){Console.WriteLine("ERROR: " + ex.Message);}public class MyTextRenderListener : IRenderListener{protected StreamWriter output;public MyTextRenderListener(StreamWriter output){this.output = output;}public void BeginTextBlock(){output.Write("<");}public void EndTextBlock(){output.WriteLine(">");}public void RenderImage(ImageRenderInfo renderInfo){}public void RenderText(TextRenderInfo renderInfo){output.Write("<");output.Write(renderInfo.GetText());output.Write(">");}

C# 用 iTextSharp 将 PDF 转成文本的代码相关推荐

  1. 将PDF转换成文本,用python写代码

    可以使用 Python 中的 PyPDF2 库来将 PDF 文件转换为文本. 首先,需要安装 PyPDF2: pipinstall pypdf2 然后,你可以使用以下代码来打开 PDF 文件并读取其内 ...

  2. linux pdf 转 txt文件,linux 下 pdf 转换成txt(示例代码)

    pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转:如果是扫描的,就比较麻烦需要用到OCR技术(文字识别). 在linux下: 依赖包  poppler-utils  tesser ...

  3. C#使用iTextSharp将数据导出成PDF

    这个导出PDF还是满费劲的,百度了好久都是零零散散的,要不就是收费的,最终还是拼出来了一个简单的版本. using System; using System.Collections.Generic; ...

  4. itextsharp 获取文本_利用iTextSharp提取PDF文件中的文本内容

    最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用.于是我的想法是先把PDF转换为Text,然后再对比Text的内容.现在问题的关键变成了如何提取PDF中的文本,在 ...

  5. 使用iTextSharp 导出PDF 详解(转)

    PDF文件是目前比较流行的电子文档格式,在办公自动化(OA)等软件的开发中,经常要用到该格式,但介绍如何制作PDF格式文件的资料非常少,在网上搜来搜去,都转贴的是同一段"暴力"破解 ...

  6. 该怎样才能将PDF转换成HTML

    2019独角兽企业重金招聘Python工程师标准>>> 将PDF转换成HTML网页格式,是快速打造专业级网站的方法之一.当用户找到了非常详实的PDF资料,打算将之制作成为网页格式时, ...

  7. linux中将文本中的单词换掉的指令_为什么说从PDF中提取文本是一件困难的事?...

    PDF文档处理工作中,总是绕不开对文本提取的需求.很多用户觉得我们PDFlux好用,所以对其中的底层技术也非常感兴趣.也有人为认为,从PDF里抽取文本段落和表格,应该非常简单! 近期,我们会对PDF文 ...

  8. pdf转换成html python,在Python中将pdf转换为html

    Python 2.6 我试图解析我的pdf文件,其中一种方法是将其转换为html并提取标题和段落. 所以,我尝试了pdf2htmlEX,它将我的pdf转换成html格式,而不干扰我的pdf格式...到 ...

  9. 怎样把pdf转换成word

    PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了,网络上的PDF资料也越来越多,但是我们往往想要提出某些资料里面的部分文字内容进行二次编辑,那么我们这里就是讲比较通用的PDF转为WO ...

最新文章

  1. 关于ubuntu 16.04 docker常用命令
  2. java版扫雷下载_Java 实现扫雷游戏(MineSweeper)
  3. Redis基础高级学习笔记
  4. 常见工具:dp与px互转,屏幕宽度与高度获取
  5. art-template入门(三)之语法
  6. Spring AOP方法分析
  7. 聚焦核心竞争力:自建与外购
  8. SQLite学习手册(索引和数据分析/清理)-转
  9. SSI与Biss、Endat、Hipeface
  10. 测绘——AutoCAD教育版打印戳去除
  11. 《自己动手写网络爬虫》读书笔记——宽度优先爬虫和带偏好的爬虫
  12. vtp协议服务器配置,配置交换机VTP协议
  13. medusa详细使用教程
  14. DH(Diffie-Hellman)算法本元根(原根)求法
  15. 论文阅读笔记:Layer Normalization
  16. 美拉德不做鬼佬BBQ,只做中国餐饮文化
  17. mint系统用wine打开exe文件
  18. mysql定时任务(Navicat)
  19. 报泰山学堂计算机条件,山大泰山学堂被曝以高考排名选生源 山大回应
  20. 如何为vs2017安装svn

热门文章

  1. python 设置精度_在python中以全微秒精度设置文件的mtime
  2. Java经典面试:完美世界java开发待遇
  3. CW——一款简易且有趣的文本编辑器
  4. 树莓派教程(1)——手把手教你在无显示器的情况下使用树莓派
  5. 大数据培训课程:Hive配置总结
  6. uni-app实现二维码以及小程序实现二维码
  7. 三一重机遇到百度智能云,工程机械维保有了新方案
  8. 【研究型论文】Encrypted Malware Traffic Detection via Graph-based Network Analysis
  9. scala中object和class的理解---apply方法是初始化方法
  10. android颜色识别