一、OCR编辑器的进入

如果你安装后在桌面上没看到,可以去安装目录查找,名称为【FineReaderOCR.exe】。

二、进入后首先两个设置

1、设置OCR识别语言

先把OCR识别语言设为简体中文和英语(想必大部分的中国人就是看由这两种语言写成的文档吧?)。当然你可以自己添加,可以添加多种语言。但是不建议添加太多,会降低识别精度的。

2、设定输出文本形式

一般来说利用PDF来做知识管理,不建议转换为可编辑副本,因为会丧失原有文档的很多排版信息(而且OCR识别出错也不容易追溯和对照)。也不建议转换为格式化文本,因为这些格式不常用,并且普通人还需要花精力知道浏览和编辑它们的工具。纯文本和灵活布局更不建议了,因为纯文本不支持载入图片等复杂数据,而HTML不支持分页。

三、进入OCR设置窗口

下面有两种进入OCR设置窗口的方法。

1.1 在OCR编辑器工具菜单的选项中

OCR编辑器——工具菜单——选项——格式设置——可搜索PDF设置。

如下图所示,图像品质设置为最佳质量,然后不勾选“使用MRC压缩”,可搜索PDF设置里选择页面图像下方的文本。

虽然MRC压缩会大大减小PDF大小,但是你很可能会看不清,所以取消勾选。

1.2 在保存时的选项设置中

保存——选项

四、OCR设置建议

4.1 常规选项

没什么好设置

4.2 图像处理

图像处理中,一定要勾选【在PDF编辑器中启用背景识别】。

拆开对开页是指如果你的PDF是一页中包括两面内容,就会自动帮你分割,这是属于预处理环节的预处理。
纠正页面方向是指如果你是通过拍照或者扫描仪得到的PDF,那么在存在定位不准情况时,会自动帮你微调方向,由歪变正。

4.3 语言(在第一节已述)

4.4 OCR

  • PDF识别模式有3种,OCR是指不管PDF原来是不是存在文本层都重新OCR一遍,仅使用PDF中的文字是指不识别直接用来源的文本层,自动自然是软件在决策模式前会检测文档中是否有文字层了。虽然软件会有检测(其实acrobat PDF在识别时也会检测),但是本人估计不同PDF OCR识别出的文字层格式可能不一样,比如你在WPS PDF中扫描文档得到的文字层,可能在ABBYY中检测不到。
  • OCR速度和准确度:无疑是通篇识别,也用不了多久,多等等获得更准确的文字层。
  • 检测结构元素:全部勾选,比如检测到目录可能会帮你加一个页面超链接;虽然检测效果不好,但总算有些检测得到。
  • 使用OCR Editor 中的样式和训练:默认使用内置模式,其他模式可以定制化地提高你的文档识别结果,但是挺折腾人的。

    选择字体中,直接按软件识别出的可能字体进行识别即可。

4.5 格式设置(第一节已述)

4.6 区域和文字

默认设置即可,用户词典是定制化OCR识别选项,用来提高识别准确度的,如果你不喜欢折腾,可以不管。

4.7 其他

如果你的CPU很好,可以多设置几核(我不知道默认几核…嘿嘿嘿小白敬请谅解)。

另外建议不要勾选检查更新,没事谁更新软件啊?又没出问题,还占资源。

五、ABBYY OCR编辑器的验证功能

第四节中提到验证设置,那么肯定也有对应的验证功能。

在工具栏中,单击验证就进入验证窗口。

验证窗口中会重点显示置信度较低的字符、识别出来不是在验证词典(默认是微软word词典)中的单词。

其中“跳过”相当于下一个,也就是说跳到下一个需要用户后续验证是否OCR识别正确的内容。

其中“添加到词典”只有跳到陌生单词时才会可用,如果选择添加到词典,下次识别的时候就不需要验证了。

另外其中的“选项”,其实就是在第4.6节的区域文字选项。

如果你还感兴趣用户词典,下图便是。不同语言对应的词典不同,勾选使用微软Word自定义词典,相当于验证所用词典首先基于微软的词典数据库,查不到才会继续检查是否存在于你“存储字典路径”下的数据,还查不到就需要验证了。

声明

其他功能我就不介绍了,ABBYY是一个很好的公司,这款产品我真的很喜欢,我把它用来做我搭建本地知识库的基础软件,推荐大家使用。

全部按照本文的设置,最后输出的PDF书签全部丢失,因此建议把原PDF的书签保存一下,然后用【PdgCntEdit】软件把书签加载在新生成的可搜索PDF上即可。另外,页码的设置也可能会重置,因此如果说原来对封面到正文之间的页码设置成了数字外的标识,重置后原来的目录失效,可能需要用到【PdgCntEdit】软件的页码偏置/偏移功能。

本文测试用的软件是ABBYY FineReader 15版本,如果你的软件界面跟本文不一样,兴许是版本不同呢。但是,大抵不会变化太多,功能一般不会减少只会增加和更智能、易用。

【ABBYY FineReader】如何利用世界著名PDF工具ABBYY FineReader给扫描版PDF转换成可搜索的PDF?知识管理的最佳设置建议、不会降低最后显示的质量相关推荐

  1. CDRshp文件转html,CDR转PDF设置教程-告诉你如何把cdr转换成适合印刷的pdf

    CDR转PDF设置教程-告诉你如何把cdr转换成适合印刷的pdf 书法字体2014.03.18cdr如何转pdf 我在这里所说的CDR转PDF,指的是把CorelDRAW文件转换成适合印刷的PDF文档 ...

  2. linux将txt文件转化为raw,如何利用qemu-img工具将其它格式的镜像文件转换成VHD或RAW格式...

    本文在介绍的基础上如何利用qemu-img工具将其它格式的镜像文件转换成VHD或RAW格式,重点探讨了其具体步骤. 转换镜像格式 ECS只支持导入RAW.VHD和qcow2格式的镜像文件.其他镜像文件 ...

  3. PDF迅捷转换器html网址,如何把PDF转换成HTML?迅捷PDF转换器

    原标题:如何把PDF转换成HTML?迅捷PDF转换器 很多人都知道,PDF格式的文件是可以直接用网页来打开的,那么你是否知道,其实PDF格式的文件还可以直接给转换成HTML这样的网页格式呢?那么如何把 ...

  4. 怎样把扫描的图片转换成pdf

    要想将大量的图片进行排序展示,唯一的方法就是将其合并在一个PDF文档中,可问题出现了,PDF文档根本不接受复制功能,倘若将大量的图片进行格式转换了,唯有借助第三方转换软件.这时,数据格式转换建议:你的 ...

  5. 【工具封装】Python 实现将阿拉伯数字 === 转换成中文大写数字

    一.序言:   工具封装第四弹,阿拉伯数字 ===> 转换成 ===> 中文大写数字,喜欢就赶紧收藏+点赞+关注吧 !!! ---- Nick.Peng 二.实现代码如下: #!/usr/ ...

  6. CAD图纸文件如何转换成常见的彩色PDF文件?

    CAD图纸文件如何转换成常见的彩色PDF文件?将CAD图纸文件进行格式间的转换成为PDF格式也是格式转换中经常见的,编辑完成的CAD图纸文件为了将其进行方便查看会需要将其进行格式间的转换成为PDF格式 ...

  7. PDF如何转换成EPUB格式?PDF转EPUB常用方法分享

    在转PDF格式的过程中有时会遇到比较少见的格式,比如ePub格式,那么这是什么文件格式呢?PDF如何转换成ePub格式呢?今天小编就来和大家介绍PDF转换EPUB格式操作步骤. ABBYY14 下载安 ...

  8. 图文混合PDF转换成Word方法介绍 PDF转换器下载

    PDF文件本身易于阅读难以编辑的特点,使得不少办公用户不得不考虑将PDF文件内容转换成为Word文件格式.借助迅捷PDF转换成Word转换器的强大转换功能,即便是普通电脑用户也可以轻松上手操作,无需做 ...

  9. 数据对接利用hutool工具类进行xml解析,xml转换成map,然后进行数据入库

    数据对接xml解析 <ESBEntry><!--通过MB对请求进行权限验证,验证后将删除AccessControl节点 --><AccessControl>< ...

最新文章

  1. Android WebView访问SSL证书网页(onReceivedSslError)
  2. 计算机常用端口号汇总
  3. 余弦函数导数推导过程_人工智能数学基础----导数
  4. php 工厂静态类,静态工厂模式(Static Factory)
  5. db2中null和空值的区别_MySQL数据库的表中 NULL和空值 到底有什么区别呢?
  6. 大数据-HDFS文件系统是什么
  7. php中global什么意思,php中global与$GLOBAL的用法及区别(转载)
  8. 经典好文!java继承父类注解
  9. 竞价推广的流程有哪些?
  10. 录音转文字python实现
  11. 在ubuntu上卸载anaconda
  12. 隧道场景人员车辆定位系统-帮助隧道施工实现智能化管理
  13. C语言入门教程,C语言学习教程
  14. 解决The APR based Apache Tomcat Native library which allows optimal performance in production environ
  15. css3 图片旋转360度动画
  16. iOS 朋友圈点赞评论,发布朋友圈,想要的都有
  17. 04【Verilog实战】SPI协议底层硬件接口设计(附源码RTL/TB)
  18. android获取网络图片方法,Android获取网络图片并显示的方法
  19. RFID技术如何让图书馆实现自助借还,自助盘点
  20. oracle sql 时间差

热门文章

  1. R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)
  2. xbook2操作系统内核,一个新英雄的崛起!
  3. pmap学习:系统测试中怎么确定内存泄露(memory leak)
  4. ffmpeg avfilter
  5. Mac技巧:如何修复不起作用的复制粘贴
  6. php在线更新功能/热更新,实例代码 thinkphp在线更新功能
  7. Python 零基础入门数据分析实战之小费数据集应用
  8. 完美解决:针对tensorflow中,tf.logging.set_verbosity(tf.logging.ERROR)问题。
  9. 图片上传到七牛云/阿里云的OSS
  10. HBT偏置:有源电流镜偏置