使用场景:扫描版PDF在使用时没有目录很不方便,尤其是导入到goodnotes等软件时。在acrobat中可以手动添加书签,但是效率较低。这里记录下如何批量添加目录,关键点是目录文件的处理。

所示软件:FreePic2PDF 和GVIM

第一步:提取PDF原始的目录信息(FreePic2PDF使用参考)(FreePic2PDF下载地址)

首先取书签,会在当前文件路径生成文件夹,接着修改txt文件,最后挂书签即可。

第二步:制作目录信息包

思路:从当当淘宝等网站复制文字版本目录,利用OCR识别数字目录,最后进行拼接。核心是对TXT的处理,建议熟练使用GVIM。

京东详情页存在具体的目录,但是没有页码。

用gvim新建文件,利用通配符操作进行替换,在小章节前添加Tab(\t)

对页码进行截图,只保留数字,利用OCR在线识别出txt输出,在线OCR网址

注:识别文字可以选择较生僻的,亲测DANISH无误差。

TXT处理

页码需要先合并,同时可能出现一行多个的情况,需要用gvim替换,思路是找数字开头空格结尾,在数字前添加Tab。

最后把两个TXT每一行合并,可以使用脚本,这里使用参考。

txt合并脚本bat,把文件放在同一个文件夹

txt合并脚本bat,把文件放在同一个文件夹
@echo off
set num=0
setlocal enabledelayedexpansion
for /f "delims=" %%a in (1.txt) do (if !num! equ 0 (set /p str=<2.txtecho %%~a !str!>>3.txt) else (call:get !num! "%%~a")set /a num+=1
)
pause
exit
:get
for /f "skip=%~1 delims=" %%b in (2.txt) do (echo %~2 %%b>>3.txtgoto :eof
)

最终效果

完成TXT处理后,回到第一步参考,用软件导入即可。

注意点:

  1. 一级标题顶格,二级标题TAB缩进,页码TAB缩进。
  2. 没有页码使用OCR时注意可能有错误,直接有页码的目录改格式即可。
  3. GVIM不是必须的,记事本应该也有通配符操作。
  4. 示例中页码从正文开始,部分文件的页码从封面开始,这时需要重新编码。建议第一页前使用ABC。

扫描文档PDF创建目录相关推荐

  1. Smart Crop,一种切除 PDF 扫描文档白边的新选择(工程篇)

    周日深夜,我把代码分享到了 Github,用的 MIT 协议,详见 JamesPan/pdf-smart-crop.原本还想着把注释文档和单元测试写了再分享代码的,后来实在是懒了.所以说啊,这些东西如 ...

  2. 华为手机扫描文档的三种方法

    以下基于鸿蒙系统 Harmony 2.0.0 方法一:进入手机下拉工具栏的快捷开关,找到"扫一扫"打开,选择"扫描" 方法二:打开手机相机,点击左上角" ...

  3. VintaSoft Twain.NET SDK,实现扫描文档

    VintaSoft Twain.NET SDK,实现扫描文档 VintaSoft Twain.NET SDK是一个 .NET 库,可供希望通过 TWAIN 兼容(版本 1.x/2.x)设备和 .NET ...

  4. 在线扫描服务器文件大小,还在找在线扫描文档并上传为图像的扫描工具?Dynamic Web TWAIN满足您的需求!...

    您是否正在寻找一个基于Web的文档扫描工具包供您的用户进行在线文档扫描并将其轻松上传到您的网站? 使用Dynamic Web TWAIN在线扫描文档 Dynamic Web TWAIN是一个客户端扫描 ...

  5. 用Adobe Acrobat Pro DC来对扫描文档进行处理

    文章目录 1. 使文本可被选择 2. 根据需要校正部分文本和排版 3. 利用书签功能制作目录 1. 使文本可被选择 在"工具栏"中选择"增强文本",在上方的编辑 ...

  6. 使用深度学习阅读和分类扫描文档

    作者|小白 来源|小白学视觉 收集数据 首先,我们要做的第一件事是创建一个简单的数据集,这样我们就可以测试我们工作流程的每一部分.理想情况下,我们的数据集将包含各种易读性和时间段的扫描文档,以及每个文 ...

  7. 【深度学习】使用深度学习阅读和分类扫描文档

    收集数据 首先,我们要做的第一件事是创建一个简单的数据集,这样我们就可以测试我们工作流程的每一部分.理想情况下,我们的数据集将包含各种易读性和时间段的扫描文档,以及每个文档所属的高级主题.我找不到具有 ...

  8. 【深度学生】使用深度学习阅读和分类扫描文档

    收集数据 首先,我们要做的第一件事是创建一个简单的数据集,这样我们就可以测试我们工作流程的每一部分.理想情况下,我们的数据集将包含各种易读性和时间段的扫描文档,以及每个文档所属的高级主题.我找不到具有 ...

  9. Typora基础用法:pandoc安装,导入导出word文档,pdf文件。设置图片目录

    点击观看B站视频 Typora基础用法:pandoc安装,导入导出word文档,pdf文件.设置图片目录. 一. pandoc安装 首次安装完typora,是没法导入的,需要安装pandoc 选择[请 ...

最新文章

  1. Android线程间通信之handler
  2. php如何判断二维数组为空,PHP判断数组为空的具体方式
  3. 管理软件实施(1)——什么是管理软件
  4. 华为张顺茂:华为工业互联网平台FusionPlant助力国家电网打造泛在电力物联网
  5. 网络爬虫随记:2018-03-12启(refreshing)
  6. springboot - 应用实践(3)springboot的核心
  7. Linux 常用基础命令(入门版)
  8. plsqldevelop破解方法
  9. Web前端实现3D旋转魔方相册【超详细】
  10. python矩阵教程_Python Numpy Tutorial / Python Numpy 教程 (矩阵和图像操作)
  11. 为什么你做数据分析没思路?
  12. 【OpenStack】Nova中的rebuild和evacuate(HA)
  13. 精准识别,指静脉智能门锁更好用吗?看先锋亲自体验的结果
  14. xpath获取不包含某一子标签的a标签
  15. 实验室服务器多人共用账号,搭建多人共用的GPU服务器
  16. 神马笔记 版本2.2.0——功能优化
  17. Python进行数据分析探索
  18. 谷神—阴阳和道的通道
  19. Linux网络入侵检测系统
  20. 通过推送消息控制Android系统锁屏、唤醒

热门文章

  1. 思科 CCNA2 第八章测验答案
  2. flutter windows搭建ios开发环境
  3. linux下删除多余的网卡配置
  4. 景区智慧旅游是什么?景区智慧旅游有什么特点优势?
  5. 合众达DM6446开发板烧写注意事项
  6. oracle 经典书籍下载
  7. 华为OD机考——牛客10道练习题(Python版)
  8. C#,GDI+开发调音器界面
  9. 建议数据库管理系统通过设定终端接入方式、网络地址范围等条件限制终端登录,
  10. 源码阅读:SDWebImage(二十一)——UIImageView+WebCache/UIImageView+HighlightedWebCache