扫描文档PDF创建目录

使用场景:扫描版PDF在使用时没有目录很不方便，尤其是导入到goodnotes等软件时。在acrobat中可以手动添加书签，但是效率较低。这里记录下如何批量添加目录，关键点是目录文件的处理。

所示软件:FreePic2PDF 和GVIM

第一步:提取PDF原始的目录信息(FreePic2PDF使用参考)(FreePic2PDF下载地址)

首先取书签，会在当前文件路径生成文件夹，接着修改txt文件，最后挂书签即可。

第二步:制作目录信息包

思路：从当当淘宝等网站复制文字版本目录，利用OCR识别数字目录，最后进行拼接。核心是对TXT的处理，建议熟练使用GVIM。

京东详情页存在具体的目录，但是没有页码。

用gvim新建文件，利用通配符操作进行替换，在小章节前添加Tab(\t)

对页码进行截图，只保留数字，利用OCR在线识别出txt输出，在线OCR网址

注:识别文字可以选择较生僻的，亲测DANISH无误差。

TXT处理

页码需要先合并，同时可能出现一行多个的情况，需要用gvim替换，思路是找数字开头空格结尾，在数字前添加Tab。

最后把两个TXT每一行合并，可以使用脚本，这里使用参考。

txt合并脚本bat，把文件放在同一个文件夹

txt合并脚本bat，把文件放在同一个文件夹
@echo off
set num=0
setlocal enabledelayedexpansion
for /f "delims=" %%a in (1.txt) do (if !num! equ 0 (set /p str=<2.txtecho %%~a !str!>>3.txt) else (call:get !num! "%%~a")set /a num+=1
)
pause
exit
:get
for /f "skip=%~1 delims=" %%b in (2.txt) do (echo %~2 %%b>>3.txtgoto :eof
)

最终效果

完成TXT处理后，回到第一步参考，用软件导入即可。

注意点：

一级标题顶格，二级标题TAB缩进，页码TAB缩进。
没有页码使用OCR时注意可能有错误，直接有页码的目录改格式即可。
GVIM不是必须的，记事本应该也有通配符操作。
示例中页码从正文开始，部分文件的页码从封面开始，这时需要重新编码。建议第一页前使用ABC。

扫描文档PDF创建目录相关推荐

Smart Crop，一种切除 PDF 扫描文档白边的新选择（工程篇）
周日深夜,我把代码分享到了 Github,用的 MIT 协议,详见 JamesPan/pdf-smart-crop.原本还想着把注释文档和单元测试写了再分享代码的,后来实在是懒了.所以说啊,这些东西如 ...
华为手机扫描文档的三种方法
以下基于鸿蒙系统 Harmony 2.0.0 方法一:进入手机下拉工具栏的快捷开关,找到"扫一扫"打开,选择"扫描" 方法二:打开手机相机,点击左上角" ...
VintaSoft Twain.NET SDK,实现扫描文档
VintaSoft Twain.NET SDK,实现扫描文档 VintaSoft Twain.NET SDK是一个 .NET 库,可供希望通过 TWAIN 兼容(版本 1.x/2.x)设备和 .NET ...
在线扫描服务器文件大小,还在找在线扫描文档并上传为图像的扫描工具？Dynamic Web TWAIN满足您的需求！...
您是否正在寻找一个基于Web的文档扫描工具包供您的用户进行在线文档扫描并将其轻松上传到您的网站? 使用Dynamic Web TWAIN在线扫描文档 Dynamic Web TWAIN是一个客户端扫描 ...
用Adobe Acrobat Pro DC来对扫描文档进行处理
文章目录 1. 使文本可被选择 2. 根据需要校正部分文本和排版 3. 利用书签功能制作目录 1. 使文本可被选择在"工具栏"中选择"增强文本",在上方的编辑 ...
使用深度学习阅读和分类扫描文档
作者|小白来源|小白学视觉收集数据首先,我们要做的第一件事是创建一个简单的数据集,这样我们就可以测试我们工作流程的每一部分.理想情况下,我们的数据集将包含各种易读性和时间段的扫描文档,以及每个文 ...
【深度学习】使用深度学习阅读和分类扫描文档
收集数据首先,我们要做的第一件事是创建一个简单的数据集,这样我们就可以测试我们工作流程的每一部分.理想情况下,我们的数据集将包含各种易读性和时间段的扫描文档,以及每个文档所属的高级主题.我找不到具有 ...
【深度学生】使用深度学习阅读和分类扫描文档
收集数据首先,我们要做的第一件事是创建一个简单的数据集,这样我们就可以测试我们工作流程的每一部分.理想情况下,我们的数据集将包含各种易读性和时间段的扫描文档,以及每个文档所属的高级主题.我找不到具有 ...
Typora基础用法：pandoc安装，导入导出word文档,pdf文件。设置图片目录
点击观看B站视频 Typora基础用法:pandoc安装,导入导出word文档,pdf文件.设置图片目录. 一. pandoc安装首次安装完typora,是没法导入的,需要安装pandoc 选择[请 ...