对扫描的pdf文件生成目录

Posted twoice

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了对扫描的pdf文件生成目录相关的知识,希望对你有一定的参考价值。

很多pdf文件是直接扫描生成的,于是它的内容都是一张张的图片,当然就更没有目录索引了。

有的时候想找某些内容,只能一点点的移动滚动条,非常不方便。

那么有什么方法能生成目录呢?

 

方法一:使用福昕pdf编辑器

福昕pdf编辑器使用PRC识别pdf文件,能将pdf文件转换为office文件,更是有目录制作的功能。

但是,亲测后发现:

  1. 也是最关键的问题,他需要money,也就是得升级为会员,才能使用图片识别功能。
  2. 目录制作倒是免费的,但它的目录主要是设置标签,对于目录没有分级功能,且需要一页一页翻的去添加,非常麻烦

总之,最后的制作非常不理想。

 

方法二:使用FreePic2Pdf

先看一下最终效果图:

技术图片

 

我使用的是《同济大学高等数学第六版上册.pdf》,打开pdf的软件是2345看图王,也可以用chrome打开。

怎么样,效果是不是非常良好。

FreePic2Pdf这是一个图片转pdf文件,但主要使用的是它的更改pdf的功能。

至于下载地址就不提供了(因为没找到它的官网),网上一搜一堆,第三方下载地址很多的。

软件打开是这样子的:

技术图片

这些功能都不需要,主要使用的是右下角的更改pdf,点开之后:

技术图片

主要使用的就是这一部分的功能。

现在开始目录制作。

先解释一下上述标签的意思:

  1. 往PDF挂书签:就是为pdf文件添加目录。不过需要目录文件,下面会有介绍制作的方式。
  2. 从PDF取书签:就是从有目录的pdf文件中提取出目录文件。
  3. 需要操作的目录文件:就是需要添加目录的PDF文件。
  4. 存放接口的文件夹:就是目录文件,需要制作。

其他的按键一般没什么需要使用的。

制作目录需要一个目录文件,使用的是txt格式。

一、选择一个存放接口的文件夹

技术图片

这个文件夹可以自己创建。

二,创建配置文件

选定文件夹之后,再点击创建文件夹右边的那个按钮,输入以下模板内容:

[Images]

[Font]
Language=GBK
FontSize=7
Margin=0.5

[Bkmk]
File=FreePic2Pdf_bkmk.txt
AddAsText=0
ShowBkmk=1
ShowAll=1
BasePage=1

[Main]
ContentsPage=
TextPage=

保存。之后他就会在选定的文件夹下创建一个名为 FreePic2Pdf.itf 的文件。

三、创建目录文件

在这个文件夹下新建一个 FreePic2Pdf_bkmk.txt 文件。

这个文件就是目录文件,这里的目录需要自定义,它需要按照一定的格式:

一级目录	页码
	二级目录	页码
		三级目录	页码
。。。

表示制表符,也就是TAB键。

例如:

技术图片

这个文件可以用记事本写,也可以用notepad等等。

那么这些内容具体怎么去写呢?

这个就得看自己的电脑技能了。不过总的来说是以下几步:

1、识别目录文字

  • 可以使用ABBYY软件识别,但是不建议,具体原因请自行入坑。
  • 推荐的:使用网页百度翻译。没错,就是百度翻译,将目录图片粘贴上去,他就自动识别并将中文和英文翻译显示出来了。

  至于目录的图片,你可以截图,也可以使用2345看图王软件,如下图:

技术图片

直接就复制目录了,这样复制的目录完整一点。

2、目录制作

百度翻译的识别效果如下:

技术图片

 

 呃,没有换行,内容也有部分缺失,这些都是需要自己去修改。

那么如何将这些内容制作成需要的格式呢,这个。。。要么靠自己手动编辑,如果会正则表达式,可以节省一点时间。

注意:目录的页码是pdf文件的真实页码,而不是书上标志的那些页码,为了方便,可以将接口文件中 BasePage 字段修改为书中第一页对应的pdf页数。

如:BasePage=12

制作成功后,选择相应的文件,如下图:

技术图片

 

再点击开始,没问题的话瞬间制作完成。制作前记得先保存副本。

接着再点开pdf文件,就会发现目录有了:

技术图片

 

 到此,制作完成!!!

 

以上是关于对扫描的pdf文件生成目录的主要内容,如果未能解决你的问题,请参考以下文章

Python实现PDF扫描件生成DOCX或EXCEL功能

扫描仪扫描文件处理-ABBYY生成小体积黑白二值化PDF

如何在Linux下生成PDF文件?

winform 把窗口上的全部信息生成PDF文件显示??

扫描仪扫描文件处理之图像处理到生成PDF步骤简述

wps的pdf扫描识别异常是啥原因