Explore & Discover

当前位置:探索不止步 > 平面设计 > 正文

如何批量识别扫描版PDF的文字?

重要:本文最后更新于2021-03-10 14:13:34,某些文章具有时效性,若有错误或已失效,请在下方留言或联系联系站长

就在今天,我的一个同事拿到一份100页以上的扫描版PDF格式文档,她需要把里面的文字复制出来,很多软件对于大容量的PDF支持并不友好。我用Adobe Acrobat软件把这个PDF的文字重新识别了,最后全选复制出来。

Adobe Acrobat是一个用于编辑PDF格式文档的软件,对PDF十分友好,毕竟是它的老东家也就是Adobe公司的产品,它可以让非扫描版的PDF文件如同word文档一样进行方便的编辑。让扫码版本的PDF进行文字识别,对于这两种PDF都有着良好的编辑。

Adobe Acrobat识别扫描版PDF文件教程(点击图片放大)

如何批量识别扫描版PDF的文字?

1、打开PDF文档  2、点击页面右侧扫描ORC 3、点击页头弹出的文本识别

 

 

如何批量识别扫描版PDF的文字?

4、直接点击识别文本即可

 

如何批量识别扫描版PDF的文字?

备注:在设置中可以有其他选项,分别为:识别当前页面、所有页面、指定页面等内容

 

关于耗时:

对大容量PDF文档进行文字识别,耗时较长,以我这个150页的扫描版PDF为例,总耗时约1.5小时。过程中会有一定卡顿现象,这是正常的,需要一定耐心。

关于乱码:

如果PDF文档内存在其他修饰性的图案,在“全选-复制”后放在TXT文档内可发现乱码,如果有乱码情况,建议逐页复制,虽然此种方式较为繁琐,但胜在干净。

 

本文用了CC-BY-NC-SA协议:探索不止步 » 如何批量识别扫描版PDF的文字?

有什么想说的,直接在下面回复就好啦

在这里评论抢沙发