Explore & Discover

当前位置:探索不止步 > 平面设计 > 正文

如何批量识别扫描版PDF的文字?

重要:本文最后更新于2021-03-10 14:13:34,某些文章具有时效性,若有错误或已失效,请在下方留言或联系联系站长

就在今天,我的一个同事拿到一份100页以上的扫描版PDF格式文档,她需要把里面的文字复制出来,很多软件对于大容量的PDF支持并不友好。我用Adobe Acrobat软件把这个PDF的文字重新识别了,最后全选复制出来。

Adobe Acrobat是一个用于编辑PDF格式文档的软件,对PDF十分友好,毕竟是它的老东家也就是Adobe公司的产品,它可以让非扫描版的PDF文件如同word文档一样进行方便的编辑。让扫码版本的PDF进行文字识别,对于这两种PDF都有着良好的编辑。

Adobe Acrobat识别扫描版PDF文件教程(点击图片放大)

如何批量识别扫描版PDF的文字?

1、打开PDF文档  2、点击页面右侧扫描ORC 3、点击页头弹出的文本识别

 

 

如何批量识别扫描版PDF的文字?

4、直接点击识别文本即可

 

如何批量识别扫描版PDF的文字?

备注:在设置中可以有其他选项,分别为:识别当前页面、所有页面、指定页面等内容

 

关于耗时:

对大容量PDF文档进行文字识别,耗时较长,以我这个150页的扫描版PDF为例,总耗时约1.5小时。过程中会有一定卡顿现象,这是正常的,需要一定耐心。

关于乱码:

如果PDF文档内存在其他修饰性的图案,在“全选-复制”后放在TXT文档内可发现乱码,如果有乱码情况,建议逐页复制,虽然此种方式较为繁琐,但胜在干净。

 

liubing

刘冰有多种爱好,阅读、DIY、设计、摄影、写文章、徒步、饮茶、代码、环保、公益…好奇心非常强烈,他自称是一个探索者。2012年前后活跃在一些音乐论坛,形成“分享&互助”的精神。他把一些和兴趣有关的经验以专栏作者的方式分享到一些平台与杂志,后来索性搭建了这个非盈利网站用于集中式的分享。他希望能给无意间看到此网站的人,给予细微的帮助。他也希望更多人一起分享不同领域的事物,成为这个网站的专栏作者,一起共享多元世界。最后,他认为抽空做一些自己喜欢的事情,知行合一很重要,这是快乐的泉源之一。

本文用了CC-BY-NC-SA协议:探索不止步 » 如何批量识别扫描版PDF的文字?

有什么想说的,直接在下面回复就好啦

在这里评论抢沙发