就在今天,我的一个同事拿到一份100页以上的扫描版PDF格式文档,她需要把里面的文字复制出来,很多软件对于大容量的PDF支持并不友好。我用Adobe Acrobat软件把这个PDF的文字重新识别了,最后全选复制出来。
Adobe Acrobat是一个用于编辑PDF格式文档的软件,对PDF十分友好,毕竟是它的老东家也就是Adobe公司的产品,它可以让非扫描版的PDF文件如同word文档一样进行方便的编辑。让扫码版本的PDF进行文字识别,对于这两种PDF都有着良好的编辑。
Adobe Acrobat识别扫描版PDF文件教程(点击图片放大)
关于耗时:
对大容量PDF文档进行文字识别,耗时较长,以我这个150页的扫描版PDF为例,总耗时约1.5小时。过程中会有一定卡顿现象,这是正常的,需要一定耐心。
关于乱码:
如果PDF文档内存在其他修饰性的图案,在“全选-复制”后放在TXT文档内可发现乱码,如果有乱码情况,建议逐页复制,虽然此种方式较为繁琐,但胜在干净。