許多影印版的 PDF 書籍資料,在閱讀的時候都有一個讓人很煩惱的問題:無法復(fù)制書中的文字內(nèi)容!尤其這幾天在閱讀學(xué)習(xí)《Python 數(shù)據(jù)可視化》(科斯·拉曼(Kirthi Raman) 著 )這本書,想要記錄一下學(xué)習(xí)筆記復(fù)制一些書中文字的時候,無法復(fù)制文字的問題簡直讓我忍無可忍。
Google 百度了一番,嘗試了 Chrome 打開 PDF 后,在打印中另存為 PDF、Smallpdf 在線移除密碼,以及其他的一些 PDF 解除加密都沒有效果。后來才知道,原來我從經(jīng)管之家使用 100 個論壇幣下載的這本《Python 數(shù)據(jù)可視化》應(yīng)該是一本影印版的 PDF 文件,而非加密的文檔,一開始嘗試 PDF 解除加密的解決方法方向本來就不對。應(yīng)該變成如何從掃描版 PDF 文件中復(fù)制文字。
關(guān)于 PDF 掃描版與非掃描版,于是 Google 了一下,有這么個答案:
PDF 非掃描版就是直接轉(zhuǎn)換的 PDF 文件,并且加了密??梢酝ㄟ^軟件解密后編輯或轉(zhuǎn)換。PDF 掃描版就是通過掃描儀掃描生成位圖格式的 PDF 文件,并且加了密。此文件以圖片形式存在,可以通過軟件解密后要進(jìn)行 OCR 識別后進(jìn)行編輯文字。識別的好與壞要根據(jù)掃描的分辨率來確定。
掃描版與非掃描版 PDF 一般都可以單個文字選中復(fù)制修改,最大的區(qū)別是 PDF 文字版里面的文字是以矢量格式存儲的,無論怎么放大都不會有鋸齒或者失真的情況,而掃描版的 PDF 文件,在性質(zhì)上屬于位圖格式的,文字是以圖片的形式存儲的,放大后會有失真或者嚴(yán)重的鋸齒情況。
那么,回到原來的問題,掃描版的 PDF 如何復(fù)制里面的文字?我是參考了《Acrobat2018怎么使用OCR識別掃描版PDF中的文字?》,完美解決了這個問題。
Acrobat 2017/2018 中不像之前的版本在編輯中能找到寫有 OCR 功能的選項,那是因為 ocr 識別改名為“編輯文本和圖像”了,下面我們就來看看 Acrobat2018 怎么使用 OCR 識別掃描版 PDF 中的文字教程。
1、打開要識別的PDF,如果該PDF沒有加密,那么點擊“編輯-編輯文本和圖像”或者在任意頁面鼠標(biāo)右擊,選擇“編輯圖像”,就可以進(jìn)行OCR識別了。
2、進(jìn)行第一步之后,默認(rèn)執(zhí)行的單頁的識別,但是如果你要識別整個PDF文件,怎么辦?
3、點擊圖中右下角掃描文檔下的“設(shè)置”,在彈出的窗口中勾選“所有頁面均可編輯”,點擊確定,再點擊編輯圖像時,就可以全篇識別了。
4、但是面對加密的文檔,會提示需要“輸入口令”,這個時候需要使用軟件PDFPasswordRmover,移除PDF的密碼,就可以按照上面的方法愉快的OCR識別了。有時也會出現(xiàn),點了“編輯圖像”,但是未能進(jìn)行OCR識別,只是把當(dāng)頁識別成一整張圖片,我也用PDFPasswordRmover處理了一下,然后再進(jìn)行OCR識別,就沒問題了。
以上就是Acrobat2018找不到OCR識別的原因,直接使用編輯文本和圖像也是一樣的功能,希望大家喜歡。
聯(lián)系客服