像一些直接網(wǎng)上下載來的PDF文件,譬如下圖的這個PDF文檔,它的原始格式就是word。
其實也就是跟圖片差不多吧,無法復(fù)制不可編輯。
一般像這種文字居多的或者摻雜圖片較少的PDF文檔,要轉(zhuǎn)換成可編輯的word文檔還是比較容易也比較多方法可以實現(xiàn)的。
新版的office是支持直接打開并轉(zhuǎn)換PDF的,不過往往會有這個提示。超出word支持的頁面大小,無法打開。你可以先試試。
word打開不行,那用acrobat的文字識別功能。先識別一下文檔。
基本上這種都能直接識別出文字,識別率還是蠻高(因為文檔文字居多,也沒啥難度)咱們直接復(fù)制到記事本去一下格式,再粘貼到word里面。效果還是蠻不錯。
但就不要識別后直接用acrobat直接另存為word了,這樣沒有效果。
會出現(xiàn)一些識別錯誤的現(xiàn)象,這當(dāng)然也在所難免的。還是需要對比原文檔來修改更正一下。另外字體原格式和排版肯定是要犧牲了。
我們來將難度提高一下。掃描件PDF。
一樣還是上面的識別文檔再到word。然后是下圖這樣子。
文檔復(fù)雜時acrobat便不行了,畢竟OCR文字識別并不是acrobat的強(qiáng)項。
這里我們可以用ABBYY這個軟件來進(jìn)行PDF轉(zhuǎn)換,就目前來說它可算是OCR文字識別界中的佼佼者。
直接拖拽進(jìn)來讓它自動識別就可以了,有三百多頁,過程有點久。它會直接掃描PDF文檔的圖片識別出文字。并且此工具還較大程度上保留原始格式的樣式和編排。
識別完成后直接將它另存為word文檔下。
效果還是非常的好。
聯(lián)系客服