你曾遇到過PDF難題嗎?比如,無法選擇文本進行復制,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結(jié)果,原因很簡單,只要有正確的工具,問題就能輕松解決。
為什么PDF文檔表現(xiàn)有所不同?
PDF文檔根據(jù)文件創(chuàng)建的方式,可分為三種不同的類型,文件最初的創(chuàng)建方式規(guī)定了PDF內(nèi)容(文本、圖像、表格)能否訪問,或是否“鎖定”在頁面圖像中。
想要理解PDF的結(jié)構(gòu),應該按照圖層來理解。上面一層只是一張圖片,如果你想訪問文本,則需要有第二圖層,即文本層,位于圖片層下面,被隱藏了。
“真正”或數(shù)字創(chuàng)建的PDF文檔
使用軟件Microsoft Word、Excel,或者通過軟件應用程序(虛擬打印機)中的“打印”功能創(chuàng)建,由文本和圖像組成??伤阉?,內(nèi)容可訪問,以便注釋和重復使用。
“僅圖像”或掃描的PDF文檔
由一體化設備和辦公室掃描儀上的掃描紙質(zhì)文檔創(chuàng)建,或者轉(zhuǎn)換jpg或tiff圖像為PDF時創(chuàng)建。
僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內(nèi)容“鎖定”在快照圖像中。不可進行搜索,內(nèi)容不可訪問。
可搜索的掃描PDF文檔
文本層被添加到圖像層,通常放在下面,可進行搜索,內(nèi)容可訪問,可進行注釋和重復使用。可能會出現(xiàn)一些限制,比如圖片元素和圖像。
什么是OCR?它和處理PDF文檔有何關聯(lián)?
很多掃描儀都可以創(chuàng)建PDF文檔,但也僅限于創(chuàng)建圖像或文檔快照,不過就是一堆黑白或彩色的點,稱為光柵圖像,無其他數(shù)據(jù)。要想從掃描文檔或“僅圖像”PDF文檔中提取并利用數(shù)據(jù),需要OCR文字識別軟件,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。
光學字符識別或者文本識別可以解鎖“困”在掃描/拍攝的文檔圖像上的信息,OCR軟件可以通過翻譯字符圖像“讀取”文檔里的內(nèi)容,讓轉(zhuǎn)換文檔內(nèi)容和布局為可搜索和可編輯的格式成為可能。
OCR對你處理PDF的日常工作有何影響呢?
現(xiàn)在你知道了:每次想要選取PDF文檔里的內(nèi)容時都會失敗,要么就是無法搜索文檔里的關鍵詞,幾乎就是在處理掃描的“僅圖像”PDF文檔。
有了OCR,使用ABBYY FineReader,就可以將掃描的“僅圖像”PDF文檔轉(zhuǎn)換為包含可選擇和可搜索文本的PDF文檔,實現(xiàn)輕松管理、復制和索引內(nèi)容,以及全文本搜索。
處理PDF文檔變得更加簡單和更有效率,因為:
可以處理掃描的紙質(zhì)文檔和“僅圖像”PDF文檔,就跟處理數(shù)字創(chuàng)建的PDF文檔一樣;
可以更加快速地從文檔中找到并訪問信息,再也不用在紙堆里翻箱倒海了;
可以重復使用文檔里的信息,無需手動重新輸入;
和同時協(xié)作的時候,可以選擇文本進行強調(diào)、評論和添加注釋;
可以使用“搜索和編輯”功能編輯文檔中出現(xiàn)的機密信息。
本文來源于:http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html 你曾遇到過PDF難題嗎?比如,無法選擇文本進行復制,或者搜索PDF文檔中已有的單詞時,卻搜索不到任何結(jié)果,原因很簡單,只要有正確的工具,問題就能輕松解決。
為什么PDF文檔表現(xiàn)有所不同?
PDF文檔根據(jù)文件創(chuàng)建的方式,可分為三種不同的類型,文件最初的創(chuàng)建方式規(guī)定了PDF內(nèi)容(文本、圖像、表格)能否訪問,或是否“鎖定”在頁面圖像中。
想要理解PDF的結(jié)構(gòu),應該按照圖層來理解。上面一層只是一張圖片,如果你想訪問文本,則需要有第二圖層,即文本層,位于圖片層下面,被隱藏了。
“真正”或數(shù)字創(chuàng)建的PDF文檔
使用軟件Microsoft Word、Excel,或者通過軟件應用程序(虛擬打印機)中的“打印”功能創(chuàng)建,由文本和圖像組成??伤阉鳎瑑?nèi)容可訪問,以便注釋和重復使用。
“僅圖像”或掃描的PDF文檔
由一體化設備和辦公室掃描儀上的掃描紙質(zhì)文檔創(chuàng)建,或者轉(zhuǎn)換jpg或tiff圖像為PDF時創(chuàng)建。
僅包含掃描的或者拍攝的頁面圖像,底下不帶有文本層,內(nèi)容“鎖定”在快照圖像中。不可進行搜索,內(nèi)容不可訪問。
可搜索的掃描PDF文檔
文本層被添加到圖像層,通常放在下面,可進行搜索,內(nèi)容可訪問,可進行注釋和重復使用??赡軙霈F(xiàn)一些限制,比如圖片元素和圖像。
什么是OCR?它和處理PDF文檔有何關聯(lián)?
很多掃描儀都可以創(chuàng)建PDF文檔,但也僅限于創(chuàng)建圖像或文檔快照,不過就是一堆黑白或彩色的點,稱為光柵圖像,無其他數(shù)據(jù)。要想從掃描文檔或“僅圖像”PDF文檔中提取并利用數(shù)據(jù),需要OCR文字識別軟件,比如ABBYY FineReader,或者PDF工具,如ABBYY PDF Transformer+。
光學字符識別或者文本識別可以解鎖“困”在掃描/拍攝的文檔圖像上的信息,OCR軟件可以通過翻譯字符圖像“讀取”文檔里的內(nèi)容,讓轉(zhuǎn)換文檔內(nèi)容和布局為可搜索和可編輯的格式成為可能。
OCR對你處理PDF的日常工作有何影響呢?
現(xiàn)在你知道了:每次想要選取PDF文檔里的內(nèi)容時都會失敗,要么就是無法搜索文檔里的關鍵詞,幾乎就是在處理掃描的“僅圖像”PDF文檔。
有了OCR,使用ABBYY FineReader,就可以將掃描的“僅圖像”PDF文檔轉(zhuǎn)換為包含可選擇和可搜索文本的PDF文檔,實現(xiàn)輕松管理、復制和索引內(nèi)容,以及全文本搜索。
處理PDF文檔變得更加簡單和更有效率,因為:
可以處理掃描的紙質(zhì)文檔和“僅圖像”PDF文檔,就跟處理數(shù)字創(chuàng)建的PDF文檔一樣;
可以更加快速地從文檔中找到并訪問信息,再也不用在紙堆里翻箱倒海了;
可以重復使用文檔里的信息,無需手動重新輸入;
和同時協(xié)作的時候,可以選擇文本進行強調(diào)、評論和添加注釋;
可以使用“搜索和編輯”功能編輯文檔中出現(xiàn)的機密信息。
聯(lián)系客服