狠狠躁夜夜躁人人爽天天天天,天天摸夜夜摸夜夜狠狠摸,四虎精品8848ys一区二区

PDF文檔處理為什么會用到OCR文字識別

markingben >《待分類》

2016.08.10

關注

　你曾遇到過PDF難題嗎？比如，無法選擇文本進行復制，或者搜索PDF文檔中已有的單詞時，卻搜索不到任何結(jié)果，原因很簡單，只要有正確的工具，問題就能輕松解決。

　　為什么PDF文檔表現(xiàn)有所不同？

　　PDF文檔根據(jù)文件創(chuàng)建的方式，可分為三種不同的類型，文件最初的創(chuàng)建方式規(guī)定了PDF內(nèi)容（文本、圖像、表格）能否訪問，或是否“鎖定”在頁面圖像中。

　　想要理解PDF的結(jié)構(gòu)，應該按照圖層來理解。上面一層只是一張圖片，如果你想訪問文本，則需要有第二圖層，即文本層，位于圖片層下面，被隱藏了。

　　“真正”或數(shù)字創(chuàng)建的PDF文檔

　　使用軟件Microsoft Word、Excel，或者通過軟件應用程序（虛擬打印機）中的“打印”功能創(chuàng)建，由文本和圖像組成?？伤阉?，內(nèi)容可訪問，以便注釋和重復使用。

　　“僅圖像”或掃描的PDF文檔

　　由一體化設備和辦公室掃描儀上的掃描紙質(zhì)文檔創(chuàng)建，或者轉(zhuǎn)換jpg或tiff圖像為PDF時創(chuàng)建。

　　僅包含掃描的或者拍攝的頁面圖像，底下不帶有文本層，內(nèi)容“鎖定”在快照圖像中。不可進行搜索，內(nèi)容不可訪問。

　　可搜索的掃描PDF文檔

　　文本層被添加到圖像層，通常放在下面，可進行搜索，內(nèi)容可訪問，可進行注釋和重復使用。可能會出現(xiàn)一些限制，比如圖片元素和圖像。

　　什么是OCR？它和處理PDF文檔有何關聯(lián)？

　　很多掃描儀都可以創(chuàng)建PDF文檔，但也僅限于創(chuàng)建圖像或文檔快照，不過就是一堆黑白或彩色的點，稱為光柵圖像，無其他數(shù)據(jù)。要想從掃描文檔或“僅圖像”PDF文檔中提取并利用數(shù)據(jù)，需要OCR文字識別軟件，比如ABBYY FineReader，或者PDF工具，如ABBYY PDF Transformer+。

　　光學字符識別或者文本識別可以解鎖“困”在掃描/拍攝的文檔圖像上的信息，OCR軟件可以通過翻譯字符圖像“讀取”文檔里的內(nèi)容，讓轉(zhuǎn)換文檔內(nèi)容和布局為可搜索和可編輯的格式成為可能。

　　OCR對你處理PDF的日常工作有何影響呢？

　　現(xiàn)在你知道了：每次想要選取PDF文檔里的內(nèi)容時都會失敗，要么就是無法搜索文檔里的關鍵詞，幾乎就是在處理掃描的“僅圖像”PDF文檔。

　　有了OCR，使用ABBYY FineReader，就可以將掃描的“僅圖像”PDF文檔轉(zhuǎn)換為包含可選擇和可搜索文本的PDF文檔，實現(xiàn)輕松管理、復制和索引內(nèi)容，以及全文本搜索。

　　處理PDF文檔變得更加簡單和更有效率，因為：

　　可以處理掃描的紙質(zhì)文檔和“僅圖像”PDF文檔，就跟處理數(shù)字創(chuàng)建的PDF文檔一樣；

　　可以更加快速地從文檔中找到并訪問信息，再也不用在紙堆里翻箱倒海了；

　　可以重復使用文檔里的信息，無需手動重新輸入；

　　和同時協(xié)作的時候，可以選擇文本進行強調(diào)、評論和添加注釋；

　　可以使用“搜索和編輯”功能編輯文檔中出現(xiàn)的機密信息。

　　本文來源于：http://www.abbyychina.com/zhishiku/fr-ocr-pdf.html　你曾遇到過PDF難題嗎？比如，無法選擇文本進行復制，或者搜索PDF文檔中已有的單詞時，卻搜索不到任何結(jié)果，原因很簡單，只要有正確的工具，問題就能輕松解決。