掃描文字,結(jié)果以圖片格式(.bmp)存入電腦。然后使用ORC識別系統(tǒng)進行轉(zhuǎn)換,最終用WORD進行修改編輯。下面教你如何使用ORC:OCR是英文Optical Character Recognition的縮寫,翻譯成中文就是通過光學技術(shù)對文字進行識別的意思, 是自動識別技術(shù)研究和應(yīng)用領(lǐng)域中的一個重要方面。它是一種能夠?qū)⑽淖肿詣幼R別錄入到電腦中的軟件技術(shù),是與掃描儀配套的主要軟件,屬于非鍵盤輸入范疇,需要圖像輸入設(shè)備主要是掃描儀相配合?,F(xiàn)在OCR主要是指文字識別軟件,在1996年清華紫光開始搭配中文識別軟件之前,市場上的掃描儀和OCR軟件一直是分開銷售的,專業(yè)的OCR軟件讜縲┦焙蚵艫帽壬枰腔掛蟆K孀派枰欠直媛實奶嶸?,OCR軟件也在不斷升級,掃描儀廠商現(xiàn)在已把專業(yè)的OCR軟件搭配自己生產(chǎn)的掃描儀出售。OCR技術(shù)的迅速發(fā)展與掃描儀的廣泛使用是密不可分的,近兩年隨著掃描儀逐漸普及和OCR技術(shù)的日臻完善,OCR己成為絕大多數(shù)掃描儀用戶的得力助手。一、OCR技術(shù)的發(fā)展歷程自20世紀60年代初期出現(xiàn)第一代OCR產(chǎn)品開始,經(jīng)過30多年的不斷發(fā)展改進,包括手寫體的各種OCR技術(shù)的研究取得了令人矚目的成果,人們對OCR產(chǎn)品的功能要求也從原來的單純注重識別率,發(fā)展到對整個OCR系統(tǒng)的識別速度、用戶界面的友好性、操作的簡便性、產(chǎn)品的穩(wěn)定性、適應(yīng)性、可靠性和易升級性、售前售后服務(wù)質(zhì)量等各方面提出更高的要求。IBM公司最早開發(fā)了OCR產(chǎn)品,1965年在紐約世界博覽會上展出了IBM公司的OCR產(chǎn)品——IBMl287。當時的這款產(chǎn)品只能識別印刷體的數(shù)字、英文字母及部分符號,并且必須是指定的字體。20世紀60年代末,日立公司和富士通公司也分別研制出各自的OCR產(chǎn)品。全世界第一個實現(xiàn)手寫體郵政編碼識別的信函自動分揀系統(tǒng)是由日本東芝公司研制的,兩年后NEC公司也推出了同樣的系統(tǒng)。到了1974年,信函的自動分揀率達到92%左右,并且廣泛地應(yīng)用在郵政系統(tǒng)中,發(fā)揮著較好的作用。1983年日本東芝公司發(fā)布了其識別印刷體日文漢字的OCR系統(tǒng)OCRV595,其識別速度為每秒70~100個漢字,識別率為99.5%。其后東芝公司又開始了手寫體日文漢字識別的研究工作。中國在OCR技術(shù)方面的研究工作相對起步較晚,在20世紀70年代才開始對數(shù)字、英文字母及符號的識別技術(shù)進行研究,20世紀70年代末開始進行漢字識別的研究。1986年,國家863計劃信息領(lǐng)域課題組織了清華大學、北京信息工程學院、沈陽自動化所三家單位聯(lián)合進行中文OCR軟件的開發(fā)工作。至1989年,清華大學率先推出了國內(nèi)第一套中文OCR軟件--清華文通TH-OCR1.0版,至此中文OCR正式從實驗室走向了市場。清華OCR印刷體漢字識別軟件其后又推出了TH-OCR 92高性能實用簡/繁體、多字體、多功能印刷漢字識別系統(tǒng),使印刷體漢字識別技術(shù)又取得重大進展。到1994年推出的TH-OCR 94高性能漢英混排印刷文本識別系統(tǒng),則被專家鑒定為“是國內(nèi)外首次推出的漢英混排印刷文本識別系統(tǒng),總體上居國際領(lǐng)先水平”。上個世紀90年代中后期,清華大學電子工程系提出并進行了漢字識別綜合研究,使?jié)h字識別技術(shù)在印刷體文本、聯(lián)機手寫漢字識別、脫機手寫漢字識別和脫機手寫數(shù)字符號識別等領(lǐng)域全面地取得了重要成果。具有代表性的成果是TH-OCR 97綜合集成漢字識別系統(tǒng),它可以完成多文種(漢、英、日)印刷文本、聯(lián)機手寫漢字、脫機手寫漢字和手寫數(shù)字的識別輸入。幾年來,除清華文通TH-OCR外,其它如尚書SH-OCR等各具風格的OCR軟件也相繼問世,中文OCR市場穩(wěn)步擴大,用戶遍布世界各地。可以說目前印刷體OCR的識別技術(shù)已經(jīng)達到較高水平。OCR產(chǎn)品已由早期的只能識別指定的印刷體數(shù)字、英文字母和部分符號,發(fā)展成為可以自動進行版面分析、表格識別,實現(xiàn)混合文字、多字體、多字號、橫豎混排識別的強大的計算機信息快速錄入工具。對印刷體漢字的識別率達到98%以上,即使對印刷質(zhì)量較差的文字其識別率也達到95%以上??勺R別宋體、黑體、楷體、仿宋體等多種字體的簡、繁體,并且可以對多種字體、不同字號混合排版進行識別,對手寫體漢字的識別率達到70%以上。特別是我國的漢字OCR技術(shù)經(jīng)過十幾年的努力,克服了起步晚、漢字字符集異常龐大等困難,單字的識別速度(指在單位時間內(nèi)所完成的從特征提取到識別結(jié)果輸出的字數(shù))可以達到70字/秒以上。由于印刷體OCR漢字識別技術(shù)已經(jīng)比較成熟,所以O(shè)CR產(chǎn)品被廣泛地應(yīng)用在新聞、印刷、出版、圖書館、辦公自動化等各個行業(yè)。專業(yè)型OCR產(chǎn)品多是面向特定的行業(yè),即適用于每天需處理大量表格信息錄入的部門,如郵政、稅務(wù)、海關(guān)、統(tǒng)計等等。這種面向特定行業(yè)的專業(yè)型OCR系統(tǒng),格式較為固定,識別的字符集相對較小,經(jīng)常與專用的輸入設(shè)備結(jié)合使用,因此具有速度快、效率高等特點,比如郵件自動分揀系統(tǒng)等。手寫文稿的識別直到1996、1997年才開始有產(chǎn)品問世,而且是作為印刷文稿識別產(chǎn)品的一項附加功能提供的。由于人寫字的習慣千差萬別,實現(xiàn)自由手寫體識別相當困難,所以手寫體OCR技術(shù)的使用領(lǐng)域是聯(lián)機手寫體識別,即人一邊寫,計算機一邊識別,是一種實時識別方式。二、OCR的基本原理簡單地說,OCR的基本原理就是通過掃描儀將一份文稿的圖像輸入給計算機,然后由計算機取出每個文字的圖像,并將其轉(zhuǎn)換成漢字的編碼。其具體工作過程是,掃描儀將漢字文稿通過電荷耦合器件CCD將文稿的光信號轉(zhuǎn)換為電信號,經(jīng)過模擬/數(shù)字轉(zhuǎn)換器轉(zhuǎn)化為數(shù)字信號傳輸給計算機。計算機接受的是文稿的數(shù)字圖像,其圖像上的漢字可能是印刷漢字,也可能是手寫漢字,然后對這些圖像中的漢字進行識別。對于印刷體字符,首先采用光學的方式將文檔資料轉(zhuǎn)換成原始黑白點陣的圖像文件,再通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式,以便文字處理軟件的進一步加工。其中文字識別是OCR的重要技術(shù)。1.OCR識別的兩種方式與其它信息數(shù)據(jù)一樣,在計算機中所有掃描儀捕捉到的圖文信息都是用0、1這兩個數(shù)字來記錄和進行識別的,所有信息都只是以0、1保存的一串串點或樣本點。OCR識別程序識別頁面上的字符信息,主要通過單元模式匹配法和特征提取法兩種方式進行字符識別。單元模式匹配識別法(Pattern Matching)是將每一個字符與保存有標準字體和字號位圖的文件進行不嚴格的比較。如果應(yīng)用程序中有一個已保存字符的大數(shù)據(jù)庫,則應(yīng)用程序會選取合適的字符進行正確的匹配。軟件必須使用一些處理技術(shù),找出最相似的匹配,通常是不斷試驗同一個字符的不同版本來比較。有些軟件可以掃描一頁文本,并鑒別出定義新字體的每一個字符。有些軟件則使用自己的識別技術(shù),盡其所能鑒別頁面上的字符,然后將不可識別的字符進行人工選擇或直接錄入。特征提取識別法(Feature Extraction)是將每個字符分解為很多個不同的字符特征,包括斜線、水平線和曲線等。然后,又將這些特征與理解(識別)的字符進行匹配。舉個簡單的例子,應(yīng)用程序識別到兩條水平橫線,它就會“認為”該字符可能是“二”。特征提取法的優(yōu)點是可以識別多種字體,例如中文書法體就是采用特征提取法實現(xiàn)字符識別的。多數(shù)OCR應(yīng)用軟件都加入了語法智能檢查功能,這種功能進一步提高了識別率。它主要通過上下文檢查法實現(xiàn)拼寫和語法的糾正,在文字識別時,OCR應(yīng)用程序會做多次的上下文銜接性檢查,根據(jù)程序中已經(jīng)存在的詞組、固定的用詞順序,對應(yīng)的檢查字符串的用詞字。比較高級的應(yīng)用軟件會自動用它“認為”正確的詞語替換錯誤詞語,糾正語句意思。2.文字識別的幾個步驟文字識別包括以下幾個步驟:圖文輸入、預(yù)處理、單字識別和后處理等。(1)圖文輸入是指通過輸入設(shè)備將文檔輸入到計算機中,也就是實現(xiàn)原稿的數(shù)字化?,F(xiàn)在用得比較普遍的設(shè)備是掃描儀。文檔圖像的掃描質(zhì)量是OCR軟件正確識別的前提條件。恰當?shù)剡x擇掃描分辨率及相關(guān)參數(shù),是保證文字清楚、特征不丟失的關(guān)鍵。此外,文檔盡可能地放置端正,以保證預(yù)處理檢測的傾斜角小,在進行傾斜校正后,文字圖像的變形就小。這些簡單的操作,會使系統(tǒng)的識別正確率有所提高。反之,由于掃描設(shè)置不當,文字的斷筆過多可能會分檢出半個文字的圖像。文字斷筆和筆畫粘連會造成有些特征丟失,在將其特征與特征庫比較時,會使其特征距離加大,識別錯誤率上升。(2)預(yù)處理掃描一幅簡單的印刷文檔的圖像,將每一個文字圖像分檢出來交給識別模塊識別,這一過程稱為圖像預(yù)處理。預(yù)處理是指在進行文字識別之前的一些準備工作,包括圖像凈化處理,去掉原始圖像中的顯見噪聲(干擾)。主要任務(wù)是測量文檔放置的傾斜角,對文檔進行版面分析,對選出的文字域進行排版確認,對橫、豎排版的文字行進行切分,每一行的文字圖像的分離,標點符號的判別等。這一階段的工作非常重要,處理的效果直接影響到文字識別的準確率。版面分析是對文本圖像的總體分析,是將文檔中的所有文字塊分檢出來,區(qū)分出文本段落及排版順序,以及圖像、表格的區(qū)域。將各文字塊的域界(域在圖像中的始點、終點坐標),域內(nèi)的屬性(橫、豎排版方式)以及各文字塊的連接關(guān)系作為一種數(shù)據(jù)結(jié)構(gòu),提供給識別模塊自動識別。對于文本區(qū)域直接進行識別處理,對于表格區(qū)域進行專用的表格分析及識別處理,對于圖像區(qū)域進行壓縮或簡單存儲。行字切分是將大幅的圖像先切割為行,再從圖像行中分離出單個字符的過程。(3)單字識別單字識別是體現(xiàn)OCR文字識別的核心技術(shù)。從掃描文本中分檢出的文字圖像,由計算機將其圖形、圖像轉(zhuǎn)變成文字的標準代碼,是讓計算機“認字”的關(guān)鍵,也就是所謂的識別技術(shù)。就像人腦認識文字是因為在人腦中已經(jīng)保存了文字的各種特征,如文字的結(jié)構(gòu)、文字的筆畫等。要想讓計算機來識別文字,也需要先將文字的特征等信息儲存到計算機里,但要儲存什么樣的信息及怎樣來獲取這些信息是一個很復(fù)雜的過程,而且要達到非常高的識別率才能符合要求。通常采用的做法是根據(jù)文字的筆畫、特征點、投影信息、點的區(qū)域分布等進行分析。中國漢字常用的就有幾千,識別技術(shù)就是特征比較技術(shù),通過和識別特征庫的比較,找到特征最相似的字,提取該文字的標準代碼,即為識別結(jié)果。比較是人們認識事物的一種基本方法,漢字識別也是通過比較找出漢字之間的相同、相似、相異,把握其量和質(zhì)的關(guān)系,以及時間與空間的關(guān)系等。對于大字符集的漢字一般采用多級分類,多特征、全方位動態(tài)匹配求相似集,以保證分類率高、適應(yīng)性強、穩(wěn)定性好;細分類重點在于對相似集求異匹配、加權(quán)處理、結(jié)構(gòu)判別,定量、定性分析,以及前后聯(lián)接詞的關(guān)系,最后進行判別。漢字識別實質(zhì)上是比較科學或認知科學在人工智能方面的應(yīng)用,其關(guān)鍵技術(shù)是識別特征庫。計算機有了這樣的一個特征庫,才能完成認字的功能。在圖像文檔的版面中,除了有文字、圖片,有時還會有表格存在,為了使識別后的表格數(shù)字化,需要在版面分析過程中,對表格域進行特殊的處理,它包括對表格線的結(jié)構(gòu)信息的提取,對表格內(nèi)文字域的分檢,完成對表格線和對文字域的識別,并根據(jù)表格線的數(shù)字化生成不同的文件格式。由于文檔中的表格隨意性大,格式多樣,有封閉式的,也有開放式的,特別是表格中的斜線,給表格分析造成一定的困難。(4)后處理后處理是指對識別出的文字或多個識別結(jié)果采用詞組方式進行上下匹配,即將單字識別的結(jié)果進行分詞,與詞庫中的詞組進行比較,以提高系統(tǒng)的識別率,減少誤識率。漢字字符識別是文字識別領(lǐng)域最為困難的問題,它涉及模式識別、圖像處理、數(shù)字信號處理、自然語言理解、人工智能、模糊數(shù)學、信息論、計算機、中文信息處理等學科,是一門綜合性技術(shù)。近幾年來,印刷漢字識別系統(tǒng)的單字識別正確率已經(jīng)超過95%,為了進一步提高系統(tǒng)的總體識別率,掃描圖像、圖像的預(yù)處理以及識別后處理等方面的技術(shù)也都得到了深入的研究,并取得了長足的進展,有效地提高了印刷漢字識別系統(tǒng)的總體性能。清華大學在此方面的研究成果突出,已經(jīng)成為世界上的最具權(quán)威的機構(gòu)之一。目前,清華紫光的全系列掃描儀中都配裝了清華OCR千禧版軟件,它在識別率、表格識別甚至規(guī)范手寫體的識別方面,均達到了較高水平。三、OCR文字識別技巧在最近幾年中,OCR識別技術(shù)隨著掃描儀的普及得到了飛速的發(fā)展,掃描、識別軟件的性能不斷強大并向智能化不斷升級發(fā)展。但是要想快速地獲取正確的掃描結(jié)果,得到高效率的文字錄入,必須認真學習有關(guān)知識,結(jié)合實踐經(jīng)驗,摸索出自己的全套解決方案。有時我們在作文字識別工作時識別率非常低,根本達不到軟件所說的95%以上,請先不要責怪硬件或軟件,其實這是沒有掌握好掃描及OCR識別技巧的原因。下面是文字識別操作中經(jīng)常用到了一些方法和技巧。1.分辨率的設(shè)置是文字識別的重要前提。一般來講,掃描儀提供較多的圖像信息,識別軟件比較容易得出識別結(jié)果。但也不是掃描分辨率設(shè)得越高識別正確率就越高。選擇300dpi或400dpi分辨率,適合大部分文檔掃描。注意文字原稿的掃描識別,設(shè)置掃描分辨率時千萬不要超過掃描儀的光學分辨率,不然會得不償失。下面是部分典型設(shè)置,僅供參考。(1)1、2、3號字的文章段,推薦使用200dpi。(2)4、小4、5號字的文章段,推薦使用300dpl(3)小5、6號字的文章段,推薦使用400dpl(4)7、8號字的文章段,推薦使用600dpi。2. 掃描時適當?shù)卣{(diào)整好亮度和對比度值,使掃描文件黑白分明。這對識別率的影響最為關(guān)鍵,掃描亮度和對比度值的設(shè)定以觀察掃描后的圖像中漢字的筆畫較細但又不斷開為原則。進行識別前,先看看掃描得到的圖像中文字質(zhì)量如何,如果圖像存在黑點或黑斑時或文字線條很粗很黑,分不清筆畫時,說明亮度值太小了,應(yīng)該增加亮度值在試試;如果文字線條凹凸不平,有斷線甚至圖像中漢字輪廓嚴重殘缺時,說明亮度值太大了,應(yīng)減小亮度后再試試。3.選好掃描軟件。選一款好的適合自己的OCR軟件是作好文字識別工作的基礎(chǔ),一般不要使用掃描儀自帶的OEM軟件,OEM的OCR軟件的功能少、效果差,有的甚至沒有中文識別,經(jīng)過比較,我認為清華紫光OCR2003專業(yè)版和尚書OCR6.0文本自動識別輸入系統(tǒng)的識別能力與使用功能更突出一些。再選一個圖像軟件,OCR軟件不是有掃描接口嗎?為什么還找圖像軟件?第一,OCR軟件不能識別所有的掃描儀;第二,也是最關(guān)鍵的,利用圖像軟件的掃描接口掃描出來的圖像便于處理;一般選用PHOTOSHOP。4.如果要進行的文本是帶有格式的,如粗體、斜體、首行縮進等,部分OCR軟件識別不出來,會丟失格式或出現(xiàn)亂碼。如果必須掃描帶有格式的文本,事先要確保使用的識別軟件是否支持文字格式的掃描。也可以關(guān)閉樣式識別系統(tǒng),使軟件集中注意力查找正確的字符,不再顧及字體和字體格式。
聯(lián)系客服