文書檔案數字化形成的電子文件數量巨大,一般縣級檔案館文書檔案達幾百萬頁,將其數字化,所需存儲空間很大。選擇好檔案數字化副本存儲格式,既可減少存儲空間,也可提高上傳、下載速度,具有重要意義。
1.1 JPG (JPEG) 格式
這是我們接觸最多的圖像格式。手機拍攝下來的照片格式一般為JPG格式。JPEG是 Joint PhotographicExperts Group的縮寫,直譯是“聯合圖像專家小組”。也就是說,該格式是由這個軟件開發(fā)小組制定的。這種圖像格式,就是把圖像壓縮,使圖像變得很小,所占存儲空間也就很小。在網絡上易于傳輸,一般網頁上的圖片都是這種格式。這種壓縮是損壞性壓縮,把圖像中重復或不重要的信息去除,容易造成圖像數據的損傷。JPEG格式優(yōu)點也多,可用最少的磁盤空間得到較好的圖像品質。
1.2 JPEG2000格式
JPEG2000是JPEG的升級版,其特點:一是更高的壓縮率,一般比JPEG高出30%左右;二是支持無損壓縮;三是能實現漸進傳輸。在網上看一些圖片,如網速較慢,往往先看到圖像的輪廓,然后出現模糊圖像,接著圖像會越來越清晰,這就是圖像漸進式下載過程。JPEG2000重要特性是支持漸進傳輸。
1.3 BMP格式
BMP圖像是微軟推出的圖像格式,在Windows操作系統(tǒng)中是作為標準圖像格式的,Windows應用程序一般都會支持BMP格式。BMP是英文Bitmap的簡寫,應用較廣泛。與JPEG比,它幾乎不進行壓縮。由于幾乎不進行壓縮,所以圖像信息非常豐富。它優(yōu)點突出,缺點也突出。缺點即是太占地方。
1.4 RAW 格式
數碼相機進行圖像格式切換,常見的是JPEG格式同RAW格式的相互切換。JPEG格式是一種壓縮格式,而RAW格式則是幾乎未經處理而直接從數碼相機或數碼攝像機生成的圖像。如果同一數碼相機,采用兩種格式拍攝,再經過圖像處理軟件進行調整,比如調曝光度、飽和度、對比度等,則RAW格式會更生動、更接近實際;JPEG格式由于進行了有損壓縮,后續(xù)很難進行校正,幾乎無調整余地。
1.5 GIF格式
GIF格式是英文Graphics Interchange Format的縮寫,即為可交換圖形格式,是作為一種公用標準而設計的。主要用來解決跨平臺圖像格式問題。GIF可制作成透明圖像、動畫等,在網絡上大量使用。
1.6 PNG格式
PNG格式可以說是完全為網絡而生的圖像格式,是替代無損壓縮的位圖格式,如GIF格式。PNG具有可編輯性,能制作成透明圖片,是最近幾年才被大多數瀏覽器支持的圖像格式。盡管它的壓縮率較高,但與JPEG比還是太大。
1.7 TIFF格式
TIFF是英文Tag Image File Format的縮寫,意思是標簽圖像文件格式。TIFF、JPEG和PNG都是較為流行的高位彩色圖像格式,主要用來存儲包括照片和藝術圖片在內的圖像??梢允嵌囗撐募炊鄠€圖像組成一個TIFF文件。TIFF圖像文件格式有漏洞,可受到遠程攻擊或是被誘使打開惡意文檔。
1.8 PDF格式
PDF是近幾年流行起來的圖像文件格式,是英文Portable Document Format的縮寫,意為便攜式文檔格式。如職稱申報系統(tǒng),幾乎所有圖像都需生成相應的PDF文件。這種格式可以最少的文件數量上傳,也便于閱讀。
我們對文書檔案數字化,可采用掃描方法獲取圖像,也可采用拍攝方法獲取圖像。下面我們分別采用這兩種方法獲取圖像,然后將其按不同的圖像格式保存,比較一下圖像大小。
實驗一:用攝像頭拍攝一張色彩單一封面,分別采用JPEG、PNG、BMP、TIFF格式存儲,大小如下表。
通過上述知道,BMP是沒有任何壓縮的圖像格式,可理解為拍攝的圖像大小為901KB,其余幾種格式都有不同程度的壓縮,壓縮率最高的是JPEG格式。也就是說,一個901KB的圖像,生成JPEG才20KB大小。次之為PNG格式為418KB。由小至大排序為JPEG、PNG、TIFF、BMP。實驗二:換一張色彩豐富的封面進行拍攝,分別采用JPEG、PNG、BMP、TIFF格式存儲,大小如下表。比較這兩張表,會發(fā)現隨著色彩的豐富,除了BMP格式外,其它格式圖像都變大了,由小至大排序為JPEG、PNG、TIFF、BMP。通過兩次試驗,可得結論:(1) 在上述幾種圖像格式中,JPEG是最小的圖像格式,BMP是最大的圖像格式。TIFF是較BMP格式第二大的圖像格式。(2) 當相同的像素大?。▋纱尉鶎?40像素,高480像素)時,色彩變化對BMP格式影響不大。其余格式都隨著色彩變化而有相應變化,越豐富越大。
實驗三:把拍攝換成掃描,生成灰度文檔,分別采用JPEG、PNG、BMP、TIFF格式存儲,大小如下表。結論:BMP是沒有任何壓縮的圖像格式,可理解為掃描生成的灰度圖像大小為917KB,壓縮率最高的是JPEG格式,它只占掃描生成圖像的23%。由小至大排序為JPEG、PNG、TIFF、BMP。
實驗四:以彩色模式掃描同一文檔,分辨率相同,分別采用JPEG、PNG、BMP、TIFF格式存儲,其大小如下表。結論:BMP是沒有任何壓縮的圖像格式,可理解為掃描生成的彩色圖像大小為2742KB,彩色模式下,壓縮率最高的還是JPEG格式,它只占掃描生成彩色圖像的8.8%。而TIFF增長較大,PNG次之,這說明TIFF、PNG格式文件保存了較豐富的圖像信息。由小至大排序與灰度試驗一樣,依次是JPEG、PNG、TIFF、BMP。
實驗五:掃描多頁文件,生成TIFF和PDF文檔,比較文檔大小。掃描4頁文件,彩色模式,如下表。結論:(1)生成的a.PDF文件大小為575KB,基本等于4頁JPG格式的文件大小之和 (156+158+128+131≈575)。
(2) 生成的b.TIFF文件所占空間為a.PDF所占空間的7倍。這個倍數并不是固定的,但TIFF文件要比PDF文件大得多,至少2倍以上。
《紙質檔案數字化規(guī)范》 (以下簡稱規(guī)范) 規(guī)定:紙質檔案數字圖像長期保存格式為TIFF、JPEG或JPEG2000等通用格式,圖像壓縮率的選擇可根據實際應用需求而定。紙質檔案數字圖像利用時,也可從網絡瀏覽速度、易操作性、存儲空間占用等方面進行綜合考慮,將圖像轉換為PDF等其他格式。不難看出,紙質檔案數字圖像保存格式為TIFF、JPEG或JPEG2000格式。
我們具體應依據什么確定文書檔案數字化圖像格式。《規(guī)范》要求“數字圖像清晰、完整、不失真,圖像效果最接近檔案原貌。為最大限度保留檔案原件信息,便于多種方式的利用,宜全部采用彩色模式進行掃描”。即掃描出的圖像盡可能接近實體。掃描出的圖像我們可以無限接近實體,但這些圖像必須保存下來,才能生成數字圖像。JPEG格式,是損壞性壓縮文件,壓縮率越高,損壞越大,只是我們肉眼難以分辨,當你想再次修正這種圖像時,可修正的余地很少,在更多細節(jié)上無法修正。但它的好處是存儲空間小,傳輸速度快。文書檔案數字化后,能滿足文字識別需要就可以了,所以,在300dpi下彩色掃描的數字檔案,采用JPEG格式保存較好。TIFF格式與JPEG格式相比,優(yōu)點是可將多頁圖像生成一份文檔,能保存豐富的圖像信息。但它所占存儲空間是JPEG文件數倍,所以我認為重要的文書檔案,可采用這種格式,一般文件不宜采用。應注意,PDF格式不是數字化圖像長期保存格式。但從數字文件管理、調用等方面看,卻非常便捷,應將PDF納入長期保存檔案基本格式,而非僅僅作為應用層次的轉化格式。
本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請
點擊舉報。