文·李青
淺談檔案數(shù)字化圖像信息的處理
文·李青
近年來,隨著社會(huì)網(wǎng)絡(luò)化、信息化程度不斷提高,人們獲得信息和利用信息的方式和手段也不斷發(fā)展更新,傳統(tǒng)檔案信息低效率和高成本的保存與利用方式已不能適應(yīng)現(xiàn)階段的利用需求。利用計(jì)算機(jī)、網(wǎng)絡(luò)等信息技術(shù)開展館(室)藏紙質(zhì)載體檔案“存量數(shù)字化”,提高檔案信息綜合服務(wù)水平,已成為檔案界的共識(shí),也是檔案部門開展數(shù)字檔案館(室)建設(shè)的必由之路。
紙質(zhì)檔案數(shù)字化是指采用掃描儀或數(shù)碼相機(jī)等數(shù)碼設(shè)備對(duì)紙質(zhì)檔案進(jìn)行數(shù)字化加工,將其轉(zhuǎn)化為存儲(chǔ)在磁帶、磁盤、光盤等載體上并能被計(jì)算機(jī)識(shí)別的數(shù)字圖像或數(shù)字文本的處理過程。數(shù)字化成果很重要的一個(gè)部分是數(shù)字圖像信息,相對(duì)于數(shù)字文本信息來講,圖像信息的處理和存儲(chǔ)較為復(fù)雜多樣,根據(jù)目前的設(shè)備和技術(shù)情況,摸索建立一套行之有效的工作流程和標(biāo)準(zhǔn)規(guī)范,對(duì)于信息資源數(shù)字化后信息質(zhì)量的統(tǒng)一和提高,促進(jìn)檔案事業(yè)持續(xù)快速健康發(fā)展,對(duì)于今后各檔案館之間以及與其他單位的信息資源交換具有重要意義。
(二)需要“永久保存”;
(三)需要便于查閱;
(四)需要便于網(wǎng)絡(luò)傳輸;
(五)在滿足以上條件基礎(chǔ)上需要占用最小空間。
數(shù)字化的圖像存儲(chǔ)就是要盡可能多地將原始資料的圖像信息保留至數(shù)字化載體中。由于紙質(zhì)載體數(shù)字化后數(shù)據(jù)量非常龐大,壓縮技術(shù)一直就是圖像存儲(chǔ)的重要課題。圖像壓縮的原理是在保證一定的圖像質(zhì)量的前提下,以一種數(shù)學(xué)運(yùn)算方法將圖像的數(shù)據(jù)量降到最小。圖像壓縮分為無損壓縮和有損壓縮,顧名思義無損壓縮就是不破壞原有圖像信息或所有圖像信息均可通過一定的算法恢復(fù)的壓縮方法,而有損壓縮則是在可接受的圖像質(zhì)量條件下對(duì)圖像進(jìn)行的一種不可復(fù)原的壓縮方法。有損壓縮比無損壓縮有更高的壓縮比,因而壓縮后的圖像數(shù)據(jù)量更小,因此多用于網(wǎng)絡(luò)傳輸?shù)葘?duì)數(shù)據(jù)量要求較為嚴(yán)格的條件下。關(guān)于圖像壓縮存儲(chǔ)的方法很多,現(xiàn)階段檔案行業(yè)一般常用下面幾種格式:
后評(píng)估作為檢驗(yàn)配電網(wǎng)規(guī)劃成效、改進(jìn)配電網(wǎng)規(guī)劃工作的手段之一,其重要意義已得到廣泛認(rèn)知,電網(wǎng)企業(yè)在加強(qiáng)配電網(wǎng)規(guī)劃工作時(shí)普遍提出了后評(píng)估的要求。
(一)TIFF
TIFF格式的圖像允許存儲(chǔ)相當(dāng)多的位信息,最多每個(gè)象素點(diǎn)可存儲(chǔ)到32 bit,一般最常用的是24 bit。最初設(shè)計(jì)TIFF的初衷就是要能夠?qū)呙璧膱D像在不同的平臺(tái)上進(jìn)行高質(zhì)量的打印,所以TIFF格式比較適合作為高質(zhì)量的保存原件的圖像存儲(chǔ)格式。TIFF格式允許RGB模式或者CMYK模式,因此TIFF圖像在顯示及打印兩方面都能保持較高質(zhì)量,尤其是在設(shè)計(jì)和印刷領(lǐng)域,TIFF文件格式的應(yīng)用范圍相對(duì)較廣,質(zhì)量也相對(duì)較好。TIFF能以符合LZW算法的無損壓縮格式存儲(chǔ)彩色圖像或256級(jí)灰度圖像,也能以符合CCITT G4算法的無損壓縮格式存儲(chǔ)黑白圖像。TIFF還可以JPEG算法保存有損壓縮圖像,但這種圖像保存方式與JPEG沒有太大區(qū)別,因此應(yīng)用范圍較少。
(二)JPEG
JPEG是目前網(wǎng)絡(luò)應(yīng)用中最常見的圖像格式之一。JPEG也是目前應(yīng)用最廣泛的壓縮存儲(chǔ)格式,其圖像壓縮的效率極高。JPEG還是一個(gè)很靈活的圖像存儲(chǔ)格式,允許以不同的質(zhì)量要求來對(duì)原圖進(jìn)行不同倍率的壓縮。JPEG采用的是一種有損壓縮的算法,這在放大顯示時(shí)很明顯可以看出,對(duì)于高質(zhì)量的打印其效果也會(huì)有差別。所以JPEG不適合作高質(zhì)量保存原件的存儲(chǔ)格式,但因其壓縮效率極高,因此非常適合網(wǎng)絡(luò)應(yīng)用,通常情況下可以用JPEG對(duì)原圖作15到20倍的壓縮,仍能得到可以接受的視覺效果。
(三)JPEG2000
JPEG2000作為JPEG的升級(jí)版,其壓縮率比JPEG高約30%左右,同時(shí)支持有損和無損壓縮。JPEG2000格式有一個(gè)極其重要的特征在于它能實(shí)現(xiàn)漸進(jìn)傳輸,即先傳輸圖像的輪廓,然后逐步傳輸數(shù)據(jù),不斷提高圖像質(zhì)量,讓圖像由朦朧到清晰顯示。此外,JPEG2000還支持所謂的"感興趣區(qū)域" 特性,可以任意指定影像上感興趣區(qū)域的壓縮質(zhì)量,還可以選擇指定的部分先解壓縮。JPEG2000和JPEG相比優(yōu)勢(shì)明顯,且向下兼容,因此可取代傳統(tǒng)的JPEG格式。JPEG2000即可應(yīng)用于傳統(tǒng)的JPEG市場(chǎng),如掃描儀、數(shù)碼相機(jī)等,又可應(yīng)用于新興領(lǐng)域,如網(wǎng)路傳輸、無線通訊等等。
(四)PDF和OFD
PDF和OFD是兩種版式文件格式。PDF是美國Adobe公司于1993年開發(fā)的一種版式文件格式,目前已經(jīng)成為國際標(biāo)準(zhǔn)格式。OFD是按照我國工業(yè)信息化部組織成立的電子文件存儲(chǔ)和交換格式工作組版式文檔編寫組制訂的版式文檔標(biāo)準(zhǔn)形成的版式文件格式。這兩種文件格式并不是專業(yè)的數(shù)字圖像壓縮或存儲(chǔ)格式,他們只是將現(xiàn)成的圖像文件合并組織為一個(gè)完整的版式文件。采用版式文件管理數(shù)字圖像一是便于將一件檔案文件組合為一個(gè)計(jì)算機(jī)文件,方便瀏覽與傳輸;二是數(shù)字圖像格式的文字可以通過OCR技術(shù)形成雙層PDF或者雙層OFD,實(shí)現(xiàn)數(shù)字圖像的全文檢索。
根據(jù)對(duì)相關(guān)技術(shù)與標(biāo)準(zhǔn)的考察,并且考慮到目前國內(nèi)的應(yīng)用水平與未來的擴(kuò)展情況,筆者認(rèn)為在開展檔案數(shù)字化圖像處理時(shí)應(yīng)依據(jù)如下原則:
(一)標(biāo)準(zhǔn)性
標(biāo)準(zhǔn)性即是要求選用的圖像標(biāo)準(zhǔn)或方法符合國際上的通行標(biāo)準(zhǔn)、事實(shí)標(biāo)準(zhǔn)或通行做法,以保證不會(huì)在國際交流中的產(chǎn)生困難,從而保證一定的互操作性。只有符合現(xiàn)有的通用標(biāo)準(zhǔn),才具有較強(qiáng)的生命力。標(biāo)準(zhǔn)性提供了可擴(kuò)充性,具有升級(jí)的能力,具備被向下兼容的權(quán)利。
(二)可操作性
指所采用的標(biāo)準(zhǔn)規(guī)范及工作流程要符合工作人員實(shí)際的能力和技術(shù)水平,使一般工作人員經(jīng)過短時(shí)間的培訓(xùn)就能夠操作。信息資源的建設(shè)是一個(gè)勞動(dòng)密集型的行業(yè),雖然具有相當(dāng)?shù)闹R(shí)要求,但大量的基礎(chǔ)工作不能要求普通工作人員都具備應(yīng)付復(fù)雜工作的能力,過于復(fù)雜的標(biāo)準(zhǔn)和處理過程也不利于品質(zhì)的控制。
(三)前瞻性
在開展檔案數(shù)字化時(shí)要在考慮軟硬件因素時(shí)適當(dāng)?shù)牧粲邪l(fā)展余地,如在網(wǎng)絡(luò)帶寬發(fā)展的情況下就能合理的時(shí)間內(nèi)傳送更高質(zhì)量的圖像。同樣對(duì)于電腦、顯示器,其它硬拷貝等設(shè)備也要考慮到它們快速發(fā)展的可能性。在制定標(biāo)準(zhǔn)的情況下留有相當(dāng)?shù)陌l(fā)展空間。
(四)多用途
在一定程度上講,檔案數(shù)字化也是對(duì)檔案原件的一種損毀。因此在開展檔案信息資源數(shù)字化時(shí),要充分考慮檔案數(shù)字化成果多方面的應(yīng)用場(chǎng)景,盡量保證一次數(shù)字化能盡量滿足絕大部分利用需求。不推薦僅從方便檔案查閱的角度簡(jiǎn)單地確定數(shù)字化技術(shù)參數(shù),還應(yīng)充分考慮仿真件制作、檔案展覽等應(yīng)用。
綜上所述,筆者對(duì)檔案數(shù)字化工作的技術(shù)參數(shù)和后期處理提出如下建議:
(一)應(yīng)當(dāng)采用較高的技術(shù)參數(shù)開展紙質(zhì)檔案數(shù)字化。頁面中有紅頭、印章或插有彩色照片、彩色插圖的檔案應(yīng)采用彩色模式進(jìn)行掃描,頁面為黑白兩色的檔案應(yīng)采用灰度模式進(jìn)行掃描,盡量不使用黑白二值模式。
(二)應(yīng)用彩色模式掃描時(shí),其分辨率一般建議選擇600dpi?;叶饶J綊呙钑r(shí),其分辨率一般建議選擇200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當(dāng)提高分辨率。
(三)數(shù)字化成果中應(yīng)當(dāng)盡量保持紙質(zhì)檔案原貌,不應(yīng)不加選擇的進(jìn)行去污和裁邊處理。
(四)有條件的單位,在開展檔案數(shù)字化工作的同時(shí),應(yīng)該同時(shí)開展OCR識(shí)別工作,便于實(shí)現(xiàn)全文檢索、計(jì)算機(jī)輔助編目、編研開發(fā)和數(shù)據(jù)挖掘等。
檔案數(shù)字化完成后,應(yīng)按照不同的應(yīng)用形式,分存儲(chǔ)層、應(yīng)用層、索引層等三個(gè)層次進(jìn)行數(shù)字圖像處理,分別用于圖像的存儲(chǔ)與再生、網(wǎng)絡(luò)應(yīng)用和圖像索引。
(一)存儲(chǔ)層保存紙質(zhì)檔案數(shù)字化原始成果圖像,以現(xiàn)有的通用軟硬件來達(dá)到以較高品質(zhì)儲(chǔ)存原圖像資源,并能夠以現(xiàn)有的硬拷貝設(shè)備來再生原有的圖像資源。這一層的規(guī)范既要考慮到現(xiàn)有軟硬件設(shè)備及存儲(chǔ)設(shè)備的限制,又要保證一定質(zhì)量上的再生效果。同時(shí)這一層次應(yīng)不要求進(jìn)行實(shí)時(shí)利用,這樣就能利用現(xiàn)有的設(shè)備進(jìn)行前處理及輸出的時(shí)候就可以接受較長(zhǎng)的處理時(shí)間。在圖像格式方面,由于數(shù)字化處理對(duì)原有資源信息已有相當(dāng)大的損耗,因此在存儲(chǔ)格式上必須采用無損壓縮的數(shù)據(jù)格式,而采用無損壓縮的TIFF格式能完整再生我們處理的數(shù)字化圖像信息
(二)應(yīng)用層主要以網(wǎng)絡(luò)傳輸及電腦利用為目的。考慮目前的網(wǎng)絡(luò)傳輸帶寬及現(xiàn)有電腦的輸入輸出能力是界定這一層次標(biāo)準(zhǔn)的參考指標(biāo)。同時(shí)這一層次作為一個(gè)中間的應(yīng)用層,可以根據(jù)今后網(wǎng)絡(luò)及電腦能力的發(fā)展而進(jìn)行重新定義,以滿足更高層次的應(yīng)用需求。因?yàn)檫@一層圖像資料是由存儲(chǔ)層的資源生成而來的,所以其標(biāo)準(zhǔn)最高上限是存儲(chǔ)層的標(biāo)準(zhǔn)。目前網(wǎng)絡(luò)上應(yīng)用最廣泛的存儲(chǔ)格式就是JPEG,因此選用JPEG格式作為應(yīng)用層圖像存儲(chǔ)格式。根據(jù)實(shí)踐經(jīng)驗(yàn),目前在網(wǎng)絡(luò)上傳輸?shù)膯蝹€(gè)圖像文件,其容量最好不要超過1MB,否則在網(wǎng)絡(luò)上傳輸會(huì)遇到時(shí)延過長(zhǎng)的問題。另外,在應(yīng)用層次上,也要考慮現(xiàn)有顯示設(shè)備的限制。以19寸液晶顯示器為例,傳統(tǒng)的4:3顯示器分辨率為1280×1024, 16:10的寬屏顯示器分辨率為1440×900,所以選擇以1440像素為應(yīng)用層的最大圖像尺寸限制。有條件的單位可以考慮使用Jpeg2000文件格式在網(wǎng)絡(luò)上傳送容量較大的數(shù)字圖像,利用其“逐漸清晰”的顯示特性獲得較為人性化的應(yīng)用體驗(yàn)。
在應(yīng)用層也可以考慮將數(shù)字圖像壓縮后組織成PDF或OFD等版式文件形式進(jìn)行利用,有條件的可使用雙層PDF或者雙層OFD實(shí)現(xiàn)全文檢索。需要注意的是,在某些按檔案頁數(shù)付費(fèi)應(yīng)用的系統(tǒng)中,使用版式文件可能會(huì)增加付費(fèi)系統(tǒng)程序設(shè)計(jì)的復(fù)雜程度。
(三)索引層是為了網(wǎng)絡(luò)瀏覽導(dǎo)航,簡(jiǎn)介,索引庫等應(yīng)用而設(shè),這一層的設(shè)置要求以最小合理的資源大小來滿足索引的應(yīng)用需求。這一層的格式一經(jīng)界定后較為固定,一般也不會(huì)隨著應(yīng)用的變化而有所改變。索引層作為通常意義的拇指圖,對(duì)圖像不會(huì)有過高的質(zhì)量要求,一般選擇最大圖像尺寸為200像素的JPEG格式存儲(chǔ)索引層圖像。
下表為三層的具體技術(shù)標(biāo)準(zhǔn)(表中數(shù)據(jù)數(shù)字化原件為A4文件,圖像尺寸與大小僅供參考):
層名圖像類型存儲(chǔ)格式分辯率圖像尺寸(大小)彩色TIFF(LZW) 600dpi 1275×1750(6.7M)灰度TIFF(LZW) 200dpi 2550×3501(4.4M)存儲(chǔ)層彩色JPEG 600dpi 1048×1440(667K)*灰度JPEG 200dpi 1048 x 1440(442K)黑白JPEG 200dpi 1048 x 1440(237K)**應(yīng)用層彩色JPEG 600dpi 145 x 200(15K)***灰度JPEG 200dpi 145 x 200(10.6K)黑白JPEG 200dpi 145 x 200(8.5K)索引層
*應(yīng)用層圖像大小在保證圖像縱橫比不變的情況下,將長(zhǎng)邊設(shè)定為1440像素。
**黑白圖像為灰度圖像做二值化處理后的結(jié)果。
***索引層圖像大小在保證圖像縱橫比不變的情況下,將長(zhǎng)邊設(shè)定為200像素。
(作者單位:青島市廣播電視臺(tái))