龐莉
摘要:特殊載體檔案的數(shù)字化關(guān)系到整個(gè)數(shù)字化成果的優(yōu)劣,是檔案能否長(zhǎng)期保存和利用的關(guān)鍵。本文就特殊載體檔案中圖像檔案的數(shù)字化處理方法及其實(shí)際應(yīng)用過(guò)程,進(jìn)行深入探討。
關(guān)鍵詞:特殊載體檔案數(shù)字化處理掃描技術(shù)
特殊載體檔案的數(shù)字化處理方法和技術(shù)發(fā)展緩慢,是現(xiàn)今館藏檔案數(shù)字化的難點(diǎn)所在。加上特殊載體檔案成分與結(jié)構(gòu)比較復(fù)雜,易損壞、變質(zhì),保存年限低于普通紙張,而又存在諸多掃描障礙和新型軟件應(yīng)用和處理方法的問(wèn)題,如何完成原載體檔案信息的數(shù)字化過(guò)程以及向新型載體遷移,并保證信息的完整、準(zhǔn)確、安全和可重復(fù)利用,值得檔案界思考。
一、特殊載體檔案的概念及其分類(lèi)
“特殊載體檔案”在學(xué)術(shù)界并沒(méi)有統(tǒng)一的定義,有文章記載美國(guó)在20世紀(jì)80年代初期,利用特殊載體檔案就已經(jīng)十分普遍了,“在紐約州,計(jì)算機(jī)機(jī)讀檔案和聲像檔案已經(jīng)很普及,利用它們也是非常容易的事情??墒翘厥廨d體檔案的介質(zhì)材料是脆弱的化學(xué)乳化劑和電子脈沖,很容易丟失與損壞。”[1]國(guó)內(nèi)對(duì)特殊載體檔案的概念也沒(méi)有具體界定,盧曉峰在《特殊載體檔案概述》中寫(xiě)道:“特殊載體檔案記錄信息的載體不是紙質(zhì),而是現(xiàn)代新技術(shù)條件下產(chǎn)生的新型材料?!弊髡呃铋L(zhǎng)江在《做好特殊載體檔案收集工作》中提到:“特殊載體形式的檔案主要指非紙質(zhì)載體形式的文件材料,有照片、底片、錄音、錄像帶、計(jì)算機(jī)磁盤(pán)、縮微膠片、實(shí)物、底圖及各種電子檔案等?!笔聦?shí)上,國(guó)家頒布的檔案法規(guī)對(duì)特殊載體檔案也沒(méi)有統(tǒng)一的界定和管理辦法,但對(duì)不同屬性、介質(zhì)的特殊載體檔案分類(lèi)界定了管理標(biāo)準(zhǔn),如《照片檔案管理規(guī)范》《電子文件光盤(pán)存儲(chǔ)、歸檔與檔案管理要求》《電子文件歸檔與管理規(guī)范》《磁性載體檔案管理與保護(hù)規(guī)范》等。綜合上述文獻(xiàn)資料,筆者認(rèn)為特殊載體檔案一般是指區(qū)別于普通紙質(zhì)材料的,以磁性材料、感光材料等新型技術(shù)材料為主要載體和以影像、圖片、聲音、電子文件、實(shí)物為主要反映形式的歷史記錄。
需要說(shuō)明的是,特殊載體檔案的分類(lèi)也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),馬獻(xiàn)忠在《關(guān)于企業(yè)特殊載體檔案分類(lèi)的思考》中提出四種分類(lèi)方法,依據(jù)本文的研究范疇,筆者更傾向于按載體形態(tài)把檔案劃分為一般紙質(zhì)載體檔案和特殊載體檔案兩個(gè)一級(jí)類(lèi)目,然后再以信息內(nèi)容劃分二級(jí)類(lèi)目,例如分為聲像檔案、電子檔案、實(shí)物檔案三大類(lèi)。聲像檔案又可分為圖像檔案以及影音檔案。其中,圖像檔案是指照片、底片、膠片、圖紙等,影音檔案是指光盤(pán)、磁盤(pán)、錄像帶等以磁介質(zhì)為載體的檔案;實(shí)物檔案的范圍更寬泛,例如錦旗,獎(jiǎng)杯,印章、文物,紀(jì)念品等。具體分類(lèi)見(jiàn)圖1。
二、特殊載體檔案數(shù)字化掃描處理方法分析
由于特殊載體檔案涵蓋范圍廣泛,其中電子檔案、以磁介質(zhì)為載體的聲像檔案(如磁盤(pán)、光盤(pán)、錄像帶等)和實(shí)物檔案(三維立體物態(tài)形狀)在數(shù)字化過(guò)程中不涉及掃描處理方法,因此本文暫不討論此類(lèi)特殊載體檔案的數(shù)字化掃描處理方法。將手寫(xiě)稿劃歸到本文研究范疇,主要是因?yàn)槟承┦謱?xiě)稿其載體涵蓋宣紙或其他畫(huà)質(zhì)等特殊紙質(zhì),其一般不選用普通掃描處理方法來(lái)進(jìn)行數(shù)字化。
(一)手寫(xiě)稿及特殊文字的數(shù)字化掃描處理方法
1.手寫(xiě)稿的數(shù)字化掃描處理方法。手寫(xiě)稿不屬于一般紙質(zhì)檔案,其紙質(zhì)特性有些屬于宣紙,有些因?yàn)槟甏眠h(yuǎn),早已失去了普通紙質(zhì)的韌性,呈現(xiàn)出薄軟脆的特點(diǎn)。這些手寫(xiě)稿字跡不同且難以辨認(rèn),若選用掃描儀掃描,一方面手寫(xiě)稿不易拆卷和重新裝訂,另一方面掃描后的圖像仍然達(dá)不到簡(jiǎn)單利用目的。因此,對(duì)于手寫(xiě)稿首先要進(jìn)行數(shù)字化預(yù)處理,“運(yùn)用新型檔案保護(hù)修護(hù)技術(shù),將細(xì)菌纖維素應(yīng)用到既已形成的檔案文獻(xiàn)紙張上,提高其生理化性能,實(shí)現(xiàn)手寫(xiě)稿紙張的修復(fù),從而提高檔案數(shù)字化的質(zhì)量。”[2]通常的處理方法是將手寫(xiě)筆記翻拍成JPG圖片或者掃描成PDF圖片,再用Photoshop或者Adobe Reader軟件將圖片格式打開(kāi),用虛擬打印的方法將文件轉(zhuǎn)換為MDI格式,最后用OCR技術(shù)進(jìn)行識(shí)別發(fā)送至Word文檔。這種方法煩瑣且效率低。另外,如果采用拍照的方法,又涉及照片保存問(wèn)題,且有些手寫(xiě)稿字跡褪去,照片影像模糊不清,不宜掃描。
對(duì)此,可以采用直接捕捉和處理手寫(xiě)筆跡和草圖的Carbo軟件,直接利用攝像頭拍攝手寫(xiě)稿的照片并讀取圖片。它的處理過(guò)程和一般掃描應(yīng)用非常相似,但是效果比普通掃描更清晰,顏色更逼真,進(jìn)一步保護(hù)了檔案資源,處理后的手寫(xiě)稿還可以進(jìn)行編輯(圖2是普通掃描,圖3是Carbo軟件處理的手寫(xiě)稿檔案)。
2.特殊文字的數(shù)字化掃描處理方法。很多歷史檔案館的館藏中有大量手寫(xiě)文書(shū)檔案和歷史檔案,這些歷史檔案中包含古籍、印章、金文等少數(shù)民族文字。如藏文、彝文、朝鮮文、滿語(yǔ)文等,很多文字瀕臨滅絕。還存在諸多非常用字體,這些文字年代久遠(yuǎn),不便確認(rèn)。特殊字體中古今字、異體字、繁體字等無(wú)法利用傳統(tǒng)方式掃描,或在掃描中呈現(xiàn)得不夠清晰,影響檔案數(shù)字化的進(jìn)程和預(yù)期效果。
特殊文字和字體信息的數(shù)字化掃描處理方式有鍵盤(pán)輸入、掃描以及數(shù)碼拍照。鍵盤(pán)輸入正確率高,但效率較低,掃描和數(shù)碼拍照只能轉(zhuǎn)換成圖像數(shù)據(jù)保存。為此我們利用OCR技術(shù),通過(guò)處理圖像掃描技術(shù)的文本數(shù)據(jù),將其變成字符數(shù)據(jù),即利用多種模式識(shí)別算法分析文字形態(tài)特征,判斷文字的標(biāo)準(zhǔn)編碼,并使用通用格式存儲(chǔ)在文本文件中。但“OCR技術(shù)對(duì)打印文本以及清晰圖像的文本數(shù)據(jù)識(shí)別率較高,目前在手稿識(shí)別、古籍識(shí)別等領(lǐng)域還有待進(jìn)一步突破?!盵3]
針對(duì)少數(shù)民族文字以及古今字、異體字、繁體字等特殊文字和字體,筆者建議提出規(guī)范的數(shù)字化方案,設(shè)計(jì)出具有可行性的少數(shù)民族文字、古語(yǔ)、手稿的識(shí)別工具,開(kāi)發(fā)特殊文字及字體的數(shù)字化檔案管理系統(tǒng)。具體來(lái)說(shuō),就是將少數(shù)民族文字、古語(yǔ)、文言文、特殊字形和字體的文字全部錄入到一個(gè)系統(tǒng)中,此系統(tǒng)可以自動(dòng)識(shí)別文字,并轉(zhuǎn)換成文本性電子文件,也可以將掃描后的文字圖像識(shí)別存儲(chǔ)成電子文本。
(二)圖紙及特殊圖形的數(shù)字化掃描處理方法
圖紙檔案具有復(fù)用率高、數(shù)量多、幅面大的特點(diǎn),圖紙數(shù)字化通常有兩種方法:一是用圖形軟件重新繪制。例如,Auto CAD、Freehand、Coreldraw、Page Maker、Fits等。二是用掃描儀將圖紙掃成光柵圖輸入計(jì)算機(jī)。例如,圖紙檔案中A0幅面是最大的,可以使用A0幅面的工程掃描儀對(duì)其進(jìn)行數(shù)字化掃描,這種方法較為傳統(tǒng),不能對(duì)特殊圖形進(jìn)行處理,也無(wú)法直接對(duì)光柵圖進(jìn)行編輯。因此,筆者推薦同時(shí)采用CAD軟件和圖形處理軟件對(duì)圖紙進(jìn)行數(shù)字化,這種方法可以根據(jù)圖紙中特殊圖形的實(shí)際情況選擇適當(dāng)?shù)姆桨高M(jìn)行數(shù)字化。圖紙數(shù)字化方法流程如圖4所示。
(三)照片檔案的數(shù)字化掃描處理方法
“圖像檔案的掃描處理方法主要是指數(shù)字圖像技術(shù),就是將照片、圖片、底片等通過(guò)輸入設(shè)備(數(shù)碼像機(jī)、掃描儀、電腦攝像頭以及數(shù)字?jǐn)z像機(jī)等)所獲得的并以數(shù)字格式存儲(chǔ)的圖像,在電腦上用各種圖像處理軟件,對(duì)圖像進(jìn)行各種技術(shù)處理,如對(duì)污損、殘缺圖像進(jìn)行修復(fù)、圖像文件的管理、檢索、打印輸出等,以提高檔案保管質(zhì)量和數(shù)字化管理水平?!盵4]對(duì)照片檔案使用傳統(tǒng)掃描儀或者相機(jī)翻拍技術(shù)來(lái)實(shí)現(xiàn)其數(shù)字化,傳統(tǒng)的數(shù)碼相機(jī)和掃描儀基于CCD技術(shù),無(wú)法避免掃描后圖像的失真現(xiàn)象和色彩飽和度下降的情況。為了使掃描結(jié)果更接近檔案原件,筆者建議可以嘗試使用三位同步掃描方法。這種方法使掃描儀能夠準(zhǔn)確捕捉目標(biāo)圖像,減少色彩失真。掃描后的圖像處理方法主要有色彩增強(qiáng)技術(shù)、增強(qiáng)圖形技術(shù)和位增強(qiáng)技術(shù)三種。除此之外,筆者建議使用Photoshop軟件。應(yīng)用這種軟件可以除去因檔案老化或掃描程序不正確而造成的瑕疵,同時(shí)可以對(duì)圖像檔案中的污漬等進(jìn)行編輯修理,呈現(xiàn)較好的圖像質(zhì)量。
(四)底片檔案的數(shù)字化掃描處理方法
特殊載體檔案中有一部分底片和膠片,如果將底片和膠片沖印成照片,然后用平板掃描儀掃描照片,再將照片信息存入電腦,也能達(dá)到數(shù)字化的效果,但有失底片和膠片檔案的原始性,且普通掃描沒(méi)有掃描透視稿的功能,因此可選擇直接將底片通過(guò)底片掃描儀輸入計(jì)算機(jī)。需要注意的是,在掃描底片檔案時(shí),不能像普通照片那樣通過(guò)標(biāo)準(zhǔn)色片來(lái)進(jìn)行掃描的校正?!霸趻呙璧灼瑱n案前,需要人工進(jìn)行底片檔案的調(diào)整,如對(duì)預(yù)掃圖像,進(jìn)行色彩上的校正(色相變化)、曝光上的校正(亮度層次)及色彩飽和度的掃描,才能全方位滿足檔案用戶的需要?!盵5]掃描時(shí)需采用高分辨率,為了達(dá)到較好的色彩,底片掃描一般需采用2000DPI以上的分辨率,底片掃描儀的動(dòng)態(tài)范圍設(shè)定在3.5D左右。掃描完成后的底片圖像,可用掃描軟件或Photoshop等進(jìn)行圖像校正操作。另外,底片檔案數(shù)字化處理后需要保存在信息光盤(pán)、硬盤(pán)或者計(jì)算機(jī)系統(tǒng)中,其內(nèi)容一般包括:底片目錄數(shù)據(jù)庫(kù)文件、縮略圖文件、底片圖像文件、圖像文件瀏覽器(如Photoshop、ACDSee)、保護(hù)文件(實(shí)現(xiàn)禁止拷貝功能)等。
注釋及參考文獻(xiàn):
[1]耿聆.美國(guó)特殊載體檔案及其保護(hù)[J].檔案與建設(shè),1988(4):50-51.
[2]張志惠.細(xì)菌纖維素在紙質(zhì)檔案修復(fù)中的應(yīng)用研究[D].昆明:云南大學(xué),2015.
[3]張麗梅.館藏檔案數(shù)字化的技術(shù)策略探析[D].哈爾濱:黑龍江大學(xué),2009.
[4]馬淑桂.照片檔案數(shù)字化技術(shù)點(diǎn)滴[J].中國(guó)檔案, 2001(6):47-79.
[5]卞咸杰.底片檔案數(shù)字化掃描的技術(shù)指標(biāo)分析[J].檔案管理,2011(6):30-3.