李美玲
(湖南省煤田地質(zhì)局第三勘探隊,湖南 永州 425000)
數(shù)字化是指利用計算機技術(shù)將模擬信號轉(zhuǎn)換為數(shù)字信號的處理過程?!按媪繑?shù)字化”則指對紙質(zhì)等類原有存在的檔案(存量檔案)進行數(shù)字化加工形成數(shù)字化產(chǎn)品。紙質(zhì)檔案數(shù)字化是指采用掃描儀等設(shè)備對紙質(zhì)檔案進行數(shù)字化加工、使其轉(zhuǎn)化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字圖像,并按照紙質(zhì)檔案的內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關(guān)系的處理過程。
當(dāng)前,大部分檔案保管機構(gòu)庫房的檔案仍以紙質(zhì)檔案為主,它們占據(jù)了大部分的存儲空間,保管成本高。在頻繁地使用過程中易磨損、不斷接觸空氣易遭微生物細菌侵?jǐn)_,并且檢索效率低下,難以滿足人們對檔案資源日益增長的需求,對現(xiàn)在紙質(zhì)檔案進行數(shù)字化加工勢在必行。一是提高檔案信息利用率。節(jié)省人們對檔案的檢索時間,提高檔案人員的工作效率,同時檔案利用者可快捷地滿足需求,實現(xiàn)檔案信息資源的開發(fā)利用,使得“死”檔案內(nèi)在的價值充分得到釋放和體現(xiàn)。二是更好地保護紙質(zhì)檔案原件。由于檔案是真實記錄歷史的一種重要載體,它具有原始性、真實性、唯一性特點,將紙質(zhì)檔案進行數(shù)字化并異地異質(zhì)備份,可以更好地保護好原件及它的原貌,避免當(dāng)突發(fā)事件來臨時遭受巨大的災(zāi)難。同時也實現(xiàn)紙質(zhì)檔案價值增值,由于更多的人得知它利用它進而產(chǎn)生出更多的成果,紙質(zhì)檔案蛻變成了 “活”檔案。三是提高辦公自動化、信息化、網(wǎng)絡(luò)化水平。隨著我國電子政務(wù)的普及和推廣,無紙化辦公已成為各行各業(yè)的工作方向,檔案信息化建設(shè)步伐的加大,也不斷地對檔案數(shù)字化工作提出了更高的要求。四是充分發(fā)揮地勘單位各類檔案資源價值。地質(zhì)工作是經(jīng)濟社會發(fā)展的基礎(chǔ)性、先行性工作,而地質(zhì)工作中產(chǎn)生的大量成果都通過地質(zhì)檔案體現(xiàn)出來,通過不斷挖掘地質(zhì)檔案資源,能高質(zhì)量地服務(wù)社會經(jīng)濟的發(fā)展。
目前,大多數(shù)成立時間較長的企事業(yè)單位檔案庫房內(nèi)還存放著大量的多種類別紙質(zhì)檔案及其他載體的檔案。這些紙質(zhì)檔案由于形成時間不同,紙張的材質(zhì)不同,形成紙質(zhì)檔案的方式方法也不同如油印、鉛印資料等,有的紙張極薄透明,同時還有各類透明圖、藍圖及手稿草圖。在有些卷宗里,紙張大小規(guī)格不一、材質(zhì)不一、質(zhì)量不一、筆跡及墨跡也不一。調(diào)查了解的一些地勘單位,庫房還存放著大量的原始地質(zhì)資料,這些地質(zhì)資料包括:基礎(chǔ)地理、基礎(chǔ)地質(zhì)、水文地質(zhì)、環(huán)境地質(zhì)、工程地質(zhì)及地質(zhì)資源等類別。這些資料都需遵循《檔案法》《保密法》《實物地質(zhì)資料管理辦法》等相關(guān)規(guī)定對其數(shù)字化處理。
由于大部分地勘單位都經(jīng)過多次搬遷且保管條件有限,有的檔案經(jīng)過多次借閱后紙張破損,紙張上充斥了不同年代地質(zhì)人的利用折痕,字跡褪色模糊不清,圖紙變色變脆,有的紙張上出現(xiàn)黃色的斑點等現(xiàn)象,有的圖紙在修復(fù)過程中由于方法使用不當(dāng),造成二次損壞,若在進行數(shù)字化過程中處理不當(dāng)就會進一步加大對原件地損壞。
紙質(zhì)檔案通過一系列的工作流程進行數(shù)字化加工,需要人們投入一定的人力物力財力。紙質(zhì)檔案數(shù)字化加工方式一般可采取以下方式:單位內(nèi)部的檔案管理機構(gòu)進行數(shù)字化加工、全部或部分外包給檔案專業(yè)服務(wù)機構(gòu)進行數(shù)字化加工。無論利用哪種加工方式單位都需投入大量資源。由于在檔案管理中缺乏對紙質(zhì)檔案數(shù)字化的考慮,加之檔案從業(yè)人員本來就少,造成了資金和人才的嚴(yán)重不足,致使地勘單位檔案管理數(shù)字化進展受阻。
在紙質(zhì)檔案進行數(shù)字化加工過程中,由于掃描或拍攝過程中參數(shù)設(shè)置不恰當(dāng),會使得數(shù)字化信息失真,加上數(shù)字化后的檔案信息易被篡改被復(fù)制,這是數(shù)字化檔案的不足之處。人們將經(jīng)過數(shù)字化后的檔案信息放入計算機中進行掛接操作,這時信息易受不安全因素影響,易遭受計算機病毒破壞或因計算機硬件軟件自身因素原因而丟失。
加快檔案資源數(shù)字轉(zhuǎn)型,繼續(xù)做好“存量數(shù)字化”是“十四五”全國檔案事業(yè)發(fā)展規(guī)劃的主要任務(wù)之一。地勘單位在對紙質(zhì)檔案進行數(shù)字化加工過程中,根據(jù)紙質(zhì)檔案特點必須遵守五大原則:價值性、實用性、完整性、現(xiàn)實性及安全性,保障檔案在加工過程中保持其原來真實面貌。內(nèi)部加工就是單位內(nèi)部檔案管理機構(gòu)在根據(jù)紙質(zhì)檔案數(shù)字化的工作原則、目的及主要工作任務(wù)在單位內(nèi)部自己組織成立紙質(zhì)檔案數(shù)字化加工領(lǐng)導(dǎo)機構(gòu),配備數(shù)字化工作所需設(shè)備和人員,實施檔案數(shù)字化加工。內(nèi)部加工所需的設(shè)備一般包括平板、高速、零邊距掃描儀和數(shù)碼翻拍儀等設(shè)備。紙質(zhì)檔案數(shù)字化操作需要固定的工作場所,并且還需在場所內(nèi)安裝攝像頭監(jiān)控數(shù)字化工作全過程,確保數(shù)字化工作順利開展。由于紙質(zhì)檔案數(shù)字化工作包括數(shù)字化前處理、數(shù)字化數(shù)據(jù)采集、數(shù)字化數(shù)據(jù)處理、數(shù)字化數(shù)據(jù)存儲及數(shù)字化后處理等五個基本環(huán)節(jié),由此就每個工作環(huán)節(jié)必須配備合適的專業(yè)技術(shù)人員,彼此配合,共同協(xié)調(diào)合作完成紙質(zhì)檔案數(shù)字化工作。
地勘單位更適合采取紙質(zhì)檔案數(shù)字化內(nèi)部加工:一是內(nèi)部加工,可以培養(yǎng)單位內(nèi)部檔案管理機構(gòu)人員技術(shù)人員,以便長期對存量檔案進行數(shù)字化;二是由于單位內(nèi)部檔案管理機構(gòu)人員具有檔案專業(yè)知識背景,熟悉檔案法律法規(guī)及相關(guān)標(biāo)準(zhǔn);三是單位內(nèi)部機構(gòu)之間人員都相互熟悉了解,能夠彼此協(xié)調(diào)配合完成共同工作;四是便于檔案管理機構(gòu)人員進一步熟悉單位檔案庫房各類檔案存檔情況及存檔數(shù)理;五是有利于保護檔案和檔案實體安全。
為了加強對紙質(zhì)檔案數(shù)字化工作的管理,確保存量檔案數(shù)字化工作順利開展,成立紙質(zhì)檔案數(shù)字化領(lǐng)導(dǎo)機構(gòu),并根據(jù)數(shù)字化加工流程下設(shè)相應(yīng)的工作小組。例如,后勤服務(wù)工作小組,它要確保數(shù)字化過程所需的人力財力到位及在數(shù)字化工作中工作人員進出工作場所檢查等,每個小組需配備具有相應(yīng)技能的工作人員,他們必須熟悉檔案管理工作業(yè)務(wù),熟知檔案數(shù)字化相關(guān)標(biāo)準(zhǔn)規(guī)范,掌握檔案數(shù)字化所需的計算機及相關(guān)設(shè)備操作技能技巧及計算機知識,了解檔案數(shù)字化加工流程,能保守檔案及檔案數(shù)字化成果的秘密。
根據(jù)《紙質(zhì)檔案數(shù)字化規(guī)范》DA/T 31-2017 相關(guān)規(guī)定制定適合本單位實際的規(guī)定及切實可行的紙質(zhì)檔案數(shù)字化管理制度、崗位責(zé)任制度。管理辦法應(yīng)當(dāng)包含對崗位、人員、場地、設(shè)備、數(shù)據(jù)及檔案實體管理。由于紙質(zhì)檔案數(shù)字化需依靠大量工作人員經(jīng)歷多個工作環(huán)節(jié)并且需要花費相當(dāng)長的一段時間共同協(xié)作才能完成,沒有規(guī)矩不成方圓,因此,根據(jù)紙質(zhì)檔案類別及相應(yīng)的規(guī)范標(biāo)準(zhǔn),制定切實可行的檔案數(shù)字化管理制度,細化數(shù)字化過程中每個環(huán)節(jié)每位工作人員崗位責(zé)任,明確數(shù)字化各個工序間的交接手續(xù),同時設(shè)計好整個工作過程中各個環(huán)節(jié)都要有專人負責(zé),每份紙質(zhì)檔案的進出、流轉(zhuǎn)都要有相應(yīng)的表格書面記載,通過各項制度來實現(xiàn)對檔案數(shù)字化工作人員及整個工作流程進行科學(xué)化規(guī)范化管理,保障檔案數(shù)字化工作有條不紊地進行,同時確保檔案實體安全。
根據(jù)《紙質(zhì)檔案數(shù)字化規(guī)范》規(guī)定,紙質(zhì)檔案從最初出庫到最終入庫整個流程須經(jīng)過五個工作環(huán)節(jié):數(shù)字化前處理、數(shù)字化數(shù)據(jù)采集、數(shù)字化數(shù)據(jù)處理、數(shù)字化數(shù)據(jù)存儲及數(shù)字化后處理。在紙質(zhì)檔案數(shù)字化前,檔案管理機構(gòu)必須先要依據(jù)檔案信息化建設(shè)要求對庫房內(nèi)的紙質(zhì)檔案進行價值鑒定,根據(jù)其價值大小來確定檔案數(shù)字化范圍;剔除紙質(zhì)檔案里重復(fù)歸檔的多份文件;對有密級標(biāo)注的文件認(rèn)真進行判定,對已經(jīng)開放紙質(zhì)檔案要加蓋解密標(biāo)識,對那些仍在保密期限內(nèi)以及仍需保密的文件,則不能隨意進行數(shù)字化;對庫藏檔案中沒有文件題名或題名不確實不完整的,必須根據(jù)文件內(nèi)容重新擬定文件題名;對需要數(shù)字化的檔案進行清點制表并報送相關(guān)部門領(lǐng)導(dǎo)審批同意,數(shù)字化的紙質(zhì)檔案方才可出庫房,依次進入下述各個環(huán)節(jié):1.檔案拆裝整理:確定掃描頁→清查檔案內(nèi)容→目錄數(shù)據(jù)準(zhǔn)備→拆除裝訂→紙張?zhí)幚怼夹g(shù)修復(fù)→登記處理;2.數(shù)字化數(shù)據(jù)采集:選擇掃描設(shè)備→設(shè)置參數(shù)→數(shù)字化操作;3.數(shù)字化數(shù)據(jù)處理:圖像處理→圖像質(zhì)量檢查;4.數(shù)字化數(shù)據(jù)存儲:存儲格式選擇→文件存儲組織→目錄數(shù)據(jù)庫建立→數(shù)據(jù)掛接;5.數(shù)字化后處理:數(shù)字化成果驗收→檔案裝訂與歸還入庫→數(shù)字化成果移交和管理。
數(shù)字化成果是紙質(zhì)檔案存在的另一種形式,與紙質(zhì)檔案相比,它查閱利用起來快捷方便。在確定掃描頁時應(yīng)根據(jù)相關(guān)規(guī)范對紙質(zhì)檔案客觀地進行數(shù)字化工作,盡可能重現(xiàn)檔案原始面貌,并確保檔案完整形態(tài)。
當(dāng)遇到字跡退化、紙張破損皺褶殘缺的紙質(zhì)檔案無法進行正常掃描則應(yīng)由技術(shù)人員利用專業(yè)的修復(fù)技術(shù)進行專業(yè)修復(fù)。在運用掃描儀對紙質(zhì)檔案掃描過程中,選擇恰當(dāng)?shù)膾呙鑳x,設(shè)置好各類參數(shù),確保掃描后的文字?jǐn)?shù)據(jù)圖像清晰、完整、圖像效果能夠真實地反映紙質(zhì)檔案原貌。當(dāng)發(fā)現(xiàn)掃描后的圖像模糊、偏斜、出現(xiàn)黑點黑邊黑框泛藍時要采取相應(yīng)的措施糾偏和去污去光。當(dāng)利用現(xiàn)有的掃描儀無法一次性完成大幅面紙質(zhì)檔案(如地圖、照片等)掃描時,應(yīng)對紙質(zhì)檔案進行分幅掃描,相鄰圖像之間應(yīng)保留足夠的重疊,以確保后期利用Photoshop等圖像處理軟件進行拼接處理合并為一張完整的無明顯拼接痕跡的圖像。
根據(jù)《紙質(zhì)檔案數(shù)字化規(guī)范》規(guī)定“原則上應(yīng)將確定為數(shù)字化對象的紙質(zhì)檔案全部進行掃描,不宜進行挑掃。如有不需要掃描的頁面應(yīng)加以標(biāo)注”,對紙質(zhì)檔案進行數(shù)字化時,要保證數(shù)字化檔案的完整性,不能人為地割開它們之間的內(nèi)在聯(lián)系。應(yīng)該按照各類紙質(zhì)檔案組卷(件)的構(gòu)成及卷(件)內(nèi)排序依次掃描,圖像形成的格式可為TIFF、JPEG或JPEG2000等通用格式,多頁文件掃描后合并成為一個TIFF或PDF文件,保存到指定的路徑,以便準(zhǔn)確掛接入庫。建立紙質(zhì)檔案數(shù)字圖像存儲路徑,以紙質(zhì)文件歸檔的檔號為基礎(chǔ)對數(shù)字圖像命名,命名方式應(yīng)確保圖像命名的唯一性。
在紙質(zhì)檔案數(shù)字化全過程中,檔案機構(gòu)工作人員要做好紙質(zhì)檔案出入庫的詳細登記并編制檔案出入庫清單明細,認(rèn)真檢查出入庫的紙質(zhì)檔案的狀況、數(shù)量、完好程度、編號、頁碼及是否存在缺頁、重頁、倒頁等情況,在內(nèi)部交接時,雙方工作人員都要進行檢查,并簽字予以確認(rèn);在紙質(zhì)檔案數(shù)字化工作場所,只允許從事檔案數(shù)字化工作人員入內(nèi),其他無關(guān)人員不得入內(nèi);同時應(yīng)對數(shù)字化工作場所進行不定期檢查,防范杜絕影響檔案安全隱患發(fā)生。對已完成數(shù)字化的檔案采取多種存儲介質(zhì)保存,并保存多套數(shù)據(jù),盡可能做好檔案數(shù)字資源備份工作,在工作中逐步完善數(shù)據(jù)備份機制,在整個數(shù)據(jù)備份過程中進行全程監(jiān)督,同時做好數(shù)字化后檔案的在線存儲備份、離線備份工作,以防數(shù)據(jù)丟失及被破壞風(fēng)險。維護存儲紙質(zhì)檔案數(shù)字化成果的主機存儲設(shè)備等硬軟件正常運行,確保數(shù)字檔案長期有用。
本文認(rèn)為只有對需要進行編輯或利用率極高的紙質(zhì)檔案才可能會被全文檢索,這就需要運用OCR技術(shù),即安裝專門的OCR識別系統(tǒng),即在紙質(zhì)檔案全文數(shù)字化過程中一般先把一份文件掃描成多頁JPG、TIF或PDF文件,再運用OCR軟件識別并判斷識別效果,并進行必要的調(diào)整和修復(fù)就可以到達全文數(shù)字化的要求。在掃描生成頁面后,OCR技術(shù)針對印刷體的頁面文件一般識別率可達98%以上,在自動糾錯、人工校對后,基本符合檔案數(shù)字化的要求。
為確保紙質(zhì)檔案數(shù)字化工作順利完成,地勘企業(yè)還需要注意以下幾個方面:一是加強對內(nèi)部加工工作人員進行檔案專業(yè)知識及相關(guān)法律法規(guī)及標(biāo)準(zhǔn)的學(xué)習(xí),同時還需加強計算機專業(yè)知識及操作技能的培訓(xùn),例如,Photoshop制圖軟件、OFD信息技術(shù)知識的學(xué)習(xí)等。因為在對大幅圖紙進行掃描時,需要分幅掃描,然后再進行無痕拼合,這個拼合過程就需要運用圖像軟件進行操作。二是加大資金的投入,人才培養(yǎng)和設(shè)備購置同樣也需要資金投入,出于信息安全保密考慮,例如,購置質(zhì)量好、性價比高、功能全的國產(chǎn)掃描儀以備將來系統(tǒng)升級之需。三是領(lǐng)導(dǎo)要從思想觀念上認(rèn)識到檔案資源信息化的重要性,特別是對存量檔案進行數(shù)字化的必要性。
總之,紙質(zhì)檔案數(shù)字化是檔案信息資源發(fā)展的一項重要任務(wù),努力促進單位檔案資源數(shù)字化轉(zhuǎn)型是檔案工作者的目標(biāo)之一,實施內(nèi)部加工是地勘單位紙質(zhì)檔案數(shù)字化的最佳選擇。