林 空 黃 彥/浙江省檔案館
當前,我省各級各類檔案館正著手推進存量檔案數字化工作。在接收檔案數字化成果進館的過程中筆者發(fā)現(xiàn),檔案數字化成果進館(本文所指的“進館”,特指檔案的數字化成果進入數字檔案館系統(tǒng))工作的規(guī)范性整體上有待加強。為提升工作的規(guī)范化程度、提高工作效率,檔案數字化成果移交進館時必須注意若干要點。
這里指的是檔案數字化工作應遵循的標準。以浙江省為例,包括國家檔案局2015年發(fā)布的《DAT_22-2015歸檔文件整理規(guī)則》、2017年發(fā)布的《DAT_31-2017紙質檔案數字化規(guī)范》,浙江省檔案局2007年發(fā)布的《浙江省省直單位紙質檔案數字化實施細則》《浙江省檔案館紙質檔案數字化成果接收暫行辦法》,2011年發(fā)布的《浙江省省直單位文書檔案目錄數據庫結構與交換格式》,2018年發(fā)布的《浙江省省直單位數字檔案資源接收進館與登記備份數據包技術要求》等。進館單位或中介服務企業(yè)在移交數字化成果前,必須對照標準認真檢查。
《歸檔文件整理規(guī)則》規(guī)定,檔號的結構宜為:全宗號-檔案門類代碼·年度-保管期限-機構(問題)代碼-件號,上、下位代碼之間用-連接,同一級代碼之間用·隔開。如“Z109-WS·2011-Y-BGS-0001”,其中“·”為間隔號在制表鍵(Tab)上方,在中文輸入法狀態(tài)下打出;保管期限分為永久、定期30 年、定期10 年,分別以代碼“Y”“D30”“D10”標識;機構(問題)代碼采用3位漢語拼音字母或阿拉伯數字標識;歸檔文件未按照機構(問題)分類的,應省略機構(問題)代碼。需要特別注意的是,如檔案是2015年之前整理、檔號命名按照《浙江省省直單位文書檔案目錄數據庫結構與交換格式》擬制的,其組織機構或問題用2位字母標識,可以用簡稱中的漢語拼音第一個字母表示;如無該項內容,則用“ZZ”表示。
《紙質檔案數字化規(guī)范》規(guī)定,紙質檔案數字圖像長期保存格式宜為TIFF、JPEG或JPEG2000等通用格式;《浙江省省直單位數字檔案資源接收進館與登記備份數據包技術要求》規(guī)定,移交的數字化成果應包含單頁TIF原圖與多頁PDF。在上述兩份文件中出現(xiàn)的TIF與TIFF本質上為同一概念,都是指標簽圖像文件格式(Tag Image File Format, TIFF),只是曾經DOS下擴展名長度限制為3(文件名長度限制為8,所謂8.3格式文件名),所以才出現(xiàn)了TIF這樣的簡稱,因此對這兩種后綴名的文件都應予以支持。
《浙江省省直單位數字檔案資源接收進館與登記備份數據包技術要求》規(guī)定,傳統(tǒng)組卷方式檔案數字化成果數據包命名規(guī)則為:全宗號-目錄號-數據類型-報送年度-批次號-數據包流水號.zip。一文一件方式檔案數字化成果數據包命名規(guī)則為:全宗號-一文一件方式(YWYJ)-數據類型(001)-報送年度-批次號-數據包流水號.zip。專業(yè)檔案等數字化成果數據包命名規(guī)則為:省檔案館已賦予目錄號的,按照目錄號方式(傳統(tǒng)組卷)編制檔案數據包;省檔案館未賦予目錄號的,可在全宗號下自行編制不重復的4位拼音首字母組成的專業(yè)檔案分類號;也可以按年編制,即全宗號-專業(yè)檔案-年度(檔案產生年度)-案卷號-張頁(件)號。
Windows系統(tǒng)中主流的幾種壓縮文件格式為ZIP、RAR、7Z、CAB等,根據《浙江省省直單位數字檔案資源接收進館與登記備份數據包技術要求》規(guī)定,我們推薦采用ZIP格式進行壓縮。
《檔案交接文據》是在變更檔案保管者或所有者的過程中形成的具有法律效力的文件。浙江省檔案館根據實體檔案與數字化成果的差異重新編制了《檔案數據交接文據》,要求在實際操作過程中務必注意“四個分開”,即帶密級與不帶密級的數據分開填寫、交接文據應以批次為單位分開填寫、只移交目錄與目錄含全文的數據應分開填寫并注明、已登記備份的數據與未登記備份的數據應分開填寫并注明。另外還要嚴格檢查“移交清單名稱”一欄填寫是否規(guī)范。
移交的數字化成果的條目字段命名往往不規(guī)范,存在以下問題:一是“題名”字段命名錯誤,《案卷級目錄數據庫結構一覽表》(下稱表1)中該字段為“題名(或TM)”,而《文件級目錄數據庫結構Ⅰ一覽表》(下稱表2)與《文件級目錄數據庫結構Ⅱ一覽表》(下稱表3)中該字段為“正題名(或ZTM)”;二是“文件起始時間(或WQS)”字段與“文件終止時間(或WZS)”字段的長度應為6個字節(jié),精確到年月即可,但長度設置為8個字節(jié)的情況較為常見;三是表1中所設置的必選著錄項,每一項都有提示本卷檔案性質的功能,不可為空,但為空的情況較為常見;四是表1與表2中“館編案卷號(或GBAJH)”字段為相應的檔案館編制的案卷排列的順序號,移交單位不應進行該字段的著錄,而進行著錄的情況較為常見;五是表2與表3中的“全文標識(或QWBS)”字段關系到能否訪問全文,所以應作為必選著錄項,但很多時候沒有成為必選著錄項。檔案館在接收時必須嚴格檢查是否存在以上這些問題。
該項檢查依托軟件進行,主要檢查TIF原圖是否損壞、TIF原圖的分辨率是否符合規(guī)范、是否為雙層PDF文件等,并且對照DBF文件檢查TIF文件夾(或PDF文件)命名是否與檔號一致,TIF文件夾內單頁TIF文件命名是否從00000001.tif起。
《浙江省省直單位數字檔案資源接收進館與登記備份數據包技術要求》規(guī)定,所移交的數據資源應分為四個層級:第一層級為存儲介質底層也可為文件夾,如為文件夾建議與第二層級的移交清單同名;第二層級包含移交清單與若干ZIP壓縮包;第三層級為包內文件包含若干DBF文件、若干文件夾及與文件夾數量相同的PDF文件;第四層級為以流水號命名的單頁TIF文件。接收數字檔案資源數據包時,應根據上述要求開展嚴格檢查。
在紙質檔案數字化加工過程中,非密數據與密級數據必須分開處理。首先在條目字段表的“題名”或“正題名”字段篩選帶“密”字的項,人工識別確定是否為密級數據;其次使用軟件OCR識別技術對所有TIF原圖進行全檢,自動篩查帶“密”字樣的原圖;最后人工抽檢部分原圖,確保非密數據與密級數據分開管理。
檔案數據包的來源及檔案類型等在移交清單中記載的信息,會在出庫時隨數據包一并輸入數字檔案館系統(tǒng)。解包成功的數據包需手動匹配檔案類型,若匹配成功,根據對應的檔案類型庫中預設的類型名稱,選擇準確對應的門類,完成檔案類型修改;若匹配失敗,則需根據數據來源的實際情況和數字檔案館系統(tǒng)支持的類型來增加分類;若部分專業(yè)檔案存在需自行編制分類的情況,則要按自身實際情況新增對應分類。
若進館單位的數據字段結構均按照《浙江省省直單位文書檔案目錄數據庫結構與交換格式》的規(guī)范著錄,數據源字段即可自動與可選的目標庫字段綁定匹配;若匹配不完整則需人工進行干預,針對可選數據源字段的實際情況進行靈活匹配。針對專業(yè)檔案的特點,移交單位在提交數據時,必須同時提供完整且準確的專業(yè)檔案字段結構表。
復檢的主要手段包括為空檢測、重復檢測、連續(xù)檢測等,其中為空檢測主要用于檢測檔號、題名、責任者等關鍵字段;重復檢測用于查找重復數據,支持跨檔案類型和跨庫雙重檢測;連續(xù)檢測用于檢查目錄號、案卷號等有連續(xù)編號需求的模塊。復檢工作完成后,檔案數字化成果資源即可作為合格數據保存在數字檔案館系統(tǒng)中,提供利用。