趙冬香
(凱里學院,貴州 凱里 556011)
清水江文書是指廣泛遺存于貴州省東南部(黔東南)清水江流域少數(shù)民族地區(qū)的民間歷史文獻的總稱[1],是繼敦煌文書、徽州文書后發(fā)現(xiàn)的第三大民間文獻遺產。
因清水江文書的民間私有屬性,絕大多數(shù)紙質文書都是采用就地保存方式,即在收藏戶主家自行保存;對于可獲得所有權的少部分文書則在相應村鎮(zhèn)、縣市檔案館或博物館保存。無論采用哪種方式,紙質文獻固有的易損毀性都注定了紙質清水江文書的長期保存有著不確定性。故而,為了清水江文書上所記載的內容能夠得到深入挖掘和有效利用,經(jīng)綜合分析后,應在現(xiàn)有標準和規(guī)范的指導下,開展數(shù)字化建設工作,建立數(shù)字化平臺進而實現(xiàn)資源共享。事實證明,只有建立具備一定規(guī)模的數(shù)據(jù)庫平臺,才能打破清水江文書的地域局限性,使研究學者們能夠跨越時間、空間,最大限度地獲取到文書資源,進而從民族學、語言學、歷史學、經(jīng)濟學等多學科、多角度挖掘出文書資源潛在價值,發(fā)現(xiàn)文獻內部的有機聯(lián)系,開展更多新的研究議題。
建立數(shù)字化平臺所需的軟件框架可請專業(yè)機構搭建,建立平臺框架后充實數(shù)據(jù)庫通常要進行以下幾步:紙質(圖片)文書收集、紙質文書數(shù)字化(所謂文書數(shù)字化,即采用掃描儀或數(shù)碼相機等數(shù)碼設備對紙質文書進行數(shù)字化加工,將其轉化為存儲在磁盤、光盤等載體上并能被計算機識別的數(shù)字圖像或數(shù)字文本的處理過程[2])、數(shù)字化圖片預處理、JGP圖片轉換為PDF文件、PDF文件上傳至數(shù)字化平臺、對平臺上的PDF文件進行元數(shù)據(jù)編目。
通過對CNKI期刊全文數(shù)據(jù)庫檢索發(fā)現(xiàn),與清水江文書數(shù)據(jù)庫建設相關的研究論文只有13篇,其中7篇是關于元數(shù)據(jù)標準和著錄規(guī)范的研究,4篇是側重于文書搶救、保護的研究,其余2篇是研究文書整理分類標準,未檢索到關于文書圖片預處理的文章。由此可見,學術界對于清水江文書數(shù)據(jù)庫建設目前還處于探索階段,雖然學者們已認識到了建庫過程中文書整理、搶救、制定元數(shù)據(jù)標準及著錄規(guī)范的重要性,但卻忽視了文書圖片數(shù)字化及預處理工作,而這一步恰恰是數(shù)據(jù)庫質量控制的關鍵一環(huán)[3]。文章正是針對這一點,從清水江文書的來源、掃描規(guī)范入手,探討文書數(shù)字化圖片在最終進行元數(shù)據(jù)編目前的預處理規(guī)范。
清水江文書圖片主要有4個來源:一是與文書收藏機構協(xié)商后掃描原件得到的圖片;二是到擁有文書的農戶家中經(jīng)協(xié)商后掃描原件得到的圖片;三是研究人員通過田野調查使用手機或相機拍攝到的文書圖片;四是與檔案館等收藏機構協(xié)商后直接復制經(jīng)過初步轉正、裁剪處理的圖片。
清水江文書掃描是進行數(shù)據(jù)庫建設的首要工作,也是數(shù)據(jù)庫質量控制的第一步。為了高質量建設清水江文書數(shù)據(jù)庫,其文書掃描圖片需符合2005年國家檔案局發(fā)布的《紙質檔案數(shù)字化技術規(guī)范》(DA/T31—2005)標準要求,確保在對文書掃描時不對文書原件造成二次損傷,確保文書掃描圖像與原件一致、整潔、清晰。掃描人員在掃描過程中必須盡量展開文書原件,做到不遺漏、不褶皺、不卷邊,讓掃描圖片盡可能地展現(xiàn)原件內容[4]。
具體要求如下:掃描人員對文書進行掃描時,要對環(huán)境進行清潔,確保掃描環(huán)境不會污染文書。為避免對文書造成損傷,掃描人員必須佩戴手套輕拿輕放;采用高檔平板掃描儀進行文書掃描,避免圖像顏色失真,分辨率不足;掃描數(shù)據(jù)采用300DPI標準JPG格式;掃描文書頁面不能上下連頁或壓字,當前頁面上不能有其他頁內容;對裝訂成冊的多頁文獻不支持拆裝掃描;掃描圖像要求完整、無傾斜、無黑邊,保證瀏覽及打印清晰[5]。
由原始文書直接掃描或拍照的圖片,這種文書要求在掃描前現(xiàn)場測量其原始文獻尺寸、識別紙張類型(原始文獻尺寸、紙張類型一般被稱為載體形態(tài))并記錄在圖片文件名中,在存入計算機時要求為其按規(guī)則命名為JPG格式文件,以便于后期的操作。清水江文書數(shù)字化的重要目標之一是以文獻的原始形態(tài)保存,所以在命名規(guī)則上必須求真,在數(shù)字化加工時最大限度地保留文書的原有留存狀態(tài)和次序。
2.3.1 文件夾命名規(guī)則
(1)民間收藏文書命名規(guī)則:以收藏戶為單位建立文件夾,按照收藏縣+鄉(xiāng)鎮(zhèn)+自然村+收藏戶主名的四級命名,即文件夾名稱為:XX縣XX鄉(xiāng)鎮(zhèn)XX村+文獻收藏戶主姓名。例如,黎平縣巖洞鎮(zhèn)銅關村5組吳珍標。
若該收藏戶中收藏文書有多幅面文獻掃描,則在該文件夾下建立子文件夾,子文件夾直接命名為文書類型,并注明載體形態(tài),例如契約抄白(23 cm×16 cm棉帛紙)、魚鱗冊(26 cm×19 cm毛邊紙)、工分冊(25 cm×17 cm構皮紙)等。
(2)單位收藏機構文書掃描文件夾命名規(guī)則:以戶為單位建立文件夾,以收藏戶為單位建立文件夾,按照收藏縣+鄉(xiāng)鎮(zhèn)+自然村+收藏戶主名+單位檔案編號的五級命名規(guī)則,即文件夾名稱為:XX縣XX鄉(xiāng)鎮(zhèn)XX村檔案編號。例如,肇興鄉(xiāng)紀堂上寨村3組陸德齊-322。
若該收藏戶收藏文書要多幅面掃描,則在該文件夾下建立子文件夾,子文件夾命名規(guī)則同(1)。
2.3.2 圖片文件命名規(guī)則
(1)單幅面掃描文書命名規(guī)則:文獻序號_收藏戶姓名+原始文獻尺寸(cm);紙張類型(如棉帛紙、草紙、構皮紙、毛邊紙等)。例如,掃描楊秀錦收藏戶的第1份文書:001_楊秀錦40 cm×45 cm;毛邊紙JPG。
(2)多幅面文書掃描:收藏戶家的一冊文獻掃描在1個子文件夾中,子文件夾直接命名為文書類型,并注明載體形態(tài),因子文件夾下的文書為整冊分頁掃描,其載體形態(tài)相同且在子文件夾上已注明,所以各頁文書不必再單獨標注,其命名規(guī)則為:序號_文書類型,如001_契約抄白JPG。
對于沒有原始文書可測量及識別,只有電子版圖片的情況,其原文件名中若沒有記錄原始文獻載體形態(tài),按其原文件名保存,后期處理時再添加題名。
清水江文書掃描圖片在初步命名后,進行數(shù)據(jù)著錄前要先經(jīng)過圖片的預處理,預處理過程包括以下幾步:檢查→比對→轉正→裁剪→修改分辨率→加注載體形態(tài)→加注題名→添加水印→JPG轉PDF文件→數(shù)據(jù)庫中添加文書收藏地[市(縣)、鄉(xiāng)、鎮(zhèn)、村與戶進行歸戶管理]→上傳PDF文件到數(shù)據(jù)庫。
(1)對于同時有2個圖片來源的文書,即建庫機構自行對原始圖片進行了掃描,并且又從原收藏機構復制了經(jīng)初步轉正、裁剪過的圖片,通常為了避免重復勞動,以該收藏機構初步處理過的圖片為主,檢查每張圖片的完整性,包括圖片是否有褶皺、文字是否有誤裁剪致殘缺等,如發(fā)現(xiàn)問題,和建庫機構自行掃描的同一張文書圖片對比,將完好的圖片轉正、裁剪后替換有問題圖片,其預處理流程如圖1所示。
圖1 需要進行圖片比對的掃描文書預處理流程
(2)對于只有建庫自掃描圖片的情況,則可直接進行轉正、裁剪。轉正時視圖片具體情況決定是逐一或批量轉正,但因圖片大小不同,必須逐一手動裁剪以避免誤裁,其預處理流程如圖2所示。
圖2 機構自掃描文書預處理流程
處理時原則上先將圖片轉正后再裁剪,裁剪掉圖片上多余的白邊,注意不可剪掉文字,裁剪時對不規(guī)則幅面等細節(jié),在圖像中保留毛邊等原始文獻的物理狀態(tài)。
(3)對于通過田野調查使用手機或相機拍攝的圖片,且不可能再次進行掃描的,要逐一對圖片進行檢查,是否清晰和完整,將完好的圖片轉正、裁剪。
經(jīng)初步對比、檢查后,將損毀嚴重、誤裁剪或掃描不完整等情況導致無法識別的文書排除,不再進行下一步處理。
經(jīng)過轉正、裁剪后的圖片要降低分辨率。因考慮到原始文書掃描后可能用于編輯出版,圖片最初掃描和拍攝時分辨率較高,但其在數(shù)據(jù)庫中為保證圖片既清晰又不影響其瀏覽流暢性,就要適當降低分辨率。經(jīng)多次測試,確定將圖片統(tǒng)一修改為最長邊1 800像素,另一邊按比例調整。該操作可批量進行,批量修改時注意保持圖片上文字方向一致性,修改后圖片大小基本保持在1 MB左右,符合應用要求。
修改過分辨率的圖片可進行加注載體形態(tài)工作。所謂加注載體形態(tài)就是將建庫機構在掃描圖片時同時測量記錄的各文書紙張類型、大小信息逐一粘貼到從其他機構拷貝并經(jīng)過以上處理的相應圖片文件名上。若使用建庫機構自掃描圖片,因在最初掃描時已詳細記錄其載體形態(tài),故這一項可省略。使用手機和相機拍攝的圖片,若沒有記錄初始載體形態(tài),在數(shù)據(jù)庫著錄時可忽略。
修改過分辨率的圖片可加注題名,題名的擬定要符合《清水江文書著錄項目及著錄規(guī)范》(建庫機構自行制定),規(guī)范是按照“契約文書主體(事主)+事由+契約文書類別+契約文書簽訂時間”擬定。其中立契人為契約的主體,契約的文書類別為(賣契、租佃契、財產與山林析分合同、典當借貸、撥約字合同、宗族與分家文書、清白字等[6]);契約文書時間依原文書錄入。將事先擬定的題名復制到相應圖片文件名上,注意要復制到載體形態(tài)之前,不必加標點符號,加注題名的過程如下。
原文件名:001_楊秀錦40 cm×45 cm;毛邊紙.JPG
題名:石秀先立賣杉木字(光緒十八年二月初九日)
加注題名后文件名:石秀先立賣杉木字(光緒十八年二月初九日)40 cm×45 cm;毛邊紙.JPG
原則上清水江文書數(shù)字化應盡可能保持其文獻的原始性,不應添加任何水印。但是,因文書圖片多為建庫機構有償掃描或復制而來,為保護其知識產權,防止非法拷貝及截圖,所以要為圖片添加數(shù)字水印。通常水印文字為文書所屬版權機構,如“XX大學圖書館”“XX博物館(檔案館)”等,經(jīng)測試效果,確定水印文字選擇黑體,26號,居中,透明度為90%~92%,具體透明度數(shù)值視圖片顏色深淺而定。此項操作可批量進行,處理速度較快,但要注意添加水印時保持圖片上文字與水印文字方向一致性。
為了便于圖片批量處理,在保存圖片時大多選擇JPG格式,但是有些收藏機構也保存為TIF格式文件,這時一般在處理時也先將其批量轉換為JPG格式文件。
JPG格式文件的擴展名后綴為“.JPE”或“.JPEG”,是最常用的一種有損壓縮圖像文件格式,能夠將圖像壓縮在很小的儲存空間,圖像中重復或不重要的資料會丟失[7]。這種格式為點陣式,如果圖片里有大小為6號或6號以下的文字,用JPG格式的文件發(fā)布后文字會看不清楚。
因此,在最終將文書圖片上傳到數(shù)據(jù)庫著錄前,要將其轉換為更具優(yōu)勢的PDF格式文件。PDF是一種便攜式文檔格式,其可以將文字、字型、格式、顏色及獨立于設備和分辨率的圖形圖像等封裝在一個文件中,文字效果是矢量型,理論上無限放大不失真[8]。該特性非常適用于紅契文書中公章的辨別,通過不失真的放大可以清晰識別紅契文書(官文書)中公章細節(jié),從而判斷出文書的年代及其他歷史信息。
將JPG圖片轉換為PDF文件,可利用軟件批處理進行,轉換前先新建一個保存PDF文件的文件夾,避免和JPG源文件混在一個文件夾中。轉換時注意根據(jù)電腦性能選擇合適的文件數(shù)量批處理,為避免死機,不建議一次轉換超過500張圖片。
借鑒上海交通大學在“中國地方歷史文獻數(shù)據(jù)庫”建設中,提出的尊重文獻的產生來源與固有系統(tǒng)的歸戶性理論,制定《清水江文書地域導航設置細則》,登錄清水江文書后臺管理系統(tǒng),在數(shù)據(jù)庫的歸戶導航欄中添加文書所在的市(縣)、鄉(xiāng)、鎮(zhèn)、村與戶進行歸戶管理,要求嚴格按照前期制定細則中的相應編號添加。即取黔東南三字漢語拼音首字母大寫“QDN”作為頂級(一級)地域代碼,且為唯一代碼;黔東南州轄縣市設置為二級地域代碼“QDN00”,使用2個字符“00”來標識下設縣域,黔東南州下轄16個縣市,即用“01~16”分別表示;黔東南縣域下轄的鄉(xiāng)鎮(zhèn)設置為三級地域代碼“QDN0000”,增加2個代碼來標識鄉(xiāng)鎮(zhèn);鄉(xiāng)鎮(zhèn)下轄的村落設置為四級地域代碼,用2位阿拉伯數(shù)字表示;村落下面用3位阿拉伯數(shù)字來標識清水江文書的歸戶(收藏戶)[9]。
以“黔東南州錦屏縣平秋鎮(zhèn)石引村劉光環(huán)家藏文書”導航設置為例,其代碼為:QDN010202001。
(歸戶編碼按當?shù)厥詹匚墨I先后順序編寫,其他編碼按照《清水江文書地域導航分類細則》編寫)。
將上述.PDF文件作為數(shù)字對象上傳到數(shù)據(jù)庫提前建好的收藏戶名下,上傳前注意記錄下數(shù)據(jù)庫中最后一條數(shù)據(jù)的記錄號。因系統(tǒng)設置及字庫不全,文書題名中全角字符、某些生僻字(如:、)或異體字數(shù)據(jù)庫無法識別將導致傳輸中斷,這時就要檢查中斷原因并在處理后繼續(xù)上傳后續(xù)數(shù)據(jù),記錄好原數(shù)據(jù)記錄號和已上傳數(shù)據(jù)量,確保不會產生漏傳、重復上傳及誤刪除等錯誤。
對于多張掃描圖片屬于一本書的情況,要分別處理每張圖片,添加水印后生成一本PDF電子書后再上傳。
在清水江文書數(shù)據(jù)庫建設過程中,發(fā)現(xiàn)文書的數(shù)字化及數(shù)字化后圖片的預處理過程存在一些問題,同時也提出了改進方向,現(xiàn)總結如下。
(1)缺乏針對清水江文書的統(tǒng)一數(shù)字化標準
清水江文書研究近些年逐步崛起,已成為和安徽文書、敦煌文書齊名的三大文書之一,但是目前為止并沒有權威部門制定出針對清水江文書的統(tǒng)一數(shù)字化標準。清水江文書作為地方歷史文獻,其數(shù)字化應該符合地方歷史文獻的相關標準??v觀近十來年國內外發(fā)布的各種數(shù)字化標準,并沒有專門針對地方歷史文獻而制定的標準,而且在已有的數(shù)字資源加工標準或規(guī)范中,數(shù)字資源僅限定為文本、圖像、視頻和音頻等,但清水江文書并不能簡單地定義為普通的文本或圖片資源,其來自于民間不同年代,載體形態(tài)多樣(紙、皮、布等),僅紙就分為棉帛紙、草紙、皮紙、毛邊紙等多種類型,且幅面不規(guī)則、顏色深淺不一,局限于沒有統(tǒng)一的標準用于數(shù)字化,給清水江文書的數(shù)字化加工帶來很大難度。鑒于此,各研究機構在對清水江文書數(shù)字化時只能各行其是,通過在實踐中逐步摸索、修訂而制定相應標準及規(guī)范,但因制定人的知識水平、認知能力、涉獵學科不同等而衍生出參差不同的標準。這就使得數(shù)據(jù)庫后續(xù)的可使用性、可互操作性和可持續(xù)性嚴重受限。
(2)缺乏清水江文書圖片預處理規(guī)范
所謂圖像預處理,在計算機技術中指的是消除圖像中無關信息,恢復有用的真實信息,增強有關信息可檢測性和最大限度簡化數(shù)據(jù)[10]。然而,在清水江文書數(shù)據(jù)庫建設過程中,為最大限度保持文書原始性,預處理的含義更加廣泛,不只是針對個別有污損、亮度低等影響文書閱讀的情況先行處理以增強有關信息的可檢測性,還包括后續(xù)進行的圖片檢查、比對、轉正、裁剪、修改分辨率、加注載體形態(tài)、加注題名、添加水印、JPG轉PDF文件、數(shù)據(jù)庫中添加文書收藏地、上傳PDF文件到數(shù)據(jù)庫這11步操作。然而上述操作并沒有按照相關規(guī)范來遵照執(zhí)行,很多標準都是數(shù)據(jù)庫建設人員在使用過程中逐步摸索改進中形成,如題名格式文中規(guī)定是按如下形式:石秀先立賣杉木字(光緒十八年二月初九日),但是在譚洪沛的《九寨侗族錦屏文書輯存》則是采用另一種表現(xiàn)形式:光緒十八年二月初九日(1892)石秀先立賣杉木字;此外,在江蘇人民出版社出版的《天柱文書》和貴州人民出版社出版的《貴州清水江文書·三穗卷》則采用的是如下格式:光緒十八年二月初九日石秀先立賣杉木字,諸如此類情況不勝枚舉。除此之外,圖片命名規(guī)則、分辨率大小設定、水印標準等都存在各機構各部門標準不一致的情況。這諸多的不一致性就導致各機構數(shù)據(jù)庫之間數(shù)據(jù)交流、置換的可能性降低,難度加大,這與打破清水江文書的地域局限性,多角度挖掘文書資源潛在價值的初衷相違背。
清水江文書資源數(shù)字化合作共享,在調研、比較的基礎上,明確數(shù)字化建設應遵循標準化、一致性、可擴展性、兼容性等原則。
(1)標準化原則
標準化將提升清水江文書數(shù)字化產品在將來使用的可能性,有助于數(shù)據(jù)交換和資源共享。通過對國內外數(shù)字化加工標準和規(guī)范的調研,盡可能直接引用或參考國際上已經(jīng)普遍應用的技術標準[11],在此基礎上須認真參照權威機構發(fā)布的研究成果,開展數(shù)字化,建設地方清水江文書標準數(shù)據(jù)庫。
(2)可擴展性原則
考慮到清水江文書既不是一般檔案資料,又非單一內容的專業(yè)學科主題文獻,加之目前尚未形成統(tǒng)一的分類標準,其數(shù)字化產品的分類法宜結合文獻的動態(tài)性,著眼于未來發(fā)展,提供較高的可擴展性。
(3)兼容性原則
考慮與國內代表性應用方案的兼容問題,要充分考慮與CALIS、中國科學院及其他一些行業(yè)的數(shù)字圖書館系統(tǒng)的標準兼容問題,以保證各系統(tǒng)間互操作的實現(xiàn)[12]。