宋 欣 魯國(guó)軒/中國(guó)人民大學(xué)信息資源管理學(xué)院
貝葉檔案以棕櫚葉為記錄載體,其年代久遠(yuǎn)、載體材料特殊,具有獨(dú)特的文獻(xiàn)價(jià)值、歷史文化價(jià)值和文物價(jià)值,是珍貴的世界文化遺產(chǎn)。由于自然老化、保存不善和人為破壞等原因,存世的貝葉檔案數(shù)量十分稀少,亟待進(jìn)行搶救性保護(hù)。貝葉檔案數(shù)字化建設(shè)是貝葉檔案搶救性保護(hù)的有效途徑,元數(shù)據(jù)框架的確定則是數(shù)字化建設(shè)的前提和基礎(chǔ)。本文首先闡述了貝葉檔案元數(shù)據(jù)設(shè)計(jì)的必要性和可行性,其次分析了DC、EAD和CDWA等與貝葉檔案相關(guān)的常用國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn),并將這3種元數(shù)據(jù)標(biāo)準(zhǔn)作為構(gòu)建貝葉檔案元數(shù)據(jù)框架的基礎(chǔ),最后按照分析貝葉檔案信息資源特征、設(shè)置元數(shù)據(jù)的設(shè)計(jì)目標(biāo)、遵循元數(shù)據(jù)設(shè)計(jì)原則的設(shè)計(jì)思路,構(gòu)建面向貝葉檔案數(shù)字化建設(shè)和信息資源利用的元數(shù)據(jù)設(shè)計(jì)方案。
1.1.1 貝葉檔案數(shù)字化建設(shè)的必要性
貝葉檔案中記錄了有關(guān)歷史學(xué)、文學(xué)、天文學(xué)、藝術(shù)學(xué)、傳統(tǒng)醫(yī)學(xué)等方面的知識(shí),具有較高的利用價(jià)值。但由于自然、人為等原因,保存至今的貝葉檔案數(shù)量很少,且部分保存狀況較差,隨著時(shí)間的流逝,貝葉檔案老化情況也不斷加劇。因此,除對(duì)貝葉檔案本體進(jìn)行保護(hù)和修復(fù)外,還應(yīng)利用數(shù)字化技術(shù)對(duì)內(nèi)容進(jìn)行搶救性保護(hù),對(duì)非結(jié)構(gòu)化的原始數(shù)據(jù)進(jìn)行描述,使其轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)貝葉檔案資源整合、管理和長(zhǎng)期保存的目標(biāo)[1],促進(jìn)貝葉檔案資源的開(kāi)發(fā)和利用。
此外,我國(guó)貝葉檔案的保存地點(diǎn)較為分散,對(duì)于集中利用造成了極大的障礙。目前,貝葉檔案除在西藏檔案館、布達(dá)拉宮、西藏博物館、羅布林卡、薩迦寺等西藏地區(qū)外,在北京的民族文化宮、杭州的靈隱寺、四川的萬(wàn)年寺等地也有分布[2],貝葉檔案資源數(shù)字化是解決上述問(wèn)題的最佳方法,且國(guó)外很多國(guó)家和地區(qū)都對(duì)貝葉檔案進(jìn)行了數(shù)字化。2003年,印度旅游與文化部成立了印度手稿國(guó)家使命項(xiàng)目,專(zhuān)門(mén)負(fù)責(zé)調(diào)查、記錄和保存貝葉檔案,將貝葉檔案進(jìn)行數(shù)字化并且使用開(kāi)源軟件DSpace作為在線(xiàn)數(shù)據(jù)庫(kù);老撾國(guó)家圖書(shū)館將貝葉檔案的縮微膠片進(jìn)行數(shù)字化,并開(kāi)發(fā)了在線(xiàn)數(shù)據(jù)庫(kù)供檢索利用。
1.1.2 貝葉檔案元數(shù)據(jù)設(shè)計(jì)的必要性
上述機(jī)構(gòu)雖建立了貝葉檔案數(shù)據(jù)庫(kù),但由于缺乏統(tǒng)一的元數(shù)據(jù)方案指導(dǎo),導(dǎo)致形成多個(gè)異構(gòu)的貝葉檔案數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)之間缺乏關(guān)聯(lián),檔案資源仍無(wú)法共享。泰國(guó)學(xué)者尼薩喬·查姆農(nóng)斯里(Nisachol Chamnongei)調(diào)研了16個(gè)貝葉檔案保存項(xiàng)目的元數(shù)據(jù)使用情況后發(fā)現(xiàn),各項(xiàng)目組按照自身的需求對(duì)貝葉檔案元數(shù)據(jù)框架進(jìn)行設(shè)計(jì),依據(jù)元數(shù)據(jù)框架建立的檔案數(shù)據(jù)庫(kù)之間資源缺乏關(guān)聯(lián)性,形成了眾多貝葉檔案“信息孤島”。當(dāng)前,國(guó)內(nèi)外尚未形成規(guī)范的貝葉檔案元數(shù)據(jù)方案,異構(gòu)的貝葉檔案數(shù)據(jù)庫(kù)信息資源無(wú)法共享、缺乏資源關(guān)聯(lián)性,貝葉檔案信息資源的利用存在障礙。因此,有必要設(shè)計(jì)一套具有互操作性、專(zhuān)指性、規(guī)范化的元數(shù)據(jù)方案。
1.2.1 以理論研究成果為支撐
目前,國(guó)外關(guān)于貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn)的研究已經(jīng)取得了一些成果。2001年以來(lái),泰國(guó)運(yùn)用技術(shù)手段對(duì)包括貝葉檔案在內(nèi)的古代文獻(xiàn)進(jìn)行數(shù)字化處理,專(zhuān)門(mén)創(chuàng)建了貝葉檔案數(shù)據(jù)庫(kù)。但實(shí)踐發(fā)現(xiàn),由于缺少對(duì)用戶(hù)使用、服務(wù)系統(tǒng)等需求的考慮,該數(shù)據(jù)庫(kù)的元數(shù)據(jù)設(shè)計(jì)存在缺陷,并未達(dá)到高效便捷利用的目的。因此,尼薩喬·查姆農(nóng)斯里等人提出將FRBR模型作為概念模型應(yīng)用于泰國(guó)貝葉檔案數(shù)字化過(guò)程中的元數(shù)據(jù)開(kāi)發(fā)環(huán)節(jié),實(shí)現(xiàn)對(duì)貝葉檔案中知識(shí)的描述和組織,使貝葉檔案數(shù)據(jù)庫(kù)具備支持訪(fǎng)問(wèn)、獲取和管理的各種功能,由此為貝葉檔案元數(shù)據(jù)設(shè)計(jì)提供了有效可行的方案[3]。2017年,尼薩喬·查姆農(nóng)斯里對(duì)英國(guó)、美國(guó)、老撾、印度、泰國(guó)等國(guó)家和地區(qū)的16個(gè)貝葉檔案保存項(xiàng)目開(kāi)展了一項(xiàng)調(diào)查,發(fā)現(xiàn)使用頻數(shù)最高的10個(gè)貝葉檔案描述元素分別是標(biāo)題/主題、腳本語(yǔ)言、分冊(cè)編號(hào)/標(biāo)識(shí)符、保存地點(diǎn)、頁(yè)數(shù)、發(fā)現(xiàn)的日期和地點(diǎn)、尺寸、材料的類(lèi)型、描述/摘要、護(hù)經(jīng)板[4],并結(jié)合對(duì)貝葉檔案用戶(hù)需求和檢索行為的研究,提出建立面向用戶(hù)需求的貝葉檔案元數(shù)據(jù)模式[5]。
1.2.2 以現(xiàn)有元數(shù)據(jù)標(biāo)準(zhǔn)為基礎(chǔ)
EAD、DC、CDWA等與數(shù)字化建設(shè)相關(guān)的國(guó)際元數(shù)據(jù)框架已得到廣泛應(yīng)用,其設(shè)計(jì)思路為貝葉檔案元數(shù)據(jù)設(shè)計(jì)提供了重要參考。EAD(檔案元數(shù)據(jù))可用于描述貝葉檔案資源,DC(都柏林核心元數(shù)據(jù))廣泛用于描述網(wǎng)絡(luò)信息資源,CDWA(藝術(shù)作品描述類(lèi)目)可用于描述貝葉檔案的物理形態(tài)等信息。由于貝葉檔案兼具檔案和文物的特征,同時(shí)其數(shù)字化版本又屬于網(wǎng)絡(luò)信息資源,因此上述三個(gè)元數(shù)據(jù)框架對(duì)貝葉檔案元數(shù)據(jù)的設(shè)計(jì)均具有指導(dǎo)意義。此外,EAD、DC和CDWA是國(guó)際上通用的元數(shù)據(jù)標(biāo)準(zhǔn),因此在此基礎(chǔ)上構(gòu)建的貝葉檔案元數(shù)據(jù)方案具有較好的互操作性。
綜上,在實(shí)踐層面,國(guó)內(nèi)外眾多收藏機(jī)構(gòu)將貝葉檔案進(jìn)行了數(shù)字化處理,并建設(shè)了貝葉檔案數(shù)據(jù)庫(kù),但由于缺乏統(tǒng)一的貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn),異構(gòu)數(shù)據(jù)庫(kù)之間的資源無(wú)法共享和利用,各機(jī)構(gòu)之間也無(wú)法開(kāi)展合作,不能發(fā)揮貝葉檔案數(shù)據(jù)庫(kù)真正的價(jià)值和作用。在理論層面,國(guó)內(nèi)外貝葉檔案元數(shù)據(jù)的相關(guān)研究仍處于比較零散的狀態(tài),且沒(méi)有形成統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),嚴(yán)重制約了貝葉檔案數(shù)字化的發(fā)展。因此,制定規(guī)范化的貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn)迫在眉睫。
檔案元數(shù)據(jù)(Encoding Archival Description)簡(jiǎn)稱(chēng)EAD,主要用于描述檔案和手稿資源,包括文本文檔、電子文檔、可視材料和聲音記錄,同時(shí)還可廣泛地應(yīng)用于其他領(lǐng)域的科學(xué)文獻(xiàn)資料的編目工作[6]。EAD高層元素由EAD頭標(biāo)、檔案描述以及前置事項(xiàng)組成,其中EAD頭標(biāo)和前置事項(xiàng)提供檢索信息,檔案描述提供關(guān)于檔案資源主體信息。貝葉檔案元數(shù)據(jù)框架設(shè)計(jì)中可借鑒EAD頭標(biāo)的描述項(xiàng),對(duì)貝葉檔案的出處、來(lái)源、語(yǔ)言等進(jìn)行描述;參考檔案描述的描述項(xiàng)對(duì)貝葉檔案的內(nèi)容摘要、貝葉檔案裝具、物理位置、館藏單位等信息進(jìn)行描述。
都柏林核心元數(shù)據(jù)(Dublin Core)簡(jiǎn)稱(chēng)DC[7],主要用于網(wǎng)絡(luò)資源的著錄、發(fā)現(xiàn)和組織。DC共有15個(gè)核心元素,簡(jiǎn)單易用、普適性強(qiáng),但由于描述對(duì)象是所有網(wǎng)絡(luò)資源,故欠缺針對(duì)性。因此,在選擇DC元數(shù)據(jù)作為貝葉檔案元數(shù)據(jù)設(shè)計(jì)的主干框架時(shí),還需在此基礎(chǔ)上注入更多針對(duì)貝葉檔案信息資源特征的高質(zhì)量、專(zhuān)指性強(qiáng)的元素[8]。
藝術(shù)作品描述類(lèi)目(Categories for the Description of Works of Art)簡(jiǎn)稱(chēng)CDWA,旨在對(duì)藝術(shù)品物理形態(tài)及數(shù)字化影像資料進(jìn)行描述和編目,支持對(duì)藝術(shù)品及其數(shù)字化資料的管理、檢索和發(fā)現(xiàn),提升信息之間的兼容性[9]。CDWA共有532個(gè)元數(shù)據(jù)項(xiàng),元素豐富、結(jié)構(gòu)復(fù)雜。其中,用于描述藝術(shù)品外部物理特征的元數(shù)據(jù)項(xiàng),如測(cè)量數(shù)據(jù)(尺寸、形狀、大小、比例)、材質(zhì)與技術(shù)(材質(zhì)、工藝)、外觀(guān)描述(藝術(shù)品形狀)等,可用于描述貝葉檔案的形狀、尺寸、材質(zhì)等物理特征。
在設(shè)計(jì)貝葉檔案元數(shù)據(jù)時(shí),首先要明確的是元數(shù)據(jù)應(yīng)具備的功能和要達(dá)到的目標(biāo)。當(dāng)前,貝葉檔案信息資源檢索和利用方面最大的困難是檔案資源相對(duì)分散,資源間原有的體系和聯(lián)系被打亂,難以組織和管理;即便是同一來(lái)源地區(qū)的貝葉檔案,其本體被分散保存在不同機(jī)構(gòu)當(dāng)中,數(shù)字化版本被分散保存在各個(gè)異構(gòu)數(shù)據(jù)庫(kù)中。貝葉檔案資源分散的現(xiàn)狀導(dǎo)致貝葉檔案資源共享困難、信息資源利用效率低。在貝葉檔案實(shí)體無(wú)法集中的情況下,建立一套面向貝葉檔案數(shù)字化建設(shè)和信息資源利用的元數(shù)據(jù)框架,保證其兼容性的同時(shí)突出貝葉檔案的資源特征,最終建成具有貝葉檔案特色的數(shù)據(jù)庫(kù),實(shí)現(xiàn)對(duì)貝葉檔案資源的描述、定位、檢索、保存和組織管理,支持多種檢索方式和異構(gòu)數(shù)據(jù)庫(kù)間的互操作,提高貝葉檔案資源檢索的效率,實(shí)現(xiàn)跨庫(kù)資源共享和開(kāi)發(fā)利用。
3.2.1 確定著錄對(duì)象及資源類(lèi)型
界定著錄對(duì)象的范圍是提高著錄準(zhǔn)確性和針對(duì)性的前提。以貝葉為記錄載體的檔案是貝葉檔案元數(shù)據(jù)的著錄對(duì)象。當(dāng)前,貝葉檔案主要的資源類(lèi)型是貝葉檔案本體和經(jīng)數(shù)字化后形成的貝葉檔案圖片和視頻等。
3.2.2 提煉貝葉檔案資源屬性
貝葉檔案具有材質(zhì)特殊、外觀(guān)各異、尺寸不一、裝幀各具特色、語(yǔ)種眾多、書(shū)寫(xiě)方式多樣等特點(diǎn)。為使貝葉檔案元數(shù)據(jù)框架資源描述更全面、更具針對(duì)性,有必要對(duì)貝葉檔案的資源屬性進(jìn)行分析和提取。貝葉檔案資源屬性可分為身份識(shí)別、內(nèi)容屬性、外部物理屬性和保護(hù)屬性4個(gè)部分[10]。
一是身份識(shí)別。主要用于對(duì)貝葉檔案數(shù)字資源的定位和管理。參考EAD標(biāo)識(shí)符對(duì)貝葉檔案資源的標(biāo)識(shí)符、資源類(lèi)型、來(lái)源等進(jìn)行身份識(shí)別號(hào)碼的編制與設(shè)計(jì),為檢索提供唯一的識(shí)別號(hào)和代碼,同時(shí)還能表明資源的類(lèi)型、來(lái)源等信息。
二是內(nèi)容屬性。主要用于貝葉檔案的資源描述和檢索?!皹?biāo)識(shí)符”“題名”“時(shí)間”“地點(diǎn)”“相關(guān)人物”不僅能對(duì)貝葉檔案信息進(jìn)行描述;還能提高資源組織的效率,提供編號(hào)檢索、題名檢索和人物檢索等多種檢索方式,提高檢索的效率和準(zhǔn)確度?!拔淖帧笔枪P者新增的自定義核心元素,用于描述貝葉檔案所使用的“語(yǔ)種”“書(shū)寫(xiě)方式”“書(shū)寫(xiě)風(fēng)格”“字跡顏色”,通過(guò)分析不同時(shí)期和地區(qū)流行的語(yǔ)種和書(shū)寫(xiě)風(fēng)格就可以推斷出貝葉檔案產(chǎn)生的年代和地區(qū);其中“字跡成分”也可用來(lái)推斷貝葉檔案的年代,還能為修復(fù)貝葉檔案字跡提供依據(jù)。因此,“文字”這一新增元素對(duì)于判斷貝葉檔案的來(lái)源具有重要作用。“摘要”“格式”能夠描述貝葉檔案的主要內(nèi)容信息和數(shù)字化后的電子形態(tài),幫助用戶(hù)快速高效地獲得所需資源。
三是外部物理屬性。用以描述資源實(shí)體的外觀(guān)信息,如貝葉檔案的材質(zhì)、形狀、尺寸、裝幀形式、葉數(shù)、行數(shù)等。旨在通過(guò)對(duì)貝葉檔案外部物理特征的描述,使利用者和檔案工作者對(duì)貝葉檔案有更加直觀(guān)了解,突出貝葉檔案外形的特點(diǎn),并為其后續(xù)保存和修復(fù)提供依據(jù)。
四是保護(hù)屬性。用以實(shí)現(xiàn)對(duì)貝葉檔案實(shí)體的管理和保護(hù)。“護(hù)經(jīng)夾板”是新增的自定義核心元素,這也是貝葉檔案特有的元素,貝葉檔案通常配有上下兩個(gè)夾板來(lái)進(jìn)行保護(hù)(護(hù)經(jīng)夾板通常指的是貝葉檔案上下的兩個(gè)木板,類(lèi)似于書(shū)籍的封面,起到保護(hù)內(nèi)容的作用,還能防止檔案邊緣破損),不同的材質(zhì)保護(hù)效果不同,例如樟木制成的夾板能夠較好的防蟲(chóng);可以根據(jù)夾板的“材質(zhì)”和“尺寸”等信息,發(fā)現(xiàn)并更換保護(hù)效果不理想的夾板?!氨4鏍顟B(tài)”是另一個(gè)自定義核心元素,通過(guò)“基本性能”(色差、酸度、含水率)、“病害類(lèi)型”(殘缺、破損、鼠嚙、字跡褪色等)和“完殘程度”(保存完好、輕度破損、中度破損、嚴(yán)重破損、特殘破損)[11]這3個(gè)描述項(xiàng),反映貝葉檔案本體的保存狀況和物理狀態(tài)。一方面,能夠使管理者全面掌握貝葉檔案保存狀況的信息,采取有效的分級(jí)保護(hù)措施來(lái)加以改善和治理;另一方面,能夠使用戶(hù)對(duì)貝葉檔案保存狀態(tài)有直觀(guān)的了解。
DC元數(shù)據(jù)作為貝葉檔案元數(shù)據(jù)設(shè)計(jì)的主干框架,為元數(shù)據(jù)框架提供普適性的元素;EAD作為元數(shù)據(jù)設(shè)計(jì)的核心借鑒元素,提供更具針對(duì)性的元素,用于描述貝葉檔案內(nèi)容和管理方面的元素;CDWA作為輔助借鑒元素,提供具有貝葉檔案特色的“外觀(guān)物理屬性”元素,突出貝葉檔案的外觀(guān)物理特征。
DC元數(shù)據(jù)具有廣泛的適用性和兼容性,能夠與其他類(lèi)型元數(shù)據(jù)建立映射,是基礎(chǔ)元數(shù)據(jù)的最佳選擇。選用DC元數(shù)據(jù)中的“題名”來(lái)描述貝葉檔案的標(biāo)題和名稱(chēng);“相關(guān)人物”來(lái)說(shuō)明與貝葉檔案有關(guān)聯(lián)的人物,如原創(chuàng)作者、抄寫(xiě)或謄寫(xiě)者、譯者等;“日期”用來(lái)描述貝葉檔案的制作日期、發(fā)現(xiàn)/出土日期、收藏日期等重要的時(shí)間節(jié)點(diǎn);“格式”用來(lái)描述貝葉檔案數(shù)字化后的電子形態(tài)。
EAD檔案元數(shù)據(jù)標(biāo)準(zhǔn)具有簡(jiǎn)潔、靈活和可擴(kuò)展性的特點(diǎn),能廣泛支持文本和文字處理系統(tǒng)。貝葉檔案與紙質(zhì)檔案一樣具有檔案編號(hào)、裝具和館藏單位等信息,本方案將復(fù)用EAD標(biāo)準(zhǔn)中的“標(biāo)識(shí)符”“摘要”“裝具”“館藏單位”這4項(xiàng)核心元素項(xiàng)來(lái)描述貝葉檔案的內(nèi)容和館藏等信息。
貝葉檔案的載體為貝葉材質(zhì)較為特殊,其外部物理特征極具特色,因此在元數(shù)據(jù)框架中應(yīng)納入貝葉檔案的材質(zhì)、裝幀、尺寸等元素,突出貝葉檔案的載體特點(diǎn)。本方案借鑒CDWA“外部物理特征”中的“材質(zhì)”“裝幀”“尺寸”等元素來(lái)描述貝葉檔案的外部特征。
表1:貝葉檔案元數(shù)據(jù)框架
元數(shù)據(jù)框架設(shè)計(jì)以貝葉檔案資源特征為核心,借鑒EAD、DC、CDWA這3個(gè)元數(shù)據(jù)標(biāo)準(zhǔn),運(yùn)用分類(lèi)和分層的思想,將元數(shù)據(jù)按照功能分為描述性元數(shù)據(jù)和管理型元數(shù)據(jù),將元素分為核心元素、子元素和部分孫元素,層級(jí)清晰明確。最終設(shè)計(jì)的貝葉檔案元數(shù)據(jù)框架,共有20個(gè)核心元素、18個(gè)描述性元數(shù)據(jù)、2個(gè)管理性元數(shù)據(jù)。
設(shè)計(jì)統(tǒng)一規(guī)范的貝葉檔案元數(shù)據(jù)框架是貝葉檔案數(shù)字化建設(shè)、信息資源整合、利用、共享的基礎(chǔ)性工作。目前,在國(guó)內(nèi)貝葉檔案研究領(lǐng)域還沒(méi)有統(tǒng)一的、系統(tǒng)的、成熟的元數(shù)據(jù)標(biāo)準(zhǔn)。為實(shí)現(xiàn)貝葉檔案信息資源的整合共享、組織檢索、知識(shí)發(fā)現(xiàn)提供技術(shù)支持,本文遵循元數(shù)據(jù)設(shè)計(jì)的原則,借鑒國(guó)際上相關(guān)的成熟的元數(shù)據(jù)標(biāo)準(zhǔn),結(jié)合貝葉檔案自身的特點(diǎn),制訂出貝葉檔案元數(shù)據(jù)核心框架元素。以期通過(guò)貝葉檔案元數(shù)據(jù)標(biāo)準(zhǔn)的研究,實(shí)現(xiàn)貝葉檔案在網(wǎng)絡(luò)環(huán)境下的高效檢索、跨平臺(tái)資源共享和開(kāi)發(fā)利用。但是由于貝葉檔案內(nèi)容涉及范圍廣、制式多樣,本文提出的貝葉檔案元數(shù)據(jù)框架還存在諸多不足,要全面且準(zhǔn)確的描述貝葉檔案的本質(zhì)特征,仍需進(jìn)一步深入探討。