邵澍赟
(江蘇省檔案館,江蘇南京, 210019)
檔案文獻遺產反映一個國家、民族的群體記憶,通過一定歷史、文化、藝術、科學、技術或社會價值的真實記錄[1]引發(fā)社會公眾深層次的文化認同。當前社會對檔案文獻遺產資源的研究需求、文化需求日益顯著,《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》提出,實施檔案文獻遺產影響力提升工程,實施中國檔案文獻遺產宣傳推廣計劃。[2]伴隨檔案文獻遺產數(shù)字化程度逐步提升,數(shù)字人文與知識組織等理論重塑了檔案文獻遺產資源開發(fā)利用形態(tài),關注技術要素在檔案資源基本屬性表達與深化方面的實踐效用、探究基于文化傳承保護的檔案文獻遺產資源知識管理具有現(xiàn)實與理論意義。本文以江蘇省檔案館收藏的韓國鈞《朋僚函札》檔案文獻為例,試圖為構建檔案文獻遺產知識管理模型提出一種參考方案。
本體可以規(guī)范化、抽象化描述檔案文獻遺產知識資源,通過概念及概念間的關系實現(xiàn)邏輯推理和語義關聯(lián),為檔案文獻遺產知識管理智能化提供了新契機。在檔案文獻遺產相關領域,當前國內外對其數(shù)據(jù)化開發(fā)、信息采集與保護、元數(shù)據(jù)設計與應用[3-5]等較為關注并展開研究,清代文官官制檔案文獻[6]、南僑機工檔案文獻遺產[7]等應用案例也逐漸豐富,但整體上在檔案文獻遺產知識管理的系統(tǒng)性、內容描述的關聯(lián)性方面還有較大的拓展空間。
韓國鈞《朋僚函札》系1915—1937 年間韓國鈞與康有為、梁啟超、黃炎培、張謇等700 余人交往的信函。共計57 冊,3600 余件,現(xiàn)藏于江蘇省檔案館,2003 年入選《中國檔案文獻遺產名錄》。該檔案文獻涉及的地域范圍廣泛,主題內容豐富,除江蘇外,還涉及浙江、福建、上海等地乃至全國的政治、經(jīng)濟、軍事、文化等多方面的史實與重要歷史人物,是深入研究二十世紀初江蘇及中國歷史、相關歷史名人的第一手原始史料,具有重要的學術和歷史價值。
本研究探討的韓國鈞《朋僚函札》本體在明確檔案文獻涉及的人物、事件、地區(qū)、時間概念和特征基礎上,分析其數(shù)字資源要素,深入知識單元層面精細化描述資源特征,解構知識對象屬性,希望通過對韓國鈞《朋僚函札》檔案文獻的精細化語義揭示,拓展《朋僚函札》數(shù)字資源個性化知識關聯(lián),同時展現(xiàn)文獻的實物數(shù)字化成果、面向檔案檢索利用服務,為推進檔案文獻遺產知識組織體系、構建知識管理模型提供參考。一方面,細粒度展示二十世紀初中國從清王朝專制統(tǒng)治向共和制度過渡、北洋軍閥政權交替、國民政府北伐、東西方文化沖突、日本帝國主義侵略等重大歷史;另一方面,關注這些典型的中國傳統(tǒng)紙質書信檔案內容,對相關歷史事件與歷史人物展開資源層面的細節(jié)描述與分析,深入挖掘其背后的信息元素關聯(lián)。對于跟檔案文獻遺產實體、數(shù)字資源管理相關的業(yè)務活動與遺產項目信息,同時納入本體構建范圍。
(1)人物內容。社交互動是人的社會屬性的重要表現(xiàn)形式,書信作為人際交往的產物反映人作為社會存在形成的一系列社會關系。韓國鈞,江蘇泰縣海安鎮(zhèn)(今江蘇海安)人,民國政要,愛國民主人士。北洋政府時期曾任江蘇省省長,晚年任抗日民主政權蘇北臨時參政會名譽議長。韓國鈞《朋僚函札》較為系統(tǒng)、完整地反映了韓國鈞與當時政權核心至地方各類歷史人物的關系,涉及眾多歷史名人和政界要人?!杜罅藕穱@韓國鈞人物實踐活動而形成,內容體現(xiàn)突出的人物要素,因而本體中定義“人物”類加以概括,描述相關人物以及他們之間存在的關系。
(2)事件內容?!杜罅藕穼τ谥袊F(xiàn)代史上的一些重大事件,如府院之爭、對德絕交案、賄選總統(tǒng)、第二次直奉戰(zhàn)爭、北京政變、江浙戰(zhàn)爭、浙奉戰(zhàn)爭、蘇浙戰(zhàn)爭等均有涉及,對江蘇運河海塘工程、黃災救賑、江蘇泰源鹽墾公司等方面的情況也有所記述。根據(jù)描述的事件內容要素確定“事件”類,目的在于幫助相關研究人員與機構精確定位、準確考證相關歷史原貌與具體細節(jié),同時引導社會公眾了解具有重要影響力的歷史事件。
(3)地區(qū)、時間內容?!杜罅藕窓n案資源呈現(xiàn)時間上的流變和區(qū)域的動態(tài)轉換,關注其在時空維度上的變化,由此更準確真實地反映歷史事實。該檔案文獻記述和反映了1915—1937 年前后23 年時間段,其中又存在著大量的點性和線性時間信息,通過時間要素梳理可以幫助公眾明晰歷史脈絡。而在地區(qū)維度上,跨區(qū)域覆蓋江蘇、浙江、上海、安徽、福建等多地,蘊含大量的地理位置信息,描述“地區(qū)”“時間”類用以體現(xiàn)檔案文獻資源內容的時空演變過程。
(4)實物數(shù)字資源?!杜罅藕啡繛榧男湃擞妹P撰寫的手工書信,集中了同一歷史時期眾多歷史名人和書法名家信函,具有極高的書法欣賞價值與文物價值。其稀有性、原始性和唯一性也是其他史料不可替代的,體現(xiàn)出《朋僚函札》檔案文獻作為中國檔案文獻遺產的重要意義和寶貴價值,目前江蘇省檔案館已完成實物文獻資源數(shù)字化?!皩嵨飻?shù)字資源”類與人物、事件、時空等內容特征類共同構成互相聯(lián)系的檔案文獻遺產本體有機整體。
(5)檔案管理信息。《中國檔案文獻遺產名錄》將珍貴檔案文獻以名錄的形式向社會公布,推動珍貴檔案文獻的保護和宣傳,韓國鈞《朋僚函札》入選第二批中國檔案文獻遺產。檔案文獻遺產入藏后涉及收管存用等一系列檔案業(yè)務活動。提煉《朋僚函札》檔案文獻遺產管理的業(yè)務行為,包括確定的歸檔專題、全宗號、案卷號、件號、責任者、立卷日期、密級等。通過對文獻遺產資源管理層面的描述關聯(lián)檔案管理信息。
韓國鈞《朋僚函札》本體既具有檔案文獻遺產本體的共性,又具備歷史特征的個性,根據(jù)七步法本體構建規(guī)則,比較相關領域本體,可以結合檔案文獻遺產特點進行一定程度的復用。CIDOC CRM(CIDOC Conceptual Reference Model,概念參考模型)[8]常用于文化遺產領域,提供了一個將文化遺產信息源與相關人物、時間、地區(qū)等鏈接的背景框架,其中的“actor”“time-span”“place”類等適用于《朋僚函札》檔案文獻遺產本體原始資源特征。結合涉及的人物、事件、時間、地區(qū)等類型,本研究參考FOAF、Event、GeoNames本體并對部分屬性進行了自定義擴展。同時為描述檔案文獻遺產保管情況,根據(jù)《檔案著錄規(guī)則》及《朋僚函札》檔案文獻管理信息將其分別明確為一類。
定義六個一級類目及其數(shù)據(jù)屬性,見表1。其中人物類描述與韓國鈞《朋僚函札》相關的參與主體;事件類描述《朋僚函札》提及的具體史實;地區(qū)類描述《朋僚函札》涉及的地理位置;由于《朋僚函札》作為信件的特殊屬性,時間類描述定義撰寫信函時間與其內容關聯(lián)時間;實物數(shù)字資源類描述文獻遺產數(shù)字化情況;檔案管理信息類描述文獻遺產管理信息。通過對象屬性建立類間關聯(lián)關系,從而使知識單元從點性信息向網(wǎng)絡化轉變。結合對韓國鈞《朋僚函札》文本分析與內容分解,確定本體對象屬性主要包括內容情境關系、資源與內容關系。其中內容情境關系包括“參與”“涉及”“發(fā)生”等,資源與內容關系包括“具有”“所屬”等。
表1 韓國鈞《朋僚函札》本體類及數(shù)據(jù)屬性
根據(jù)韓國鈞《朋僚函札》檔案文獻本體類與屬性提取元數(shù)據(jù)元素填充實例并進行語義關聯(lián),實現(xiàn)對資源的描述、組織、存儲與知識管理,這也成為檔案文獻遺產資源智能化利用服務的前提。知識關聯(lián)情境下要堅持全面性與適用性原則。全面性指覆蓋《朋僚函札》資源信息的全部內容,保持知識完整性、數(shù)據(jù)對象關聯(lián)性和形式一致性;適用性指關聯(lián)結構和目標要符合當前檔案文獻遺產資源的研究需求和文化需求,設計關聯(lián)對象時對數(shù)量的選擇要適度。
以人物類為例,元數(shù)據(jù)包含韓國鈞在履官、鄉(xiāng)居期間交往的名流賢達、同僚屬吏以及故舊知交,有黃炎培、陶行知、史量才、曾樸、冷遹、張謇、張一麐、馮國璋、齊燮元、趙爾巽、盧殿虎、陳陶遺等。事件類元數(shù)據(jù)記錄了當時政治、經(jīng)濟、軍事、實業(yè)、稅賦、水利、教育、藝術等領域不同側面、不同程度的情況。由于所涉元數(shù)據(jù)資源量多龐雜,層次多元,數(shù)據(jù)間存在隱性關聯(lián),總體上呈現(xiàn)出復雜的網(wǎng)絡系統(tǒng)特征。1998 年,Hearn等最早提出知識超網(wǎng)絡的概念[9],知識超網(wǎng)絡多維、多級、多屬性的特征與韓國鈞《朋僚函札》檔案文獻遺產本體資源多層級、多數(shù)據(jù)的特征相契合,能將顯性數(shù)據(jù)關聯(lián),隱性關系顯化,所以可結合知識超網(wǎng)絡理論進行《朋僚函札》知識資源整合。
六個本體類關聯(lián)形成具有復雜聯(lián)系的知識網(wǎng)絡:一是人物事件關聯(lián),主要指同一人物與不同事件的關聯(lián),比如史量才致韓國鈞函,“涉及”事件包括“江浙戰(zhàn)爭才平”“北京政潮突起”等。二是事件時間關聯(lián),主要指函述不同歷史事件的開始時間與結束時間范圍,以及致函發(fā)生時間的關聯(lián)。仍以史量才致韓國鈞函為例,“發(fā)生”時間即“1924年10 月25 日”。三是事件地區(qū)關聯(lián),指文獻中不同事件涉及的不同地區(qū)。四是人物事件和文獻屬性關聯(lián),指不同人物事件與其所屬的信函檔案管理和具有的數(shù)字化信息的關聯(lián)。
本體構建完成了對韓國鈞《朋僚函札》檔案文獻遺產資源的知識抽取與知識建模,知識關聯(lián)實現(xiàn)了分散異構的檔案文獻信息整合與共享,最終目的是要實現(xiàn)檔案文獻遺產資源知識利用。在保持原有檔案文獻信息獨立性的前提下,本研究嘗試構建韓國鈞《朋僚函札》檔案文獻遺產知識管理模型,分為數(shù)據(jù)資源模塊、知識處理模塊、語義關聯(lián)模塊和應用服務模塊,見圖1。
數(shù)據(jù)資源模塊主要是對韓國鈞《朋僚函札》檔案文獻的基礎數(shù)據(jù)進行采集和存儲。由于該文獻遺產載體、所處年代的特殊性以及其撰寫主體、書寫方式各異,造成數(shù)據(jù)資料提取存在一定難度。尤其當涉及的信函實物存在字跡難以辨認或表達模糊時,需要從多方渠道努力,參考相關檔案說明、編研成果和學術文獻,并結合領域專家訪談的方式,補全相關知識信息。因而數(shù)據(jù)預處理尤為關鍵,要反映正確真實的歷史信息。
知識處理模塊進行知識清洗、抽取與校對,將收集到的信息轉化為結構化數(shù)據(jù),形成細粒度的知識單元,建立韓國鈞《朋僚函札》檔案文獻遺產資源數(shù)據(jù)庫。通過自動化工具結合人工核校對基礎數(shù)據(jù)進行整理,完成人物、事件、地區(qū)、時間、實物數(shù)字資源、檔案管理信息抽取和冗余信息合并,將其轉換為可用于分析和關聯(lián)的數(shù)據(jù),形成概念與特征的有序、語義化組織。分析比較可復用的常用本體構建類和屬性,便于后續(xù)知識關聯(lián)。
語義關聯(lián)模塊將分散的數(shù)據(jù)資源整合成關聯(lián)開放的韓國鈞《朋僚函札》檔案文獻遺產知識網(wǎng)絡,拓展有價值的語義連接,關聯(lián)范圍包括資源內容關聯(lián)和資源管理關聯(lián)。定義人物、事件、文獻等的關聯(lián)關系,解決了抽取的基礎數(shù)據(jù)平面化、缺少邏輯層次的問題,利用各類關系規(guī)則設置,將無序、獨立的檔案文獻遺產知識單元轉化為立體、多元的知識組織模式,加深對《朋僚函札》的知識挖掘與知識增值,同時體現(xiàn)檔案文獻遺產管理、保存等活動。
應用服務模塊可以面向用戶提供優(yōu)質高效的檔案文獻遺產知識檢索、共享、可視化瀏覽等服務?!杜罅藕费芯空?、機構或社會公眾能夠結合本身需求選擇粗粒度或細粒度的知識獲取方式,既能完成對《朋僚函札》檔案文獻遺產的總體知識概況瀏覽,也能實現(xiàn)對其涉及的某一人物、歷史事件等具體知識點的信息獲取,或通過關聯(lián)聯(lián)系實現(xiàn)知識查詢,完整了解相關知識,如歷史事件起因、經(jīng)過、結果等。
引入本體的方法實現(xiàn)韓國鈞《朋僚函札》檔案文獻遺產知識管理,對資源內容屬性與管理特征進行揭示,構建的《朋僚函札》本體為后續(xù)檔案專題利用與知識發(fā)現(xiàn)打下基礎,對于《朋僚函札》檔案文獻遺產知識共享與開發(fā)有促進作用。如通過黃炎培致韓國鈞函知識檢索,可關聯(lián)人物韓國鈞、黃炎培、章太炎,地點江蘇、上海,事件卷煙稅變化、教育費減少、上海水電事糾紛,時間1924 年12 月3 日等,相關人物生平、事件發(fā)展經(jīng)過等可依據(jù)需求拓展呈現(xiàn),亦可查閱原函保存情況或數(shù)字化附件。通過資源數(shù)字存儲與知識管理,充分展示《朋僚函札》檔案文獻資源價值,助力檔案文獻遺產數(shù)字化保護與傳承。
本研究以韓國鈞《朋僚函札》為樣本,知識提取、本體建模、知識關聯(lián)、知識服務的具體策略可以為檔案文獻遺產知識管理提供參考。展示了設計檔案文獻遺產本體的具體過程,在文獻資源選擇分析、元數(shù)據(jù)收集、類和屬性確定、關聯(lián)關系定義等環(huán)節(jié)有一定共識性,提出的人物、事件、地區(qū)、時間的內容特征和實物數(shù)字資源、檔案管理信息的管理特征可供同類檔案文獻遺產資源本體在一定程度上復用,搭建突出內容聚合的檔案文獻遺產知識管理框架模型,最終滿足檔案管理的數(shù)字化、信息化、標準化要求。
檔案文獻遺產本體的構建能夠打破檔案數(shù)字資源“孤島”,實現(xiàn)數(shù)字檔案資源之間的知識關聯(lián),體現(xiàn)知識檢索、推理與發(fā)現(xiàn)的價值。通過推理可以實現(xiàn)檔案文獻遺產信息的知識聚合,從而完成更加深入的邏輯驗證與知識發(fā)現(xiàn)。通過知識化智能化服務給檔案利用帶來更好的用戶體驗,面向用戶展示的不再僅僅是原始的檔案文件或數(shù)字件,而是可視化、可組織、可拓展的檔案知識,利用者能夠根據(jù)自身興趣或需求自主選擇延展想要了解的知識信息,完成檔案資源共享,這也有助于進一步提升檔案服務滿意度,發(fā)揮檔案文獻遺產講述歷史、傳承文明的意義。
當然,本研究過程中尚存在一些不足之處,后續(xù)將不斷完善本體的修訂補充以及提高知識管理模型的系統(tǒng)成熟度,以期更好地服務于檔案文獻遺產知識管理。