李寶玲 李珂 郭立鑫
摘 ?要:本文在數(shù)字人文視角下,對(duì)歷史檔案專題知識(shí)庫(kù)相關(guān)概念及理論進(jìn)行解析,以中福公司歷史檔案數(shù)據(jù)庫(kù)為基礎(chǔ),通過(guò)引入本體思想,完善元數(shù)據(jù)分類及關(guān)聯(lián)規(guī)則,提出歷史檔案專題知識(shí)庫(kù)的構(gòu)建原則、方法、功能和展示方式,為面向深度利用的歷史檔案知識(shí)服務(wù)做出了有益探索。
關(guān)鍵詞:歷史檔案;檔案專題;知識(shí)庫(kù);本體;數(shù)字人文;元數(shù)據(jù);中福公司
Abstract: From the perspective of digital humanities, this paper analyzes the relevant concepts and theories of the historical archives thematic knowledge base, and based on the historical archives database of Zhongfu Company, puts forward the construction principles, methods, functions and display methods of the historical archives thematic knowledge base by introducing ontology, improving metadata classification and association rules, and making a beneficial exploration for the in-depth utilization of the historical archives knowledge service.
Keywords: Historical archives; Archival topics; Knowledge base; Noumenon; Digital humanities; Metadata; Zhongfu company
1 研究現(xiàn)狀
本文以“檔案、知識(shí)庫(kù)”為關(guān)鍵詞組合,利用中國(guó)知網(wǎng)和萬(wàn)方中文數(shù)據(jù)庫(kù)進(jìn)行檢索,共有351篇國(guó)內(nèi)研究文獻(xiàn),呈現(xiàn)逐年穩(wěn)中上升趨勢(shì)。從成果看,研究主要集中在檔案知識(shí)庫(kù)的構(gòu)建模型、構(gòu)建原則、構(gòu)建方法、可視化設(shè)計(jì)等理論層面。徐擁軍[1]通過(guò)分析文件管理(RM)系統(tǒng)、檔案管理(AM)系統(tǒng)、知識(shí)管理(KM)系統(tǒng)與OA系統(tǒng)的關(guān)系,提出了檔案知識(shí)管理系統(tǒng)構(gòu)建的原則和策略;牛力[2]等提出了數(shù)字記憶視角下學(xué)術(shù)名人知識(shí)庫(kù)建設(shè)的基本模式,對(duì)學(xué)術(shù)名人知識(shí)庫(kù)的融合、建構(gòu)與服務(wù)具體內(nèi)涵進(jìn)行闡釋;張斌[3]等構(gòu)建了基于檔案知識(shí)庫(kù)的檔案知識(shí)服務(wù)模型,強(qiáng)調(diào)了檔案知識(shí)檢索和呈現(xiàn)能力。此外,還有一些學(xué)者基于本體開(kāi)展了知識(shí)庫(kù)構(gòu)建理論研究。陸銘[4]基于本體構(gòu)建了檔案館藏資源語(yǔ)義知識(shí)庫(kù)模型; 孫振嘉[5]等參照 CIDOC-CRM概念模型,以五四運(yùn)動(dòng)為例構(gòu)建了資源對(duì)象的本體模型。實(shí)踐層面,青島市檔案館歷史檔案知識(shí)庫(kù)支持多種搜索模式和基于時(shí)間域進(jìn)行知識(shí)瀏覽,中國(guó)歷代人物傳記資料庫(kù)(CBDB)提供可視化查詢、人名檢索、地名查詢、職官查詢、親屬/人際關(guān)系查詢、社會(huì)區(qū)分查詢、兩人社交網(wǎng)絡(luò)查詢 等多種檢索,這些研究實(shí)踐為檔案知識(shí)庫(kù)的構(gòu)建提供了借鑒。
但就實(shí)踐層面,在數(shù)字人文指導(dǎo)下的檔案知識(shí)庫(kù)研究和建設(shè)實(shí)證依然偏少,特別是相關(guān)檔案知識(shí)庫(kù)標(biāo)準(zhǔn)規(guī)范缺位,現(xiàn)有案例不同程度存在數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一、原始檔案資源挖掘?qū)哟螠\,知識(shí)展現(xiàn)用戶體驗(yàn)差等問(wèn)題,難以滿足檔案知識(shí)服務(wù)深度利用需求,亟待在后續(xù)研究解決。
2 歷史檔案專題知識(shí)庫(kù)的相關(guān)概念
2.1 檔案數(shù)據(jù)庫(kù)與檔案知識(shí)庫(kù)。近年來(lái),隨著數(shù)字檔案館建設(shè)的全面推進(jìn),各省市級(jí)檔案館都建立起了覆蓋館藏的檔案數(shù)據(jù)庫(kù),部分檔案館正在建立各種類型專題檔案資源庫(kù),方便了檔案規(guī)范化管理和檢索利用。錢毅[6]認(rèn)為檔案數(shù)據(jù)庫(kù)在不同階段的發(fā)展中會(huì)出現(xiàn)許多稱謂,如機(jī)讀目錄數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù),照片檔案數(shù)據(jù)庫(kù)、全文數(shù)據(jù)庫(kù)、多媒體檔案數(shù)據(jù)庫(kù)等。知識(shí)庫(kù)是由數(shù)據(jù)庫(kù)概念發(fā)展變化而來(lái),是一種以數(shù)據(jù)庫(kù)為基礎(chǔ)技術(shù)面向某一領(lǐng)域知識(shí)進(jìn)行抽取和序化,通過(guò)一些技術(shù)手段對(duì)析出知識(shí)加以組織,與大量推理規(guī)則共同以特定存儲(chǔ)方式貯存,為用戶提供可視化的策略性知識(shí)服務(wù)系統(tǒng)??追眲賉7]認(rèn)為知識(shí)庫(kù)是合理組織陳述型知識(shí)和過(guò)程型知識(shí)的集合,不但包含了大量的簡(jiǎn)單事實(shí),還包含了規(guī)則和推理。張斌認(rèn)為檔案知識(shí)庫(kù)是一個(gè)檔案知識(shí)系統(tǒng),檔案部門對(duì)原始的數(shù)字檔案進(jìn)行加工處理,從數(shù)字檔案全文中提取出具有知識(shí)價(jià)值的內(nèi)容,按照適當(dāng)?shù)闹R(shí)表示和知識(shí)組織方法將其存儲(chǔ)進(jìn)知識(shí)庫(kù)中??梢钥闯?,與專題檔案資源庫(kù)、檔案數(shù)據(jù)庫(kù)不同,檔案知識(shí)庫(kù)不僅包含大量的數(shù)字檔案資源,還包含資源之外的知識(shí)挖掘及推理規(guī)則,利用者可以通過(guò)檔案知識(shí)庫(kù)系統(tǒng)的人機(jī)交互界面,精準(zhǔn)又迅速地找到自己感興趣的檔案知識(shí)。
2.2 歷史檔案專題知識(shí)庫(kù)的內(nèi)涵。綜上概念,本文所提歷史檔案專題知識(shí)庫(kù)是指以特定歷史檔案資源為管理對(duì)象,在歷史檔案數(shù)據(jù)庫(kù)的基礎(chǔ)上,借鑒本體理論,完善元數(shù)據(jù)分類,構(gòu)建語(yǔ)義規(guī)則,借助人工智能、數(shù)字人文等先進(jìn)技術(shù),按照一定知識(shí)體系進(jìn)行整序和分析而組織起來(lái)的數(shù)據(jù)庫(kù)系統(tǒng)。因此,歷史檔案專題知識(shí)庫(kù)應(yīng)集歷史檔案資源管理、后臺(tái)知識(shí)管理、前臺(tái)知識(shí)展示功能為一體,具有專題性、知識(shí)性、交互性、共享性、可擴(kuò)展性等特點(diǎn)。實(shí)踐中,應(yīng)充分利用已有檔案數(shù)據(jù)庫(kù)資源基礎(chǔ),即把專題歷史檔案的數(shù)據(jù)化、有序化、敘事化和可視化工作作為研究重點(diǎn);應(yīng)自下而上,在構(gòu)建歷史檔案資源元數(shù)據(jù)、分類標(biāo)準(zhǔn)、語(yǔ)義規(guī)則等工作基礎(chǔ)上構(gòu)建知識(shí)庫(kù);應(yīng)先易后難,即以已有一定研究基礎(chǔ)的專題歷史檔案作為切入點(diǎn)形成方法積累經(jīng)驗(yàn)為其它專題提供參考。
3 中福歷史檔案專題知識(shí)庫(kù)的構(gòu)建依據(jù)
3.1 理論支撐。首先是數(shù)字人文理論。數(shù)字人文起源于文學(xué)與語(yǔ)言學(xué)領(lǐng)域,是新型的跨學(xué)科研究領(lǐng)域,數(shù)字技術(shù)的進(jìn)步及其在科學(xué)領(lǐng)域的普及應(yīng)用促使它的產(chǎn)生與發(fā)展。[8]數(shù)字人文富有層次化的理論框架與技術(shù)體系不斷發(fā)展,自然語(yǔ)言檢索、知識(shí)圖譜、VR/AR、可視化、AI等新興技術(shù)應(yīng)用,為歷史檔案資源深度開(kāi)發(fā)利用帶來(lái)了無(wú)限契機(jī),推動(dòng)了歷史檔案資源從“數(shù)字化”向“數(shù)據(jù)化”“知識(shí)化”方向轉(zhuǎn)型發(fā)展。其次是本體理論。本體是對(duì)某一領(lǐng)域內(nèi)概念類及其類之間關(guān)系的形式化表示。[9]本體一詞原是哲學(xué)領(lǐng)域的一個(gè)名詞,但當(dāng)前已經(jīng)廣泛應(yīng)用于知識(shí)工程、系統(tǒng)建模、信息處理、數(shù)字圖書(shū)館、自然語(yǔ)言理解、語(yǔ)義web等領(lǐng)域。本體通過(guò)定義類、屬性等要素賦予數(shù)據(jù)語(yǔ)義關(guān)系,對(duì)相應(yīng)知識(shí)集合實(shí)現(xiàn)細(xì)粒度的描述與歸納。[10]借助本體方法構(gòu)建知識(shí)庫(kù)系統(tǒng)可彌補(bǔ)檔案數(shù)據(jù)庫(kù)建設(shè)中重實(shí)體管理、輕知識(shí)服務(wù)的缺陷,有效地提高知識(shí)的可獲取性、可互操作性、可共享性、可重用性和可維護(hù)性等,可以更好地進(jìn)行歷史檔案資源的知識(shí)組織及相關(guān)研究。最后是知識(shí)服務(wù)理論。知識(shí)服務(wù)就是從各種顯性和隱性信息資源中,根據(jù)對(duì)象的需求將知識(shí)提煉的過(guò)程,是依托資源建設(shè)為基礎(chǔ)的高級(jí)階段信息服務(wù)。[11]知識(shí)服務(wù)是基于知識(shí)管理的一種新的服務(wù)形態(tài),知識(shí)管理是信息管理發(fā)展的新階段,是知識(shí)發(fā)現(xiàn)、知識(shí)組織、知識(shí)利用的過(guò)程,它同信息管理不同,要求把信息與知識(shí)、信息與活動(dòng)、信息與人連接起來(lái),知識(shí)服務(wù)提供者針對(duì)不同類型用戶多樣化知識(shí)需求,圍繞自身所擁有的顯性知識(shí)與隱性知識(shí),提供快速知識(shí)服務(wù)。
3.2 技術(shù)支撐。一是復(fù)用本體模型,CIDOC-CRM是一套應(yīng)用于文化遺產(chǎn)的信息集成概念參考模型,支持圖書(shū)館、博物館、檔案館等不同領(lǐng)域不同類型的專業(yè)研究,已有 81個(gè)類、160 個(gè)屬性。DC是成熟的描述數(shù)字文獻(xiàn)的通用元數(shù)據(jù)標(biāo)準(zhǔn)框架,包含了DCMI術(shù)語(yǔ)和應(yīng)用綱要,包含了15個(gè)核心元素集。FOAF是一種遵循W3C體系標(biāo)準(zhǔn)的資源描述框架(RDF)詞表,用于描述人、人群、人的活動(dòng)的特定屬性及人與人、人與物間的社會(huì)網(wǎng)絡(luò)關(guān)系。這3種成熟本體各有特點(diǎn)互為補(bǔ)充,檔案專題知識(shí)庫(kù)的構(gòu)建在檔案資源庫(kù)的基礎(chǔ)上,吸收成熟本體的部分元素,以此彌補(bǔ)原檔案資源數(shù)據(jù)庫(kù)的不足。二是自然語(yǔ)言處理技術(shù)。自然語(yǔ)言處理是檔案知識(shí)庫(kù)的核心應(yīng)用技術(shù),通過(guò)自然語(yǔ)言接口,用戶在查詢知識(shí)庫(kù)內(nèi)容時(shí)可以利用自然語(yǔ)言式的文本精確定義自己的知識(shí)需求;通過(guò)文檔自動(dòng)處理,使用NLP工具對(duì)詞、短語(yǔ)和句子進(jìn)行分析可以得出詞、短語(yǔ)和句子之間的邏輯關(guān)系;通過(guò)知識(shí)自動(dòng)獲取,可以對(duì)檔案資源庫(kù)進(jìn)行庫(kù)數(shù)據(jù)挖掘進(jìn)行知識(shí)抽取。尤其是自然語(yǔ)言處理的知識(shí)圖譜構(gòu)建應(yīng)用,能根據(jù)不同邏輯實(shí)現(xiàn)知識(shí)的相互關(guān)聯(lián)和圖譜化輸出。三是信息可視化技術(shù)?;贖5的虛擬現(xiàn)實(shí)、現(xiàn)實(shí)增強(qiáng)、地理信息系統(tǒng)等信息可視化技術(shù)在知識(shí)服務(wù)中逐漸興起,使得知識(shí)庫(kù)更具有人文關(guān)懷,它提供多重感官體驗(yàn),支持交互式操作,增加服務(wù)對(duì)象的自由度。中福公司歷史檔案知識(shí)庫(kù)除在線知識(shí)檢索外,搭建虛擬展廳,用敘事方式和可視化技術(shù),展示多個(gè)歷史主題,令公眾有穿越歷史的真實(shí)體驗(yàn)。
3.3 資源支撐。歷史檔案專題知識(shí)庫(kù)選擇中福公司歷史檔案全宗為研究對(duì)象,具有四個(gè)特點(diǎn):一是中福公司歷史檔案較其他全宗歷史檔案,內(nèi)容更豐富、保存更完整,它形成于1897到1956年間的檔案有4485卷,具有時(shí)間跨度大、形成主體多元、門類齊全、載體多樣、領(lǐng)域?qū)挿?,史料價(jià)值高的特點(diǎn);二是中福公司歷史檔案依據(jù)《民國(guó)歷史檔案著錄規(guī)則》結(jié)合中福公司檔案特點(diǎn),制定了《中福公司檔案著錄細(xì)則》,進(jìn)行了數(shù)字化的整理和開(kāi)發(fā),形成了標(biāo)準(zhǔn)化目錄數(shù)據(jù)庫(kù)和全文數(shù)據(jù)庫(kù),析出了中福公司檔案的主題和關(guān)鍵要素,為知識(shí)庫(kù)構(gòu)建打下良好的數(shù)據(jù)基礎(chǔ);三是中福公司歷史檔案在社會(huì)上成為研究熱點(diǎn),產(chǎn)生了一系列中福公司檔案研究成果、文史資料、翻譯作品、科研論文等知識(shí)產(chǎn)品,豐富了知識(shí)庫(kù)的來(lái)源;四是中福公司檔案內(nèi)容豐富,涵蓋了政治、經(jīng)濟(jì)、文化、工業(yè)、教育等方方面面,是河南近代工業(yè)發(fā)展的縮影,便于與館藏其他檔案進(jìn)行知識(shí)關(guān)聯(lián)。
4 中福歷史檔案專題知識(shí)庫(kù)的元數(shù)據(jù)體系
4.1 元數(shù)據(jù)項(xiàng)的設(shè)計(jì)需求。梁繼紅[12]對(duì)走向文本的歷史檔案數(shù)字整理研究提出,歷史檔案數(shù)字整理包括了文本閱讀的基底層,元數(shù)據(jù)搭建的橋梁層,文本內(nèi)數(shù)據(jù)化的加工層,以及數(shù)據(jù)分析和可視化的知識(shí)發(fā)現(xiàn)層。可見(jiàn),元數(shù)據(jù)是歷史檔案知識(shí)庫(kù)構(gòu)建的重要基礎(chǔ),元數(shù)據(jù)提供了知識(shí)的提取、聚類、關(guān)聯(lián),使得歷史檔案實(shí)體能夠在數(shù)字空間中呈現(xiàn)多重脈絡(luò)。前期中福公司歷史檔案實(shí)現(xiàn)了目錄和內(nèi)容層面的數(shù)字化,雖然按照《中福公司檔案著錄細(xì)則》進(jìn)行了檔案形式和內(nèi)容元數(shù)據(jù)項(xiàng)著錄,但是元數(shù)據(jù)是以資源管理為導(dǎo)向,是獨(dú)立的、分散的,缺少語(yǔ)義關(guān)聯(lián),難以實(shí)現(xiàn)知識(shí)管理,不能完全滿足專題知識(shí)庫(kù)知識(shí)服務(wù)的需求。因此,需要在原有元數(shù)據(jù)基礎(chǔ)上進(jìn)行優(yōu)化,構(gòu)建能夠體現(xiàn)語(yǔ)義特征的元數(shù)據(jù)方案。
4.2 元數(shù)據(jù)體系的設(shè)計(jì)原則。遵循三個(gè)原則:一是復(fù)用與自定義相結(jié)合原則。歷史檔案既有一般歷史文化遺產(chǎn)檔案的共性特點(diǎn),也具有自身特殊性。因此,參考CIDOC-CRM、DC、FOAF模型對(duì)中福公司檔案的核心元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化描述和定義,選取通用核心指標(biāo)直接復(fù)用,而其它特殊和次生指標(biāo)通過(guò)專家協(xié)作進(jìn)行增補(bǔ)和解釋。二是有利于知識(shí)挖掘和關(guān)聯(lián)原則。知識(shí)庫(kù)建設(shè)大致分為自頂向下的基于本體和自底向上的基于人工智能兩種表示方法,而歷史檔案知識(shí)庫(kù)建設(shè)以挖掘隱性知識(shí)和深度利用為直接目的,應(yīng)發(fā)揮兩類方法各自優(yōu)勢(shì),即在本體思想指導(dǎo)下進(jìn)行元數(shù)據(jù)體系設(shè)計(jì),并在此基礎(chǔ)上通過(guò)人工智能技術(shù)支撐,進(jìn)行實(shí)例抽取和知識(shí)關(guān)聯(lián),達(dá)到知識(shí)的深度挖掘。比如,針對(duì)中福公司歷史檔案特點(diǎn),細(xì)化主題類目,規(guī)范定義每一個(gè)類目屬性并輔助以同義詞、近義詞詞表;在每一件文獻(xiàn)著錄主題詞的基礎(chǔ)上,增加所屬一級(jí)主題類目、二級(jí)主題類目。三是突出歷史檔案專題特色原則。不同專題歷史檔案反映了不同歷史階段和專業(yè)領(lǐng)域,具有不同的檔案類型和內(nèi)容。在元數(shù)據(jù)體系設(shè)計(jì)上要考慮專題檔案資源特點(diǎn),體現(xiàn)出研究對(duì)象的特色。比如在對(duì)“事件”的界定上,既包括發(fā)生在這一歷史時(shí)期的歷史事件,也包括中福公司機(jī)構(gòu)變化、人事任免、重要會(huì)議、煤礦、安全事故等公司大事。
4.3 基于本體的元數(shù)據(jù)體系構(gòu)建。歷史檔案專題知識(shí)庫(kù)以“一站、兩庫(kù)、多專題”為基本結(jié)構(gòu),“一站”指歷史檔案知識(shí)服務(wù)網(wǎng)站,“兩庫(kù)”指專題資源庫(kù)和專題知識(shí)庫(kù),“多專題”指不同的專題資源所對(duì)應(yīng)的不同專題模塊,不同專題知識(shí)庫(kù)依照該專題檔案的存量與整理情況具有相同模型和不同元數(shù)據(jù)項(xiàng)。這里我們以中福歷史檔案為例,引入本體思想,從歷史檔案資源的資源管理層和資源內(nèi)容層分別進(jìn)行分析,資源管理層的本體類目主要描述中福公司檔案的形式特征和過(guò)程特征,資源內(nèi)容層的本體類目設(shè)計(jì)旨在對(duì)中福公司檔案內(nèi)容進(jìn)行多維度描述,為知識(shí)發(fā)現(xiàn)、挖掘和利用打下基礎(chǔ)。
中福公司檔案本體共160個(gè)類,其中包含11個(gè)一級(jí)類目,79個(gè)二級(jí)類,70個(gè)三級(jí)類,資源管理層面有“檔案外形特征、數(shù)字化資源、檔案類型”3個(gè)一級(jí)類目,資源內(nèi)容層面有“人物、時(shí)間、主題、語(yǔ)種、事件、地點(diǎn)、責(zé)任者、文種”8個(gè)一級(jí)類目。其中,“主題”“事件”“地點(diǎn)”“時(shí)間”復(fù)用CIDOC-CRM,“人物”復(fù)用FOAF,“文獻(xiàn)類型”復(fù)用DC,其余類目為自建而成。
在類目和層級(jí)關(guān)系上,可以看出該體系彌補(bǔ)了傳統(tǒng)資源管理模式中以管理一級(jí)類為導(dǎo)向的不足,進(jìn)而增加大量?jī)?nèi)容層面類目。其中,檔案文獻(xiàn)的外形特征包括該檔案的檔號(hào)、題名、目錄號(hào)、頁(yè)碼等信息;“數(shù)字化資源”指對(duì)檔案實(shí)體和相關(guān)資料實(shí)體進(jìn)行數(shù)字化后形成的數(shù)字化副本;文獻(xiàn)類型主要指文書(shū)、照片、音視頻、人事、會(huì)計(jì)、科技、圖書(shū)資料、實(shí)物等檔案實(shí)體類型;“事件”主要指由行為主體設(shè)計(jì)和執(zhí)行的具有一定預(yù)期目標(biāo)的事情,主要指歷史或公司的一些大事件及要事;“主題”主要描述中福公司歷史檔案的15個(gè)方面的特色內(nèi)容,分別為礦案、教育、礦產(chǎn)、民窯、交通運(yùn)輸、礦警、抗戰(zhàn)、工人運(yùn)動(dòng)、經(jīng)營(yíng)管理、行政管理、生產(chǎn)管理、外事、外貿(mào)、日記日志、醫(yī)療等;“語(yǔ)種”主要指檔案文獻(xiàn)的語(yǔ)言種類,包括中文、英文及其它語(yǔ)言;“地點(diǎn)”是中福公司或人物對(duì)象活動(dòng)發(fā)生時(shí)所存在的位置空間,例如北京、河南、四川、湖北等主要地點(diǎn);“時(shí)間”是指中福公司各類事件和行為發(fā)生所形成的階段式時(shí)間范圍;文種主要包括令、信函、電報(bào)、章程、票據(jù)、日記、報(bào)表、憑證、報(bào)告、呈等。
在對(duì)象屬性上,中福歷史檔案本體中除了上下級(jí)關(guān)系的“包含”關(guān)系外,還涉及實(shí)體與內(nèi)容間關(guān)系、事件情境關(guān)系、資源對(duì)象間關(guān)系、內(nèi)容間關(guān)系、行為主體間關(guān)系、時(shí)間等諸多關(guān)系。比如,實(shí)體與內(nèi)容間的記錄關(guān)系,事件與人物、地點(diǎn)、時(shí)間之間的“誰(shuí)參與事件”“事件發(fā)生時(shí)段”“事件發(fā)生地點(diǎn)”“子事件”“屬于哪個(gè)主題”等關(guān)系。本文放棄通過(guò)描述對(duì)象屬性進(jìn)行語(yǔ)義關(guān)聯(lián)的方法,采用人工智能語(yǔ)義關(guān)聯(lián)方法,對(duì)上述人物、地點(diǎn)、時(shí)間、事件、責(zé)任者等概念進(jìn)行元數(shù)據(jù)體系優(yōu)化,實(shí)現(xiàn)知識(shí)的關(guān)聯(lián)。
完成上述類目后,參考《中國(guó)檔案主題詞表》《民國(guó)檔案分類主題詞表》,按照5%進(jìn)行等間隔抽樣標(biāo)注,人工標(biāo)注檔案近9000件,包含635個(gè)主題類屬詞、212個(gè)文種類屬詞等,再將提取到的元數(shù)據(jù)類屬詞表植入到自然語(yǔ)言處理語(yǔ)料詞庫(kù),通過(guò)機(jī)器識(shí)別聚類,機(jī)器標(biāo)注的關(guān)鍵詞約17000個(gè),包含16824個(gè)人名、953個(gè)地名和177個(gè)事件,以此構(gòu)建中福公司檔案的知識(shí)體系。
5 歷史檔案專題知識(shí)庫(kù)的平臺(tái)建設(shè)
5.1 建設(shè)框架。歷史檔案專題知識(shí)庫(kù)以“一站、兩庫(kù)、多專題”為建設(shè)總體目標(biāo),借助本體元數(shù)據(jù)體系設(shè)計(jì),通過(guò)智能化數(shù)據(jù)挖掘和抽取進(jìn)行知識(shí)關(guān)聯(lián),最終以可視化形式流向利用者。建設(shè)框架劃分為四個(gè)模塊:專題資源層、技術(shù)融合層、知識(shí)組織層、展示應(yīng)用層,如圖1所示。
圖1 歷史檔案專題知識(shí)庫(kù)平臺(tái)建設(shè)框架
專題資源層由五個(gè)數(shù)據(jù)庫(kù)組成提供原始數(shù)據(jù)。元數(shù)據(jù)庫(kù)按照基于本體的元數(shù)據(jù)體系方案,形成結(jié)構(gòu)化的專題元數(shù)據(jù)庫(kù);目錄數(shù)據(jù)庫(kù)由本館和外部征集整理產(chǎn)生而成的電子目錄,包括181768條基礎(chǔ)目錄數(shù)據(jù);全文數(shù)據(jù)庫(kù)由雙層PDF掛接而成,這部分以文書(shū)和圖片檔案為主,包含180845條全文數(shù)據(jù)。資料成果數(shù)據(jù)庫(kù)由收集整理并實(shí)施數(shù)字化的相關(guān)研究成果組成,包括著作、論文等;多媒體數(shù)據(jù)庫(kù)包括了中福歷史檔案相關(guān)的展覽、紀(jì)錄片、文獻(xiàn)片、采訪報(bào)道等數(shù)字資源,以音視頻為主。技術(shù)融合層,通過(guò)選型先進(jìn)的J2EE架構(gòu)、CES-Coral框架、WebService技術(shù)、XML技術(shù)、OCR技術(shù)、多媒體技術(shù)、全文檢索技術(shù)、NLP技術(shù)、HTML5技術(shù)等,為知識(shí)組織和展示應(yīng)用提供強(qiáng)有力的技術(shù)支撐。知識(shí)組織層首先通過(guò)NLP技術(shù)自動(dòng)定義不同種類詞性,通過(guò)對(duì)126萬(wàn)個(gè)詞匯自動(dòng)識(shí)別,形成了395832個(gè)有效詞組或短語(yǔ),而后按照元數(shù)據(jù)方案,抽取地名、人名、同義詞等應(yīng)用詞匯或短語(yǔ)39880個(gè),形成不同類型詞庫(kù);其次,自動(dòng)計(jì)算應(yīng)用詞語(yǔ)或短語(yǔ)的權(quán)重、頻次、距離及關(guān)聯(lián)關(guān)系和語(yǔ)義關(guān)系,形成檢索和索引規(guī)則;最后進(jìn)行知識(shí)提取,即根據(jù)詞匯模型進(jìn)行數(shù)據(jù)分類,實(shí)現(xiàn)專題檔案和資料數(shù)據(jù)的自動(dòng)獲取。展示應(yīng)用層按照主題分類、知識(shí)圖譜、虛擬展廳、圖文敘事、時(shí)間軸大事記、人物介紹、在線交互等形式進(jìn)行可視化呈現(xiàn)。
5.2 系統(tǒng)功能。知識(shí)庫(kù)應(yīng)用平臺(tái)建設(shè)中引入知識(shí)工程方法,探索歷史檔案資源從“卷”“件”深入到內(nèi)容層面的知識(shí)化處理,系統(tǒng)功能上體現(xiàn)后臺(tái)數(shù)據(jù)處理的智能化和前臺(tái)利用的人文化。
后臺(tái)模塊,系統(tǒng)管理包含人員、權(quán)限、日志、訪問(wèn)等管理功能,專題數(shù)據(jù)管理包含檔案資源數(shù)據(jù)接收、基礎(chǔ)詞庫(kù)維護(hù)、數(shù)據(jù)挖掘、利用審核等功能,知識(shí)庫(kù)管理提供知識(shí)入庫(kù)審核、知識(shí)關(guān)聯(lián)、語(yǔ)義推理、知識(shí)生成、知識(shí)維護(hù)等功能,專題發(fā)布提供知識(shí)離線數(shù)據(jù)包生產(chǎn)功能,包括大事記、圖文敘事、知識(shí)圖譜等。為保證檔案資源安全,后臺(tái)部署在局域網(wǎng),中間通過(guò)單項(xiàng)離線擺渡傳輸方式更新知識(shí)包,既保證知識(shí)利用的廣泛性,又確保系統(tǒng)平臺(tái)的安全可靠。
前臺(tái)模塊,歷史檔案專題知識(shí)庫(kù)提供多維度知識(shí)服務(wù):主題分類形式,專題知識(shí)庫(kù)系統(tǒng)根據(jù)預(yù)設(shè)的主題分類提供知識(shí)查詢功能,實(shí)現(xiàn)專題檔案資源高級(jí)檢索和主動(dòng)推送;大事記形式,把與主題相關(guān)的知識(shí)按日期進(jìn)行組織排序,展現(xiàn)歷史檔案涉及的大事要事;圖文并茂形式,對(duì)圖片類歷史檔案進(jìn)行標(biāo)注,挖掘和解讀圖片檔案背后的故事;知識(shí)圖譜形式,把與主題相關(guān)的人物、事件、地點(diǎn)等要素進(jìn)行邏輯關(guān)聯(lián),在整個(gè)館藏?cái)?shù)據(jù)資源庫(kù)中進(jìn)行語(yǔ)義分析和邏輯關(guān)聯(lián)匹配相近檔案,以圖譜組織排序方式展現(xiàn),并在知識(shí)之間標(biāo)注關(guān)聯(lián)關(guān)系;眾籌翻譯形式,利用眾籌方式,借助社會(huì)力量,對(duì)歷史檔案中大量英文檔案進(jìn)行在線中文翻譯,讓利用者更易讀懂檔案原文,實(shí)現(xiàn)檔案與用戶互動(dòng)交流;人物介紹形式,借助檔案及資料,對(duì)中福公司檔案涉及的主要?dú)v史人物,按時(shí)間順序?qū)ζ渖竭M(jìn)行串聯(lián),使用戶能夠了解主要人物的主要經(jīng)歷和社會(huì)活動(dòng)。虛擬現(xiàn)實(shí)形式,對(duì)歷史檔案部分特色場(chǎng)景虛擬化,達(dá)到重現(xiàn)歷史的逼真效果。同時(shí),前臺(tái)檔案全文展示自動(dòng)調(diào)用通用瀏覽器,并通過(guò)流加載的方式實(shí)現(xiàn)邊下載邊查看的功能,提高用戶知識(shí)服務(wù)體驗(yàn)。其中,知識(shí)圖譜作為知識(shí)庫(kù)的核心,按照歷史檔案本體中的類目,在整個(gè)館藏?cái)?shù)據(jù)資源庫(kù)中進(jìn)行關(guān)聯(lián)和語(yǔ)義分析,匹配相似檔案,實(shí)現(xiàn)知識(shí)關(guān)聯(lián)。為面向最廣大用戶提供最廣泛的知識(shí)服務(wù),前臺(tái)部署在互聯(lián)網(wǎng),采用統(tǒng)一用戶認(rèn)證機(jī)制接入。
6 價(jià)值與不足
面向深度利用的中福公司檔案知識(shí)庫(kù)建設(shè)把資源整合、知識(shí)建構(gòu)、多維呈現(xiàn)作為重點(diǎn),相較一般專題知識(shí)庫(kù)單一把時(shí)間、事件、人物、地點(diǎn)、物件等要素獨(dú)立建庫(kù),知識(shí)結(jié)構(gòu)上更綜合、更豐富,能有效突出歷史檔案的知識(shí)性和專題性,是對(duì)數(shù)字技術(shù)與人文研究有機(jī)融合的有益探索。價(jià)值有三:一是資源整合上,采取文本、照片、音視頻多類型數(shù)字歷史資源的采集方式,多元整合匯集館內(nèi)外相關(guān)的數(shù)字資源,實(shí)現(xiàn)檔案、資料、研究成果等資源間的相互補(bǔ)充與引證,利用數(shù)字技術(shù)完成歷史數(shù)字資源的匯總聚合。二是知識(shí)構(gòu)建上,以現(xiàn)有數(shù)字檔案館資源庫(kù)為基礎(chǔ),通過(guò)本體構(gòu)建和數(shù)字人文技術(shù),在面向深度利用的數(shù)字記憶建構(gòu)觀下,將中福檔案及資料中的時(shí)間、人物、事件、地點(diǎn)等歷史記憶要素轉(zhuǎn)換為類目,形成基于本體的規(guī)范化元數(shù)據(jù)方案,再通過(guò)人工智能技術(shù)實(shí)例化類間關(guān)系對(duì)知識(shí)進(jìn)行關(guān)聯(lián),將碎片化記憶轉(zhuǎn)換為敘事型記憶,從而形成完整的歷史知識(shí)形態(tài);三是呈現(xiàn)展示上,引入大事記、圖文并茂、時(shí)空地圖、知識(shí)圖譜、虛擬展廳等方式,通過(guò)H5多維呈現(xiàn),有效提升檔案文化傳播能力,激活歷史檔案社會(huì)價(jià)值。
但在知識(shí)庫(kù)構(gòu)建過(guò)程中,也面臨著理論和實(shí)踐研究不夠深入,歷史檔案資源數(shù)據(jù)化任務(wù)艱巨,特別是建設(shè)實(shí)證依然偏少,沒(méi)有成熟的市場(chǎng)產(chǎn)品,相關(guān)標(biāo)準(zhǔn)規(guī)范仍然缺位,人工智能技術(shù)快速迭代等問(wèn)題,影響了歷史檔案專題知識(shí)庫(kù)的建設(shè)質(zhì)量,有待后續(xù)繼續(xù)完善。
*本文系國(guó)家檔案局科技項(xiàng)目“面向深度利用的歷史檔案資源專題知識(shí)庫(kù)構(gòu)建技術(shù)與方法研究”(編號(hào):2021-X-30)階段性研究成果。
參考文獻(xiàn):
[1]徐擁軍.“檔案知識(shí)管理”系統(tǒng)構(gòu)建的原則與策略[J].檔案學(xué)通訊,2009(02):58-62.
[2]牛力,劉慧琳,高晨翔.數(shù)字記憶視角下的學(xué)術(shù)名人知識(shí)庫(kù)研究[J/OL].情報(bào)理論與實(shí)踐.
[3]張斌,郝琦,魏扣.基于檔案知識(shí)庫(kù)的檔案知識(shí)服務(wù)研究[J].檔案學(xué)通訊.
[4]陸銘.基于本體的檔案館藏資源語(yǔ)義知識(shí)庫(kù)構(gòu)建研究[D].吉林大學(xué),2019.
[5]孫振嘉,汪澤,鄧君.數(shù)字人文視域下歷史檔案知識(shí)組織研究——以五四運(yùn)動(dòng)為例[J],蘭臺(tái)世界,2021(12)
[6]錢毅.檔案數(shù)據(jù)庫(kù)建設(shè)中存在的問(wèn)題及解決思路[J],檔案學(xué)通訊,2006(04)
[7]孔繁勝.知識(shí)庫(kù)系統(tǒng)原理[M].杭州:浙江大學(xué)出版社 ,2000:10.
[8]王曉光.“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿[M].武漢:武漢大學(xué)出版社,2010:5-8.
[9]楊建林.基于本體的文本信息檢索研究[J].情報(bào)理論與實(shí)踐,2006(05):598-601.
[10]沈立力,朱蓓琳,姜鵬.基于本體的民國(guó)文學(xué)專題數(shù)據(jù)庫(kù)知識(shí)組織研究.
[11]張文靜,劉婕,徐永全.知識(shí)組織和知識(shí)服務(wù)的基本理論和基本方法[J].商情,2013(31)
[12]梁繼紅.走向文本的歷史檔案數(shù)字整理:歷史追溯與時(shí)代轉(zhuǎn)型(下)[J],檔案學(xué)通訊,2022(01)
(作者單位:河南省檔案館 李寶玲,副館長(zhǎng);李珂,處長(zhǎng),副研究館員;郭立鑫,科員,館員 來(lái)稿日期:2022-12-20)
cn/hdjlpt/yjzj/result/12673.
[27]上海市規(guī)劃和自然資源局.上海市城市建設(shè)檔案館通過(guò)微信公眾號(hào)提供檔案利用咨詢服務(wù)[EB/OL].[2020-8-5]https://ghzyj.sh.gov.cn/gzdt/20200805/56e7d4779353464682524f160002c9bd.html.
[28]托馬斯·R·戴伊.理解公共政策[M].北京:中國(guó)人民大學(xué)出版社,2010.
(作者單位:魏楠,鄭州航空工業(yè)管理學(xué)院信息管理學(xué)院;張笑涵,愛(ài)丁堡大學(xué)社會(huì)與政治科學(xué)學(xué)院 來(lái)稿日期:2022-02-20 )