張強(qiáng) 高穎 劉飛等
關(guān)鍵詞:知識(shí)重組;紅色歷史人物;知識(shí)圖譜;智能服務(wù);GIS技術(shù)
DOI:10.3969/j.issn.1008-0821.2023.07.010
[中圖分類號(hào)]G250;K928.6 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2023)07-0096-13
中國(guó)共產(chǎn)黨的百年奮斗史就是一部紅色文化生成、發(fā)展、提煉的歷史。利用好紅色資源,對(duì)于學(xué)習(xí)黨史、賡續(xù)精神血脈、傳承紅色基因至關(guān)重要。2021年2月1日,中共中央決定在全黨開(kāi)展黨史學(xué)習(xí)教育,習(xí)近平總書(shū)記指出:在黨史學(xué)習(xí)教育中,要充分運(yùn)用紅色資源,用好紅色資源,傳承紅色基因,把紅色江山世世代代傳下去。在《關(guān)于實(shí)施中華優(yōu)秀傳統(tǒng)文化傳承發(fā)展工程的意見(jiàn)》《關(guān)于實(shí)施革命文物保護(hù)利用工程(2018-2022年)的意見(jiàn)》等重要文件中,均對(duì)如何加強(qiáng)紅色文化資源的數(shù)字化建設(shè)作出了重要指示,旨在通過(guò)數(shù)字化技術(shù)賦能紅色文化資源的可持續(xù)性保護(hù)與創(chuàng)新性利用,真正讓紅色文化活起來(lái),傳下去。紅色歷史人物資源作為紅色文化資源的重要組成部分,推動(dòng)紅色歷史人物資源的數(shù)字化組織、存儲(chǔ)、應(yīng)用,對(duì)了解紅色歷史人物、開(kāi)展黨史學(xué)習(xí)教育、弘揚(yáng)紅色文化精神具有重要的理論意義和實(shí)踐價(jià)值。
近年來(lái),數(shù)字技術(shù)在人文領(lǐng)域得到了廣泛應(yīng)用,深刻改變了紅色歷史人物資源的數(shù)字化組織、存儲(chǔ)、應(yīng)用的方式和方法。知識(shí)圖譜作為當(dāng)前最為常見(jiàn)的一種知識(shí)表示、存儲(chǔ)、推理、應(yīng)用的技術(shù)手段,為數(shù)據(jù)從孤立轉(zhuǎn)向關(guān)聯(lián)提供了助力,在眾多研究領(lǐng)域都得到了廣泛應(yīng)用。將其應(yīng)用于紅色歷史人物資源上,一方面,為紅色歷史人物資源的知識(shí)關(guān)聯(lián)與可視化呈現(xiàn)提供了可能;另一方面,為紅色歷史人物資源的智能服務(wù)與知識(shí)發(fā)現(xiàn)提供了新的方式,進(jìn)一步提高了紅色歷史人物資源的知識(shí)服務(wù)效果。同時(shí),GIS技術(shù)在人文科學(xué)中的應(yīng)用愈加廣泛,解決了傳統(tǒng)人文科學(xué)研究中重“時(shí)”輕“地”的研究現(xiàn)狀。紅色歷史人物的軌跡與我黨的偉大革命斗爭(zhēng)息息相關(guān),將GIS技術(shù)應(yīng)用于紅色歷史人物的資源上,可直觀展現(xiàn)人物的人生軌跡,對(duì)了解紅色人物的歷史提供了新的視角。
為探究上述問(wèn)題,本研究利用知識(shí)圖譜技術(shù),探究紅色歷史人物資源的數(shù)字化組織、存儲(chǔ)與應(yīng)用的方式和方法,以實(shí)現(xiàn)紅色歷史人物的知識(shí)關(guān)聯(lián)。同時(shí),引入GIS技術(shù),以實(shí)現(xiàn)紅色歷史人物的軌跡展示。最后設(shè)計(jì)了紅色歷史人物智能服務(wù)的原型系統(tǒng),為用戶查詢和信息交互提供便利。
1相關(guān)研究
聚焦本研究的研究問(wèn)題和研究?jī)?nèi)容來(lái)看,相關(guān)的研究主要有領(lǐng)域知識(shí)圖譜構(gòu)建研究、時(shí)空軌跡研究、基于知識(shí)圖譜的智能問(wèn)答研究。
1.1數(shù)字人文領(lǐng)域知識(shí)圖譜構(gòu)建研究
知識(shí)圖譜作為一種有效的知識(shí)組織和存儲(chǔ)方法,在各領(lǐng)域都得到了廣泛應(yīng)用,當(dāng)前的數(shù)字人文研究大多以項(xiàng)目制開(kāi)展,因此,在知識(shí)圖譜構(gòu)建過(guò)程中主要采用自頂向下的構(gòu)建方式,即先構(gòu)建領(lǐng)域Sche-ma或本體模型,再導(dǎo)入實(shí)例數(shù)據(jù)。如針對(duì)口述檔案資源,王阮等通過(guò)先構(gòu)建口述記憶資源本體模式層,再以國(guó)家圖書(shū)館中東北抗日聯(lián)軍的老戰(zhàn)士口述記憶資源來(lái)構(gòu)建口述記憶資源的知識(shí)圖譜,并進(jìn)行了多維的知識(shí)發(fā)現(xiàn)研究。針對(duì)文物信息資源,高勁松等通過(guò)構(gòu)建可移動(dòng)文物的本體模型,并基于該本體構(gòu)建了可移動(dòng)文物的知識(shí)圖譜,最終實(shí)現(xiàn)了可移動(dòng)文物的關(guān)聯(lián)數(shù)據(jù)發(fā)布。針對(duì)人物信息資源,楊海慈等基于中國(guó)歷代人物傳記資料庫(kù),通過(guò)構(gòu)建宋代的學(xué)術(shù)師承本體來(lái)開(kāi)發(fā)宋代學(xué)術(shù)師承的知識(shí)圖譜,并集成了RelFinder可視化工具來(lái)檢索和展示知識(shí)圖譜中的實(shí)體關(guān)系。具體到本文的研究對(duì)象來(lái)看,紅色歷史人物是指參加過(guò)革命實(shí)踐,并為革命做出過(guò)貢獻(xiàn)的革命人物,且紅色人物常常會(huì)與其他紅色文化資源交叉融合。劉偉麗使用七步法構(gòu)建中共一大人物的本體模型,利用人工處理的辦法獲取中共一大人物數(shù)據(jù)構(gòu)建中共一大人物的知識(shí)圖譜。張?jiān)浦械韧ㄟ^(guò)構(gòu)建紅色歷史人物的Schema和問(wèn)答服務(wù)框架,并以老上大歷史人物資源半自動(dòng)化地搭建了紅色歷史人物的知識(shí)圖譜。本研究所需構(gòu)建的知識(shí)圖譜涉及人物、事件、機(jī)構(gòu)等多維度,上述研究為本研究中的知識(shí)圖譜構(gòu)建提供了研究思路和基礎(chǔ)。
1.2時(shí)空軌跡研究
時(shí)空數(shù)據(jù)是包含時(shí)間、空間兩種屬性的數(shù)據(jù),傳統(tǒng)的人文研究多是基于時(shí)間維度而忽略了空間維度的信息。近年來(lái),以GIS技術(shù)為代表的地理信息方法廣泛介入到數(shù)字人文的研究中,為數(shù)字人文視角下的空間研究提供了極大助力。文學(xué)界一般稱之為文學(xué)地理學(xué),而在歷史學(xué)中一般稱之為歷史地理信息,張瑋等提出了一種基于文本關(guān)聯(lián)與時(shí)空可視化結(jié)合來(lái)研究宋詞的新視角,讓人文學(xué)者可以從多維度的視角來(lái)探析宋詞文本的語(yǔ)義信息。位通等以《朱熹年譜長(zhǎng)編》為例,將時(shí)間和空間信息重組為一維信息,并基于GIS技術(shù)開(kāi)發(fā)前端可視化平臺(tái),以便人文學(xué)者從時(shí)間、空間兩個(gè)維度分析年譜信息。黃鵬程等以《晚晴簃詩(shī)匯》為例,探究了清代詩(shī)人的地理分布差異與時(shí)空維度的關(guān)系特性。湯萌等首先利用民國(guó)時(shí)期的測(cè)繪地圖實(shí)現(xiàn)經(jīng)緯度的信息匹配,后探究了民間文書(shū)內(nèi)容在空間分布上的可視化路徑。在開(kāi)源平臺(tái)的構(gòu)建工作方面,主要有王兆鵬等開(kāi)發(fā)的“唐宋文學(xué)編年地圖”,其提供了對(duì)文學(xué)歷史人物的時(shí)空一體化展示,可從整體上探究人物的時(shí)空軌跡,但并不支持用戶的自定義使用。浙江大學(xué)學(xué)術(shù)地圖平臺(tái)有眾多以用戶自定義數(shù)據(jù)來(lái)制作的人物軌跡圖,但仍然集中于全局展示上,無(wú)法展示具體的人物信息??梢?jiàn),目前GIS引入數(shù)字人文領(lǐng)域的工作更多的是數(shù)據(jù)可視化,仍需要改進(jìn)達(dá)到數(shù)據(jù)故事化的效果。
1.3基于知識(shí)圖譜的智能問(wèn)答研究
知識(shí)圖譜自提出之日起就被作為提供智能搜索服務(wù)的知識(shí)庫(kù),基于知識(shí)圖譜的智能問(wèn)答是當(dāng)前智能問(wèn)答的主要研究領(lǐng)域。而根據(jù)知識(shí)庫(kù)內(nèi)容的不同,智能問(wèn)答的方法可分為如下4類:①基于模板規(guī)則的問(wèn)答方法,主要通過(guò)構(gòu)造模板參數(shù)和模板庫(kù)來(lái)返回用戶的問(wèn)題,如汽車領(lǐng)域的智能問(wèn)答系統(tǒng),該方法的缺點(diǎn)是需要大量的人工來(lái)構(gòu)造問(wèn)題模板和相應(yīng)的答案,當(dāng)問(wèn)題與已有模板完全匹配時(shí)效果較好;②基于語(yǔ)義解析的問(wèn)答方法,主要通過(guò)自然語(yǔ)言處理技術(shù)來(lái)解析問(wèn)題文本,通過(guò)分詞、詞性標(biāo)注、句法分析等提取文本中的實(shí)體或關(guān)系,通過(guò)查詢返回目標(biāo)實(shí)體或關(guān)系,如館藏文物資源智能問(wèn)答系統(tǒng)。該方法主要用在小規(guī)模數(shù)據(jù)集上,且問(wèn)題的領(lǐng)域性強(qiáng)時(shí)效果較好;③基于深度學(xué)習(xí)的問(wèn)答方法,該方法可利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來(lái)捕捉路徑信息,從而預(yù)測(cè)實(shí)體之間的隱藏關(guān)系,如中文醫(yī)療問(wèn)答匹配系統(tǒng)。該方法需要標(biāo)注大量的訓(xùn)練數(shù)據(jù),主要用在具有大規(guī)模數(shù)據(jù)集上;④多種方法的融合,如融合模板匹配和深度學(xué)習(xí)的孔子世家譜的知識(shí)問(wèn)答系統(tǒng)。上述基于不同知識(shí)庫(kù)內(nèi)容采用的問(wèn)答方法,為本研究的智能問(wèn)答服務(wù)提供了借鑒意義。
綜上所述,目前在紅色歷史人物資源的相關(guān)研究主要集中于知識(shí)組織與存儲(chǔ),缺乏了知識(shí)服務(wù)功能,主要存在如下不足:一是紅色歷史人物資源來(lái)源廣,結(jié)構(gòu)復(fù)雜,目前的領(lǐng)域知識(shí)圖譜構(gòu)建的數(shù)據(jù)源多為結(jié)構(gòu)化數(shù)據(jù)并采用人工方式導(dǎo)入,當(dāng)數(shù)據(jù)集較多時(shí)無(wú)法勝任。二是在智能問(wèn)答上,要么需要大量的人工構(gòu)建模板,要么需要大量的真實(shí)問(wèn)答數(shù)據(jù)集合,而針對(duì)紅色歷史人物這一特殊領(lǐng)域都較難適用。三是在智能服務(wù)方面,或是從知識(shí)圖譜的靜態(tài)關(guān)聯(lián)展示人手,或是從時(shí)空維度的動(dòng)態(tài)軌跡展示人手,鮮有將二者結(jié)合的思路,無(wú)法達(dá)到“動(dòng)靜結(jié)合”的效果。且大多仍停留在學(xué)術(shù)研究上,未能構(gòu)建出智能服務(wù)的原型系統(tǒng),無(wú)法直接供用戶使用?;诖?,本研究將結(jié)合上述研究的不足,力圖解決相關(guān)問(wèn)題。
2研究框架
在對(duì)紅色歷史人物資源重組梳理的基礎(chǔ)上,參考了已有關(guān)于領(lǐng)域知識(shí)圖譜構(gòu)建的流程,本研究構(gòu)建了如圖1所示的紅色歷史人物知識(shí)重組與智能服務(wù)研究框架,主要包括本體考察、數(shù)據(jù)來(lái)源、知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)服務(wù)6個(gè)部分。
2.1本體考察與數(shù)據(jù)來(lái)源
此部分主要是結(jié)合本研究的研究對(duì)象和內(nèi)容來(lái)對(duì)目前學(xué)界已有的成熟本體進(jìn)行考察,以便更好地選擇復(fù)用本體模型。在此之前,還需要充分考慮領(lǐng)域?qū)<乙庖?jiàn),厘清相關(guān)的概念類和關(guān)系,避免產(chǎn)生歧義的類和關(guān)系,進(jìn)而構(gòu)建本研究的本體模型,以便有效地對(duì)紅色歷史人物進(jìn)行知識(shí)表示。在本體考察層通過(guò)復(fù)用已有本體后,構(gòu)建了紅色歷史人物的知識(shí)表示模型,還需要根據(jù)數(shù)據(jù)來(lái)源層的數(shù)據(jù)特點(diǎn)導(dǎo)入相應(yīng)的案例數(shù)據(jù)并更新本體。本研究的數(shù)據(jù)來(lái)源主要包括各省市黨史方志網(wǎng)、網(wǎng)絡(luò)百科資源、紙質(zhì)紅色檔案資源等。首先,將從網(wǎng)絡(luò)上爬取的紅色歷史人物資源和人工抽取的紙質(zhì)紅色檔案資源存入MySQL關(guān)系型數(shù)據(jù)庫(kù)中,然后,將數(shù)據(jù)庫(kù)中保存的數(shù)據(jù)格式轉(zhuǎn)化為鍵值對(duì)形式的JSON數(shù)據(jù),以便后續(xù)的知識(shí)抽取工作。同時(shí),將爬取到的所有紅色歷史人物圖片資源以人物名稱命名保存在文件夾中,因圖片資源無(wú)需像文本資源再經(jīng)過(guò)抽取和融合步驟,故直接應(yīng)用于后續(xù)的知識(shí)存儲(chǔ)中。
2.2知識(shí)抽取
知識(shí)抽取是指從多源異構(gòu)的數(shù)據(jù)中抽取出研究所需要的各類信息形成知識(shí)進(jìn)行存儲(chǔ)。根據(jù)前文所構(gòu)建的本體模型所需求的信息,主要抽取出紅色歷史人物的屬性信息、實(shí)體信息、關(guān)系信息。屬性信息主要包括對(duì)人物、時(shí)間、空間、事件、機(jī)構(gòu)等概念類的描述,實(shí)體信息則是某一實(shí)例的具體信息,如具體的人物姓名、軍銜、出生時(shí)間、出生地點(diǎn)、參與戰(zhàn)役等信息。關(guān)系抽取主要是以三元組的形式返回抽取到的節(jié)點(diǎn)名稱和關(guān)系,本研究采用結(jié)合神經(jīng)網(wǎng)絡(luò)和語(yǔ)法規(guī)則的方式抽取文本中的關(guān)系,針對(duì)多源異構(gòu)的數(shù)據(jù)分別采用恰當(dāng)?shù)姆椒?,可以最大化地提取出三元組知識(shí),為知識(shí)圖譜數(shù)據(jù)層提供高質(zhì)量的數(shù)據(jù)。
2.3知識(shí)融合
在獲取到新知識(shí)后,還需要對(duì)其進(jìn)行整合處理,以消除歧義和矛盾。主要包括共指消解和語(yǔ)義消歧兩種,共指消解是指某些實(shí)體或關(guān)系可能會(huì)有多種表達(dá)方式,語(yǔ)義消歧是指某個(gè)特指的名稱可能對(duì)應(yīng)多個(gè)不同的實(shí)體或關(guān)系。如人物的姓名、別名、化名等不盡相同,但是所指的實(shí)體是一致的,也有可能不同的人物所用的化名是一樣的。此外,在時(shí)間實(shí)體的表述上會(huì)存在共指現(xiàn)象,如“民國(guó)”二十八年和1939年實(shí)際為同一年。在關(guān)系的表述上同樣也存在共指現(xiàn)象,如參與事件和參加事件的本質(zhì)含義是一樣的。本研究選擇結(jié)合人工和文本相似度的方式來(lái)進(jìn)行知識(shí)融合,人工的方式主要處理領(lǐng)域性較強(qiáng)的實(shí)體歧義,文本相似度用來(lái)處理常規(guī)類型的相似實(shí)體和關(guān)系。在文本相似度計(jì)算方法中,本著簡(jiǎn)潔易用的原則選擇了基于余弦距離的相似度度量方法。
2.4知識(shí)存儲(chǔ)
經(jīng)過(guò)融合之后的知識(shí)實(shí)體需要先進(jìn)行質(zhì)量評(píng)估之后才能加入到知識(shí)庫(kù)中,融合之后的實(shí)體、屬性和關(guān)系用RDF框架來(lái)表示。RDF(Resource Descrip-tion Framework)在形式上表示為SPO(Subject Predi-cate Object)三元組,RDF由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示實(shí)體或?qū)傩?,邊表示?shí)體間或?qū)嶓w和屬性之間的關(guān)系。RDF常用的序列化方式有:RDF/XML、N-Triples、Turtle、RDFa、JSON-LD等。本研究選擇JSON-LD(JSON for Linking Data)以鍵值對(duì)的形式來(lái)存儲(chǔ)RDF數(shù)據(jù),再通過(guò)調(diào)用Python語(yǔ)言中用來(lái)連接Ne04J圖數(shù)據(jù)庫(kù)的Py2neo包,將JSON格式的三元組知識(shí)存入到圖數(shù)據(jù)庫(kù)Neo4J中,主要原因在于,基于JSON-LD格式的三元組知識(shí)在本研究構(gòu)建的Web環(huán)境中兼容性和互操作性更好。同時(shí)CIS系統(tǒng)所識(shí)別的數(shù)據(jù)格式為CSV文件,還需要對(duì)JSON格式的文件利用Python語(yǔ)言中用于數(shù)據(jù)處理的Pandas包,將其轉(zhuǎn)化為CSV格式的文件,再將其導(dǎo)入到GIS中,在底圖基礎(chǔ)上疊加數(shù)據(jù)層來(lái)生成人物的軌跡路線圖。由此,就完成了靜態(tài)的知識(shí)關(guān)聯(lián)和動(dòng)態(tài)的軌跡展示。
2.5知識(shí)服務(wù)
知識(shí)存儲(chǔ)后的根本目標(biāo)是為了更好地組織、管理和使用知識(shí),因此,在完成知識(shí)存儲(chǔ)的基礎(chǔ)上還需要考慮如何服務(wù)用戶。基于此,本研究構(gòu)建了紅色歷史人物的智能服務(wù)系統(tǒng),其包含兩種智能服務(wù)的形式,一類是關(guān)于紅色歷史人物知識(shí)的檢索和人物生平軌跡的檢索;另一類是關(guān)于紅色歷史人物知識(shí)的智能問(wèn)答。在知識(shí)檢索系統(tǒng)上,主要通過(guò)名稱匹配來(lái)返回相關(guān)的圖譜知識(shí)和人物軌跡;而在智能問(wèn)答系統(tǒng)上主要采用自然語(yǔ)言處理技術(shù)將問(wèn)題語(yǔ)句進(jìn)行分詞和句法分析.通過(guò)識(shí)別問(wèn)句中的實(shí)體和關(guān)系,再調(diào)用Py2neo庫(kù)在圖數(shù)據(jù)庫(kù)Neo4j中查詢目標(biāo)實(shí)體并返回結(jié)果,同時(shí),涉及人物實(shí)體的答案還會(huì)返回該人物的圖片資源。
3實(shí)證研究
3.1本體考察與構(gòu)建
紅色歷史人物這一特殊身份特征,決定了在構(gòu)建人物本體時(shí)需要重點(diǎn)關(guān)注與紅色和歷史相關(guān)聯(lián)的語(yǔ)義信息,如軍銜、戰(zhàn)役、軍隊(duì)等實(shí)體及其關(guān)系。為了更好地對(duì)紅色歷史人物知識(shí)進(jìn)行全面簡(jiǎn)潔有效地表達(dá),并充分考慮到知識(shí)服務(wù)與知識(shí)庫(kù)構(gòu)建的匹配程度,采用咨詢專家意見(jiàn)和問(wèn)卷調(diào)查結(jié)合的方式,確定紅色歷史人物的關(guān)鍵概念和關(guān)系。專家意見(jiàn)可以保證本研究所構(gòu)建本體模型的全面性和準(zhǔn)確性,而面對(duì)普通用戶的問(wèn)卷調(diào)查可以了解到關(guān)于紅色歷史人物知識(shí)的聚焦點(diǎn),有利于后續(xù)知識(shí)服務(wù)的開(kāi)展。根據(jù)以上需求,在本體構(gòu)建時(shí)主要考察了相關(guān)領(lǐng)域較為知名的社會(huì)網(wǎng)絡(luò)人物本體FOAF[23]、上圖名人手稿檔案庫(kù)、國(guó)際文獻(xiàn)工作委員會(huì)的概念參考模型CIDOCCRM。
根據(jù)對(duì)上述本體的考察和分析,在充分考慮復(fù)用已有本體的基礎(chǔ)上,本研究復(fù)用了人物類(foaf:Person)、地點(diǎn)類(E53: Place)、事件類(crm:E-vent),同時(shí)采用了自定義thf( red historical figures)來(lái)作為本體命名空間,命名了時(shí)間類(thf:Time)、機(jī)構(gòu)類(foaf:Organization)和資源類(thf: Resource),共計(jì)6個(gè)類別來(lái)滿足紅色歷史人物類別描述的需要。其中,時(shí)間類的描述還包括具體的某一點(diǎn)的時(shí)間點(diǎn)和只能宏觀確定的某一時(shí)間段,因此,時(shí)間類(thf:Time)下設(shè)立了抽象時(shí)間類(TimeAbstract)和具體時(shí)間類(TimeSpecific)。最終構(gòu)建的本體模型共有6大類,其中,人物類與時(shí)間類下又分為兩個(gè)子類。
1)人物類
人物類(foaf:Person)是本研究的主體研究對(duì)象即紅色歷史人物本身,紅色歷史人物除了參與革命斗爭(zhēng)的軍人外,還有如“七一勛章”獲得者馬毛姐這樣為紅色革命作出突出貢獻(xiàn)的人民群眾。因此,人物類又分為軍人類(thf: Soldier)與非軍人類(thf:No-Soldier)兩個(gè)子類,根據(jù)人物在本研究分析的地位將其作為本體構(gòu)建的核心類,與其他五大類均存在對(duì)象屬性關(guān)系,人物類與人物類也存在著諸如父母、子女、兄弟、同學(xué)、戰(zhàn)友等對(duì)象關(guān)系。人物類主要的數(shù)據(jù)屬性是描述了代表紅色歷史人物的核心信息,如:姓名、別名、化名等,其中,軍人類相對(duì)于非軍人類有特殊的數(shù)據(jù)屬性,如軍銜等。關(guān)于描述人物的時(shí)間、地點(diǎn)、事件、機(jī)構(gòu)等信息,通過(guò)類與類間的對(duì)象關(guān)系與其余類下數(shù)據(jù)屬性進(jìn)行關(guān)聯(lián),以使得邏輯更為清晰。
2)時(shí)間類
時(shí)間類(thf:Time)指的是人物、機(jī)構(gòu)、事件及資源具有的時(shí)間信息,子類包括抽象時(shí)間類(thf:TimeAbstract)和具體時(shí)間類(thf: TimeSpecific)。抽象時(shí)間類下的數(shù)據(jù)屬性主要是無(wú)法具體到某年的時(shí)代信息,如20世紀(jì)30年代等,具體時(shí)間類下的數(shù)據(jù)屬性一般為具體到年、月、日的精確時(shí)間信息,如1921年7月1日等。
3)地點(diǎn)類
地點(diǎn)類(E53:Place)與時(shí)間類相似,指的是人物、機(jī)構(gòu)、事件等具有的空間信息均歸于地點(diǎn)類下。與其余類之間通過(guò)對(duì)象屬性關(guān)聯(lián),如人物的出生地點(diǎn)、事件的發(fā)生地點(diǎn)、機(jī)構(gòu)的成立地點(diǎn)等,而類本身具有的數(shù)據(jù)屬性主要是舊時(shí)地點(diǎn)名稱、現(xiàn)代地點(diǎn)名稱、經(jīng)緯度信息等。
4)機(jī)構(gòu)類
機(jī)構(gòu)類(thf:lnstitution)是指紅色歷史人物在革命戰(zhàn)斗期間所創(chuàng)建、組織或參加過(guò)的重要組織和軍隊(duì)。一般與人物類、時(shí)間類、地點(diǎn)類和事件類間形成對(duì)象屬性關(guān)系,機(jī)構(gòu)類之間也存在機(jī)構(gòu)改編和下轄機(jī)構(gòu)的對(duì)象關(guān)系。機(jī)構(gòu)類的數(shù)據(jù)屬性為組織名稱和軍隊(duì)名稱。
5)事件類
事件類(crm:Event)是指紅色歷史人物在革命戰(zhàn)斗期間經(jīng)歷的重大事件,是構(gòu)成人物相關(guān)知識(shí)的核心要素,與人物類、時(shí)間類、地點(diǎn)類之間均存在對(duì)象屬性關(guān)系,如事件的發(fā)生時(shí)間、發(fā)生地點(diǎn)、結(jié)束時(shí)間等。事件類的數(shù)據(jù)屬性為事件內(nèi)容。
6)資源類
資源類(thf:Resource)是紅色歷史人物相關(guān)知識(shí)的資源類型,多源異構(gòu)的數(shù)據(jù)源就決定了紅色歷史人物具有多種多樣的形式化信息,用來(lái)表達(dá)人物類的資源信息。數(shù)據(jù)屬性主要包括影像資源、圖片資源、文本資源等。
概念類定義之后需要明確類與類之間的對(duì)象屬性,以梳理出人物與人物、人物與時(shí)間、人物與地點(diǎn)、人物與事件、人物與機(jī)構(gòu)、事件與時(shí)間、事件與地點(diǎn)、機(jī)構(gòu)與時(shí)間的關(guān)系等。部分概念類的對(duì)象屬性信息如表1所示。
類與類之間的對(duì)象屬性從本體層定義了概念之間的關(guān)系,豐富了概念類在關(guān)系和特征方面的具體描述,而部分核心類除了具有類間的對(duì)象屬性以外,還具有表達(dá)自身特征的數(shù)據(jù)屬性,部分?jǐn)?shù)據(jù)屬性如表2所示。
最終,本研究構(gòu)建的紅色歷史人物知識(shí)本體模型共有6個(gè)核心類、4個(gè)子類、24個(gè)對(duì)象屬性和19個(gè)數(shù)據(jù)屬性,設(shè)計(jì)出的紅色歷史人物的本體模型如圖2所示。實(shí)線表示類與類之間的對(duì)象屬性關(guān)系,虛線表示核心類與本身具有的數(shù)據(jù)屬性關(guān)系。
3.2數(shù)據(jù)來(lái)源
本研究選取了1955—1965年被授予將軍軍銜的皖籍紅色歷史人物進(jìn)行實(shí)證研究。主要原因在于,安徽省作為著名的中國(guó)紅色革命策源地和人民軍隊(duì)的發(fā)源地,涌現(xiàn)了大量為中華人民共和國(guó)做出重大貢獻(xiàn)的人物。而開(kāi)國(guó)將軍作為其中的典型代表,歷史貢獻(xiàn)卓越,且人物之間的關(guān)系較為豐富,背后的知識(shí)價(jià)值較高。因此,從歷史地位和數(shù)據(jù)來(lái)源綜合考慮,最終以團(tuán)隊(duì)搜集到的128名皖籍開(kāi)國(guó)將軍為研究對(duì)象以滿足本研究的需求。利用自編Python爬蟲(chóng)程序分別爬取了安徽省及下屬16個(gè)省轄市的黨史方志網(wǎng)有關(guān)上述人物的內(nèi)容,并以爬取的百度百科人物介紹資源和人工抽取紅色紙質(zhì)檔案資源作為補(bǔ)充數(shù)據(jù)來(lái)源,同時(shí),爬取了百度百科的人物圖像作為人物的圖片資源,以便后續(xù)原型系統(tǒng)中的人物呈現(xiàn)。爬取黨史方志網(wǎng)的部分Python代碼如圖3所示。
3.3知識(shí)抽取與融合
3.3.1知識(shí)抽取
本研究主要基于句法規(guī)則和神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行知識(shí)抽取。知識(shí)圖譜存儲(chǔ)是以三元組的形式,因此,本研究主要是對(duì)屬性和關(guān)系進(jìn)行抽取,抽取時(shí)會(huì)一并將實(shí)體抽取出來(lái)。句法規(guī)則的三元組抽取,調(diào)用了哈工大語(yǔ)言云平臺(tái)LTP(Language Technology Platform)進(jìn)行句法規(guī)則抽取,形成XML文件后進(jìn)行解析。神經(jīng)網(wǎng)絡(luò)的三元組抽取,調(diào)用了Jiagu自然語(yǔ)言處理工具,該工具提供了知識(shí)圖譜的關(guān)系抽取功能,以BiLSTM模型為基礎(chǔ),通過(guò)大規(guī)模的中文語(yǔ)料庫(kù)訓(xùn)練而成,其中大部分為百科語(yǔ)料。因此,百科資源主要用神經(jīng)網(wǎng)絡(luò)進(jìn)行抽取,而黨史方志網(wǎng)的資源主要通過(guò)句法規(guī)則來(lái)抽取。兩種方法提取的結(jié)果示例分別如圖4、圖5所示。
3.3.2知識(shí)融合
經(jīng)過(guò)知識(shí)抽取之后的部分實(shí)體和關(guān)系可能會(huì)存在歧義現(xiàn)象,如實(shí)體李克農(nóng)和李峽公實(shí)為同一人,這樣的實(shí)體類型無(wú)法通過(guò)常規(guī)的算法進(jìn)行融合,即算法判斷的相似性程度無(wú)法與實(shí)際情況匹配,因此,針對(duì)實(shí)體上存在的歧義,主要通過(guò)人工構(gòu)建自定義的同義詞詞典來(lái)進(jìn)行融合。而在關(guān)系名稱上則選擇了余弦相似度,并結(jié)合哈工大同義詞詞林(擴(kuò)展版)來(lái)計(jì)算關(guān)系名稱的近似程度,余弦相似度的計(jì)算公式如式(1)所示。
參考已有研究,一般認(rèn)為相似度similarity取值超過(guò)0.8時(shí)就認(rèn)為a、b兩個(gè)關(guān)系名稱屬于同一關(guān)系,并予以統(tǒng)一替換。
3.4知識(shí)存儲(chǔ)
本研究使用Neo4J圖數(shù)據(jù)庫(kù)來(lái)進(jìn)行知識(shí)的存儲(chǔ),Neo4J作為一種圖形式的存儲(chǔ)模式,與傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫(kù)相比,具有更好的知識(shí)關(guān)聯(lián)、知識(shí)查詢與知識(shí)推理的能力。Neo4J數(shù)據(jù)庫(kù)中由標(biāo)簽、節(jié)點(diǎn)、關(guān)系及節(jié)點(diǎn)屬性4類要素組成,其中將類與標(biāo)簽、實(shí)例與節(jié)點(diǎn)、對(duì)象屬性與關(guān)系、數(shù)據(jù)屬性與節(jié)點(diǎn)屬性一一對(duì)應(yīng),由此就完成了紅色歷史人物的本體模式層到圖譜數(shù)據(jù)層的匹配映射。如人物類與時(shí)間類組成的對(duì)象屬性:{洪學(xué)智,出生時(shí)間,1913年2月2日},標(biāo)簽分別為人物類與時(shí)間類,實(shí)例分別為“洪學(xué)智”與“1913年2月2日”,關(guān)系為“出生時(shí)間”。
本研究采用了Neo4J桌面版Neo4J(1.4.15),圖數(shù)據(jù)庫(kù)版本為4.4.5,JDK的依賴版本為jdk-11.0.14。經(jīng)過(guò)知識(shí)融合步驟完成了三元組數(shù)據(jù)的整理后,利用Python語(yǔ)言的第三方包Py2neo調(diào)用Cypher語(yǔ)句來(lái)將三元組數(shù)據(jù)存儲(chǔ)到圖數(shù)據(jù)庫(kù)Neo4J中。最終,本研究構(gòu)建了由1855個(gè)節(jié)點(diǎn)和3523條邊組成的知識(shí)圖譜,如圖6所示(為使圖片美觀,對(duì)部分節(jié)點(diǎn)進(jìn)行了隱藏)。
在知識(shí)存儲(chǔ)環(huán)節(jié),還需要將JSON格式的數(shù)據(jù)文件轉(zhuǎn)化為GIS可識(shí)別的CSV文件,CSV格式文件主要以逗號(hào)來(lái)分割實(shí)體信息,以表頭充當(dāng)本體中的類。GIS中需要經(jīng)緯度信息才能生成點(diǎn)和路徑,本研究在經(jīng)緯度信息的確定上使用了百度地圖的經(jīng)緯度提取器。GIS底圖則采用了中華人民共和國(guó)自然資源部提供的天地圖(審圖號(hào):GS( 2022) 2124號(hào)),通過(guò)調(diào)用天地圖的API接口并在底圖層上疊加數(shù)據(jù)層來(lái)完成時(shí)空軌跡的存儲(chǔ)與展示。
3.5知識(shí)服務(wù)
在多維度重組了紅色歷史人物的知識(shí)的基礎(chǔ)上,本研究構(gòu)建了紅色歷史人物智能服務(wù)的原型系統(tǒng)。本系統(tǒng)采用了B/S網(wǎng)絡(luò)結(jié)構(gòu)模式,在開(kāi)發(fā)模式上使用了前后端分離技術(shù)。前端采用了經(jīng)典的HTML、CSS、JavaScript來(lái)完成對(duì)網(wǎng)頁(yè)端的頁(yè)面布局、格式渲染和功能交互。后端采用了圖數(shù)據(jù)庫(kù)Neo4J和關(guān)系數(shù)據(jù)庫(kù)MySQL,通過(guò)采用統(tǒng)一的接口調(diào)用后端數(shù)據(jù)庫(kù),為前端頁(yè)面提供統(tǒng)一的JSON格式數(shù)據(jù)服務(wù),前后端的交互上采用了目前流行的Flask Web框架,F(xiàn)lask框架具有輕量、簡(jiǎn)潔、靈活和易上手等特點(diǎn),符合本研究的需求,整體的智能服務(wù)系統(tǒng)架構(gòu)和前端功能展示如圖7所示。
本系統(tǒng)提供了圖譜展示、檢索系統(tǒng)、問(wèn)答系統(tǒng)三大功能。其中,圖譜展示中包含關(guān)系上傳和關(guān)系全貌兩個(gè)子功能,檢索系統(tǒng)中包含關(guān)系檢索和軌跡檢索兩個(gè)子功能。
關(guān)系上傳支持從前端頁(yè)面上傳用戶自建的txt格式三元組數(shù)據(jù),利用Py2neo庫(kù)讀取數(shù)據(jù)生成對(duì)應(yīng)的知識(shí)圖譜,極大方便了用戶與系統(tǒng)的交互行為。關(guān)系全貌展示了128位紅色歷史人物的知識(shí)關(guān)系全貌圖,通過(guò)在前端使用數(shù)據(jù)模塊中的JSON數(shù)據(jù),再調(diào)用Echarts插件中的力導(dǎo)向圖來(lái)實(shí)現(xiàn)知識(shí)關(guān)系全貌圖,與圖6的后端使用圖數(shù)據(jù)庫(kù)Neo4J存儲(chǔ)的效果相比,只是樣式上有所不同,知識(shí)關(guān)聯(lián)的本質(zhì)是一樣的。因此,本節(jié)主要介紹智能服務(wù)系統(tǒng)中的檢索系統(tǒng)和問(wèn)答系統(tǒng)。
3.5.1檢索系統(tǒng)
檢索系統(tǒng)提供了關(guān)系檢索和軌跡檢索兩種方式,關(guān)系檢索是指在前端頁(yè)面直接輸入某個(gè)歷史人物,系統(tǒng)通過(guò)對(duì)輸入的姓名使用Py2neo庫(kù)在后端Neo4J圖數(shù)據(jù)庫(kù)中進(jìn)行檢索,將返回的相關(guān)節(jié)點(diǎn)和關(guān)系信息轉(zhuǎn)為JSON格式數(shù)據(jù),并在前端中利用Echarts插件的力導(dǎo)向圖展示出來(lái)。這里以黨的情報(bào)和保衛(wèi)工作的卓越領(lǐng)導(dǎo)者與組織者,開(kāi)國(guó)上將中唯一一位從未領(lǐng)兵打仗過(guò)的李克農(nóng)上將為例,通過(guò)在關(guān)系檢索系統(tǒng)中輸入“李克農(nóng)”后點(diǎn)擊檢索,頁(yè)面返回如圖8所示。
在前端展示中,針對(duì)人物的出生地點(diǎn)進(jìn)行了不同顏色的區(qū)分,可以看出,李克農(nóng)出生地點(diǎn)為合肥市,節(jié)點(diǎn)顏色為深紅,同鄉(xiāng)的將軍包括開(kāi)國(guó)少將戴正華和顧鴻。需要說(shuō)明的是,李克農(nóng)同志原出生地點(diǎn)為安徽省巢湖市居巢區(qū),2011年,經(jīng)國(guó)務(wù)院批準(zhǔn),安徽省人民政府宣布撤銷地級(jí)巢湖市,原地級(jí)巢湖市所轄的居巢區(qū)劃歸合肥管轄。因此,本研究將李克農(nóng)的出生地點(diǎn)認(rèn)定為合肥市。又如李克農(nóng)的戰(zhàn)友胡底出生地點(diǎn)為六安,其節(jié)點(diǎn)顏色為淡紅,另一戰(zhàn)友錢壯飛出生地為浙江湖州,在本系統(tǒng)中不屬于安徽省下轄市的統(tǒng)一以其他地點(diǎn)標(biāo)注,顏色為灰色。同時(shí),右下角提供了隨機(jī)人物名稱以供用戶點(diǎn)擊來(lái)檢索其關(guān)系信息,方便用戶進(jìn)行檢索。
而在軌跡檢索方面,也是通過(guò)對(duì)輸入名稱的匹配,在后端調(diào)用相關(guān)人物的經(jīng)緯度信息和事件信息,在天地圖上進(jìn)行疊加顯示,并以時(shí)間順序?qū)⑺械攸c(diǎn)進(jìn)行串聯(lián),直觀展示了人物的空間軌跡。圖9展示了中國(guó)人民解放軍現(xiàn)代后勤工作的開(kāi)拓者,在世界軍隊(duì)歷史上絕無(wú)僅有的兩次被授予上將軍銜的洪學(xué)智上將主要生平軌跡圖。
由圖9可知,洪學(xué)智將軍自1913年2月出生于安徽省六安市金寨縣,先后參加商南起義、紅軍長(zhǎng)征、平津戰(zhàn)役、朝鮮戰(zhàn)爭(zhēng)等事件。中華人民共和國(guó)成立之后,被調(diào)任到吉林省農(nóng)業(yè)機(jī)械廳、重工業(yè)廳等單位任職。1977年后重回中央工作,歷任國(guó)務(wù)院國(guó)防工業(yè)辦公室主任、黨組書(shū)記,1980年后任解放軍原總后勤部部長(zhǎng)兼政治委員,中共中央軍委副秘書(shū)長(zhǎng)、軍委委員,2006年在北京逝世。
3.5.2問(wèn)答系統(tǒng)
為了更好地服務(wù)用戶,為用戶的提問(wèn)提供精準(zhǔn)答案,本研究構(gòu)建了前后端交互的知識(shí)問(wèn)答系統(tǒng),采用了基于語(yǔ)義解析的智能問(wèn)答方式。首先,當(dāng)用戶在前端頁(yè)面輸入問(wèn)題之后,系統(tǒng)會(huì)讀取該文本數(shù)據(jù),接著調(diào)用哈工大LTP語(yǔ)言云平臺(tái)對(duì)問(wèn)句文本進(jìn)行語(yǔ)義解析,識(shí)別出問(wèn)句文本中的實(shí)體詞和關(guān)系詞;其次,實(shí)體詞通過(guò)自定義詞典來(lái)解決實(shí)體歧義問(wèn)題,關(guān)系詞通過(guò)調(diào)用哈工大同義詞詞典來(lái)解決關(guān)系歧義問(wèn)題,通過(guò)調(diào)用Py2neo包在后端檢索匹配獲取目標(biāo)實(shí)體;最后,以JSON格式返回,通過(guò)Echarts插件進(jìn)行圖譜繪制,對(duì)涉及答案實(shí)體為人物的,還會(huì)返回相應(yīng)人物的圖片資源和簡(jiǎn)介資源。如用戶在檢索“趙瑛的丈夫是誰(shuí)?”時(shí),LTP語(yǔ)義解析出實(shí)體為“趙瑛”,關(guān)系為“丈夫”,此時(shí)實(shí)體沒(méi)有歧義,而關(guān)系依據(jù)同義詞詞典,此時(shí)無(wú)論是“丈夫”還是“外子”會(huì)統(tǒng)一為關(guān)系“丈夫”,此時(shí)通過(guò)Py2neo庫(kù)后端會(huì)返回實(shí)體“李克農(nóng)”,并在前端展示出檢索問(wèn)題涉及的實(shí)體和關(guān)系,因?qū)嶓w為人物還會(huì)顯示人物相應(yīng)的圖片和簡(jiǎn)介,結(jié)果如圖10所示。
4結(jié)語(yǔ)
數(shù)字人文技術(shù)為傳統(tǒng)人文知識(shí)的組織、關(guān)聯(lián)和服務(wù)提供了新方法,如何有效地利用這些新技術(shù)為紅色歷史資源的組織、關(guān)聯(lián)和服務(wù)是一項(xiàng)極具價(jià)值的研究課題。本研究借鑒了自頂向上的模型思想,以收集到的皖籍128名開(kāi)國(guó)將軍為對(duì)象,構(gòu)建了紅色歷史人物的智能服務(wù)原型系統(tǒng),設(shè)計(jì)了從多來(lái)源、多模態(tài)數(shù)據(jù)中,提取紅色歷史人物資源構(gòu)建智能服務(wù)系統(tǒng)的通用框架,為相關(guān)領(lǐng)域的研究提供了新方法與新視角。在具體實(shí)施過(guò)程中,一方面,利用知識(shí)圖譜技術(shù)實(shí)現(xiàn)了紅色歷史人物資源的知識(shí)組織和關(guān)聯(lián);另一方面,利用GIS技術(shù)實(shí)現(xiàn)了紅色歷史人物資源的動(dòng)態(tài)軌跡展示,拓展了當(dāng)前數(shù)字人文研究的新模式,也為紅色歷史人物資源“活起來(lái)”提供了新路徑。
本研究構(gòu)建的智能服務(wù)原型系統(tǒng)已初步具備了一體化的功能,可以為圖書(shū)館、博物館、紀(jì)念館等構(gòu)建紅色歷史資源智慧型數(shù)據(jù)庫(kù)提供借鑒,方便其開(kāi)展黨史學(xué)習(xí)、紅色教育等活動(dòng)。針對(duì)用戶而言,既有直接檢索人物關(guān)聯(lián)信息的查詢方式,也有根據(jù)問(wèn)句進(jìn)行智能回答的問(wèn)答方式,降低了用戶檢索的難度,提高了人機(jī)交互的體驗(yàn)感。此外,本研究的方法具有一定的通用性和可移植性,針對(duì)不同的歷史人物資源特征,只需要在知識(shí)本體建模上根據(jù)實(shí)際需求進(jìn)行修改,即可進(jìn)行原型系統(tǒng)的復(fù)用。下一步,本研究主要從兩方面進(jìn)行更進(jìn)一步的研究,一是拓展紅色歷史人物的樣本集和數(shù)據(jù)集,構(gòu)建大規(guī)模數(shù)據(jù)集下訓(xùn)練的深度學(xué)習(xí)智能問(wèn)答系統(tǒng)。二是探究多元化方式的智能服務(wù),如采用微信小程序、智能服務(wù)APP等多渠道,多維度來(lái)開(kāi)展多元化的服務(wù),力圖將研究成果落地扎根。