亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于文獻的中國近代史知識圖譜構(gòu)建與實證研究*

        2022-06-01 07:52:58曾楨趙浩宇
        數(shù)字圖書館論壇 2022年4期
        關(guān)鍵詞:語義歷史

        曾楨 趙浩宇

        (貴州財經(jīng)大學信息學院,貴陽 550025)

        傳統(tǒng)史書內(nèi)容的組織方式往往只能揭示一個維度的信息而弱化了其他維度的信息[1],這對專業(yè)學者和普通用戶進行語義檢索和分析對比造成了困難。從傳統(tǒng)歷史文獻的知識組織方式來看,若以人物活動刻畫歷史,不利于歷史事件整體維度的把握;若按歷史時間劃分,則會弱化人物活動維度。因此,僅用一種知識組織方式很難展現(xiàn)豐富多元的歷史文獻資源內(nèi)容,不利于用戶對其感興趣的歷史信息進行宏觀把握和深層了解。

        隨著信息技術(shù)的快速發(fā)展,歷史文獻資源大都完成了數(shù)字化轉(zhuǎn)型升級,但傳統(tǒng)圖情領(lǐng)域的知識組織方法面對海量的文獻資源卻顯得力不從心[2],如分類法、主題法所采用的傳統(tǒng)知識組織方式相較于機器語言而言,其組織方式單一、語義表達性較差,很難發(fā)現(xiàn)知識資源之間隱含的復(fù)雜關(guān)系,因此一些有價值的信息被淹沒在數(shù)字化的海洋里。此外,各種形式結(jié)構(gòu)的中國近代史文獻資源零散分布在不同的館藏機構(gòu)和互聯(lián)網(wǎng)中,海量的數(shù)據(jù)成為封閉的孤島[3],難以充分發(fā)揮其潛在的價值。更智能地實現(xiàn)多源異構(gòu)歷史文獻資源語義關(guān)聯(lián)和深度融合的主要任務(wù)就是將現(xiàn)有的異構(gòu)數(shù)據(jù)集成起來,讓計算機能夠自動識別和處理,所以必須建立統(tǒng)一的標準體系,即本體[4]。構(gòu)建中國近代史本體有以下作用:①厘清歷史概念之間的關(guān)系,擴充中國近代史本體詞表;②對中國近代史知識進行多維度描述,將人物、事件、組織機構(gòu)、地點等不同實體相互關(guān)聯(lián),有利于對歷史內(nèi)容的宏觀把握和深層了解;③通過本體模型構(gòu)建中國近代史知識圖譜,以節(jié)點和邊的形式對中國近代史知識進行細粒度的展示,實現(xiàn)中國近代史的可視化展示和知識查詢。

        因此,本文在借鑒國內(nèi)外相關(guān)研究成果的基礎(chǔ)上,提出中國近代史相關(guān)歷史要素資源的語義描述與知識組織的思路和方法,并基于這一思路構(gòu)建中國近代史的歷史本體模型,在此基礎(chǔ)上完成中國近代史知識圖譜的實例展示,以期實現(xiàn)其可視化操作、復(fù)雜語義檢索以及知識發(fā)現(xiàn)等應(yīng)用層服務(wù)。

        1 相關(guān)研究

        本體源于哲學中的本體論,側(cè)重于對“存在”進行抽象的刻畫與描繪。Neches等[5]是人工智能領(lǐng)域最先為本體下定義的學者。Gruber[6]將本體定義為概念化的明確的規(guī)范說明。Borst[7]認為本體是一種共享的概念模型。計算機領(lǐng)域的本體側(cè)重于模擬人類對世間萬物認知的行為方式,展現(xiàn)出認知的概念體系,以及概念之間的語義關(guān)系,而提出本體的一個重要動機是知識的共享與復(fù)用,以及數(shù)據(jù)之間的互聯(lián)互通。

        隨著本體研究的逐步成熟,結(jié)合語義網(wǎng)技術(shù)開展相關(guān)研究日益成為圖書情報領(lǐng)域所關(guān)注的焦點[8]。已有學者開展了中國近代史領(lǐng)域的本體和知識圖譜的構(gòu)建與應(yīng)用。如陸偉忠[9]以“國共合作”為題材構(gòu)建了國共合作歷史本體,并實現(xiàn)了語義檢索服務(wù)的本體應(yīng)用。吳麗杰[10]以“東北抗戰(zhàn)史”特色數(shù)據(jù)庫為實例探討特色數(shù)據(jù)庫本體構(gòu)建模式。梁恩平[11]對近代史研究者研究方向進行了梳理,利用Protégé構(gòu)建了近代史研究者興趣領(lǐng)域本體,并提出了歷史檔案資源的個性化推送策略。陳玖瑜[12]依托數(shù)字人文理論和語義網(wǎng)相關(guān)技術(shù)挖掘出了民國文獻知識元之間的語義關(guān)聯(lián),設(shè)計了民國報紙本體,并以歷史人物梅蘭芳為實例完成了知識圖譜的可視化展示,實現(xiàn)了民國時期報紙內(nèi)容知識元的細粒度關(guān)聯(lián)。孫輝等[13]探索了國史領(lǐng)域知識的特征,提出國史本體的構(gòu)建步驟,實現(xiàn)了本體知識實例的可視化展示。王穎等[14]基于國史本體框架,利用Neo4j圖數(shù)據(jù)庫作為數(shù)據(jù)倉儲,實現(xiàn)了國史知識的可視化展示和檢索、問答等服務(wù)層應(yīng)用,為國史領(lǐng)域知識的深度檢索服務(wù)提供了重要參考。張云中等[15]在構(gòu)建紅色歷史人物知識圖譜schema基礎(chǔ)上設(shè)計了知識問答服務(wù)架構(gòu),提升了用戶的檢索體驗。王帥奇等[16]對中國革命歷史檔案資源進行開發(fā),構(gòu)建了革命戰(zhàn)爭知識圖譜。劉偉麗[17]構(gòu)建了中共一大人物知識圖譜。葛勇文[18]構(gòu)建了中國近代革命文物知識圖譜,并實現(xiàn)了革命文物知識圖譜的應(yīng)用。可見,結(jié)合本體、知識圖譜等語義網(wǎng)技術(shù),深入挖掘中國近代史相關(guān)事件細粒度的語義特征,順應(yīng)了當前研究中國近代史的需要,具有很強的現(xiàn)實意義,但目前覆蓋中國近代史文獻資源全領(lǐng)域的本體建模相對較少,建模深度較淺,粒度較粗,本體開發(fā)的系統(tǒng)性和可擴展性有待提高。因此本研究將視角聚焦于中國近代史本體建模,實現(xiàn)中國近代史文獻資源的關(guān)聯(lián)與聚合,為中國近代史文本內(nèi)容的知識組織和表示提供新方法,為中國近代史知識圖譜的實證研究提供新思路。

        2 數(shù)據(jù)來源及研究框架

        2.1 數(shù)據(jù)來源

        本研究所需要的數(shù)據(jù)為電子形式的中國近代史文獻資料,主要選取歷史名人數(shù)據(jù)、中國近代史歷史大事記等具有歷史典型特征的文本數(shù)據(jù)作為本研究的基礎(chǔ)支撐。其中文本形式的資料以《簡明中國近代史讀本》《中國近代史》《中國近現(xiàn)代名人生平暨生卒年錄(1840—2000)》《中國近代人物錄》等著作內(nèi)容為主。歷史人物數(shù)據(jù)主要來自國家圖書館人物專題數(shù)據(jù)庫、孫中山故居紀念館相關(guān)人物專題庫、維基百科以及百度百科等。歷史大事記主要來自網(wǎng)絡(luò)論壇、開放數(shù)據(jù)集、垂直站點等多種數(shù)據(jù)源。其中,開放數(shù)據(jù)集是結(jié)構(gòu)化數(shù)據(jù)的主要來源,專題數(shù)據(jù)庫和百科是半結(jié)構(gòu)化數(shù)據(jù)的來源,從中國近代史書籍和垂直站點獲取的是非結(jié)構(gòu)化形式的文本內(nèi)容。針對以上數(shù)據(jù)源主要采用網(wǎng)絡(luò)爬蟲、人工篩選、自然語言處理等方式獲取相關(guān)數(shù)據(jù)。

        2.2 研究設(shè)計

        研究的主要工作是實現(xiàn)中國近代史文獻資源內(nèi)容細粒度知識元的語義化表示,因此設(shè)計了中國近代史本體模型,并基于此模型完成知識圖譜實證研究,實現(xiàn)知識內(nèi)容可視化展示和知識檢索等應(yīng)用。研究思路如圖1所示,分三步實現(xiàn)知識圖譜構(gòu)建。

        圖1 研究思路

        首先,進行模式層的搭建,通過系統(tǒng)的調(diào)研分析,確定中國近代史知識圖譜所需要的具體數(shù)據(jù);其次,通過深入剖析文本內(nèi)容特征以及結(jié)合領(lǐng)域?qū)<抑R來設(shè)計相關(guān)概念、關(guān)系及屬性,運用Protégé構(gòu)建中國近代史本體,完成“中國近代史”知識建模;再次,基于設(shè)計好的本體庫,利用自然語言處理技術(shù)擴充實例數(shù)據(jù),根據(jù)不同形式的數(shù)據(jù)類型采取不同的方法對其進行抽??;最后,將抽取得到的實例知識進行整合處理,將其導(dǎo)入Neo4j中,并通過Web前端完成知識的可視化呈現(xiàn),實現(xiàn)中國近代史知識圖譜的實例構(gòu)建。整個構(gòu)建過程具有非領(lǐng)域性和非針對性,因此該方法不僅適用于中國近代史領(lǐng)域本體構(gòu)建,而且適用于其他領(lǐng)域本體模型的構(gòu)建。

        3 中國近代史知識圖譜構(gòu)建

        3.1 模式層構(gòu)建

        模式層即知識圖譜的本體模型[19],是對數(shù)據(jù)層的約束和規(guī)范,通過本體模型刻畫出中國近代史的核心概念體系。構(gòu)建本體的根本目的在于為某一特定領(lǐng)域提供一套被廣泛接受、認可和共享重用的概念體系[20],使得領(lǐng)域知識能夠被重用,避免“重復(fù)造輪子”的情況。本研究根據(jù)文獻資料的關(guān)鍵詞,結(jié)合歷史領(lǐng)域相關(guān)學者的專業(yè)知識,考慮實際情況提煉出最具代表性的核心概念作為中國近代史本體的核心類目,使用Protégé工具并結(jié)合“七步法”構(gòu)建中國近代史本體模型。具體步驟如下。

        第一步,確定中國近代史本體的構(gòu)建范圍。根據(jù)需求分析確定構(gòu)建本體的對象,以中國近代史文獻資源為主要參考資料,確定以中國近代史內(nèi)容要素為研究對象。

        第二步,尋找可復(fù)用的本體。通過DAML、Ontolingua、Protege本體庫,調(diào)研可復(fù)用本體的類和屬性并進行引用,發(fā)現(xiàn)Foaf、Time Ontology、DC terms、EventKG、Org、CIDOC-CRM、BIBFRAME等本體中的相關(guān)概念和屬性可復(fù)用,但是目前可復(fù)用的本體模型不能完全滿足中國近代史細粒度知識描述的需要,因此筆者在基于關(guān)聯(lián)數(shù)據(jù)發(fā)布準則的基礎(chǔ)上,根據(jù)需要自定義類和屬性,構(gòu)建中國近代史本體模型CMH(China’s Modern History),用縮寫“:cmh”作為前綴名稱定義中國近代史本體的描述詞匯。

        第三步,列舉出中國近代史內(nèi)容中的重要術(shù)語。與相關(guān)歷史專家和學者進行交流溝通,認真聽取其意見,并結(jié)合網(wǎng)上調(diào)研,對中國近代史的相關(guān)知識內(nèi)容做了系統(tǒng)的梳理分析,最終凝煉出10個最具概括性的核心概念作為中國近代史本體的一級類目。

        第四步,定義本體分類體系。根據(jù)中國近代史歷史知識元素和重要術(shù)語,對其進行歸納分類,確定本體模型中包含的類及其層次關(guān)系,逐漸構(gòu)建完整的層級體系。在最頂級owl:Thing類目下面設(shè)置“歷史人物”“歷史事件”“歷史文獻”“地點”“時間實體”“歷史時期”“思想理念”“領(lǐng)域”“行為主體”“組織機構(gòu)”10個核心概念。通過對概念的層次體系進行構(gòu)建,能夠較好地抽象出中國近代史知識的概念體系,更真實地還原歷史細節(jié)。

        第五步,定義本體屬性及關(guān)系。定義中國近代史本體數(shù)據(jù)屬性可以豐富對歷史實例的描述,擴展實例含義;類之間的相互關(guān)聯(lián)通過定義對象屬性來完成,對象屬性的建立可以方便中國近代史知識圖譜進行語義關(guān)聯(lián)和知識發(fā)現(xiàn)。例如,“歷史事件”類通過sem:hasActor屬性與“歷史人物”類相互關(guān)聯(lián),“歷史文獻”類通過dc:creator屬性與“歷史人物”類相互關(guān)聯(lián)。本體類之間的部分關(guān)聯(lián)如圖2所示。

        圖2 中國近代史本體模型圖

        第六步,定義本體屬性約束。本體屬性約束就是對屬性添加語義關(guān)系約束,具體包括三方面:一是定義屬性的定義域和值域;二是定義屬性的特性;三是定義屬性的限制。屬性約束的目的在于減少語義沖突,提升本體推理能力。

        第七步,建立中國近代史本體實例。完成中國近代史本體類、對象屬性、數(shù)據(jù)屬性的添加后,需要利用Protégé對中國近代史相關(guān)人物、事件、地點、時間等實例和屬性值進行添加,形成中國近代史知識組織體系。

        按照七步法構(gòu)建完畢后,中國近代史本體模型共有10個一級類、53個二級類、88個三級類,以及包括數(shù)據(jù)屬性和對象屬性在內(nèi)的95個屬性約束。有關(guān)中國近代史領(lǐng)域范疇本體構(gòu)建的研究,大多數(shù)學者都圍繞某一特定題材或?qū)W⒂谔囟v史要素進行語義建模,而涵蓋中國近代史全領(lǐng)域的本體構(gòu)建研究相對較為缺乏。本研究構(gòu)建的本體模型,涵蓋中國近代史這一特定歷史時期內(nèi)的人物、事件、文獻、地點、機構(gòu)等重要實體概念,使單一的歷史要素之間融合成相互關(guān)聯(lián)的有機整體,拓寬了先前學者所構(gòu)建的本體范圍,補充了領(lǐng)域本體術(shù)語詞表,加深了中國近代史歷史要素之間的關(guān)聯(lián)性和系統(tǒng)性。目前,中國近代史本體主要涵蓋歷史人物和歷史事件的基本信息、人際關(guān)系、歷史事件的因果關(guān)系、歷史文獻的著述信息及思想內(nèi)容等多維度信息。此外,還可以依據(jù)本體構(gòu)建生命周期理論,根據(jù)需求的變化而動態(tài)擴充實體、關(guān)系和屬性。中國近代史本體模型的構(gòu)建為知識圖譜應(yīng)用層的搭建提供了基礎(chǔ)支持。

        3.2 知識獲取

        知識獲取是將半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為構(gòu)建知識圖譜數(shù)據(jù)層所需要的實體和關(guān)系的過程。因此根據(jù)數(shù)據(jù)來源的不同,本文通過網(wǎng)絡(luò)爬蟲、模式匹配、包裝器適配等方法,采集相關(guān)數(shù)據(jù)。通過使用HanLP、Jiagu等自然語言處理工具包完成實體識別、信息抽取等任務(wù),抽取所需要的實體、關(guān)系和屬性,并將其轉(zhuǎn)換成實體關(guān)系三元組。

        結(jié)構(gòu)化數(shù)據(jù)具有良好的層次結(jié)構(gòu),通常存儲在數(shù)據(jù)庫中。本文從中文開放知識圖譜(OpenKG.CN)中獲取“中國近代歷史人物知識圖譜”開放數(shù)據(jù)集,包含近1 300位中國近代史人物的結(jié)構(gòu)化數(shù)據(jù)。

        中國近代史人物實體屬性的來源通常是百科網(wǎng)站中的Infobox模塊的半結(jié)構(gòu)化數(shù)據(jù)。因頁面格式基本固定,遂采用包裝器方法對網(wǎng)站內(nèi)容進行解析實現(xiàn)數(shù)據(jù)自動采集,并將其存儲到關(guān)系數(shù)據(jù)庫。

        非結(jié)構(gòu)化數(shù)據(jù)通常是文本資源,其內(nèi)容完整,數(shù)據(jù)豐富,它是知識圖譜實例數(shù)據(jù)的主要來源,也是抽取任務(wù)的難點。鑒于選擇的文本數(shù)據(jù)缺乏大規(guī)模詞性標注數(shù)據(jù)集,因此本文采用規(guī)則和深度學習神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的方式來抽取三元組知識。經(jīng)過文獻調(diào)研發(fā)現(xiàn),中國近代史文本內(nèi)容中包含大量的著作、條款、會議、事件、條約、日期等內(nèi)容,其特點是表達形式比較固定,規(guī)則性較強,易于提取知識元素,因此針對此類型的數(shù)據(jù)主要采取基于模式匹配的方法抽取。最直接的方式就是將文本內(nèi)容視為字符序列,構(gòu)造正則表達式的字符模式,實現(xiàn)抽取。其余實體的抽取主要通過Hanlp開源工具包、自定義詞典和規(guī)則相結(jié)合的方法自動抽取文本中的實體。hanlp工具對特定領(lǐng)域中的實體識別具有較高的準確度[21]。實體的屬性和關(guān)系利用jiagu深度學習神經(jīng)網(wǎng)絡(luò)開源模型進行抽取,抽取的結(jié)果以三元組的形式表達出來。Jiagu深度學習神經(jīng)網(wǎng)絡(luò)開源模型是使用大規(guī)模語料訓(xùn)練而成,并且提供中文分詞、詞性標注、命名實體識別、關(guān)系抽取等常用自然語言處理功能,得益于已訓(xùn)練好的模型,其使用時無須對數(shù)據(jù)進行標注。

        通過以上方法采集的數(shù)據(jù)大多需要逐條篩選進行二次過濾,剔除無關(guān)、重復(fù)數(shù)據(jù),完善缺省數(shù)據(jù),保障收集到的數(shù)據(jù)具有較高的質(zhì)量。本文利用上述方法半自動獲取人物實體及其屬性5 507個,獲取中國近代史中具有重要意義的歷史事件及其屬性177個,人物間關(guān)系7萬余對。

        3.3 知識表示

        知識表示[22]是把人類知識表示成機器可以理解的數(shù)據(jù)結(jié)構(gòu)和系統(tǒng)控制結(jié)構(gòu)的策略,知識表示是知識組織的前提和基礎(chǔ)。知識表示的形式大致可分為3種:三元組的形式、圖結(jié)構(gòu)的形式以及低維稠密向量表示的形式。本文使用RDF數(shù)據(jù)模型對中國近代史本體概念和關(guān)系進行形式化表示,使計算機能夠理解數(shù)據(jù)模型。由于RDF三元組是由“點-邊-點”組成的有向語義網(wǎng)絡(luò)圖,本質(zhì)上屬于圖形模式的數(shù)據(jù)結(jié)構(gòu),因此可以與圖結(jié)構(gòu)數(shù)據(jù)相互映射。例如,三元組中每個實體對應(yīng)Neo4j圖中的一個節(jié)點,屬性和關(guān)系對應(yīng)圖中的有向邊。數(shù)據(jù)層以實例數(shù)據(jù)為對象,為方便下文使用Neo4j作為知識圖譜的數(shù)據(jù)倉儲,因此對RDF進行格式轉(zhuǎn)換,以備導(dǎo)入Neo4j圖數(shù)據(jù)庫中使用,并完成從“實體-屬性-屬性值”或“實體-關(guān)系-實體”的三元組形式到Neo4j的對應(yīng)。將本體中的類映射為圖中的實體節(jié)點,本體的類間關(guān)系映射為圖中節(jié)點的邊,本體屬性映射為圖中節(jié)點的屬性,從而實現(xiàn)本體模型到Neo4j的映射。在Neo4j圖數(shù)據(jù)庫中,數(shù)據(jù)屬性以鍵值對的形式作為對節(jié)點特征的描述,對象屬性作為節(jié)點和邊的關(guān)聯(lián)形式進行表示。圖3為李鴻章人物信息屬性圖,數(shù)據(jù)屬性表示為<李鴻章-民族-漢族>,對象屬性表示為<李鴻章-任職機構(gòu)-清政府>等。

        圖3 李鴻章人物信息屬性圖

        3.4 知識融合

        中國近代史知識的融合包括本體層中概念、關(guān)系、屬性的融合,以及數(shù)據(jù)層中實例、屬性值的融合。概念層的融合即將中國近代史本體模型與其他相關(guān)本體中等價類或?qū)傩越⒂成潢P(guān)系,實現(xiàn)模式層的語義融合,不同本體相同的類和屬性用owl:equivalentClass和owl:equivalentProperty進行關(guān)聯(lián)。例如本文中“歷史文獻”類所包含的“文獻名稱”概念在文獻組件本體(DoCO)中表示為doco:title,而在書目框架本體(BIBFRAME)中描述為bf:workTitle,因此可以使用owl:equivalentClass屬性完成不同本體之間相同類的映射。通過概念層的融合可以發(fā)現(xiàn)更多相似的本體,實現(xiàn)本體概念和屬性的擴展,讓本體得到充分的共享,發(fā)揮本體的最大作用。數(shù)據(jù)層的融合包括實體鏈接和實體消歧。實體鏈接是將中國近代史實體實例與本體中的概念進行相互映射,例如,若兩個含義相同的不同實例進行相互關(guān)聯(lián),則使用owl:sameAs屬性來表示兩者身份的同一性,owl:sameAs屬性表示兩個不同URI的引用實際上指的是同一事物,兩個實體具有相同的“身份。crm:isEqualInTimeTo屬性用來融合兩個不同的時間表示方式,以此來表示兩個不同的時間表示方式指的是同一個時間點或時間段。例如,清帝退位時間按照皇帝年號紀年是“宣統(tǒng)三年十二月二十五日”,而用公元紀年法則是“1912年2月12日”,因此用crm:isEqualInTimeTo屬性來表示二者指代同一天。

        實體消歧旨在解決不同名稱的實體含義相同的問題,消除實體的多樣性和歧義性。同一地點在古代和近代往往存在不同的名稱,為了實現(xiàn)地名的統(tǒng)一,本文利用中國省市縣區(qū)域劃分開放數(shù)據(jù)集作為實體鏈接的標準數(shù)據(jù),然后將已抽取的中國近代史相關(guān)地名與其進行實體鏈接,完成實體對齊工作。其他實例,包括“歷史人物”“歷史事件”“歷史文獻”等賦予唯一標識符URI并使用“別名”等屬性進行輔助識別,完成實體消歧。例如,在中國近代史文獻中,“直隸”往往指皇帝所在的心腹之地,又稱“京師”,現(xiàn)今為“河北省”的管轄范圍。使用OWL語言進行表示為:

        3.5 知識存儲

        中國近代史本體的構(gòu)建,標志著知識圖譜模式層的完成。本文在中國近代史本體框架的基礎(chǔ)上增加相關(guān)實例,完成中國近代史知識圖譜的實例構(gòu)建。知識圖譜的可視化呈現(xiàn)是通過圖形化的形式表現(xiàn)出來,因此選擇合適的存儲方式至關(guān)重要。本文使用Neo4j作為數(shù)據(jù)倉儲,完成知識圖譜的實例構(gòu)建。Neo4j為多種語言提供了API接口[23],如Java、Python、C#等。下面將通過Python語言和Cypher命令句對Neo4j進行讀寫操作。首先將上文抽取得到的數(shù)據(jù)進行整合處理,轉(zhuǎn)換成CSV格式文件并存儲到Neo4j根目錄下的import文件,使用Cypher命令語句LOAD CSV將人物、事件節(jié)點及其屬性導(dǎo)入圖數(shù)據(jù)庫Neo4j中,然后再將人物和事件所對應(yīng)的關(guān)系導(dǎo)入其中。其次,因為人物間關(guān)系數(shù)量較多,且存儲格式為三元組的形式,所以選擇更快捷方便的Python第三方庫Py2neo將其導(dǎo)入Neo4j中,完成知識的可視化呈現(xiàn),為中國近代史知識圖譜實證研究打下基礎(chǔ)。完成知識存儲后,數(shù)據(jù)庫中共有包括人物、事件、地點、職位、作品、畢業(yè)學校等各類實體節(jié)點數(shù)量11 768個,各類關(guān)系在內(nèi)的16 592條邊。

        4 知識圖譜實證研究

        知識圖譜最重要的作用就是把知識以圖的形式展現(xiàn)出來,圖中的節(jié)點和關(guān)系一目了然,得益于邊與邊之間的相互鏈接,可以沿著相鄰節(jié)點依次發(fā)現(xiàn)相互關(guān)聯(lián)的新知識,最大程度地為用戶節(jié)省時間和精力。本文以中國近代時間段內(nèi)的相關(guān)人物和事件為例進行知識圖譜的實證研究,以期探尋人物之間的深層關(guān)系和人物與事件的參與關(guān)系。本研究使用HTML+CSS+D3(jQuery)技術(shù)構(gòu)建前端展示平臺,使用基于Python的Flask框架搭建后端服務(wù),并利用Neovis.js可視化組件與Neo4j圖數(shù)據(jù)庫進行連接并對其進行操作。該平臺立足于中國近代史領(lǐng)域,以相關(guān)歷史要素為核心,構(gòu)建一個包含瀏覽與檢索功能的展示平臺,實現(xiàn)中國近代史知識圖譜的可視化展示和相關(guān)應(yīng)用。

        (1)知識圖譜的可視化展示。中國近代史知識圖譜的展示功能體現(xiàn)在兩個方面:一是瀏覽功能,即以圖的形式對知識元進行部分或全部展示,并且支持節(jié)點的放大、縮小以及節(jié)點屬性詳情的瀏覽,讓用戶能夠從宏觀層面把握中國近代史知識脈絡(luò);二是詞云展示功能,即通過對中國近代史文本內(nèi)容進行分詞和詞頻統(tǒng)計的直觀展現(xiàn),并生成相應(yīng)的詞云圖。

        (2)知識圖譜的相關(guān)應(yīng)用。知識檢索是知識圖譜應(yīng)用層的一項基本功能,中國近代史知識圖譜的檢索功能可實現(xiàn)歷史人物和歷史事件的查詢,人物知識圖譜能直觀地了解人物間關(guān)系,方便發(fā)掘人物之間的隱含關(guān)系,事件知識圖譜可深入挖掘事件之間錯綜復(fù)雜的關(guān)聯(lián)關(guān)系,能更好地把握歷史事件發(fā)展的趨勢和脈絡(luò)。

        知識圖譜的檢索功能不但可以迅速返回結(jié)果,而且可以根據(jù)已存在的邏輯關(guān)系發(fā)現(xiàn)新的實體間關(guān)系,實現(xiàn)對隱性知識的挖掘。Neo4j圖數(shù)據(jù)庫使用的是Cypher查詢語言,形式與SQL查詢語言較為相似,它是一種聲明性模式匹配語言,可以通過簡單的語法規(guī)則進行非常復(fù)雜的查詢。例如,在前端歷史人物知識圖譜中查詢與“陳獨秀”相關(guān)的節(jié)點,查詢結(jié)果如圖4所示,從圖中可以看出陳獨秀和李大釗共同參與了新文化運動,和胡適共同參與了“五四運動”等歷史事件,從圖中也能看出與陳獨秀相關(guān)的屬性信息及其豐富的人際關(guān)系等。

        圖4 知識檢索可視化展示

        本文構(gòu)建了十分豐富的人物關(guān)系知識圖譜,包括父母、姐弟、戰(zhàn)友、好友、師生、領(lǐng)導(dǎo)等在內(nèi)的117個人物間關(guān)系類型。研究中國近代史很重要的一點在于厘清歷史人物之間錯綜復(fù)雜的關(guān)系,發(fā)現(xiàn)人物之間的隱性關(guān)系,深入挖掘人物的潛在歷史價值。

        在不知道兩個人物之間有何關(guān)系時,可以通過多深度關(guān)系節(jié)點查詢來發(fā)現(xiàn)人物節(jié)點之間的關(guān)系。當需要實現(xiàn)中國近代史相關(guān)人物的多深度關(guān)系節(jié)點查詢時,可以使用Cypher語法中的深度運算符來完成查詢操作,Neo4j可以快速地對實體節(jié)點完成圖遍歷,并且可以計算出各節(jié)點的路徑,利用路徑關(guān)系推導(dǎo)出節(jié)點間的聯(lián)系。

        綜上所述,歷史內(nèi)容通過書籍或網(wǎng)頁形式的非結(jié)構(gòu)化數(shù)據(jù)進行展示時,會浪費用戶大量的時間和精力去挖掘、揭示各實體間的隱含關(guān)系,而知識圖譜能以最直觀的形式為歷史愛好者提供相關(guān)人物與事件的知識查詢,為了解歷史人物和事件之間的復(fù)雜關(guān)系提供新的視角和方法。

        5 結(jié)語

        本研究從歷史文獻資源的開發(fā)利用入手,以本體和知識圖譜等語義網(wǎng)技術(shù)為手段,從文本資料中篩選出相關(guān)概念及概念間關(guān)系,構(gòu)建了能夠揭示細粒度知識元之間語義關(guān)系的中國近代史本體模型,完成了中國近代史知識圖譜的實例構(gòu)建,實現(xiàn)了各實體屬性的細粒度知識關(guān)聯(lián),又以具體的歷史人物與事件為樣例進行查詢驗證,在理論與實踐上證明了知識圖譜技術(shù)在中國近代史研究上的可行性,并形成了較為完備的研究思路。

        中國近代史知識圖譜的構(gòu)建,為相關(guān)學者探究中國近代史知識提供了便利,為歷史人文研究數(shù)字化提供了技術(shù)支持,在一定程度上豐富了歷史文獻資源的開發(fā)利用,因此本研究既是一次有價值的嘗試,也為后續(xù)相關(guān)學科交叉研究提供借鑒和參考。為確保數(shù)據(jù)的準確性,利用人工手段對爬取的數(shù)據(jù)進行清洗,數(shù)據(jù)質(zhì)量高但效率較低,同時對于存在于非結(jié)構(gòu)化文本中的人物和事件實體識別的能力和方法有待進一步完善,下一步的研究需要根據(jù)中國近代史文獻的內(nèi)外部特征,建立整個中國近代史文本標注的語料庫,以期從海量的文本中更準確地獲取數(shù)據(jù),降低人工參與度,擴充知識圖譜實體數(shù)量,補充實體屬性,從而為用戶提供更完善的智能推薦、知識推理、語義問答等應(yīng)用層服務(wù)。

        猜你喜歡
        語義歷史
        語言與語義
        新歷史
        全體育(2016年4期)2016-11-02 18:57:28
        “上”與“下”語義的不對稱性及其認知闡釋
        歷史上的6月
        歷史上的九月
        歷史上的八個月
        歷史上的5月
        歷史上的4月
        認知范疇模糊與語義模糊
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        国产美女在线精品免费观看网址 | 91色区在线免费观看国产| 国内精品久久久久影院优| 亚洲精品无码久久久久| 日本在线观看不卡| 美腿丝袜网址亚洲av| 91久久精品国产综合另类专区| 亚洲欧美国产国产综合一区| 久久夜色撩人精品国产小说| 亚洲高清美女久久av| 精品国产中文字幕久久久| 超碰cao已满18进入离开官网| 成年男女免费视频网站| 精品免费看国产一区二区白浆| 成人性生交大片免费5| 成人影院yy111111在线| 这里有精品可以观看| 青青草针对华人超碰在线| 精品国产黄一区二区三区| 国产aⅴ无码专区亚洲av麻豆| 91久久精品国产91久久| 精品国产一品二品三品| 一区二区精品国产亚洲| 国产精品亚洲一区二区三区在线| 国产一区二区牛影视| 色小姐在线视频中文字幕| 国产白浆精品一区二区三区| 青青河边草免费在线看的视频| 色avav色av爱avav亚洲色拍| 天天综合天天色| av免费网站不卡观看| 粉嫩小泬无遮挡久久久久久| 国产乱妇乱子视频在播放| 在线观看av片永久免费| 加勒比东京热一区二区| 国产精品亚洲αv天堂无码| 人妻在线中文字幕| 中文字幕一区二区三区综合网| 免费av一区二区三区无码| 亚洲一区二区三区偷拍女厕| 国产一区二区黑丝美女|