基于知識(shí)圖譜的中國(guó)近代史知識(shí)問答系統(tǒng)構(gòu)建研究*

2022-08-16 07:12:36趙浩宇陳登建曾楨張虹雨

數(shù)字圖書館論壇 2022年6期

趙浩宇陳登建曾楨張虹雨

（貴州財(cái)經(jīng)大學(xué)信息學(xué)院，貴陽 550025）

歷史文獻(xiàn)資源中蘊(yùn)含著巨大的價(jià)值，具體體現(xiàn)在歷史文獻(xiàn)資源既服務(wù)于當(dāng)代社會(huì)經(jīng)濟(jì)建設(shè)，又能促進(jìn)人們的精神文化建設(shè)。當(dāng)前，因得益于信息技術(shù)的大規(guī)模應(yīng)用，文獻(xiàn)館藏機(jī)構(gòu)中浩如煙海的紙質(zhì)資源也已基本完成數(shù)字化轉(zhuǎn)型升級(jí)，但由于大量經(jīng)過數(shù)字化的歷史文獻(xiàn)資源是以非結(jié)構(gòu)化的形式記載，以平面化的方式供用戶線性瀏覽閱讀，而計(jì)算機(jī)無法讀懂文本格式的非結(jié)構(gòu)化數(shù)據(jù)，也無法以更細(xì)粒度的知識(shí)元進(jìn)行語義關(guān)聯(lián)，檢索結(jié)果難以展示實(shí)體之間的隱含關(guān)系，一定程度上阻礙了歷史文獻(xiàn)資源的深層次開發(fā)與利用?？梢?，傳統(tǒng)知識(shí)獲取方式有其固有弊端，既不利于用戶對(duì)其感興趣的歷史信息進(jìn)行語義檢索，也不利于對(duì)歷史知識(shí)脈絡(luò)進(jìn)行宏觀把握和深層了解。此外，研究中國(guó)近代史需要厘清歷史人物之間錯(cuò)綜復(fù)雜的關(guān)系，發(fā)現(xiàn)人物之間的隱性關(guān)系，探討歷史事件的發(fā)展脈絡(luò)和其中的歷史緣由，深入挖掘潛在的歷史意義和學(xué)術(shù)價(jià)值。因此，從歷史文獻(xiàn)資源的開發(fā)利用入手，以本體和知識(shí)圖譜等語義網(wǎng)技術(shù)為基礎(chǔ)，以知識(shí)問答系統(tǒng)平臺(tái)為載體，以實(shí)現(xiàn)用戶意圖檢索為導(dǎo)向，構(gòu)建基于知識(shí)圖譜的中國(guó)近代史知識(shí)問答系統(tǒng)，用戶可以用自然語言進(jìn)行提問直接獲取所需答案，無須把大量時(shí)間和精力浪費(fèi)在歷史文獻(xiàn)的檢索、瀏覽和篩選中，為用戶提供便利的中國(guó)近代史知識(shí)查詢服務(wù)，同時(shí)還可以通過已構(gòu)建的知識(shí)圖譜可視化展示前端平臺(tái)，實(shí)現(xiàn)歷史知識(shí)要素的可視化瀏覽，幫助用戶以直觀形式厘清歷史知識(shí)的關(guān)聯(lián)。

1 相關(guān)研究回顧

知識(shí)圖譜是通過存儲(chǔ)實(shí)體和關(guān)系來實(shí)現(xiàn)語義檢索的圖數(shù)據(jù)庫(kù)，其本質(zhì)是一種大規(guī)模的語義網(wǎng)絡(luò)圖。知識(shí)圖譜和語義技術(shù)為事物的分類、屬性和關(guān)系的描述提供了新方法[1]，使得搜索引擎可以直接對(duì)事物進(jìn)行索引和搜索，因此基于知識(shí)圖譜的智能問答系統(tǒng)是一種新型的信息檢索方式，本質(zhì)上是搜索引擎的高級(jí)形態(tài)[2]，現(xiàn)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域的學(xué)術(shù)研究中，并在各領(lǐng)域大放異彩。智能問答系統(tǒng)的構(gòu)想最早可追溯到1950年Turing[3]在其論文中提出的關(guān)于機(jī)器思維的問題，即機(jī)器在多大程度上能夠模仿人類并且能夠與人類展開互相問答。20世紀(jì)60年代，麻省理工學(xué)院人工智能實(shí)驗(yàn)室的Weizenbaum[4]設(shè)計(jì)了聊天機(jī)器人ELIZA，通過模式匹配和替換實(shí)現(xiàn)人機(jī)對(duì)話，并且可以模擬特定角色通過聊天的方式與人類展開互動(dòng)。20世紀(jì)70年代，隨著知識(shí)表示和自然語言處理技術(shù)的發(fā)展，以及知識(shí)庫(kù)構(gòu)建技術(shù)的成熟，促進(jìn)了問答系統(tǒng)相關(guān)研究的進(jìn)一步發(fā)展，如耶魯大學(xué)在1975年開發(fā)的SAM系統(tǒng)[5]，它能夠使用腳本來理解所提的問題。在隨后的幾十年里，相關(guān)研究成果仍停留在機(jī)器與人類的簡(jiǎn)單交流上，并未實(shí)現(xiàn)真正意義上的智能問答。近年來，隨著芯片技術(shù)的高速發(fā)展，計(jì)算機(jī)的算力得到空前提升，加之自然語言處理技術(shù)的成熟，智能問答技術(shù)從特定領(lǐng)域小規(guī)模數(shù)據(jù)庫(kù)轉(zhuǎn)向基于大規(guī)模文本數(shù)據(jù)的互聯(lián)網(wǎng)開放領(lǐng)域，知識(shí)問答系統(tǒng)走入大數(shù)據(jù)時(shí)代。2011年Nature雜志上刊登了一篇關(guān)于問答系統(tǒng)的文章中指出：“以直接而準(zhǔn)確的方式回答用戶自然語言提問的自動(dòng)問答系統(tǒng)將構(gòu)成下一代搜索引擎的基本形態(tài)”[6]。由此可知，下一代搜索引擎的發(fā)展方向是向用戶返回精準(zhǔn)、有效信息的問答系統(tǒng)，并且通過自然語言完成人機(jī)交互將成為知識(shí)獲取的新趨勢(shì)。

近年來，隨著信息技術(shù)的高速發(fā)展，數(shù)字人文領(lǐng)域的研究方法和思路不斷拓寬，基于知識(shí)圖譜的知識(shí)組織方法被廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、智能問答和個(gè)性化推薦中，已成為知識(shí)服務(wù)的重要手段。目前，基于知識(shí)圖譜的知識(shí)問答系統(tǒng)主要有基于模板匹配、基于語義解析、基于深度學(xué)習(xí)3種實(shí)現(xiàn)方法。①Tunstall-Pedoe[7]早在2010年就率先提出了基于模板匹配的方法，其核心思想是將用戶提問先轉(zhuǎn)換為人為預(yù)定義的規(guī)則或模板，再轉(zhuǎn)換為可執(zhí)行的查詢操作。其優(yōu)點(diǎn)是匹配響應(yīng)速度較快、精確度較高，缺點(diǎn)是大量模板維護(hù)需要人工完成。例如：丁斌[8]采用了模板庫(kù)的方式實(shí)現(xiàn)了汽車領(lǐng)域問答系統(tǒng)的構(gòu)建；李賀等[9]結(jié)合AC多模式匹配算法實(shí)現(xiàn)對(duì)用戶問題的匹配，構(gòu)建了疾病知識(shí)圖譜的自動(dòng)問答系統(tǒng)。②基于語義解析的方法，關(guān)鍵在于對(duì)提問語句成分進(jìn)行解析，并將查詢轉(zhuǎn)化成固定的邏輯表達(dá)式，再利用知識(shí)圖譜的語義信息將邏輯表達(dá)式轉(zhuǎn)換成知識(shí)圖譜查詢，最后以自然語言形式返回查詢結(jié)果。其優(yōu)點(diǎn)是可解釋性較強(qiáng)，但缺乏一定的通用性。例如：高勁松等[10]在構(gòu)建館藏文物資源關(guān)聯(lián)數(shù)據(jù)知識(shí)模型的基礎(chǔ)上，提出基于多粒度語義查詢的智能問答服務(wù)框架；單良等[11]通過解析自然語言語義信息，構(gòu)建了中國(guó)歷史人物知識(shí)的智能問答系統(tǒng)。③基于深度學(xué)習(xí)的方法，關(guān)鍵是將用戶的問題投射到一個(gè)高維向量空間，獲得相應(yīng)詞向量，通過深度學(xué)習(xí)模型對(duì)向量進(jìn)行相似度計(jì)算，再通過相應(yīng)打分機(jī)制獲得候選項(xiàng)排序，最后將相似度最大的候選項(xiàng)作為答案返回給用戶。其優(yōu)點(diǎn)是對(duì)復(fù)雜問題回答的正確率較高，缺點(diǎn)是模型訓(xùn)練成本較高，可解釋性較差。如朱建楠等[12]利用深度學(xué)習(xí)算法構(gòu)建了機(jī)械智能制造知識(shí)問答系統(tǒng)，姜雨嬌[13]探討了基于深度學(xué)習(xí)的蘋果生產(chǎn)知識(shí)自動(dòng)問答方法。

當(dāng)前，基于知識(shí)圖譜的智能問答系統(tǒng)相關(guān)研究和實(shí)踐應(yīng)用日益成為學(xué)界關(guān)注的焦點(diǎn)，并且已有學(xué)者在中國(guó)歷史領(lǐng)域開展了知識(shí)組織服務(wù)和智能問答系統(tǒng)的構(gòu)建與應(yīng)用。例如：肖大軍[14]在改進(jìn)表示學(xué)習(xí)中翻譯模型的基礎(chǔ)上，設(shè)計(jì)了基于知識(shí)圖譜的中國(guó)歷史人物親屬關(guān)系自動(dòng)問答系統(tǒng)；周亦等[15]依托知識(shí)圖譜等可視化技術(shù)，實(shí)現(xiàn)了中國(guó)古代歷史人物之間的復(fù)雜關(guān)聯(lián)并對(duì)其進(jìn)行可視化呈現(xiàn)；張?jiān)浦械萚16]以紅色歷史人物數(shù)字資源為核心，以知識(shí)圖譜和KBQA為框架構(gòu)建了紅色歷史人物知識(shí)問答模型，并通過實(shí)證研究證明了問答系統(tǒng)的可行性；王穎等[17]依托國(guó)史本體知識(shí)庫(kù)構(gòu)建了國(guó)史知識(shí)檢索平臺(tái)，實(shí)現(xiàn)了知識(shí)檢索、智能問答等深度檢索服務(wù)；Liu等[18]探討了基于問答數(shù)據(jù)庫(kù)與知識(shí)圖譜結(jié)合的方法，構(gòu)建遼代歷史文化領(lǐng)域智能問答系統(tǒng)。以上相關(guān)學(xué)者的研究從多方面闡述了基于知識(shí)圖譜的知識(shí)問答系統(tǒng)構(gòu)建方法與思路，對(duì)本文所構(gòu)建的問答系統(tǒng)具有借鑒意義。

目前還沒有針對(duì)中國(guó)近代這一特定歷史時(shí)期全領(lǐng)域范疇的知識(shí)問答系統(tǒng)，部分研究只聚焦于某一特定主題，或是某一較窄時(shí)間段，而且現(xiàn)有的垂直領(lǐng)域問答項(xiàng)目系統(tǒng)框架可移植性較差。此外，大部分研究實(shí)現(xiàn)了語義檢索和知識(shí)圖譜可視化，但由于模式層本體構(gòu)建不完善，未能有效規(guī)范數(shù)據(jù)層中的實(shí)例對(duì)象，并且缺乏多維細(xì)粒度的語義信息，因此導(dǎo)致歷史領(lǐng)域知識(shí)解釋性較差、系統(tǒng)性較弱、關(guān)聯(lián)性不足等問題，不利于對(duì)中國(guó)近代史內(nèi)容的關(guān)聯(lián)挖掘和細(xì)粒度知識(shí)元的語義檢索。本文以中國(guó)近代時(shí)期為經(jīng)、以歷史文獻(xiàn)內(nèi)容為緯，結(jié)合數(shù)字人文技術(shù)，構(gòu)建基于知識(shí)圖譜的知識(shí)問答系統(tǒng)，其優(yōu)點(diǎn)在于可以實(shí)現(xiàn)歷史文獻(xiàn)內(nèi)容中細(xì)粒度知識(shí)重組與語義化關(guān)聯(lián)等知識(shí)組織服務(wù)，即從歷史人物、事件、機(jī)構(gòu)、時(shí)間地點(diǎn)等多個(gè)維度出發(fā)，搭建細(xì)粒度的知識(shí)模型并使其進(jìn)行語義化關(guān)聯(lián)。

2 知識(shí)問答系統(tǒng)的總體設(shè)計(jì)

中國(guó)近代史知識(shí)問答系統(tǒng)采用MVC（Model View Controller）[19]模式進(jìn)行開發(fā)，其整體架構(gòu)（見圖1）分為展示層、邏輯層和數(shù)據(jù)層，其中數(shù)據(jù)層包括數(shù)據(jù)來源、數(shù)據(jù)處理及知識(shí)圖譜構(gòu)建，邏輯層是知識(shí)問答系統(tǒng)設(shè)計(jì)模塊，展示層是對(duì)問答系統(tǒng)的具體應(yīng)用。系統(tǒng)分層的目的是將系統(tǒng)中各部分分離，以降低不同部分之間的耦合度，以提高系統(tǒng)模型的可移植性。

圖1 中國(guó)近代史知識(shí)問答系統(tǒng)的整體架構(gòu)

數(shù)據(jù)層是問答系統(tǒng)的前提和基礎(chǔ)，采用自頂向下的方法構(gòu)建本體模式層，當(dāng)有新知識(shí)需要加入時(shí)，則采用自底向上的方法更新知識(shí)圖譜，并選擇Neo4j作為知識(shí)圖譜數(shù)據(jù)倉(cāng)儲(chǔ)，將多源異構(gòu)的數(shù)據(jù)以圖結(jié)構(gòu)的方式進(jìn)行存儲(chǔ)，既能直觀展現(xiàn)各種信息之間的關(guān)系，又能提升知識(shí)檢索效率。知識(shí)圖譜中存在大量具有語義關(guān)聯(lián)的數(shù)據(jù)使得該系統(tǒng)理解用戶提問成為可能。

邏輯層是整個(gè)問答系統(tǒng)的核心，該層主要負(fù)責(zé)問題解析和問題生成兩部分。問題解析是對(duì)用戶的自然語言提問進(jìn)行處理和識(shí)別，首先是對(duì)用戶的輸入進(jìn)行相關(guān)預(yù)處理；其次根據(jù)BERT+BILSTM+CRF算法對(duì)問句中的實(shí)體進(jìn)行識(shí)別，借助BERT+TEXTCNN算法完成用戶意圖識(shí)別工作；最后根據(jù)cypher語法生成相對(duì)應(yīng)的查詢句式，再對(duì)Neo4j數(shù)據(jù)庫(kù)進(jìn)行查詢并以通俗易懂的語句將答案返回給用戶。

展示層的工作原理是基于前端技術(shù)生成的網(wǎng)頁服務(wù)項(xiàng)目，用戶交互是其主要功能。本文構(gòu)建的基于知識(shí)圖譜前后端分離的知識(shí)問答系統(tǒng)，利用Flask框架構(gòu)建前端平臺(tái)，Neo4j作為后端數(shù)據(jù)倉(cāng)儲(chǔ)，使用Python語言完成對(duì)圖數(shù)據(jù)庫(kù)的連接及操作，最終完成與用戶的問答交互服務(wù)。

綜上，基于知識(shí)圖譜的中國(guó)近代史知識(shí)問答系統(tǒng)的實(shí)現(xiàn)由三大模塊和兩大流程構(gòu)成，三大模塊即上述MVC三層開發(fā)模式，兩大流程包括中國(guó)近代史知識(shí)圖譜的構(gòu)建流程以及知識(shí)問答系統(tǒng)的實(shí)現(xiàn)流程。

3 中國(guó)近代史知識(shí)圖譜構(gòu)建

3.1 本體層構(gòu)建

知識(shí)圖譜在邏輯上可分為模式層和實(shí)例層，模式層是知識(shí)圖譜的“骨骼框架”，是對(duì)實(shí)例層的約束和規(guī)范，也是完成知識(shí)圖譜構(gòu)建的中心內(nèi)容。本文為提高本體模型的質(zhì)量和后期知識(shí)問答實(shí)例數(shù)據(jù)的準(zhǔn)確性，通過文獻(xiàn)調(diào)研深入剖析文本內(nèi)容特征，并結(jié)合領(lǐng)域?qū)＜抑R(shí)設(shè)計(jì)相關(guān)概念、關(guān)系及屬性，運(yùn)用工具Protégé構(gòu)建中國(guó)近代史本體，完成知識(shí)建模。具體而言，首先確定中國(guó)近代史核心概念集，其次確定概念間的層次關(guān)系，再次定義類的對(duì)象屬性和數(shù)據(jù)屬性以及屬性約束。

中國(guó)近代史本體層包括“歷史人物”“歷史事件”“歷史文獻(xiàn)”“地點(diǎn)”“時(shí)間實(shí)體”“歷史時(shí)期”“思想理念”“領(lǐng)域”“行為主體”“組織機(jī)構(gòu)”10個(gè)核心概念。中國(guó)近代史本體模型共有10個(gè)一級(jí)類、53個(gè)二級(jí)類、88個(gè)三級(jí)類，以及包括數(shù)據(jù)屬性和對(duì)象屬性在內(nèi)的95個(gè)屬性約束，并根據(jù)近代史歷史知識(shí)定義了一些屬性約束和推理規(guī)則，從而確定了知識(shí)實(shí)體的分類以及實(shí)體關(guān)系類型。中國(guó)近代史本體核心概念關(guān)系模型部分展示，如圖2所示。

圖2 中國(guó)近代史本體核心概念關(guān)系模型展示（部分）

3.2 知識(shí)獲取

系統(tǒng)所需的數(shù)據(jù)來自開放數(shù)據(jù)集、網(wǎng)絡(luò)論壇、垂直站點(diǎn)、國(guó)家圖書館人物專題數(shù)據(jù)庫(kù)、電子化的文本資料、維基百科以及百度百科等，通過網(wǎng)絡(luò)爬蟲、人工篩選、自然語言處理等方式從多種數(shù)據(jù)源中獲取相關(guān)知識(shí)，并將其轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)，作為構(gòu)建知識(shí)圖譜實(shí)例層所需要的資源。

3.3 知識(shí)抽取

知識(shí)抽取是根據(jù)已定義好的本體模型，完成所需相關(guān)實(shí)體的抽取工作。本研究根據(jù)數(shù)據(jù)來源的不同，通過網(wǎng)絡(luò)爬蟲、模式匹配、包裝器適配、機(jī)器學(xué)習(xí)等方法完成實(shí)體識(shí)別、信息抽取等任務(wù)，抽取所需要的實(shí)體、關(guān)系和屬性，并將其轉(zhuǎn)換成實(shí)體關(guān)系三元組。知識(shí)抽取具體方法和步驟見參考文獻(xiàn)[20]。

3.4 知識(shí)融合

抽取后的知識(shí)存在大量重復(fù)、異名同義的實(shí)體，需要進(jìn)行實(shí)體消歧和實(shí)體對(duì)齊等知識(shí)融合的方法來對(duì)數(shù)據(jù)進(jìn)行整合。實(shí)體消歧的主要任務(wù)是把有歧義的命名實(shí)體映射到實(shí)際所指的實(shí)體概念上。實(shí)體對(duì)齊是指對(duì)具有相同指稱的不同實(shí)體進(jìn)行相互鏈接的操作。本研究通過計(jì)算相似度的方式消除歧義，如實(shí)體“辛亥革命”可能指的是作品類別中的《辛亥革命》著作，也可能指“辛亥革命”這一歷史事件。解決此類問題的方法是，先找到“辛亥革命”所有解釋的描述，由于上文通過知識(shí)獲取從各種信息源中爬取了實(shí)體的解釋內(nèi)容，因而方便轉(zhuǎn)換成向量表示，再將文本中包含“辛亥革命”的句子轉(zhuǎn)成向量，將這個(gè)向量和所有解釋的向量進(jìn)行相似度計(jì)算，選擇相似度最高的，以此完成消歧工作。歷史人物的屬性如“出生年月”“出生日期”“出生時(shí)間”等，這些屬性說法不同但都表示相同含義，則采用基于詞典匹配的屬性對(duì)齊方法。歷史文獻(xiàn)中某一地名的稱呼可能隨著時(shí)間的不同而發(fā)生改變，如“奉天府”是今“遼寧省沈陽市”的舊稱。為了使歷史文獻(xiàn)數(shù)據(jù)中的地名和當(dāng)代的行政區(qū)劃名稱統(tǒng)一，本文利用基于Python的CPCA（Chinese Province City Area）開源工具包和中國(guó)國(guó)家省市區(qū)行政區(qū)域數(shù)據(jù)庫(kù)作為參照標(biāo)準(zhǔn)，然后將已抽取的中國(guó)近代史相關(guān)地名與開放數(shù)據(jù)集進(jìn)行實(shí)體鏈接，完成實(shí)體對(duì)齊工作。

3.5 知識(shí)存儲(chǔ)

圖數(shù)據(jù)庫(kù)主要用于存儲(chǔ)更多相互關(guān)聯(lián)的數(shù)據(jù)，圖結(jié)構(gòu)相比其他數(shù)據(jù)結(jié)構(gòu)而言，能保存更多數(shù)據(jù)間的關(guān)系，能高效率地處理非結(jié)構(gòu)化等復(fù)雜數(shù)據(jù)，而且圖數(shù)據(jù)庫(kù)的維護(hù)相對(duì)容易，還可以即時(shí)呈現(xiàn)出圖譜效果。

(3)勞動(dòng)定額的確定。①充裝工的工作班制：每周5天。主要工作內(nèi)容：完成大瓶手工充裝。計(jì)算方法如下：額定時(shí)間=標(biāo)準(zhǔn)時(shí)間*(1+寬放率)=52.55*(1+15%)=60.43，每班定編=每班總工時(shí)/可用工作時(shí)間=額定時(shí)間*頻次/可用工作時(shí)間=(60.43*400/60)/410=1。

這一環(huán)節(jié)將上文抽取得到的實(shí)例知識(shí)進(jìn)行匯總處理，選擇Neo4j圖數(shù)據(jù)庫(kù)完成知識(shí)存儲(chǔ)。首先使用cypher命令語句LOAD CSV將實(shí)體和屬性導(dǎo)入圖數(shù)據(jù)庫(kù)Neo4j中，然后再將對(duì)應(yīng)的關(guān)系導(dǎo)入其中。由于本文獲取的人際關(guān)系數(shù)量較多，所以選擇采用Python工具包py2neo將其導(dǎo)入Neo4j中。知識(shí)存儲(chǔ)完畢后，便可進(jìn)行知識(shí)圖譜的可視化呈現(xiàn)，由于Neo4j自帶的展示效果可自定義選項(xiàng)較少，故選擇使用Neovis.js連接Neo4j數(shù)據(jù)庫(kù)，將JavaScript可視化和Neo4j無縫對(duì)接，可以靈活地為標(biāo)簽、屬性、節(jié)點(diǎn)和關(guān)系進(jìn)行樣式和色彩的自定義設(shè)計(jì)。本研究總共構(gòu)建了包括歷史人物、事件、機(jī)構(gòu)等在內(nèi)的11 768個(gè)實(shí)體節(jié)點(diǎn)以及16 592個(gè)三元組關(guān)系，中國(guó)近代史知識(shí)圖譜可視化（部分）展示效果見圖3。

圖3 中國(guó)近代史知識(shí)圖譜可視化（部分）展示

4 基于知識(shí)圖譜的知識(shí)問答系統(tǒng)構(gòu)建

4.1 知識(shí)問答系統(tǒng)架構(gòu)

中國(guó)近代史知識(shí)問答系統(tǒng)主要完成的功能有接受用戶的問題、對(duì)用戶的問題識(shí)別分析、檢索出最合適的答案、將問題的答案反饋給用戶，知識(shí)問答系統(tǒng)的架構(gòu)如圖4所示。

圖4 中國(guó)近代史知識(shí)問答系統(tǒng)架構(gòu)圖

用戶通過系統(tǒng)接口輸入相應(yīng)的問題語句，首先借助分詞工具進(jìn)行語句的分詞處理、去除停用詞處理等操作。本文預(yù)先訓(xùn)練相應(yīng)的BERT+TextCNN模型，對(duì)用戶意圖類別進(jìn)行分類編碼，將上文預(yù)處理得到的問題語句輸入模型，獲取用戶的意圖類別標(biāo)簽，借助BERT+BiLSTM+CRF模型抽取出文本中的實(shí)體數(shù)據(jù)，將用戶意圖類型與實(shí)體數(shù)據(jù)傳入預(yù)先定義的查詢模板，通過模板匹配，構(gòu)建出符合用戶查詢要求的cypher語法并借助py2neo庫(kù)連接到知識(shí)圖譜獲取返回結(jié)果，最后將返回?cái)?shù)據(jù)與回復(fù)模板進(jìn)行匹配，輸出答案反饋。預(yù)先構(gòu)建的回復(fù)模板是根據(jù)人類自然語言使用習(xí)慣設(shè)計(jì)而來，意在提升用戶的整體使用體驗(yàn)。

4.2 意圖識(shí)別

本研究將用戶問題劃分為人物信息類、人物關(guān)系類、事件信息類、著作信息類、人物經(jīng)歷類和地理信息類6個(gè)類別。其中，人物信息類中主要定義人物基本屬性信息、頭銜、職位、信仰、畢業(yè)院校等，人物關(guān)系類將人物實(shí)體之間的關(guān)系分為父子關(guān)系、夫妻關(guān)系、朋友關(guān)系、師生關(guān)系、同學(xué)關(guān)系等，事件信息類主要包含事件的基本屬性信息與事件簡(jiǎn)介等問題，著作信息類主要包含著作的屬性信息與相關(guān)人物等，人物經(jīng)歷類主要包含相關(guān)人物實(shí)體的歷史經(jīng)歷，地理信息類主要包含人物、事件等涉及的地理方位信息。

傳統(tǒng)基于模板的問題分類模型存在許多固有弊端，如用戶提問方式的詞匯不在模板之中，就無法正確識(shí)別用戶的意圖。本文首先采用BERT+TextCNN文本分類模型實(shí)現(xiàn)對(duì)于用戶意圖的識(shí)別，借助BERT文本預(yù)訓(xùn)練模型，將用戶提問數(shù)據(jù)進(jìn)行動(dòng)態(tài)向量化的表達(dá)，將學(xué)習(xí)到的詞向量特征，輸入到TextCNN模型之中。TextCNN是借助不同的卷積核實(shí)現(xiàn)對(duì)于不同位置序列的句子特征信息的提?。蝗缓笸ㄟ^最大值的池化操作提取文本特征；最后將獲取到的不同卷積核下的特征進(jìn)行拼接，接上Softmax層，完成對(duì)用戶意圖的識(shí)別，輸入用戶意圖的類別標(biāo)簽。

為驗(yàn)證模型的分類效果，筆者將互聯(lián)網(wǎng)收集的中學(xué)生近代史問答競(jìng)賽題數(shù)據(jù)與自行構(gòu)建的近代史問題數(shù)據(jù)進(jìn)行匯總，將不同的問題進(jìn)行分類編碼，匯總為訓(xùn)練集、驗(yàn)證集和測(cè)試集。借助訓(xùn)練集訓(xùn)練模型性能，驗(yàn)證集用于調(diào)整模型參數(shù)，測(cè)試集用于評(píng)估模型的性能。經(jīng)驗(yàn)證，準(zhǔn)確度為92.75%，召回率為93.05%，F(xiàn)1值為92.89%，模型整體效果良好，可以實(shí)現(xiàn)對(duì)于用戶的意圖識(shí)別。

4.3 實(shí)體識(shí)別

由于開源項(xiàng)目Jiagu工具包對(duì)本文所需的歷史實(shí)體抽取精度尚不理想，于是本文借助主流的BERT+BiLSTM+CRF訓(xùn)練近代史領(lǐng)域的命名實(shí)體識(shí)別模型，完成對(duì)于輸入問句中的實(shí)體數(shù)據(jù)進(jìn)行識(shí)別。該模型是由BERT嵌入層、BiLSTM雙向語義特征提取層、CRF實(shí)體序列信息標(biāo)注層搭建而成。首先將預(yù)處理完成的問題語句傳入BERT層，在該層中將問句中的字符轉(zhuǎn)化為相應(yīng)的詞向量表達(dá)。由于BERT模型中內(nèi)嵌Attention機(jī)制，可以完成對(duì)于字符級(jí)別下的權(quán)重調(diào)整，因此能更好地捕捉字符的信息特征。然后將相應(yīng)的字符向量傳入BiLSTM層，該層是將正向的LSTM與反向的LSTM層堆疊而成，既可以獲取正向的字符序列信息，又可以獲取反向的字符序列信息。借助BiLSTM獲取句子中字符所對(duì)應(yīng)的各個(gè)標(biāo)簽的得分矩陣。最后，將結(jié)果輸入到CRF層中，根據(jù)相鄰標(biāo)簽中的相關(guān)性，調(diào)節(jié)相應(yīng)的字符標(biāo)簽序列，保證最終的預(yù)測(cè)結(jié)果符合預(yù)先定義的標(biāo)注方案。

中國(guó)近代史領(lǐng)域命名實(shí)體識(shí)別模型的訓(xùn)練，首先借助前期Jiagu庫(kù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)中的人物、歷史事件、地理位置和機(jī)構(gòu)實(shí)體打上標(biāo)簽，結(jié)合人工篩選、矯正實(shí)體標(biāo)注，為所有的文本打上相應(yīng)的序列標(biāo)注信息。其中本文選用BIO（B-begin，I-inside，O-outside）序列標(biāo)注方案對(duì)于人物、歷史事件、地理名稱和機(jī)構(gòu)等非結(jié)構(gòu)化數(shù)據(jù)實(shí)體，分別采用不同的BI標(biāo)簽進(jìn)行區(qū)分，非實(shí)體數(shù)據(jù)用O表示，實(shí)體開頭用B表示，實(shí)體后續(xù)用I表示，完成初期標(biāo)注工作。其次，按照句號(hào)作為分隔符號(hào)，對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行劃分，借助BERT+BiLSTM+CRF模型對(duì)非結(jié)構(gòu)化的命名實(shí)體進(jìn)行識(shí)別。最后，對(duì)經(jīng)過訓(xùn)練后模型進(jìn)行評(píng)估后，發(fā)現(xiàn)BERT+BiLSTM+CRF模型的準(zhǔn)確率為93.1%，召回率為92.35%，F(xiàn)1值為92.72%，實(shí)體識(shí)別效果精度良好。

4.4 查詢語句構(gòu)建

借助上述的模型識(shí)別出用戶輸入的核心信息，程序?qū)⒃撔畔⑴c查詢模板進(jìn)行匹配判斷，通過Python語言中的占位符傳入字符參數(shù)，生成預(yù)先定義好的cyhper查詢語句。在6類不同的用戶意圖類別下分別搭建相應(yīng)的查詢語句模板。如“我想問一下李鴻章和張愛玲是什么關(guān)系？”，系統(tǒng)識(shí)別出相應(yīng)的用戶意圖與實(shí)體數(shù)據(jù)，構(gòu)建出相應(yīng)的cyper查詢語句，MATCH（n:歷史人物{name:"李鴻章"}）-[r]->（c:`歷史人物`{name:"張愛玲"}）。

4.5 構(gòu)建回復(fù)語句

現(xiàn)階段對(duì)于回復(fù)模板的構(gòu)建方式主要有借助模板與深度學(xué)習(xí)兩種方法，其中深度學(xué)習(xí)的方法主要借助的是Seq2Seq以及其變種的Attention等方法，通過Encode和Decode的編碼方法，實(shí)現(xiàn)多樣化的回答，但是該方法生成的回答語句還不夠嚴(yán)謹(jǐn)，綜合考慮各方因素，本文選擇借助模板生成自然語言的回復(fù)語句，就是借助py2neo實(shí)現(xiàn)腳本程序與Neo4j的數(shù)據(jù)庫(kù)連接，實(shí)現(xiàn)數(shù)據(jù)的交互。首先將生成的cypher查詢語句借助py2neo傳入圖數(shù)據(jù)庫(kù)，在知識(shí)圖譜中實(shí)現(xiàn)屬性查詢、關(guān)系查詢和實(shí)體查詢等功能，再將圖數(shù)據(jù)庫(kù)返回的數(shù)據(jù)傳入預(yù)先定義的答案回復(fù)模板，最后把通俗易懂的答案反饋給用戶。

5 知識(shí)問答系統(tǒng)測(cè)試及結(jié)果分析

用戶與問答系統(tǒng)的交互是該系統(tǒng)開發(fā)的主要功能。該系統(tǒng)不僅能回答如蔣介石有關(guān)的事件、蔡元培的生平簡(jiǎn)介、浙江籍貫的歷史名人和《定軍山》歷史作品的演員等直接信息，而且支持復(fù)雜推理信息查詢以及多問句問題等復(fù)雜查詢，如李鴻章和張愛玲的關(guān)系，歷史事件發(fā)生的時(shí)間、空間以及影響等信息的查詢。

為檢驗(yàn)中國(guó)近代史知識(shí)問答系統(tǒng)的準(zhǔn)確性，本研究選擇7位在校大學(xué)生作為志愿者，讓每個(gè)人針對(duì)不同問題類別提出10條問題，一共得到420條問題數(shù)據(jù)。借鑒以往學(xué)者的經(jīng)驗(yàn)，本文選取ACC作為整體的問答系統(tǒng)性能的評(píng)價(jià)指標(biāo)[21]。ACC是問答系統(tǒng)回答的準(zhǔn)確率，表示為系統(tǒng)回答正確問題數(shù)量與總測(cè)試語句數(shù)量的比值。經(jīng)測(cè)試統(tǒng)計(jì)可知，問答系統(tǒng)準(zhǔn)確率的均值為94%，大多數(shù)問題可以被模型精準(zhǔn)地識(shí)別并返回有效的答案語句，但回答人物信息類、事件信息類與人物經(jīng)歷類問題的準(zhǔn)確度稍低。經(jīng)回溯分析發(fā)現(xiàn)，系統(tǒng)對(duì)于人物信息類與人物經(jīng)歷類問題會(huì)出現(xiàn)類別判斷錯(cuò)誤的現(xiàn)象，是因?yàn)橛脩籼釂栠@兩種類型的信息時(shí)所用的自然語言表述語句十分相似，因此問答系統(tǒng)容易錯(cuò)誤歸類，導(dǎo)致判斷錯(cuò)誤，這些問題將在后續(xù)的研究中進(jìn)一步完善。

6 結(jié)語

本研究構(gòu)建了基于知識(shí)圖譜的智能問答系統(tǒng)，不僅能解決用戶的語義檢索問題，而且能夠通過知識(shí)圖譜可視化方式對(duì)歷史領(lǐng)域碎片化的知識(shí)進(jìn)行直觀呈現(xiàn)，幫助用戶節(jié)省大量時(shí)間和精力，直接獲取所需信息，使其從線性閱讀文檔的體力勞動(dòng)中獲得解放。該項(xiàng)目的主要特點(diǎn)如下。①通過網(wǎng)頁平臺(tái)，實(shí)現(xiàn)智能交互。依托知識(shí)圖譜技術(shù)，實(shí)現(xiàn)了從網(wǎng)頁文檔鏈接向?qū)嶓w鏈接轉(zhuǎn)變，支持用戶按主題和意圖，而不是按字符串檢索，從而實(shí)現(xiàn)真正意義上的語義檢索。②以知識(shí)圖譜為數(shù)據(jù)倉(cāng)儲(chǔ)，展現(xiàn)歷史各要素之間的復(fù)雜關(guān)聯(lián)。本系統(tǒng)實(shí)現(xiàn)了歷史人物、歷史事件各實(shí)體屬性的細(xì)粒度知識(shí)關(guān)聯(lián)，為歷史愛好者提供便利。③豐富人文學(xué)科研究手段，擴(kuò)展研究思路。本文以多學(xué)科交叉視角，從歷史文獻(xiàn)資源的開發(fā)利用入手，以知識(shí)問答系統(tǒng)構(gòu)建方案為主要內(nèi)容，以具體的實(shí)例樣本進(jìn)行驗(yàn)證和實(shí)現(xiàn)，構(gòu)建了較為完備的跨學(xué)科研究思路，能夠?yàn)橄嚓P(guān)的學(xué)科交叉研究提供借鑒和參考。

當(dāng)前，知識(shí)問答系統(tǒng)正在朝著基于深度學(xué)習(xí)的方法靠攏，解決多條推理問題以及提高模型的可解釋性仍是當(dāng)前知識(shí)問答系統(tǒng)發(fā)展的趨勢(shì)和挑戰(zhàn)。未來還需提高知識(shí)圖譜中數(shù)據(jù)的質(zhì)量，擴(kuò)充知識(shí)圖譜的范圍以提高問答知識(shí)的覆蓋率，提高對(duì)復(fù)雜問題的理解能力，打造更智能的中國(guó)近代史知識(shí)問答系統(tǒng)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放