亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)圖譜的中國(guó)近代史知識(shí)問答系統(tǒng)構(gòu)建研究*

        2022-08-16 07:12:36趙浩宇陳登建曾楨張虹雨
        數(shù)字圖書館論壇 2022年6期
        關(guān)鍵詞:近代史圖譜實(shí)體

        趙浩宇 陳登建 曾楨 張虹雨

        (貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽 550025)

        歷史文獻(xiàn)資源中蘊(yùn)含著巨大的價(jià)值,具體體現(xiàn)在歷史文獻(xiàn)資源既服務(wù)于當(dāng)代社會(huì)經(jīng)濟(jì)建設(shè),又能促進(jìn)人們的精神文化建設(shè)。當(dāng)前,因得益于信息技術(shù)的大規(guī)模應(yīng)用,文獻(xiàn)館藏機(jī)構(gòu)中浩如煙海的紙質(zhì)資源也已基本完成數(shù)字化轉(zhuǎn)型升級(jí),但由于大量經(jīng)過數(shù)字化的歷史文獻(xiàn)資源是以非結(jié)構(gòu)化的形式記載,以平面化的方式供用戶線性瀏覽閱讀,而計(jì)算機(jī)無法讀懂文本格式的非結(jié)構(gòu)化數(shù)據(jù),也無法以更細(xì)粒度的知識(shí)元進(jìn)行語義關(guān)聯(lián),檢索結(jié)果難以展示實(shí)體之間的隱含關(guān)系,一定程度上阻礙了歷史文獻(xiàn)資源的深層次開發(fā)與利用??梢?,傳統(tǒng)知識(shí)獲取方式有其固有弊端,既不利于用戶對(duì)其感興趣的歷史信息進(jìn)行語義檢索,也不利于對(duì)歷史知識(shí)脈絡(luò)進(jìn)行宏觀把握和深層了解。此外,研究中國(guó)近代史需要厘清歷史人物之間錯(cuò)綜復(fù)雜的關(guān)系,發(fā)現(xiàn)人物之間的隱性關(guān)系,探討歷史事件的發(fā)展脈絡(luò)和其中的歷史緣由,深入挖掘潛在的歷史意義和學(xué)術(shù)價(jià)值。因此,從歷史文獻(xiàn)資源的開發(fā)利用入手,以本體和知識(shí)圖譜等語義網(wǎng)技術(shù)為基礎(chǔ),以知識(shí)問答系統(tǒng)平臺(tái)為載體,以實(shí)現(xiàn)用戶意圖檢索為導(dǎo)向,構(gòu)建基于知識(shí)圖譜的中國(guó)近代史知識(shí)問答系統(tǒng),用戶可以用自然語言進(jìn)行提問直接獲取所需答案,無須把大量時(shí)間和精力浪費(fèi)在歷史文獻(xiàn)的檢索、瀏覽和篩選中,為用戶提供便利的中國(guó)近代史知識(shí)查詢服務(wù),同時(shí)還可以通過已構(gòu)建的知識(shí)圖譜可視化展示前端平臺(tái),實(shí)現(xiàn)歷史知識(shí)要素的可視化瀏覽,幫助用戶以直觀形式厘清歷史知識(shí)的關(guān)聯(lián)。

        1 相關(guān)研究回顧

        知識(shí)圖譜是通過存儲(chǔ)實(shí)體和關(guān)系來實(shí)現(xiàn)語義檢索的圖數(shù)據(jù)庫(kù),其本質(zhì)是一種大規(guī)模的語義網(wǎng)絡(luò)圖。知識(shí)圖譜和語義技術(shù)為事物的分類、屬性和關(guān)系的描述提供了新方法[1],使得搜索引擎可以直接對(duì)事物進(jìn)行索引和搜索,因此基于知識(shí)圖譜的智能問答系統(tǒng)是一種新型的信息檢索方式,本質(zhì)上是搜索引擎的高級(jí)形態(tài)[2],現(xiàn)已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域的學(xué)術(shù)研究中,并在各領(lǐng)域大放異彩。智能問答系統(tǒng)的構(gòu)想最早可追溯到1950年Turing[3]在其論文中提出的關(guān)于機(jī)器思維的問題,即機(jī)器在多大程度上能夠模仿人類并且能夠與人類展開互相問答。20世紀(jì)60年代,麻省理工學(xué)院人工智能實(shí)驗(yàn)室的Weizenbaum[4]設(shè)計(jì)了聊天機(jī)器人ELIZA,通過模式匹配和替換實(shí)現(xiàn)人機(jī)對(duì)話,并且可以模擬特定角色通過聊天的方式與人類展開互動(dòng)。20世紀(jì)70年代,隨著知識(shí)表示和自然語言處理技術(shù)的發(fā)展,以及知識(shí)庫(kù)構(gòu)建技術(shù)的成熟,促進(jìn)了問答系統(tǒng)相關(guān)研究的進(jìn)一步發(fā)展,如耶魯大學(xué)在1975年開發(fā)的SAM系統(tǒng)[5],它能夠使用腳本來理解所提的問題。在隨后的幾十年里,相關(guān)研究成果仍停留在機(jī)器與人類的簡(jiǎn)單交流上,并未實(shí)現(xiàn)真正意義上的智能問答。近年來,隨著芯片技術(shù)的高速發(fā)展,計(jì)算機(jī)的算力得到空前提升,加之自然語言處理技術(shù)的成熟,智能問答技術(shù)從特定領(lǐng)域小規(guī)模數(shù)據(jù)庫(kù)轉(zhuǎn)向基于大規(guī)模文本數(shù)據(jù)的互聯(lián)網(wǎng)開放領(lǐng)域,知識(shí)問答系統(tǒng)走入大數(shù)據(jù)時(shí)代。2011年Nature雜志上刊登了一篇關(guān)于問答系統(tǒng)的文章中指出:“以直接而準(zhǔn)確的方式回答用戶自然語言提問的自動(dòng)問答系統(tǒng)將構(gòu)成下一代搜索引擎的基本形態(tài)”[6]。由此可知,下一代搜索引擎的發(fā)展方向是向用戶返回精準(zhǔn)、有效信息的問答系統(tǒng),并且通過自然語言完成人機(jī)交互將成為知識(shí)獲取的新趨勢(shì)。

        近年來,隨著信息技術(shù)的高速發(fā)展,數(shù)字人文領(lǐng)域的研究方法和思路不斷拓寬,基于知識(shí)圖譜的知識(shí)組織方法被廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、智能問答和個(gè)性化推薦中,已成為知識(shí)服務(wù)的重要手段。目前,基于知識(shí)圖譜的知識(shí)問答系統(tǒng)主要有基于模板匹配、基于語義解析、基于深度學(xué)習(xí)3種實(shí)現(xiàn)方法。①Tunstall-Pedoe[7]早在2010年就率先提出了基于模板匹配的方法,其核心思想是將用戶提問先轉(zhuǎn)換為人為預(yù)定義的規(guī)則或模板,再轉(zhuǎn)換為可執(zhí)行的查詢操作。其優(yōu)點(diǎn)是匹配響應(yīng)速度較快、精確度較高,缺點(diǎn)是大量模板維護(hù)需要人工完成。例如:丁斌[8]采用了模板庫(kù)的方式實(shí)現(xiàn)了汽車領(lǐng)域問答系統(tǒng)的構(gòu)建;李賀等[9]結(jié)合AC多模式匹配算法實(shí)現(xiàn)對(duì)用戶問題的匹配,構(gòu)建了疾病知識(shí)圖譜的自動(dòng)問答系統(tǒng)。②基于語義解析的方法,關(guān)鍵在于對(duì)提問語句成分進(jìn)行解析,并將查詢轉(zhuǎn)化成固定的邏輯表達(dá)式,再利用知識(shí)圖譜的語義信息將邏輯表達(dá)式轉(zhuǎn)換成知識(shí)圖譜查詢,最后以自然語言形式返回查詢結(jié)果。其優(yōu)點(diǎn)是可解釋性較強(qiáng),但缺乏一定的通用性。例如:高勁松等[10]在構(gòu)建館藏文物資源關(guān)聯(lián)數(shù)據(jù)知識(shí)模型的基礎(chǔ)上,提出基于多粒度語義查詢的智能問答服務(wù)框架;單良等[11]通過解析自然語言語義信息,構(gòu)建了中國(guó)歷史人物知識(shí)的智能問答系統(tǒng)。③基于深度學(xué)習(xí)的方法,關(guān)鍵是將用戶的問題投射到一個(gè)高維向量空間,獲得相應(yīng)詞向量,通過深度學(xué)習(xí)模型對(duì)向量進(jìn)行相似度計(jì)算,再通過相應(yīng)打分機(jī)制獲得候選項(xiàng)排序,最后將相似度最大的候選項(xiàng)作為答案返回給用戶。其優(yōu)點(diǎn)是對(duì)復(fù)雜問題回答的正確率較高,缺點(diǎn)是模型訓(xùn)練成本較高,可解釋性較差。如朱建楠等[12]利用深度學(xué)習(xí)算法構(gòu)建了機(jī)械智能制造知識(shí)問答系統(tǒng),姜雨嬌[13]探討了基于深度學(xué)習(xí)的蘋果生產(chǎn)知識(shí)自動(dòng)問答方法。

        當(dāng)前,基于知識(shí)圖譜的智能問答系統(tǒng)相關(guān)研究和實(shí)踐應(yīng)用日益成為學(xué)界關(guān)注的焦點(diǎn),并且已有學(xué)者在中國(guó)歷史領(lǐng)域開展了知識(shí)組織服務(wù)和智能問答系統(tǒng)的構(gòu)建與應(yīng)用。例如:肖大軍[14]在改進(jìn)表示學(xué)習(xí)中翻譯模型的基礎(chǔ)上,設(shè)計(jì)了基于知識(shí)圖譜的中國(guó)歷史人物親屬關(guān)系自動(dòng)問答系統(tǒng);周亦等[15]依托知識(shí)圖譜等可視化技術(shù),實(shí)現(xiàn)了中國(guó)古代歷史人物之間的復(fù)雜關(guān)聯(lián)并對(duì)其進(jìn)行可視化呈現(xiàn);張?jiān)浦械萚16]以紅色歷史人物數(shù)字資源為核心,以知識(shí)圖譜和KBQA為框架構(gòu)建了紅色歷史人物知識(shí)問答模型,并通過實(shí)證研究證明了問答系統(tǒng)的可行性;王穎等[17]依托國(guó)史本體知識(shí)庫(kù)構(gòu)建了國(guó)史知識(shí)檢索平臺(tái),實(shí)現(xiàn)了知識(shí)檢索、智能問答等深度檢索服務(wù);Liu等[18]探討了基于問答數(shù)據(jù)庫(kù)與知識(shí)圖譜結(jié)合的方法,構(gòu)建遼代歷史文化領(lǐng)域智能問答系統(tǒng)。以上相關(guān)學(xué)者的研究從多方面闡述了基于知識(shí)圖譜的知識(shí)問答系統(tǒng)構(gòu)建方法與思路,對(duì)本文所構(gòu)建的問答系統(tǒng)具有借鑒意義。

        目前還沒有針對(duì)中國(guó)近代這一特定歷史時(shí)期全領(lǐng)域范疇的知識(shí)問答系統(tǒng),部分研究只聚焦于某一特定主題,或是某一較窄時(shí)間段,而且現(xiàn)有的垂直領(lǐng)域問答項(xiàng)目系統(tǒng)框架可移植性較差。此外,大部分研究實(shí)現(xiàn)了語義檢索和知識(shí)圖譜可視化,但由于模式層本體構(gòu)建不完善,未能有效規(guī)范數(shù)據(jù)層中的實(shí)例對(duì)象,并且缺乏多維細(xì)粒度的語義信息,因此導(dǎo)致歷史領(lǐng)域知識(shí)解釋性較差、系統(tǒng)性較弱、關(guān)聯(lián)性不足等問題,不利于對(duì)中國(guó)近代史內(nèi)容的關(guān)聯(lián)挖掘和細(xì)粒度知識(shí)元的語義檢索。本文以中國(guó)近代時(shí)期為經(jīng)、以歷史文獻(xiàn)內(nèi)容為緯,結(jié)合數(shù)字人文技術(shù),構(gòu)建基于知識(shí)圖譜的知識(shí)問答系統(tǒng),其優(yōu)點(diǎn)在于可以實(shí)現(xiàn)歷史文獻(xiàn)內(nèi)容中細(xì)粒度知識(shí)重組與語義化關(guān)聯(lián)等知識(shí)組織服務(wù),即從歷史人物、事件、機(jī)構(gòu)、時(shí)間地點(diǎn)等多個(gè)維度出發(fā),搭建細(xì)粒度的知識(shí)模型并使其進(jìn)行語義化關(guān)聯(lián)。

        2 知識(shí)問答系統(tǒng)的總體設(shè)計(jì)

        中國(guó)近代史知識(shí)問答系統(tǒng)采用MVC(Model View Controller)[19]模式進(jìn)行開發(fā),其整體架構(gòu)(見圖1)分為展示層、邏輯層和數(shù)據(jù)層,其中數(shù)據(jù)層包括數(shù)據(jù)來源、數(shù)據(jù)處理及知識(shí)圖譜構(gòu)建,邏輯層是知識(shí)問答系統(tǒng)設(shè)計(jì)模塊,展示層是對(duì)問答系統(tǒng)的具體應(yīng)用。系統(tǒng)分層的目的是將系統(tǒng)中各部分分離,以降低不同部分之間的耦合度,以提高系統(tǒng)模型的可移植性。

        圖1 中國(guó)近代史知識(shí)問答系統(tǒng)的整體架構(gòu)

        數(shù)據(jù)層是問答系統(tǒng)的前提和基礎(chǔ),采用自頂向下的方法構(gòu)建本體模式層,當(dāng)有新知識(shí)需要加入時(shí),則采用自底向上的方法更新知識(shí)圖譜,并選擇Neo4j作為知識(shí)圖譜數(shù)據(jù)倉(cāng)儲(chǔ),將多源異構(gòu)的數(shù)據(jù)以圖結(jié)構(gòu)的方式進(jìn)行存儲(chǔ),既能直觀展現(xiàn)各種信息之間的關(guān)系,又能提升知識(shí)檢索效率。知識(shí)圖譜中存在大量具有語義關(guān)聯(lián)的數(shù)據(jù)使得該系統(tǒng)理解用戶提問成為可能。

        邏輯層是整個(gè)問答系統(tǒng)的核心,該層主要負(fù)責(zé)問題解析和問題生成兩部分。問題解析是對(duì)用戶的自然語言提問進(jìn)行處理和識(shí)別,首先是對(duì)用戶的輸入進(jìn)行相關(guān)預(yù)處理;其次根據(jù)BERT+BILSTM+CRF算法對(duì)問句中的實(shí)體進(jìn)行識(shí)別,借助BERT+TEXTCNN算法完成用戶意圖識(shí)別工作;最后根據(jù)cypher語法生成相對(duì)應(yīng)的查詢句式,再對(duì)Neo4j數(shù)據(jù)庫(kù)進(jìn)行查詢并以通俗易懂的語句將答案返回給用戶。

        展示層的工作原理是基于前端技術(shù)生成的網(wǎng)頁服務(wù)項(xiàng)目,用戶交互是其主要功能。本文構(gòu)建的基于知識(shí)圖譜前后端分離的知識(shí)問答系統(tǒng),利用Flask框架構(gòu)建前端平臺(tái),Neo4j作為后端數(shù)據(jù)倉(cāng)儲(chǔ),使用Python語言完成對(duì)圖數(shù)據(jù)庫(kù)的連接及操作,最終完成與用戶的問答交互服務(wù)。

        綜上,基于知識(shí)圖譜的中國(guó)近代史知識(shí)問答系統(tǒng)的實(shí)現(xiàn)由三大模塊和兩大流程構(gòu)成,三大模塊即上述MVC三層開發(fā)模式,兩大流程包括中國(guó)近代史知識(shí)圖譜的構(gòu)建流程以及知識(shí)問答系統(tǒng)的實(shí)現(xiàn)流程。

        3 中國(guó)近代史知識(shí)圖譜構(gòu)建

        3.1 本體層構(gòu)建

        知識(shí)圖譜在邏輯上可分為模式層和實(shí)例層,模式層是知識(shí)圖譜的“骨骼框架”,是對(duì)實(shí)例層的約束和規(guī)范,也是完成知識(shí)圖譜構(gòu)建的中心內(nèi)容。本文為提高本體模型的質(zhì)量和后期知識(shí)問答實(shí)例數(shù)據(jù)的準(zhǔn)確性,通過文獻(xiàn)調(diào)研深入剖析文本內(nèi)容特征,并結(jié)合領(lǐng)域?qū)<抑R(shí)設(shè)計(jì)相關(guān)概念、關(guān)系及屬性,運(yùn)用工具Protégé構(gòu)建中國(guó)近代史本體,完成知識(shí)建模。具體而言,首先確定中國(guó)近代史核心概念集,其次確定概念間的層次關(guān)系,再次定義類的對(duì)象屬性和數(shù)據(jù)屬性以及屬性約束。

        中國(guó)近代史本體層包括“歷史人物”“歷史事件”“歷史文獻(xiàn)”“地點(diǎn)”“時(shí)間實(shí)體”“歷史時(shí)期”“思想理念”“領(lǐng)域”“行為主體”“組織機(jī)構(gòu)”10個(gè)核心概念。中國(guó)近代史本體模型共有10個(gè)一級(jí)類、53個(gè)二級(jí)類、88個(gè)三級(jí)類,以及包括數(shù)據(jù)屬性和對(duì)象屬性在內(nèi)的95個(gè)屬性約束,并根據(jù)近代史歷史知識(shí)定義了一些屬性約束和推理規(guī)則,從而確定了知識(shí)實(shí)體的分類以及實(shí)體關(guān)系類型。中國(guó)近代史本體核心概念關(guān)系模型部分展示,如圖2所示。

        圖2 中國(guó)近代史本體核心概念關(guān)系模型展示(部分)

        3.2 知識(shí)獲取

        系統(tǒng)所需的數(shù)據(jù)來自開放數(shù)據(jù)集、網(wǎng)絡(luò)論壇、垂直站點(diǎn)、國(guó)家圖書館人物專題數(shù)據(jù)庫(kù)、電子化的文本資料、維基百科以及百度百科等,通過網(wǎng)絡(luò)爬蟲、人工篩選、自然語言處理等方式從多種數(shù)據(jù)源中獲取相關(guān)知識(shí),并將其轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),作為構(gòu)建知識(shí)圖譜實(shí)例層所需要的資源。

        3.3 知識(shí)抽取

        知識(shí)抽取是根據(jù)已定義好的本體模型,完成所需相關(guān)實(shí)體的抽取工作。本研究根據(jù)數(shù)據(jù)來源的不同,通過網(wǎng)絡(luò)爬蟲、模式匹配、包裝器適配、機(jī)器學(xué)習(xí)等方法完成實(shí)體識(shí)別、信息抽取等任務(wù),抽取所需要的實(shí)體、關(guān)系和屬性,并將其轉(zhuǎn)換成實(shí)體關(guān)系三元組。知識(shí)抽取具體方法和步驟見參考文獻(xiàn)[20]。

        3.4 知識(shí)融合

        抽取后的知識(shí)存在大量重復(fù)、異名同義的實(shí)體,需要進(jìn)行實(shí)體消歧和實(shí)體對(duì)齊等知識(shí)融合的方法來對(duì)數(shù)據(jù)進(jìn)行整合。實(shí)體消歧的主要任務(wù)是把有歧義的命名實(shí)體映射到實(shí)際所指的實(shí)體概念上。實(shí)體對(duì)齊是指對(duì)具有相同指稱的不同實(shí)體進(jìn)行相互鏈接的操作。本研究通過計(jì)算相似度的方式消除歧義,如實(shí)體“辛亥革命”可能指的是作品類別中的《辛亥革命》著作,也可能指“辛亥革命”這一歷史事件。解決此類問題的方法是,先找到“辛亥革命”所有解釋的描述,由于上文通過知識(shí)獲取從各種信息源中爬取了實(shí)體的解釋內(nèi)容,因而方便轉(zhuǎn)換成向量表示,再將文本中包含“辛亥革命”的句子轉(zhuǎn)成向量,將這個(gè)向量和所有解釋的向量進(jìn)行相似度計(jì)算,選擇相似度最高的,以此完成消歧工作。歷史人物的屬性如“出生年月”“出生日期”“出生時(shí)間”等,這些屬性說法不同但都表示相同含義,則采用基于詞典匹配的屬性對(duì)齊方法。歷史文獻(xiàn)中某一地名的稱呼可能隨著時(shí)間的不同而發(fā)生改變,如“奉天府”是今“遼寧省沈陽市”的舊稱。為了使歷史文獻(xiàn)數(shù)據(jù)中的地名和當(dāng)代的行政區(qū)劃名稱統(tǒng)一,本文利用基于Python的CPCA(Chinese Province City Area)開源工具包和中國(guó)國(guó)家省市區(qū)行政區(qū)域數(shù)據(jù)庫(kù)作為參照標(biāo)準(zhǔn),然后將已抽取的中國(guó)近代史相關(guān)地名與開放數(shù)據(jù)集進(jìn)行實(shí)體鏈接,完成實(shí)體對(duì)齊工作。

        3.5 知識(shí)存儲(chǔ)

        圖數(shù)據(jù)庫(kù)主要用于存儲(chǔ)更多相互關(guān)聯(lián)的數(shù)據(jù),圖結(jié)構(gòu)相比其他數(shù)據(jù)結(jié)構(gòu)而言,能保存更多數(shù)據(jù)間的關(guān)系,能高效率地處理非結(jié)構(gòu)化等復(fù)雜數(shù)據(jù),而且圖數(shù)據(jù)庫(kù)的維護(hù)相對(duì)容易,還可以即時(shí)呈現(xiàn)出圖譜效果。

        (3)勞動(dòng)定額的確定。①充裝工的工作班制:每周5天。主要工作內(nèi)容:完成大瓶手工充裝。計(jì)算方法如下:額定時(shí)間=標(biāo)準(zhǔn)時(shí)間*(1+寬放率)=52.55*(1+15%)=60.43,每班定編=每班總工時(shí)/可用工作時(shí)間=額定時(shí)間*頻次/可用工作時(shí)間=(60.43*400/60)/410=1。

        這一環(huán)節(jié)將上文抽取得到的實(shí)例知識(shí)進(jìn)行匯總處理,選擇Neo4j圖數(shù)據(jù)庫(kù)完成知識(shí)存儲(chǔ)。首先使用cypher命令語句LOAD CSV將實(shí)體和屬性導(dǎo)入圖數(shù)據(jù)庫(kù)Neo4j中,然后再將對(duì)應(yīng)的關(guān)系導(dǎo)入其中。由于本文獲取的人際關(guān)系數(shù)量較多,所以選擇采用Python工具包py2neo將其導(dǎo)入Neo4j中。知識(shí)存儲(chǔ)完畢后,便可進(jìn)行知識(shí)圖譜的可視化呈現(xiàn),由于Neo4j自帶的展示效果可自定義選項(xiàng)較少,故選擇使用Neovis.js連接Neo4j數(shù)據(jù)庫(kù),將JavaScript可視化和Neo4j無縫對(duì)接,可以靈活地為標(biāo)簽、屬性、節(jié)點(diǎn)和關(guān)系進(jìn)行樣式和色彩的自定義設(shè)計(jì)。本研究總共構(gòu)建了包括歷史人物、事件、機(jī)構(gòu)等在內(nèi)的11 768個(gè)實(shí)體節(jié)點(diǎn)以及16 592個(gè)三元組關(guān)系,中國(guó)近代史知識(shí)圖譜可視化(部分)展示效果見圖3。

        圖3 中國(guó)近代史知識(shí)圖譜可視化(部分)展示

        4 基于知識(shí)圖譜的知識(shí)問答系統(tǒng)構(gòu)建

        4.1 知識(shí)問答系統(tǒng)架構(gòu)

        中國(guó)近代史知識(shí)問答系統(tǒng)主要完成的功能有接受用戶的問題、對(duì)用戶的問題識(shí)別分析、檢索出最合適的答案、將問題的答案反饋給用戶,知識(shí)問答系統(tǒng)的架構(gòu)如圖4所示。

        圖4 中國(guó)近代史知識(shí)問答系統(tǒng)架構(gòu)圖

        用戶通過系統(tǒng)接口輸入相應(yīng)的問題語句,首先借助分詞工具進(jìn)行語句的分詞處理、去除停用詞處理等操作。本文預(yù)先訓(xùn)練相應(yīng)的BERT+TextCNN模型,對(duì)用戶意圖類別進(jìn)行分類編碼,將上文預(yù)處理得到的問題語句輸入模型,獲取用戶的意圖類別標(biāo)簽,借助BERT+BiLSTM+CRF模型抽取出文本中的實(shí)體數(shù)據(jù),將用戶意圖類型與實(shí)體數(shù)據(jù)傳入預(yù)先定義的查詢模板,通過模板匹配,構(gòu)建出符合用戶查詢要求的cypher語法并借助py2neo庫(kù)連接到知識(shí)圖譜獲取返回結(jié)果,最后將返回?cái)?shù)據(jù)與回復(fù)模板進(jìn)行匹配,輸出答案反饋。預(yù)先構(gòu)建的回復(fù)模板是根據(jù)人類自然語言使用習(xí)慣設(shè)計(jì)而來,意在提升用戶的整體使用體驗(yàn)。

        4.2 意圖識(shí)別

        本研究將用戶問題劃分為人物信息類、人物關(guān)系類、事件信息類、著作信息類、人物經(jīng)歷類和地理信息類6個(gè)類別。其中,人物信息類中主要定義人物基本屬性信息、頭銜、職位、信仰、畢業(yè)院校等,人物關(guān)系類將人物實(shí)體之間的關(guān)系分為父子關(guān)系、夫妻關(guān)系、朋友關(guān)系、師生關(guān)系、同學(xué)關(guān)系等,事件信息類主要包含事件的基本屬性信息與事件簡(jiǎn)介等問題,著作信息類主要包含著作的屬性信息與相關(guān)人物等,人物經(jīng)歷類主要包含相關(guān)人物實(shí)體的歷史經(jīng)歷,地理信息類主要包含人物、事件等涉及的地理方位信息。

        傳統(tǒng)基于模板的問題分類模型存在許多固有弊端,如用戶提問方式的詞匯不在模板之中,就無法正確識(shí)別用戶的意圖。本文首先采用BERT+TextCNN文本分類模型實(shí)現(xiàn)對(duì)于用戶意圖的識(shí)別,借助BERT文本預(yù)訓(xùn)練模型,將用戶提問數(shù)據(jù)進(jìn)行動(dòng)態(tài)向量化的表達(dá),將學(xué)習(xí)到的詞向量特征,輸入到TextCNN模型之中。TextCNN是借助不同的卷積核實(shí)現(xiàn)對(duì)于不同位置序列的句子特征信息的提?。蝗缓笸ㄟ^最大值的池化操作提取文本特征;最后將獲取到的不同卷積核下的特征進(jìn)行拼接,接上Softmax層,完成對(duì)用戶意圖的識(shí)別,輸入用戶意圖的類別標(biāo)簽。

        為驗(yàn)證模型的分類效果,筆者將互聯(lián)網(wǎng)收集的中學(xué)生近代史問答競(jìng)賽題數(shù)據(jù)與自行構(gòu)建的近代史問題數(shù)據(jù)進(jìn)行匯總,將不同的問題進(jìn)行分類編碼,匯總為訓(xùn)練集、驗(yàn)證集和測(cè)試集。借助訓(xùn)練集訓(xùn)練模型性能,驗(yàn)證集用于調(diào)整模型參數(shù),測(cè)試集用于評(píng)估模型的性能。經(jīng)驗(yàn)證,準(zhǔn)確度為92.75%,召回率為93.05%,F(xiàn)1值為92.89%,模型整體效果良好,可以實(shí)現(xiàn)對(duì)于用戶的意圖識(shí)別。

        4.3 實(shí)體識(shí)別

        由于開源項(xiàng)目Jiagu工具包對(duì)本文所需的歷史實(shí)體抽取精度尚不理想,于是本文借助主流的BERT+BiLSTM+CRF訓(xùn)練近代史領(lǐng)域的命名實(shí)體識(shí)別模型,完成對(duì)于輸入問句中的實(shí)體數(shù)據(jù)進(jìn)行識(shí)別。該模型是由BERT嵌入層、BiLSTM雙向語義特征提取層、CRF實(shí)體序列信息標(biāo)注層搭建而成。首先將預(yù)處理完成的問題語句傳入BERT層,在該層中將問句中的字符轉(zhuǎn)化為相應(yīng)的詞向量表達(dá)。由于BERT模型中內(nèi)嵌Attention機(jī)制,可以完成對(duì)于字符級(jí)別下的權(quán)重調(diào)整,因此能更好地捕捉字符的信息特征。然后將相應(yīng)的字符向量傳入BiLSTM層,該層是將正向的LSTM與反向的LSTM層堆疊而成,既可以獲取正向的字符序列信息,又可以獲取反向的字符序列信息。借助BiLSTM獲取句子中字符所對(duì)應(yīng)的各個(gè)標(biāo)簽的得分矩陣。最后,將結(jié)果輸入到CRF層中,根據(jù)相鄰標(biāo)簽中的相關(guān)性,調(diào)節(jié)相應(yīng)的字符標(biāo)簽序列,保證最終的預(yù)測(cè)結(jié)果符合預(yù)先定義的標(biāo)注方案。

        中國(guó)近代史領(lǐng)域命名實(shí)體識(shí)別模型的訓(xùn)練,首先借助前期Jiagu庫(kù)對(duì)非結(jié)構(gòu)化數(shù)據(jù)中的人物、歷史事件、地理位置和機(jī)構(gòu)實(shí)體打上標(biāo)簽,結(jié)合人工篩選、矯正實(shí)體標(biāo)注,為所有的文本打上相應(yīng)的序列標(biāo)注信息。其中本文選用BIO(B-begin,I-inside,O-outside)序列標(biāo)注方案對(duì)于人物、歷史事件、地理名稱和機(jī)構(gòu)等非結(jié)構(gòu)化數(shù)據(jù)實(shí)體,分別采用不同的BI標(biāo)簽進(jìn)行區(qū)分,非實(shí)體數(shù)據(jù)用O表示,實(shí)體開頭用B表示,實(shí)體后續(xù)用I表示,完成初期標(biāo)注工作。其次,按照句號(hào)作為分隔符號(hào),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行劃分,借助BERT+BiLSTM+CRF模型對(duì)非結(jié)構(gòu)化的命名實(shí)體進(jìn)行識(shí)別。最后,對(duì)經(jīng)過訓(xùn)練后模型進(jìn)行評(píng)估后,發(fā)現(xiàn)BERT+BiLSTM+CRF模型的準(zhǔn)確率為93.1%,召回率為92.35%,F(xiàn)1值為92.72%,實(shí)體識(shí)別效果精度良好。

        4.4 查詢語句構(gòu)建

        借助上述的模型識(shí)別出用戶輸入的核心信息,程序?qū)⒃撔畔⑴c查詢模板進(jìn)行匹配判斷,通過Python語言中的占位符傳入字符參數(shù),生成預(yù)先定義好的cyhper查詢語句。在6類不同的用戶意圖類別下分別搭建相應(yīng)的查詢語句模板。如“我想問一下李鴻章和張愛玲是什么關(guān)系?”,系統(tǒng)識(shí)別出相應(yīng)的用戶意圖與實(shí)體數(shù)據(jù),構(gòu)建出相應(yīng)的cyper查詢語句,MATCH(n:歷史人物{name:"李鴻章"})-[r]->(c:`歷史人物`{name:"張愛玲"})。

        4.5 構(gòu)建回復(fù)語句

        現(xiàn)階段對(duì)于回復(fù)模板的構(gòu)建方式主要有借助模板與深度學(xué)習(xí)兩種方法,其中深度學(xué)習(xí)的方法主要借助的是Seq2Seq以及其變種的Attention等方法,通過Encode和Decode的編碼方法,實(shí)現(xiàn)多樣化的回答,但是該方法生成的回答語句還不夠嚴(yán)謹(jǐn),綜合考慮各方因素,本文選擇借助模板生成自然語言的回復(fù)語句,就是借助py2neo實(shí)現(xiàn)腳本程序與Neo4j的數(shù)據(jù)庫(kù)連接,實(shí)現(xiàn)數(shù)據(jù)的交互。首先將生成的cypher查詢語句借助py2neo傳入圖數(shù)據(jù)庫(kù),在知識(shí)圖譜中實(shí)現(xiàn)屬性查詢、關(guān)系查詢和實(shí)體查詢等功能,再將圖數(shù)據(jù)庫(kù)返回的數(shù)據(jù)傳入預(yù)先定義的答案回復(fù)模板,最后把通俗易懂的答案反饋給用戶。

        5 知識(shí)問答系統(tǒng)測(cè)試及結(jié)果分析

        用戶與問答系統(tǒng)的交互是該系統(tǒng)開發(fā)的主要功能。該系統(tǒng)不僅能回答如蔣介石有關(guān)的事件、蔡元培的生平簡(jiǎn)介、浙江籍貫的歷史名人和《定軍山》歷史作品的演員等直接信息,而且支持復(fù)雜推理信息查詢以及多問句問題等復(fù)雜查詢,如李鴻章和張愛玲的關(guān)系,歷史事件發(fā)生的時(shí)間、空間以及影響等信息的查詢。

        為檢驗(yàn)中國(guó)近代史知識(shí)問答系統(tǒng)的準(zhǔn)確性,本研究選擇7位在校大學(xué)生作為志愿者,讓每個(gè)人針對(duì)不同問題類別提出10條問題,一共得到420條問題數(shù)據(jù)。借鑒以往學(xué)者的經(jīng)驗(yàn),本文選取ACC作為整體的問答系統(tǒng)性能的評(píng)價(jià)指標(biāo)[21]。ACC是問答系統(tǒng)回答的準(zhǔn)確率,表示為系統(tǒng)回答正確問題數(shù)量與總測(cè)試語句數(shù)量的比值。經(jīng)測(cè)試統(tǒng)計(jì)可知,問答系統(tǒng)準(zhǔn)確率的均值為94%,大多數(shù)問題可以被模型精準(zhǔn)地識(shí)別并返回有效的答案語句,但回答人物信息類、事件信息類與人物經(jīng)歷類問題的準(zhǔn)確度稍低。經(jīng)回溯分析發(fā)現(xiàn),系統(tǒng)對(duì)于人物信息類與人物經(jīng)歷類問題會(huì)出現(xiàn)類別判斷錯(cuò)誤的現(xiàn)象,是因?yàn)橛脩籼釂栠@兩種類型的信息時(shí)所用的自然語言表述語句十分相似,因此問答系統(tǒng)容易錯(cuò)誤歸類,導(dǎo)致判斷錯(cuò)誤,這些問題將在后續(xù)的研究中進(jìn)一步完善。

        6 結(jié)語

        本研究構(gòu)建了基于知識(shí)圖譜的智能問答系統(tǒng),不僅能解決用戶的語義檢索問題,而且能夠通過知識(shí)圖譜可視化方式對(duì)歷史領(lǐng)域碎片化的知識(shí)進(jìn)行直觀呈現(xiàn),幫助用戶節(jié)省大量時(shí)間和精力,直接獲取所需信息,使其從線性閱讀文檔的體力勞動(dòng)中獲得解放。該項(xiàng)目的主要特點(diǎn)如下。①通過網(wǎng)頁平臺(tái),實(shí)現(xiàn)智能交互。依托知識(shí)圖譜技術(shù),實(shí)現(xiàn)了從網(wǎng)頁文檔鏈接向?qū)嶓w鏈接轉(zhuǎn)變,支持用戶按主題和意圖,而不是按字符串檢索,從而實(shí)現(xiàn)真正意義上的語義檢索。②以知識(shí)圖譜為數(shù)據(jù)倉(cāng)儲(chǔ),展現(xiàn)歷史各要素之間的復(fù)雜關(guān)聯(lián)。本系統(tǒng)實(shí)現(xiàn)了歷史人物、歷史事件各實(shí)體屬性的細(xì)粒度知識(shí)關(guān)聯(lián),為歷史愛好者提供便利。③豐富人文學(xué)科研究手段,擴(kuò)展研究思路。本文以多學(xué)科交叉視角,從歷史文獻(xiàn)資源的開發(fā)利用入手,以知識(shí)問答系統(tǒng)構(gòu)建方案為主要內(nèi)容,以具體的實(shí)例樣本進(jìn)行驗(yàn)證和實(shí)現(xiàn),構(gòu)建了較為完備的跨學(xué)科研究思路,能夠?yàn)橄嚓P(guān)的學(xué)科交叉研究提供借鑒和參考。

        當(dāng)前,知識(shí)問答系統(tǒng)正在朝著基于深度學(xué)習(xí)的方法靠攏,解決多條推理問題以及提高模型的可解釋性仍是當(dāng)前知識(shí)問答系統(tǒng)發(fā)展的趨勢(shì)和挑戰(zhàn)。未來還需提高知識(shí)圖譜中數(shù)據(jù)的質(zhì)量,擴(kuò)充知識(shí)圖譜的范圍以提高問答知識(shí)的覆蓋率,提高對(duì)復(fù)雜問題的理解能力,打造更智能的中國(guó)近代史知識(shí)問答系統(tǒng)。

        猜你喜歡
        近代史圖譜實(shí)體
        繪一張成長(zhǎng)圖譜
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        品讀《中國(guó)近代史》背后的“近代史”
        補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        近代史上的幾個(gè)問題(三)
        近代史上的幾個(gè)問題(二)
        近代史上的幾個(gè)問題
        日本一区二区久久精品亚洲中文无| 日韩人妻无码精品久久免费一| 中国凸偷窥xxxx自由视频妇科 | 亚洲国产精品国自产拍av在线| 亚洲av产在线精品亚洲第三站| 日本一极品久久99精品| 国产在线精彩自拍视频| 成人av资源在线观看| 综合亚洲伊人午夜网| 欧美黑人性暴力猛交喷水黑人巨大| 亚洲欧美欧美一区二区三区| 加勒比东京热久久综合| 粉嫩av最新在线高清观看| 国模雨珍浓密毛大尺度150p| 在线永久看片免费的视频| 中文字幕无码免费久久9| 日本本土精品午夜视频| 免费a级毛片18禁网站免费| 日本50岁丰满熟妇xxxx| 久久亚洲AV无码精品色午夜| 日本在线一区二区三区四区 | 国产又粗又猛又黄色呦呦| 日本在线观看不卡一区二区| 国产成人精品午夜二三区波多野| 国产成人综合一区二区三区| 久久久精品人妻一区二| 精品亚洲第一区二区三区| 亚洲av无码乱码国产一区二区| 看国产黄大片在线观看| 久久99久久99精品免观看女同| 99久久婷婷国产精品网| 特黄做受又硬又粗又大视频小说| 最新国产乱视频伦在线| 超短裙老师在线观看一区二区| 成人av片在线观看免费| 亚洲高潮喷水无码av电影| 欧美亚洲另类自拍偷在线拍| 偷拍综合在线视频二区日韩| 久久久久无码精品国产app | 果冻蜜桃传媒在线观看| 日本一区二区三区人妻|