亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征實體消歧的中文知識圖譜問答

        2022-02-24 05:06:18張鵬舉賈永輝陳文亮
        計算機工程 2022年2期
        關鍵詞:語義模型

        張鵬舉,賈永輝,陳文亮

        (蘇州大學計算機科學與技術(shù)學院,江蘇蘇州 215006)

        0 概述

        隨著互聯(lián)網(wǎng)信息資源激增,傳統(tǒng)的搜索引擎無論從效率還是準確率上,都難以滿足用戶精準搜索信息的需求。因此,問答系統(tǒng)被提出并迅速發(fā)展,其應用于人工智能、自然語言處理和信息檢索領域獲得了較好的效果,是目前具有較大發(fā)展前景的研究熱點[1]。而在問答系統(tǒng)中,知識圖譜問答(Knowledge Based Question Answering,KBQA)是重要組 成部分。

        知識圖譜問答系統(tǒng)的相關研究備受矚目,與知識圖譜的快速發(fā)展有密切關系。知識圖譜由谷歌于2012 年5 月17 日提出,其初衷是為了提高搜索引擎性能,改善用戶的搜索質(zhì)量以及搜索體驗。知識圖譜[2]旨在描述真實世界中存在的各種實體或概念及其關系,構(gòu)成一張巨大的語義網(wǎng)絡圖。在知識圖譜中,節(jié)點代表實體或概念,邊則表示屬性或關系。目前知識圖譜使用較為廣泛的存儲框架為資源描述框架(Resource Description Framework,RDF),表示形式一般用SPO(Subject-Predicate-Object)三元組表示,即“主語-謂語-賓語”。其中,“主語”一般為實體,“謂語”一般為關系或者屬性,“賓語”一般為實體或者屬性值。整個三元組表征了實體與實體之間的信息以及實體與自身屬性之間的信息。

        KBQA 系統(tǒng)的工作流程包含多個步驟。首先對于不同類別的問題需要進行分類處理。例如對問句“球星姚明的妻子是誰?”(涉及1 個三元組)與“球星姚明妻子的星座是什么?”(涉及2 個三元組)屬于2 種不同類型的問句,需要進行分類處理。其次要進行實體鏈接,即對問句進行實體識別與實體消歧。在實體鏈接中先要識別出問句中對應的主題實體提及,再從實體提及對應的所有候選實體中確定問句對應的唯一正確實體,最終完成實體鏈接。例如從問句中識別出“姚明”并鏈接到知識庫中的實體節(jié)點“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”。接著要對問句進行關系抽取,得到關系“妻子”“星座”,完成主題實體對應的關系抽取。最后在獲得主題實體及其對應的關系后,進行三元組搜索“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>---妻子---葉莉_(中國著名籃球運動員)---星座---天蝎座_(占星學)”,得到“天蝎座_(占星學)”作為答案[3],完成最終的問答。

        對于知識圖譜問答系統(tǒng),實體鏈接是至關重要的,只有確定了主題實體,才能根據(jù)實體對應的關系、屬性三元組進行推理、判斷,從而得到最終的答案。一旦實體鏈接出錯,問答系統(tǒng)的后續(xù)工作就沒有任何意義。實體鏈接一般分為主題實體識別和實體消歧2 個步驟。實體識別模塊可以采用序列標注模型和規(guī)則匹配結(jié)合的方法來進行,相對而言比較容易,并且還能取得較好的效果。然而,實體消歧較難取得很好的效果,這是因為單單從實體本身的信息來看,并不能完全確定問句對應的最優(yōu)實體。例如實體提及“姚明”對應知識庫中就有2 個實體“:<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”和“<姚明_(陜西省城固縣鹽務局副局長)>”,而對于問句“姚明的職業(yè)生涯最高得分是多少?”,要進行最優(yōu)實體的選取就難以下手。因此,實體消歧部分是實體鏈接的關鍵。

        近年來,在很多大會評測比賽中都有單獨的實體鏈接任務。然而,知識圖譜問答中的實體鏈接與這些發(fā)展成熟的實體鏈接卻有所差別。因為在正常的實體鏈接任務中,會給出實體對應的描述文段,進而從文段中抽取出重要的信息進行實體消歧,但是在知識圖譜問答中,并沒有實體對應的描述文檔來幫助進行實體消歧,而只能借助實體對應的三元組信息。針對這一問題,本文構(gòu)建一個多特征實體消歧模型,通過考慮實體知名度特征和問句與實體的多方面特征優(yōu)化實體消歧過程,并在此基礎上構(gòu)建一個完整的知識圖譜問答系統(tǒng)。

        1 相關工作

        1.1 實體鏈接

        實體鏈接[4]是指將文檔中出現(xiàn)的文本片段(即實體提及)鏈向特定知識庫中相應條目的過程,也被稱作命名實體鏈接,其采用的知識庫一般為較全面、較具體的知識庫,如TAP、維基百科等。

        實體鏈接包含實體識別和實體消歧2 項關鍵技術(shù)。實體識別旨在從文檔中識別出可能鏈向知識庫中特定條目的實體提及,也被稱作命名實體識別。由于自然語言中普遍存在一詞多義和別名現(xiàn)象,通過所識別的實體提及在多數(shù)情況下并不能唯一確定其所指向的實體,因此需要利用實體消歧技術(shù),根據(jù)給定實體提及所在上下文,確定其所指向的實體。目前實體消歧大多采用分類方法、機器學習排序方法、基于圖的方法、模型集成方法等。

        對于中文實體鏈接任務,主要以中國計算機學會(CCF)或者中國中文信息學會舉辦的大會比賽評測任務為主,常見的有中國計算機學會國際自然語言處理與中文計算會議(NLPCC)與全國知識圖譜與語義計算大會(CCKS)的實體鏈接評測任務,各參賽隊伍使用機器學習排序方法居多。

        1.2 知識圖譜問答

        知識圖譜問答(KBQA)是一個具有吸引力和挑戰(zhàn)性的任 務,其最早伴 隨Freebase[5]、DBpedia[6]、YAGO[7]等大型知識庫的出現(xiàn)而出現(xiàn)在人們視野中。簡而言之,KBQA 任務定義為:以客觀事實為基礎,將自然語言問題作為輸入、知識圖譜中的實體或者屬性值作為輸出的一個綜合性較高的任務??傮w上KBQA 方法分為兩大類,一類是基于信息檢索的方法,另一類是基于語義解析的方法。

        基于信息檢索的KBQA 方法主要是通過構(gòu)建不同的排序模型對檢索出的候選答案信息進行排序,得到最優(yōu)候選答案來完成KBQA。BORDES 等[8]提出先采用語義詞向量嵌入的方法來表示問句和答案信息,再通過編碼計算其相似度來進行知識圖譜問答。此后,隨著神經(jīng)網(wǎng)絡的興起,越來越多的研究者采用神經(jīng)網(wǎng)絡模型(例如卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡等)編碼問句和答案來計算相似度,并且獲得了不錯的效果[9-11]。

        基于語義解析 的KBQA方法[12-14]相對比較 傳統(tǒng),其通過對問句進行語義解析,得到對應的結(jié)構(gòu)化查詢圖或者邏輯表達式,然后轉(zhuǎn)化為結(jié)構(gòu)化的查詢語言(例如SPARQL)查詢知識庫得到最終答案。但是由于語義解析需要復雜的推理過程以及大量的手工規(guī)則特征,因此基于語義解析的方法實現(xiàn)起來頗有難度。

        KBQA 領域的研究最早是由國外KBQA 研究者引領,并且他們提出的各種系統(tǒng)研究在Simple Questions數(shù)據(jù)集和Webquestions 數(shù)據(jù)集上取得了不錯的效果,在工業(yè)界也有很成熟的系統(tǒng)“start”。反觀中文KBQA起步較晚,目前也主要是以NLPCC 和CCKS 這2 個公開會議所舉辦的評測任務比賽為主,同時大部分參與評測的隊伍采用的是基于信息檢索的方法。

        2 實體鏈接模型

        知識圖譜問答的實體鏈接模型分為實體識別和實體消歧2個部分,后者依靠前者所識別出來的實體提及對應的知識庫實體進行消歧,通過將實體鏈接到知識庫中完成實體鏈接。因此,實體識別部分必須達到很高的性能,才能夠降低錯誤傳播,防止實體消歧時對錯誤的實體提及對應的知識庫實體進行消歧。對于實體識別模型,本文采用性能較好的BERT(Bidirectional Encoder Representations from Transformers)預訓練模型作為基礎模型。而在實體消歧部分,由于基于KBQA 的實體鏈接任務并沒有實體的描述文段,因此只能借助知識庫和問句信息來進行消歧。本文采用多特征集成模型來進行實體消歧。

        2.1 BERT 預訓練模型

        BERT預訓練語言模型[15]是一個基于Transformer神經(jīng)網(wǎng)絡單元的雙向語言模型,其結(jié)構(gòu)如圖1 所示。由于Transformer 是基于能夠徹底捕捉語句中每個詞之間時序信息的self-attention 編碼器,因此在句子級別的任務上,BERT 能夠?qū)崿F(xiàn)真正意義上的前向、后向的雙向信息傳遞,從而獲得更高的性能和更好的效果。整個模型的輸入由詞向量輸入、位置向量輸入、句子分段向量輸入3個部分構(gòu)成。整個句子的首部和尾部分別有特殊的標記[CLS]和[SEP],這2 個標記用來區(qū)別不同的2個句子。模型的輸出是[CLS]、[SEP]以及每個詞經(jīng)過Transformer 編碼器得到的語義編碼向量。給定一個自然語言句子的輸入序列Q=(q1,q2,…,qn),經(jīng)過BERT 的預處理和向量化后得到其對應的句子輸入向量E=([CLS],E1,E2,…,En,[SEP]),再經(jīng)過12 層或者24 層編碼器得到最后的輸出向量H=(H0,H1,…,Hn)。經(jīng)過預訓練的BERT 模型包含很強的上下文關聯(lián)語義特征,再經(jīng)過微調(diào)即可用于分類、序列標注、閱讀理解等多個任務上。由于BERT能夠得到較好的訓練效果,因此其在工業(yè)界被廣泛應用。

        圖1 BERT 模型結(jié)構(gòu)Fig.1 Structure of BERT model

        2.2 問句與路徑語義相似度模型

        問句與路徑語義相似度模型指的是在完成實體鏈接后,確定該實體與問句語義最相關的關系所使用的模型。例如對于問句“球星姚明的老婆的星座是什么?”,完成實體鏈接得到主題實體“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”,需要確定該實體對應的最優(yōu)關系“妻子”和第2 個三元組的最優(yōu)關系“星座”,這里沒有采用關系抽取的方法來進行,而是結(jié)合BERT 預訓練模型擅長處理句子級任務的特點,構(gòu)建以主題實體為核心的三元組候選路徑與問句組成句子對“球星姚明老婆的星座是什么?[SEP]<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>---<妻子>---<星座>--”,其中“”表示將實體泛化所用的特殊標簽。采用相似度模型選出最優(yōu)路徑,進而選出最優(yōu)關系。這樣處理的原因如下:

        1)能夠避免錯誤傳遞。因為進行關系抽取時只抽1 個關系,那么對于第2 個關系來說,第1 個關系識別錯誤就會造成錯誤傳遞。

        2)三元組順序不同。有些問句格式對應的三元組內(nèi)實體順序是反向三元組。例如問句“萬島之國指的是哪個國家?”,其在知識圖譜中對應的三元組是“<挪威>--<別稱>--<萬島之國>”,然而“<挪威>”是該問句的答案,那么正確的標注就是“--<別稱>--<萬島之國>”,這時三元組的順序已經(jīng)反向,那么再使用關系抽取識別出“<別稱>”在知識圖譜中進行查找時,由于順序的問題,必然得不出答案。

        3)BERT 模型的特點。本文使用的基礎模型是BERT,而在BERT 模型訓練中的第2 個任務是句子下一句的預測,這個任務就是為了更好地理解和處理2 個句子中的信息。因此,BERT 更擅長處理基于句子與句子的任務。本文將候選三元組組成一個短句,結(jié)合問句形成一個句子與句子之間的語義相似度計算任務,例如問句“萬島之國指的是哪個國家”與三元組路徑“--<別稱>--<萬島之國>”的語義相似度計算任務,這樣能夠更契合BERT 模型的訓練和預測,從而使相似度模型獲得較好的效果。

        在構(gòu)建模型的訓練語料時,將問句作為“SEN1”,將答案路徑作為“SEN2”構(gòu)建句子對,再把含有正確答案路徑的句子對標注為“1”,錯誤的標注為“0”,并且以正、負例比為1∶10 進行構(gòu)建。得到訓練語料后,通過微調(diào)BERT 分類模型進行訓練得到問句與路徑相似度模型,如圖2 所示。在最終預測時取出模型最后一層隱層,經(jīng)過分類層得到標簽為“1”的各條答案路徑的向量,再通過softmax 得到每個問句的得分,選取top1 作為最優(yōu)答案路徑,完成問句與最優(yōu)答案路徑的選取。

        圖2 問句與答案路徑相似度模型結(jié)構(gòu)Fig.2 Structure of similarity model of question and answer path

        2.3 實體識別

        實體識別指的是從問句中識別出主題實體提及,例如從問句“姚明的老婆是誰?”中識別出“姚明”這個主題實體提及。本文采用序列標注模型作為實體識別的基礎模型,使用CCKS2019-CKBQA 數(shù)據(jù)集中含有SPARQL 標注語料的訓練數(shù)據(jù)集。面對含有標注的問句“姚明的老婆是誰?”,其對應的SPARQL語句為“select ?x where{<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)><妻子>?x}”,從中對實體“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”進行泛化處理,得到“姚明”作為句子對應的實體提及。然后根據(jù)序列標注模型的數(shù)據(jù)處理方法,將問句中“姚明”對應的位置標記為“BI”,把其他非提及部分標記為“O”,依照“BIO”標記進行序列標注模型訓練。

        本文將BERT 語言模型和條件隨機場(Conditional Radom Field,CRF)[16]相結(jié)合訓練,并預測每個字符對應的標簽,如圖3 所示。首先通過BERT 語言模型得到富含語義信息的每個詞的上下文表示,然后通過CRF模型預測標簽序列的正確性。在完成模型訓練后,根據(jù)用戶問句進行實體識別,得到問句對應的實體提及。

        圖3 實體識別模型結(jié)構(gòu)Fig.3 Structure of entity recognition model

        2.4 實體消歧

        完成實體識別后得到主題實體提及,例如“姚明”,但是在知識庫中,“姚明”這一個提及在知識庫中可能對應2 個實體:“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”和“<姚明_(陜西省城固縣鹽務局副局長)>”,那么對于問句“球星姚明的老婆是誰?”,其主題實體顯然是前者,因此,最終通過實體消歧得到的實體為“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”。

        研究者通常使用基于實體知名度的方法來進行實體消歧。實體知名度指的是該實體在知識圖譜中對應的知名程度(熱度)得分。對于問句“球星姚明的老婆是誰?”,采用知名度方法進行實體消歧得到的最終結(jié)果就是正確實體“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”,但是對于問句“姚明副局的執(zhí)政理念是什么?”,如果采用知名度得分的話顯然是錯誤的。因此,本文提出一個基于多特征的實體消歧模型,即結(jié)合知名度特征、問句與實體關系的語義相似度特征、問句與實體的字符相似度特征、問句與實體的語義相似度特征這4 個特征的語義模型,如圖4所示。

        圖4 多特征實體消歧模型結(jié)構(gòu)Fig.4 Structure of multi-feature entity disambiguation model

        1)知名度特征

        采用知名度特征應獲取實體對應的知名度(熱度)。在開放領域的問句中,人們一般所問實體的知名度比重都比較高,因此,對于開放領域的知識圖譜問答,實體的知名度是必要的。對于較為完備的知識圖譜,都會有一個實體對應的知名度得分排序表,這樣就可以根據(jù)這個知名度排序表得到對應的排序特征。例如“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”和“<姚明_(陜西省城固縣鹽務局副局長)>”對應排名分別為1 和5。

        2)問句與實體關系的語義相似度特征

        在實體消歧時,如何利用好實體的上下文十分重要,而在問句中獲取上下文信息最好的方法就是找到實體信息中與問句關聯(lián)的關系(屬性)或者實體解釋。但是對于知識圖譜問答而言,知識圖譜中并沒有每個實體對應的具體描述文段,所以,只能采用知識圖譜中每個實體對應的關系或者屬性來進行消歧。首先要選出實體所有關系中與問句關聯(lián)度最高的關系(屬性)。本文通過上文所提到的問句與路徑的語義相似度模型來進行最優(yōu)關系的預測,構(gòu)建每個實體對應的三元組路徑,然后分別通過語義相似度模型得到最后一層分類層的語義向量,選取正確標簽上的每條路徑對應特征向量,將其作為每條路徑得分。從所有路徑中選取出得分為top1 的路徑作為實體對應的最優(yōu)路徑得分,即為最優(yōu)關系的得分。例如,對于問句“球星姚明的老婆是誰?”的候選實體“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”的所有關系,關系“妻子”的相似度模型得分(0.97)最高,因此,就將該得分作為“<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)>”的實體關系與問句的語義相似度特征。

        3)實體與問句的字符相似度特征

        采用問句與實體的字符相似度特征,是因為對于一些含有實體別名的問句,必須依靠實體的字符相似度來進行消歧處理。例如對于問句“小說中風清揚的徒弟是誰?”,“風清揚”在知識圖譜中鏈接到“馬云”“風清揚”,然而在知識圖譜中,“馬云”的知名度得分大于“風清揚”,另外根據(jù)問句與實體的最優(yōu)關系語義相似度特征來看,2 個實體都有“徒弟”這個最優(yōu)關系,在這種情況下,就會選擇錯誤的實體“馬云”。為避免這種錯誤的情況,就需要問句與實體的字符相似度特征來進行輔助修正。

        4)實體與問句的語義相似度特征

        就實體本身而言,其在問句中就包含有對應的問句語義信息,因此,本文計算問句與實體的語義相似度作為問句與實體的語義特征。這里指的語義特征是將問句與實體共同映射到一個向量空間,分別將問句和實體向量化來計算語義相似度實現(xiàn)的。本文同樣使用之前提到的問句與路徑的語義相似度模型來實現(xiàn)同一個向量空間的映射,但與之不同的是將問句對應的路徑改為“<實體>”的形式,用來代替實體部分的輸入,問句部分輸入保持不變。最終得到模型的分類層輸出向量,取標簽為“1”的位置上的所有實體對應的向量得分,分別作為每個候選實體與問句的語義相似度特征。

        通過上述4 個特征能夠獲得較為完整的關于問句的實體信息。然后通過性能較好的特征擬合模型XGBOOST[17]對4 個特征進行擬合訓練。在預測時,本文采用二分類方法對每個實體進行得分計算(標簽為正確標簽的概率得分),選擇得分top1 的實體作為最終實體消歧得到的實體,同時也作為實體鏈接得到的最終實體。

        3 中文知識圖譜問答系統(tǒng)

        本文設計了一個基于多特征實體消歧的中文知識圖譜問答系統(tǒng),如圖5 所示。整個系統(tǒng)主要分為3 個模塊:問句預處理模塊,問句實體鏈接模塊,最優(yōu)答案路徑篩選模塊。問句處理模塊包括對問句的預處理、問句分類。問句實體鏈接模塊包括實體識別和實體鏈接2 個部分。最優(yōu)答案路徑篩選模塊包括對規(guī)則問句的路徑選取、對單跳問句答案路徑的選取、對兩跳鏈式問句的答案路徑選取以及對單、多跳難以分類問句的答案路徑選取。上文已經(jīng)闡述了實體鏈接模塊的工作流程,本節(jié)將介紹不同類型問句的分類處理和最優(yōu)答案路徑的選取。

        圖5 基于多特征實體消歧的中文KBQA 系統(tǒng)工作流程Fig.5 Workflow of Chinese KBQA system based on multi-feature entity disambiguation

        3.1 多限制問句

        多限制問句指的是在一些特定的領域,含有很強的邏輯性或者規(guī)則的問句。將問句中對應的2 個實體三元組的尾實體或者屬性值有交集的問句作為多限制問句類型1,將問句中對應的2 個實體三元組的頭實體有交集的問句作為多限制問句類型2。這2 類問句是CCKS2019-CKBQA 評測任務數(shù)據(jù)集中邏輯性較強的問句。按照這樣的邏輯性和規(guī)則,將問句分為多限制問句和非多限制問句。但在實際應用場景中還有更多種類的問句,但目前就實驗數(shù)據(jù),對于多限制類型問句,本文就只分為這2 個類型。

        多限制問句類型1:“陳奕迅和王菲共同演唱了那首歌曲”。

        多限制問句類型2:“哈佛大學出了哪些物理學家?”。

        由于多限制問句具有強邏輯性的特點,因此解決這類問句也變得十分清晰。在完成實體鏈接后,得到問句對應的2 個實體,按照這2 種類型問句的三元組特點,分別進行對應的三元組的規(guī)則性查找就能完成問答。

        3.2 非多限制問句

        在非多限制問句中,根據(jù)數(shù)據(jù)集的特點,本文將問句細分為單跳問句、兩跳鏈式問句和單、多跳難以分類的問句。雖然分為3 種問句類型,但處理方法基本一致。

        3.2.1 單跳問句

        單跳和多跳問句的定義為:只涉及一個三元組的問句稱作單跳問句,涉及2 個及以上三元組的問句稱作多跳問句,如表1 所示。因此,可以將這類問題當作二分類問題來處理。由于本文采用的是CCKS2019-CKBQA 評測任務中的數(shù)據(jù),每個問句都含有對應SPARQL 結(jié)構(gòu)化查詢語句的標注數(shù)據(jù),所以按照標注語句來構(gòu)建二分類模型的訓練數(shù)據(jù),將含有一個三元組打上標簽“0”作為單跳問句,含有2 個或2 個以上三元組打上標簽“1”作為多跳問句。最后利用BERT 預訓練語言模型進行模型的二分類微調(diào)訓練。在預測時,采用模型的最后一層隱層輸出中的[CLS]向量作為整個句子的語義分類向量,將其經(jīng)過一個多層感知機(Multi-Layer Perceptron,MLP)分類(如圖6 所示),得到最終的分類結(jié)果,其中,標簽為“1”表示多跳問句,標簽為“0”表示單跳問句。除使用BERT 二分類模型進行預測外,還需要結(jié)合實體鏈接的結(jié)果進行修正。從實體鏈接結(jié)果中找出只包含一個實體的問句,將這些問句與BERT 二分類模型預測的單跳問句進行求交集處理,完成單跳問句的分類,其他問句作為多跳問句。完成問句分類與實體鏈接后,按照上文問句與路徑語義相似度模型,根據(jù)問句對應的唯一主題實體,獲得主題實體對應的候選答案路徑。最后再通過問句與路徑語義相似度模型得到最優(yōu)答案路徑,確定答案三元組,根據(jù)三元組檢索答案完成單跳問句的問答。

        表1 單、多跳問句示例Table 1 Examples of single and multi-hop question

        圖6 BERT 模型問句二分類示例Fig.6 Example of two-classification of question by BERT model

        3.2.2 兩跳鏈式問句與難以分類問句

        兩跳鏈式問句指的是那些包含2 個順序排列的三元組對應的問句(上一個三元組的尾實體是下一個三元組的頭實體),例如SPARQL語句為“select?x where{<姚明_(中職聯(lián)公司董事長兼總經(jīng)理)><妻子>?y.?y<星座>?x.}”的問句“姚明妻子的星座是什么?”。同構(gòu)建單跳問句分類數(shù)據(jù)集一樣,符合鏈式問句的SPARQL的問句標記為“0”,不符合的標記為“1”。同上文提到的一樣,使用BERT 二分類模型,進行微調(diào)得到最終的鏈式問句分類模型。同時也采用實體鏈接的結(jié)果進行修正,得到最終的兩跳鏈式問句,剩下的問句作為單、多跳難以分類問句。完成問句分類后,根據(jù)實體鏈接得到主題實體,構(gòu)建候選答案路徑,通過問句與路徑語義相似度模型選出最優(yōu)路徑,完成答案兩跳三元組確定,最終完成兩跳鏈式問句的問答。這里需要說明的是,兩跳鏈式問句采用的相似度模型與處理單跳問句是不同的模型,其根本的區(qū)別在于采用了不同的數(shù)據(jù)集進行訓練,但預測方式基本一致。

        在完成鏈式問句問答后,就只剩下難以分類問句的處理。由于這部分問句的數(shù)量只占總問句的9.21%,數(shù)據(jù)量較小,因此對于這一部分問句,將使用單、多跳聯(lián)合處理模型進行語義相似度匹配統(tǒng)一處理,不再進行細分。聯(lián)合處理模型是通過包含單、多跳數(shù)據(jù)集訓練得到的模型,可以處理單、多跳混合問句最優(yōu)答案路徑的選取。同樣,在得到實體鏈接產(chǎn)生的主題實體后,候選路徑的生成也是單、多跳路徑同時生成的。最終通過相似度模型得到最優(yōu)的候選答案路徑作為最終的答案三元組,完成問答。

        4 實驗

        4.1 實驗數(shù)據(jù)

        本文使用CCKS2019-CKBQA 公開的評測數(shù)據(jù)集進行實驗,其中包括3 份數(shù)據(jù)集和1 份知識圖譜。評測數(shù)據(jù)由北京大學和恒生電子股份有限公司人工構(gòu)建與標注,包括2 298 條訓練集、766 條驗證集和766 條測試集。在問答數(shù)據(jù)集中,驗證集和測試集分別是比賽初賽和復賽所用的數(shù)據(jù)集。知識圖譜使用的是北京大學構(gòu)建的知識圖譜PKUBASE,由41 009 141 條實體三元組、13 930 117 條實體提及三元組和25 182 627 條實體類型三元組構(gòu)成。在實驗過程中,雖然CCKS2019-CKBQA 數(shù)據(jù)集既包含簡單問句又包含復雜問句[18-19],但是數(shù)量較少,因此,使用NLPCC2016-KBQA 的數(shù)據(jù)集[20]作為額外的訓練集訓練模型(CCKS2019-CKBQA評測比賽允許使用額外的公開數(shù)據(jù)集。參賽隊伍同樣使用了NLPCC2016-KBQA 的數(shù)據(jù)集作為訓練集進行模型訓練)。

        4.2 實驗設置

        本文使用的BERT 預訓練模型為基于PyTorch 深度學習框架的BERT-Base-Chinese模型,其中共有12 層編碼器,隱層輸出維度為768,中文最大句長設置為55。模型采用Adam 優(yōu)化器進行參數(shù)的更新和微調(diào),初始學習率設置為5e-5,采用大小為101 的批量訓練方法,dropout 設置為0.1,最大迭代次數(shù)為100 次,設置每訓練2 輪進行開發(fā)集的驗證。整個實驗分為2 個部分:

        1)使用知名度實體消歧模型的實體鏈接與使用多特征實體消歧的實體鏈接的對比實驗。數(shù)據(jù)集為含有標注數(shù)據(jù)的766 條測試集中的實體標注數(shù)據(jù),該部分的實驗指標為所有問句對應的實體鏈接的準確率P。設置所有問句個數(shù)為Na,所有問句中實體鏈接正確的問句個數(shù)為Ne,則P計算公式如下:

        2)驗證使用多特征的實體鏈接對KBQA 系統(tǒng)性能提升的實驗。采用766 條測試集中的答案標注數(shù)據(jù)進行系統(tǒng)最終的性能實驗。KBQA 系統(tǒng)部分評價指標為平均F1 值。設置問題集合為Q,ai表示系統(tǒng)所給出的第i個問題的答案集表示第i個問題的標準答案集,Pi為第i個問題的答案準確率(如式(2)所示),Ri為第i個問題的答案召回率(如式(3)所示),則計算公式如式(4)所示:

        4.3 實驗結(jié)果與分析

        表2 展示了采用不同實體消歧模型的實體鏈接性能比較以及與評測比賽第1 名的實體鏈接性能比較。從表中可以看出,采用多特征實體消歧模型的實體鏈接后,在實體鏈接模塊,相比于采用知名度實體消歧的實體鏈接性能提升了6.35 個百分點,同時相比于第1 名的實體鏈接模型高出0.11 個百分點,表明本文提出的采用多特征實體消歧模型能夠很好地結(jié)合上下文信息和實體本身的信息并取得不錯的性能。

        表2 實體鏈接性能比較Table 2 Comparison of entity linking %

        表3 展示了本文提出的系統(tǒng)與采用這個數(shù)據(jù)集進行評測比賽的前3 名的系統(tǒng)的性能差異。根據(jù)平均F1 值的比較,本文系統(tǒng)性能僅次于第2 名,但是第1 名和第2 名分別在候選答案路徑模塊采用了特征集成與模型融合的方法,本文則是僅采用一個特征(模型)來進行候選答案路徑的選取。另外,從單特征角度來看,本文提出的系統(tǒng)性能已經(jīng)優(yōu)于第1名單特征的系統(tǒng)性能(69.02%)[19],因此表明本文構(gòu)建的知識圖譜問答系統(tǒng)已取得不錯的效果。

        表3 不同KBQA 系統(tǒng)在最終測試集上的平均F1 值Table 3 Average F1 value on final test set of different KBQA systems %

        表3 還表明了采用多特征實體消歧的系統(tǒng)性能要優(yōu)于采用知名度實體消歧的系統(tǒng)。通過比較可以得出,采用多特征實體消歧從系統(tǒng)層面上提升了1.86 個百分點,印證了采用多特征實體消歧的實體鏈接是十分有效的。但同時也可以看出,雖然實體鏈接部分提升了6.35 個百分點,但是整體系統(tǒng)卻只提升了1.86 個百分點,這表明想要提升KBQA 整個系統(tǒng)的性能單單從實體鏈接部分提升是不夠的,除了實體鏈接之外,分類模塊、候選答案路徑計算模塊也需要進一步優(yōu)化。

        5 結(jié)束語

        本文設計一個基于多特征實體消歧的中文知識圖譜問答系統(tǒng)。從知名度、字符和語義層面綜合確定一個實體提及對于問句的最優(yōu)實體,提升問句中實體鏈接的實體消歧性能,同時提出一種更契合BERT 預訓練模型的問句與路徑語義相似度模型,準確抽取出問句對應的關系、屬性,并最終經(jīng)問句具體分類確定中文知識圖譜問答中用戶提出的問句。本文在實體鏈接之后采用基于檢索的方法構(gòu)建知識圖譜問答系統(tǒng),這種方法容易造成誤差傳遞。下一步研究將基于語義解析方法構(gòu)建一個結(jié)合檢索和語義解析的中文知識圖譜問答系統(tǒng),從而避免這一問題。

        猜你喜歡
        語義模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        語言與語義
        3D打印中的模型分割與打包
        “上”與“下”語義的不對稱性及其認知闡釋
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        認知范疇模糊與語義模糊
        “深+N季”組配的認知語義分析
        當代修辭學(2011年6期)2011-01-29 02:49:50
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        日本不卡在线一区二区三区视频| 国产视频自拍一区在线观看| 男人的天堂一区二av| 免费无码专区毛片高潮喷水| 天堂а在线中文在线新版| 色妞ww精品视频7777| 亚洲综合精品成人| 亚洲韩国在线| 亚洲一区免费视频看看| 国产熟女露脸91麻豆| 国产高清在线精品一区app| 亚洲精品国偷拍自产在线观看| 亚洲欧美成人一区二区在线电影| 草莓视频成人| 99日本亚洲黄色三级高清网站| 国产精品99久久精品女同| 日韩一本之道一区中文字幕| 日韩精品成人区中文字幕| aa片在线观看视频在线播放| 无码人妻丰满熟妇区五十路百度| 免费观看国产精品| 亚洲二区三区在线播放| 久久精品国产亚洲av久五月天| 国产欧美综合一区二区三区| 久久天天躁狠狠躁夜夜avapp| 亚洲五月天综合| 亚洲 暴爽 AV人人爽日日碰| av天堂一区二区三区精品| 激情久久黄色免费网站| 五月av综合av国产av| 色八区人妻在线视频免费| 无码国产精品一区二区免| 美女黄频视频免费国产大全 | 精品无码一区二区三区的天堂| 亚洲欧美日韩成人高清在线一区| 人妻被黑人粗大的猛烈进出| 99热国产在线| 蜜桃网站入口可看18禁| 老太婆性杂交视频| 成人精品综合免费视频| 亚洲丁香五月激情综合|