亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多標(biāo)簽策略的中文知識(shí)圖譜問(wèn)答系統(tǒng)研究

        2021-02-05 03:03:04朱宗奎張鵬舉賈永輝陳文亮
        計(jì)算機(jī)工程 2021年2期
        關(guān)鍵詞:模型系統(tǒng)

        朱宗奎,張鵬舉,賈永輝,陳文亮,張 民

        (蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006)

        0 概述

        隨著人機(jī)交互技術(shù)的快速發(fā)展,傳統(tǒng)的搜索引擎已無(wú)法滿足用戶對(duì)信息獲取的多樣化需求,于是問(wèn)答系統(tǒng)應(yīng)運(yùn)而生,并逐漸成為人工智能(AI)、自然語(yǔ)言處理(NLP)和信息檢索(IR)領(lǐng)域中的一個(gè)研究熱點(diǎn),具有廣闊的應(yīng)用前景[1]。與傳統(tǒng)的搜索引擎不同,問(wèn)答系統(tǒng)可以更快速、更準(zhǔn)確地向用戶直接反饋所需的信息或答案,而非返回大量與用戶查詢相關(guān)的網(wǎng)頁(yè)列表[2]。

        根據(jù)答案來(lái)源的不同,問(wèn)答系統(tǒng)可以分為基于結(jié)構(gòu)化數(shù)據(jù)的問(wèn)答系統(tǒng)(比如知識(shí)圖譜問(wèn)答)、基于文本的問(wèn)答系統(tǒng)(比如機(jī)器閱讀理解)以及基于問(wèn)答對(duì)的問(wèn)答系統(tǒng)(比如常見(jiàn)問(wèn)題(FAQ)問(wèn)答系統(tǒng))[3]?;谥形闹R(shí)圖譜的問(wèn)答(CKBQA)系統(tǒng)輸入一個(gè)中文自然語(yǔ)言問(wèn)題,問(wèn)答系統(tǒng)從給定知識(shí)庫(kù)中選擇若干實(shí)體或?qū)傩灾底鳛樵搯?wèn)題的答案,問(wèn)題均為客觀事實(shí)型,不包含任何主觀因素。目前,已有很多大規(guī)模的高質(zhì)量知識(shí)圖譜被提出,英文的包括Freebase[4]、YAGO[5]和DBpedia[6]等,中文的有百度知心、知立方、Zhishi.me[7]和XLore[8]等,這些知識(shí)大多來(lái)源于維基百科、百度百科等網(wǎng)站。現(xiàn)有知識(shí)圖譜的標(biāo)準(zhǔn)數(shù)據(jù)存儲(chǔ)形式一般是由資源描述框架(RDF)三元組組成,即<主語(yǔ),謂語(yǔ),賓語(yǔ)>或<頭實(shí)體,關(guān)系,尾實(shí)體>,主要包括實(shí)體的基本屬性、類(lèi)型、提及信息以及實(shí)體與實(shí)體之間的語(yǔ)義關(guān)系等。知識(shí)圖譜具有結(jié)構(gòu)化的特點(diǎn),已逐漸成為開(kāi)放領(lǐng)域問(wèn)答系統(tǒng)的重要資源,引起了研究人員的廣泛關(guān)注。

        基于知識(shí)圖譜的問(wèn)答系統(tǒng)包含了多個(gè)NLP任務(wù),其在理解和回答問(wèn)題的過(guò)程中需要進(jìn)行實(shí)體識(shí)別、關(guān)系抽取和語(yǔ)義解析等不同的子任務(wù),再通過(guò)SQL、SPARQL等查詢語(yǔ)言對(duì)知識(shí)庫(kù)進(jìn)行搜索和推理以得到最終的答案[9]。例如,問(wèn)題q1:“《湖上草》是誰(shuí)的詩(shī)?”是一個(gè)簡(jiǎn)單問(wèn)題,首先需要從問(wèn)句中識(shí)別出主題實(shí)體的提及“湖上草”,再根據(jù)提及進(jìn)行實(shí)體鏈接,確定主題實(shí)體為“<湖上草>”,然后從實(shí)體的所有候選關(guān)系中選出與問(wèn)句表述最為相近的關(guān)系“<主要作品>”,最后利用SPARQL語(yǔ)言“select ?x where{?x<主要作品><湖上草>.}”,查詢答案為“<柳如是_(明末“秦淮八艷”之一)>”,只需要一個(gè)三元組知識(shí)即可完成;問(wèn)題q2:“《根鳥(niǎo)》的作者是哪個(gè)民族的人”是一個(gè)復(fù)雜問(wèn)題,解決方法類(lèi)似于問(wèn)題q1,但是需要2個(gè)三元組,先得到主題實(shí)體“<根鳥(niǎo)>”的“<作者>”,再查到其“<作者>”的“<民族>”為“<漢族>”,SPARQL語(yǔ)言為“select?x where{<根鳥(niǎo)><作者>?y.?y<民族>?x.}”。

        目前,中文知識(shí)圖譜問(wèn)答系統(tǒng)大多側(cè)重于回答簡(jiǎn)單問(wèn)題,但在實(shí)際應(yīng)用中,很多用戶提出的問(wèn)題單靠一個(gè)三元組查詢是無(wú)法解決的,許多復(fù)雜問(wèn)題涉及多個(gè)實(shí)體與語(yǔ)義關(guān)系。因此,需要針對(duì)中文不同類(lèi)型的問(wèn)句設(shè)計(jì)不同的解決方案。雖然近年來(lái)有很多新模型和系統(tǒng)被提出以用于知識(shí)圖譜問(wèn)答,但大多基于英文語(yǔ)料,針對(duì)中文問(wèn)題時(shí)仍存在局限性。中文知識(shí)圖譜問(wèn)答系統(tǒng)起步較晚,前期工作以簡(jiǎn)單問(wèn)題為主,缺乏大規(guī)模公開(kāi)的標(biāo)注語(yǔ)料,且中文語(yǔ)言表達(dá)形式多樣,相比英文更復(fù)雜,難以準(zhǔn)確理解語(yǔ)義,同時(shí)中文分詞技術(shù)存在領(lǐng)域特殊性和中英文混雜等情況[10]。

        近年來(lái),深度學(xué)習(xí)技術(shù)在NLP領(lǐng)域得到廣泛應(yīng)用,基于語(yǔ)言建模的神經(jīng)網(wǎng)絡(luò)模型也逐漸成為研究熱點(diǎn),比如ELMo[11]、BERT[12]等。本文將語(yǔ)言模型和中文知識(shí)圖譜問(wèn)答系統(tǒng)相結(jié)合,構(gòu)建一種基于多標(biāo)簽策略的中文知識(shí)圖譜問(wèn)答系統(tǒng)。利用機(jī)器學(xué)習(xí)方法和預(yù)訓(xùn)練語(yǔ)言模型構(gòu)建針對(duì)實(shí)體提及識(shí)別、實(shí)體鏈接和關(guān)系抽取3個(gè)任務(wù)的模型框架,通過(guò)設(shè)置不同的分類(lèi)標(biāo)簽將中文問(wèn)句劃分成簡(jiǎn)單問(wèn)題、鏈?zhǔn)絾?wèn)題和多實(shí)體問(wèn)題3類(lèi),并提出處理鏈?zhǔn)絾?wèn)題和多實(shí)體問(wèn)題的解決方法。

        1 相關(guān)工作

        在NLP領(lǐng)域,基于知識(shí)圖譜的問(wèn)答系統(tǒng)已經(jīng)得到廣泛研究。早在20世紀(jì)60年代,就有學(xué)者針對(duì)特定領(lǐng)域內(nèi)小規(guī)模的知識(shí)庫(kù)進(jìn)行研究,以解決一些具體的專(zhuān)業(yè)問(wèn)題。此后,研究方向逐漸從特定領(lǐng)域轉(zhuǎn)向開(kāi)放領(lǐng)域,從簡(jiǎn)單問(wèn)題轉(zhuǎn)向復(fù)雜問(wèn)題。目前,英文語(yǔ)料主流的研究方法可以分為語(yǔ)義分析和信息檢索2種。

        早期多數(shù)知識(shí)圖譜問(wèn)答采用傳統(tǒng)基于語(yǔ)義分析的方法[13-15],通過(guò)構(gòu)建一個(gè)語(yǔ)義解析器,將自然語(yǔ)言問(wèn)句映射成一種語(yǔ)義表示、邏輯表達(dá)式或查詢圖[16],然后基于知識(shí)庫(kù)查詢得到最終答案。雖然上述方法可以對(duì)問(wèn)句進(jìn)行深入解釋?zhuān)捎谕评淼膹?fù)雜性較高,需要特定領(lǐng)域語(yǔ)法、細(xì)粒度的標(biāo)注數(shù)據(jù)以及手工設(shè)計(jì)規(guī)則和特征,使得這些方法難以進(jìn)行大規(guī)模的訓(xùn)練,而且可移植性較差。

        基于信息檢索的方法[17-18]主要通過(guò)構(gòu)建不同的排序模型檢索出一組候選答案,通過(guò)分析進(jìn)行排序從而完成知識(shí)圖譜問(wèn)答任務(wù)。BORDES等人[19]使用基于向量嵌入的方法編碼問(wèn)句和答案,計(jì)算兩者之間的語(yǔ)義相似度并進(jìn)行排序,隨后又提出子圖向量[20]、記憶網(wǎng)絡(luò)[21]等方法。近年來(lái),有很多先進(jìn)的神經(jīng)網(wǎng)絡(luò)模型被提出以用于編碼句子[22-24],包括卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)等,這些網(wǎng)絡(luò)只需簡(jiǎn)單地查詢知識(shí)庫(kù)而無(wú)需額外的語(yǔ)法知識(shí)和詞典,并且能夠隱式地完成候選答案的搜索和排序功能。

        相較于英文,中文知識(shí)圖譜問(wèn)答系統(tǒng)的研究起步較晚,主要以中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC)、全國(guó)知識(shí)圖譜與語(yǔ)義計(jì)算大會(huì)(CCKS)2個(gè)公開(kāi)的評(píng)測(cè)任務(wù)為主。NLPCC 2015年—2018年的評(píng)測(cè)數(shù)據(jù)基本都是簡(jiǎn)單問(wèn)題[25-27],而CCKS 2018年—2019年包含了簡(jiǎn)單問(wèn)題和復(fù)雜問(wèn)題2種[28-29],它們均使用基于信息檢索的方法,針對(duì)問(wèn)題和答案的語(yǔ)義相似度計(jì)算建立了不同的度量模型。

        2 中文知識(shí)圖譜問(wèn)答系統(tǒng)

        給定一個(gè)中文自然語(yǔ)言問(wèn)句Q,CKBQA系統(tǒng)的目標(biāo)是從一個(gè)中文知識(shí)圖譜知識(shí)庫(kù)KB中抽取答案A。本文提出的中文知識(shí)圖譜問(wèn)答系統(tǒng)流程如圖1所示,其包括問(wèn)句處理和答案搜索2個(gè)主要模塊,其中,問(wèn)句處理模塊涉及分類(lèi)模型、實(shí)體提及識(shí)別和實(shí)體鏈接模型,答案搜索模塊涉及統(tǒng)一單跳問(wèn)題搜索、鏈?zhǔn)絾?wèn)題搜索和多實(shí)體問(wèn)題搜索3個(gè)部分。圖1中的虛線部分表示3個(gè)搜索過(guò)程在知識(shí)圖譜中完成。

        圖1 中文知識(shí)圖譜問(wèn)答系統(tǒng)流程Fig.1 Procedure of Chinese knowledge base question answering system

        2.1 BERT模型

        BERT(Bidirectional Encoder Representations from Transformers)模型結(jié)構(gòu)如圖2所示,其為一個(gè)多層雙向的語(yǔ)言模型,模型輸入由詞向量、位置向量和分段向量共同組成。另外,句子的頭部和尾部分別有2個(gè)特殊的標(biāo)記符號(hào)[CLS]和[SEP],用以區(qū)分不同的句子。模型輸出是每個(gè)字經(jīng)過(guò)M層編碼器后對(duì)應(yīng)的融合上下文信息的語(yǔ)義表示。假定一個(gè)中文自然語(yǔ)言問(wèn)句的輸入序列為Χ=(x1,x2,…,xn),經(jīng)過(guò)文本分詞器處理后為S=([CLS],x1,x2,…,xn,[SEP]),再經(jīng)過(guò)M層編碼器后的輸出序列為H=(h0,h1,…,hn,hn+1)。預(yù)訓(xùn)練后的BERT模型提供了一個(gè)強(qiáng)大的上下文相關(guān)的句子特征表示,再通過(guò)微調(diào)后可以用于各種目標(biāo)任務(wù),包括單句分類(lèi)、句子對(duì)分類(lèi)和序列標(biāo)注等。

        圖2 BERT模型結(jié)構(gòu)Fig.2 Structure of BERT model

        2.2 實(shí)體提及識(shí)別

        實(shí)體提及識(shí)別指給定一個(gè)問(wèn)句,從中識(shí)別出主題實(shí)體的提及。本文將實(shí)體提及識(shí)別當(dāng)作一個(gè)序列標(biāo)注任務(wù),采用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行識(shí)別。首先,根據(jù)訓(xùn)練語(yǔ)料的SPARQL語(yǔ)句查找主題實(shí)體的提及;然后,構(gòu)建序列標(biāo)注所用的數(shù)據(jù),訓(xùn)練一個(gè)提及識(shí)別模型。例如,一個(gè)問(wèn)句“電影《怦然心動(dòng)》的主要演員?”,從其SPQRQL語(yǔ)句“select?x where{<怦然心動(dòng)_(美國(guó)2010年羅伯·萊納執(zhí)導(dǎo)電影)><主演>?x.}”中可知主題實(shí)體為“<怦然心動(dòng)_(美國(guó)2010年羅伯·萊納執(zhí)導(dǎo)電影)>”,然后查詢實(shí)體提及三元組知識(shí),得到該實(shí)體的可能提及有“怦然心動(dòng)”“FLIPPED”“冒失”等。根據(jù)最大長(zhǎng)度優(yōu)先匹配規(guī)則,標(biāo)記出該問(wèn)句的提及為“怦然心動(dòng)”,設(shè)置標(biāo)簽為B I I I,非提及部分標(biāo)簽設(shè)為O。如果匹配失敗,則舍棄該問(wèn)句,不進(jìn)行標(biāo)注。

        本文將BERT語(yǔ)言模型和雙向長(zhǎng)短期記憶(BiLSTM)網(wǎng)絡(luò)[30]相結(jié)合,輸入到條件隨機(jī)場(chǎng)(CRF)[31]模型中,構(gòu)建一種BERT-BiLSTM-CRF模型,以預(yù)測(cè)每個(gè)字符的標(biāo)簽。首先,通過(guò)BERT語(yǔ)言模型得到問(wèn)句中每個(gè)字符的深度上下文表示;然后,使用BiLSTM網(wǎng)絡(luò)獲取每個(gè)字符左側(cè)和右側(cè)的前后語(yǔ)義關(guān)系;最后,借助CRF模型確保預(yù)測(cè)的結(jié)果是合法的標(biāo)簽。上述過(guò)程的具體計(jì)算如式(1)、式(2)所示:

        其中,T∈?(n+2)×2D表示編碼后的句子經(jīng)過(guò)BiLSTM模型后的輸出,Z∈?1×(n+2)表示CRF模型預(yù)測(cè)的標(biāo)簽,D表示BERT模型輸出的隱藏層維度。

        BERT-BiLSTM-CRF模型結(jié)構(gòu)如圖3所示。

        圖3 BERT-BiLSTM-CRF模型結(jié)構(gòu)Fig.3 Structure of BERT-BiLSTM-CRF model

        2.3 分類(lèi)模型

        在實(shí)際應(yīng)用場(chǎng)景中,用戶提出的問(wèn)題往往不局限于簡(jiǎn)單問(wèn)題,很多包含了復(fù)雜的多跳問(wèn)題。因此,本文將問(wèn)題劃分成單跳問(wèn)題和多跳問(wèn)題2類(lèi),其中,單跳問(wèn)題再分為主、謂、賓3個(gè)位置的答案查詢,多跳問(wèn)題可以分成鏈?zhǔn)絾?wèn)題和多實(shí)體問(wèn)題2種。

        2.3.1 單多跳分類(lèi)

        單跳問(wèn)題(簡(jiǎn)單問(wèn)題)指問(wèn)句對(duì)應(yīng)單個(gè)三元組查詢,而多跳問(wèn)題(復(fù)雜問(wèn)題)指問(wèn)句對(duì)應(yīng)多個(gè)三元組查詢。表1所示為2種類(lèi)型的問(wèn)句示例。由于訓(xùn)練數(shù)據(jù)提供了每個(gè)問(wèn)句的SPARQL查詢語(yǔ)句,根據(jù)大括號(hào)中字段的數(shù)量,將訓(xùn)練數(shù)據(jù)切分成單跳數(shù)據(jù)(數(shù)量=3)和多跳數(shù)據(jù)(數(shù)量>3),單跳標(biāo)簽設(shè)為0,多跳標(biāo)簽設(shè)為1,然后基于BERT模型訓(xùn)練一個(gè)二分類(lèi)模型。對(duì)于單句子分類(lèi)任務(wù),文獻(xiàn)[12]給出了BERT的基本分類(lèi)框架,即將模型最后一層的第一個(gè)標(biāo)記[CLS]的輸出直接作為整個(gè)句子的融合表示,然后經(jīng)過(guò)一個(gè)多層感知器進(jìn)行分類(lèi),其模型結(jié)構(gòu)如圖4所示,最后一步的計(jì)算如式(3)所示:

        其中,softmax表示激活函數(shù),其計(jì)算每個(gè)類(lèi)別的概率分布,W∈?K×D是隱藏層的權(quán)重,b∈?1×K是偏置,K表示類(lèi)別個(gè)數(shù)。

        表1 單多跳分類(lèi)示例Table 1 Examples of single-multi hop classification

        圖4 BERT分類(lèi)模型結(jié)構(gòu)Fig.4 Structure of BERT classification model

        2.3.2 主謂賓分類(lèi)

        主謂賓分類(lèi)指單跳問(wèn)句的答案對(duì)應(yīng)于三元組中的主語(yǔ)、謂語(yǔ)或賓語(yǔ)中的一個(gè)。當(dāng)已知一個(gè)問(wèn)句的主題實(shí)體時(shí),無(wú)法知道該實(shí)體對(duì)應(yīng)于知識(shí)庫(kù)三元組中的主語(yǔ)位置還是賓語(yǔ)位置,因此,本文將單跳問(wèn)題劃分成主謂賓3類(lèi)來(lái)查找答案。根據(jù)單跳問(wèn)題的SPARQL語(yǔ)句三元組中問(wèn)號(hào)的所在位置,將單跳問(wèn)題的數(shù)據(jù)劃分成3類(lèi),標(biāo)簽分別設(shè)為0、1、2,數(shù)據(jù)樣例如表2所示,然后訓(xùn)練一個(gè)三分類(lèi)模型,模型結(jié)構(gòu)如圖4所示。

        表2 主謂賓分類(lèi)示例Table 2 Examples of subject-predicate-object classification

        2.3.3 鏈?zhǔn)椒诸?lèi)

        鏈?zhǔn)絾?wèn)題指問(wèn)句涉及多個(gè)三元組查詢,并且三元組之間呈遞進(jìn)關(guān)系,這類(lèi)復(fù)雜問(wèn)題的問(wèn)句中均包含多個(gè)關(guān)系屬性。根據(jù)SPARQL語(yǔ)句中三元組是否呈遞進(jìn)關(guān)系,可以將所有數(shù)據(jù)切分成鏈?zhǔn)絾?wèn)題和非鏈?zhǔn)絾?wèn)題,因?yàn)閱翁鴨?wèn)題也可能存在問(wèn)句中有多個(gè)實(shí)體的情況,所以沒(méi)有直接將多跳問(wèn)題劃分成鏈?zhǔn)絾?wèn)題和多實(shí)體問(wèn)題。在此基礎(chǔ)上,訓(xùn)練一個(gè)二分類(lèi)模型,模型結(jié)構(gòu)如圖4所示。表3所示為2種類(lèi)型問(wèn)句的鏈?zhǔn)椒诸?lèi)示例。

        表3 鏈?zhǔn)椒诸?lèi)示例Table 3 Examples of chain classification

        2.3.4 關(guān)系抽取

        關(guān)系抽取指已知給定問(wèn)句的主題實(shí)體,查找實(shí)體的所有候選關(guān)系中與問(wèn)句表達(dá)最相近的關(guān)系。在很多情況下,中文問(wèn)句中的關(guān)系表述偏口語(yǔ)化,缺乏規(guī)范,與知識(shí)庫(kù)中的表達(dá)不一致,無(wú)法直接通過(guò)字符對(duì)齊來(lái)實(shí)現(xiàn)關(guān)系抽取。本文基于BERT模型,設(shè)計(jì)一個(gè)問(wèn)句和關(guān)系的語(yǔ)義相似度計(jì)算方法。例如,一個(gè)問(wèn)句“里奧·梅西的生日是什么時(shí)候?”,從SPARQL語(yǔ)句得知主題實(shí)體為“<里奧·梅西_(阿根廷足球運(yùn)動(dòng)員)>”,但該實(shí)體有很多候選關(guān)系,包括“中文名”“外文名”“妻子”“出生日期”“所屬運(yùn)動(dòng)隊(duì)”等。本文構(gòu)建一個(gè)相似度計(jì)算模型的訓(xùn)練數(shù)據(jù),令正例的標(biāo)簽為1,5個(gè)負(fù)例的標(biāo)簽為0,使用訓(xùn)練好的模型計(jì)算問(wèn)句和每個(gè)候選關(guān)系的相似度(分類(lèi)為標(biāo)簽1的概率值),然后進(jìn)行排序,選擇相似度最高的關(guān)系來(lái)搜索最終答案。模型結(jié)構(gòu)如圖4所示,但不同的是輸入序列為問(wèn)句Q=(x1,x2,…,xn)和關(guān)系P=(k1,k2,…,km),然后經(jīng)過(guò)BERT的中文文本分詞器處理后的序列為S=([CLS],x1,x2,…,xn,[SEP],k1,k2,…,km,[SEP])。

        2.4 實(shí)體鏈接

        實(shí)體鏈接指將問(wèn)句中識(shí)別出的主題實(shí)體提及鏈接到知識(shí)庫(kù)中唯一的實(shí)體。因?yàn)樽R(shí)別出的提及不能直接鏈接到具體實(shí)體,很多存在一個(gè)提及對(duì)應(yīng)多個(gè)實(shí)體的情況,而且受到模型性能的影響,識(shí)別出的提及會(huì)有邊界錯(cuò)誤,所以本文設(shè)計(jì)3類(lèi)共10個(gè)特征來(lái)完成候選實(shí)體的排序任務(wù)。

        2.4.1 提及特征

        提及特征共包括以下3種特征:

        1)S1,實(shí)體提及的初始分。提及識(shí)別模型抽取出的提及初始分S1=1,但其只能作為候選,因?yàn)楹芏嗲闆r下識(shí)別存在邊界錯(cuò)誤,此時(shí)需要對(duì)候選的左右字符進(jìn)行擴(kuò)展或刪減,增加或減少1個(gè)字符扣0.1分,最多擴(kuò)展5個(gè)字符,刪減最少剩1個(gè)字符。

        2)S2,實(shí)體提及的長(zhǎng)度,表示實(shí)體對(duì)應(yīng)的提及的字符個(gè)數(shù)。

        3)S3,實(shí)體提及的長(zhǎng)度占問(wèn)句的長(zhǎng)度比,即提及的字符個(gè)數(shù)占問(wèn)句的字符個(gè)數(shù)的比例。

        2.4.2 實(shí)體特征

        實(shí)體特征共包括以下5種特征:

        1)S4,實(shí)體對(duì)應(yīng)的排名。知識(shí)圖譜的實(shí)體提及三元組中包含了提及所對(duì)應(yīng)的每個(gè)實(shí)體的具體排名,即優(yōu)先級(jí)0,1,2,…。

        2)S5,實(shí)體對(duì)應(yīng)的排名的倒數(shù),如果排名為0則設(shè)為1,否則為

        3)S6,問(wèn)句和實(shí)體的語(yǔ)義相似度,此處相似度度量通過(guò)關(guān)系相似度抽取模型實(shí)現(xiàn)。

        4)S7,問(wèn)句和實(shí)體后綴的語(yǔ)義相似度。實(shí)體后綴指實(shí)體知識(shí)三元組中實(shí)體名字括號(hào)中的部分,通過(guò)該信息可以完成實(shí)體消歧任務(wù)。

        5)S8,問(wèn)句和實(shí)體后綴的杰卡德系數(shù),此處杰卡德系數(shù)指2個(gè)字符串的字符交集個(gè)數(shù)與并集個(gè)數(shù)的比值,其值越大,表明字符重疊度越高。

        2.4.3 關(guān)系特征

        關(guān)系特征共包括以下2種特征:

        1)S9,問(wèn)句和實(shí)體候選關(guān)系的最大語(yǔ)義相似度,該相似度指實(shí)體的所有候選關(guān)系中與問(wèn)句語(yǔ)義最相似的關(guān)系的相似度值。

        2)S10,問(wèn)句和實(shí)體候選關(guān)系的最大杰卡德系數(shù),該系數(shù)指實(shí)體的所有候選關(guān)系中與問(wèn)句字符最相似的關(guān)系的杰卡德系數(shù)值。

        在訓(xùn)練數(shù)據(jù)的過(guò)程中,令正確實(shí)體的標(biāo)簽為1,其余候選實(shí)體標(biāo)簽為0,采用XGBoost模型[32]對(duì)上述特征進(jìn)行擬合,完成二分類(lèi)任務(wù),然后在驗(yàn)證集和測(cè)試集上,使用訓(xùn)練好的模型對(duì)每個(gè)候選實(shí)體進(jìn)行打分(分?jǐn)?shù)即分類(lèi)為標(biāo)簽1的概率值),選擇排名第1的實(shí)體作為最終答案。

        2.5 答案搜索

        答案的搜索流程如圖1所示,具體步驟如下:

        1)先對(duì)問(wèn)句進(jìn)行分類(lèi),判斷是否為單多跳、主謂賓或者鏈?zhǔn)?,然后?shí)現(xiàn)實(shí)體提及識(shí)別。

        2)根據(jù)識(shí)別到的提及進(jìn)行左右擴(kuò)展或刪減,搜索所有可能的候選實(shí)體,再根據(jù)一組特征,通過(guò)實(shí)體鏈接模型對(duì)候選實(shí)體進(jìn)行打分排序,選擇得分最高的實(shí)體。

        3)根據(jù)問(wèn)句的主謂賓標(biāo)簽搜索實(shí)體對(duì)應(yīng)的所有關(guān)系,通過(guò)關(guān)系抽取模型計(jì)算它們與當(dāng)前問(wèn)句的語(yǔ)義相似度,取得分最高的關(guān)系,搜索知識(shí)庫(kù)得到統(tǒng)一單跳問(wèn)題的答案。

        4)若問(wèn)句是鏈?zhǔn)角覟槎嗵鴨?wèn)題,將第3步得到的答案作為主題實(shí)體再執(zhí)行一遍第3步,得到多跳鏈?zhǔn)絾?wèn)題的答案。

        5)若問(wèn)句是非鏈?zhǔn)角易R(shí)別到多個(gè)實(shí)體,對(duì)每個(gè)實(shí)體搜索數(shù)據(jù)庫(kù),查詢對(duì)應(yīng)的所有候選三元組,然后兩兩求交集得到多實(shí)體問(wèn)題的答案。

        圖5所示為多實(shí)體問(wèn)題搜索的2個(gè)例子,分別為“由黃渤和徐崢共同主演的電影有哪些?”和“清華大學(xué)出了哪些物理學(xué)家?”,兩者都具有2個(gè)尾實(shí)體,前者是相同謂語(yǔ),后者是不同謂語(yǔ),通過(guò)計(jì)算2個(gè)實(shí)體三元組之間的交集可以得到問(wèn)題的答案。

        圖5 多實(shí)體問(wèn)題的搜索示例Fig.5 Search examples for multi entity problems

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)使用的數(shù)據(jù)來(lái)自CCKS2019-CKBQA公開(kāi)評(píng)測(cè)數(shù)據(jù),包括3份問(wèn)答數(shù)據(jù)集和1份開(kāi)放知識(shí)圖譜。評(píng)測(cè)數(shù)據(jù)均由人工構(gòu)建和標(biāo)注,其中,北京大學(xué)計(jì)算機(jī)技術(shù)研究所提供了3/4的開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù),恒生電子股份有限公司提供了1/4的金融領(lǐng)域問(wèn)答數(shù)據(jù)。問(wèn)答數(shù)據(jù)集包含2 298條訓(xùn)練集,766條驗(yàn)證集(初賽)和766條測(cè)試集(復(fù)賽)。開(kāi)放知識(shí)圖譜使用一個(gè)大型的中文知識(shí)圖譜PKUBASE,該圖譜包含41 009 141條實(shí)體知識(shí)三元組、13 930 117條實(shí)體提及三元組和25 182 627條實(shí)體類(lèi)型三元組。另外,由于關(guān)系抽取模型的訓(xùn)練數(shù)據(jù)過(guò)少,本文實(shí)驗(yàn)額外增加了NLPCC2016-KBQA[33]公開(kāi)評(píng)測(cè)數(shù)據(jù)。NLPCC2016-KBQA數(shù)據(jù)主要包含簡(jiǎn)單問(wèn)題,而CCKS2019-CKBQA數(shù)據(jù)還包含很多的復(fù)雜問(wèn)題,因此,本文選取CCKS2019-CKBQA數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)。

        3.2 實(shí)驗(yàn)設(shè)置

        本文使用的BERT預(yù)訓(xùn)練模型為BERT-Base Chinese[12],其基于Tensorflow框架實(shí)現(xiàn),有12層編碼器,每一層隱狀態(tài)的輸出維度為768,中文問(wèn)句的最大長(zhǎng)度為60。模型的優(yōu)化方式采用Adam算法對(duì)參數(shù)進(jìn)行更新和微調(diào),初始學(xué)習(xí)率均為2e-5。訓(xùn)練時(shí)采用批量訓(xùn)練的方法,批量大小為32。Dropout比率默認(rèn)設(shè)置為0.1,最大迭代次數(shù)為100,訓(xùn)練時(shí)每50步保存一次模型并驗(yàn)證一次開(kāi)發(fā)集。

        實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)包括宏觀準(zhǔn)確率(PMacro)、宏觀召回率(RMacro)和平均F1值(F1Average),評(píng)測(cè)結(jié)果最終排名以平均F1值為基準(zhǔn)。設(shè)Q為所有問(wèn)題集合,Ai為第i個(gè)問(wèn)題給出的答案集合,Gi為第i個(gè)問(wèn)題的標(biāo)準(zhǔn)答案集合,相關(guān)指標(biāo)的計(jì)算如式(4)~式(6)所示:

        3.3 實(shí)驗(yàn)結(jié)果

        由于評(píng)測(cè)組織者只對(duì)驗(yàn)證集(初賽)公開(kāi)了標(biāo)準(zhǔn)答案,因此本文相關(guān)實(shí)驗(yàn)只在驗(yàn)證集上進(jìn)行測(cè)試并呈現(xiàn)基于本文方法的模型應(yīng)用于測(cè)試集(復(fù)賽)上的結(jié)果,表4所示為評(píng)測(cè)前4名系統(tǒng)和本文方法的結(jié)果對(duì)比,其中,“評(píng)測(cè)第2名”是本文系統(tǒng)與其他系統(tǒng)融合的結(jié)果。從表4可以看出,本文方法略優(yōu)于第4名系統(tǒng)。值得注意的是,評(píng)測(cè)前4名系統(tǒng)都采用模型融合的策略,本文提出單模型方法,在結(jié)構(gòu)盡量簡(jiǎn)單的情況下也取得了較好的實(shí)驗(yàn)結(jié)果,從而驗(yàn)證了該系統(tǒng)的有效性。

        表4 不同系統(tǒng)的性能比較Table 4 Performance comparison of different systems %

        3.4 實(shí)驗(yàn)分析

        表5所示為本文系統(tǒng)各個(gè)子模型的性能對(duì)比結(jié)果,從表5可以看出,實(shí)體提及識(shí)別模型的性能并不高,為了提高識(shí)別的召回率,本文對(duì)模型識(shí)別到的候選提及進(jìn)行左右字符的擴(kuò)展和刪減,以增加候選實(shí)體的數(shù)量。單多跳分類(lèi)模型的準(zhǔn)確率只有89.13%,其余模型的準(zhǔn)確率均在93%以上。表6所示為分類(lèi)錯(cuò)誤的具體樣例,從表6可以看出,多跳問(wèn)題實(shí)際上可以用單跳方法來(lái)解決,即別名提及可以通過(guò)實(shí)體鏈接得到其主題實(shí)體,而無(wú)需多余的三元組。

        表5 不同子模型的性能比較Table 5 Performance comparison of different sub-models %

        表6 多跳分類(lèi)錯(cuò)誤的示例Table 6 Examples of multi-hop classification error

        本文問(wèn)答系統(tǒng)考慮到子模型的性能,并未將中文問(wèn)題單獨(dú)劃分成單跳和多跳來(lái)處理,而是對(duì)所有問(wèn)題統(tǒng)一進(jìn)行了一遍單跳搜索,從而提高系統(tǒng)性能。由于單跳問(wèn)題也有可能含有多個(gè)實(shí)體,因此該系統(tǒng)以是否鏈?zhǔn)絹?lái)判斷問(wèn)句是鏈?zhǔn)絾?wèn)題還是多實(shí)體問(wèn)題。此外,部分問(wèn)句被分類(lèi)為鏈?zhǔn)絾?wèn)題但不是多跳問(wèn)題,因此,本文對(duì)鏈?zhǔn)絾?wèn)題增加一層約束判斷,以降低因?yàn)槟P头诸?lèi)錯(cuò)誤而帶來(lái)的影響。

        在表4評(píng)測(cè)第1名系統(tǒng)[29]中,實(shí)體提及部分并未采用序列標(biāo)注模型來(lái)識(shí)別,而是通過(guò)構(gòu)建詞典進(jìn)行字符串匹配和外加命名實(shí)體識(shí)別器的方法,提高實(shí)體識(shí)別的精度。在實(shí)體鏈接部分,本文所提方法只保留候選得分最高的唯一實(shí)體,而沒(méi)有增加候選實(shí)體的數(shù)量,導(dǎo)致召回率降低。另外,評(píng)測(cè)第1名系統(tǒng)沒(méi)有對(duì)中文問(wèn)題進(jìn)行分類(lèi),而是統(tǒng)一地使用基于路徑相似度匹配的策略,相比于只用實(shí)體關(guān)系和問(wèn)題進(jìn)行匹配的策略,該策略在語(yǔ)義上更準(zhǔn)確,也減少了錯(cuò)誤傳播。因此,本文在模型融合時(shí)加入實(shí)體路徑和問(wèn)題匹配方法。在未來(lái)的研究中,可以借鑒評(píng)測(cè)第1名系統(tǒng)的優(yōu)點(diǎn)來(lái)改進(jìn)本文模型的系統(tǒng)性能。

        為驗(yàn)證不同答案搜索模塊對(duì)本文系統(tǒng)的影響,分別對(duì)某個(gè)模塊進(jìn)行屏蔽后進(jìn)行實(shí)驗(yàn),結(jié)果如表7所示。從表7可以看出,不同搜索模塊對(duì)系統(tǒng)整體性能都有較大影響。如果將所有問(wèn)題都當(dāng)成簡(jiǎn)單問(wèn)題來(lái)解決,系統(tǒng)的F1值只有52.02%。相較于簡(jiǎn)單問(wèn)題,本文所提系統(tǒng)針對(duì)復(fù)雜問(wèn)題中的鏈?zhǔn)胶投鄬?shí)體問(wèn)題的F1值提高了14.74個(gè)百分點(diǎn)(66.76%-52.02%),驗(yàn)證了該系統(tǒng)將中文問(wèn)題設(shè)置不同的標(biāo)簽進(jìn)行答案搜索的策略具有有效性。

        表7 不同模塊設(shè)置下的系統(tǒng)性能對(duì)比Table 7 Comparison of system performance under different module settings %

        4 結(jié)束語(yǔ)

        本文提出一種基于多標(biāo)簽策略進(jìn)行答案搜索的中文知識(shí)圖譜問(wèn)答系統(tǒng)。對(duì)問(wèn)句設(shè)置不同的標(biāo)簽,以利用不同的模塊來(lái)搜索問(wèn)句答案并解決復(fù)雜問(wèn)題中的鏈?zhǔn)胶投鄬?shí)體問(wèn)題。在實(shí)體提及識(shí)別部分,提出將預(yù)訓(xùn)練語(yǔ)言模型BERT和BiLSTM網(wǎng)絡(luò)相結(jié)合的方法。在關(guān)系抽取部分,摒棄復(fù)雜的模型結(jié)構(gòu)而直接基于BERT模型實(shí)現(xiàn)問(wèn)句和候選關(guān)系的相似度計(jì)算。在實(shí)體鏈接部分,借助XGBoost模型設(shè)計(jì)不同的特征以提高系統(tǒng)性能。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)可以有效解決中文知識(shí)圖譜問(wèn)答中不同類(lèi)型的簡(jiǎn)單、鏈?zhǔn)胶投鄬?shí)體問(wèn)題。

        雖然本文利用多標(biāo)簽的方法取得了較好的效果,但也存在一個(gè)弊端,即通過(guò)不同的分類(lèi)模型對(duì)問(wèn)句設(shè)置多個(gè)標(biāo)簽,將存在一個(gè)錯(cuò)誤傳遞的過(guò)程,系統(tǒng)整體性能會(huì)受到多個(gè)子模塊性能的影響。因此,今后將研究并實(shí)現(xiàn)一種端到端的方法來(lái)完成中文知識(shí)圖譜問(wèn)答。此外,NL2SQL技術(shù)可以將用戶的自然語(yǔ)句直接轉(zhuǎn)為可執(zhí)行的SQL語(yǔ)句,如何有效地將NL2SQL技術(shù)引入到中文知識(shí)圖譜問(wèn)答任務(wù)中也是下一步的研究方向。

        猜你喜歡
        模型系統(tǒng)
        一半模型
        Smartflower POP 一體式光伏系統(tǒng)
        WJ-700無(wú)人機(jī)系統(tǒng)
        ZC系列無(wú)人機(jī)遙感系統(tǒng)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于PowerPC+FPGA顯示系統(tǒng)
        半沸制皂系統(tǒng)(下)
        連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
        3D打印中的模型分割與打包
        天堂网在线最新版www| 手机在线免费看av网站| 国产av一区二区日夜精品剧情 | 日本免费a级毛一片| 午夜一级韩国欧美日本国产| 无码丰满熟妇浪潮一区二区av| 亚洲综合久久中文字幕专区一区| 国产精品日日做人人爱| 国产精品ⅴ无码大片在线看| 无码专区中文字幕DVD| 国产毛片三区二区一区| 一区二区在线视频免费蜜桃| 色综合久久无码五十路人妻| 不卡高清av手机在线观看| 亚洲日韩精品A∨片无码加勒比| 人妻风韵犹存av中文字幕 | 夫妻一起自拍内射小视频| 青青草免费手机直播视频| 中文字字幕人妻中文| 亚洲男人天堂| 久久午夜无码鲁丝片直播午夜精品| 亚洲乱熟妇一区二区三区蜜桃| 成人片黄网站a毛片免费| 亚洲欧洲日本综合aⅴ在线| 日本免费一区二区三区在线看| 国产大片在线观看91| 一本色道久久hezyo无码| 99精品国产高清一区二区麻豆| 亚洲嫩模高清在线视频| 国产av精选一区二区| 日本少妇春药特殊按摩3| 亚洲人成无码网www| 女同另类激情在线三区| 中文字幕人妻互换激情| 一区二区三区日韩亚洲中文视频| 亚洲最大一区二区在线观看| 狼人青草久久网伊人| 丰满人妻熟妇乱又伦精品视| 亚洲AV无码一区二区三区性色学| 亚洲高清国产拍精品熟女| 少妇被按摩出高潮了一区二区|