亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于弱依賴信息的知識庫問答方法

        2021-06-18 07:31:36吳天波劉露平羅曉東卿粼波何小海
        計算機工程 2021年6期
        關(guān)鍵詞:三元組知識庫命名

        吳天波,劉露平,羅曉東,卿粼波,2,何小海

        (1.四川大學(xué) 電子信息學(xué)院,成都 610065;2.無線能量傳輸教育部重點實驗室,成都 610065)

        0 概述

        自動問答是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務(wù),按照數(shù)據(jù)來源分為檢索式問答、社區(qū)問答和知識庫問答[1]。知識庫結(jié)構(gòu)為{E,A,V}三元組集合,其中,E表示實體,A表示屬性,V表示目標(biāo)值。知識庫問答的核心目標(biāo)是定位出問題所對應(yīng)答案的三元組,即所需的答案。例如,在知識庫中存在三元組(“辣子雞”,“分類”,“湘菜,辣菜”),當(dāng)被問及“辣子雞屬于什么菜系?”時,知識庫問答將定位到該條三元組,給出“湘菜,辣菜”的答案。

        知識庫問答主要包括語義解析、信息抽取和向量建模3 種途徑。語義解析將自然語言轉(zhuǎn)化為邏輯形式進(jìn)行分析,使機器可以理解其中的語義信息,并從知識庫中提取信息進(jìn)行回答。文獻(xiàn)[2]采用知識庫問答方式,通過無監(jiān)督手段將自然語言用解釋器解析為邏輯形式,并在知識庫中檢索答案。信息抽取采用模糊檢索方式,從問句中抽取關(guān)鍵信息,并以該信息為目標(biāo)在知識庫中檢索更小的集合,在此集合上進(jìn)一步得出答案。文獻(xiàn)[3]對問題進(jìn)行命名實體識別,利用實體信息從知識庫中建立圖模型,實現(xiàn)信息提取和答案篩選。向量建模將問題和答案映射到向量空間進(jìn)行分析,近年來得益于深度學(xué)習(xí)的飛速發(fā)展,向量建模方法得到了廣泛應(yīng)用。文獻(xiàn)[4]基于深度結(jié)構(gòu)化語義模型匹配問題和謂語。文獻(xiàn)[5]在圖表示學(xué)習(xí)的基礎(chǔ)上進(jìn)行改進(jìn),從特定問題的子圖中提取答案。文獻(xiàn)[6]提出基于深度強化學(xué)習(xí)的網(wǎng)絡(luò),對問題和選項進(jìn)行編碼。文獻(xiàn)[7]利用知識圖嵌入將謂詞和實體用低維向量表示,探索其在知識圖譜問答任務(wù)中的潛在用途。

        在中文領(lǐng)域,知識庫問答多數(shù)結(jié)合信息抽取、向量建模兩種方法實現(xiàn)。文獻(xiàn)[8]利用深度卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)挖掘語義特征,并通過答案重排確定結(jié)果。文獻(xiàn)[9]使用基于注意力機制的長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)[10]將中文語料映射到向量空間,并依托實體抽取檢索出備選的知識集合。文獻(xiàn)[11]在此基礎(chǔ)上引入人工規(guī)則,并結(jié)合句法分析進(jìn)行關(guān)系詞提取。文獻(xiàn)[12]提出基于依賴結(jié)構(gòu)的語義關(guān)系識別方法,從問句中挖掘深層的語義信息。上述方法都高度依賴問答對以外的信息,由于訓(xùn)練數(shù)據(jù)包括原始問答對以及每對問句和答案對應(yīng)的三元組信息,因此這些信息在許多場景中并不具備,需通過大量人工標(biāo)注或先驗規(guī)則獲得,耗費較多人力且泛化能力不佳,同時通常需要不同的預(yù)處理方法處理不同領(lǐng)域的問答數(shù)據(jù)。為解決上述問題,文獻(xiàn)[13]提出非監(jiān)督學(xué)習(xí)方法,利用動態(tài)規(guī)劃思想,尋找全局最優(yōu)決策,但問答結(jié)果的準(zhǔn)確率不高。本文基于弱依賴信息,在僅已知問答對信息的情況下設(shè)計答案匹配策略,通過挖掘問句與答案潛在的語義聯(lián)系以提高問答效率。

        1 相關(guān)工作

        1.1 整體流程

        在知識庫問答中,弱依賴信息是指數(shù)據(jù)來源僅含知識庫和問答對,使得問答模型能盡可能少地依賴其他先驗信息。基于弱依賴信息的知識庫問答分為命名實體識別、答案匹配和閾值選擇三大模塊。首先通過命名實體識別提取問句中的實體,然后以該實體為搜索條件生成查詢語句,通過知識庫檢索返回三元組集合,并將去掉命名實體的問句與三元組集合中的答案集合依次做語義匹配,得到帶相似度分?jǐn)?shù)的一系列備選答案,最后通過閾值選擇得出最終的答案。知識庫問答整體流程如圖1 所示。

        圖1 知識庫問答整體流程Fig.1 Overall process of knowledge base question answering

        在圖1 中,命名實體識別和答案匹配網(wǎng)絡(luò)模型均使用BERT(Bidirectional Encoder Representations from Transformer)預(yù)訓(xùn)練模型進(jìn)行特征提取。BERT模型內(nèi)部使用Transformer 代替卷積神經(jīng)網(wǎng)絡(luò),能方便地遷移到其他網(wǎng)絡(luò)中,輸入的自然語言通過該基礎(chǔ)網(wǎng)絡(luò)后得到向量化的特征,再利用后續(xù)的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)各自功能。

        1.2 BERT 模型

        BERT[14]是Google AI 團(tuán)隊于2018 年提出的自然語言處理(Natural Language Processing,NLP)領(lǐng)域的通用模型,在信息抽取、語義推理和問答系統(tǒng)等眾多任務(wù)中均取得了突破性的進(jìn)展。BERT 模型內(nèi)部主要使用雙向Transformer 編碼器,核心結(jié)構(gòu)如圖2所示。網(wǎng)絡(luò)使用帶注意力機制的雙向Transformer block 進(jìn)行連接[15],能更好地挖掘輸入語料的上下文語義信息。

        圖2 BERT 核心結(jié)構(gòu)Fig.2 Core structure of BERT

        1.3 Transformer 模型

        Transformer[16]是Google 于2017年提出的基于注意力機制的NLP 經(jīng)典模型。該模型分為編碼器和解碼器兩部分,其中編碼器結(jié)構(gòu)如圖3 所示。Transformer 通過在網(wǎng)絡(luò)中引入多頭注意力機制,調(diào)整輸入的每個詞的權(quán)重,因此能夠獲得更加全局的詞向量表示。

        圖3 Transformer 編碼器結(jié)構(gòu)Fig.3 Transformer encoder structure

        2 知識庫問答模型

        2.1 命名實體識別

        知識庫問答的核心是使用命名實體識別算法提取出問句中的實體。命名實體識別是自然語言處理中的經(jīng)典任務(wù),它屬于序列標(biāo)注的子任務(wù),通過對輸入文字每個位置標(biāo)注出相應(yīng)的實體信息,實現(xiàn)實體抽取功能。實體標(biāo)注有BIO 和BIOES 兩種模式,本文采用BIO 模式標(biāo)注實體,其中,B-X 表示X 實體的開頭,I-X 表示X 實體的中間或結(jié)尾,O 表示不是實體內(nèi)容。由于本文研究的知識庫問答的問句中僅涉及單一實體,因此僅定義一種實體類型ENT。例如,當(dāng)輸入問句“李明的出生地是哪?”時,實體標(biāo)注結(jié)果如圖4 所示。

        圖4 實體標(biāo)注結(jié)果Fig.4 Result of entity annotation

        命名實體識別網(wǎng)絡(luò)模型如圖5 所示,主要包括特征提取和實體標(biāo)注兩部分。在特征提取過程中,長度為m的輸入問句被分割成詞的序列{w1,w2,…,wm}送入BERT 網(wǎng)絡(luò)中,經(jīng)分詞及詞嵌入后得到m個詞向量。詞向量經(jīng)過N層的Transformer 編碼器特征提取后,得到長為序列長度m、寬為隱藏層維度d的特征矩陣,從而完成特征提取工作。在實體標(biāo)注過程中通常采用BiLSTM-CRF[17]網(wǎng)絡(luò)進(jìn)行重疊命名實體識別[18]。首先將特征矩陣輸入到每個方向的神經(jīng)元個數(shù)為n的雙向LSTM 層,進(jìn)一步提取上下文的語義關(guān)聯(lián)信息,其中,f、b、c 分別表示正向、逆向和輸出神經(jīng)元,輸出的新特征向量隱藏層維度為2n。該特征向量經(jīng)過一層前饋神經(jīng)網(wǎng)絡(luò),通過線性變換得到長度為m、寬度為待標(biāo)注類型數(shù)的向量并將其作為CRF層的輸入。

        圖5 命名實體識別網(wǎng)絡(luò)模型Fig.5 Network model of named entity recognition

        由于本文僅定義一種實體類型,因此該向量寬度為3,分別代 表B、I 和O 的狀態(tài)分 數(shù)。在CRF 層中,線性鏈條件隨機場概率模型對輸入特征序列求出條件概率最大的輸出標(biāo)注序列,即為輸入問句的每個位置標(biāo)上標(biāo)注信息。通過對輸出標(biāo)注序列的統(tǒng)計,便能定位出實體的起止位置。

        在BiLSTM-CRF 網(wǎng)絡(luò)中,對于輸入向量x,對應(yīng)的輸出為y,其得分計算如式(1)所示:

        其中,h表示BiLSTM 層輸出的三維向量,P表示轉(zhuǎn)移特征矩陣,P[yi-1,yi]表示輸出標(biāo)簽從yi-1到y(tǒng)i的轉(zhuǎn)移得分值。損失函數(shù)采用對數(shù)似然函數(shù),訓(xùn)練時最小化式(2)中的目標(biāo)函數(shù):

        由于本文針對的數(shù)據(jù)集是單跳問答對,問句中抽取出的實體多為單個,如果存在多個實體,第一個實體通常是問題的主語,因此將選取其作為候選實體。

        2.2 答案匹配

        在完成命名實體識別后,將提取的實體名作為關(guān)鍵詞,生成知識庫的查詢語句,在知識庫中檢索返回包含該實體的三元組集合,為答案匹配做準(zhǔn)備。在中文知識庫問答中,通常將問句與三元組中的謂詞做語義匹配,但這需要訓(xùn)練數(shù)據(jù)中包含的原始問答對以及具體的三元組信息,而特定任務(wù)的問答數(shù)據(jù)集通常沒有這些額外信息,因此需要大量的人工標(biāo)注或者特殊的預(yù)處理方式。本文提出的答案匹配方法直接將問句與答案信息做匹配,在訓(xùn)練時僅依賴原始問答對數(shù)據(jù),在問答時計算知識庫中三元組的答案與問句的匹配程度。首先對問句做預(yù)處理,去除命名實體,以防問句過長及冗余信息對答案匹配的效果產(chǎn)生干擾,然后將預(yù)處理后的問句與三元組集合中的每一個答案做相似度匹配,為每一個答案都標(biāo)上相似度分?jǐn)?shù)。相似度分?jǐn)?shù)是一個0 到1 之間的值,因此在訓(xùn)練過程中,若輸入為正確答案,則對應(yīng)的相似度分?jǐn)?shù)的標(biāo)簽為1,否則相似度分?jǐn)?shù)的標(biāo)簽為0。

        答案匹配網(wǎng)絡(luò)模型如圖6 所示。問答對以[CLS]記號為開始,在每一次匹配中,預(yù)處理后的問句與答案之間用[SEP]記號隔開,連接成一個序列。

        圖6 答案匹配網(wǎng)絡(luò)模型Fig.6 Network model of answer matching

        答案匹配網(wǎng)絡(luò)的特征提取過程與命名實體識別網(wǎng)絡(luò)類似,經(jīng)過BERT 網(wǎng)絡(luò)后得到一個長為(m+n)、寬為d的特征矩陣。由于網(wǎng)絡(luò)最后一層為Sigmoid層,是分類網(wǎng)絡(luò)的典型輸出層,因此需要對特征矩陣進(jìn)行下采樣,使用一層池化層提取特征矩陣中最重要的信息,將特征矩陣的第一列(長為d)提取出來,作為Sigmoid 層的輸入。最終經(jīng)Sigmoid 層輸出,得到一個0 到1 之間的值,即相似度分?jǐn)?shù)。

        由于答案匹配網(wǎng)絡(luò)的最后一層為Sigmoid 層,因此損失函數(shù)采用交叉熵?fù)p失函數(shù)。標(biāo)簽僅有0 和1兩類,損失函數(shù)結(jié)構(gòu)與二分類任務(wù)中的結(jié)構(gòu)類似。在一次相似度匹配中,若樣本標(biāo)簽為y,則預(yù)測的相似度分?jǐn)?shù)為s,損失函數(shù)表示為:

        2.3 閾值選擇

        通過答案匹配為包含問句中實體的三元組集合的每一個答案都標(biāo)上相似度分?jǐn)?shù),之后基于這些相似度分?jǐn)?shù)選出合適的答案。較簡單的做法是選出相似度分?jǐn)?shù)最高的答案,這在基于謂詞匹配的傳統(tǒng)方法中具有最好的效果,但將其使用在本文提出的答案匹配的方法中得出的答案會有一定誤差,這是由于答案匹配得到的相似度分?jǐn)?shù)通常比謂詞匹配小很多,因此相近的答案之間區(qū)分度不高。

        知識庫問答的評測指標(biāo)主要為F1 分?jǐn)?shù)(F),假定標(biāo)準(zhǔn)答案和預(yù)測答案均為集合形式,通過精確率(P)和召回率(R)計算得到F1 分?jǐn)?shù)。精確率表示預(yù)測正確的答案在預(yù)測答案集合中所占的比例,反映了問答系統(tǒng)的準(zhǔn)確程度。召回率表示預(yù)測正確的答案在正確答案集合中所占的比例,反映了問答系統(tǒng)的完備程度。一個高質(zhì)量的問答系統(tǒng)應(yīng)該同時保持高的精確率值和召回率值,并通過F1 分?jǐn)?shù)對其性能進(jìn)行評價。F1 分?jǐn)?shù)的計算公式為:

        若要構(gòu)建性能良好的問答系統(tǒng),只有在答案選擇中返回相似度分?jǐn)?shù)近似的答案集合,并將預(yù)測答案的錯誤和遺漏同時控制到最低,才能得到較高的F1 分?jǐn)?shù)。本文采用閾值選擇策略,通過實驗對比選擇合適的相似度閾值,高于閾值的答案將被選中,構(gòu)成預(yù)測答案的集合,并按相似度分?jǐn)?shù)的高低排序后呈現(xiàn)給用戶。使用S表示每個問題的相似度分?jǐn)?shù),Sthreshold表示設(shè)定的相似度閾值,每個答案的選中狀態(tài)為B,B=1 表示答案被選中,B=0 表示答案未被選中,計算公式為:

        3 實驗與結(jié)果分析

        3.1 實驗數(shù)據(jù)集與環(huán)境

        本文使用NLPCC-ICCPOL-2016KBQA 數(shù)據(jù)集發(fā)布的知識庫和問答對數(shù)據(jù),共有14 609 個訓(xùn)練問答對和9 870 個測試問答對。為使評測結(jié)果更加客觀,進(jìn)一步將訓(xùn)練問答對隨機劃分為訓(xùn)練集和開發(fā)集,測試問答對作為測試集。數(shù)據(jù)集劃分情況如表1所示。

        表1 數(shù)據(jù)集劃分情況Table 1 Division of dataset

        本文實驗運行在CPU 為Inter i5-4590、內(nèi)存為12 GB 的計算機上,模型訓(xùn)練所用顯卡為Nvidia GTX 1080Ti,顯存為11 GB,所用深度學(xué)習(xí)框架為CUDA 10.0 和Tensorflow 1.14,操作系統(tǒng)為64 位Windows 10,知識庫數(shù)據(jù)存儲和檢索使用Mysql 5.6.46。

        3.2 命名實體識別結(jié)果分析

        知識庫問答中的問句格式較為固定,任何一個短句單實體的數(shù)據(jù)集都可以作為命名實體識別的訓(xùn)練數(shù)據(jù)。本文為了驗證實驗結(jié)果,所用數(shù)據(jù)為問答對中的問題及其所含的實體信息,使用的BERT 模型為中文版本,通過對加載的預(yù)訓(xùn)練參數(shù)進(jìn)行微調(diào)的方式,在12 000 個訓(xùn)練集問題上對命名實體識別網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并分別在訓(xùn)練集、開發(fā)集和測試集上進(jìn)行性能測試。命名實體識別的超參數(shù)設(shè)置如表2 所示。

        表2 命名實體識別的超參數(shù)設(shè)置Table 2 Hyperparameters setting of named entity recognition

        訓(xùn)練過程總共迭代7 028 次,采用帶權(quán)值衰減的Adam 優(yōu)化器[19]優(yōu)化損失函數(shù)。在訓(xùn)練集上完成訓(xùn)練后,分別將模型在訓(xùn)練集、開發(fā)集、測試集上進(jìn)行性能測試,結(jié)果如表3 所示。限于語料庫規(guī)模,測試結(jié)果存在輕微的過擬合現(xiàn)象,在訓(xùn)練集上基本準(zhǔn)確,在開發(fā)集和測試集上有一定誤差,總體表現(xiàn)較好。

        表3 命名實體識別測試結(jié)果Table 3 Test results of named entity recognition %

        3.3 答案匹配結(jié)果分析

        為訓(xùn)練答案匹配的網(wǎng)絡(luò)模型,需要在已有問答對的基礎(chǔ)上制作答案匹配的數(shù)據(jù)集。具體地,將每個問題去掉命名實體后,與答案相連接,再在后面加上一個“1”,表示該問句與答案的相似度為1,連接處均用[SEP]標(biāo)記隔開。制作負(fù)樣本的過程與問答流程類似,以命名實體為關(guān)鍵詞在知識庫中檢索,得到與該實體有關(guān)的答案集合,將不為該問題答案的名詞以同樣的方式連接在問句后,并在后面加上一個“0”,表示問句與該答案的相似度為0。對于知識庫中僅有一個三元組的實體,為加以區(qū)分,則在以其他實體為關(guān)鍵字的三元組中隨機選取5 個答案作為負(fù)樣本,添加到數(shù)據(jù)集中,得到的答案匹配數(shù)據(jù)集規(guī)模如表4 所示。

        表4 答案匹配數(shù)據(jù)集規(guī)模Table 4 Dataset size of answer matching

        將訓(xùn)練集數(shù)據(jù)輸入答案匹配網(wǎng)絡(luò)進(jìn)行訓(xùn)練。由于網(wǎng)絡(luò)特征提取部分同樣使用BERT,因此超參數(shù)選取除了沒有LSTM 以外,其他設(shè)置與命名實體識別一致。模型訓(xùn)練的優(yōu)化器同樣采用帶權(quán)值衰減的Adam,網(wǎng)絡(luò)共迭代11 505 次。由于相似度分?jǐn)?shù)為0到1 之間的值,不可能與標(biāo)簽完全相等,在計算測試指標(biāo)時,將網(wǎng)絡(luò)輸出修改為類別,即將其當(dāng)作一個二分類問題,只能輸出“0”或“1”。在計算性能指標(biāo)時,除了準(zhǔn)確率以外,AUC 也是一個重要的性能指標(biāo),它能夠更客觀地衡量模型對答案匹配數(shù)據(jù)集的分類效果。答案匹配模型在訓(xùn)練集、開發(fā)集和測試集上的測試結(jié)果如表5 所示。由于數(shù)據(jù)規(guī)模有限,本文模型在開發(fā)集和測試集上的表現(xiàn)較差,但AUC 值均達(dá)到86% 以上,為最終的自動問答質(zhì)量提供了保障。

        表5 答案匹配測試結(jié)果Table 5 Test results of answer matching %

        3.4 閾值選擇結(jié)果分析

        在完成命名實體識別和答案匹配模型的訓(xùn)練后即可進(jìn)行知識庫問答。在未加入閾值選擇機制時,直接選擇知識庫中包含實體的三元組集合中相似度分?jǐn)?shù)最高的答案作為輸出,得到的問答結(jié)果如表6所示。由于標(biāo)準(zhǔn)答案和預(yù)測答案均僅有一個,準(zhǔn)確率、精確率、召回率和F1 分?jǐn)?shù)為相同的值,因此僅列出了F1 分?jǐn)?shù)的結(jié)果。

        表6 未加入閾值選擇機制的問答結(jié)果Table 6 Question answering results without threshold selection mechanism %

        通過記錄回答錯誤的問題,并對其相似度分?jǐn)?shù)進(jìn)行觀察,發(fā)現(xiàn)除數(shù)據(jù)集本身存在的噪聲外,較為模糊的答案中前幾名之間的相似度分?jǐn)?shù)都比較接近,主要在10?5至10?2附近。為確定在本文數(shù)據(jù)集下的最佳閾值,分別選取10?2、10?3、10?4和10?5這4 個相似度閾值,在開發(fā)集上調(diào)用閾值選擇機制進(jìn)行測試,結(jié)果如表7 所示。在具體執(zhí)行時,對于具有最高相似度的答案仍低于閾值的情況,直接將該答案作為問題的輸出。

        表7 不同相似度閾值下的開發(fā)集問答結(jié)果Table 7 Question answering results of development set with different similarity thresholds %

        從閾值選擇的結(jié)果可以看出,隨著選取閾值的減小,精確率逐漸變小,召回率逐漸變大,這是備選答案增多帶來的必然結(jié)果。當(dāng)閾值為10?4時,開發(fā)集上問答的F1 分?jǐn)?shù)最高;當(dāng)閾值進(jìn)一步下降時,精確率因選中的答案過多而下降較多,因此F1 分?jǐn)?shù)也隨之降低。

        3.5 自動問答結(jié)果對比

        通過閾值選擇的實驗結(jié)果,選取10?4為本文知識庫問答的相似度閾值,將其應(yīng)用在最終的問答系統(tǒng)中,測試結(jié)果如表8 所示。訓(xùn)練集和開發(fā)集均來源于NLPCC-ICCPOL-2016KBQA 任務(wù)原始問答對的訓(xùn)練集,在公開的評測指標(biāo)中以測試集的F1 分?jǐn)?shù)為準(zhǔn)。

        表8 知識庫問答最終結(jié)果Table 8 Final results of knowledge base question answering %

        本文問答系統(tǒng)在實際應(yīng)用中將閾值選擇作為可選開關(guān)。在許多應(yīng)用場景中,問答任務(wù)要求返回單一答案,此時將關(guān)閉閾值選擇開關(guān),將相似度最高的答案呈現(xiàn)給用戶。若用戶對答案有疑惑,或者一些場景允許返回多個答案,則可以開啟閾值選擇,將候選答案集按相似度從高到低的順序呈現(xiàn)。

        本文選取DPQA[13]、NEU(NLP Lab)、HIT-SCIR、CCNU、InsunKBQA[9]、NUDT、PKU[8]、WHUT[11]和WenRichard[20]作為對比方法,自動問答結(jié)果如表9 所示。DPQA 基于動態(tài)規(guī)劃思想進(jìn)行研究,其無監(jiān)督思路具有參考意義,但問答效果較為受限。PKU、NUDT、CCNU、HIT-SCIR 和NEU(NLP Lab)分別是NLPCCICCPOL-2016KBQA 任務(wù)評測成績的前5 名的自動問答方法,它們主要依靠一些人工規(guī)則保證問答性能,例如PKU 構(gòu)造正則表達(dá)式以去除問句中的冗余信息,NUDT 使用詞性的組合特征實現(xiàn)命名實體識別等。InsunKBQA 是基于知識庫三元組中謂詞的屬性映射構(gòu)建的自動問答方法,加入了少量人工特征。WHUT 是通過句法分析等方式實現(xiàn)的自動問答方法。WenRichard首先在NLPCC-ICCPOL-2016KBQA 數(shù)據(jù)集上應(yīng)用BERT 進(jìn)行特征提取,并取得了目前公開的最好結(jié)果。本文方法除了應(yīng)用BERT,還對答案選擇方法進(jìn)行改進(jìn),將其分解為答案匹配和閾值選擇兩個步驟,減少了對人工標(biāo)注和預(yù)處理的需求,得到的測試集F1 分?jǐn)?shù)為87.05%,具有最優(yōu)的性能表現(xiàn)。

        表9 10 種方法的自動問答結(jié)果Table 9 Automatic question answering results of ten methods %

        4 結(jié)束語

        本文針對弱依賴信息,提出一種基于問答對數(shù)據(jù)的知識庫自動問答方法。通過命名實體識別網(wǎng)絡(luò)提取問句中的實體,同時以該實體名為關(guān)鍵詞獲取相關(guān)三元組集合,利用答案匹配網(wǎng)絡(luò)為每一個答案標(biāo)注相似度分?jǐn)?shù),最終通過閾值選擇篩選備選答案并輸出結(jié)果。實驗結(jié)果表明,知識庫問答方法在NLPCC-ICCPOL-2016KBQA 數(shù)據(jù)集上的F1 分?jǐn)?shù)為87.05%,其中的答案選擇方法弱化了對問答數(shù)據(jù)中謂詞等先驗信息的依賴,無需人工干預(yù)就能在一個問答對數(shù)據(jù)集上完成訓(xùn)練,具有良好的泛化性能。通過實驗發(fā)現(xiàn)本文知識庫問答方法對數(shù)字類型的答案篩選精度有待提高,后續(xù)將利用表示學(xué)習(xí)等方法從候選答案集合中篩選出最優(yōu)答案,進(jìn)一步提升問答質(zhì)量。

        猜你喜歡
        三元組知識庫命名
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        命名——助力有機化學(xué)的學(xué)習(xí)
        關(guān)于余撓三元組的periodic-模
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        散文詩(2017年17期)2018-01-31 02:34:08
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        三元組輻射場的建模與仿真
        青青草最新在线视频观看| 久久国产精久久精产国| 国产一级毛片AV不卡尤物| 喷潮出白浆视频在线观看| 亚洲天堂av一区二区| 先锋中文字幕在线资源| 丁香五月缴情综合网| 日本嗯啊在线观看| 成人高清在线播放视频| 国产精品无码久久综合网| 男女边吃奶边做边爱视频| 国产午夜亚洲精品不卡免下载 | av在线免费观看大全| 精品国内在视频线2019| 日韩精品大片在线观看| 国产99精品精品久久免费| 亚洲成年国产一区二区| 美丽人妻在夫前被黑人| 可以免费看亚洲av的网站| 中文字幕被公侵犯的漂亮人妻| 久久噜噜噜| 中文字幕人妻乱码在线| 无码伊人66久久大杳蕉网站谷歌| 海角国精产品一区一区三区糖心 | 99精品国产一区二区三区| 国产99re在线观看只有精品| 中文字幕一区二区区免| 一区二区视频在线国产| 国产一区二区三区日韩精品| 一本加勒比hezyo无码人妻| 在线免费观看国产精品| 熟女少妇丰满一区二区| 一区二区三区美女免费视频 | 亚洲欧美日韩国产精品一区| 成人全部免费的a毛片在线看| 特级做a爰片毛片免费看| 欧美成人午夜精品久久久| 2021av在线| 丝袜美腿在线播放一区二区| 玩弄人妻少妇精品视频| 亚洲另类国产综合第一|