亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多粒度特征表示的知識(shí)圖譜問答

2018-09-17 04:32:04黃廷磊

計(jì)算機(jī)與現(xiàn)代化 2018年9期

申存，黃廷磊，梁霄

(1.中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049; 2.中國(guó)科學(xué)院電子學(xué)研究所,北京 100190; 3.中國(guó)科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)

0 引言

開放域知識(shí)圖譜問答是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，其旨在結(jié)合知識(shí)圖譜為自然語(yǔ)言問題提供相應(yīng)的答案。近年來(lái)，大規(guī)模的高質(zhì)量知識(shí)圖譜發(fā)展迅速，并在許多領(lǐng)域得到了廣泛的應(yīng)用，典型的包括如Freebase[1]、DBpedia[2]等英文知識(shí)圖譜以及Zhishi.me[3]、XLore[4]等中文知識(shí)圖譜。由于知識(shí)的結(jié)構(gòu)化形式，知識(shí)圖譜已經(jīng)成為開放領(lǐng)域問答的重要資源，越來(lái)越多的研究工作也集中在知識(shí)圖譜問答上[5-6]。對(duì)于知識(shí)圖譜問答，其主要挑戰(zhàn)是對(duì)問句的語(yǔ)義理解，因?yàn)榻o定的問句是自然語(yǔ)言的形式，而知識(shí)圖譜是結(jié)構(gòu)化的信息存儲(chǔ)，兩者的表述存在差異，需要對(duì)問句和知識(shí)圖譜的文本進(jìn)行深入的語(yǔ)義關(guān)聯(lián)，以從知識(shí)圖譜中選取出與問句表述最為匹配的三元組作為候選答案。例如給定問句“你知道哈姆雷特是哪個(gè)國(guó)家的電影嗎？”，首先需要從知識(shí)圖譜中確定問句所包含的主題實(shí)體“哈姆雷特(1964年美國(guó)電影)”，然后從實(shí)體的屬性中選出與表述“是哪個(gè)國(guó)家的電影”最為相關(guān)的屬性“制片地區(qū)”以得到三元組“哈姆雷特(1964年美國(guó)電影)|||制片地區(qū)|||美國(guó)”。該過(guò)程主要包含2部分工作：實(shí)體抽取以及屬性選擇。

實(shí)體抽取主要是從問句中識(shí)別出實(shí)體提及并鏈接至知識(shí)圖譜的過(guò)程。目前傳統(tǒng)的研究主要通過(guò)搜索知識(shí)圖譜中每個(gè)問句的n元語(yǔ)法(n-gram)來(lái)實(shí)現(xiàn)實(shí)體抽取[8-9]，這種方法通常需要較大的搜索空間。Berant等人[5]使用語(yǔ)言學(xué)工具來(lái)完成實(shí)體抽取工作，而通常語(yǔ)言學(xué)工具依賴于邏輯表達(dá)式以及預(yù)定義規(guī)則，不具有廣泛的適應(yīng)性。

屬性選擇則是在抽取出問句的實(shí)體之后，從實(shí)體的所有屬性中選取出與問句描述最為匹配的屬性，并將屬性值作為候選答案。這一任務(wù)的難點(diǎn)在于自然語(yǔ)言問句的表述與屬性的文本表述存在差異性，如何有效地將兩者關(guān)聯(lián)并選出置信度最高的屬性直接影響到結(jié)果的準(zhǔn)確率。在相關(guān)工作中，深度學(xué)習(xí)的方法正逐漸應(yīng)用于知識(shí)圖譜問答的屬性選擇中。Yih等人[10]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對(duì)問句和屬性進(jìn)行字符級(jí)別三元語(yǔ)法的建模。Golub等人[9]將關(guān)系和問句作為字符序列進(jìn)行處理并提出基于注意力的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)的方法。Yin等人[11]采用注意力池化方法來(lái)學(xué)習(xí)屬性的嵌入表示。這些屬性選擇方法都利用神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)問句和屬性的向量表示，然后計(jì)算向量之間的相似度作為其語(yǔ)義相似度。這些方法在實(shí)驗(yàn)中僅使用詞級(jí)別嵌入，沒有充分利用實(shí)驗(yàn)數(shù)據(jù)的語(yǔ)義信息。且與英文知識(shí)圖譜問答不同的是，在中文里單個(gè)漢字通常也含有特定的語(yǔ)義，因此可以考慮結(jié)合字符級(jí)別的嵌入進(jìn)行屬性選擇的實(shí)驗(yàn)。

針對(duì)上述問題，在實(shí)體抽取任務(wù)中，本文采用雙向長(zhǎng)短期記憶條件隨機(jī)場(chǎng)(Bi-LSTM-CRF)模型來(lái)進(jìn)行實(shí)體識(shí)別，取得了較高的鏈接至知識(shí)圖譜的準(zhǔn)確性。對(duì)于屬性選擇任務(wù)，本文采用結(jié)合字符級(jí)別、詞級(jí)別以及屬性級(jí)別的文本嵌入的多粒度方法，充分利用圖譜的可用信息，并與其他模型方法進(jìn)行對(duì)比，以驗(yàn)證方法的有效性。

1 相關(guān)工作

基于知識(shí)圖譜的問答在自然語(yǔ)言處理領(lǐng)域擁有很長(zhǎng)的研究歷史。早在20世紀(jì)60年代，就有研究人員針對(duì)領(lǐng)域內(nèi)小規(guī)模知識(shí)庫(kù)進(jìn)行問答系統(tǒng)的研究以回答領(lǐng)域內(nèi)的一些專業(yè)問答。早期的研究主要采用語(yǔ)義解析(Semantic Parsing)的方法[5,10,12]，其主要思想是按照特定的文法，將自然語(yǔ)言問句轉(zhuǎn)化為等價(jià)的邏輯表達(dá)式，以完成對(duì)知識(shí)庫(kù)的查詢。除此之外，信息檢索方法[6,8,13]也常用于知識(shí)圖譜問答，與語(yǔ)義解析不同的是，它將問句轉(zhuǎn)化為了檢索問題。該方法從知識(shí)圖譜中搜索問句中涉及的所有相關(guān)信息，并構(gòu)建排序算法從候選答案中選擇最佳候選答案。相比于語(yǔ)義解析，其優(yōu)點(diǎn)是不必手動(dòng)設(shè)計(jì)詞匯表且領(lǐng)域遷移能力較強(qiáng)。Bordes等人[8]的結(jié)果表明，信息檢索方法在問答結(jié)果中也有著較好的表現(xiàn)。

近年來(lái)，隨著人工智能的發(fā)展，神經(jīng)網(wǎng)絡(luò)的方法也開始應(yīng)用于知識(shí)圖譜問答，并取得了相比于傳統(tǒng)方法更好的實(shí)驗(yàn)結(jié)果。在實(shí)體抽取中，Bordes等人[8]和Golub等人[9]搜索給定問題的所有n元語(yǔ)法單詞，然后鏈接到知識(shí)圖譜。Berant等人[5]使用語(yǔ)言學(xué)工具，其很大程度上依賴于邏輯表達(dá)式和預(yù)定義規(guī)則。Dai等人[14]將中心實(shí)體映射回問句文本作為標(biāo)注數(shù)據(jù)，并構(gòu)建雙向門控循環(huán)單元條件隨機(jī)場(chǎng)(Bi-GRU-CRF)序列標(biāo)注模型以進(jìn)行實(shí)體識(shí)別。Yin等人[11]則采用Bi-LSTM-CRF序列標(biāo)注模型來(lái)提高該方法的性能。對(duì)于屬性選擇任務(wù)，Bordes等人[15]首先采用深度學(xué)習(xí)方法并取得了較好的實(shí)驗(yàn)結(jié)果，之后各種基于深度學(xué)習(xí)的模型也逐漸涌現(xiàn)出來(lái)。這些方法大都是將給定問題和候選關(guān)系分別映射到向量，然后計(jì)算向量之間的相似度作為它們的語(yǔ)義相似度。在Dai等人[14]的研究中，屬性被視為整體的符號(hào)，并采用TransE[16]學(xué)習(xí)的預(yù)訓(xùn)練向量初始化。文獻(xiàn)[9]采用了字符級(jí)別表示法，以減小參數(shù)的大小并提高處理未登錄詞的魯棒性，而Yin等人[11]則提出了注意力機(jī)制的最大池化的CNN模型。

2 基本框架

2.1 問題定義與建模

給定目標(biāo)問句，實(shí)體抽取的目的是找到實(shí)體提及并正確鏈接至知識(shí)圖譜，從而得到主題實(shí)體和候選屬性Cp={prop1,prop2,…,propn}。屬性選擇的目的是識(shí)別問句中表述的屬性，即找到與問句中除主題實(shí)體以外的文本描述最相符的實(shí)體屬性。通常將屬性選擇任務(wù)考慮為排序問題，對(duì)于問句q候選屬性集合Cp中的每個(gè)屬性p，模型計(jì)算其與問題S(q,p)的語(yǔ)義相似度，并且選擇置信度最高的屬性作為候選，有：

p+=arg max S(q,p)

(1)

2.2 知識(shí)圖譜問答流程

對(duì)于中文知識(shí)圖譜問答，其流程如圖1所示，主要包括以下幾個(gè)步驟：1)對(duì)知識(shí)圖譜進(jìn)行規(guī)范化處理，主要包括刪除三元組中屬性之間的空格、前綴以及后綴，對(duì)于某些屬性和屬性值相同的無(wú)效三元組，直接刪除該條記錄；2)對(duì)問句進(jìn)行主題實(shí)體的識(shí)別，并利用規(guī)范化的知識(shí)圖譜進(jìn)行實(shí)體鏈接；3)檢索知識(shí)圖譜得到鏈接實(shí)體的所有候選屬性，并利用設(shè)計(jì)的屬性選擇模型進(jìn)行比較排序，選出置信度最高的候選屬性，得到預(yù)測(cè)答案。

圖1 知識(shí)圖譜問答流程圖

3 實(shí)體鏈接模型

對(duì)于實(shí)體抽取模型，其主要難點(diǎn)是識(shí)別問句中的主題實(shí)體，以便進(jìn)一步鏈接至知識(shí)圖譜，檢索相應(yīng)候選屬性，以確定最終答案。筆者發(fā)現(xiàn)該任務(wù)與命名實(shí)體識(shí)別任務(wù)有著很大的共同點(diǎn)，因此本文采用由Bi-LSTM和CRF模型組成的Bi-LSTM-CRF模型[17]?；舅枷胧鞘褂肔STM層來(lái)考慮先前的輸入特征并從CRF層獲得句子級(jí)別標(biāo)簽信息。因此，輸出是一個(gè)最佳的標(biāo)簽序列，而不是相互獨(dú)立的標(biāo)簽。

形式上，輸入一個(gè)問句序列X={X1,X2,…,Xn}, y={y1,y2,…,yn}表示X的標(biāo)簽序列，Pn×k表示概率矩陣，其中k是標(biāo)簽類型的數(shù)量。最佳標(biāo)簽序列可通過(guò)最大化如下目標(biāo)函數(shù)來(lái)獲得。

(2)

其中Pi,j是第i個(gè)單詞被標(biāo)記為第j個(gè)標(biāo)簽的概率，A是狀態(tài)轉(zhuǎn)移矩陣，其中元素Ai,j是從第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率。

整體實(shí)體抽取模型如圖2所示。問句以字序列文本嵌入，并與額外的特征連接作為循環(huán)層的輸入。本文采用代表文字邊界特征的一個(gè)熱點(diǎn)向量來(lái)進(jìn)行說(shuō)明。循環(huán)層為雙向LSTM，其將前向和后向隱層表示的輸出連接并投影到每個(gè)標(biāo)簽以計(jì)算得分，CRF層主要用于解決參數(shù)偏倚問題。

圖2 實(shí)體抽取模型

4 多粒度特征表示屬性選擇模型

屬性選擇中，其主要難點(diǎn)是問句中屬性描述可能與知識(shí)圖譜中的屬性名稱存在著較大的差異，例如“請(qǐng)問紅樓夢(mèng)是什么時(shí)候?qū)懙?？”就需要與知識(shí)圖譜中的“創(chuàng)作年代”相關(guān)聯(lián)。因此，如何設(shè)計(jì)有效的模型以最高的置信度將問句與屬性進(jìn)行關(guān)聯(lián)是本文研究重點(diǎn)。對(duì)此，本文提出一種多粒度特征表示模型，采用GRU編碼器來(lái)獲得問句和屬性的隱層表示。在文本表示中，模型考慮字符級(jí)別和詞級(jí)別以獲得更豐富的語(yǔ)義信息。最后使用余弦相似度來(lái)計(jì)算問句與屬性之間的語(yǔ)義相似度度量。

與英文不同的是，中文里單個(gè)的漢字通常具有語(yǔ)義，而英文孤立的字母通常并沒有具體的含義。因此在中文知識(shí)圖譜問答中，對(duì)于屬性p，本文考慮不同的粒度來(lái)表示特征：字符級(jí)別、詞級(jí)別以及屬性級(jí)別。字級(jí)別的建模將屬性拆為單個(gè)漢字進(jìn)行嵌入式表達(dá)，詞級(jí)別則是通常意義下的進(jìn)行分詞后引入詞嵌入，而屬性級(jí)別的表示是將屬性整體視為唯一符號(hào)。3種類型的屬性表示包含不同層次的抽象意義，各粒度層次都有其自身的優(yōu)缺點(diǎn)。在實(shí)驗(yàn)中屬性級(jí)別表示采用隨機(jī)初始化，它更多地關(guān)注全局信息，但其存在數(shù)據(jù)稀疏性的缺點(diǎn)。單詞級(jí)別更注重局部信息，如單詞和短語(yǔ)等。然而，這2個(gè)級(jí)別都受到未登錄詞問題的影響，字符級(jí)別沒有這樣的問題，并且通常在預(yù)測(cè)正確的實(shí)體和屬性方面也有著較高的準(zhǔn)確率。

以下詳細(xì)介紹多粒度特征表示模型。為了利用屬性不同粒度的信息并將其結(jié)合，本文采用嵌套的連接方法，將預(yù)訓(xùn)練的字嵌入和詞嵌入經(jīng)過(guò)GRU的編碼并進(jìn)行組合，其網(wǎng)絡(luò)表示如圖3所示。

圖3 多粒度特征表示模型

(3)

(4)

(5)

(6)

最終得到3種不同粒度的屬性表示為：

(7)

(8)

S(q,p)=cos (rq,rp)

(9)

其中余弦相似度函數(shù)cos定義為：

(10)

5 實(shí)驗(yàn)分析

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文實(shí)驗(yàn)使用的數(shù)據(jù)集為NLPCC-ICCPOL 2016 KBQA數(shù)據(jù)集。該數(shù)據(jù)集是目前最大的公開中文知識(shí)圖譜問答數(shù)據(jù)集，其包含大約4300萬(wàn)個(gè)三元組和600萬(wàn)個(gè)實(shí)體。該知識(shí)圖譜的三元組大部分來(lái)自百度百科的屬性表格。在數(shù)據(jù)集中，14609條問答對(duì)作為訓(xùn)練數(shù)據(jù)以及9870條問句作為測(cè)試數(shù)據(jù)。

5.2 實(shí)驗(yàn)設(shè)置

對(duì)于上述表示模型，本文采用排序模型進(jìn)行訓(xùn)練，該方法驅(qū)動(dòng)模型輸出包含在訓(xùn)練集中的問題實(shí)體和問題謂詞對(duì)的高分，同時(shí)為不合理配對(duì)產(chǎn)生較低分?jǐn)?shù)。在訓(xùn)練期間最小化的損失函數(shù)由下式給出：

(11)

因此在訓(xùn)練中，模型主要關(guān)注負(fù)例和正例得分之差小于邊界γ的數(shù)據(jù)對(duì)，以使得正例和負(fù)例得分相差越大越好。

5.3 實(shí)驗(yàn)結(jié)果

對(duì)于實(shí)體識(shí)別模型，本文采用的是100維的字符級(jí)別向量。LSTM隱層維度為100, dropout為0.5，學(xué)習(xí)率為0.001，本文采用反向傳播算法來(lái)更新訓(xùn)練中的參數(shù)。實(shí)驗(yàn)中，隨機(jī)選取10%訓(xùn)練數(shù)據(jù)作為驗(yàn)證集[19]，結(jié)果如表1所示，可以看出在測(cè)試集上，實(shí)體識(shí)別F1值為97.36%，取得了較好的識(shí)別率，證明該模型的有效性，也為屬性選擇實(shí)驗(yàn)提供了有效的實(shí)驗(yàn)結(jié)果。

表1 實(shí)體抽取實(shí)驗(yàn)結(jié)果

準(zhǔn)確率/%召回率/%F1/%驗(yàn)證集97.5697.4897.51測(cè)試集97.4197.3297.36

屬性選擇實(shí)驗(yàn)中，本文對(duì)比了選擇不同詞向量和字向量時(shí)的實(shí)驗(yàn)結(jié)果，如表2所示?？梢钥闯鲈~嵌入和字嵌入采用50維時(shí)并不能較好地表示漢字，其實(shí)驗(yàn)結(jié)果甚至低于對(duì)比實(shí)驗(yàn)中單獨(dú)采用100維的詞向量的結(jié)果。對(duì)于本實(shí)驗(yàn)，詞向量和字向量分別取100維時(shí)得到最優(yōu)實(shí)驗(yàn)結(jié)果，而隨著維度的增加，屬性選擇模型的F1并沒有明顯的提升。因此，最終本文選擇詞向量和字向量維度都為100。其他參數(shù)如GRU編碼器隱層維度為200，dropout設(shè)置為0.3。

表2 不同維度字向量與詞向量實(shí)驗(yàn)結(jié)果

Word-LevelChar-Level/%50 dims100 dims200 dims50 dims71.4572.4972.28100 dims72.3473.9673.90200 dims72.1173.7873.57

本文同時(shí)與NLPCC官方提供的基線模型以及只采用詞級(jí)別嵌入表示并通過(guò)GRU進(jìn)行編碼的模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表3所示，可以看出本文模型在最終結(jié)果上比基線模型有了很大的提高，且與只采用詞級(jí)別信息表示模型相比，結(jié)合字符級(jí)別、詞級(jí)別以及獨(dú)熱編碼信息的組合模型，更能充分對(duì)數(shù)據(jù)進(jìn)行表示。相比于詞級(jí)別模型，多粒度模型包含更加豐富的表示信息，其包含的字符級(jí)別模型可以更好地處理單個(gè)漢字的語(yǔ)義信息，例如對(duì)問句“列克星敦號(hào)航空母艦?zāi)茌d多少人？”，字級(jí)別信息的引入能夠使得屬性“人員編制”的置信度更加準(zhǔn)確，同時(shí)對(duì)于未登錄詞，字符級(jí)別模型也能較好地進(jìn)行處理；而獨(dú)熱編碼更關(guān)注全局信息，對(duì)于問句“陳浩民的家庭成員有哪些？”，獨(dú)熱信息可以直接與屬性“家庭成員”進(jìn)行匹配。因此相比于詞級(jí)別模型，多粒度表示模型可以達(dá)到比采用單一表示更好的實(shí)驗(yàn)結(jié)果。

表3 問答實(shí)驗(yàn)結(jié)果對(duì)比單位:%

同時(shí)，本文也將實(shí)驗(yàn)結(jié)果與其他在該中文知識(shí)圖譜問答數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的論文結(jié)果進(jìn)行對(duì)比，如表4所示。前3名的結(jié)果分別為82.47%、81.59%、79.57%，且作者在實(shí)驗(yàn)中基本都采用了一些預(yù)定義的規(guī)則以及集成方法對(duì)模型進(jìn)行優(yōu)化。本文在僅使用單一神經(jīng)網(wǎng)絡(luò)模型、結(jié)構(gòu)盡量簡(jiǎn)單的情況下，也取得了較好的實(shí)驗(yàn)結(jié)果，驗(yàn)證了模型的有效性。

表4 不同實(shí)驗(yàn)結(jié)果比較

模型F1/%PKU[20]82.47NUDT[21]81.59CCNU[22]79.57NEU72.72本文73.96

6 結(jié)束語(yǔ)

本文提出了一種中文知識(shí)圖譜問答的方法，有效地解決了其中實(shí)體抽取和屬性選擇2個(gè)主要任務(wù)。在實(shí)體抽取中，本文采用命名實(shí)體識(shí)別的方法，訓(xùn)練Bi-LSTM-CRF模型以獲得問句主題實(shí)體。在屬性選擇任務(wù)中，本文提出多粒度特征表示模型，將字符級(jí)別、詞級(jí)別的文本表示進(jìn)行編碼，并考慮屬性的獨(dú)熱編碼信息，將不同粒度的信息進(jìn)行結(jié)合，充分利用數(shù)據(jù)特征。實(shí)驗(yàn)結(jié)果表明本文的模型在中文知識(shí)圖譜問答中取得了較好的效果。