亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多粒度特征表示的知識(shí)圖譜問答

        2018-09-17 04:32:04黃廷磊
        關(guān)鍵詞:語(yǔ)義實(shí)驗(yàn)模型

        申 存,黃廷磊,梁 霄

        (1.中國(guó)科學(xué)院大學(xué)電子電氣與通信工程學(xué)院,北京 100049; 2.中國(guó)科學(xué)院電子學(xué)研究所,北京 100190; 3.中國(guó)科學(xué)院空間信息處理與應(yīng)用系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190)

        0 引 言

        開放域知識(shí)圖譜問答是一項(xiàng)具有挑戰(zhàn)性的任務(wù),其旨在結(jié)合知識(shí)圖譜為自然語(yǔ)言問題提供相應(yīng)的答案。近年來(lái),大規(guī)模的高質(zhì)量知識(shí)圖譜發(fā)展迅速,并在許多領(lǐng)域得到了廣泛的應(yīng)用,典型的包括如Freebase[1]、DBpedia[2]等英文知識(shí)圖譜以及Zhishi.me[3]、XLore[4]等中文知識(shí)圖譜。由于知識(shí)的結(jié)構(gòu)化形式,知識(shí)圖譜已經(jīng)成為開放領(lǐng)域問答的重要資源,越來(lái)越多的研究工作也集中在知識(shí)圖譜問答上[5-6]。對(duì)于知識(shí)圖譜問答,其主要挑戰(zhàn)是對(duì)問句的語(yǔ)義理解,因?yàn)榻o定的問句是自然語(yǔ)言的形式,而知識(shí)圖譜是結(jié)構(gòu)化的信息存儲(chǔ),兩者的表述存在差異,需要對(duì)問句和知識(shí)圖譜的文本進(jìn)行深入的語(yǔ)義關(guān)聯(lián),以從知識(shí)圖譜中選取出與問句表述最為匹配的三元組作為候選答案。例如給定問句“你知道哈姆雷特是哪個(gè)國(guó)家的電影嗎?”,首先需要從知識(shí)圖譜中確定問句所包含的主題實(shí)體“哈姆雷特(1964年美國(guó)電影)”,然后從實(shí)體的屬性中選出與表述“是哪個(gè)國(guó)家的電影”最為相關(guān)的屬性“制片地區(qū)”以得到三元組“哈姆雷特(1964年美國(guó)電影)|||制片地區(qū)|||美國(guó)”。該過(guò)程主要包含2部分工作:實(shí)體抽取以及屬性選擇。

        實(shí)體抽取主要是從問句中識(shí)別出實(shí)體提及并鏈接至知識(shí)圖譜的過(guò)程。目前傳統(tǒng)的研究主要通過(guò)搜索知識(shí)圖譜中每個(gè)問句的n元語(yǔ)法(n-gram)來(lái)實(shí)現(xiàn)實(shí)體抽取[8-9],這種方法通常需要較大的搜索空間。Berant等人[5]使用語(yǔ)言學(xué)工具來(lái)完成實(shí)體抽取工作,而通常語(yǔ)言學(xué)工具依賴于邏輯表達(dá)式以及預(yù)定義規(guī)則,不具有廣泛的適應(yīng)性。

        屬性選擇則是在抽取出問句的實(shí)體之后,從實(shí)體的所有屬性中選取出與問句描述最為匹配的屬性,并將屬性值作為候選答案。這一任務(wù)的難點(diǎn)在于自然語(yǔ)言問句的表述與屬性的文本表述存在差異性,如何有效地將兩者關(guān)聯(lián)并選出置信度最高的屬性直接影響到結(jié)果的準(zhǔn)確率。在相關(guān)工作中,深度學(xué)習(xí)的方法正逐漸應(yīng)用于知識(shí)圖譜問答的屬性選擇中。Yih等人[10]利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對(duì)問句和屬性進(jìn)行字符級(jí)別三元語(yǔ)法的建模。Golub等人[9]將關(guān)系和問句作為字符序列進(jìn)行處理并提出基于注意力的長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)的方法。Yin等人[11]采用注意力池化方法來(lái)學(xué)習(xí)屬性的嵌入表示。這些屬性選擇方法都利用神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)問句和屬性的向量表示,然后計(jì)算向量之間的相似度作為其語(yǔ)義相似度。這些方法在實(shí)驗(yàn)中僅使用詞級(jí)別嵌入,沒有充分利用實(shí)驗(yàn)數(shù)據(jù)的語(yǔ)義信息。且與英文知識(shí)圖譜問答不同的是,在中文里單個(gè)漢字通常也含有特定的語(yǔ)義,因此可以考慮結(jié)合字符級(jí)別的嵌入進(jìn)行屬性選擇的實(shí)驗(yàn)。

        針對(duì)上述問題,在實(shí)體抽取任務(wù)中,本文采用雙向長(zhǎng)短期記憶條件隨機(jī)場(chǎng)(Bi-LSTM-CRF)模型來(lái)進(jìn)行實(shí)體識(shí)別,取得了較高的鏈接至知識(shí)圖譜的準(zhǔn)確性。對(duì)于屬性選擇任務(wù),本文采用結(jié)合字符級(jí)別、詞級(jí)別以及屬性級(jí)別的文本嵌入的多粒度方法,充分利用圖譜的可用信息,并與其他模型方法進(jìn)行對(duì)比,以驗(yàn)證方法的有效性。

        1 相關(guān)工作

        基于知識(shí)圖譜的問答在自然語(yǔ)言處理領(lǐng)域擁有很長(zhǎng)的研究歷史。早在20世紀(jì)60年代,就有研究人員針對(duì)領(lǐng)域內(nèi)小規(guī)模知識(shí)庫(kù)進(jìn)行問答系統(tǒng)的研究以回答領(lǐng)域內(nèi)的一些專業(yè)問答。早期的研究主要采用語(yǔ)義解析(Semantic Parsing)的方法[5,10,12],其主要思想是按照特定的文法,將自然語(yǔ)言問句轉(zhuǎn)化為等價(jià)的邏輯表達(dá)式,以完成對(duì)知識(shí)庫(kù)的查詢。除此之外,信息檢索方法[6,8,13]也常用于知識(shí)圖譜問答,與語(yǔ)義解析不同的是,它將問句轉(zhuǎn)化為了檢索問題。該方法從知識(shí)圖譜中搜索問句中涉及的所有相關(guān)信息,并構(gòu)建排序算法從候選答案中選擇最佳候選答案。相比于語(yǔ)義解析,其優(yōu)點(diǎn)是不必手動(dòng)設(shè)計(jì)詞匯表且領(lǐng)域遷移能力較強(qiáng)。Bordes等人[8]的結(jié)果表明,信息檢索方法在問答結(jié)果中也有著較好的表現(xiàn)。

        近年來(lái),隨著人工智能的發(fā)展,神經(jīng)網(wǎng)絡(luò)的方法也開始應(yīng)用于知識(shí)圖譜問答,并取得了相比于傳統(tǒng)方法更好的實(shí)驗(yàn)結(jié)果。在實(shí)體抽取中,Bordes等人[8]和Golub等人[9]搜索給定問題的所有n元語(yǔ)法單詞,然后鏈接到知識(shí)圖譜。Berant等人[5]使用語(yǔ)言學(xué)工具,其很大程度上依賴于邏輯表達(dá)式和預(yù)定義規(guī)則。Dai等人[14]將中心實(shí)體映射回問句文本作為標(biāo)注數(shù)據(jù),并構(gòu)建雙向門控循環(huán)單元條件隨機(jī)場(chǎng)(Bi-GRU-CRF)序列標(biāo)注模型以進(jìn)行實(shí)體識(shí)別。Yin等人[11]則采用Bi-LSTM-CRF序列標(biāo)注模型來(lái)提高該方法的性能。對(duì)于屬性選擇任務(wù),Bordes等人[15]首先采用深度學(xué)習(xí)方法并取得了較好的實(shí)驗(yàn)結(jié)果,之后各種基于深度學(xué)習(xí)的模型也逐漸涌現(xiàn)出來(lái)。這些方法大都是將給定問題和候選關(guān)系分別映射到向量,然后計(jì)算向量之間的相似度作為它們的語(yǔ)義相似度。在Dai等人[14]的研究中,屬性被視為整體的符號(hào),并采用TransE[16]學(xué)習(xí)的預(yù)訓(xùn)練向量初始化。文獻(xiàn)[9]采用了字符級(jí)別表示法,以減小參數(shù)的大小并提高處理未登錄詞的魯棒性,而Yin等人[11]則提出了注意力機(jī)制的最大池化的CNN模型。

        2 基本框架

        2.1 問題定義與建模

        給定目標(biāo)問句,實(shí)體抽取的目的是找到實(shí)體提及并正確鏈接至知識(shí)圖譜,從而得到主題實(shí)體和候選屬性Cp={prop1,prop2,…,propn}。屬性選擇的目的是識(shí)別問句中表述的屬性,即找到與問句中除主題實(shí)體以外的文本描述最相符的實(shí)體屬性。通常將屬性選擇任務(wù)考慮為排序問題,對(duì)于問句q候選屬性集合Cp中的每個(gè)屬性p,模型計(jì)算其與問題S(q,p)的語(yǔ)義相似度,并且選擇置信度最高的屬性作為候選,有:

        p+=arg max S(q,p)

        (1)

        2.2 知識(shí)圖譜問答流程

        對(duì)于中文知識(shí)圖譜問答,其流程如圖1所示,主要包括以下幾個(gè)步驟:1)對(duì)知識(shí)圖譜進(jìn)行規(guī)范化處理,主要包括刪除三元組中屬性之間的空格、前綴以及后綴,對(duì)于某些屬性和屬性值相同的無(wú)效三元組,直接刪除該條記錄;2)對(duì)問句進(jìn)行主題實(shí)體的識(shí)別,并利用規(guī)范化的知識(shí)圖譜進(jìn)行實(shí)體鏈接;3)檢索知識(shí)圖譜得到鏈接實(shí)體的所有候選屬性,并利用設(shè)計(jì)的屬性選擇模型進(jìn)行比較排序,選出置信度最高的候選屬性,得到預(yù)測(cè)答案。

        圖1 知識(shí)圖譜問答流程圖

        3 實(shí)體鏈接模型

        對(duì)于實(shí)體抽取模型,其主要難點(diǎn)是識(shí)別問句中的主題實(shí)體,以便進(jìn)一步鏈接至知識(shí)圖譜,檢索相應(yīng)候選屬性,以確定最終答案。筆者發(fā)現(xiàn)該任務(wù)與命名實(shí)體識(shí)別任務(wù)有著很大的共同點(diǎn),因此本文采用由Bi-LSTM和CRF模型組成的Bi-LSTM-CRF模型[17]?;舅枷胧鞘褂肔STM層來(lái)考慮先前的輸入特征并從CRF層獲得句子級(jí)別標(biāo)簽信息。因此,輸出是一個(gè)最佳的標(biāo)簽序列,而不是相互獨(dú)立的標(biāo)簽。

        形式上,輸入一個(gè)問句序列X={X1,X2,…,Xn}, y={y1,y2,…,yn}表示X的標(biāo)簽序列,Pn×k表示概率矩陣,其中k是標(biāo)簽類型的數(shù)量。最佳標(biāo)簽序列可通過(guò)最大化如下目標(biāo)函數(shù)來(lái)獲得。

        (2)

        其中Pi,j是第i個(gè)單詞被標(biāo)記為第j個(gè)標(biāo)簽的概率,A是狀態(tài)轉(zhuǎn)移矩陣,其中元素Ai,j是從第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率。

        整體實(shí)體抽取模型如圖2所示。問句以字序列文本嵌入,并與額外的特征連接作為循環(huán)層的輸入。本文采用代表文字邊界特征的一個(gè)熱點(diǎn)向量來(lái)進(jìn)行說(shuō)明。循環(huán)層為雙向LSTM,其將前向和后向隱層表示的輸出連接并投影到每個(gè)標(biāo)簽以計(jì)算得分,CRF層主要用于解決參數(shù)偏倚問題。

        圖2 實(shí)體抽取模型

        4 多粒度特征表示屬性選擇模型

        屬性選擇中,其主要難點(diǎn)是問句中屬性描述可能與知識(shí)圖譜中的屬性名稱存在著較大的差異,例如“請(qǐng)問紅樓夢(mèng)是什么時(shí)候?qū)懙??”就需要與知識(shí)圖譜中的“創(chuàng)作年代”相關(guān)聯(lián)。因此,如何設(shè)計(jì)有效的模型以最高的置信度將問句與屬性進(jìn)行關(guān)聯(lián)是本文研究重點(diǎn)。對(duì)此,本文提出一種多粒度特征表示模型,采用GRU編碼器來(lái)獲得問句和屬性的隱層表示。在文本表示中,模型考慮字符級(jí)別和詞級(jí)別以獲得更豐富的語(yǔ)義信息。最后使用余弦相似度來(lái)計(jì)算問句與屬性之間的語(yǔ)義相似度度量。

        與英文不同的是,中文里單個(gè)的漢字通常具有語(yǔ)義,而英文孤立的字母通常并沒有具體的含義。因此在中文知識(shí)圖譜問答中,對(duì)于屬性p,本文考慮不同的粒度來(lái)表示特征:字符級(jí)別、詞級(jí)別以及屬性級(jí)別。字級(jí)別的建模將屬性拆為單個(gè)漢字進(jìn)行嵌入式表達(dá),詞級(jí)別則是通常意義下的進(jìn)行分詞后引入詞嵌入,而屬性級(jí)別的表示是將屬性整體視為唯一符號(hào)。3種類型的屬性表示包含不同層次的抽象意義,各粒度層次都有其自身的優(yōu)缺點(diǎn)。在實(shí)驗(yàn)中屬性級(jí)別表示采用隨機(jī)初始化,它更多地關(guān)注全局信息,但其存在數(shù)據(jù)稀疏性的缺點(diǎn)。單詞級(jí)別更注重局部信息,如單詞和短語(yǔ)等。然而,這2個(gè)級(jí)別都受到未登錄詞問題的影響,字符級(jí)別沒有這樣的問題,并且通常在預(yù)測(cè)正確的實(shí)體和屬性方面也有著較高的準(zhǔn)確率。

        以下詳細(xì)介紹多粒度特征表示模型。為了利用屬性不同粒度的信息并將其結(jié)合,本文采用嵌套的連接方法,將預(yù)訓(xùn)練的字嵌入和詞嵌入經(jīng)過(guò)GRU的編碼并進(jìn)行組合,其網(wǎng)絡(luò)表示如圖3所示。

        圖3 多粒度特征表示模型

        (3)

        (4)

        (5)

        (6)

        最終得到3種不同粒度的屬性表示為:

        (7)

        (8)

        S(q,p)=cos (rq,rp)

        (9)

        其中余弦相似度函數(shù)cos定義為:

        (10)

        5 實(shí)驗(yàn)分析

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        本文實(shí)驗(yàn)使用的數(shù)據(jù)集為NLPCC-ICCPOL 2016 KBQA數(shù)據(jù)集。該數(shù)據(jù)集是目前最大的公開中文知識(shí)圖譜問答數(shù)據(jù)集,其包含大約4300萬(wàn)個(gè)三元組和600萬(wàn)個(gè)實(shí)體。該知識(shí)圖譜的三元組大部分來(lái)自百度百科的屬性表格。在數(shù)據(jù)集中,14609條問答對(duì)作為訓(xùn)練數(shù)據(jù)以及9870條問句作為測(cè)試數(shù)據(jù)。

        5.2 實(shí)驗(yàn)設(shè)置

        對(duì)于上述表示模型,本文采用排序模型進(jìn)行訓(xùn)練,該方法驅(qū)動(dòng)模型輸出包含在訓(xùn)練集中的問題實(shí)體和問題謂詞對(duì)的高分,同時(shí)為不合理配對(duì)產(chǎn)生較低分?jǐn)?shù)。在訓(xùn)練期間最小化的損失函數(shù)由下式給出:

        (11)

        因此在訓(xùn)練中,模型主要關(guān)注負(fù)例和正例得分之差小于邊界γ的數(shù)據(jù)對(duì),以使得正例和負(fù)例得分相差越大越好。

        5.3 實(shí)驗(yàn)結(jié)果

        對(duì)于實(shí)體識(shí)別模型,本文采用的是100維的字符級(jí)別向量。LSTM隱層維度為100, dropout為0.5,學(xué)習(xí)率為0.001,本文采用反向傳播算法來(lái)更新訓(xùn)練中的參數(shù)。實(shí)驗(yàn)中,隨機(jī)選取10%訓(xùn)練數(shù)據(jù)作為驗(yàn)證集[19],結(jié)果如表1所示,可以看出在測(cè)試集上,實(shí)體識(shí)別F1值為97.36%,取得了較好的識(shí)別率,證明該模型的有效性,也為屬性選擇實(shí)驗(yàn)提供了有效的實(shí)驗(yàn)結(jié)果。

        表1 實(shí)體抽取實(shí)驗(yàn)結(jié)果

        準(zhǔn)確率/%召回率/%F1/%驗(yàn)證集97.5697.4897.51測(cè)試集97.4197.3297.36

        屬性選擇實(shí)驗(yàn)中,本文對(duì)比了選擇不同詞向量和字向量時(shí)的實(shí)驗(yàn)結(jié)果,如表2所示??梢钥闯鲈~嵌入和字嵌入采用50維時(shí)并不能較好地表示漢字,其實(shí)驗(yàn)結(jié)果甚至低于對(duì)比實(shí)驗(yàn)中單獨(dú)采用100維的詞向量的結(jié)果。對(duì)于本實(shí)驗(yàn),詞向量和字向量分別取100維時(shí)得到最優(yōu)實(shí)驗(yàn)結(jié)果,而隨著維度的增加,屬性選擇模型的F1并沒有明顯的提升。因此,最終本文選擇詞向量和字向量維度都為100。其他參數(shù)如GRU編碼器隱層維度為200,dropout設(shè)置為0.3。

        表2 不同維度字向量與詞向量實(shí)驗(yàn)結(jié)果

        Word-LevelChar-Level/%50 dims100 dims200 dims50 dims71.4572.4972.28100 dims72.3473.9673.90200 dims72.1173.7873.57

        本文同時(shí)與NLPCC官方提供的基線模型以及只采用詞級(jí)別嵌入表示并通過(guò)GRU進(jìn)行編碼的模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表3所示,可以看出本文模型在最終結(jié)果上比基線模型有了很大的提高,且與只采用詞級(jí)別信息表示模型相比,結(jié)合字符級(jí)別、詞級(jí)別以及獨(dú)熱編碼信息的組合模型,更能充分對(duì)數(shù)據(jù)進(jìn)行表示。相比于詞級(jí)別模型,多粒度模型包含更加豐富的表示信息,其包含的字符級(jí)別模型可以更好地處理單個(gè)漢字的語(yǔ)義信息,例如對(duì)問句“列克星敦號(hào)航空母艦?zāi)茌d多少人?”,字級(jí)別信息的引入能夠使得屬性“人員編制”的置信度更加準(zhǔn)確,同時(shí)對(duì)于未登錄詞,字符級(jí)別模型也能較好地進(jìn)行處理;而獨(dú)熱編碼更關(guān)注全局信息,對(duì)于問句“陳浩民的家庭成員有哪些?”,獨(dú)熱信息可以直接與屬性“家庭成員”進(jìn)行匹配。因此相比于詞級(jí)別模型,多粒度表示模型可以達(dá)到比采用單一表示更好的實(shí)驗(yàn)結(jié)果。

        表3 問答實(shí)驗(yàn)結(jié)果對(duì)比 單位:%

        同時(shí),本文也將實(shí)驗(yàn)結(jié)果與其他在該中文知識(shí)圖譜問答數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的論文結(jié)果進(jìn)行對(duì)比,如表4所示。前3名的結(jié)果分別為82.47%、81.59%、79.57%,且作者在實(shí)驗(yàn)中基本都采用了一些預(yù)定義的規(guī)則以及集成方法對(duì)模型進(jìn)行優(yōu)化。本文在僅使用單一神經(jīng)網(wǎng)絡(luò)模型、結(jié)構(gòu)盡量簡(jiǎn)單的情況下,也取得了較好的實(shí)驗(yàn)結(jié)果,驗(yàn)證了模型的有效性。

        表4 不同實(shí)驗(yàn)結(jié)果比較

        模型F1/%PKU[20]82.47NUDT[21]81.59CCNU[22]79.57NEU72.72本文73.96

        6 結(jié)束語(yǔ)

        本文提出了一種中文知識(shí)圖譜問答的方法,有效地解決了其中實(shí)體抽取和屬性選擇2個(gè)主要任務(wù)。在實(shí)體抽取中,本文采用命名實(shí)體識(shí)別的方法,訓(xùn)練Bi-LSTM-CRF模型以獲得問句主題實(shí)體。在屬性選擇任務(wù)中,本文提出多粒度特征表示模型,將字符級(jí)別、詞級(jí)別的文本表示進(jìn)行編碼,并考慮屬性的獨(dú)熱編碼信息,將不同粒度的信息進(jìn)行結(jié)合,充分利用數(shù)據(jù)特征。實(shí)驗(yàn)結(jié)果表明本文的模型在中文知識(shí)圖譜問答中取得了較好的效果。

        猜你喜歡
        語(yǔ)義實(shí)驗(yàn)模型
        一半模型
        記一次有趣的實(shí)驗(yàn)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言與語(yǔ)義
        做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
        3D打印中的模型分割與打包
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
        太空探索(2016年5期)2016-07-12 15:17:55
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        18禁美女裸体网站无遮挡| 大奶白浆视频在线观看| 少妇性俱乐部纵欲狂欢电影| 国产av人人夜夜澡人人爽| 欧美日韩精品一区二区三区高清视频| 亚洲素人日韩av中文字幕| 国产老熟女精品一区二区| 伊人色综合久久天天五月婷| 日本亚洲国产一区二区三区| 亚洲中文字幕精品久久久久久直播| 一区二区三区观看视频在线| 国产免费久久精品99久久| 亚洲国产av导航第一福利网| 国产视频在线一区二区三区四区| 日本免费一区二区精品| 亚洲国产精品久久艾草| 亚洲av综合色区无码一二三区 | 97久久国产亚洲精品超碰热| 久久久久久人妻一区二区三区| 国产片三级视频播放| 最新日本女优中文字幕视频| 国产无遮挡又黄又爽高潮| 精品欧美乱码久久久久久1区2区| 亚瑟国产精品久久| 国产av日韩a∨亚洲av电影| 日韩精品一区二区亚洲av性色| 中文字幕色偷偷人妻久久一区 | 国产av一区麻豆精品久久| 色欲色香天天天综合网www | 久久色悠悠亚洲综合网| 黄片视频免费观看蜜桃| 久久和欧洲码一码二码三码| 国产在线视欧美亚综合| 中文字幕在线亚洲精品一区| 中国美女a级毛片| 四虎影视在线观看2413| 亚洲国产av自拍精选| 国产黄污网站在线观看| 国产性生交xxxxx免费| 欧美zozo另类人禽交| 国产丝袜长腿美臀在线观看|