亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN與雙向LSTM的中文文本蘊(yùn)含識別方法

        2018-08-17 07:10:36譚詠梅劉姝雯呂學(xué)強(qiáng)
        中文信息學(xué)報 2018年7期
        關(guān)鍵詞:特征文本實驗

        譚詠梅,劉姝雯,呂學(xué)強(qiáng)

        (1. 北京郵電大學(xué) 計算機(jī)學(xué)院,北京 100876;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101)

        0 引言

        文本蘊(yùn)含識別(recognizing textual entailment,RTE)是指給定文本T(Text)與假設(shè)H(Hypothesis),識別出T是否蘊(yùn)含H。換言之,當(dāng)一個人閱讀T之后,推斷出H是否為真[1],對深入理解文本語義具有重要作用。其中,中文文本蘊(yùn)含識別是指識別出中文句對(T-H對)之間是否存在蘊(yùn)含關(guān)系。

        文本蘊(yùn)含識別是自然語言處理領(lǐng)域一項具有挑戰(zhàn)性的任務(wù),可以應(yīng)用到多項信息獲取技術(shù)中。例如,信息檢索中可以使用文本蘊(yùn)含技術(shù)生成與檢索詞語相關(guān)的候選信息,問答系統(tǒng)中可以使用文本蘊(yùn)含來生成候選答案或者對候選答案進(jìn)行篩選排序,文本摘要中可以使用文本蘊(yùn)含技術(shù)輔助精簡文本[2]。

        目前,中文文本蘊(yùn)含大多采用機(jī)器學(xué)習(xí)的方法,通過人工提取大量特征構(gòu)造分類器進(jìn)行識別,這些方法需要依賴于特征工程以及大量的自然語言處理(natural language processing, NLP)工具(例如詞性標(biāo)注、命名實體識別、指代消解等)。當(dāng)前,深度學(xué)習(xí)與傳統(tǒng)方法相結(jié)合的方法在NLP問題上取得了一定的成果,例如LSTM和CRF相結(jié)合的方法在分詞、命名實體識別等序列標(biāo)注問題上已經(jīng)得到應(yīng)用[3-4]。本文將深度學(xué)習(xí)與傳統(tǒng)方法結(jié)合,提出一種基于CNN與雙向LSTM的中文文本蘊(yùn)含識別方法,首先使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與雙向長短時記憶網(wǎng)絡(luò)(bidirectional long short-term memory,BiLSTM)自動提取相關(guān)特征,避免人工篩選大量特征以及NLP工具造成的錯誤累計問題,然后使用全連接層進(jìn)行分類得到初步的識別結(jié)果,最后使用語義規(guī)則進(jìn)行修正,得到最終的蘊(yùn)含識別結(jié)果。該方法在2014年RITE-VAL評測數(shù)據(jù)集上MacroF1結(jié)果為61.74%,超過評測中最好的成績61.51%[5],表明該方法對于中文文本蘊(yùn)含識別是有效的。

        1 文本蘊(yùn)含

        日本國立情報學(xué)研究所(national institute of information,NII)組織的NTCIR(NII test collection for IR systems)于2011年開始舉辦中文文本蘊(yùn)含識別(recognizing inference in text,RITE)方面的評測任務(wù)[6]。截止到目前,國內(nèi)外已經(jīng)成功舉辦了三次中文文本蘊(yùn)含識別的評測。2011年NTCIR-9提出了RITE任務(wù)[7],2013年NTCIR-10提出了RITE-2任務(wù)[8],2014年NTCIR-11提出了RITE-VAL任務(wù)[9]。

        對于中文文本蘊(yùn)含識別任務(wù),學(xué)者們已經(jīng)提出了許多種方法,包括基于規(guī)則的方法[10]、基于相似度的方法[11]、基于對齊的方法[12]、基于機(jī)器學(xué)習(xí)的方法[5]、基于深度神經(jīng)網(wǎng)絡(luò)的方法[13]等。

        基于規(guī)則的方法需要由人工編寫若干中文文本蘊(yùn)含關(guān)系的規(guī)則,當(dāng)滿足某一規(guī)則時,給出是否蘊(yùn)含的結(jié)論?;谝?guī)則的方法的優(yōu)點是直觀、識別準(zhǔn)確、易于理解;缺點是規(guī)則的編寫需要花費(fèi)大量的人力與時間,由于中文表述的多樣性以及背景知識的缺乏,規(guī)則并不能涵蓋全部的語言現(xiàn)象。

        基于相似度的方法認(rèn)為“相似即蘊(yùn)含”,文本對之間的相似度越高,它們之間存在蘊(yùn)含關(guān)系的可能性越大。在實驗中會根據(jù)訓(xùn)練數(shù)據(jù)設(shè)定一個閾值,測試時,如果文本對的相似度高于閾值則判定為“蘊(yùn)含”,否則認(rèn)為“不蘊(yùn)含”?;谙嗨贫鹊姆椒ǖ膬?yōu)點是實現(xiàn)相對簡單,可以判斷在詞匯層面是否具有蘊(yùn)含關(guān)系;缺點是強(qiáng)行假設(shè)“相似即蘊(yùn)含”,導(dǎo)致大量相似但并不蘊(yùn)含的文本對被錯誤識別[2],也不能深入理解句法、語義關(guān)系。

        基于對齊的方法是在基于相似度的方法上演化出來的[2],找出文本對之間的相似部分并通過對齊技術(shù)進(jìn)行對齊,然后根據(jù)對齊的程度識別是否蘊(yùn)含?;趯R的方法的優(yōu)點是直觀;缺點是不夠靈活,對具有復(fù)雜對齊方式的文本蘊(yùn)含關(guān)系識別效果不佳。

        基于機(jī)器學(xué)習(xí)的方法通過人工已標(biāo)注好的數(shù)據(jù)提取大量的詞匯特征、句法特征、語義特征等,然后構(gòu)造分類器(如SVM,LR等)進(jìn)行分類?;跈C(jī)器學(xué)習(xí)的方法的優(yōu)點是適用于樣本數(shù)據(jù)量小的情況,減少了規(guī)則的使用;缺點是需要人工提取大量特征,不僅耗時耗力,而且分類效果嚴(yán)重依賴提取的特征,并且在提取特征的時候需要使用大量自然語言處理工具,也會引入新的錯誤。

        隨著深度神經(jīng)網(wǎng)絡(luò)技術(shù)在圖像、語音等領(lǐng)域的成功應(yīng)用,基于深度神經(jīng)網(wǎng)絡(luò)的方法在文本蘊(yùn)含識別中的應(yīng)用研究也逐漸增多。例如,王寶鑫將注意力機(jī)制應(yīng)用在卷積神經(jīng)網(wǎng)絡(luò)模型中,來對英文文本蘊(yùn)含識別進(jìn)行研究[13]。深度神經(jīng)網(wǎng)絡(luò)方法和傳統(tǒng)方法相比,有如下幾個特點。

        (1) 減少甚至避免人工參與。傳統(tǒng)方法需要大量的人工抽取特征,深度神經(jīng)網(wǎng)絡(luò)可以避免傳統(tǒng)機(jī)器學(xué)習(xí)方法中的人工抽取特征工作。

        (2) 減少錯誤累計。傳統(tǒng)方法需要詞性標(biāo)注、命名實體識別等NLP工具,而使用多種NLP工具時容易導(dǎo)致錯誤累計問題,深度神經(jīng)網(wǎng)絡(luò)的方法可以在一定程度上減少錯誤累計。

        (3) 模型調(diào)整。方便傳統(tǒng)方法的可塑性較深度神經(jīng)網(wǎng)絡(luò)方法低,如果用傳統(tǒng)方法解決問題,改進(jìn)成本巨大,調(diào)整模型時可能需要對代碼進(jìn)行大量改動。而深度神經(jīng)網(wǎng)絡(luò)的方法只需要調(diào)整參數(shù),就可以調(diào)整模型,具有很強(qiáng)的靈活性和成長性。

        (4) 訓(xùn)練成本稍高。雖然深度神經(jīng)網(wǎng)絡(luò)方法較傳統(tǒng)方法的訓(xùn)練成本高,但是當(dāng)前高速發(fā)展的硬件性能可以支撐深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

        2 基于CNN與雙向LSTM的中文文本蘊(yùn)含識別方法

        本文方法首先對文本進(jìn)行預(yù)處理,之后將句子映射到向量表示,再使用CNN與雙向LSTM分別對文本進(jìn)行編碼,提取相關(guān)特征,然后使用全連接層進(jìn)行分類,得到初步的識別結(jié)果,最后使用語義規(guī)則對網(wǎng)絡(luò)識別結(jié)果進(jìn)行處理,得到最終的蘊(yùn)含識別結(jié)果,其系統(tǒng)架構(gòu)如圖1所示。

        圖1 基于CNN與雙向LSTM的中文文本蘊(yùn)含識別系統(tǒng)架構(gòu)圖

        2.1 預(yù)處理

        (1) 文本與假設(shè)分開

        由于語料中的文本T與假設(shè)H是成對保存的,本文系統(tǒng)需要對T和H分別構(gòu)建子網(wǎng)絡(luò),所以首先將T和H分開,以便于網(wǎng)絡(luò)的構(gòu)建。

        (2) 統(tǒng)一數(shù)字

        由于文本中對于數(shù)字的表示方法不一致,需要將文本中的數(shù)字格式進(jìn)行統(tǒng)一,全部以阿拉伯?dāng)?shù)字的形式表示[14]。如: “二百一十七”轉(zhuǎn)化為“217”,“百分之七十五”轉(zhuǎn)化為“0.75”。

        (3) 中文分詞

        中文沒有空格等形式的天然分隔符,因此需要進(jìn)行分詞處理。本文使用結(jié)巴分詞*https: //pypi.python.org/pypi/jieba/進(jìn)行中文分詞。

        例如,對句子“拉力賽是采用公共或者私人道路,使用改裝過的或者是特別制造的汽車進(jìn)行的比賽?!边M(jìn)行中文分詞后,得到如下結(jié)果:

        “拉力賽 是 采用 公共 或者 私人 道路 , 使用 改裝 過 的 或者是 特別 制造 的 汽車 進(jìn)行 的 比賽 ?!?/p>

        (4) 拼音轉(zhuǎn)換

        由于實驗數(shù)據(jù)的稀疏性以及漢字?jǐn)?shù)量龐大,本文首先使用pinyin*https: //pypi.python.org/pypi/xpinyin/將中文轉(zhuǎn)換成拼音表示,以減小詞典大小,同時減少未登錄詞(out of vocabulary,OOV)出現(xiàn)的數(shù)量。

        例如,對句子“拉力賽是采用公共或者私人道路,使用改裝過的或者是特別制造的汽車進(jìn)行的比賽。”進(jìn)行漢字轉(zhuǎn)拼音后,得到如下結(jié)果:

        “l(fā)a li sai shi cai yong gong gong huo zhe si ren dao lu , shi yong gai zhuang guo de huo zhe shi te bie zhi zao de qi che jin xing de bi sai ?!?/p>

        2.2 網(wǎng)絡(luò)結(jié)構(gòu)

        2.2.1 嵌入層

        嵌入層將預(yù)處理得到的結(jié)果以向量的形式表示,將句子映射到低維向量表示,每一列對應(yīng)一個字,表示成n×l的矩陣形式(n表示嵌入的向量維度,l表示句子長度)。嵌入層通過將文本轉(zhuǎn)化為計算機(jī)能夠處理的數(shù)字向量形式,便于之后的網(wǎng)絡(luò)提取特征。

        2.2.2 卷積層

        1962年,Hubel和Wiesel通過對貓的視覺皮層細(xì)胞的研究,提出了感受野的概念[15]。1998年,LeCun Yann提出了基于CNN的文字識別系統(tǒng)LeNet-5[16],并被用于銀行手寫數(shù)字識別。

        CNN主要有卷積和池化兩種操作。卷積參考了局部感受野的思想,每個隱藏層節(jié)點只連接到某個足夠小局部的輸入點上,而不是全連接到每個輸入點上,同時同一層中某些神經(jīng)元之間的連接權(quán)重是共享的,從而大大減少需要訓(xùn)練的權(quán)值參數(shù)。卷積操作可以在避免傳統(tǒng)機(jī)器學(xué)習(xí)方法人工提取大量特征的情況下,提取出句子的詞匯特征、語義特征等信息。

        如圖1中所示,卷積層使用多個n×h的濾波器(或稱卷積核;n為嵌入向量的維度,h為濾波器的窗口大小)與嵌入層的輸出結(jié)果進(jìn)行卷積操作,通過使用不同窗口大小的濾波器可以讓網(wǎng)絡(luò)自動提取出句子的不同特征。再將每一個濾波器與句子卷積得到的結(jié)果連接起來,得到卷積層的輸出,計算如式(1)所示[17]。

        mi=f(w·xi: i+h-1+b)

        (1)

        其中,mi表示卷積操作得到的第i個特征,f表示非線性函數(shù),w表示一個濾波器的權(quán)重,它通過與一個窗口大小為h的輸入特征x進(jìn)行卷積操作得到一個新的特征,xi可以看作輸入x的第i個輸入,b為偏置。

        將上述得到的所有特征連接起來就得到了卷積層的輸出特征圖M,如式(2)所示[17]。

        M=[m1,m2,…,ml-h+1]

        (2)

        其中,l表示輸入長度。

        2.2.3 池化層

        池化類似于一種“壓縮”方法,在每次卷積過后,通過一個下采樣過程來減小規(guī)模,簡化從卷積層輸出的信息。本文使用最大池化[18]的方法,對卷積層輸出的每個向量取最大值,提取出最重要的特征信息,再連接成一個向量,得到池化層的輸出。最大池化的方法能使用網(wǎng)絡(luò)自動提取到句子中最有用的特征。

        計算如式(3)所示[17]。

        (3)

        將上述得到的所有最大池化結(jié)果連接起來就得到了池化層的輸出z,如式(4)所示[17]。

        (4)

        其中,k為濾波器個數(shù)。

        2.2.4 BiLSTM層

        LSTM(long short-term memory,長短時記憶網(wǎng)絡(luò))由Hochreiter等人于1997年提出[19],通過設(shè)置輸入門、遺忘門、輸出門,避免了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在隱藏層梯度計算時由于鏈?zhǔn)椒▌t造成的梯度消失(梯度趨近于零)和梯度爆炸(梯度趨近于無窮)問題[20]。

        Graves等人于2005年提出的BiLSTM[21]通過向前和向后分別訓(xùn)練一個LSTM,能做到同時保留“過去”與“未來”的文本信息。

        由于LSTM只能保留“過去”的信息,即只能正向提取句子中的詞匯、語義信息,而BiLSTM能在訪問“過去”的信息的同時,訪問“未來”的信息,即能從正向、反向兩個方向提取句子中的詞匯、語義信息,得到更豐富、更深入的信息,對于中文文本蘊(yùn)含識別任務(wù)是非常有益的。

        BiLSTM層對嵌入層的輸出進(jìn)行操作,以保留句子在“過去”以及“未來”的長期依賴信息,然后將這些信息連接起來,作為本層的輸出。BiLSTM層的使用避免了傳統(tǒng)機(jī)器學(xué)習(xí)方法需要人工提取大量特征的工作。

        假設(shè)在t時刻的輸入向量為xt,前一時刻的輸出為ht-1,前一時刻的隱藏狀態(tài)為ct-1,則當(dāng)前時刻的狀態(tài)ct和輸出ht如式(5)、式(6)所示。

        其中,當(dāng)前時刻的輸入X由輸入向量xt與前一時刻的輸出ht-1組成,如式(7)所示,w為權(quán)重,b為偏置,g、s分別表示狀態(tài)的輸入和輸出的激活函數(shù),it、ft、ot分別表示輸入門i、遺忘門f、輸出門o在t時刻的激活值,如式(8)~式(10)所示。σ表示三個門的激活函數(shù)。

        2.2.5 全連接層

        全連接層為三層的全連接結(jié)構(gòu): 輸入層為T與H的池化層與BiLSTM層輸出的連接Z,一個隱藏層,輸出層使用softmax函數(shù)得到網(wǎng)絡(luò)的識別結(jié)果。

        計算如式(11)所示。

        y=softmax(wfull·Z+bfull)

        (11)

        其中,y為網(wǎng)絡(luò)識別結(jié)果,wfull為全連接層的權(quán)重,bfull為全連接層的偏置。

        2.3 修正模塊

        修正模塊使用外部資源編寫語義規(guī)則對網(wǎng)絡(luò)輸出結(jié)果進(jìn)行修正,得到最終的蘊(yùn)含結(jié)果。外部資源包括近義詞表、反義詞表、否定詞表。

        基于王志浩[14]的工作,本文使用網(wǎng)絡(luò)爬蟲從近義詞網(wǎng)站和反義詞網(wǎng)站獲取到近義詞表與反義詞表。

        否定詞表包含表示否定意義的詞語,包括“不”“無”“非”“沒”“未”“禁”等。

        由于中文知識庫資源有限,本文應(yīng)用詞表并結(jié)合規(guī)則的方法對網(wǎng)絡(luò)輸出結(jié)果進(jìn)行修正,四條規(guī)則如下[14]:

        規(guī)則1如果文本T和假設(shè)H的分詞結(jié)果中存在近義詞對,那么蘊(yùn)含識別結(jié)果為“Y”,例如,

        T1: “火地群島,是南美洲最南端的島嶼群,由主島大火地島及周邊小島組成?!?/p>

        H1: “火地群島,是南美洲最南端的島嶼群,由主島大火地島及附近小島組成?!?/p>

        “周邊”和“附近”是近義詞,因此文本T1和假設(shè)H1存在蘊(yùn)含關(guān)系,蘊(yùn)含識別結(jié)果為“Y”。

        規(guī)則2如果文本T和假設(shè)H的分詞結(jié)果中存在反義詞對,那么蘊(yùn)含識別結(jié)果為“N”,例如,

        T2: “阿巴多自 2003年接任琉森音樂節(jié)音樂總監(jiān)后,成立了琉森節(jié)日管弦樂團(tuán)(lucerne festival orchestra, LFO)?!?/p>

        H2: “阿巴多自 2003年接任琉森音樂節(jié)音樂總監(jiān)后,解散了琉森節(jié)日管弦樂團(tuán)(lucerne festival orchestra, LFO)?!?/p>

        “成立”和“解散”是反義詞,因此文本T2和假設(shè)H2不存在蘊(yùn)含關(guān)系,蘊(yùn)含識別結(jié)果為“N”。

        規(guī)則3如果文本T和假設(shè)H的差集(H中有而T中沒有)中存在否定詞,那么蘊(yùn)含識別結(jié)果為“N”,例如,

        T3: “中國移動具有互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經(jīng)營權(quán)和國際出入口局業(yè)務(wù)經(jīng)營權(quán)?!?/p>

        H3: “中國移動不具備互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經(jīng)營權(quán)和國際出入口局業(yè)務(wù)經(jīng)營權(quán)。”

        文本T3與假設(shè)H3的差集為“不、備”,“不”是否定詞,因此文本T3和假設(shè)H3不存在蘊(yùn)含關(guān)系,蘊(yùn)含識別結(jié)果為“N”。

        規(guī)則4如果經(jīng)過統(tǒng)一數(shù)字預(yù)處理的文本T和假設(shè)H中存在不同的數(shù)字,那么蘊(yùn)含識別結(jié)果為“N”,例如,

        T4: “火地群島總面積73753平方公里。”

        H4: “火地群島總面積37753平方公里?!?/p>

        文本T4中的數(shù)字為“73 753”,而假設(shè)H4中的數(shù)字為“37 753”,兩者不同,因此文本T4和假設(shè)H4不存在蘊(yùn)含關(guān)系,蘊(yùn)含識別結(jié)果為“N”。

        3 實驗

        3.1 實驗數(shù)據(jù)與評價指標(biāo)

        本文使用NTCIR-11的RITE-VAL評測任務(wù)的簡體中文文本蘊(yùn)含語料進(jìn)行實驗[8],測試數(shù)據(jù)共1 200對,訓(xùn)練數(shù)據(jù)通過收集往屆數(shù)據(jù)擴(kuò)充到1 976對,實驗數(shù)據(jù)統(tǒng)計如表1所示。

        表1 實驗數(shù)據(jù)統(tǒng)計

        評價指標(biāo)為macro-F1和準(zhǔn)確率(Accuracy),其計算如式(12)、式(13)所示[8]。

        其中,C是分類的集合(Y和N);Prec.c和Rec.c分別是c類的準(zhǔn)確率和召回率,計算如式(14)、式(15)所示[8]。

        其中,Ncorrect表示正確識別蘊(yùn)含關(guān)系的句對數(shù),Nall表示總句對數(shù),Npredicted表示預(yù)測結(jié)果中識別為c類的總句對數(shù),Ntarget表示正確結(jié)果中應(yīng)該識別為c類的總句對數(shù)。

        3.2 參數(shù)設(shè)置

        本文方法的參數(shù)設(shè)置參考Yoon Kim[17]的工作,如表2所示。

        其中,所有的詞向量都是隨機(jī)初始化,并隨著網(wǎng)絡(luò)在訓(xùn)練過程中進(jìn)行調(diào)整。使用窗口大小(h)分別為3、4、5的卷積核各100個。

        表2 參數(shù)設(shè)置

        3.3 實驗結(jié)果及分析

        針對2.2節(jié)的網(wǎng)絡(luò)結(jié)構(gòu)部分,為了對比分析不同網(wǎng)絡(luò)結(jié)構(gòu)的性能,本文設(shè)計實現(xiàn)了如下七種網(wǎng)絡(luò):

        (1) CNN: 僅使用CNN對句子進(jìn)行特征提取,使用全連接層根據(jù)提取到的特征進(jìn)行分類;

        (2) LSTM: 僅使用LSTM對句子進(jìn)行特征提取,使用全連接層根據(jù)提取到的特征進(jìn)行分類;

        (3) BiLSTM: 僅使用BiLSTM對句子進(jìn)行特征提取,使用全連接層根據(jù)提取到的特征進(jìn)行分類;

        (4) LSTM-CNN-series: 將LSTM提取到的信息傳入CNN,使用全連接層根據(jù)CNN的輸出進(jìn)行分類;

        (5) BiLSTM-CNN-series: 將BiLSTM提取到的信息傳入CNN,使用全連接層根據(jù)CNN的輸出進(jìn)行分類;

        (6) CNN-LSTM-parallel: 分別使用CNN和LSTM提取特征,使用全連接層根據(jù)提取到的特征進(jìn)行分類;

        (7) CNN-BiLSTM-parallel: 分別使用CNN和BiLSTM提取特征,使用全連接層根據(jù)提取到的特征進(jìn)行分類。

        本文對上述構(gòu)造的七種網(wǎng)絡(luò)進(jìn)行實驗,實驗結(jié)果如表3所示。

        表3 不同網(wǎng)絡(luò)的實驗結(jié)果比較

        從表3中可以得到如下結(jié)論:

        (1) 四種融合方式的實驗結(jié)果均優(yōu)于單一網(wǎng)絡(luò)的實驗結(jié)果,表明融合方式可以綜合考慮單一網(wǎng)絡(luò)各自的優(yōu)點,提高中文文本蘊(yùn)含識別方法的性能;

        (2) parallel方法相對series方法,實驗結(jié)果更好,表明使用兩種網(wǎng)絡(luò)分別對句子進(jìn)行特征提取所獲得的信息,要多于或優(yōu)于將一種網(wǎng)絡(luò)對句子提取到的特征傳入另一種網(wǎng)絡(luò)的方法;

        (3) 分別對比BiLSTM與LSTM,BiLSTM-CNN-series與LSTM-CNN-series,CNN-BiLSTM-parallel與CNN-LSTM-parallel的實驗結(jié)果,發(fā)現(xiàn)針對中文文本蘊(yùn)含識別任務(wù),BiLSTM要優(yōu)于LSTM,因為使用BiLSTM可以保留文本中的“過去”與“未來”長期依賴信息,LSTM只能保留文本中的“過去”的長期依賴信息,而上文與下文信息均對中文文本蘊(yùn)含識別具有重要作用。

        同時與RITE-VAL評測的前三名方法進(jìn)行比較,實驗結(jié)果如表4所示,其中BUPT[5]、NWNU[22]、III&CYUT[23]為RITE-VAL前三名的評測結(jié)果。

        表4 本文方法與評測方法的結(jié)果比較

        表4的實驗結(jié)果表明,本文提出的CNN-BiLSTM-parallel方法的實驗結(jié)果已經(jīng)超過RITE-VAL評測的前三名,表明該方法對于中文文本蘊(yùn)含識別任務(wù)是有效的。其中,BUPT使用了中文分詞、詞性標(biāo)注、命名實體識別、指代消解等四種NLP工具,人工提取了23個特征;NWNU使用了中文分詞、詞性標(biāo)注、命名實體識別等三種NLP工具,人工提取了七個特征;III&CYUT人工提取了10個特征,人工編寫了11條規(guī)則。而本文方法只使用了中文分詞一種NLP工具,僅編寫了四條規(guī)則,NLP工具的使用數(shù)量以及人工參與的工作量遠(yuǎn)遠(yuǎn)少于RITE-VAL評測前三名的參賽隊伍,表明本文方法在一定程度上避免了人工篩選大量特征的工作,以及使用多種NLP工具造成的錯誤累計問題,同時提高了中文文本蘊(yùn)含識別方法的性能。

        最后,對比分析了本文方法與只使用CNN方法、只使用BiLSTM方法,以及BUPT方法的Y類和N類F1值,結(jié)果如表5所示。

        表5 Y類與N類結(jié)果比較

        從表5中可以得到如下結(jié)論:

        (1) CNN的N類F1值遠(yuǎn)遠(yuǎn)高于Y類F1值,是由于CNN更關(guān)注于局部的特征,更偏向于關(guān)注文本對中不同的部分,如下例所示:

        T5: “《罪與罰》是俄國文學(xué)家杜斯妥也夫斯基的長篇小說作品,出版于1866年。”

        H5: “《罪與罰》是俄國科學(xué)家杜斯妥也夫斯基的長篇小說作品,出版于1866年?!?/p>

        其中,“文學(xué)家”與“科學(xué)家”不對應(yīng),因此得出這兩句話不具有蘊(yùn)含關(guān)系。

        (2) BiLSTM的Y類F1值遠(yuǎn)遠(yuǎn)高于N類F1值,是由于BiLSTM更關(guān)注于上下文的長期依賴信息,更偏向于識別并保存文本對中的相關(guān)信息,由于語料中T與H的文字重復(fù)比較高,所以BiLSTM網(wǎng)絡(luò)易將N類誤分為Y類,如下例所示:

        T6: “中國移動具有互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經(jīng)營權(quán)和國際出入口局業(yè)務(wù)經(jīng)營權(quán)?!?/p>

        H6: “中國移動涉足網(wǎng)絡(luò)業(yè)務(wù)?!?/p>

        從T6的長句中可以得到“中國移動具有互聯(lián)網(wǎng)國際聯(lián)網(wǎng)單位經(jīng)營權(quán)”的信息,進(jìn)一步可以得到“中國移動有互聯(lián)網(wǎng)業(yè)務(wù)”,與H6句意思一致,得出這兩句話具有蘊(yùn)含關(guān)系。

        (3) CNN-BiLSTM-parallel的Y類F1值與N類F1值之間的差距較CNN和BiLSTM縮小了很多,表明融合兩種網(wǎng)絡(luò)起到了促進(jìn)作用,但仍然是N類F1值較高,可能是因為CNN提取到的特征在其中起的作用更大。

        (4) CNN-BiLSTM-parallel的Y類F1值與N類F1值之間的差距與BUPT相比,縮小了很多,表明本文方法對于兩類蘊(yùn)含關(guān)系的識別較為均衡,而BUPT方法嚴(yán)重傾向于Y類的識別。

        通過分析實驗結(jié)果,發(fā)現(xiàn)有如下幾類情況易識別錯誤:

        (1) 缺乏相關(guān)領(lǐng)域知識型

        T7: “1981年6月6日,美國疾病控制與預(yù)防中心通報全球首宗愛滋病感染案例?!?/p>

        H7: “1981年6月6日,美國疾病控制與預(yù)防中心通報全球首宗后天免疫缺乏癥候群感染案例。”

        由于缺乏“后天免疫缺乏癥候群”的俗稱是“愛滋病”的知識,導(dǎo)致蘊(yùn)含關(guān)系識別錯誤。

        (2) 邏輯推理型

        T8: “1989年英倫航空92號班機(jī)空難,機(jī)上118名乘客中的39人當(dāng)場死亡,8人于稍后時間亦過世;而機(jī)上的8名機(jī)員則全部生還。”

        H8: “1989年英倫航空92號班機(jī)空難,機(jī)上126人僅79人生還?!?/p>

        T8中的信息需要經(jīng)過計算推理才能識別出與H8句具有蘊(yùn)含關(guān)系,即從T8的信息中得到班機(jī)上一共有118+8=126人,生還118-39-8+8=79人,因此蘊(yùn)含關(guān)系應(yīng)識別為蘊(yùn)含。

        推理是文本蘊(yùn)含識別中的一種重要語言現(xiàn)象,在RITE-VAL評測任務(wù)的1 200對測試集中,推理類型的子數(shù)據(jù)集有184對,占比最高,達(dá)15%[8],本文針對推理類型子數(shù)據(jù)集進(jìn)行了實驗,實驗結(jié)果如表6所示。

        從表6中可以看出,本文方法在推理類型子數(shù)據(jù)集上效果仍是較好的。

        表6 在推理類型子數(shù)據(jù)集上的實驗結(jié)果

        續(xù)表

        中文文本蘊(yùn)含識別方法AccuracyBiLSTM-CNN-series52.72CNN-LSTM-parallel53.80CNN-BiLSTM-parallel57.07

        4 結(jié)論

        中文文本蘊(yùn)含識別任務(wù)旨在判定中文句對之間是否存在蘊(yùn)含關(guān)系,對信息檢索、問答系統(tǒng)、文本摘要等任務(wù)具有重要意義。本文提出了一種基于CNN與雙向LSTM的中文文本蘊(yùn)含識別方法,該方法首先將句子映射到向量空間,然后使用CNN與雙向LSTM對句子進(jìn)行編碼,自動提取相關(guān)特征,再使用全連接層進(jìn)行分類,得到初步的識別結(jié)果,最后使用語義規(guī)則對網(wǎng)絡(luò)識別結(jié)果進(jìn)行修正,得到最終的蘊(yùn)含識別結(jié)果。本文方法避免了人工篩選大量特征的工作以及NLP工具造成的錯誤累計問題,在2014年RITE-VAL評測任務(wù)數(shù)據(jù)集上的macro-F1結(jié)果為61.74%,當(dāng)時評測第一名為61.51%[5],表明本文方法對于中文文本蘊(yùn)含識別是有效的。

        另一方面,本文的方法對于缺乏相關(guān)領(lǐng)域知識和邏輯推理型蘊(yùn)含識別效果不佳。未來可以在相關(guān)領(lǐng)域知識與邏輯推理問題上進(jìn)行改進(jìn),例如從大規(guī)模的文本中獲取豐富的相關(guān)領(lǐng)域知識,解決由于相關(guān)領(lǐng)域知識的缺乏而導(dǎo)致蘊(yùn)含關(guān)系識別錯誤,使用深度學(xué)習(xí)的方法解決邏輯推理問題。

        猜你喜歡
        特征文本實驗
        記一次有趣的實驗
        如何表達(dá)“特征”
        在808DA上文本顯示的改善
        做個怪怪長實驗
        不忠誠的四個特征
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        国产成人精品午夜视频| 亚洲欧美国产日韩天堂在线视 | 欧美性猛交xxxx乱大交蜜桃| 国产精品久久久久亚洲| 亚洲永久精品日韩成人av| 国产香港明星裸体xxxx视频| 女人被爽到呻吟gif动态图视看| 国产成人综合在线视频| 呦泬泬精品导航| 不打码在线观看一区二区三区视频| 亚洲日本高清一区二区| 亚洲高清乱码午夜电影网| 久久亚洲精品ab无码播放| 无码中文字幕专区一二三| 久久精品熟女亚洲av艳妇| 日韩av一区二区三区高清| 亚洲成av人片在线观看| 久久精品噜噜噜成人| 国产精品乱一区二区三区| 中文字幕一区二区区免| 风韵丰满熟妇啪啪区老老熟妇| 日韩成人大屁股内射喷水| 亚洲一区二区久久青草| 国产午夜精品久久精品| 欧美熟妇另类久久久久久不卡| 亚洲日韩精品无码专区网站| 国产乱人伦AV在线麻豆A| 牛仔裤人妻痴汉电车中文字幕 | 48久久国产精品性色aⅴ人妻| 国产视频毛片| 欧洲国产成人精品91铁牛tv| 日产国产亚洲精品系列| 国产尤物精品视频| 精品人妻少妇一区二区不卡| 亚洲综合免费在线视频| 国产精品亚洲av三区亚洲| 精品一区二区三区免费播放| 亚洲国产成人精品激情资源9| 国产精品亚洲一二三区| 女人被狂躁c到高潮| 国产午夜亚洲精品不卡福利|