亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Highway-BiLSTM網(wǎng)絡(luò)的漢語謂語中心詞識(shí)別研究

        2021-02-28 04:46:10黃瑞章靳文繁陳艷平秦永彬鄭慶華
        通信學(xué)報(bào) 2021年1期
        關(guān)鍵詞:中心詞謂語語義

        黃瑞章,靳文繁,陳艷平,秦永彬,鄭慶華

        (1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025;3.西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710049)

        1 引言

        謂語中心詞是句子的焦點(diǎn),是支配和關(guān)聯(lián)句子其他語法成分的關(guān)鍵語法單元。在以謂語為中心的句法成分分析中,需要根據(jù)謂語中心詞來解析句子結(jié)構(gòu)。識(shí)別謂語中心詞是正確理解句子的前提。正確識(shí)別謂語中心詞可以解析句子結(jié)構(gòu)、獲取句子的語義信息,進(jìn)一步支撐淺層句法分析的研究,從而支撐機(jī)器翻譯、信息檢索、情感分析等自然語言處理應(yīng)用。

        一個(gè)動(dòng)詞在句子中是否是謂語中心詞既與它本身的語法屬性有關(guān),也與它的上下文環(huán)境有關(guān)。動(dòng)詞本身的語法屬性稱為靜態(tài)特征,與識(shí)別謂語中心詞有關(guān)的上下文環(huán)境稱為動(dòng)態(tài)特征。由于漢語句子結(jié)構(gòu)松散,傳統(tǒng)觀點(diǎn)認(rèn)為漢語句子沒有形式上的謂語中心詞。

        此外,謂語中心詞的識(shí)別還需要克服以下幾個(gè)問題。1) 漢語是一種古老的象形文字,缺少分詞信息。比如,《現(xiàn)代漢語規(guī)范詞典》沒有收錄“撞向”為動(dòng)詞,但收錄了“通向”“流向”等詞為動(dòng)詞。類似的情況有“下雨”被收錄為詞,而“下雪”沒有。無法正確分詞給謂語中心詞的識(shí)別帶來困難。2) 漢語句子結(jié)構(gòu)松散。漢語句子通常包含幾個(gè)動(dòng)詞,它們中的每一個(gè)都可以作為謂語中心詞或狀語短語來處理,很難識(shí)別句子中單詞之間的依賴關(guān)系。3) 漢語單詞中的兼義現(xiàn)象非常嚴(yán)重,存在很多名詞、形容詞動(dòng)詞化的用法,但沒有形態(tài)特征來表示它們的動(dòng)詞用法,使區(qū)分它們之間的句法作用變得困難。4) 謂語中心詞是句子的中心,識(shí)別謂語中心詞需要對(duì)句子的高階依賴關(guān)系進(jìn)行建模。當(dāng)前的序列模型難以捕獲句子中的高階依賴關(guān)系。在漢語謂語中心詞識(shí)別方面,現(xiàn)有的序列標(biāo)注模型還存在不足之處。例如長(zhǎng)短時(shí)記憶(LSTM,long-short term memory)模型理論上能記憶長(zhǎng)距離信息,但是在實(shí)際使用中,LSTM 對(duì)長(zhǎng)實(shí)體的識(shí)別性能較低。

        本文主要的研究工作如下。

        1) 針對(duì)漢語謂語中心詞的特點(diǎn),提出了一種基于深層雙向長(zhǎng)短時(shí)記憶(BiLSTM,bi-directional LSTM)的漢語謂語中心詞識(shí)別模型。該模型利用4 層BiLSTM 結(jié)構(gòu)獲取句子的抽象語義特征和上下文語義依賴關(guān)系。與傳統(tǒng)序列標(biāo)注模型相比,深層BiLSTM模型能更好地獲取句子內(nèi)部不同粒度抽象語義信息,在漢語謂語中心詞數(shù)據(jù)集上有更好的表現(xiàn)。

        2) 利用Highway 連接緩解深層模型的梯度消失的問題。隨著深度網(wǎng)絡(luò)層數(shù)的不斷增加,輸入信息在通過網(wǎng)絡(luò)層到達(dá)網(wǎng)絡(luò)的末端時(shí),可能出現(xiàn)梯度消失的情況。本文通過Highway 網(wǎng)絡(luò)的引入有效地緩解了訓(xùn)練深層模型時(shí)梯度消失的情況。

        3) 漢語謂語中心詞的唯一性問題。單個(gè)句子中通常只有一個(gè)謂語中心詞,但可以有多個(gè)動(dòng)詞。為了解決這個(gè)問題,本文在模型的輸出中加入約束層,通過約束函數(shù)對(duì)輸出路徑進(jìn)行約束,確保謂語中心詞的輸出唯一性。

        2 相關(guān)工作

        謂語中心詞在句中起到組織句法或者語義信息的中心作用,如主語、時(shí)間、原因和形式等。識(shí)別謂語中心詞是理解句子的關(guān)鍵。然而,在漢語自然語言處理領(lǐng)域,關(guān)于謂語中心詞識(shí)別的研究工作卻很少?,F(xiàn)有工作主要采用基于規(guī)則的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。

        在基于規(guī)則的方法中,Luo 等[1]從各種詞性的詞作為謂語時(shí)的語法特點(diǎn)出發(fā),討論謂語的識(shí)別策略,通過規(guī)則的方法來判別和確定句子的中心謂語及其相應(yīng)邊界。Li 等[2]提出了一種利用句子的主語和謂語之間的句法關(guān)系來識(shí)別謂語中心詞的方法。該方法除了利用謂語中心詞候選項(xiàng)的靜態(tài)語法特征和動(dòng)態(tài)語法特征外,還加入了對(duì)規(guī)則間相互影響的考慮,較之前的方法從更高的句法層次上進(jìn)行了分析。但是特征的應(yīng)用過程相對(duì)復(fù)雜,計(jì)算量較大,對(duì)于一些特殊的句型可能產(chǎn)生錯(cuò)誤的結(jié)果。Sui 等[3-4]出了一種折中的漢語句子分析方法——骨架依存分析法,利用句子級(jí)對(duì)齊的雙語語料庫中英漢謂語中心詞的對(duì)應(yīng)來尋找漢語句子的謂語中心詞。但是其僅對(duì)例句集中的漢語單句識(shí)別了謂語中心詞,沒有從大規(guī)模已標(biāo)注的謂語中心詞的漢語例句中實(shí)現(xiàn)謂語中心詞自動(dòng)抽取。

        在基于統(tǒng)計(jì)學(xué)習(xí)的方法中,陳小荷等[5]采用統(tǒng)計(jì)的方法對(duì)50 萬字的語料庫識(shí)別了核心謂語。Wang 等[6]組合謂語動(dòng)詞的多個(gè)特征,并使用最大熵分類器對(duì)謂語中心詞進(jìn)行自動(dòng)識(shí)別。諶志群[7]提出了一種基于統(tǒng)計(jì)學(xué)原理的漢語句子謂語自動(dòng)識(shí)別概率模型,通過對(duì)語料庫中句子的謂語所處上下文環(huán)境的細(xì)致分析,選擇影響謂語出現(xiàn)的語境特征,在此基礎(chǔ)上通過構(gòu)建統(tǒng)計(jì)模型來計(jì)算謂語出現(xiàn)的概率,識(shí)別漢語句子的謂語。

        在規(guī)則與統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的方法中,Gong 等[8]將整個(gè)謂語識(shí)別的過程分為語片捆綁、謂語粗篩選和謂語精篩選3 個(gè)階段。首先,在識(shí)別之前加入語片捆綁的預(yù)處理工作,有效排除了一些準(zhǔn)謂語;然后,用規(guī)則的方法進(jìn)行粗篩選,降低了精篩選的復(fù)雜度;最后,利用特征學(xué)習(xí)的方法進(jìn)行謂語精篩選,有效解決了規(guī)則的不完備和特征重要度排序的問題。但是,該方法還存在一些謂語誤識(shí)的情況,對(duì)于復(fù)雜結(jié)構(gòu)的漢語句子不能完全正確識(shí)別。另外,Han 等[9]提出一種融合詞法與句法特征、結(jié)合C4.5機(jī)器學(xué)習(xí)和規(guī)則進(jìn)行謂語識(shí)別的方法。該方法表明句法特征能有效提升謂語識(shí)別效果。李琳等[10]利用大規(guī)模的藏語語料庫訓(xùn)練得到藏語詞向量,其結(jié)果表明詞向量特征可顯著提高藏語謂語動(dòng)詞短語的識(shí)別效果。目前,謂語中心詞識(shí)別的研究大部分還是使用傳統(tǒng)方法,難以建模高階依賴信息。

        在漢語信息抽取領(lǐng)域,與謂語中心詞識(shí)別相關(guān)的任務(wù)還有命名實(shí)體識(shí)別和語義角色標(biāo)注。其中,命名實(shí)體識(shí)別通常采用序列標(biāo)注模型進(jìn)行識(shí)別,如隱馬爾可夫模型(HMM,hidden Markov model)[11]、條件隨機(jī)場(chǎng)(CRF,conditional random field)[12]和LSTM[13]。近年來,基于深度學(xué)習(xí)模型的實(shí)體識(shí)別得到了廣泛研究。比如,Li 等[14]采用雙向LSTM-CRF 結(jié)構(gòu),在生物醫(yī)學(xué)實(shí)體識(shí)別上取得了良好的效果。與命名實(shí)體識(shí)別相比,謂語中心詞識(shí)別更強(qiáng)調(diào)謂語中心詞作為句子中心的語法功能,在識(shí)別上需要依賴句子的整體結(jié)構(gòu)和語義特征,在輸出路徑中需要保證標(biāo)注實(shí)體的單一性。

        語義角色標(biāo)注(SRL,semantic role labeling)[15]是淺層語義分析中的一種主要實(shí)現(xiàn)方式。該方法主要是對(duì)給定句子中存在的每個(gè)謂語進(jìn)行分析,并標(biāo)注其相應(yīng)的語義成分。傳統(tǒng)的SRL 方法采用基于句法特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,通常將語義角色標(biāo)注任務(wù)轉(zhuǎn)換為有監(jiān)督的分類問題,主要分為基于短語結(jié)構(gòu)句法分析以及基于依存句法分析2 種語義角色標(biāo)注方法。比如,Koomen 等[16]和Tackstrom 等[17]采用線性規(guī)劃或動(dòng)態(tài)規(guī)劃的方式獲得句子的全局約束。隨著深度學(xué)習(xí)的興起,研究者將基于BiLSTM模型用于語義角色標(biāo)注任務(wù)。比如,Zhou 等[18]使用深度BiLSTM 模型對(duì)英文語義角色標(biāo)注進(jìn)行了研究。Guo 等[19]重點(diǎn)關(guān)注句法路徑信息并使用BiLSTM 對(duì)其進(jìn)行建模,從而提高了SRL 系統(tǒng)的性能。王瑞波等[20]使用多特征融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來構(gòu)建漢語框架語義角色識(shí)別模型。Strubell 等[21]提出了一種基于語言信息的自我注意神經(jīng)網(wǎng)絡(luò)模型,它將多頭自我注意與多任務(wù)學(xué)習(xí)相結(jié)合,包括依賴分析、詞性標(biāo)注、謂語檢測(cè)和SRL。

        3 模型構(gòu)建

        本文的Highway-BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。自底向上描述如下。1)使用預(yù)訓(xùn)練的維基百科字向量將輸入的文本序列映射為向量,作為當(dāng)前詞的特征向量表示;2)經(jīng)過4 層BiLSTM[22]獲取句子內(nèi)部不同粒度抽象語義信息的直接依賴關(guān)系;3)為了防止訓(xùn)練深層BiLSTM 模型時(shí)出現(xiàn)梯度消失的問題,層與層之間使用Highway 網(wǎng)絡(luò)連接;4)通過一個(gè)Softmax 層進(jìn)行歸一化處理;5)通過約束層保證謂語中心詞的唯一性,得到最優(yōu)標(biāo)注序列。句子中包含的謂語中心詞用標(biāo)簽{B,I}表示,其中謂語中心詞的開始用標(biāo)簽B標(biāo)記,其余部分用標(biāo)簽I標(biāo)記。在模型的輸出部分,使用P表示預(yù)測(cè)的句子,模型預(yù)測(cè)出的謂語中心詞使用標(biāo)簽B-V標(biāo)記,句子中的其他成分使用標(biāo)簽O標(biāo)記。

        圖1 Highway-BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)

        3.1 深度雙向長(zhǎng)短時(shí)記憶模型

        一方面,傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)在處理長(zhǎng)序列數(shù)據(jù)時(shí)容易出現(xiàn)梯度消失或梯度爆炸問題。另一方面,對(duì)于基本的RNN來說,它能夠處理一定的短期依賴,但是無法處理長(zhǎng)期依賴問題。而LSTM 通過引入門結(jié)構(gòu)解決了RNN 的長(zhǎng)期依賴問題。由于漢語謂語中心詞缺少形態(tài)特征、句子結(jié)構(gòu)松散且形式多樣、單個(gè)句子可能存在多個(gè)動(dòng)詞等情況,傳統(tǒng)的序列標(biāo)注模型無法很好地建模句子的高階依賴特征,獲取句子的全局信息。針對(duì)上述問題,本文提出利用多層堆疊的BiLSTM構(gòu)建謂語中心詞識(shí)別模型。LSTM 通過3 個(gè)不同的門來調(diào)節(jié)單元狀態(tài)中的信息流,即輸入門、遺忘門、輸出門控制著信息流的更新與利用。本文設(shè)輸入的信息流為xl,t,表示第l層和t時(shí)刻到LSTM 的輸入;細(xì)胞狀態(tài)為cl,t;LSTM 在t時(shí)刻的輸出信息為hl,t;激活函數(shù)為σ;權(quán)重矩陣為W;偏置向量為b。

        首先,決定從細(xì)胞狀態(tài)中丟棄什么信息。這個(gè)決策是通過一個(gè)稱為“遺忘門”的層來完成的。該門會(huì)讀取hl,t和xl,t,使用sigmoid 函數(shù)輸出一個(gè)0~1的數(shù)值,輸出狀態(tài)cl,t中每個(gè)細(xì)胞的數(shù)值,1 表示完全保留,0 表示完全舍棄。

        然后,確定什么樣的新信息被存放在細(xì)胞狀態(tài)中。信息包含兩部分:一部分是sigmoid 函數(shù),稱為“輸入門”,決定更新什么值;另一部分是tanh 函數(shù),用于創(chuàng)建一個(gè)新的候選值向量,該向量會(huì)被加入狀態(tài)中。這樣就能用這2 個(gè)信息產(chǎn)生對(duì)狀態(tài)的更新。

        最后,運(yùn)行一個(gè)sigmoid 函數(shù)來確定輸出細(xì)胞狀態(tài)的哪個(gè)部分,通過tanh 處理細(xì)胞狀態(tài),并與sigmoid 門的輸出相乘,僅輸出確定輸出的那部分。

        其中,δ l為1 或?1,表示LSTM 在第l層的方向性。在實(shí)驗(yàn)中根據(jù)Zhou 等[23]的方法以交織模式堆疊LSTM,設(shè)每層的特定輸入xl,t和方向性δl分別為

        3.2 Highway 連接

        本文在實(shí)驗(yàn)中使用了4 層的BiLSTM(即8 層LSTM)堆疊模型取得了較好的效果,其中一個(gè)關(guān)鍵要素是使用封閉的“Highway 連接”[23-24]。相比于RNN,LSTM 能夠在一定程度上緩解梯度消失的問題。理論和經(jīng)驗(yàn)表明,神經(jīng)網(wǎng)絡(luò)的深度是其成功的關(guān)鍵。然而,隨著網(wǎng)絡(luò)層數(shù)的不斷增加,訓(xùn)練變得更加困難,在網(wǎng)絡(luò)傳輸中會(huì)出現(xiàn)一個(gè)問題:當(dāng)輸入的信息通過許多層,到達(dá)網(wǎng)絡(luò)的末端(或起點(diǎn))時(shí),信息可能會(huì)“消失”。這里的“消失”實(shí)際是由于鏈?zhǔn)椒▌t下多個(gè)小于1 的數(shù)值相乘導(dǎo)致的。針對(duì)這個(gè)問題,本文使用Highway 連接各層BiLSTM,使特征信息能夠在多個(gè)層面上傳輸。Highway 網(wǎng)絡(luò)受到LSTM 網(wǎng)絡(luò)的啟發(fā),同樣使用自適應(yīng)門控單元來調(diào)節(jié)信息流。典型的神經(jīng)網(wǎng)絡(luò)是一個(gè)仿射變換加一個(gè)非線性函數(shù),即y=H(x,WH)。在深層模型的層間連接中,為每一個(gè)層的輸出添加轉(zhuǎn)換門和進(jìn)位門,形成Highway 網(wǎng)絡(luò)。其定義為

        Highway 網(wǎng)絡(luò)的本質(zhì)是通過shortcut 機(jī)制實(shí)現(xiàn)深層網(wǎng)絡(luò)的訓(xùn)練。如圖2 所示,shortcut 機(jī)制選擇合適的層進(jìn)行轉(zhuǎn)換,通過該機(jī)制可以使信息在許多層之間流動(dòng)而不會(huì)衰減,即使在深層模型中,使用Highway 連接也可以通過簡(jiǎn)單的梯度下降直接進(jìn)行訓(xùn)練。本文實(shí)驗(yàn)通過轉(zhuǎn)換門rt來控制層與層之間線性和非線性變換的權(quán)重。

        圖2 Highway 連接

        最后,輸出hl,t改為

        3.3 Dropout 機(jī)制

        在訓(xùn)練樣本一定的情況下,模型的復(fù)雜性越高,就會(huì)有越多的參數(shù),訓(xùn)練出的模型越容易產(chǎn)生過擬合的現(xiàn)象。為了避免過擬合,在本文的模型中使用Gal 等[25]所描述的Dropout 機(jī)制,通過Dropout提高了模型的泛化能力。定義為

        其中,zl在l層上跨時(shí)間步共享,以免沿序列放大噪聲。

        3.4 謂語中心詞的唯一性

        通常,識(shí)別任務(wù)是給定一個(gè)句子作為輸入預(yù)測(cè)一個(gè)序列y,每個(gè)yi∈y都屬于一個(gè)離散的標(biāo)簽集合T。句子中包含的謂語中心詞用標(biāo)簽{B,I}表示,其中謂語中心詞的開始用標(biāo)簽B標(biāo)記,其余部分用標(biāo)簽I標(biāo)記。為了避免在單個(gè)句子中謂語中心詞數(shù)量大于一個(gè)的現(xiàn)象,本文在模型全連接層之后使用Softmax 層進(jìn)行歸一化處理,并通過約束層對(duì)謂語中心詞的輸出路徑進(jìn)行約束。對(duì)于每一個(gè)句子,預(yù)測(cè)它的謂語中心詞結(jié)構(gòu),在所有可能的解空間Y中找到得分最高的標(biāo)簽序列。其約束函數(shù)定義為

        其中,y∈Y,得分函數(shù)f(y)的輸入條件為。為了加入額外的信息,比如,結(jié)構(gòu)一致性、語法輸入等,在實(shí)驗(yàn)中利用懲罰項(xiàng)來增加得分函數(shù),即

        其中,給定輸入w和長(zhǎng)度t的前綴y1:t,每個(gè)函數(shù)c都應(yīng)用非負(fù)懲罰。

        4 實(shí)驗(yàn)

        4.1 數(shù)據(jù)集

        本文的實(shí)驗(yàn)使用漢語謂語中心詞數(shù)據(jù)集。該數(shù)據(jù)來源于“中國裁判文書網(wǎng)”中的762 篇法院刑事判決書。與李婷等[26]的標(biāo)注規(guī)范相同,在標(biāo)注規(guī)范中,把謂語中心詞分為以下幾種模式。

        模式1單個(gè)謂語中心詞

        由于漢語單詞之間沒有分隔符,在詞的劃分上存在歧義,因此本文的單個(gè)謂語中心詞,以詞典的收錄為準(zhǔn)。例如,“取得”在字典中被收錄為詞,“取出”卻沒有。那么只有“取得”屬于模式1,標(biāo)注為單個(gè)謂語中心詞。

        模式2復(fù)合結(jié)構(gòu)的謂語中心詞

        漢語句子結(jié)構(gòu)中經(jīng)常使用重復(fù)的表達(dá)式來構(gòu)成復(fù)合結(jié)構(gòu)的詞,如“跑一跑”“洗洗手”等。

        模式3同義并列的謂語中心詞

        同義動(dòng)詞通常同時(shí)使用來作為謂語中心詞,如“驅(qū)車/行駛”“開發(fā)/建設(shè)”“抓捕/歸案”等。此外,連續(xù)的動(dòng)詞表達(dá)相反的語義,但屬于偏正關(guān)系的,如“進(jìn)進(jìn)出出”也被標(biāo)記為一個(gè)謂語中心詞。

        模式4帶修飾或帶補(bǔ)語的謂語中心詞

        當(dāng)句子中的動(dòng)詞帶有時(shí)態(tài)標(biāo)記、補(bǔ)語或修飾符時(shí),將謂語中心詞標(biāo)注在括號(hào)中,如“王某取出一把尖刀”,標(biāo)記為“王某[(取)出]一把尖刀”。

        模式5其他特殊表達(dá)的謂語中心詞

        當(dāng)句子中存在名詞做動(dòng)詞、形容詞做動(dòng)詞,以及諺語和成語或典故等時(shí),如“張某[心生不滿]”,成語“心生不滿”如果切分,則會(huì)引起歧義,所以單獨(dú)標(biāo)為謂語中心詞。該模式還可以用于處理主語?謂語從句,其形式為名詞(代詞)+動(dòng)詞(形容詞)。例如,“我[開心]”等。

        通過上述5 種標(biāo)注模式,本文共標(biāo)注7 022 條句子,標(biāo)記7 022 個(gè)謂語中心詞,其中,模式1 有4 959 個(gè),模式2 有24 個(gè),模式3 有272 個(gè),模式4 有1 651 個(gè),模式5 有116 個(gè)。

        4.2 實(shí)驗(yàn)參數(shù)設(shè)置

        本文的模型由8 個(gè)LSTM 層(4 個(gè)正向LSTM層和4 個(gè)反向LSTM 層)和一個(gè)用于預(yù)測(cè)輸出分布的Softmax 層組成,層與層之間使用Highway 連接。根據(jù)文獻(xiàn)[27],本文模型中所有權(quán)重矩陣都用隨機(jī)標(biāo)準(zhǔn)正交矩陣初始化。模型參數(shù)設(shè)置如表1 所示。

        表1 參數(shù)設(shè)置

        在實(shí)驗(yàn)訓(xùn)練階段使用了預(yù)訓(xùn)練的漢語維基百科字向量字嵌入初始化,每個(gè)字經(jīng)過預(yù)訓(xùn)練后的維度都是100 維,并且在訓(xùn)練期間進(jìn)行更新。維基百科未覆蓋的字將替換為隨機(jī)初始化的嵌入。實(shí)驗(yàn)設(shè)置每次輸入模型的最大句長(zhǎng)為128,即上下文標(biāo)記維度。LSTM 隱含層維度設(shè)置為100,表示用于記憶和存儲(chǔ)過去狀態(tài)的節(jié)點(diǎn)個(gè)數(shù)。Batchsize 大小為20,其含義是每個(gè)批次將20 個(gè)句子輸入到模型中進(jìn)行訓(xùn)練,完成一次參數(shù)計(jì)算和更新。在訓(xùn)練模型時(shí),如果學(xué)習(xí)率設(shè)置過小,模型的收斂將變得十分緩慢;如果學(xué)習(xí)率設(shè)置過大,模型可能在最小值附近振蕩,甚至無法收斂。經(jīng)過實(shí)驗(yàn)對(duì)比,學(xué)習(xí)率設(shè)置為0.001 時(shí),模型可以快速收斂。為了防止模型過擬合,本文使用了Dropout 機(jī)制,設(shè)置Dropoutrate 取值區(qū)間為[0,1]。經(jīng)過實(shí)驗(yàn)對(duì)比,當(dāng)Dropoutrate=0.2 時(shí),實(shí)驗(yàn)結(jié)果最優(yōu)。在訓(xùn)練階段使用的優(yōu)化器是 AdaDelta[28],其中rho=0.95,epsilon=1×10?6。所有的模型都經(jīng)過100 次訓(xùn)練,并根據(jù)驗(yàn)證集結(jié)果停止。實(shí)驗(yàn)結(jié)果如表2 所示。

        從表 2 的實(shí)驗(yàn)結(jié)果可以看出,Highway+BiLSTM+Softmax 模型取得了最好的效果。第一組實(shí)驗(yàn)使用的是傳統(tǒng)的序列標(biāo)注模型CRF。CRF 通過特征模板掃描整個(gè)句子,它更多考慮的是整個(gè)句子局部特征的線性加權(quán)組合。CRF 計(jì)算的是一種聯(lián)合概率,優(yōu)化的是整個(gè)序列,而不是將每個(gè)時(shí)刻的最優(yōu)結(jié)果拼接起來。第二組實(shí)驗(yàn)加入了BiLSTM,BiLSTM 的優(yōu)勢(shì)是可以同時(shí)捕捉正反2 個(gè)方向的長(zhǎng)距離信息,建模上下文的依賴關(guān)系。通過實(shí)驗(yàn)對(duì)比可以看到,BiLSTM 在CRF 的基礎(chǔ)上有了較大的提升。但是BiLSTM 只能學(xué)習(xí)到某個(gè)特定維度的特征。第三組實(shí)驗(yàn)是李婷等[26]最近的工作,在第二組實(shí)驗(yàn)的基礎(chǔ)上加入了Attention 機(jī)制,Attention 機(jī)制可以獲取全局與局部的聯(lián)系,不會(huì)像RNN 模型那樣對(duì)長(zhǎng)期依賴的捕捉受到序列長(zhǎng)度的影響。在謂語中心詞約束部分,文獻(xiàn)[26]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)序列標(biāo)注結(jié)果進(jìn)行二分類,得到最終的識(shí)別結(jié)果。第三組實(shí)驗(yàn)使用了多層BiLSTM 疊加獲取句子的全局信息,其中層與層之間使用殘差模塊連接[29],性能較第二組實(shí)驗(yàn)有近3%的提升。第四組實(shí)驗(yàn)中在使用多層BiLSTM 模型堆疊的同時(shí),利用Highway 連接來緩解梯度消失的問題。通過實(shí)驗(yàn)結(jié)果可以看出,Highway 連接比殘差模塊有1%的性能提升。與文獻(xiàn)[26]所做的工作相比,本文的模型是端到端的,不需要分步實(shí)驗(yàn)就能得到最終的序列標(biāo)注結(jié)果。

        表2 實(shí)驗(yàn)結(jié)果

        4.3 實(shí)驗(yàn)結(jié)果分析

        4.3.1 句子長(zhǎng)度對(duì)預(yù)測(cè)結(jié)果的影響

        本文在實(shí)驗(yàn)中比較了不同的句子長(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響,如表3 所示。隨著句子長(zhǎng)度的增加,準(zhǔn)確率、召回率、F值均呈下降趨勢(shì)。這也充分說明了模型在長(zhǎng)距離語義依賴中的表現(xiàn)略差,長(zhǎng)距離語義建模成為限制模型性能的一大因素。

        表3 不同句長(zhǎng)下的實(shí)驗(yàn)結(jié)果

        4.3.2 詞向量分析

        本文使用漢語維基百科語料為預(yù)訓(xùn)練詞向量,得到約38 萬個(gè)字的字向量,可以覆蓋99%的訓(xùn)練集和驗(yàn)證集。在查找表中不能找到的詞被映射為字符,采用[ ?0.05,0.05]的均勻分布隨機(jī)化。與隨機(jī)初始化相比,使用大規(guī)模語料預(yù)訓(xùn)練詞向量后F值從79.436%提升至80.424%,如表4 所示。

        表4 不同詞向量的實(shí)驗(yàn)結(jié)果

        如圖3 所示,采用不同的詞向量后F值隨著迭代次數(shù)的增加而上升,在每一輪迭代中采用預(yù)訓(xùn)練的詞向量的模型效果都優(yōu)于隨機(jī)初始化的模型。預(yù)訓(xùn)練的詞向量能夠更好地表達(dá)每個(gè)字的特征表示。

        圖3 不同詞向量對(duì)F值的影響

        4.3.3 層間連接分析

        本節(jié)實(shí)驗(yàn)選取Wiki-100 initialized 詞向量的模型進(jìn)行實(shí)驗(yàn),對(duì)比了無連接、殘差連接與Highway連接的表現(xiàn),如表5 所示。

        表5 有無Highway 連接的實(shí)驗(yàn)結(jié)果

        Highway 連接與殘差連接具有一個(gè)相同的特性,即過shortcut 機(jī)制來實(shí)現(xiàn)深度網(wǎng)絡(luò)的訓(xùn)練。從表5 可以看出,Highway 連接有更好的表現(xiàn),其原因是Highway連接比殘差連接對(duì)跳轉(zhuǎn)連接有更多的控制,Highway 連接啟發(fā)于LSTM 的門控機(jī)制,它的轉(zhuǎn)換門和進(jìn)位門門控結(jié)構(gòu)允許信息在跳轉(zhuǎn)層和使用之間有一個(gè)學(xué)習(xí)的平衡。通過實(shí)驗(yàn)結(jié)果可以看出,Highway 連接比殘差連接有1%的性能提升。

        通過Highway連接可以緩解訓(xùn)練深層模型時(shí)梯度消失的情況,同時(shí)說明Highway 連接在本文模型中是有效的。為了進(jìn)一步說明Highway 連接對(duì)深層模型的重要性,本文在實(shí)驗(yàn)中改變了層與層之間的連接方式,使用殘差連接代替Highway 連接。如圖4所示,當(dāng)?shù)螖?shù)不斷增加時(shí),使用殘差連接的模型準(zhǔn)確率會(huì)先上升然后達(dá)到飽和,迭代次數(shù)繼續(xù)增加準(zhǔn)確率會(huì)下降,而使用Highway 連接的模型準(zhǔn)確率隨著迭代次數(shù)的增加而不斷上升,最終在100 次迭代后達(dá)到飽和。

        圖4 不同層連接方式對(duì)F值的影響

        4.3.4 比較層數(shù)對(duì)模型性能的影響

        本節(jié)選取了Wiki-100 詞向量的模型進(jìn)行實(shí)驗(yàn),探究模型層數(shù)對(duì)模型性能的影響。在使用4 層的BiLSTM 疊加后實(shí)驗(yàn)效果達(dá)到最佳。如表6所示,4 層模型比2 層模型提升了近1.3%的F值。從實(shí)驗(yàn)結(jié)果可以看出,深層神經(jīng)網(wǎng)絡(luò)的特征提取能力更強(qiáng),在序列標(biāo)注任務(wù)上優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。

        表6 不同層數(shù)在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果

        如圖5 所示,不同層數(shù)的模型訓(xùn)練時(shí)的損失值下降速率也不同。從圖5 可以看出,設(shè)置模型層數(shù)為4 層時(shí)收斂速度達(dá)到最快。

        圖5 不同層數(shù)對(duì)訓(xùn)練集損失的影響

        5 結(jié)束語

        本文針對(duì)漢語謂語中心詞進(jìn)行識(shí)別研究,使用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)句子進(jìn)行建模,在漢語謂語中心詞數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),F(xiàn)值達(dá)到80.424%,并且通過輸出路徑的約束解決了中心詞的唯一性問題。在未來的研究中,需要利用更深層的神經(jīng)網(wǎng)絡(luò)模型來獲取句子的結(jié)構(gòu)信息,以進(jìn)一步提升識(shí)別性能。此外,下一階段工作將研究模型與輸出路徑間的高階依賴問題,通過在神經(jīng)網(wǎng)絡(luò)模型中加入全局約束條件以及構(gòu)建知識(shí)庫規(guī)則,使模型在訓(xùn)練過程中能夠自動(dòng)學(xué)習(xí)句子的結(jié)構(gòu)特點(diǎn),以支撐與謂語中心詞相關(guān)的研究工作。

        猜你喜歡
        中心詞謂語語義
        非謂語動(dòng)詞
        非謂語動(dòng)詞
        Why I ride
        語言與語義
        非謂語動(dòng)詞題不難答 石娟
        同位語從句與中心詞的句法關(guān)系
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        非謂語動(dòng)詞
        準(zhǔn)確把握“中心詞”輕松突破高考英語閱讀理解題
        考試周刊(2013年89期)2013-04-29 00:44:03
        免费视频成人 国产精品网站| 青青手机在线观看视频| 午夜成人理论福利片| 国产精品麻豆成人av电影艾秋| 麻豆国产乱人伦精品一区二区| 激情网色图区蜜桃av| 日本熟妇另类一区二区三区| 无码人妻精品一区二区| 欧美老熟妇又粗又大| 国产人妖一区二区av| 国语对白福利在线观看| 99国产精品无码| 国产精品乱一区二区三区| 久久天堂精品一区专区av| 色婷婷av一区二区三区久久| 久热这里只有精品视频6| 91视频爱爱| 亚洲熟女天堂av一区二区三区| 熟女无套高潮内谢吼叫免费| 天天干夜夜操| 国产人禽杂交18禁网站| 天堂网日韩av在线播放一区| 人人妻人人狠人人爽天天综合网| 国产成人午夜精品免费视频| av网站可以直接看的| 精品国产一区二区三区不卡在线| 另类老妇奶性生bbwbbw| 亚洲精品一二区| 亚洲国产成人久久精品美女av| 精品国产偷窥一区二区| 香蕉人妻av久久久久天天| 国产黄片一区视频在线观看| 在线视频色系中文字幕| 国语对白嫖老妇胖老太| 国产精品自产拍在线18禁| 亚洲天堂线上免费av| 欧美黑人又粗又大xxxx| 国产激情з∠视频一区二区| 加勒比东京热综合久久| 国产亚洲av看码精品永久| 精品国模一区二区三区|