亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Highway-BiLSTM網(wǎng)絡(luò)的漢語謂語中心詞識(shí)別研究

2021-02-28 04:46:10黃瑞章靳文繁陳艷平秦永彬鄭慶華

通信學(xué)報(bào) 2021年1期

黃瑞章，靳文繁，陳艷平，秦永彬，鄭慶華

（1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽 550025；2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室，貴州貴陽 550025；3.西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，陜西西安 710049）

1 引言

謂語中心詞是句子的焦點(diǎn)，是支配和關(guān)聯(lián)句子其他語法成分的關(guān)鍵語法單元。在以謂語為中心的句法成分分析中，需要根據(jù)謂語中心詞來解析句子結(jié)構(gòu)。識(shí)別謂語中心詞是正確理解句子的前提。正確識(shí)別謂語中心詞可以解析句子結(jié)構(gòu)、獲取句子的語義信息，進(jìn)一步支撐淺層句法分析的研究，從而支撐機(jī)器翻譯、信息檢索、情感分析等自然語言處理應(yīng)用。

一個(gè)動(dòng)詞在句子中是否是謂語中心詞既與它本身的語法屬性有關(guān)，也與它的上下文環(huán)境有關(guān)。動(dòng)詞本身的語法屬性稱為靜態(tài)特征，與識(shí)別謂語中心詞有關(guān)的上下文環(huán)境稱為動(dòng)態(tài)特征。由于漢語句子結(jié)構(gòu)松散，傳統(tǒng)觀點(diǎn)認(rèn)為漢語句子沒有形式上的謂語中心詞。

此外，謂語中心詞的識(shí)別還需要克服以下幾個(gè)問題。1) 漢語是一種古老的象形文字，缺少分詞信息。比如，《現(xiàn)代漢語規(guī)范詞典》沒有收錄“撞向”為動(dòng)詞，但收錄了“通向”“流向”等詞為動(dòng)詞。類似的情況有“下雨”被收錄為詞，而“下雪”沒有。無法正確分詞給謂語中心詞的識(shí)別帶來困難。2) 漢語句子結(jié)構(gòu)松散。漢語句子通常包含幾個(gè)動(dòng)詞，它們中的每一個(gè)都可以作為謂語中心詞或狀語短語來處理，很難識(shí)別句子中單詞之間的依賴關(guān)系。3) 漢語單詞中的兼義現(xiàn)象非常嚴(yán)重，存在很多名詞、形容詞動(dòng)詞化的用法，但沒有形態(tài)特征來表示它們的動(dòng)詞用法，使區(qū)分它們之間的句法作用變得困難。4) 謂語中心詞是句子的中心，識(shí)別謂語中心詞需要對(duì)句子的高階依賴關(guān)系進(jìn)行建模。當(dāng)前的序列模型難以捕獲句子中的高階依賴關(guān)系。在漢語謂語中心詞識(shí)別方面，現(xiàn)有的序列標(biāo)注模型還存在不足之處。例如長(zhǎng)短時(shí)記憶（LSTM,long-short term memory）模型理論上能記憶長(zhǎng)距離信息，但是在實(shí)際使用中，LSTM 對(duì)長(zhǎng)實(shí)體的識(shí)別性能較低。

本文主要的研究工作如下。

1) 針對(duì)漢語謂語中心詞的特點(diǎn)，提出了一種基于深層雙向長(zhǎng)短時(shí)記憶（BiLSTM,bi-directional LSTM）的漢語謂語中心詞識(shí)別模型。該模型利用4 層BiLSTM 結(jié)構(gòu)獲取句子的抽象語義特征和上下文語義依賴關(guān)系。與傳統(tǒng)序列標(biāo)注模型相比，深層BiLSTM模型能更好地獲取句子內(nèi)部不同粒度抽象語義信息，在漢語謂語中心詞數(shù)據(jù)集上有更好的表現(xiàn)。

2) 利用Highway 連接緩解深層模型的梯度消失的問題。隨著深度網(wǎng)絡(luò)層數(shù)的不斷增加，輸入信息在通過網(wǎng)絡(luò)層到達(dá)網(wǎng)絡(luò)的末端時(shí)，可能出現(xiàn)梯度消失的情況。本文通過Highway 網(wǎng)絡(luò)的引入有效地緩解了訓(xùn)練深層模型時(shí)梯度消失的情況。

3) 漢語謂語中心詞的唯一性問題。單個(gè)句子中通常只有一個(gè)謂語中心詞，但可以有多個(gè)動(dòng)詞。為了解決這個(gè)問題，本文在模型的輸出中加入約束層，通過約束函數(shù)對(duì)輸出路徑進(jìn)行約束，確保謂語中心詞的輸出唯一性。

2 相關(guān)工作

謂語中心詞在句中起到組織句法或者語義信息的中心作用，如主語、時(shí)間、原因和形式等。識(shí)別謂語中心詞是理解句子的關(guān)鍵。然而，在漢語自然語言處理領(lǐng)域，關(guān)于謂語中心詞識(shí)別的研究工作卻很少?，F(xiàn)有工作主要采用基于規(guī)則的方法、基于統(tǒng)計(jì)學(xué)習(xí)的方法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。

在基于規(guī)則的方法中，Luo 等[1]從各種詞性的詞作為謂語時(shí)的語法特點(diǎn)出發(fā)，討論謂語的識(shí)別策略，通過規(guī)則的方法來判別和確定句子的中心謂語及其相應(yīng)邊界。Li 等[2]提出了一種利用句子的主語和謂語之間的句法關(guān)系來識(shí)別謂語中心詞的方法。該方法除了利用謂語中心詞候選項(xiàng)的靜態(tài)語法特征和動(dòng)態(tài)語法特征外，還加入了對(duì)規(guī)則間相互影響的考慮，較之前的方法從更高的句法層次上進(jìn)行了分析。但是特征的應(yīng)用過程相對(duì)復(fù)雜，計(jì)算量較大，對(duì)于一些特殊的句型可能產(chǎn)生錯(cuò)誤的結(jié)果。Sui 等[3-4]出了一種折中的漢語句子分析方法——骨架依存分析法，利用句子級(jí)對(duì)齊的雙語語料庫中英漢謂語中心詞的對(duì)應(yīng)來尋找漢語句子的謂語中心詞。但是其僅對(duì)例句集中的漢語單句識(shí)別了謂語中心詞，沒有從大規(guī)模已標(biāo)注的謂語中心詞的漢語例句中實(shí)現(xiàn)謂語中心詞自動(dòng)抽取。

在基于統(tǒng)計(jì)學(xué)習(xí)的方法中，陳小荷等[5]采用統(tǒng)計(jì)的方法對(duì)50 萬字的語料庫識(shí)別了核心謂語。Wang 等[6]組合謂語動(dòng)詞的多個(gè)特征，并使用最大熵分類器對(duì)謂語中心詞進(jìn)行自動(dòng)識(shí)別。諶志群[7]提出了一種基于統(tǒng)計(jì)學(xué)原理的漢語句子謂語自動(dòng)識(shí)別概率模型，通過對(duì)語料庫中句子的謂語所處上下文環(huán)境的細(xì)致分析，選擇影響謂語出現(xiàn)的語境特征，在此基礎(chǔ)上通過構(gòu)建統(tǒng)計(jì)模型來計(jì)算謂語出現(xiàn)的概率，識(shí)別漢語句子的謂語。

在規(guī)則與統(tǒng)計(jì)學(xué)習(xí)相結(jié)合的方法中，Gong 等[8]將整個(gè)謂語識(shí)別的過程分為語片捆綁、謂語粗篩選和謂語精篩選3 個(gè)階段。首先，在識(shí)別之前加入語片捆綁的預(yù)處理工作，有效排除了一些準(zhǔn)謂語；然后，用規(guī)則的方法進(jìn)行粗篩選，降低了精篩選的復(fù)雜度；最后，利用特征學(xué)習(xí)的方法進(jìn)行謂語精篩選，有效解決了規(guī)則的不完備和特征重要度排序的問題。但是，該方法還存在一些謂語誤識(shí)的情況，對(duì)于復(fù)雜結(jié)構(gòu)的漢語句子不能完全正確識(shí)別。另外，Han 等[9]提出一種融合詞法與句法特征、結(jié)合C4.5機(jī)器學(xué)習(xí)和規(guī)則進(jìn)行謂語識(shí)別的方法。該方法表明句法特征能有效提升謂語識(shí)別效果。李琳等[10]利用大規(guī)模的藏語語料庫訓(xùn)練得到藏語詞向量，其結(jié)果表明詞向量特征可顯著提高藏語謂語動(dòng)詞短語的識(shí)別效果。目前，謂語中心詞識(shí)別的研究大部分還是使用傳統(tǒng)方法，難以建模高階依賴信息。

在漢語信息抽取領(lǐng)域，與謂語中心詞識(shí)別相關(guān)的任務(wù)還有命名實(shí)體識(shí)別和語義角色標(biāo)注。其中，命名實(shí)體識(shí)別通常采用序列標(biāo)注模型進(jìn)行識(shí)別，如隱馬爾可夫模型（HMM,hidden Markov model）[11]、條件隨機(jī)場(chǎng)（CRF,conditional random field）[12]和LSTM[13]。近年來，基于深度學(xué)習(xí)模型的實(shí)體識(shí)別得到了廣泛研究。比如，Li 等[14]采用雙向LSTM-CRF 結(jié)構(gòu)，在生物醫(yī)學(xué)實(shí)體識(shí)別上取得了良好的效果。與命名實(shí)體識(shí)別相比，謂語中心詞識(shí)別更強(qiáng)調(diào)謂語中心詞作為句子中心的語法功能，在識(shí)別上需要依賴句子的整體結(jié)構(gòu)和語義特征，在輸出路徑中需要保證標(biāo)注實(shí)體的單一性。

語義角色標(biāo)注（SRL,semantic role labeling）[15]是淺層語義分析中的一種主要實(shí)現(xiàn)方式。該方法主要是對(duì)給定句子中存在的每個(gè)謂語進(jìn)行分析，并標(biāo)注其相應(yīng)的語義成分。傳統(tǒng)的SRL 方法采用基于句法特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法，通常將語義角色標(biāo)注任務(wù)轉(zhuǎn)換為有監(jiān)督的分類問題，主要分為基于短語結(jié)構(gòu)句法分析以及基于依存句法分析2 種語義角色標(biāo)注方法。比如，Koomen 等[16]和Tackstrom 等[17]采用線性規(guī)劃或動(dòng)態(tài)規(guī)劃的方式獲得句子的全局約束。隨著深度學(xué)習(xí)的興起，研究者將基于BiLSTM模型用于語義角色標(biāo)注任務(wù)。比如，Zhou 等[18]使用深度BiLSTM 模型對(duì)英文語義角色標(biāo)注進(jìn)行了研究。Guo 等[19]重點(diǎn)關(guān)注句法路徑信息并使用BiLSTM 對(duì)其進(jìn)行建模，從而提高了SRL 系統(tǒng)的性能。王瑞波等[20]使用多特征融合的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來構(gòu)建漢語框架語義角色識(shí)別模型。Strubell 等[21]提出了一種基于語言信息的自我注意神經(jīng)網(wǎng)絡(luò)模型，它將多頭自我注意與多任務(wù)學(xué)習(xí)相結(jié)合，包括依賴分析、詞性標(biāo)注、謂語檢測(cè)和SRL。

3 模型構(gòu)建

本文的Highway-BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。自底向上描述如下。1)使用預(yù)訓(xùn)練的維基百科字向量將輸入的文本序列映射為向量，作為當(dāng)前詞的特征向量表示；2)經(jīng)過4 層BiLSTM[22]獲取句子內(nèi)部不同粒度抽象語義信息的直接依賴關(guān)系；3)為了防止訓(xùn)練深層BiLSTM 模型時(shí)出現(xiàn)梯度消失的問題，層與層之間使用Highway 網(wǎng)絡(luò)連接；4)通過一個(gè)Softmax 層進(jìn)行歸一化處理；5)通過約束層保證謂語中心詞的唯一性，得到最優(yōu)標(biāo)注序列。句子中包含的謂語中心詞用標(biāo)簽{B,I}表示，其中謂語中心詞的開始用標(biāo)簽B標(biāo)記，其余部分用標(biāo)簽I標(biāo)記。在模型的輸出部分，使用P表示預(yù)測(cè)的句子，模型預(yù)測(cè)出的謂語中心詞使用標(biāo)簽B-V標(biāo)記，句子中的其他成分使用標(biāo)簽O標(biāo)記。

圖1 Highway-BiLSTM 網(wǎng)絡(luò)結(jié)構(gòu)

3.1 深度雙向長(zhǎng)短時(shí)記憶模型

一方面，傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN,recurrent neural network）在處理長(zhǎng)序列數(shù)據(jù)時(shí)容易出現(xiàn)梯度消失或梯度爆炸問題。另一方面，對(duì)于基本的RNN來說，它能夠處理一定的短期依賴，但是無法處理長(zhǎng)期依賴問題。而LSTM 通過引入門結(jié)構(gòu)解決了RNN 的長(zhǎng)期依賴問題。由于漢語謂語中心詞缺少形態(tài)特征、句子結(jié)構(gòu)松散且形式多樣、單個(gè)句子可能存在多個(gè)動(dòng)詞等情況，傳統(tǒng)的序列標(biāo)注模型無法很好地建模句子的高階依賴特征，獲取句子的全局信息。針對(duì)上述問題，本文提出利用多層堆疊的BiLSTM構(gòu)建謂語中心詞識(shí)別模型。LSTM 通過3 個(gè)不同的門來調(diào)節(jié)單元狀態(tài)中的信息流，即輸入門、遺忘門、輸出門控制著信息流的更新與利用。本文設(shè)輸入的信息流為xl,t，表示第l層和t時(shí)刻到LSTM 的輸入；細(xì)胞狀態(tài)為cl,t；LSTM 在t時(shí)刻的輸出信息為hl,t；激活函數(shù)為σ；權(quán)重矩陣為W；偏置向量為b。

首先，決定從細(xì)胞狀態(tài)中丟棄什么信息。這個(gè)決策是通過一個(gè)稱為“遺忘門”的層來完成的。該門會(huì)讀取hl,t和xl,t，使用sigmoid 函數(shù)輸出一個(gè)0～1的數(shù)值，輸出狀態(tài)cl,t中每個(gè)細(xì)胞的數(shù)值，1 表示完全保留，0 表示完全舍棄。

然后，確定什么樣的新信息被存放在細(xì)胞狀態(tài)中。信息包含兩部分：一部分是sigmoid 函數(shù)，稱為“輸入門”，決定更新什么值；另一部分是tanh 函數(shù)，用于創(chuàng)建一個(gè)新的候選值向量，該向量會(huì)被加入狀態(tài)中。這樣就能用這2 個(gè)信息產(chǎn)生對(duì)狀態(tài)的更新。

最后，運(yùn)行一個(gè)sigmoid 函數(shù)來確定輸出細(xì)胞狀態(tài)的哪個(gè)部分，通過tanh 處理細(xì)胞狀態(tài)，并與sigmoid 門的輸出相乘，僅輸出確定輸出的那部分。

其中，δ l為1 或?1，表示LSTM 在第l層的方向性。在實(shí)驗(yàn)中根據(jù)Zhou 等[23]的方法以交織模式堆疊LSTM，設(shè)每層的特定輸入xl,t和方向性δl分別為

3.2 Highway 連接

本文在實(shí)驗(yàn)中使用了4 層的BiLSTM（即8 層LSTM）堆疊模型取得了較好的效果，其中一個(gè)關(guān)鍵要素是使用封閉的“Highway 連接”[23-24]。相比于RNN，LSTM 能夠在一定程度上緩解梯度消失的問題。理論和經(jīng)驗(yàn)表明，神經(jīng)網(wǎng)絡(luò)的深度是其成功的關(guān)鍵。然而，隨著網(wǎng)絡(luò)層數(shù)的不斷增加，訓(xùn)練變得更加困難，在網(wǎng)絡(luò)傳輸中會(huì)出現(xiàn)一個(gè)問題：當(dāng)輸入的信息通過許多層，到達(dá)網(wǎng)絡(luò)的末端（或起點(diǎn)）時(shí)，信息可能會(huì)“消失”。這里的“消失”實(shí)際是由于鏈?zhǔn)椒▌t下多個(gè)小于1 的數(shù)值相乘導(dǎo)致的。針對(duì)這個(gè)問題，本文使用Highway 連接各層BiLSTM，使特征信息能夠在多個(gè)層面上傳輸。Highway 網(wǎng)絡(luò)受到LSTM 網(wǎng)絡(luò)的啟發(fā)，同樣使用自適應(yīng)門控單元來調(diào)節(jié)信息流。典型的神經(jīng)網(wǎng)絡(luò)是一個(gè)仿射變換加一個(gè)非線性函數(shù)，即y=H(x,WH)。在深層模型的層間連接中，為每一個(gè)層的輸出添加轉(zhuǎn)換門和進(jìn)位門，形成Highway 網(wǎng)絡(luò)。其定義為

Highway 網(wǎng)絡(luò)的本質(zhì)是通過shortcut 機(jī)制實(shí)現(xiàn)深層網(wǎng)絡(luò)的訓(xùn)練。如圖2 所示，shortcut 機(jī)制選擇合適的層進(jìn)行轉(zhuǎn)換，通過該機(jī)制可以使信息在許多層之間流動(dòng)而不會(huì)衰減，即使在深層模型中，使用Highway 連接也可以通過簡(jiǎn)單的梯度下降直接進(jìn)行訓(xùn)練。本文實(shí)驗(yàn)通過轉(zhuǎn)換門rt來控制層與層之間線性和非線性變換的權(quán)重。

圖2 Highway 連接

最后，輸出hl,t改為

3.3 Dropout 機(jī)制

在訓(xùn)練樣本一定的情況下，模型的復(fù)雜性越高，就會(huì)有越多的參數(shù)，訓(xùn)練出的模型越容易產(chǎn)生過擬合的現(xiàn)象。為了避免過擬合，在本文的模型中使用Gal 等[25]所描述的Dropout 機(jī)制，通過Dropout提高了模型的泛化能力。定義為

其中，zl在l層上跨時(shí)間步共享，以免沿序列放大噪聲。

3.4 謂語中心詞的唯一性

通常，識(shí)別任務(wù)是給定一個(gè)句子作為輸入預(yù)測(cè)一個(gè)序列y，每個(gè)yi∈y都屬于一個(gè)離散的標(biāo)簽集合T。句子中包含的謂語中心詞用標(biāo)簽{B,I}表示，其中謂語中心詞的開始用標(biāo)簽B標(biāo)記，其余部分用標(biāo)簽I標(biāo)記。為了避免在單個(gè)句子中謂語中心詞數(shù)量大于一個(gè)的現(xiàn)象，本文在模型全連接層之后使用Softmax 層進(jìn)行歸一化處理，并通過約束層對(duì)謂語中心詞的輸出路徑進(jìn)行約束。對(duì)于每一個(gè)句子，預(yù)測(cè)它的謂語中心詞結(jié)構(gòu)，在所有可能的解空間Y中找到得分最高的標(biāo)簽序列。其約束函數(shù)定義為

其中，y∈Y，得分函數(shù)f(y)的輸入條件為。為了加入額外的信息，比如，結(jié)構(gòu)一致性、語法輸入等，在實(shí)驗(yàn)中利用懲罰項(xiàng)來增加得分函數(shù)，即

其中，給定輸入w和長(zhǎng)度t的前綴y1:t，每個(gè)函數(shù)c都應(yīng)用非負(fù)懲罰。

4 實(shí)驗(yàn)

4.1 數(shù)據(jù)集

本文的實(shí)驗(yàn)使用漢語謂語中心詞數(shù)據(jù)集。該數(shù)據(jù)來源于“中國裁判文書網(wǎng)”中的762 篇法院刑事判決書。與李婷等[26]的標(biāo)注規(guī)范相同，在標(biāo)注規(guī)范中，把謂語中心詞分為以下幾種模式。

模式1單個(gè)謂語中心詞

由于漢語單詞之間沒有分隔符，在詞的劃分上存在歧義，因此本文的單個(gè)謂語中心詞，以詞典的收錄為準(zhǔn)。例如，“取得”在字典中被收錄為詞，“取出”卻沒有。那么只有“取得”屬于模式1，標(biāo)注為單個(gè)謂語中心詞。

模式2復(fù)合結(jié)構(gòu)的謂語中心詞

漢語句子結(jié)構(gòu)中經(jīng)常使用重復(fù)的表達(dá)式來構(gòu)成復(fù)合結(jié)構(gòu)的詞，如“跑一跑”“洗洗手”等。

模式3同義并列的謂語中心詞

同義動(dòng)詞通常同時(shí)使用來作為謂語中心詞，如“驅(qū)車/行駛”“開發(fā)/建設(shè)”“抓捕/歸案”等。此外，連續(xù)的動(dòng)詞表達(dá)相反的語義，但屬于偏正關(guān)系的，如“進(jìn)進(jìn)出出”也被標(biāo)記為一個(gè)謂語中心詞。

模式4帶修飾或帶補(bǔ)語的謂語中心詞

當(dāng)句子中的動(dòng)詞帶有時(shí)態(tài)標(biāo)記、補(bǔ)語或修飾符時(shí)，將謂語中心詞標(biāo)注在括號(hào)中，如“王某取出一把尖刀”，標(biāo)記為“王某[(取)出]一把尖刀”。

模式5其他特殊表達(dá)的謂語中心詞

當(dāng)句子中存在名詞做動(dòng)詞、形容詞做動(dòng)詞，以及諺語和成語或典故等時(shí)，如“張某[心生不滿]”,成語“心生不滿”如果切分，則會(huì)引起歧義，所以單獨(dú)標(biāo)為謂語中心詞。該模式還可以用于處理主語?謂語從句，其形式為名詞（代詞）+動(dòng)詞（形容詞）。例如，“我[開心]”等。

通過上述5 種標(biāo)注模式，本文共標(biāo)注7 022 條句子，標(biāo)記7 022 個(gè)謂語中心詞，其中，模式1 有4 959 個(gè)，模式2 有24 個(gè)，模式3 有272 個(gè)，模式4 有1 651 個(gè)，模式5 有116 個(gè)。

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文的模型由8 個(gè)LSTM 層（4 個(gè)正向LSTM層和4 個(gè)反向LSTM 層）和一個(gè)用于預(yù)測(cè)輸出分布的Softmax 層組成，層與層之間使用Highway 連接。根據(jù)文獻(xiàn)[27]，本文模型中所有權(quán)重矩陣都用隨機(jī)標(biāo)準(zhǔn)正交矩陣初始化。模型參數(shù)設(shè)置如表1 所示。

表1 參數(shù)設(shè)置

在實(shí)驗(yàn)訓(xùn)練階段使用了預(yù)訓(xùn)練的漢語維基百科字向量字嵌入初始化，每個(gè)字經(jīng)過預(yù)訓(xùn)練后的維度都是100 維，并且在訓(xùn)練期間進(jìn)行更新。維基百科未覆蓋的字將替換為隨機(jī)初始化的嵌入。實(shí)驗(yàn)設(shè)置每次輸入模型的最大句長(zhǎng)為128，即上下文標(biāo)記維度。LSTM 隱含層維度設(shè)置為100，表示用于記憶和存儲(chǔ)過去狀態(tài)的節(jié)點(diǎn)個(gè)數(shù)。Batchsize 大小為20，其含義是每個(gè)批次將20 個(gè)句子輸入到模型中進(jìn)行訓(xùn)練，完成一次參數(shù)計(jì)算和更新。在訓(xùn)練模型時(shí)，如果學(xué)習(xí)率設(shè)置過小，模型的收斂將變得十分緩慢；如果學(xué)習(xí)率設(shè)置過大，模型可能在最小值附近振蕩，甚至無法收斂。經(jīng)過實(shí)驗(yàn)對(duì)比，學(xué)習(xí)率設(shè)置為0.001 時(shí)，模型可以快速收斂。為了防止模型過擬合，本文使用了Dropout 機(jī)制，設(shè)置Dropoutrate 取值區(qū)間為[0,1]。經(jīng)過實(shí)驗(yàn)對(duì)比，當(dāng)Dropoutrate=0.2 時(shí)，實(shí)驗(yàn)結(jié)果最優(yōu)。在訓(xùn)練階段使用的優(yōu)化器是 AdaDelta[28]，其中rho=0.95，epsilon=1×10?6。所有的模型都經(jīng)過100 次訓(xùn)練，并根據(jù)驗(yàn)證集結(jié)果停止。實(shí)驗(yàn)結(jié)果如表2 所示。

從表 2 的實(shí)驗(yàn)結(jié)果可以看出，Highway+BiLSTM+Softmax 模型取得了最好的效果。第一組實(shí)驗(yàn)使用的是傳統(tǒng)的序列標(biāo)注模型CRF。CRF 通過特征模板掃描整個(gè)句子，它更多考慮的是整個(gè)句子局部特征的線性加權(quán)組合。CRF 計(jì)算的是一種聯(lián)合概率，優(yōu)化的是整個(gè)序列，而不是將每個(gè)時(shí)刻的最優(yōu)結(jié)果拼接起來。第二組實(shí)驗(yàn)加入了BiLSTM，BiLSTM 的優(yōu)勢(shì)是可以同時(shí)捕捉正反2 個(gè)方向的長(zhǎng)距離信息，建模上下文的依賴關(guān)系。通過實(shí)驗(yàn)對(duì)比可以看到，BiLSTM 在CRF 的基礎(chǔ)上有了較大的提升。但是BiLSTM 只能學(xué)習(xí)到某個(gè)特定維度的特征。第三組實(shí)驗(yàn)是李婷等[26]最近的工作，在第二組實(shí)驗(yàn)的基礎(chǔ)上加入了Attention 機(jī)制，Attention 機(jī)制可以獲取全局與局部的聯(lián)系，不會(huì)像RNN 模型那樣對(duì)長(zhǎng)期依賴的捕捉受到序列長(zhǎng)度的影響。在謂語中心詞約束部分，文獻(xiàn)[26]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)序列標(biāo)注結(jié)果進(jìn)行二分類，得到最終的識(shí)別結(jié)果。第三組實(shí)驗(yàn)使用了多層BiLSTM 疊加獲取句子的全局信息，其中層與層之間使用殘差模塊連接[29]，性能較第二組實(shí)驗(yàn)有近3%的提升。第四組實(shí)驗(yàn)中在使用多層BiLSTM 模型堆疊的同時(shí)，利用Highway 連接來緩解梯度消失的問題。通過實(shí)驗(yàn)結(jié)果可以看出，Highway 連接比殘差模塊有1%的性能提升。與文獻(xiàn)[26]所做的工作相比，本文的模型是端到端的，不需要分步實(shí)驗(yàn)就能得到最終的序列標(biāo)注結(jié)果。

表2 實(shí)驗(yàn)結(jié)果

4.3 實(shí)驗(yàn)結(jié)果分析

4.3.1 句子長(zhǎng)度對(duì)預(yù)測(cè)結(jié)果的影響

本文在實(shí)驗(yàn)中比較了不同的句子長(zhǎng)度對(duì)實(shí)驗(yàn)結(jié)果的影響，如表3 所示。隨著句子長(zhǎng)度的增加，準(zhǔn)確率、召回率、F值均呈下降趨勢(shì)。這也充分說明了模型在長(zhǎng)距離語義依賴中的表現(xiàn)略差，長(zhǎng)距離語義建模成為限制模型性能的一大因素。

表3 不同句長(zhǎng)下的實(shí)驗(yàn)結(jié)果

4.3.2 詞向量分析

本文使用漢語維基百科語料為預(yù)訓(xùn)練詞向量，得到約38 萬個(gè)字的字向量，可以覆蓋99%的訓(xùn)練集和驗(yàn)證集。在查找表中不能找到的詞被映射為字符，采用[ ?0.05,0.05]的均勻分布隨機(jī)化。與隨機(jī)初始化相比，使用大規(guī)模語料預(yù)訓(xùn)練詞向量后F值從79.436%提升至80.424%，如表4 所示。

表4 不同詞向量的實(shí)驗(yàn)結(jié)果

如圖3 所示，采用不同的詞向量后F值隨著迭代次數(shù)的增加而上升，在每一輪迭代中采用預(yù)訓(xùn)練的詞向量的模型效果都優(yōu)于隨機(jī)初始化的模型。預(yù)訓(xùn)練的詞向量能夠更好地表達(dá)每個(gè)字的特征表示。

圖3 不同詞向量對(duì)F值的影響

4.3.3 層間連接分析

本節(jié)實(shí)驗(yàn)選取Wiki-100 initialized 詞向量的模型進(jìn)行實(shí)驗(yàn)，對(duì)比了無連接、殘差連接與Highway連接的表現(xiàn)，如表5 所示。

表5 有無Highway 連接的實(shí)驗(yàn)結(jié)果

Highway 連接與殘差連接具有一個(gè)相同的特性，即過shortcut 機(jī)制來實(shí)現(xiàn)深度網(wǎng)絡(luò)的訓(xùn)練。從表5 可以看出，Highway 連接有更好的表現(xiàn)，其原因是Highway連接比殘差連接對(duì)跳轉(zhuǎn)連接有更多的控制，Highway 連接啟發(fā)于LSTM 的門控機(jī)制，它的轉(zhuǎn)換門和進(jìn)位門門控結(jié)構(gòu)允許信息在跳轉(zhuǎn)層和使用之間有一個(gè)學(xué)習(xí)的平衡。通過實(shí)驗(yàn)結(jié)果可以看出，Highway 連接比殘差連接有1%的性能提升。

通過Highway連接可以緩解訓(xùn)練深層模型時(shí)梯度消失的情況，同時(shí)說明Highway 連接在本文模型中是有效的。為了進(jìn)一步說明Highway 連接對(duì)深層模型的重要性，本文在實(shí)驗(yàn)中改變了層與層之間的連接方式，使用殘差連接代替Highway 連接。如圖4所示，當(dāng)?shù)螖?shù)不斷增加時(shí)，使用殘差連接的模型準(zhǔn)確率會(huì)先上升然后達(dá)到飽和，迭代次數(shù)繼續(xù)增加準(zhǔn)確率會(huì)下降，而使用Highway 連接的模型準(zhǔn)確率隨著迭代次數(shù)的增加而不斷上升，最終在100 次迭代后達(dá)到飽和。

圖4 不同層連接方式對(duì)F值的影響

4.3.4 比較層數(shù)對(duì)模型性能的影響

本節(jié)選取了Wiki-100 詞向量的模型進(jìn)行實(shí)驗(yàn)，探究模型層數(shù)對(duì)模型性能的影響。在使用4 層的BiLSTM 疊加后實(shí)驗(yàn)效果達(dá)到最佳。如表6所示，4 層模型比2 層模型提升了近1.3%的F值。從實(shí)驗(yàn)結(jié)果可以看出，深層神經(jīng)網(wǎng)絡(luò)的特征提取能力更強(qiáng)，在序列標(biāo)注任務(wù)上優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。

表6 不同層數(shù)在驗(yàn)證集上的實(shí)驗(yàn)結(jié)果

如圖5 所示，不同層數(shù)的模型訓(xùn)練時(shí)的損失值下降速率也不同。從圖5 可以看出，設(shè)置模型層數(shù)為4 層時(shí)收斂速度達(dá)到最快。

圖5 不同層數(shù)對(duì)訓(xùn)練集損失的影響

5 結(jié)束語

本文針對(duì)漢語謂語中心詞進(jìn)行識(shí)別研究，使用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)句子進(jìn)行建模，在漢語謂語中心詞數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，F(xiàn)值達(dá)到80.424%，并且通過輸出路徑的約束解決了中心詞的唯一性問題。在未來的研究中，需要利用更深層的神經(jīng)網(wǎng)絡(luò)模型來獲取句子的結(jié)構(gòu)信息，以進(jìn)一步提升識(shí)別性能。此外，下一階段工作將研究模型與輸出路徑間的高階依賴問題，通過在神經(jīng)網(wǎng)絡(luò)模型中加入全局約束條件以及構(gòu)建知識(shí)庫規(guī)則，使模型在訓(xùn)練過程中能夠自動(dòng)學(xué)習(xí)句子的結(jié)構(gòu)特點(diǎn)，以支撐與謂語中心詞相關(guān)的研究工作。