亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標(biāo)注

2018-04-16 07:24:08王明軒

中文信息學(xué)報(bào) 2018年2期

王明軒，劉群,2

(1.中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息重點(diǎn)實(shí)驗(yàn)室，北京 100190；2.ADAPT Centre,School of Computing,Dublin City University,Glasnevin,Dublin 9,Ireland.)

0　引言

語義角色標(biāo)注(SRL)是通往自然語言理解的必由之路，也是一種淺層的語義分析，其主要目標(biāo)是挖掘謂詞和論元之間的關(guān)系。語義角色表明了事件實(shí)體的基本性質(zhì)并且提供了一個(gè)中間層的語義表示，因此可以對(duì)很多自然語言處理任務(wù)起到幫助作用，比如信息抽取[1]、自動(dòng)問答[2]、機(jī)器翻譯[3]等。

一般認(rèn)為語義角色標(biāo)注任務(wù)和句法分析是相關(guān)的，傳統(tǒng)的語義角色標(biāo)注嚴(yán)重地依賴句法分析結(jié)果，這導(dǎo)致了語義角色標(biāo)注系統(tǒng)的復(fù)雜和領(lǐng)域受限性。研究人員一直在尋找簡(jiǎn)單的方法來解決這個(gè)問題。Collobert[4]等人提出了一種通用的基于卷積神經(jīng)網(wǎng)絡(luò)的框架去解決這個(gè)問題，然而他們依然需要引入句法信息，才能達(dá)到與最好模型接近的水平。Zhou[5]等人試圖構(gòu)建多層LSTM解決該問題，但是在網(wǎng)絡(luò)層數(shù)較深的情況下很難取得理想的結(jié)果。另一方面，為了提升性能，他們也引入了CRF做預(yù)測(cè)，導(dǎo)致模型并行比較困難。

在本文中，我們提出了一種深層的雙向神經(jīng)網(wǎng)絡(luò)模型，它裝備了精心設(shè)計(jì)的遞歸單元EU來做語義角色標(biāo)注，這個(gè)系統(tǒng)簡(jiǎn)稱為DBLSTM-EU。由于語言內(nèi)部存在潛在的復(fù)雜結(jié)構(gòu)，因此我們擴(kuò)展了“時(shí)間深度”的概念到“空間深度”，通過將網(wǎng)絡(luò)層層堆棧來構(gòu)造深度模型，捕捉復(fù)雜的語義結(jié)構(gòu)。然而深度網(wǎng)絡(luò)的訓(xùn)練并不是堆棧網(wǎng)絡(luò)那么簡(jiǎn)單，模型優(yōu)化隨著網(wǎng)絡(luò)層數(shù)的增加而變得復(fù)雜起來。正如Zhou[5]提到的，當(dāng)網(wǎng)絡(luò)到第六層的時(shí)候就很難觀察到性能提升了?！翱臻g深度”也面臨著梯度消失的問題，這個(gè)問題和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到長(zhǎng)的句子的時(shí)候所面臨的問題相似。

為了緩解梯度消失的問題，本文借鑒了LSTM的設(shè)計(jì)思路，提出了一個(gè)全新的“直梯”單元(EU)，混合了線性和非線性信息。通過EU，信息可以在空間和時(shí)間維度上更通暢地傳播，并且只存在比較小的信息損失。這個(gè)機(jī)制讓深度網(wǎng)絡(luò)的訓(xùn)練變得更為容易，而深度的LSTM更容易捕捉句子中潛在的復(fù)雜的內(nèi)部結(jié)構(gòu)。最重要的是EU包含了一個(gè)“門”函數(shù)，可以動(dòng)態(tài)地選擇或者忽略信息在垂直方向上的傳播，這樣不同層次的抽象表示就可以更方便地被傳遞到輸出層。

DBLSTM-EU在CoNLL-2005公開數(shù)據(jù)集上取得了F=81.56%的結(jié)果，在CoNLL-2012公開數(shù)據(jù)集上取得了F=82.53%的結(jié)果，比之前最好的結(jié)果分別提高了0.5%和1.26%，達(dá)到了目前世界上最好的性能。另外，在領(lǐng)域外的數(shù)據(jù)集上DBLSTM-EU取得了2.2%的F值顯著提升。由于該模型比較簡(jiǎn)潔，具有易于并行的特性，在單一的K40 GPU上取得了每秒11.8K單詞的解析速度，遠(yuǎn)高傳統(tǒng)的方法。

1　語義角色標(biāo)注

給定一個(gè)句子，語義角色標(biāo)注的目標(biāo)是識(shí)別所有謂詞所對(duì)應(yīng)的論元，并且給對(duì)應(yīng)的論元進(jìn)行分類，指定不同的語義角色。例如，給定輸入語句“Marry borrowed a book from John last week”，SRL的目標(biāo)就是識(shí)別不同論元與謂詞borrowed 的關(guān)系，最后產(chǎn)生下面的輸出：

[A0 Marry] [V borrowed] [A1 a book] [A2 from John] [AM-TMP last week]

這里A0代表借東西的人，A1代表被借的東西，A2代表被借東西的人，AM-TMP是介詞短語表明了動(dòng)作發(fā)生的時(shí)間，而V代表對(duì)應(yīng)的謂詞borrowed。

在傳統(tǒng)的標(biāo)注模型中，對(duì)角色的標(biāo)注通常分兩步進(jìn)行：識(shí)別和分類。識(shí)別確定了每一個(gè)論元和謂詞之間是否存在語義關(guān)系，而分類是對(duì)存在語義關(guān)系的論元指定具體的語義類別的過程。一般情況下，識(shí)別部分包含了剪枝，而分類部分包含了后處理，修正標(biāo)記的不一致性。最后會(huì)采納動(dòng)態(tài)規(guī)劃算法搜索全局最優(yōu)的標(biāo)注序列。

如圖1所示，本文提出了一種極其簡(jiǎn)單的標(biāo)記方法。首先，最原始的句子和它對(duì)應(yīng)的標(biāo)簽被映射成實(shí)數(shù)向量，也就是詞嵌入(word embedding)，這個(gè)向量作為下一層的輸入。然后，通過一個(gè)裝備了EU的深度雙向神經(jīng)網(wǎng)絡(luò)捕捉句子內(nèi)部和標(biāo)簽之間隱含的關(guān)系。圖1中，“L”和“R”分別代表了從左到右和從右到左處理句子的方向。在推斷階段，只有最頂層的隱含狀態(tài)被使用，通過邏輯線性回歸做最后的決策分類。與傳統(tǒng)的序列標(biāo)記任務(wù)不同的是，模型只輸出當(dāng)前概率最大的類別，并不需要全局搜索和剪枝。

圖1　DBLSTM示意圖

2　遞歸神經(jīng)網(wǎng)絡(luò)

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是具有遞歸連接的一類神經(jīng)網(wǎng)絡(luò)，具有部分的記憶功能，網(wǎng)絡(luò)的歷史信息通過遞歸關(guān)系傳播，這樣可以使RNN被應(yīng)用到具有任意長(zhǎng)度句子的序列預(yù)測(cè)問題上。給定輸入句子x=(x1,x2,…，xT)作為輸入，標(biāo)準(zhǔn)的RNN遞歸地執(zhí)行下面的操作并生成隱藏節(jié)點(diǎn)ht，如式(1)所示。

ht=H(Wxhxt+Whhht+bh)

(1)

其中，H是一個(gè)非線性函數(shù)，可以是簡(jiǎn)單的tanh函數(shù)，也可以是一系列非常復(fù)雜的操作，比如LSTM[6]。

由于每一個(gè)隱藏節(jié)點(diǎn)都是所有歷史隱藏節(jié)點(diǎn)的函數(shù)，RNN在時(shí)間維上具有天然的深度。傳統(tǒng)的RNN訓(xùn)練主要面臨著兩個(gè)問題。第一，RNN梯度傳遞路徑過長(zhǎng)，導(dǎo)致它比較難捕捉到長(zhǎng)距離的依賴關(guān)系。第二，在處理長(zhǎng)句子的時(shí)候，容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象。這兩個(gè)問題都被深度地探討過[6]。

3　長(zhǎng)短期記憶單元

長(zhǎng)短期記憶(LSTM)是由Hochreiter[6]等人提出來解決長(zhǎng)距離依賴和梯度消失的問題。如圖2所示，LSTM包含了記憶單元ct，輸入門it，忘記門ft和輸出門ot。其中，記憶單元儲(chǔ)存了LSTM單元的歷史信息，通過輸入門仔細(xì)地控制當(dāng)前輸入有哪部分可以被存儲(chǔ)進(jìn)來，通過忘記門控制歷史信息有多少應(yīng)該被忘記。最后，輸出門被用來決定有多少信息可以被輸出進(jìn)行決策。正式的，LSTM通過下面的方式進(jìn)行計(jì)算：

(2)

圖2　LSTM單元信息流動(dòng)圖

這里σ是sigmoid激活函數(shù)，為了方便起見，我們將公式簡(jiǎn)寫為式(3)。

[ht,ct]=LSTM(xt,ht-1,ct-1)

(3)

最近，Cho[14]等人提出了門遞歸神經(jīng)元(gated recurrent unit,GRU)中采用了自適應(yīng)的記憶和忘記策略，與LSTM取得了相當(dāng)?shù)慕Y(jié)果。

4　深度的雙向LSTM和EU

這部分我們首先討論LSTM的雙向組合方式，隨后介紹新提出的神經(jīng)元EU。

4.1　深度雙向LSTM

如圖1所示，我們提出了一個(gè)深度的雙向LSTM(DBLSTM)來解決SRL這個(gè)典型的序列標(biāo)注問題。

傳統(tǒng)RNN的一個(gè)缺點(diǎn)是只能利用序列過去的信息。在序列標(biāo)注問題上，整個(gè)句子的信息實(shí)際上是一次就可以得到的，所以沒有理由不利用未來的信息。因而，雙向連接的LSTM被提出來了，它可以充分利用過去和未來的信息。典型的雙向LSTM分別從前向和后向兩個(gè)方向處理原始輸入，然后將這兩個(gè)輸出連接起來。在這里，我們采用了Zhou[5]的方法，以獲得更復(fù)雜的依賴關(guān)系。具體來說，第一個(gè)LSTM層正向地處理輸入的句子，這層的輸出直接作為下一個(gè)層的輸入，然后進(jìn)行反向的處理。這樣做的好處是，同樣多的參數(shù)，可以獲得在空間上更深的神經(jīng)網(wǎng)絡(luò)。

為了增強(qiáng)模型的表達(dá)能力，我們也增加了神經(jīng)網(wǎng)絡(luò)的模型深度。在這種拓?fù)浣Y(jié)構(gòu)中，第l層的輸入恰好就是第l-1層的輸出。更正式地，給定一個(gè)輸入序列x=(x1,x2,…，xT)，第l層的輸出如式(4)所示。

(4)

4.2　基于LSTM的EU

(5)

圖3　EU與LSTM的差異圖

5　語義角色標(biāo)注流程

神經(jīng)網(wǎng)絡(luò)處理離散數(shù)據(jù)的第一步就是把離散符號(hào)映射到實(shí)數(shù)向量的表示形式，也就是word embedding。DBLSTM-EU 采用最原始的語句和對(duì)應(yīng)的預(yù)測(cè)標(biāo)記m作為輸入特征。m設(shè)置為1表示當(dāng)前詞是需要被預(yù)測(cè)的謂詞，設(shè)為0則表示是要預(yù)測(cè)關(guān)系的論元。一個(gè)輸入實(shí)例里包含一個(gè)謂詞1，如果一個(gè)句子有多個(gè)謂詞，那么就分多次處理。正如圖1所示，謂詞borrowed就被標(biāo)記為1。

在SRL任務(wù)中，詞匯表表示為?，標(biāo)記集合表示為C∈{0,1}。給定輸入序列{w1,w2…，wT}和標(biāo)記序列{m1,m2…，mT}，輸入詞wt∈r與其對(duì)應(yīng)的標(biāo)記mt∈C通過查找表(lookup table)，被映射為實(shí)數(shù)向量的表示形式e(wt)和e(mt)。這兩個(gè)向量連接起來組成xt=[e(wt),e(mt)]作為DBLSTM-EU第一層的輸入。

然后我們建立深度的雙向神經(jīng)網(wǎng)絡(luò)(DBLSTM-EU)學(xué)習(xí)句子的序列化和結(jié)構(gòu)化信息，最后只有網(wǎng)絡(luò)最頂層的被用作標(biāo)記預(yù)測(cè)。由于標(biāo)簽之間也存在著轉(zhuǎn)移概率，之前的大部分工作都引入了標(biāo)簽之間的跳轉(zhuǎn)概率進(jìn)行建模。DBLSTM-EU采用了更簡(jiǎn)單的模式，SRL被當(dāng)作一個(gè)典型的分類問題來處理，標(biāo)簽之間的轉(zhuǎn)移概率都被隱含在RNN序列的隱狀態(tài)之間。與前人的工作相比，DBLSTM-EU更易于并行和實(shí)現(xiàn)。

給定特定的輸入特征序列x={x,x2,…,xT}，其對(duì)應(yīng)的正確標(biāo)記序列y={y1,y2,…,yT}的對(duì)數(shù)似然估計(jì)如式(6)所示。

logp(y;θ)=∑logp(yT|x;θ)

(6)

模型預(yù)測(cè)標(biāo)簽yt依賴于對(duì)應(yīng)的DBLSTM-EU的隱狀態(tài)ht，如式(7)所示。

p(yt|x;θ)=softmax(Woht)TδyT

(7)

6　實(shí)驗(yàn)和分析

實(shí)驗(yàn)主要基于公開數(shù)據(jù)集合CoNLL-2005和CoNLL-2012。

6.1　數(shù)據(jù)說明

與前人工作相似，我們用CoNLL-2005第2～21節(jié)的Wall Street Journal (WSJ)作為訓(xùn)練集，第24節(jié)作為開發(fā)集。測(cè)試集包含了WSJ的第23節(jié)和Brown corpus的3節(jié)。更具體的設(shè)置說明可以參考Pradhan[7]的說明。

6.2　實(shí)驗(yàn)細(xì)節(jié)

初始化所有的遞歸矩陣都被隨機(jī)初始化為正交矩陣，所有的偏移都被初始化為0。其他的參數(shù)都隨機(jī)從均值為0和方差為0.01的高斯分布中獲取。詞向量也可以從預(yù)先訓(xùn)練好的詞向量進(jìn)行初始化，關(guān)于這部分的影響，6.3節(jié)進(jìn)行了進(jìn)一步討論。

設(shè)置隱節(jié)點(diǎn)的維度設(shè)置為256，增加維度并不能再提高效果。詞向量和標(biāo)記的維度都是128。

學(xué)習(xí)策略參數(shù)的優(yōu)化采用了隨機(jī)梯度下降(SGD)，Adadelta[8]被用來進(jìn)行自適應(yīng)的學(xué)習(xí)率。為了避免梯度爆炸的情況，我們對(duì)梯度進(jìn)行了l2規(guī)范，超過1.0的梯度都被進(jìn)行了規(guī)范。模型的批處理值設(shè)置為80。

6.3　實(shí)驗(yàn)結(jié)果

表1展示了DBLSTM-EU與前人工作的對(duì)比。在CoNLL-2005上，Pradhan[7]綜合了三種句法分析的結(jié)果，F(xiàn)值為77.3%。Collobert[4]提出了一個(gè)通用的卷積神經(jīng)網(wǎng)絡(luò)模型解決這個(gè)問題，借助句法分析的結(jié)果，可以接近當(dāng)時(shí)的最好結(jié)果。Zhou[5]利用LSTM和CRF，并利用了少量的詞匯化特征，取得了81.07%F值，然而對(duì)于領(lǐng)域外數(shù)據(jù)，他們的表現(xiàn)并不理想。DBLSTM-EU做了最少的特征工程，僅僅依靠增加模型深度，在這個(gè)數(shù)據(jù)集上得到了當(dāng)前世界上最好的性能：F值81.56%。值得一提的是，本文方法在領(lǐng)域外數(shù)據(jù)集Brown上的表現(xiàn)更為出色。因此，我們推測(cè)，深度模型對(duì)領(lǐng)域適應(yīng)是有幫助的，因?yàn)楦畹哪Ｐ吞峁┝烁鄬哟蔚某橄?，可以捕捉到句子微妙的語義信息。在CoNLL-2012測(cè)試集上，DBLSTM-EU 取得了更好的結(jié)果，比前人最好結(jié)果的F值提高了1.3%。CoNLL-2012比CoNLL-2005有更多的數(shù)據(jù)，也部分說明了在大數(shù)據(jù)情況下，深度模型會(huì)有更好的表現(xiàn)。

表1　與前人工作對(duì)比

續(xù)表

6.4　實(shí)驗(yàn)分析

Resvs.EU如圖1所示，我們首先比較了“殘差” 網(wǎng)絡(luò)(ResNet)和EU，構(gòu)造了與DBLSTM-EU類似的網(wǎng)絡(luò)，命名為DBLSTM-Res。裝備了“殘差”連接的深度卷積神經(jīng)網(wǎng)絡(luò)，在圖像識(shí)別上取得了巨大的突破，也是目前最成功的跨層連接網(wǎng)絡(luò)[17]。與“殘差”相比，EU具有兩個(gè)優(yōu)勢(shì)：(1)EU裝備了“門”函數(shù)，可以擴(kuò)大正則線性輸入和非線性輸入的規(guī)模； (2)EU是神經(jīng)元內(nèi)部結(jié)構(gòu)的變化，線性信息可以在時(shí)間和空間兩個(gè)維度傳播。從試驗(yàn)也可以看出，DBLSTM-EU在兩個(gè)測(cè)試集上都比DBLSTM-Res有一定的優(yōu)勢(shì)。

雙向vs.單向從表2第一行和第二行可以看出，雙向模型比單向模型有非常明顯的提升，分別為68.33%、60.62%?？梢哉f明，未來的文本信息對(duì)預(yù)測(cè)起著至關(guān)重要的作用。為了簡(jiǎn)潔起見，我們?cè)陔S后的實(shí)驗(yàn)中不再對(duì)比這個(gè)因素的影響。

表2　實(shí)驗(yàn)結(jié)果分析

詞向量之前的工作已經(jīng)發(fā)現(xiàn)詞向量在大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練對(duì)分類結(jié)果非常重要。然而，在和句法相關(guān)的任務(wù)中，不考慮詞序的詞向量模型表現(xiàn)得不夠好。因此我們用了大量英語維基百科(EWK.)的數(shù)據(jù)，用神經(jīng)網(wǎng)絡(luò)語言模型(NLM[18])得到了詞向量。表2第三行展示了使用EWK初始化詞向量可以帶來的顯著提升。

模型規(guī)模模型規(guī)模是影響神經(jīng)網(wǎng)絡(luò)性能的重要因素。為了公平起見，我們擴(kuò)大了對(duì)比模型的寬度，從256到512，但是并沒有發(fā)現(xiàn)更高的性能提升，說明簡(jiǎn)單增加模型參數(shù)并不能帶來持續(xù)的收益。雖然模型深度的增加可以帶來持續(xù)的收益，但是當(dāng)深度擴(kuò)大到六層的時(shí)候，訓(xùn)練開始變得很難，甚至結(jié)果會(huì)下降。

EU的影響當(dāng)模型足夠深的時(shí)候，EU可以有效地幫助模型的訓(xùn)練。圖4給出了詳細(xì)的比較，可以發(fā)現(xiàn)即使18層的LSTM也能得到比較好的訓(xùn)練，直到20層才出現(xiàn)了微弱的下降。然而沒有EU，模型性能到六層就不再持續(xù)增長(zhǎng)，到20層，性能已經(jīng)有了顯著下降。

圖4　深度對(duì)SRL影響分析

句長(zhǎng)分析更詳細(xì)的分析結(jié)果如圖5所示，實(shí)線代表DBLSTM-EU的實(shí)驗(yàn)結(jié)果，虛線代表Zhou[5]的實(shí)驗(yàn)結(jié)果。上面兩條線是領(lǐng)域內(nèi)的結(jié)果，下面兩條線是領(lǐng)域外的結(jié)果。從圖5可以看出，DBLSTM-EU 在句子長(zhǎng)度比較長(zhǎng)的時(shí)候表現(xiàn)更好。一個(gè)可能的解釋是，句子比較長(zhǎng)的時(shí)候，句子內(nèi)部的語義結(jié)構(gòu)更為復(fù)雜，需要更深的模型捕捉這種長(zhǎng)距離的潛在的語義結(jié)構(gòu)。另外我們可以發(fā)現(xiàn)，在領(lǐng)域外數(shù)據(jù)上DBLSTM-EU和Zhou[5]的模型比有更明顯的優(yōu)勢(shì)，也說明了深度模型可能帶來更好的泛化能力。

圖5　模型在不同句長(zhǎng)的實(shí)驗(yàn)結(jié)果

7　相關(guān)工作

SRLGildea[18]開發(fā)了第一個(gè)基于FrameNet的自動(dòng)語義角色標(biāo)注系統(tǒng)。此后語義角色標(biāo)注得到了持續(xù)的關(guān)注和發(fā)展。一部分工作聚焦于擴(kuò)展SRL的句法特征，希望可以獲取句子的全局信息[10-15]。也有一部分工作試圖融合多種不同的句法分析結(jié)果，提供更魯棒的句法分析特征[16-17]。

除了傳統(tǒng)的方法，Collobert[4]等人提出了基于卷積神經(jīng)網(wǎng)絡(luò)的方法處理一系列自然語言處理問題，SRL正是其中之一，然而相對(duì)于其他幾個(gè)問題，這個(gè)模型在SRL上的表現(xiàn)相對(duì)不夠出色。Zhou[5]等人進(jìn)一步利用LSTM引入了少量的詞匯化信息，取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。DBLSTM-EU受到 Zhou[5]等人工作的啟發(fā)，通過增加模型深度來抓取語義信息，進(jìn)一步簡(jiǎn)化了模型的特征和推斷策略，更易于實(shí)現(xiàn)，并且有更快的解碼速度。

深度學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)通過循環(huán)的操作存儲(chǔ)上下文信息，可以被應(yīng)用到各種序列相關(guān)的問題上。一些基于“門”控制的遞歸神經(jīng)網(wǎng)絡(luò)也被逐漸提出，比如LSTM和GRU。這些方法可以捕捉更長(zhǎng)距離的信息，而且可以有效緩解梯度消失的問題。傳統(tǒng)的RNN只依賴于過去的歷史信息，雙向的RNN被提出，同時(shí)也可以獲取未來的信息[18]。將RNN堆棧起來，組成更深的網(wǎng)絡(luò)也取得了不錯(cuò)的結(jié)果。近期研究人員利用深度模型在多種任務(wù)上都取得了比較好的實(shí)驗(yàn)結(jié)果[22]。

我們的工作和優(yōu)化深層網(wǎng)絡(luò)也有關(guān)系。Srivastava[19]提出了Highway，在卷積神經(jīng)網(wǎng)絡(luò)之間加入了線性連接，我們和他們的思路相似，但是我們的模型主要改變了神經(jīng)網(wǎng)絡(luò)單元的內(nèi)部結(jié)構(gòu)，在時(shí)間和空間兩個(gè)維度上都可以優(yōu)化梯度傳遞。Chung[20]等人在多層LSTM之間都加入了全連接，提供了更好的層與層之間的交互。Kalchbrenner[11]提出了更為通用的跨層連接的LSTM模型。He[21]提出了更為簡(jiǎn)單的跨層連接方式——“殘差”網(wǎng)絡(luò)。EU和這些工作都有相同的思想，盡可能在深層網(wǎng)絡(luò)之間加入跨層的線性連接，主要區(qū)別在于解決的方式不同。

8　總結(jié)

本文提出了一種通用的雙向深度LSTM模型(DBLSTM-EU)，用以解決語義角色標(biāo)注問題，為了方便訓(xùn)練深度模型，我們提出了EU解決梯度消失在空間傳播的問題。在CoNLL-2005和CoNLL-2012兩個(gè)公開數(shù)據(jù)集上取得了目前最好的結(jié)果。

DBLSTM-EU并沒有對(duì)任務(wù)本身做任何假設(shè)，具有廣泛的適用性，可以被應(yīng)用在其他自然語言處理任務(wù)上。另一方面，我們通過EU構(gòu)造了18層的遞歸神經(jīng)網(wǎng)絡(luò)，是已知自然語言處理領(lǐng)域最深的遞歸神經(jīng)網(wǎng)絡(luò)，為深度網(wǎng)絡(luò)在自然語言處理領(lǐng)域的應(yīng)用提供了借鑒。

[1]Emanuele Bastianelli,Giuseppe Castellucci,Danilo Croce,et al.Textual inference and meaning representation in human robot interaction[C]//Proceedings of the Joint Symposium on Semantic Processing.Textual Inference and Structures in Corpora,2013：65-69.

[2]Shen Dan,Mirella Lapata.Using semantic roles to improve question answering[C]//Proceedings of the EMNLP-CoNLL,2007：12-21.

[3]Kevin Knight,Steve K Luk.Building a large-scale knowledge base for machine translation[C]//Proceedings of the AAAI,1994,94：773-778.

[4]Ronan Collobert,Jason Weston,Léon Bottou,et al.Natural language processing (almost) from scratch[J].Journal of Machine Learning Research,2011,12：2493-2537.

[5]Jie Zhou,Wei Xu.End-to-end learning of semantic role labeling using recurrent neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,Beijing,China,2015：1127-1137.

[6]Sepp Hochreiter,Jürgen Schmidhuber.Long short-term memory[J].Neural computation,1997,9(8)：1735-1780.

[7]Sameer Pradhan,Kadri Hacioglu,Wayne Ward,et al.Semantic role chunking combining complementary syntactic views[C]//Proceedings of the Conference on Computational Natural Language Learning ,2005：217-220.

[8]Matthew D Zeiler.Adadelta：an adaptive learning rate method[C]//arXiv preprint arXiv：1212.5701.2012.

[9]Daniel Gildea,Daniel Jurafsky.Automatic labeling of semantic roles[J].Computational linguistics,2002,28(3)：245-288.

[10]Mihai Surdeanu,Lluís Màrquez,Xavier Carreras,et al.Combination strategies for semantic role labeling[J].Journal of Artificial Intelligence Research,2007,29：105-151.

[11]Nal Kalchbrenner,Ivo Danihelka,and Alex Graves.2015.Grid long short-term memory[C]//arXiv preprintarXiv：1507.01526.2015.

[12]Xavier Carreras,Lluís Màrquez.Introduction to the CoNLL-2005 shared task：semantic role labeling[C]//Proceedings of the 9th Conference on Computational Natural Language Learning (CoNLL-2005),2005：152-164.

[13]Dekai Wu,Pascale Fung.Semantic roles for SMT：a hybrid two-pass model[C]//Proceeding of the Conference：Human Language Technologies：The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009：13-16.

[14]孫萌,姚建民,呂雅娟,等.基于最大熵短語重排序模型的特征抽取算法改進(jìn)[J].中文信息學(xué)報(bào),2011,25(2)：78-83.

[15]宋毅君,王瑞波,李濟(jì)洪,等.基于條件隨機(jī)場(chǎng)的漢語框架語義角色自動(dòng)標(biāo)注[J].中文信息學(xué)報(bào),2014,28(3)：36-47.

[16]熊皓,劉群,呂雅娟.聯(lián)合語義角色標(biāo)注和指代消解[J].中文信息學(xué)報(bào),2013,27(6)：58-69.

[17]王臻,常寶寶,穗志方.基于分層輸出神經(jīng)網(wǎng)絡(luò)的漢語語義角色標(biāo)注[J].中文信息學(xué)報(bào),2014,28(6)：56-61.

[18]Mike Schuster and Kuldip K Paliwal.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11)：2673-2681.

[19]Rupesh Kumar Srivastava,Klaus Greff,Jürgen Schmidhuber,et al.Highway Networks[C]// arXiv preprint arXiv：1505.00387.2015.

[20]Junyoung Chung,Caglar Gulcehre,Kyunghyun Cho,et al.Gated feedback recurrent neural networks[J].Computer Science,2015：2067-2075.

[21]Kaiming He,Xiangyu Zhang,Shaoqing Ren,et al.Deep residual learning for image recognition[R].arXiv preprint arXiv：1512.03385.2015.

王明軒(1989—)，博士，主要研究領(lǐng)域?yàn)樽匀徽Z言處理,深度學(xué)習(xí)。E-mail：xuanswang@tencent.com

劉群(1966—)，博士生導(dǎo)師,研究員，主要研究領(lǐng)域?yàn)闄C(jī)器翻譯,自然語言處理。E-mail：liuqun@ict.ac.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標(biāo)注

0 引言

1 語義角色標(biāo)注

2 遞歸神經(jīng)網(wǎng)絡(luò)

3 長(zhǎng)短期記憶單元

4 深度的雙向LSTM和EU

4.1 深度雙向LSTM

4.2 基于LSTM的EU

5 語義角色標(biāo)注流程

6 實(shí)驗(yàn)和分析

6.1 數(shù)據(jù)說明

6.2 實(shí)驗(yàn)細(xì)節(jié)

6.3 實(shí)驗(yàn)結(jié)果

6.4 實(shí)驗(yàn)分析

7 相關(guān)工作

8 總結(jié)