亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的語義角色標(biāo)注

        2018-04-16 07:24:08王明軒
        中文信息學(xué)報(bào) 2018年2期
        關(guān)鍵詞:梯度語義向量

        王明軒,劉 群,2

        (1.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 智能信息重點(diǎn)實(shí)驗(yàn)室,北京 100190;2.ADAPT Centre,School of Computing,Dublin City University,Glasnevin,Dublin 9,Ireland.)

        0 引言

        語義角色標(biāo)注(SRL)是通往自然語言理解的必由之路,也是一種淺層的語義分析,其主要目標(biāo)是挖掘謂詞和論元之間的關(guān)系。語義角色表明了事件實(shí)體的基本性質(zhì)并且提供了一個(gè)中間層的語義表示,因此可以對(duì)很多自然語言處理任務(wù)起到幫助作用,比如信息抽取[1]、自動(dòng)問答[2]、機(jī)器翻譯[3]等。

        一般認(rèn)為語義角色標(biāo)注任務(wù)和句法分析是相關(guān)的,傳統(tǒng)的語義角色標(biāo)注嚴(yán)重地依賴句法分析結(jié)果,這導(dǎo)致了語義角色標(biāo)注系統(tǒng)的復(fù)雜和領(lǐng)域受限性。研究人員一直在尋找簡(jiǎn)單的方法來解決這個(gè)問題。Collobert[4]等人提出了一種通用的基于卷積神經(jīng)網(wǎng)絡(luò)的框架去解決這個(gè)問題,然而他們依然需要引入句法信息,才能達(dá)到與最好模型接近的水平。Zhou[5]等人試圖構(gòu)建多層LSTM解決該問題,但是在網(wǎng)絡(luò)層數(shù)較深的情況下很難取得理想的結(jié)果。另一方面,為了提升性能,他們也引入了CRF做預(yù)測(cè),導(dǎo)致模型并行比較困難。

        在本文中,我們提出了一種深層的雙向神經(jīng)網(wǎng)絡(luò)模型,它裝備了精心設(shè)計(jì)的遞歸單元EU來做語義角色標(biāo)注,這個(gè)系統(tǒng)簡(jiǎn)稱為DBLSTM-EU。由于語言內(nèi)部存在潛在的復(fù)雜結(jié)構(gòu),因此我們擴(kuò)展了“時(shí)間深度”的概念到“空間深度”,通過將網(wǎng)絡(luò)層層堆棧來構(gòu)造深度模型,捕捉復(fù)雜的語義結(jié)構(gòu)。然而深度網(wǎng)絡(luò)的訓(xùn)練并不是堆棧網(wǎng)絡(luò)那么簡(jiǎn)單,模型優(yōu)化隨著網(wǎng)絡(luò)層數(shù)的增加而變得復(fù)雜起來。正如Zhou[5]提到的,當(dāng)網(wǎng)絡(luò)到第六層的時(shí)候就很難觀察到性能提升了?!翱臻g深度”也面臨著梯度消失的問題,這個(gè)問題和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)應(yīng)用到長(zhǎng)的句子的時(shí)候所面臨的問題相似。

        為了緩解梯度消失的問題,本文借鑒了LSTM的設(shè)計(jì)思路,提出了一個(gè)全新的“直梯”單元(EU),混合了線性和非線性信息。通過EU,信息可以在空間和時(shí)間維度上更通暢地傳播,并且只存在比較小的信息損失。這個(gè)機(jī)制讓深度網(wǎng)絡(luò)的訓(xùn)練變得更為容易,而深度的LSTM更容易捕捉句子中潛在的復(fù)雜的內(nèi)部結(jié)構(gòu)。最重要的是EU包含了一個(gè)“門”函數(shù),可以動(dòng)態(tài)地選擇或者忽略信息在垂直方向上的傳播,這樣不同層次的抽象表示就可以更方便地被傳遞到輸出層。

        DBLSTM-EU在CoNLL-2005公開數(shù)據(jù)集上取得了F=81.56%的結(jié)果,在CoNLL-2012公開數(shù)據(jù)集上取得了F=82.53%的結(jié)果,比之前最好的結(jié)果分別提高了0.5%和1.26%,達(dá)到了目前世界上最好的性能。另外,在領(lǐng)域外的數(shù)據(jù)集上DBLSTM-EU取得了2.2%的F值顯著提升。由于該模型比較簡(jiǎn)潔,具有易于并行的特性,在單一的K40 GPU上取得了每秒11.8K單詞的解析速度,遠(yuǎn)高傳統(tǒng)的方法。

        1 語義角色標(biāo)注

        給定一個(gè)句子,語義角色標(biāo)注的目標(biāo)是識(shí)別所有謂詞所對(duì)應(yīng)的論元,并且給對(duì)應(yīng)的論元進(jìn)行分類,指定不同的語義角色。例如,給定輸入語句“Marry borrowed a book from John last week”,SRL的目標(biāo)就是識(shí)別不同論元與謂詞borrowed 的關(guān)系,最后產(chǎn)生下面的輸出:

        [A0 Marry] [V borrowed] [A1 a book] [A2 from John] [AM-TMP last week]

        這里A0代表借東西的人,A1代表被借的東西,A2代表被借東西的人,AM-TMP是介詞短語表明了動(dòng)作發(fā)生的時(shí)間,而V代表對(duì)應(yīng)的謂詞borrowed。

        在傳統(tǒng)的標(biāo)注模型中,對(duì)角色的標(biāo)注通常分兩步進(jìn)行:識(shí)別和分類。識(shí)別確定了每一個(gè)論元和謂詞之間是否存在語義關(guān)系,而分類是對(duì)存在語義關(guān)系的論元指定具體的語義類別的過程。一般情況下,識(shí)別部分包含了剪枝,而分類部分包含了后處理,修正標(biāo)記的不一致性。最后會(huì)采納動(dòng)態(tài)規(guī)劃算法搜索全局最優(yōu)的標(biāo)注序列。

        如圖1所示,本文提出了一種極其簡(jiǎn)單的標(biāo)記方法。首先,最原始的句子和它對(duì)應(yīng)的標(biāo)簽被映射成實(shí)數(shù)向量,也就是詞嵌入(word embedding),這個(gè)向量作為下一層的輸入。然后,通過一個(gè)裝備了EU的深度雙向神經(jīng)網(wǎng)絡(luò)捕捉句子內(nèi)部和標(biāo)簽之間隱含的關(guān)系。圖1中,“L”和“R”分別代表了從左到右和從右到左處理句子的方向。在推斷階段,只有最頂層的隱含狀態(tài)被使用,通過邏輯線性回歸做最后的決策分類。與傳統(tǒng)的序列標(biāo)記任務(wù)不同的是,模型只輸出當(dāng)前概率最大的類別,并不需要全局搜索和剪枝。

        圖1 DBLSTM示意圖

        2 遞歸神經(jīng)網(wǎng)絡(luò)

        遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是具有遞歸連接的一類神經(jīng)網(wǎng)絡(luò),具有部分的記憶功能,網(wǎng)絡(luò)的歷史信息通過遞歸關(guān)系傳播,這樣可以使RNN被應(yīng)用到具有任意長(zhǎng)度句子的序列預(yù)測(cè)問題上。給定輸入句子x=(x1,x2,…,xT)作為輸入,標(biāo)準(zhǔn)的RNN遞歸地執(zhí)行下面的操作并生成隱藏節(jié)點(diǎn)ht,如式(1)所示。

        ht=H(Wxhxt+Whhht+bh)

        (1)

        其中,H是一個(gè)非線性函數(shù),可以是簡(jiǎn)單的tanh函數(shù),也可以是一系列非常復(fù)雜的操作,比如LSTM[6]。

        由于每一個(gè)隱藏節(jié)點(diǎn)都是所有歷史隱藏節(jié)點(diǎn)的函數(shù),RNN在時(shí)間維上具有天然的深度。傳統(tǒng)的RNN訓(xùn)練主要面臨著兩個(gè)問題。第一,RNN梯度傳遞路徑過長(zhǎng),導(dǎo)致它比較難捕捉到長(zhǎng)距離的依賴關(guān)系。第二, 在處理長(zhǎng)句子的時(shí)候,容易出現(xiàn)梯度消失或者梯度爆炸現(xiàn)象。這兩個(gè)問題都被深度地探討過[6]。

        3 長(zhǎng)短期記憶單元

        長(zhǎng)短期記憶(LSTM)是由Hochreiter[6]等人提出來解決長(zhǎng)距離依賴和梯度消失的問題。如圖2所示,LSTM包含了記憶單元ct,輸入門it,忘記門ft和輸出門ot。其中,記憶單元儲(chǔ)存了LSTM單元的歷史信息,通過輸入門仔細(xì)地控制當(dāng)前輸入有哪部分可以被存儲(chǔ)進(jìn)來,通過忘記門控制歷史信息有多少應(yīng)該被忘記。最后,輸出門被用來決定有多少信息可以被輸出進(jìn)行決策。正式的,LSTM通過下面的方式進(jìn)行計(jì)算:

        (2)

        圖2 LSTM單元信息流動(dòng)圖

        這里σ是sigmoid激活函數(shù),為了方便起見,我們將公式簡(jiǎn)寫為式(3)。

        [ht,ct]=LSTM(xt,ht-1,ct-1)

        (3)

        最近,Cho[14]等人提出了門遞歸神經(jīng)元(gated recurrent unit,GRU)中采用了自適應(yīng)的記憶和忘記策略,與LSTM取得了相當(dāng)?shù)慕Y(jié)果。

        4 深度的雙向LSTM和EU

        這部分我們首先討論LSTM的雙向組合方式,隨后介紹新提出的神經(jīng)元EU。

        4.1 深度雙向LSTM

        如圖1所示,我們提出了一個(gè)深度的雙向LSTM(DBLSTM)來解決SRL這個(gè)典型的序列標(biāo)注問題。

        傳統(tǒng)RNN的一個(gè)缺點(diǎn)是只能利用序列過去的信息。在序列標(biāo)注問題上,整個(gè)句子的信息實(shí)際上是一次就可以得到的,所以沒有理由不利用未來的信息。因而,雙向連接的LSTM被提出來了,它可以充分利用過去和未來的信息。典型的雙向LSTM分別從前向和后向兩個(gè)方向處理原始輸入,然后將這兩個(gè)輸出連接起來。在這里,我們采用了Zhou[5]的方法,以獲得更復(fù)雜的依賴關(guān)系。具體來說,第一個(gè)LSTM層正向地處理輸入的句子,這層的輸出直接作為下一個(gè)層的輸入,然后進(jìn)行反向的處理。這樣做的好處是,同樣多的參數(shù),可以獲得在空間上更深的神經(jīng)網(wǎng)絡(luò)。

        為了增強(qiáng)模型的表達(dá)能力,我們也增加了神經(jīng)網(wǎng)絡(luò)的模型深度。在這種拓?fù)浣Y(jié)構(gòu)中,第l層的輸入恰好就是第l-1層的輸出。更正式地,給定一個(gè)輸入序列x=(x1,x2,…,xT),第l層的輸出如式(4)所示。

        (4)

        4.2 基于LSTM的EU

        (5)

        圖3 EU與LSTM的差異圖

        5 語義角色標(biāo)注流程

        神經(jīng)網(wǎng)絡(luò)處理離散數(shù)據(jù)的第一步就是把離散符號(hào)映射到實(shí)數(shù)向量的表示形式,也就是word embedding。DBLSTM-EU 采用最原始的語句和對(duì)應(yīng)的預(yù)測(cè)標(biāo)記m作為輸入特征。m設(shè)置為1表示當(dāng)前詞是需要被預(yù)測(cè)的謂詞,設(shè)為0則表示是要預(yù)測(cè)關(guān)系的論元。一個(gè)輸入實(shí)例里包含一個(gè)謂詞1,如果一個(gè)句子有多個(gè)謂詞,那么就分多次處理。正如圖1所示,謂詞borrowed就被標(biāo)記為1。

        在SRL任務(wù)中,詞匯表表示為?,標(biāo)記集合表示為C∈{0,1}。給定輸入序列{w1,w2…,wT}和標(biāo)記序列{m1,m2…,mT},輸入詞wt∈r與其對(duì)應(yīng)的標(biāo)記mt∈C通過查找表(lookup table),被映射為實(shí)數(shù)向量的表示形式e(wt)和e(mt)。這兩個(gè)向量連接起來組成xt=[e(wt),e(mt)]作為DBLSTM-EU第一層的輸入。

        然后我們建立深度的雙向神經(jīng)網(wǎng)絡(luò)(DBLSTM-EU)學(xué)習(xí)句子的序列化和結(jié)構(gòu)化信息,最后只有網(wǎng)絡(luò)最頂層的被用作標(biāo)記預(yù)測(cè)。由于標(biāo)簽之間也存在著轉(zhuǎn)移概率,之前的大部分工作都引入了標(biāo)簽之間的跳轉(zhuǎn)概率進(jìn)行建模。DBLSTM-EU采用了更簡(jiǎn)單的模式,SRL被當(dāng)作一個(gè)典型的分類問題來處理,標(biāo)簽之間的轉(zhuǎn)移概率都被隱含在RNN序列的隱狀態(tài)之間。與前人的工作相比,DBLSTM-EU更易于并行和實(shí)現(xiàn)。

        給定特定的輸入特征序列x={x,x2,…,xT},其對(duì)應(yīng)的正確標(biāo)記序列y={y1,y2,…,yT}的對(duì)數(shù)似然估計(jì)如式(6)所示。

        logp(y;θ)=∑logp(yT|x;θ)

        (6)

        模型預(yù)測(cè)標(biāo)簽yt依賴于對(duì)應(yīng)的DBLSTM-EU的隱狀態(tài)ht,如式(7)所示。

        p(yt|x;θ)=softmax(Woht)TδyT

        (7)

        6 實(shí)驗(yàn)和分析

        實(shí)驗(yàn)主要基于公開數(shù)據(jù)集合CoNLL-2005和CoNLL-2012。

        6.1 數(shù)據(jù)說明

        與前人工作相似,我們用CoNLL-2005第2~21節(jié)的Wall Street Journal (WSJ)作為訓(xùn)練集,第24節(jié)作為開發(fā)集。測(cè)試集包含了WSJ的第23節(jié)和Brown corpus的3節(jié)。更具體的設(shè)置說明可以參考Pradhan[7]的說明。

        6.2 實(shí)驗(yàn)細(xì)節(jié)

        初始化所有的遞歸矩陣都被隨機(jī)初始化為正交矩陣,所有的偏移都被初始化為0。其他的參數(shù)都隨機(jī)從均值為0和方差為0.01的高斯分布中獲取。詞向量也可以從預(yù)先訓(xùn)練好的詞向量進(jìn)行初始化,關(guān)于這部分的影響,6.3節(jié)進(jìn)行了進(jìn)一步討論。

        設(shè)置隱節(jié)點(diǎn)的維度設(shè)置為256,增加維度并不能再提高效果。詞向量和標(biāo)記的維度都是128。

        學(xué)習(xí)策略參數(shù)的優(yōu)化采用了隨機(jī)梯度下降(SGD),Adadelta[8]被用來進(jìn)行自適應(yīng)的學(xué)習(xí)率。為了避免梯度爆炸的情況,我們對(duì)梯度進(jìn)行了l2規(guī)范,超過1.0的梯度都被進(jìn)行了規(guī)范。模型的批處理值設(shè)置為80。

        6.3 實(shí)驗(yàn)結(jié)果

        表1展示了DBLSTM-EU與前人工作的對(duì)比。在CoNLL-2005上,Pradhan[7]綜合了三種句法分析的結(jié)果,F(xiàn)值為77.3%。Collobert[4]提出了一個(gè)通用的卷積神經(jīng)網(wǎng)絡(luò)模型解決這個(gè)問題,借助句法分析的結(jié)果,可以接近當(dāng)時(shí)的最好結(jié)果。Zhou[5]利用LSTM和CRF,并利用了少量的詞匯化特征,取得了81.07%F值,然而對(duì)于領(lǐng)域外數(shù)據(jù),他們的表現(xiàn)并不理想。DBLSTM-EU做了最少的特征工程,僅僅依靠增加模型深度,在這個(gè)數(shù)據(jù)集上得到了當(dāng)前世界上最好的性能:F值81.56%。值得一提的是,本文方法在領(lǐng)域外數(shù)據(jù)集Brown上的表現(xiàn)更為出色。因此,我們推測(cè),深度模型對(duì)領(lǐng)域適應(yīng)是有幫助的,因?yàn)楦畹哪P吞峁┝烁鄬哟蔚某橄?,可以捕捉到句子微妙的語義信息。在CoNLL-2012測(cè)試集上,DBLSTM-EU 取得了更好的結(jié)果,比前人最好結(jié)果的F值提高了1.3%。CoNLL-2012比CoNLL-2005有更多的數(shù)據(jù),也部分說明了在大數(shù)據(jù)情況下,深度模型會(huì)有更好的表現(xiàn)。

        表1 與前人工作對(duì)比

        續(xù)表

        6.4 實(shí)驗(yàn)分析

        Resvs.EU如圖1所示,我們首先比較了“殘差” 網(wǎng)絡(luò)(ResNet)和EU,構(gòu)造了與DBLSTM-EU類似的網(wǎng)絡(luò),命名為DBLSTM-Res。裝備了“殘差”連接的深度卷積神經(jīng)網(wǎng)絡(luò),在圖像識(shí)別上取得了巨大的突破,也是目前最成功的跨層連接網(wǎng)絡(luò)[17]。與“殘差”相比,EU具有兩個(gè)優(yōu)勢(shì):(1)EU裝備了“門”函數(shù),可以擴(kuò)大正則線性輸入和非線性輸入的規(guī)模; (2)EU是神經(jīng)元內(nèi)部結(jié)構(gòu)的變化,線性信息可以在時(shí)間和空間兩個(gè)維度傳播。從試驗(yàn)也可以看出,DBLSTM-EU在兩個(gè)測(cè)試集上都比DBLSTM-Res有一定的優(yōu)勢(shì)。

        雙向vs.單向從表2第一行和第二行可以看出,雙向模型比單向模型有非常明顯的提升,分別為68.33%、60.62%??梢哉f明,未來的文本信息對(duì)預(yù)測(cè)起著至關(guān)重要的作用。為了簡(jiǎn)潔起見,我們?cè)陔S后的實(shí)驗(yàn)中不再對(duì)比這個(gè)因素的影響。

        表2 實(shí)驗(yàn)結(jié)果分析

        詞向量之前的工作已經(jīng)發(fā)現(xiàn)詞向量在大規(guī)模數(shù)據(jù)上的預(yù)訓(xùn)練對(duì)分類結(jié)果非常重要。 然而,在和句法相關(guān)的任務(wù)中,不考慮詞序的詞向量模型表現(xiàn)得不夠好。因此我們用了大量英語維基百科(EWK.)的數(shù)據(jù),用神經(jīng)網(wǎng)絡(luò)語言模型(NLM[18])得到了詞向量。表2第三行展示了使用EWK初始化詞向量可以帶來的顯著提升。

        模型規(guī)模模型規(guī)模是影響神經(jīng)網(wǎng)絡(luò)性能的重要因素。為了公平起見,我們擴(kuò)大了對(duì)比模型的寬度,從256到512,但是并沒有發(fā)現(xiàn)更高的性能提升,說明簡(jiǎn)單增加模型參數(shù)并不能帶來持續(xù)的收益。雖然模型深度的增加可以帶來持續(xù)的收益,但是當(dāng)深度擴(kuò)大到六層的時(shí)候,訓(xùn)練開始變得很難,甚至結(jié)果會(huì)下降。

        EU的影響當(dāng)模型足夠深的時(shí)候,EU可以有效地幫助模型的訓(xùn)練。圖4給出了詳細(xì)的比較,可以發(fā)現(xiàn)即使18層的LSTM也能得到比較好的訓(xùn)練,直到20層才出現(xiàn)了微弱的下降。然而沒有EU,模型性能到六層就不再持續(xù)增長(zhǎng),到20層,性能已經(jīng)有了顯著下降。

        圖4 深度對(duì)SRL影響分析

        句長(zhǎng)分析更詳細(xì)的分析結(jié)果如圖5所示,實(shí)線代表DBLSTM-EU的實(shí)驗(yàn)結(jié)果,虛線代表Zhou[5]的實(shí)驗(yàn)結(jié)果。上面兩條線是領(lǐng)域內(nèi)的結(jié)果,下面兩條線是領(lǐng)域外的結(jié)果。從圖5可以看出,DBLSTM-EU 在句子長(zhǎng)度比較長(zhǎng)的時(shí)候表現(xiàn)更好。一個(gè)可能的解釋是,句子比較長(zhǎng)的時(shí)候,句子內(nèi)部的語義結(jié)構(gòu)更為復(fù)雜,需要更深的模型捕捉這種長(zhǎng)距離的潛在的語義結(jié)構(gòu)。另外我們可以發(fā)現(xiàn),在領(lǐng)域外數(shù)據(jù)上DBLSTM-EU和Zhou[5]的模型比有更明顯的優(yōu)勢(shì),也說明了深度模型可能帶來更好的泛化能力。

        圖5 模型在不同句長(zhǎng)的實(shí)驗(yàn)結(jié)果

        7 相關(guān)工作

        SRLGildea[18]開發(fā)了第一個(gè)基于FrameNet的自動(dòng)語義角色標(biāo)注系統(tǒng)。此后語義角色標(biāo)注得到了持續(xù)的關(guān)注和發(fā)展。一部分工作聚焦于擴(kuò)展SRL的句法特征,希望可以獲取句子的全局信息[10-15]。也有一部分工作試圖融合多種不同的句法分析結(jié)果,提供更魯棒的句法分析特征[16-17]。

        除了傳統(tǒng)的方法,Collobert[4]等人提出了基于卷積神經(jīng)網(wǎng)絡(luò)的方法處理一系列自然語言處理問題,SRL正是其中之一,然而相對(duì)于其他幾個(gè)問題,這個(gè)模型在SRL上的表現(xiàn)相對(duì)不夠出色。Zhou[5]等人進(jìn)一步利用LSTM引入了少量的詞匯化信息,取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。DBLSTM-EU受到 Zhou[5]等人工作的啟發(fā),通過增加模型深度來抓取語義信息,進(jìn)一步簡(jiǎn)化了模型的特征和推斷策略,更易于實(shí)現(xiàn),并且有更快的解碼速度。

        深度學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)通過循環(huán)的操作存儲(chǔ)上下文信息,可以被應(yīng)用到各種序列相關(guān)的問題上。一些基于“門”控制的遞歸神經(jīng)網(wǎng)絡(luò)也被逐漸提出,比如LSTM和GRU。這些方法可以捕捉更長(zhǎng)距離的信息,而且可以有效緩解梯度消失的問題。傳統(tǒng)的RNN只依賴于過去的歷史信息,雙向的RNN被提出,同時(shí)也可以獲取未來的信息[18]。將RNN堆棧起來,組成更深的網(wǎng)絡(luò)也取得了不錯(cuò)的結(jié)果。近期研究人員利用深度模型在多種任務(wù)上都取得了比較好的實(shí)驗(yàn)結(jié)果[22]。

        我們的工作和優(yōu)化深層網(wǎng)絡(luò)也有關(guān)系。Srivastava[19]提出了Highway,在卷積神經(jīng)網(wǎng)絡(luò)之間加入了線性連接,我們和他們的思路相似,但是我們的模型主要改變了神經(jīng)網(wǎng)絡(luò)單元的內(nèi)部結(jié)構(gòu),在時(shí)間和空間兩個(gè)維度上都可以優(yōu)化梯度傳遞。Chung[20]等人在多層LSTM之間都加入了全連接,提供了更好的層與層之間的交互。Kalchbrenner[11]提出了更為通用的跨層連接的LSTM模型。He[21]提出了更為簡(jiǎn)單的跨層連接方式——“殘差”網(wǎng)絡(luò)。EU和這些工作都有相同的思想,盡可能在深層網(wǎng)絡(luò)之間加入跨層的線性連接,主要區(qū)別在于解決的方式不同。

        8 總結(jié)

        本文提出了一種通用的雙向深度LSTM模型(DBLSTM-EU),用以解決語義角色標(biāo)注問題,為了方便訓(xùn)練深度模型,我們提出了EU解決梯度消失在空間傳播的問題。在CoNLL-2005和CoNLL-2012兩個(gè)公開數(shù)據(jù)集上取得了目前最好的結(jié)果。

        DBLSTM-EU并沒有對(duì)任務(wù)本身做任何假設(shè),具有廣泛的適用性,可以被應(yīng)用在其他自然語言處理任務(wù)上。另一方面,我們通過EU構(gòu)造了18層的遞歸神經(jīng)網(wǎng)絡(luò),是已知自然語言處理領(lǐng)域最深的遞歸神經(jīng)網(wǎng)絡(luò),為深度網(wǎng)絡(luò)在自然語言處理領(lǐng)域的應(yīng)用提供了借鑒。

        [1]Emanuele Bastianelli,Giuseppe Castellucci,Danilo Croce,et al.Textual inference and meaning representation in human robot interaction[C]//Proceedings of the Joint Symposium on Semantic Processing.Textual Inference and Structures in Corpora,2013:65-69.

        [2]Shen Dan,Mirella Lapata.Using semantic roles to improve question answering[C]//Proceedings of the EMNLP-CoNLL,2007:12-21.

        [3]Kevin Knight,Steve K Luk.Building a large-scale knowledge base for machine translation[C]//Proceedings of the AAAI,1994,94:773-778.

        [4]Ronan Collobert,Jason Weston,Léon Bottou,et al.Natural language processing (almost) from scratch[J].Journal of Machine Learning Research,2011,12:2493-2537.

        [5]Jie Zhou,Wei Xu.End-to-end learning of semantic role labeling using recurrent neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,Beijing,China,2015:1127-1137.

        [6]Sepp Hochreiter,Jürgen Schmidhuber.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.

        [7]Sameer Pradhan,Kadri Hacioglu,Wayne Ward,et al.Semantic role chunking combining complementary syntactic views[C]//Proceedings of the Conference on Computational Natural Language Learning ,2005:217-220.

        [8]Matthew D Zeiler.Adadelta:an adaptive learning rate method[C]//arXiv preprint arXiv:1212.5701.2012.

        [9]Daniel Gildea,Daniel Jurafsky.Automatic labeling of semantic roles[J].Computational linguistics,2002,28(3):245-288.

        [10]Mihai Surdeanu,Lluís Màrquez,Xavier Carreras,et al.Combination strategies for semantic role labeling[J].Journal of Artificial Intelligence Research,2007,29:105-151.

        [11]Nal Kalchbrenner,Ivo Danihelka,and Alex Graves.2015.Grid long short-term memory[C]//arXiv preprintarXiv:1507.01526.2015.

        [12]Xavier Carreras,Lluís Màrquez.Introduction to the CoNLL-2005 shared task:semantic role labeling[C]//Proceedings of the 9th Conference on Computational Natural Language Learning (CoNLL-2005),2005:152-164.

        [13]Dekai Wu,Pascale Fung.Semantic roles for SMT:a hybrid two-pass model[C]//Proceeding of the Conference:Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2009:13-16.

        [14]孫萌,姚建民,呂雅娟,等.基于最大熵短語重排序模型的特征抽取算法改進(jìn)[J].中文信息學(xué)報(bào),2011,25(2):78-83.

        [15]宋毅君,王瑞波,李濟(jì)洪,等.基于條件隨機(jī)場(chǎng)的漢語框架語義角色自動(dòng)標(biāo)注[J].中文信息學(xué)報(bào),2014,28(3):36-47.

        [16]熊皓,劉群,呂雅娟.聯(lián)合語義角色標(biāo)注和指代消解[J].中文信息學(xué)報(bào),2013,27(6):58-69.

        [17]王臻,常寶寶,穗志方.基于分層輸出神經(jīng)網(wǎng)絡(luò)的漢語語義角色標(biāo)注[J].中文信息學(xué)報(bào),2014,28(6):56-61.

        [18]Mike Schuster and Kuldip K Paliwal.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

        [19]Rupesh Kumar Srivastava,Klaus Greff,Jürgen Schmidhuber,et al.Highway Networks[C]// arXiv preprint arXiv:1505.00387.2015.

        [20]Junyoung Chung,Caglar Gulcehre,Kyunghyun Cho,et al.Gated feedback recurrent neural networks[J].Computer Science,2015:2067-2075.

        [21]Kaiming He,Xiangyu Zhang,Shaoqing Ren,et al.Deep residual learning for image recognition[R].arXiv preprint arXiv:1512.03385.2015.

        王明軒(1989—),博士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,深度學(xué)習(xí)。E-mail:xuanswang@tencent.com

        劉群(1966—),博士生導(dǎo)師,研究員,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯,自然語言處理。E-mail:liuqun@ict.ac.cn

        猜你喜歡
        梯度語義向量
        向量的分解
        一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
        聚焦“向量與三角”創(chuàng)新題
        一種自適應(yīng)Dai-Liao共軛梯度法
        語言與語義
        一類扭積形式的梯度近Ricci孤立子
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        認(rèn)知范疇模糊與語義模糊
        国产亚洲中文字幕一区| 中文文精品字幕一区二区| 精品国产一区二区三区香蕉| 少妇人妻中文字幕在线| 精品久久亚洲中文字幕| 国产农村乱辈无码| 人妻无码视频| 日韩狼人精品在线观看| 人妻被黑人粗大的猛烈进出| 99热国产在线| 综合久久一区二区三区| 久久天天躁夜夜躁狠狠85麻豆| 2021久久精品国产99国产精品 | 蜜桃av噜噜一区二区三区香| 国产视频激情在线观看| 特黄做受又粗又长又大又硬 | 香港三级日本三级a视频| 国产精品天堂| 一区二区三区国产偷拍| 亚洲精品午夜久久久九九| 欧美性受xxxx白人性爽| 人妻丰满熟妇AV无码片| 天堂精品人妻一卡二卡| 欧洲乱码伦视频免费| 亚洲依依成人亚洲社区| 欧美成人a视频免费专区| 日韩女优图播一区二区| 亚洲成在人线在线播放无码| 国产成人精选在线不卡| 美腿丝袜一区在线观看| 18禁免费无码无遮挡不卡网站| 青草国产精品久久久久久| 亚洲AV无码一区二区三区少妇av | 日本女同性恋一区二区三区网站| 色老板美国在线观看| 国产偷国产偷亚洲清高| 亚洲日本视频一区二区三区| 在线观看免费日韩精品| 人妻无码aⅴ不卡中文字幕| 久久精品国产精品亚洲婷婷| 国产精品熟女少妇不卡|