亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Gate機(jī)制與Bi-LSTM-CRF的漢語語義角色標(biāo)注

        2018-05-09 08:48:36張苗苗張玉潔劉明童徐金安陳鈺楓
        關(guān)鍵詞:語義機(jī)制特征

        張苗苗,張玉潔,劉明童,徐金安,陳鈺楓

        (北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)

        0 引 言

        自然語言處理中的句子級分析技術(shù)分為3個層面:詞法分析(Lexical Analysis)、句法分析(Syntactic Parsing)以及語義分析(Semantic Parsing)。其中,語義分析是自然語言處理研究的關(guān)鍵問題,其目標(biāo)是理解句子表達(dá)的真實(shí)語義[1]。受限于當(dāng)前技術(shù)手段,很難對自然語言進(jìn)行深層的語義分析。因此,許多研究者開始關(guān)注較為淺層的語義分析任務(wù)。目前,語義角色標(biāo)注(Semantic Role Labeling, SRL)是淺層語義分析的一種主要實(shí)現(xiàn)方式,即標(biāo)注句子中的一些成分為給定謂詞的語義角色,并且賦予這些角色一定的語義含義,如施事、受事、時間、地點(diǎn)、原因等。圖1所示為語義角色標(biāo)注示例。語義角色標(biāo)注技術(shù)在機(jī)器翻譯、信息抽取、問答系統(tǒng)等領(lǐng)域都有著廣泛的應(yīng)用,其深入研究對自然語言處理領(lǐng)域的整體發(fā)展有著重要意義。

        圖1 漢語語義角色標(biāo)注示例

        傳統(tǒng)的基于特征的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,通常將語義角色標(biāo)注任務(wù)轉(zhuǎn)換為有監(jiān)督的分類問題。這類方法通常需要抽取很多人工設(shè)定的特征,存在特征稀疏、模型復(fù)雜和容易過擬合等問題。而深度學(xué)習(xí)由于可以自動學(xué)習(xí)特征,有效地減少特征工程工作,近年來被廣泛應(yīng)用到自然語言處理領(lǐng)域中。

        目前,在多種神經(jīng)網(wǎng)絡(luò)模型中,一種特殊循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)——長短時記憶網(wǎng)絡(luò)(Long-Short Term Memory, LSTM)[2]因?yàn)槟苡行Ю眯蛄袛?shù)據(jù)中長距離依賴信息,在序列標(biāo)注問題中表現(xiàn)出強(qiáng)大的優(yōu)勢。因此,本文使用基于LSTM的深度學(xué)習(xí)模型來解決漢語語義角色標(biāo)注問題。

        在很多基于神經(jīng)網(wǎng)絡(luò)的語義角色標(biāo)注模型中,詞向量表示通常是由上下文窗口中的詞嵌入拼接得到的。在這種情況下,詞向量表示可能依賴于左右詞嵌入同時出現(xiàn)的聯(lián)合作用,由此引入上下文中的無用信息。例如,句子“…其中,出口額最大的商品是服裝…”,給定謂詞“大”,在對“出口額”進(jìn)行語義角色標(biāo)注時,其左邊詞“其中”是無用的信息,甚至對“出口額”的標(biāo)注會產(chǎn)生負(fù)面影響。針對這一問題,本文引入Gate機(jī)制對詞向量表示進(jìn)行調(diào)整。

        本文采用Gate機(jī)制與深度Bi-LSTM神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的方法實(shí)現(xiàn)漢語語義角色標(biāo)注。該方法首先將詞、詞性等特征映射為實(shí)數(shù)向量,并將該向量作為神經(jīng)網(wǎng)絡(luò)的輸入。為了對輸入信息進(jìn)行去噪,本文引入Gate機(jī)制對特征向量進(jìn)行調(diào)整。然后采用2層Bi-LSTM獲取待標(biāo)注詞在句子中的上下文依賴。為了防止出現(xiàn)標(biāo)注偏置問題,引入標(biāo)簽轉(zhuǎn)移概率矩陣,并且使用CRF融合全局標(biāo)簽信息得出最優(yōu)標(biāo)注序列。此外,為了緩解神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過程中出現(xiàn)的過擬合問題,引入Dropout正則化方法。

        1 相關(guān)研究

        2004年,Sun等[3]對漢語語義角色標(biāo)注做了初步探索,從CTB中選取頻率較高的10個動詞,并在含有這些動詞的句子句法樹上人工標(biāo)注語義角色,構(gòu)造含有1138個句子的語料集,使用支持向量機(jī)進(jìn)行語義角色的分類,為之后的工作提供了依據(jù)和經(jīng)驗(yàn)。隨著中文語義角色標(biāo)注語料庫Chinese PropBank(CPB)的出現(xiàn),漢語語義角色標(biāo)注取得了很大進(jìn)展。Xue等[4]使用豐富的句法特征和最大熵分類器,在CPB語料集上,基于標(biāo)準(zhǔn)分詞、詞性標(biāo)注和自動句法分析,F(xiàn)1值達(dá)到71.90%。Sun等[5]使用部分句法樹上的特征,基于淺層句法分析對漢語語義角色標(biāo)注做了研究,性能提高到74.12%。Yang等[6]對句中包含多個謂詞的現(xiàn)象進(jìn)行了研究,充分考慮了多謂詞之間的相互關(guān)系和共享論元的全局信息,提出基于判別式重排序的多謂詞語義角色標(biāo)注方法,顯著提升了共享論元分類的效果。

        上述方法主要是基于特征的有指導(dǎo)機(jī)器學(xué)習(xí)方法,利用豐富的語言學(xué)知識抽取特征,并使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法對特征及特征組合進(jìn)行自動學(xué)習(xí)。這類方法雖然可以得到比較不錯的效果,但需要人工指定特征,難以提取更有效的特征;對訓(xùn)練語料的依賴性強(qiáng),易出現(xiàn)數(shù)據(jù)稀疏問題;對訓(xùn)練語料中未出現(xiàn)的實(shí)例,分類效果較差。此外,由于特征個數(shù)較多,導(dǎo)致模型的特征矩陣維度很高,容易造成模型的過擬合。

        近幾年,隨著深度學(xué)習(xí)技術(shù)的成熟,很多研究者開始使用神經(jīng)網(wǎng)絡(luò)模型來解決自然語言處理領(lǐng)域的任務(wù)。Collobert等[7-8]使用CNN模型在英文上進(jìn)行語義角色標(biāo)注,避免了過多的人為介入,實(shí)驗(yàn)結(jié)果接近英文語義角色標(biāo)注的最好水平。Zhou等[9]使用深度Bi-LSTM模型對英文語義角色標(biāo)注進(jìn)行了研究。Roth等[10]將依存句法路徑作為特征加入LSTM模型中,取得了不錯的效果。

        神經(jīng)網(wǎng)絡(luò)在漢語語義角色標(biāo)注的研究上也取得了很大進(jìn)展。王臻等[11]使用分層輸出的神經(jīng)網(wǎng)絡(luò)模型,將角色識別和角色分類分開進(jìn)行,最終得到64.19%的F1值。Wang等[12]使用Bi-LSTM模型,在不引入其它資源的情況下,超過了當(dāng)時已知的最好結(jié)果。Sha等[13]引入依存信息用于論元關(guān)系的識別,在CPB上取得了77.69的F1值。Guo等[14]重點(diǎn)關(guān)注句法路徑信息并使用Bi-LSTM對其進(jìn)行建模,從而提高了系統(tǒng)的性能。

        目前,性能較好的語義角色標(biāo)注系統(tǒng)大多基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)模型。受到LSTM[2]中的門控單元以及Tu等[15]在機(jī)器翻譯模型中使用的上下文門(Context Gates)的啟發(fā),本文提出在深度Bi-LSTM層之前,加入Gate機(jī)制對詞向量表示進(jìn)行過濾去噪??紤]標(biāo)簽之間的依賴關(guān)系,引入標(biāo)簽轉(zhuǎn)移概率矩陣;此外,使用最大間隔準(zhǔn)則(Max-Margin Criterion)對模型進(jìn)行訓(xùn)練,并引入Dropout正則化方法來緩解標(biāo)注模型的過擬合現(xiàn)象。最終在不引入其它任何異構(gòu)資源的情況下,漢語語義角色標(biāo)注模型的F1值達(dá)到79.40%,比Sha等[13]給出的結(jié)果高出1.71%。

        2 基于Gate機(jī)制與Bi-LSTM-CRF的SRL

        本文將語義角色標(biāo)注視為序列標(biāo)注問題,采用IOB序列表示法和CPB中的語義角色標(biāo)注體系。這種標(biāo)注體系將所有的語義角色分為2類:1)核心語義角色ARG0~ARG5。ARG0表示動作的施事,ARG1表示動作的受事,ARG2~ARG5則根據(jù)謂語動詞的不同具有不同的語義含義。2)附加語義角色。包括時間、地點(diǎn)、原因、方式等13個子類型,標(biāo)記為ARGM-X,如時間被標(biāo)記為ARGM-TMP,地點(diǎn)為ARGM-LOC。

        本文采用Gate機(jī)制與深度Bi-LSTM-CRF模型相結(jié)合的方法進(jìn)行漢語語義角色標(biāo)注,如圖2所示。首先,句中每個單詞的詞向量表示作為Gate機(jī)制的輸入。然后Gate機(jī)制對輸入信息進(jìn)行調(diào)整,之后Bi-LSTM獲取每個詞長距離的上下文特征。最后CRF層考慮單詞標(biāo)簽之間的制約關(guān)系,加入標(biāo)簽轉(zhuǎn)移概率矩陣,給出全局最優(yōu)標(biāo)注序列。此外,對神經(jīng)網(wǎng)絡(luò)的深度進(jìn)行擴(kuò)展,即在第1層Bi-LSTM的基礎(chǔ)上,再疊加一層Bi-LSTM,疊加時找到每個輸入對應(yīng)的第1層Bi-LSTM的輸出,連接到第2層Bi-LSTM相應(yīng)節(jié)點(diǎn)的輸入。

        圖2 基于Gate機(jī)制與2層Bi-LSTM-CRF模型的漢語語義角色標(biāo)注框架

        2.1 詞的特征向量表示

        利用神經(jīng)網(wǎng)絡(luò)處理序列標(biāo)注問題時,首先需要獲得詞的特征向量表示。本文中,為了減少大量的特征選擇工作,采用的特征有:當(dāng)前詞、當(dāng)前詞的詞性、謂詞、當(dāng)前詞到謂詞的距離。另外,針對一句話中可能存在多個相同謂詞的情況,設(shè)置了是否為謂詞(0/1)這一特征,即若當(dāng)前詞為謂詞,則為1,否則為0。本文對當(dāng)前詞、詞性這2個特征設(shè)置了特征窗口[-1,1],表示當(dāng)前詞和左右各一個詞及其詞性作為特征。將上述特征通過嵌入式向量引入模型,拼接后生成詞的特征向量表示。

        2.2 Gate機(jī)制

        本文對當(dāng)前詞及詞性特征設(shè)置了特征窗口,即利用固定上下文窗口內(nèi)詞語表示當(dāng)前詞。但是固定窗口內(nèi)的詞之間可能會有協(xié)同作用,使得模型在測試集上的性能下降。因此,引入Gate機(jī)制對詞向量表示進(jìn)行調(diào)整,使得固定窗口內(nèi)的詞嵌入以一定概率出現(xiàn),不再依賴于左右聯(lián)合詞嵌入的共同作用。

        由于本文的模型基于帶有門控單元的LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在這種情況下,Gate機(jī)制的引入顯得有些多余。但是,它們是互補(bǔ)的:Gate機(jī)制調(diào)節(jié)傳輸?shù)紹i-LSTM的詞向量表示,而LSTM中的門控單元則捕獲上下文之間的長距離依賴信息。該假設(shè)的正確性在實(shí)驗(yàn)中得到驗(yàn)證。

        Gate機(jī)制由一個Sigmoid神經(jīng)網(wǎng)絡(luò)層和逐點(diǎn)乘積操作組成。Sigmoid層的輸出在0~1之間,定義了信息通過的程度。設(shè)xt是第t個詞的原始特征向量表示,經(jīng)過Gate機(jī)制gt的選擇,得到輸出zt:

        zt=gt⊙xt

        (1)

        其中,⊙表示逐點(diǎn)乘積操作。而gt的定義如下:

        gt=σ(Wgxt+bg)

        (2)

        其中,σ取Sigmoid函數(shù),Wg表示當(dāng)前層的權(quán)值矩陣,bg表示偏置向量。

        2.3 多層Bi-LSTM神經(jīng)網(wǎng)絡(luò)模型

        RNN是一種時序網(wǎng)絡(luò)結(jié)構(gòu),能夠?qū)Υ罅繗v史信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸出的計(jì)算中,但由于梯度消失和梯度爆炸問題,使得訓(xùn)練一個長距離依賴的RNN比較困難。

        LSTM作為一種能捕捉長距離依賴信息的RNN網(wǎng)絡(luò)表現(xiàn)出其有效性。LSTM專門設(shè)計(jì)了記憶單元(Memory Cell)用于保存歷史信息。歷史信息的更新和利用分別受到3個門(Gate)的控制:輸入門(Input Gate)、遺忘門(Forget Gate)、輸出門(Output Gate),有效捕捉長距離特征。

        設(shè)h為LSTM單元的輸出,C為LSTM記憶單元的值,z為輸入數(shù)據(jù)。LSTM單元的更新可以分為以下6個步驟:

        (3)

        2)計(jì)算輸入門的值it,輸入門用于控制當(dāng)前數(shù)據(jù)輸入對記憶單元狀態(tài)值的影響。

        it=σ(Wizt+Uiht-1+bi)

        (4)

        3)計(jì)算遺忘門的值ft,遺忘門用于控制歷史信息對當(dāng)前記憶單元狀態(tài)值的影響。

        ft=σ(Wfzt+Ufht-1+bf)

        (5)

        4)計(jì)算當(dāng)前時刻記憶單元狀態(tài)值Ct,⊙表示逐點(diǎn)乘積。

        (6)

        5)計(jì)算輸出門的值ot,輸出門用于控制記憶單元狀態(tài)值的輸出。

        ot=σ(Wozt+Uoht-1+bo)

        (7)

        6)得到t位置的輸出狀態(tài)ht。

        ht=ot⊙tanh(Ct)

        (8)

        (9)

        如同普通的神經(jīng)網(wǎng)絡(luò)可以建立多個隱藏層得到深度神經(jīng)網(wǎng)絡(luò),Bi-LSTM同樣可以建立多層??紤]訓(xùn)練時間與標(biāo)注效果之間的平衡,本文使用2層Bi-LSTM作為語義角色標(biāo)注架構(gòu),將第1層Bi-LSTM的輸出作為第2層Bi-LSTM神經(jīng)網(wǎng)絡(luò)層相應(yīng)節(jié)點(diǎn)的輸入。

        2.4 標(biāo)簽推斷

        在序列標(biāo)注問題中,相鄰詞的標(biāo)簽間存在很強(qiáng)的依賴關(guān)系。例如,在IOB序列表示法中,標(biāo)簽B_ARG0之后只能是I_ARG0、O或者B_X,其余的標(biāo)簽都是非法的;而標(biāo)簽I_ARG0之前只能是B_ARG0或I_ARG0。在這種情況下,單獨(dú)考慮每個詞標(biāo)記的得分是不合適的。為此,在神經(jīng)網(wǎng)絡(luò)計(jì)算出輸入序列的各個詞的標(biāo)簽概率之后,加上一層CRF[16],對整個標(biāo)簽序列進(jìn)行全局歸一化處理,找到概率最大的最優(yōu)序列。

        為充分利用標(biāo)簽之間的依賴關(guān)系,Collobert等[8]提出了引入標(biāo)簽轉(zhuǎn)移概率矩陣的方法。因此,本文在實(shí)驗(yàn)中也加入了轉(zhuǎn)移概率矩陣A,用于排除不可能的標(biāo)簽序列。令A(yù)表示標(biāo)簽之間的轉(zhuǎn)移概率矩陣,則元素Aij表示標(biāo)簽i在下一時刻轉(zhuǎn)移到標(biāo)簽j的概率,對于不可能發(fā)生轉(zhuǎn)移的元素賦值為-10000,其余轉(zhuǎn)移則在模型訓(xùn)練中獲得。

        對于一個輸入句子序列x=(x1,x2,…,xn),其標(biāo)簽序列為y=(y1,y2,…,yn),P為雙向LSTM神經(jīng)網(wǎng)絡(luò)的計(jì)算得分矩陣,Pij表示句中第i個詞標(biāo)為第j個角色標(biāo)簽的得分,θ是模型中需要學(xué)習(xí)的參數(shù)。另外,用Ay0y1表示序列的第一個標(biāo)簽為y1的概率。于是,該標(biāo)簽序列的得分定義為:

        (10)

        本文使用Viterbi算法來推斷最優(yōu)標(biāo)簽序列。

        3 模型訓(xùn)練

        3.1 最大間隔準(zhǔn)則

        (11)

        (12)

        (13)

        最后,本文采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)優(yōu)化目標(biāo)函數(shù)。

        3.2 Dropout正則化

        Dropout是Srivastava等[18]提出的一種防止神經(jīng)網(wǎng)絡(luò)過擬合的正則化方法。王瑞波等[19]在漢語框架語義角色識別模型中引入Dropout正則化技術(shù),證明了該方法的有效性。Dropout正則化的主要思想是:在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的隱藏層節(jié)點(diǎn)按照給定概率進(jìn)行丟棄,且每次訓(xùn)練過程中隨機(jī)丟棄的隱藏層節(jié)點(diǎn)都不相同,這就使得每次訓(xùn)練的網(wǎng)絡(luò)是不一樣的。這樣,權(quán)值的更新不再依賴于有固定關(guān)系隱含節(jié)點(diǎn)的共同作用,阻止了某些特征僅僅在其它特定特征下才有效果的情況。

        本文對經(jīng)過Gate機(jī)制選擇的特征向量表示以及雙向LSTM層中的連接進(jìn)行隨機(jī)丟棄,其余的網(wǎng)絡(luò)結(jié)構(gòu)保持不變。

        4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        本文采用CPB數(shù)據(jù)集,它是在Chinese TreeBank(CTB)的基礎(chǔ)上,對句法樹的成分標(biāo)注語義角色。實(shí)驗(yàn)數(shù)據(jù)設(shè)置與前人工作[4-6,12-13]一致:訓(xùn)練集819個文件(chtb_081.fid~chtb_899.fid);開發(fā)集40個文件(chtb_041.fid~chtb_080.fid);測試集72個文件(chtb_001.fid~chtb_040.fid, chtb_900.fid~chtb_931.fid)。

        此外,本文采用語義角色標(biāo)注中廣泛使用的正確率(Precision)、召回率(Recall)和F1值作為評測指標(biāo)。

        4.2 超參數(shù)設(shè)置

        神經(jīng)網(wǎng)絡(luò)模型中超參數(shù)設(shè)置對模型性能會產(chǎn)生顯著影響。受前人工作啟發(fā),本文對超參數(shù)設(shè)定如下:

        1)維度設(shè)置。將當(dāng)前詞以及謂詞這2個特征的向量維度設(shè)置為150維;對于當(dāng)前詞詞性、是否為謂詞以及當(dāng)前詞到謂詞的距離,向量維度則為50維。

        2)其它超參數(shù)設(shè)置。學(xué)習(xí)率ɑ=0.01,隱藏層節(jié)點(diǎn)個數(shù)Hdim=300。對經(jīng)過Gate機(jī)制的特征向量表示,本文將Dropout的丟棄率設(shè)置為0.2;Bi-LSTM層的Dropout丟棄率則設(shè)置為0.5。最大間隔準(zhǔn)則中的比例調(diào)節(jié)參數(shù)η=0.2,正則化系數(shù)λ=0.0002。

        本文使用Glorot等[20]提出的方法對詞的特征向量表示進(jìn)行初始化,然后在模型訓(xùn)練過程中學(xué)習(xí)更新。

        4.3 實(shí)驗(yàn)結(jié)果分析

        本文基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行漢語語義角色標(biāo)注,而Bi-LSTM本身可以獲取長距離的上下文信息。在這種情況下,對當(dāng)前詞以及詞性特征設(shè)置上下文窗口是否有必要呢?因此,本文設(shè)置了相應(yīng)實(shí)驗(yàn)來驗(yàn)證上下文窗口對Bi-LSTM的影響,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 上下文窗口對Bi-LSTM的影響/%

        方法準(zhǔn)確率召回率F1-ContextWindow79.2975.4077.30+ContextWindow79.5875.9977.74

        從表1可以看出:不加上下文窗口時F1值僅為77.30%;而對當(dāng)前詞及詞性特征設(shè)置[-1,1]的上下文窗口后,模型的性能提高到77.74%(此時未加Gate機(jī)制)。由此可見,當(dāng)前詞的左右兩邊詞及其詞性對語義角色標(biāo)注的性能有一定的影響。因此,在Bi-LSTM網(wǎng)絡(luò)中,對詞、詞性等特征設(shè)置上下文窗口是有必要的。在接下來的實(shí)驗(yàn)中,對詞以及詞性特征都設(shè)置了上下文窗口。

        在對詞以及詞性特征設(shè)置上下文窗口的基礎(chǔ)上,在模型中加入Gate機(jī)制和標(biāo)簽轉(zhuǎn)移概率矩陣,采用2層Bi-LSTM對漢語語義角色標(biāo)注進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2中序號1所示。此外,為了測試Gate機(jī)制、神經(jīng)網(wǎng)絡(luò)的深度以及標(biāo)簽轉(zhuǎn)移概率矩陣對語義角色標(biāo)注性能的貢獻(xiàn)度,設(shè)置了3組對比實(shí)驗(yàn):

        1)驗(yàn)證Gate機(jī)制(GM)的效果。加入Gate機(jī)制與不加Gate機(jī)制的性能比較。

        2)驗(yàn)證深度神經(jīng)網(wǎng)絡(luò)的效果。2層Bi-LSTM與1層Bi-LSTM的性能比較。

        3)驗(yàn)證標(biāo)簽轉(zhuǎn)移概率矩陣(TM)的效果。加入標(biāo)簽轉(zhuǎn)移概率矩陣與不加的性能比較。

        表2 對比實(shí)驗(yàn)結(jié)果

        序號方法準(zhǔn)確率/%召回率/%F1/%1GM+2Bi-LSTM+TM82.4476.5779.4022Bi-LSTM+TM79.5875.9977.743GM+1Bi-LSTM+TM81.9476.6379.204GM+2Bi-LSTM79.6076.5278.03

        Gate機(jī)制對語義角色標(biāo)注性能的影響如表2所示。不加Gate機(jī)制時(序號2),模型的F1值僅為77.74%;然而,當(dāng)加入Gate機(jī)制后(序號1),模型的性能得到顯著提升,F(xiàn)值達(dá)到79.40%,提高了1.66%,證明了Gate機(jī)制的有效性。此外,這也說明了Gate機(jī)制與LSTM中的3種門(Input, Forget, Output)具有不同的作用。Gate機(jī)制主要用于對詞向量表示進(jìn)行調(diào)整,從而減弱由固定窗口引入的不確定信息;而LSTM則是通過門使上下文信息選擇性通過,從而解決信息保存問題,獲取長距離的上下文信息。Gate機(jī)制與LSTM中的門控單元在功能上互補(bǔ),從而使得語義角色標(biāo)注的性能得到顯著提升。

        圖3為是否加入Gate機(jī)制實(shí)驗(yàn)中的一組標(biāo)注結(jié)果。句子“…其中,出口額最大的商品是服裝…”對謂詞“大”進(jìn)行語義角色標(biāo)注:不加Gate機(jī)制時,“出口額”受特征窗口中“其中,”的影響,得到錯誤的標(biāo)簽“B_ARGM-LOC”;而加入Gate機(jī)制后,模型對詞向量表示進(jìn)行調(diào)整,“出口額”標(biāo)注為正確標(biāo)簽“B_ARG0”。

        圖3 是否加入Gate機(jī)制的標(biāo)注對比結(jié)果

        本文對多層Bi-LSTM網(wǎng)絡(luò)對模型性能的影響進(jìn)行了實(shí)驗(yàn),設(shè)置了2種網(wǎng)絡(luò)結(jié)構(gòu):1層Bi-LSTM和2層Bi-LSTM,具體實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)結(jié)果表明,當(dāng)網(wǎng)絡(luò)層數(shù)增加時,2層Bi-LSTM(序號1)能夠進(jìn)一步提取詞之間的深層次特征,與1層Bi-LSTM(序號3)相比,F(xiàn)1值提升0.20%。實(shí)驗(yàn)中,本文嘗試進(jìn)一步增加Bi-LSTM的層數(shù)。但是,隨著深度的增加,神經(jīng)網(wǎng)絡(luò)變得難以訓(xùn)練,訓(xùn)練時間加倍,并且容易出現(xiàn)過擬合問題,使得泛化能力變差。因此,本文采用2層Bi-LSTM網(wǎng)絡(luò)模型。

        影響語義角色標(biāo)注性能的另一個重要因素是是否加入標(biāo)簽轉(zhuǎn)移概率矩陣。從表2可以看出,不加標(biāo)簽轉(zhuǎn)移概率矩陣(序號4)時F1值為78.03%,加入后(序號1)F1值提升了1.37%,語義角色標(biāo)注的性能也得到明顯提升。

        標(biāo)簽轉(zhuǎn)移概率矩陣能夠考慮標(biāo)簽之間的制約關(guān)系,給標(biāo)注結(jié)果添加一種限制,保證了標(biāo)記序列的合法性。圖4給出了是否加入標(biāo)簽轉(zhuǎn)移概率矩陣實(shí)驗(yàn)中的一組標(biāo)注結(jié)果。“去年實(shí)現(xiàn)進(jìn)出口總值達(dá)一千零九十八點(diǎn)二億美元”對謂詞“達(dá)”進(jìn)行語義角色標(biāo)注:當(dāng)不使用標(biāo)簽轉(zhuǎn)移概率矩陣時,“去年實(shí)現(xiàn)”的標(biāo)簽“B_ARGM-TMP I_ARG0”是不合法的;而加入標(biāo)簽轉(zhuǎn)移概率矩陣后,“去年實(shí)現(xiàn)”得到了正確的標(biāo)簽序列“B_ARG0 I_ARG0”。

        圖4 是否加入Gate機(jī)制的標(biāo)注對比結(jié)果

        此外,將本文所得到的語義角色標(biāo)注模型的最優(yōu)性能與前人工作進(jìn)行比較,對比結(jié)果如表3所示。從表3中可以看出,在不引入任何其它資源的情況下,采用Gate機(jī)制與2層Bi-LSTM-CRF網(wǎng)絡(luò)相結(jié)合的模型,并且加入標(biāo)簽轉(zhuǎn)移概率矩陣,采用Dropout正則化來進(jìn)行訓(xùn)練,模型的標(biāo)注性能有了1.71%的提升(F1值),證明了本文方法的有效性。

        表3 語義角色標(biāo)注在CPB標(biāo)注集上的結(jié)果對比/%

        模型準(zhǔn)確率召回率F1值文獻(xiàn)[4]79.5065.6071.90文獻(xiàn)[5]79.2569.6174.12文獻(xiàn)[6]--75.31文獻(xiàn)[12]--77.09文獻(xiàn)[13]--77.69本文82.4476.5779.40

        5 結(jié)束語

        針對已有的基于神經(jīng)網(wǎng)絡(luò)模型方法的局限性,本文給出了一種融合Gate機(jī)制與深度Bi-LSTM-CRF的漢語語義角色標(biāo)注模型,并在CPB上進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明:Gate機(jī)制的加入使F1值提高了1.66%,顯著提升了語義角色標(biāo)注的性能;Bi-LSTM的深度在一定程度上也會對標(biāo)注結(jié)果產(chǎn)生影響;考慮標(biāo)簽之間的依賴關(guān)系,在模型中引入標(biāo)簽轉(zhuǎn)移概率矩陣,F(xiàn)1值提升了1.37%。此外,為了緩解模型過擬合現(xiàn)象,本文在模型訓(xùn)練過程中使用Dropout正則化方法。最終所得到的漢語語義角色標(biāo)注模型的F1值達(dá)到79.40%。

        今后,將擴(kuò)大實(shí)驗(yàn)規(guī)模,進(jìn)一步驗(yàn)證本文所提方法的有效性,同時探索依存句法信息在語義角色標(biāo)注中的使用。

        參考文獻(xiàn):

        [1] 中國中文信息學(xué)會. 中文信息處理發(fā)展報(bào)告(2016)[R]. 北京:中國中文信息學(xué)會, 2016.

        [2] Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997,9(8):1735-1780.

        [3] Sun Honglin, Jurafsky D. Shallow semantic parsing of Chinese[C]// Proceedings of the 2004 Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. 2004:249-256.

        [4] Xue Nianwen. Labeling Chinese predicates with semantic roles[J]. Computational Linguistics, 2008,34(2):225-255.

        [5] Sun Weiwei, Sui Zhifang, Wang Meng, et al. Chinese semantic role labeling with shallow parsing[C]// Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. 2009,3:1475-1483.

        [6] Yang Haitong, Zong Chengqing. Multi-predicate semantic role labeling[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. 2014:363-373.

        [7] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning[C]// Proceedings of the 25th International Conference on Machine Learning. 2008:160-167.

        [8] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. The Journal of Machine Learning Research, 2011,12:2493-2537.

        [9] Zhou Jie, Xu Wei. End-to-end learning of semantic role labeling using recurrent neural networks[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics. 2015:1127-1137.

        [10] Roth M, Lapata M. Neural semantic role labeling with dependency path embeddings[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016,1:1192-1202.

        [11] 王臻,常寶寶,穗志方. 基于分層輸出神經(jīng)網(wǎng)絡(luò)的漢語語義角色標(biāo)注[J]. 中文信息學(xué)報(bào), 2014,28(6):56-61.

        [12] Wang Zhen, Jiang Tingsong, Chang Baobao, et al. Chinese semantic role labeling with bidirectional recurrent neural networks[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. 2015:1626-1631.

        [13] Sha Lei, Jiang Tingsong, Li Sujian, et al. Capturing argument relationships for Chinese semantic role labeling[C]// Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016:2011-2016.

        [14] Guo Jiang, Che Wanxiang, Wang Haifeng, et al. A unified architecture for semantic role labeling and relation classification[C]// Proceedings of the 26th International Conference on Computational Linguistics. 2016:1264-1274.

        [15] Tu Zhaopeng, Liu Yang, Lu Zhengdong, et al. Context gates for neural machine translation[J]. Transactions of the Association for Computational Linguistics, 2017,5:87-99.

        [16] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the 18th International Conference on Machine Learning. 2001:282-289.

        [17] Taskar B, Chatalbashev V, Koller D, et al. Learning structured prediction models: A large margin approach[C]// Proceedings of the 22nd International Conference on Machine Learning. 2005:896-903.

        [18] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014,15:1929-1958.

        [19] 王瑞波,李濟(jì)洪,李國臣,等. 基于Dropout正則化的漢語框架語義角色識別[J]. 中文信息學(xué)報(bào), 2017,31(1):147-154.

        [20] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]// Proceedings of the 13th International Conference on Artificial Intelligence and Statistics. 2010:249-256.

        猜你喜歡
        語義機(jī)制特征
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個特征
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        抓住特征巧觀察
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        破除舊機(jī)制要分步推進(jìn)
        認(rèn)知范疇模糊與語義模糊
        注重機(jī)制的相互配合
        打基礎(chǔ) 抓機(jī)制 顯成效
        中國火炬(2014年4期)2014-07-24 14:22:19
        久久中文字幕无码一区二区| 午夜性刺激免费看视频| 亚洲精品高清av在线播放| 蜜桃av夺取一区二区三区| 亚洲中文字幕乱码免费看| 24小时免费在线观看av| 18精品久久久无码午夜福利 | 最新国产精品拍自在线观看| 亚洲av麻豆aⅴ无码电影| 久久精品波多野结衣中文字幕| 亚洲精品一区二区在线播放| 天堂av网手机线上天堂| 欧美人牲交| 欧美在线视频免费观看| 大白屁股流白浆一区二区三区| 少妇高潮久久蜜柚av| 麻豆国产一区二区三区四区| 国产丝袜在线精品丝袜| 99久久国语露脸精品国产| 五月婷婷六月激情| 国产精品高清亚洲精品| 久久精品国产亚洲av超清| 国产七十六+老熟妇| 国产乱子伦精品免费无码专区| 中文字幕一区二区三区日韩网| av天堂亚洲另类色图在线播放| 狠狠噜狠狠狠狠丁香五月| 女性女同性aⅴ免费观女性恋| 欧美人与物videos另类xxxxx| 中国精品视频一区二区三区| 日本老熟女一区二区三区| 97一期涩涩97片久久久久久久| 天天看片视频免费观看| 国产精品涩涩涩一区二区三区免费| 日本黄色影院一区二区免费看 | 精品国产女主播一区在线观看| 亚洲va韩国va欧美va| 国产精品亚洲日韩欧美色窝窝色欲| 蜜桃一区二区三区自拍视频| 国产一区二区三区天堂| 中文字幕日韩三级片|