亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于棧式降噪自編碼和詞嵌入表示的維吾爾語零指代消解

        2018-06-14 07:38:42田生偉馮冠軍吐爾根依布拉音艾斯卡爾艾木都拉趙建國
        中文信息學(xué)報 2018年5期
        關(guān)鍵詞:維吾爾語指代先行

        秦 越,禹 龍,田生偉,馮冠軍,吐爾根·依布拉音,艾斯卡爾·艾木都拉,趙建國

        (1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046; 2. 新疆大學(xué) 網(wǎng)絡(luò)中心,新疆 烏魯木齊 830046;3. 新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008; 4. 新疆大學(xué) 人文學(xué)院 新疆 烏魯木齊 830046)

        0 引言

        指代(anaphora)是常見的自然語言現(xiàn)象,它是指在語篇中用一個指代詞回指前文出現(xiàn)過的某一語言單位。在維吾爾語語篇中,能夠通過上下文語境判斷出的部分經(jīng)常被省略,被省略的部分在語句中承擔(dān)相應(yīng)的句法成分,且指代前文中出現(xiàn)過的某一語言單位,這一現(xiàn)象稱為零指代。被省略的部分稱為零指代項,被指代的語言單位稱為先行語(antecedent)。如例句所示,其中“φ”代表零代詞出現(xiàn)的位置(維吾爾語書寫習(xí)慣為從右向左)。

        例:

        (譯: 這時候克斯買提喬魯克從路那邊走過來了,[φ]手上拿著一個有五角星的帽子和軍綠色的水壺。)

        近年來,隨著機(jī)器學(xué)習(xí)的深入研究,基于機(jī)器學(xué)習(xí)方法在零指代消解研究中得到運(yùn)用。Zhao等[2]首先提出一個完整的關(guān)于機(jī)器學(xué)習(xí)的中文零指代消解方法,并提出適用于中文零指代消解任務(wù)的特征集。Kong等[3]設(shè)計了完整的中文零指代消解框架,并采用基于樹核函數(shù)的方法完成對零元素消解子任務(wù)。Chen等[4]提出一個端到端中文零指代消解平臺,并提取一系列更有效的句法和上下文特征。Chen等[5]采用深度神經(jīng)網(wǎng)絡(luò)思想,有監(jiān)督地學(xué)習(xí)高層特征并完成中文零指代消解任務(wù)。Ryu Iida等[6]提出使用多列卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行日語零指代消解。由前人工作可知,基于機(jī)器學(xué)習(xí)的零指代消解能夠有效提高性能,而深度學(xué)習(xí)機(jī)制則能夠?qū)W習(xí)文本中高層特征和深層語義信息。

        目前,零指代消解研究主要集中在中文等大語種,對同樣出現(xiàn)缺省現(xiàn)象的維吾爾語等少數(shù)民族語言研究不夠深入。針對此問題,本文探索維吾爾語中缺省零代詞的消解問題,將富含上下文語義信息和句法信息的詞嵌入表示(word embedding)向量作為候選先行語和缺省零代詞的語義特征表達(dá),并依據(jù)維吾爾語語言特點,提取針對本任務(wù)的14項hand-crafted特征,融合上述兩類特征作為棧式降噪自編碼(Stacked Denoising Autoencoder)的輸入,采用無監(jiān)督學(xué)習(xí)機(jī)制預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù),并使用有監(jiān)督的微調(diào)反向調(diào)優(yōu),從而學(xué)習(xí)文本中的深層語義信息和隱含內(nèi)部聯(lián)系。此外,SDAE對原始數(shù)據(jù)加噪,使其能夠從含噪數(shù)據(jù)中學(xué)習(xí)到更具魯棒性的特征表達(dá),有助于維吾爾語零指代消解性能的提升。

        1 相關(guān)工作

        鑒于深度學(xué)習(xí)在計算機(jī)視覺及語音識別等領(lǐng)域取得重大突破,學(xué)者們試圖在自然語言處理研究中運(yùn)用深度學(xué)習(xí)技術(shù)。語言中蘊(yùn)含豐富的語義信息和隱藏的語境表達(dá),深度學(xué)習(xí)機(jī)制通過多層神經(jīng)網(wǎng)絡(luò)的逐層學(xué)習(xí),能夠?qū)?fù)雜的特征映射為抽象的高層語義特征,其強(qiáng)大的無監(jiān)督學(xué)習(xí)方式及特征提取能力解決了眾多自然語言處理問題。其中,李陽輝等[7]采用降噪自編碼器的深度學(xué)習(xí)算法實現(xiàn)文本信息的情感分析;張開旭等[8]使用自動編碼器無監(jiān)督地學(xué)習(xí)語料中詞匯的分布信息,完成分詞、詞性標(biāo)注任務(wù);劉勘等[9]提出采用深度噪聲稀疏自動編碼器提取文本中的本質(zhì)特征并且在短文本聚類研究中取得良好效果。

        維吾爾語語篇中包含豐富的語義,但也存在非必要的信息影響零指代消解性能,為了使包含“雜質(zhì)”的數(shù)據(jù)復(fù)現(xiàn)原始信息,需要對噪聲與冗余語義具備良好的魯棒性,因此本文采用基于深度學(xué)習(xí)機(jī)制的棧式降噪自編碼進(jìn)行維吾爾語零指代消解。通過對原始數(shù)據(jù)加入一定比例的噪聲,增強(qiáng)自動編碼器的特征表達(dá)并使模型具備較強(qiáng)的去噪能力,經(jīng)過多層特征提取及多次迭代,使模型學(xué)習(xí)到更具魯棒性和有效性的深層語義特征,完成維吾爾語零指代消解任務(wù)。

        2 基于SDAE的維吾爾語零指代消解

        基于SDAE維吾爾語零指代消解流程如圖1所示。首先對待消解的零指代項φ與其候選先行語進(jìn)行配對,表述為<候選先行語,φ>的形式(為方便表達(dá),該內(nèi)容將在2.2節(jié)中描述),將配對完成的零指代對進(jìn)行特征抽取,本文把維吾爾語零指代消解特征分為兩部分: word embedding特征與hand-crafted特征;其次對訓(xùn)練實例和測試實例進(jìn)行抽取,并將訓(xùn)練實例送入模型中,經(jīng)加噪處理后學(xué)習(xí)得到更具魯棒性的深層語義特征,然后將測試實例送入訓(xùn)練調(diào)優(yōu)完備的模型中進(jìn)行測試,最后使用softmax分類器判斷每個零指代對<候選先行語,φ>是否存在指代關(guān)系,最終完成維吾爾語零指代消解任務(wù)。

        圖1 基于SDAE的維吾爾語零指代消解流程

        2.1 特征抽取

        與圖像不同的是,文本中不包含形如像素點這樣可直接利用的特征信息,然而語篇中蘊(yùn)含豐富的語義、語法及句法等信息,準(zhǔn)確的特征抽取有利于深度學(xué)習(xí)模型進(jìn)一步挖掘高層面語義特征,本文將維吾爾語零指代消解特征集分為兩部分: word embedding特征和hand-crafted特征。其中,word embedding特征用于表述零指代項φ及其候選先行語的語義特征,此外,另抽取14項hand-crafted特征用于描述維吾爾語零指代現(xiàn)象,刻畫零指代項φ與其候選先行語之間的聯(lián)系。

        2.1.1 word embedding特征

        本文引入富含上下文語義信息及句法信息的word embedding[10]表述缺省零指代項φ及其候選先行語的語義層面特征。將候選先行語的word embedding作為候選先行語的語義特征;然而零指代項為缺省項,語篇中不包含零指代項的詞嵌入表示,因此本文使用零指代項前一個詞匯的word embedding及后一個詞匯的word embedding來表示零指代項φ的上下文語義特征。若零指代項為語句的句首,即零指代項無前一個詞匯,則用相同維度的0向量,表示零指代項的前一個詞匯。

        基于神經(jīng)網(wǎng)絡(luò)思想的詞嵌入表示通過大規(guī)模語料庫無監(jiān)督地學(xué)習(xí),將詞匯進(jìn)行語義的分布式表示,每個詞匯由低維、稠密、連續(xù)的實值特征向量替代原先的one-hot稀疏向量,表示了詞匯間的語法特征及語義相似性,因此本文引入詞嵌入表示作為維吾爾語零指代消解特征類型之一。

        2.1.2 hand-crafted特征

        hand-crafted特征用于表示零指代項φ及候選先行語間的聯(lián)系,凸顯了零指代方面的知識表示,并依據(jù)維吾爾語語言特性刻畫零指代現(xiàn)象,根據(jù)維吾爾語零指代消解研究,提取針對本任務(wù)的hand-crafted特征如下:

        (1) 候選先行語是否為代詞(CandiPron.)

        (2) 候選先行語是否為包含領(lǐng)屬性人稱詞尾的名詞短語(CandiPossession)

        (3) 候選先行語是否為包含賓格標(biāo)志的名詞短語(CandiObject)

        (4) 候選先行語是否存在嵌套(CandiNest)

        該屬性取值FCandiNest={0,1}。若候選先行語嵌套于其他名詞短語內(nèi),特征值取1,否則取0。

        (5) 候選先行語的語義角色是否為施事者(CandiArg0)

        該屬性取值FCandiArg0={0,1}。若候選先行語的語義角色為施事者,特征值取1,否則取0。

        (6) 候選先行語的語義角色是否為受事者(CandiArg1)

        該屬性取值FCandiArg1={0,1}。若候選先行語的語義角色為受事者,特征值取1,否則取0。

        (7) 候選先行語是否在可被消解的名詞短語集合{Obj-Zero}中(CandiInSet)

        該屬性取值FCandiInSet={0,1}。若候選先行語在可被消解的名詞短語集合{Obj-Zero}中,特征值取1,否則取0。

        (8) 候選先行語是否存在句法關(guān)系中的主謂關(guān)系(CandiSBV)

        該屬性取值FCandiSBV={0,1}。若候選先行語存在句法關(guān)系中的主謂關(guān)系,特征值取1,否則取0。

        (9) 候選先行語是否存在句法關(guān)系中的動賓關(guān)系(CandiVOB)

        該屬性取值FCandiVOB={0,1}。若候選先行語存在句法關(guān)系中的動賓關(guān)系,特征值取1,否則取0。

        (10) 候選先行語是否存在語義關(guān)系中的施事關(guān)系(CandiAgt)

        該屬性取值FCandiAgt={0,1}。若候選先行語存在語義關(guān)系中的施事關(guān)系,特征值取1,否則取0。

        (11) 候選先行語是否存在語義關(guān)系中的受事關(guān)系(CandiPat)

        該屬性取值FCandiPat={0,1}。若候選先行語存在語義關(guān)系中的受事關(guān)系,特征值取1,否則取0。

        (12) 零指代項φ是否出現(xiàn)在語句的開頭(ZeroBegin)

        該屬性取值FZeroBegin={0,1}。若零指代項φ出現(xiàn)在語句的開頭,特征值取1,否則取0。

        (13) 零指代項φ是否在語句中的主語或賓語位置(ZeroPosition)

        該屬性取值FZeroPosition={0,1}。若零指代項φ在語句中的主語或賓語位置,特征值取1,否則取0。

        (14) 零指代項φ與候選先行語間的距離(BothDistance)

        距離特征指的是零指代項φ與候選先行語之間語句編號的空間距離[11]。若空間距離越遠(yuǎn),零指代項φ與候選先行語發(fā)生指代關(guān)系的可能性越小,定義特征值f(d)=0.1×d,0≤d<4,對空間距離逆向取值。

        設(shè)空間距離為d,因在構(gòu)建訓(xùn)練/測試樣例時,已配對的<候選先行語,φ>僅考慮4句之內(nèi),所以定義d取值為0≤d<4。

        2.2 訓(xùn)練實例與測試實例構(gòu)建

        將零指代項φ與它之前出現(xiàn)過的名詞短語依次配對,并根據(jù)2.1節(jié)的特征描述生成訓(xùn)練實例和測試實例。

        生成訓(xùn)練實例時,指代鏈信息已知。對識別出的零指代項φ,查找其是否位于某條指代鏈中,若不在,則視為非待消解項,不必為其尋找先行語,進(jìn)行下一個零指代項φ的查找;若在某條指代鏈中,則為零指代項φ尋找合適的先行語。經(jīng)維吾爾語語料統(tǒng)計,選取與φ距離為四句之內(nèi)的名詞短語NP0,NP1,…,NPn為候選先行語,依次配對。如圖2所示,若存在NPi(0為正例;φ與NPi+1,…,NPn配對的名詞短語對為負(fù)例,將生成的訓(xùn)練實例輸入模型進(jìn)行訓(xùn)練。

        圖2 維吾爾語零指代對配對

        生成測試實例與生成訓(xùn)練實例過程類似,但指代鏈信息未知。對識別出的零指代項φ選取與其四句之內(nèi)的名詞短語,配對為<候選先行語,φ>對,將測試實例交由模型判斷,若模型判斷該實例為正例,則<候選先行語,φ>存在指代關(guān)系;若判斷為負(fù)例,則<候選先行語,φ>不存在指代關(guān)系。

        表1為引言中的例句依據(jù)2.1節(jié)抽取特征生成的訓(xùn)練/測試樣例。

        表1 維吾爾語零指代消解訓(xùn)練樣例和測試樣例

        2.3 基于SDAE的維吾爾語零指代消解模型

        2.3.1 自動編碼器

        自動編碼器(autoencoder,AE)為無監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),AE由編碼器和解碼器組成,包括輸入層、隱藏層和輸出層。AE嘗試學(xué)習(xí)形如hw,b(x)≈x的函數(shù),使得輸出hw,b(x)無限接近于輸入x,從而將輸入信號從目標(biāo)中重構(gòu)出來,盡可能完整地保留原有特征信息。

        (1) AE編碼階段: 編碼器將n維輸入向量x∈Rn通過編碼函數(shù)fθ(x)映射到y(tǒng),如式(1)所示。

        y=fθ(x)=s(Wx+b)

        (1)

        其中θ={W,b}為編碼參數(shù),s為sigmoid(.)激活函數(shù)。

        (2) AE解碼階段: 解碼器將y反向變換,得到對原始輸入x的重構(gòu)表示z,y與z滿足式(2)。

        z=gθ′(y)=s(W′y+b′)

        (2)

        其中θ′={W′,b′}為解碼參數(shù)。最后通過不斷地調(diào)整θ和θ′的值,得到最小化重構(gòu)誤差J,重構(gòu)誤差如式(3)所示。

        (3)

        其中D為訓(xùn)練樣本集合,L為重構(gòu)誤差函數(shù),本文選擇交叉熵誤差函數(shù),如式(4)所示。

        (4)

        2.3.2 降噪自動編碼器

        維吾爾語文本中包含豐富的語義信息,同樣也存在干擾語義影響零指代消解性能信息,因此對模型學(xué)習(xí)出的特征提出更高的要求,訓(xùn)練得到的模型必須具備較強(qiáng)的魯棒性。為了使AE具備魯棒性的特征表達(dá),Vincent[12]提出降噪自編碼神經(jīng)網(wǎng)絡(luò)(denoising autoencoder,DAE),DAE與AE類似,也需要編碼與解碼過程來重構(gòu)數(shù)據(jù),同屬于無監(jiān)督學(xué)習(xí)。但不同的是,DAE在AE的基礎(chǔ)上,對原始輸入數(shù)據(jù)加入一定比例的噪聲污染,經(jīng)過編碼與解碼階段后,最終映射還原出更具魯棒性的特征信息,提高了基本AE對輸入數(shù)據(jù)的泛化能力。

        設(shè)原始輸入數(shù)據(jù)為X,DAE通過一個隨機(jī)映射變換X~qD(X′|X),對原始輸入數(shù)據(jù)X進(jìn)行“破壞”,進(jìn)而得到一個含有噪聲污染的數(shù)據(jù)X′,其中D為數(shù)據(jù)集,則DAE的編碼器輸出如式(5)所示。

        Y′=fθ(X)=s(WX′+b)

        (5)

        接著通過解碼器將Y′反向變換,得到對原始輸入數(shù)據(jù)X的重構(gòu)表示Z,Y′與Z滿足式(6)。

        Z=gθ′(Y′)=s(W′Y′+b′)

        (6)

        2.3.3 維吾爾語零指代消解的SDAE模型

        深度神經(jīng)網(wǎng)絡(luò)經(jīng)過多層非線性表達(dá)能夠?qū)W習(xí)出更有效的特征,而SDAE由多個DAE疊加,對每個DAE加入一定比例的噪聲ρ能夠?qū)W習(xí)更強(qiáng)健的特征表達(dá)。基于維吾爾語零指代消解的SDAE,由多層DAE與一層softmax分類器構(gòu)成,其結(jié)構(gòu)如圖3所示。其中,DAE數(shù)目作為模型的一個重要參數(shù),將在3.2.1節(jié)實驗部分討論如何確定。將多層DAE學(xué)習(xí)到的特征作為softmax分類器的輸入,若<候選先行語,φ>存在指代關(guān)系,標(biāo)簽為1;若不存在指代關(guān)系,則標(biāo)簽為0。由分類器判斷<候選先行語,φ>是否存在指代關(guān)系,從而完成零指代消解任務(wù)。

        SDAE的學(xué)習(xí)分為無監(jiān)督逐層貪婪的預(yù)訓(xùn)練與有監(jiān)督的微調(diào)。當(dāng)模型在逐層預(yù)訓(xùn)練過程時,訓(xùn)練每一層DAE的輸入數(shù)據(jù)為加入一定比例噪聲ρ的數(shù)據(jù)信息,在微調(diào)過程中使用未加噪聲的原始數(shù)據(jù)對整個SDAE網(wǎng)絡(luò)進(jìn)行微調(diào),圖3體現(xiàn)了預(yù)訓(xùn)練過程與反向微調(diào)過程。

        模型學(xué)習(xí)的具體過程如下:

        (1) 無監(jiān)督的預(yù)訓(xùn)練(pre-training)

        Step1將無標(biāo)簽的零指代消解訓(xùn)練數(shù)據(jù)加入一定比例的噪聲ρ,生成樣本數(shù)據(jù)X'作為第一個DAE的輸入,利用DAE的重構(gòu)方式,訓(xùn)練得到隱藏層1的權(quán)重參數(shù)θ1,同時計算出隱藏層1的輸出Y1;

        圖3 SDAE模型結(jié)構(gòu)及預(yù)訓(xùn)練、微調(diào)過程

        Step3用同樣的方法將上一層的輸出數(shù)據(jù)加入相同比例的噪聲ρ,作為第n個DAE的輸入,訓(xùn)練得到隱藏層n的權(quán)重參數(shù)θn,并計算出隱藏層n的輸出Yn;

        Step4將Step3隱藏層的輸出作為softmax分類器的輸入,使用零指代消解標(biāo)簽訓(xùn)練得到softmax分類器的參數(shù)θn+1;

        Step5將Step1~Step4逐層訓(xùn)練得到的網(wǎng)絡(luò)參數(shù)θ1,θ2,…,θn,θn+1作為網(wǎng)絡(luò)的初始參數(shù),完成模型預(yù)訓(xùn)練。

        (2) 有監(jiān)督的微調(diào)(fine-tuning)

        微調(diào)是采用少量標(biāo)簽數(shù)據(jù)進(jìn)行有監(jiān)督訓(xùn)練,與此同時對全局網(wǎng)絡(luò)訓(xùn)練中的誤差進(jìn)行優(yōu)化,微調(diào)的作用是對整個SDAE+softmax網(wǎng)絡(luò)的權(quán)重進(jìn)行調(diào)優(yōu),使模型具備更精準(zhǔn)的特征提取和學(xué)習(xí)能力。

        Step1使用帶標(biāo)簽的維吾爾語零指代消解訓(xùn)練數(shù)據(jù)作為輸入數(shù)據(jù),對SDAE+softmax進(jìn)行全局訓(xùn)練,計算整個網(wǎng)絡(luò)的損失函數(shù),以及對每個參數(shù)的偏導(dǎo)函數(shù);

        Step2如圖4所示,采用誤差反向傳播算法并運(yùn)用隨機(jī)梯度下降法對網(wǎng)絡(luò)權(quán)值進(jìn)行優(yōu)化,將這些參數(shù)作為SDAE+softmax整個網(wǎng)絡(luò)的最優(yōu)參數(shù)。

        圖4 誤差反向傳播算法流程圖

        3 實驗與分析

        本文針對維吾爾語零指代現(xiàn)象,對語料進(jìn)行篩選及標(biāo)注,實驗語料以人民網(wǎng)、天山網(wǎng)、昆侖網(wǎng)及論壇、博客等維吾爾語版網(wǎng)頁為來源,利用網(wǎng)絡(luò)爬蟲或人工下載頁面,對頁面內(nèi)容進(jìn)行去噪處理,最終獲得實驗所需的原始文本。為確保語料的普遍性,語料內(nèi)容涵蓋了新聞、人物、科普等。語料采取人工標(biāo)注方式,在實驗組維吾爾語語言學(xué)專家的指導(dǎo)下,將語料標(biāo)注完畢并用XML文件存儲。實驗測評方式采用準(zhǔn)確率P、召回率R和F值考察零指代性能,其中,P指正確消解的實體占實際消解的實體的百分比;R指正確消解的實體占消解系統(tǒng)應(yīng)消解實體的百分比;F值為準(zhǔn)確率和召回率的綜合評價指標(biāo),即:F=2×R×P/(R+P)。

        實驗選擇并標(biāo)注維吾爾語語料179篇,包含維吾爾語語句900余句,配對完成的零指代對<候選先行語,φ>共3 286對,其中,存在指代關(guān)系的零指代對<候選先行語,φ>1 038對,不存在指代關(guān)系的零指代對<候選先行語,φ>2 248對,為避免實驗不確定性,確保數(shù)據(jù)隨機(jī)性,本文實驗均采取五折交叉驗證法進(jìn)行,將80%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余20%的數(shù)據(jù)作為測試數(shù)據(jù)。

        3.1 實驗設(shè)計

        為了從不同角度考察維吾爾語零指代消解的性能,本文設(shè)計了以下五組實驗: ①SDAE不同隱藏層層數(shù)對性能的影響; ②SDAE的噪聲比對性能的影響; ③不同維度的詞嵌入表示對性能的影響;④word embedding特征與hand-crafted特征對性能的影響; ⑤維吾爾語零指代消解模型SDAE與棧式降噪自編碼、淺層機(jī)器學(xué)習(xí)的支持向量機(jī)(support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)性能對比。

        此外,本文對原有實驗語料進(jìn)行擴(kuò)充,額外從大型維吾爾語網(wǎng)站獲取共約7 000余篇題材豐富的生語料,進(jìn)行去重、去噪處理后,使用Mikolov[13]提出的Word2Vec工具,選擇Skip-gram模型作為訓(xùn)練框架,訓(xùn)練k維(k=10,50,100,150)的word embedding向量。

        在實驗過程中,先選擇維度為50的詞向量作為word embedding特征;SDAE的噪聲系數(shù)取值為[0,1],先折中選擇噪聲系數(shù)為0.5,在后續(xù)實驗考察中將確定它們的最優(yōu)值。經(jīng)過反復(fù)嘗試網(wǎng)絡(luò)模型的不同參數(shù)組合,確定了基于本實驗數(shù)據(jù)量下的最優(yōu)參數(shù),如表2所示。

        表2 模型最優(yōu)參數(shù)

        續(xù)表

        3.2 實驗分析

        3.2.1 SDAE不同層數(shù)對性能的影響

        一般來說,模型中若包含更多的網(wǎng)絡(luò)層,則能學(xué)習(xí)到更本質(zhì)的數(shù)據(jù)表達(dá)與更抽象的特征,然而網(wǎng)絡(luò)層數(shù)過多,會增加網(wǎng)絡(luò)訓(xùn)練成本與計算難度,導(dǎo)致模型過擬合。SDAE的層數(shù)作為重要參數(shù)之一,本節(jié)采用DAEi(i為DAE的個數(shù))表示SDAE隱藏層層數(shù),實驗結(jié)果如表3所示。

        表3 不同隱藏層層數(shù)的零指代消解性能

        由表3可知,反映P和R整體性能的F值隨著隱藏層層數(shù)的增加而增加,在隱藏層層數(shù)為4時達(dá)到最優(yōu),為56.784%,在隱藏層層數(shù)為5時F值回落,說明本文中維吾爾語零指代消解的性能在第四層為最佳。隨著SDAE隱藏層層數(shù)的增加,F(xiàn)值逐漸提高,這是由于深度學(xué)習(xí)機(jī)制通過多層映射單元提取主要的結(jié)構(gòu)信息,能夠挖掘文本中隱含的深層語義信息,然而在第五層F值并未提升,說明基于本研究的SDAE深度為4已足夠,SDAE通過堆疊多層DAE,達(dá)到學(xué)習(xí)數(shù)據(jù)中有價值特征的目的,最終提升零指代消解性能。所以“深度模型”是手段,“特征學(xué)習(xí)”是目的[14]。因此在本文中確定SDAE的層數(shù)為4。

        3.2.2 SDAE的噪聲比對性能的影響

        在SDAE的學(xué)習(xí)過程中,為了能夠從原始文本中挖掘到更具魯棒性的特征,對每層DAE的輸入數(shù)據(jù)均添加一定比例的人工噪聲。為了探索噪聲比對零指代消解性能的影響,本節(jié)將噪聲比取值[0.2,0.95]進(jìn)行實驗,實驗結(jié)果如圖5所示。

        圖5 不同噪聲比的零指代消解性能

        由圖5可知,隨著噪聲比的增加,反映P和R整體性能的F值先呈上升趨勢,在噪聲比為0.45時達(dá)到最優(yōu),F(xiàn)值達(dá)到57.711%,表明在該噪聲比下,模型學(xué)習(xí)數(shù)據(jù)中魯棒性深層語義特征的能力為最優(yōu);隨后F值呈下降趨勢,說明過大的噪聲比使數(shù)據(jù)受損嚴(yán)重,導(dǎo)致模型學(xué)習(xí)能力降低,從而造成零指代消解性能下降。因此在本文中確定SDAE的最優(yōu)噪聲比為0.45。

        3.2.3 不同維度的詞嵌入表示對性能的影響

        詞嵌入表示維度是生成word embedding向量的參數(shù)之一,本節(jié)分別采用詞向量的維度為10維、100維、150維的word embedding向量,用以考察不同維度下的word embedding特征對零指代消解性能的影響,實驗結(jié)果如表4所示。

        表4 不同維度的word embedding特征對零指代消解性能的影響

        由表4可知,F(xiàn)值隨著維度的增加先上升,在50維時達(dá)到最優(yōu),然而維度達(dá)到100維時的F值較50維時有回落;150維與100維相比,F(xiàn)值也并未顯著增加。F值先上升,這是因為50維較10維包含更為豐富的語義信息和上下文特征,使得模型能夠挖掘更多的有用信息;F值接著下降,這是因為100維和150維的維度較大,生成訓(xùn)練實例的維度也相應(yīng)較大,增加了模型的訓(xùn)練難度,產(chǎn)生過擬合,使模型對數(shù)據(jù)的泛化能力降低,因此在本任務(wù)中50維的詞嵌入表示已足夠滿足需求。

        3.2.4 word embedding特征和hand-crafted特征對性能的影響

        word embedding特征表述了零指代項與候選先行語語義層面的表達(dá),而hand-crafted特征則表述了零指代研究層面的知識表示,為了探索word embedding特征與hand-crafted特征對性能的影響,本節(jié)分別將word embedding特征與hand-crafted特征作為模型輸入,與包含全部兩類特征做輸入的模型作對比,實驗結(jié)果如表5所示。

        表5 Fword embedding與Fhand-crafted對性能的影響

        由表5可知,僅用word embedding特征與僅用hand-crafted特征條件下,與包含全部兩類特征的F值相比,分別降低6.211%與8.374%。驗證了本文將word embedding特征與hand-crafted特征融合,將二者共同作為維吾爾語零指代消解任務(wù)特征的有效性與可行性。在僅用word embedding特征的情況下,雖包含豐富的語義與句法信息,然而缺少了零指代消解研究方面的知識表示;在僅用hand-crafted特征的情況下,雖刻畫了維吾爾語零指代現(xiàn)象,但缺乏語義層面的聯(lián)系,因此將word embedding特征與hand-crafted特征結(jié)合,相輔相成,用以解決零指代消解問題。

        3.2.5 SDAE與其他模型性能對比

        為驗證本文方法的有效性,將SDAE模型與傳統(tǒng)棧式自編碼SAE、淺層機(jī)器學(xué)習(xí)SVM、ANN的性能做對比,其中,SAE與SDAE的網(wǎng)絡(luò)結(jié)構(gòu)與模型參數(shù)相同;SVM采用RBF核函數(shù),γ=1;ANN采用三層隱層網(wǎng)絡(luò)結(jié)構(gòu),節(jié)點數(shù)為55,迭代次數(shù)為100,批尺寸為30。實驗結(jié)果如表6所示。

        表6 SDAE與其他模型性能對比

        由表6可知: SDAE的F值與SAE相比,提高了4.450%,且SDAE與淺層機(jī)器學(xué)習(xí)SVM與ANN相比,F(xiàn)值均有明顯提升;而基于深度網(wǎng)絡(luò)結(jié)構(gòu)的SAE與SVM和ANN相比,其F值也具有顯著優(yōu)勢。SDAE優(yōu)于SAE,這是由于SDAE在學(xué)習(xí)過程中向輸入數(shù)據(jù)加入一定比例的噪聲,使得SDAE的多層結(jié)構(gòu)能學(xué)習(xí)到更具魯棒性的深層語義特征,完美重構(gòu)了原始數(shù)據(jù)的表達(dá),所以其性能與傳統(tǒng)SAE相比具有優(yōu)勢。而兩種深度網(wǎng)絡(luò)結(jié)構(gòu)的SDAE與SAE的性能,均優(yōu)于淺層機(jī)器學(xué)習(xí)的SVM和ANN,這是由于基于深度學(xué)習(xí)思想的模型具備挖掘隱藏信息能力,經(jīng)過無監(jiān)督的層層學(xué)習(xí),能夠自主抽取文本信息中的顯著特征,有挖掘維吾爾語語篇中的深層語義信息的優(yōu)勢。

        4 結(jié)語

        零指代消解研究有助于自然語言處理的發(fā)展,然而現(xiàn)有研究主要針對漢語等大語種,且缺乏對深層語義的探索,針對此問題,本文依據(jù)維吾爾語零指代現(xiàn)象,提出采用深度學(xué)習(xí)機(jī)制的SDAE解決維吾爾語零指代消解任務(wù)。結(jié)合維吾爾語語言特色及零指代特點,提出將蘊(yùn)含上下文語義信息和句法信息的word embedding特征與刻畫維吾爾語零指代知識表示的hand-crafted特征融合,將這兩類特征共同作為SDAE的輸入,挖掘更深層且具備魯棒性的語義特征進(jìn)而完成維吾爾語零指代消解任務(wù)。此外,本文還從SDAE隱藏層層數(shù)對性能的影響及word embedding特征與hand-crafted特征對性能的影響等方面對維吾爾語零指代消解研究進(jìn)行了探索。與傳統(tǒng)SAE、淺層機(jī)器學(xué)習(xí)SVM和ANN相比,SDAE均體現(xiàn)出其優(yōu)勢,驗證了本方法在維吾爾語零指代消解任務(wù)中的有效性與可行性。

        [1] 帕提古力·麥麥提. 基于向心理論的維吾爾語語篇回指研究[D]. 北京: 中央民族大學(xué)博士學(xué)位論文, 2010.

        [2] Zhao S, Ng H T. Identification and resolution of Chinese zero pronouns: A machine learning approach[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and ComputationalNatural Language Learning,2007: 541-550.

        [3] Kong F, Zhou G. A tree kernel-based unified framework for Chinese zero Anaphora Resolution.[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2010: 882-891.

        [4] Chen C, Ng V.Chinese zero pronoun resolution: Some recent advances[C]//Conference on Empirical Methods in Natural Language Processing(EMNLP),2013: 1360-1365

        [5] Chen C, Ng V. Chinese zero pronoun resolution with deep neural Networks[C]//Proceedings of the Meeting of the Association for Computational Linguistics(ACL),2016: 778-788.

        [6] Iida R, Torisawa K, Oh J H, et al. Intra-sentential subject zero anaphora resolution using multi-column convolutional neural network[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP),2016: 1244-1254.

        [7] 李陽輝, 謝明, 易陽. 基于深度學(xué)習(xí)的社交網(wǎng)絡(luò)平臺細(xì)粒度情感分析[J]. 計算機(jī)應(yīng)用研究, 2017, 34(3): 743-747.

        [8] 張開旭, 周昌樂. 基于自動編碼器的中文詞匯特征無監(jiān)督學(xué)習(xí)[J]. 中文信息學(xué)報, 2013, 27(5): 1-7.

        [9] 劉勘, 袁蘊(yùn)英. 基于自動編碼器的短文本特征提取及聚類研究[J]. 北京大學(xué)學(xué)報(自然科學(xué)版), 2015, 51(2): 282-288.

        [10] Bengio Y, Ducharme R, Jean, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3(6): 1137-1155.

        [11] 楊勇, 李艷翠, 周國棟,等. 指代消解中距離特征的研究[J]. 中文信息學(xué)報, 2008, 22(5): 39-44.

        [12] Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoder [C]//Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.

        [13] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[J]. Advances in Neural Information Processing Systems, 2013(26): 3111-3119.

        [14] 余凱, 賈磊, 陳雨強(qiáng),等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計算機(jī)研究與發(fā)展, 2013, 50(9): 1799-1804.

        猜你喜歡
        維吾爾語指代先行
        Let’s Save Food To Fight Hunger
        奧卡姆和布列丹對指代劃分的比較
        健康養(yǎng)生“手”先行
        從“先行先試”到“先行示范”
        中國外匯(2019年23期)2019-05-25 07:06:26
        黔貨出山 遵義先行
        遵義(2017年8期)2017-07-24 18:11:30
        黔貨出山 遵義先行
        遵義(2017年6期)2017-07-18 11:32:10
        統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
        維吾爾語話題的韻律表現(xiàn)
        維吾爾語詞重音的形式判斷
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        “不一而足”話討論
        天堂√最新版中文在线天堂| 不卡av网站一区二区三区| 久久精品一区午夜视频| 一本一道人人妻人人妻αv| 国产精品嫩草影院av| 中文字幕不卡高清免费| 少妇爽到爆视频网站免费| 人妻系列中文字幕av| 成人影片麻豆国产影片免费观看| 把女邻居弄到潮喷的性经历| 法国啄木乌av片在线播放| 久久久久久国产福利网站| 国产精品一区二区三区三| 久久伊人这里都是精品| 久久久亚洲欧洲日产国码αv| 丰满人妻妇伦又伦精品国产 | 人妻少妇被猛烈进入中文字幕| aa片在线观看视频在线播放| 国产肉丝袜在线观看| 久久久久人妻精品一区5555| 亚洲av中文字字幕乱码软件| 日本一区二区三区免费精品| 天天做天天爱天天综合网2021| 亚洲国产av一区二区三区四区| 亚洲成片在线看一区二区| 久久中文字幕无码一区二区| 亚洲亚洲亚洲亚洲亚洲天堂| 蜜桃在线高清视频免费观看网址 | 亚洲啪啪综合av一区| 亚洲综合伦理| 日韩av天堂综合网久久| 亚洲成在人线视av| 欧美裸体xxxx极品少妇| 91视频爱爱| 麻豆视频在线观看免费在线观看 | 丝袜美腿一区二区在线观看| 精品视频一区二区三区日本| 国产七十六+老熟妇| 国产一区二区三区av在线无码观看| 国产精品白浆免费观看| 亚洲熟女少妇一区二区三区青久久|