陶豆豆,禹 龍,田生偉,趙建國(guó),吐爾根·依布拉音,艾斯卡爾·艾木都拉
(1. 新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008;2. 新疆大學(xué) 網(wǎng)絡(luò)中心,新疆 烏魯木齊 830046; 3. 新疆大學(xué) 人文學(xué)院,新疆 烏魯木齊 830046;4. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
維吾爾語(yǔ)名詞短語(yǔ)待消解項(xiàng)識(shí)別
陶豆豆1,禹 龍2,田生偉1,趙建國(guó)3,吐爾根·依布拉音4,艾斯卡爾·艾木都拉1
(1. 新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830008;2. 新疆大學(xué) 網(wǎng)絡(luò)中心,新疆 烏魯木齊 830046; 3. 新疆大學(xué) 人文學(xué)院,新疆 烏魯木齊 830046;4. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
針對(duì)維吾爾語(yǔ)名詞短語(yǔ)待消解項(xiàng)識(shí)別任務(wù),該文提出一種利用棧式非負(fù)約束自編碼器(Stacked Nonnegative Constrained Autoencoder,SNCAE)完成基于語(yǔ)義特征的待消解項(xiàng)識(shí)別方法。為了提高自動(dòng)編碼器隱藏層激活度的稀疏性和重構(gòu)數(shù)據(jù)的質(zhì)量,利用NCAE非負(fù)約束算法,為連接權(quán)值施加非負(fù)性約束。通過分析維吾爾語(yǔ)名詞短語(yǔ)語(yǔ)言指代現(xiàn)象,提取出15個(gè)特征,利用SNCAE提取出深層語(yǔ)義特征,引入Softmax分類器,進(jìn)而完成待消解項(xiàng)識(shí)別任務(wù)。該方法在維吾爾語(yǔ)名詞短語(yǔ)待消解項(xiàng)識(shí)別中,正例準(zhǔn)確率和負(fù)例準(zhǔn)確率分別比SVM高出8.259%和4.158%,比棧式自編碼(SAE)高出1.884%和1.590%,表明基于SNCAE的維吾爾語(yǔ)名詞短語(yǔ)待消解項(xiàng)識(shí)別方法比SVM和SAE更適合維吾爾文的待消解項(xiàng)識(shí)別任務(wù)。
待消解項(xiàng)識(shí)別;維吾爾語(yǔ);非負(fù)約束算法; 棧式自編碼; 支持向量機(jī)
指代是一種普遍存在的語(yǔ)言現(xiàn)象,它使句子更加簡(jiǎn)潔明了,在保證文章連貫性的同時(shí)又減少冗余。指代消解是為篇章中指示性代詞尋找指代的過程,由兩個(gè)子任務(wù)構(gòu)成: ①待消解項(xiàng)識(shí)別;②指代消解。待消解項(xiàng)識(shí)別作為指代消解的前期工作,是針對(duì)已經(jīng)識(shí)別出來的人稱代詞、名詞短語(yǔ)、實(shí)體零指代項(xiàng),進(jìn)一步確定哪些詞或短語(yǔ)是真正的待消解項(xiàng)。
隨著自然語(yǔ)言處理相關(guān)研究的不斷深入(篇章理解、機(jī)器翻譯、人機(jī)對(duì)話、信息抽取等),指代消解日益成為研究熱點(diǎn)。Soon等人[1]提出一個(gè)完整的指代消解框架,把指代消解轉(zhuǎn)化為一個(gè)二分類問題(但是忽略了待消解項(xiàng)的識(shí)別);錢偉等人[2]提出一種基于語(yǔ)料庫(kù)的英文名詞短語(yǔ)指代消解算法。在中文的指代消解領(lǐng)域,研究者們也嘗試了將類似英文指代消解的算法應(yīng)用到中文指代消解中,周俊生等人[3]提出一種無監(jiān)督聚類算法實(shí)現(xiàn)對(duì)名詞短語(yǔ)的指代消解,引入圖對(duì)指代消解問題進(jìn)行建模,將指代消解問題轉(zhuǎn)化為圖劃分問題;孔芳等人[4]提出基于樹核函數(shù)的中英文代詞消解方法;奚雪峰等人[5]提出一種利用DBN模型的深度學(xué)習(xí)機(jī)制進(jìn)行基于語(yǔ)義特征的指代消解方法。然而他們都忽略了作為指代消解關(guān)鍵任務(wù)之一的待消解項(xiàng)識(shí)別。
2.1 待消解項(xiàng)識(shí)別
待消解項(xiàng)識(shí)別的研究方法有三種: ①基于規(guī)則的識(shí)別;②基于語(yǔ)料庫(kù)統(tǒng)計(jì)結(jié)果的識(shí)別;③基于機(jī)器學(xué)習(xí)方法,利用標(biāo)注的語(yǔ)料進(jìn)行識(shí)別。
早期待消解項(xiàng)識(shí)別是基于規(guī)則的識(shí)別,代表性工作有: Lappin等人[7]在其指代消解平臺(tái)中引入了用于識(shí)別“it”是否為待消解項(xiàng)的獨(dú)立識(shí)別模塊。但是,基于規(guī)則的識(shí)別可移植性較差,一旦改變語(yǔ)言,就需要更改對(duì)應(yīng)的規(guī)則。隨著指代消解的進(jìn)一步研究,又出現(xiàn)了基于語(yǔ)料庫(kù)統(tǒng)計(jì)結(jié)果的識(shí)別方法。如Bergsma等人[6]利用統(tǒng)計(jì)的方法對(duì)代詞 “it”的上下文句式進(jìn)行過濾識(shí)別, 在大型語(yǔ)料庫(kù)中對(duì)句式的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì),再根據(jù)統(tǒng)計(jì)結(jié)果判斷這個(gè)代詞是否為待消解項(xiàng)。
近年來,隨著指代消解研究的不斷深入和大規(guī)模語(yǔ)料庫(kù)的出現(xiàn),研究者們開始利用機(jī)器學(xué)習(xí)方法進(jìn)行待消解項(xiàng)識(shí)別。Ng等人[8]給出一種基于機(jī)器學(xué)習(xí)的待消解項(xiàng)識(shí)別的方法,使用MUC語(yǔ)料庫(kù),他們選取了多方面的37個(gè)特征(包括詞法、句法、語(yǔ)義等),生成對(duì)所有指代詞都進(jìn)行識(shí)別的待消解項(xiàng)識(shí)別模型,并將其應(yīng)用于已有的指代消解系統(tǒng);周國(guó)棟等人[9]利用標(biāo)記傳播算法,在機(jī)器學(xué)習(xí)的基礎(chǔ)上對(duì)待消解項(xiàng)識(shí)別進(jìn)行全局優(yōu)化;孔芳等人[10]給出了一個(gè)規(guī)則與機(jī)器學(xué)習(xí)方法相結(jié)合的待消解項(xiàng)識(shí)別方法,使用ACE語(yǔ)料庫(kù),將得到的待消解項(xiàng)識(shí)別模塊應(yīng)用于中英文的指代消解任務(wù);張超等人[11]結(jié)合交互式問答的特點(diǎn),運(yùn)用了一個(gè)規(guī)則與機(jī)器學(xué)習(xí)方法相結(jié)合的方法,在交互式問答系統(tǒng)中的待消解項(xiàng)識(shí)別方面取得較好的效果。
2.2 深度學(xué)習(xí)
近年來深度學(xué)習(xí)成為機(jī)器學(xué)習(xí)的一個(gè)新領(lǐng)域,深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[12]。通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更準(zhǔn)確、有用的特征,從而提升分類或預(yù)測(cè)的準(zhǔn)確性。隨著深度學(xué)習(xí)的持續(xù)發(fā)展,深度學(xué)習(xí)的應(yīng)用范圍也越來越廣,除了語(yǔ)音識(shí)別、圖像識(shí)別,還被廣泛應(yīng)用在自然語(yǔ)言處理領(lǐng)域。
Glorot等[13]利用深度自編碼算法完成文本分類,通過添加糾正激活函數(shù),有效地提高了分類效果。Salahutdinov 等[14]在自動(dòng)編碼器的基礎(chǔ)上擴(kuò)展了 LSA 模型,成功地發(fā)現(xiàn)隱藏在查詢和文檔中的層次語(yǔ)義結(jié)構(gòu)。劉勘[15]等人提出一種基于深層噪聲自動(dòng)編碼器的特征提取及聚類算法,將高維、稀疏的短文本空間向量變換到新的低維、本質(zhì)特征空間。由此可見,自編碼算法具有很強(qiáng)的文本學(xué)習(xí)能力和預(yù)測(cè)能力,能較好地提取文本中隱含的特征。因此,本文通過引入非負(fù)約束權(quán)值,構(gòu)建非負(fù)約束自編碼算法,提高自編碼隱藏層活躍度的稀疏性和重構(gòu)輸入數(shù)據(jù)的質(zhì)量。為了提高特征學(xué)習(xí)能力,得到更精確的特征,本文通過堆疊多個(gè)非負(fù)約束自編碼來提升分類和預(yù)測(cè)的準(zhǔn)確性。
3.1 維吾爾語(yǔ)名詞的分類
維吾爾語(yǔ)屬于黏著性語(yǔ)言,導(dǎo)致名詞短語(yǔ)結(jié)構(gòu)復(fù)雜多樣,具有以下特性: ①“格”的變化形式;②能與數(shù)詞或形容詞結(jié)合;③能充當(dāng)句子各種成分。在參考相關(guān)文獻(xiàn)后,實(shí)驗(yàn)組維吾爾語(yǔ)語(yǔ)言學(xué)專家總結(jié)出維吾爾語(yǔ)中名詞短語(yǔ)的大致分類,具體如下:
(1) 專有名詞: 專有名詞又稱固定詞組,表示某一特有事物名稱;專有名詞如表1 所示。
表1 專有名詞
(2) 帶領(lǐng)屬性人稱詞尾的名詞短語(yǔ),如表2所示。
表2 帶領(lǐng)屬性人稱詞尾的名詞短語(yǔ)
(3) 被指示詞修飾的名詞短語(yǔ),如表3所示。
表3 被指示詞修飾的名詞短語(yǔ)
(4) 被形容詞或形容詞化的成分修飾的名詞短語(yǔ),如表4所示。
表4 被形容詞或形容詞化的成分修飾的名詞短語(yǔ)
(5) 帶賓格標(biāo)志的名詞短語(yǔ),如表5所示。只有及物動(dòng)詞涉及的對(duì)象才可以帶賓格詞尾,通常要表達(dá)的事物已被限定或者已被確定將要出現(xiàn)。
表5 帶賓格標(biāo)志的名詞短語(yǔ)
3.2 SAE模型
自編碼是一種包括輸入層、隱藏層、輸出層的一個(gè)無監(jiān)督學(xué)習(xí)模型,稀疏自編碼在自編碼的基礎(chǔ)上添加了稀疏性約束條件,而SAE是一個(gè)由多層稀疏自編碼器組成的神經(jīng)網(wǎng)絡(luò)。一個(gè)一層的SAE模型如圖1所示。
圖1 SAE網(wǎng)絡(luò)模型圖
其中,w(l)和b(l)分別代表兩層的權(quán)重參數(shù)和偏置 項(xiàng);l是隱藏層數(shù)。對(duì)于一個(gè)包含m個(gè)樣本的數(shù)據(jù)集,定義其代價(jià)函數(shù)為輸出誤差代價(jià)函數(shù),如式(1)所示。
其中,β控制稀疏性懲罰因子的權(quán)重,λ控制懲罰因子的權(quán)重衰減,Sl和Sl+1為相鄰層的大小。
3.3 非負(fù)約束自編碼(NCAE)
式(5)中,α是學(xué)習(xí)率,α≥0;通過最小化JNCAE(w,b)降低平均重構(gòu)誤差,同時(shí)增加隱藏層激活度的稀疏性,降低了各層非負(fù)權(quán)值,有效控制了學(xué)習(xí)速率過大導(dǎo)致的過擬合現(xiàn)象,進(jìn)而提高了自動(dòng)編碼器的稀疏性和重構(gòu)輸入數(shù)據(jù)的質(zhì)量。
使用反向傳播算法更新權(quán)重和偏置項(xiàng):
其中,η是學(xué)習(xí)速率。式(5)的相對(duì)權(quán)重由以下三個(gè)部分組成:
其中,
式(8)使用反向傳播算法。
3.4 Softmax回歸
利用逐層貪婪訓(xùn)練算法建立一個(gè)每一層預(yù)訓(xùn)練的無監(jiān)督特征學(xué)習(xí)的深度學(xué)習(xí)網(wǎng)絡(luò)。在本文中,預(yù)訓(xùn)練一個(gè)NCAE深度學(xué)習(xí)網(wǎng)絡(luò),其中前一階段的輸出作為下一階段的輸入,這是一個(gè)無監(jiān)督學(xué)習(xí)的過程,最后一個(gè)隱藏層的輸出作為Softmax的輸入,進(jìn)而有監(jiān)督完成待消解項(xiàng)識(shí)別任務(wù)。在本文中,Softmax分類器的誤分類代價(jià)函數(shù)如式(9)所示。
其中,m是樣本數(shù),k為y的取值個(gè)數(shù),ω是Softmax層中所有節(jié)點(diǎn)的輸入權(quán)值矩陣,ωl是Softmax第l個(gè)節(jié)點(diǎn)的輸入量。我們定義了NCAE的Softmax的成本函數(shù),如式(10)所示。
SL表示自編碼的隱藏節(jié)點(diǎn)的數(shù)量,f(·)是激活函數(shù)。逐層貪婪訓(xùn)練方法在參數(shù)訓(xùn)練到逐漸收斂時(shí),使用微調(diào),對(duì)于調(diào)整的深度網(wǎng)絡(luò)的成本代價(jià)函數(shù)(DN)[17],如式(11)所示。
在WDN包含輸入權(quán)值的NCAE和Softmax層和BDN是NCAE層偏置輸入。
SNCAE是由多個(gè)NCAE與Softmax分類器結(jié)合構(gòu)建的一個(gè)包含多隱藏層與一個(gè)Softmax分類器深層神經(jīng)網(wǎng)絡(luò)。SNCAE利用無監(jiān)督逐層貪婪訓(xùn)練法依次訓(xùn)練SNCAE網(wǎng)絡(luò)的每一層,進(jìn)而預(yù)訓(xùn)練整個(gè)深層神經(jīng)網(wǎng)絡(luò)。SNCAE結(jié)合NCAE無監(jiān)督學(xué)習(xí)特征的方式和Softmax監(jiān)督式算法,提高了深層神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能。SNCAE網(wǎng)絡(luò)圖如圖2所示。
圖2 SNCAE網(wǎng)絡(luò)圖
周國(guó)棟等人[9]在對(duì)新聞?wù)Z料統(tǒng)計(jì)后發(fā)現(xiàn),能夠成為指代詞的語(yǔ)言單位主要有以下幾類:代詞、專有名詞短語(yǔ)、有定名詞短語(yǔ)、無定名詞短語(yǔ)、指示性名詞短語(yǔ)和未知類別名詞短語(yǔ)。因此,本文在統(tǒng)計(jì)維吾爾語(yǔ)語(yǔ)料后,在實(shí)驗(yàn)組維吾爾語(yǔ)語(yǔ)言專家的指導(dǎo)下,以孔芳等人[10]基于ACE語(yǔ)料庫(kù)提出的規(guī)則與機(jī)器學(xué)習(xí)方法相結(jié)合的待消解項(xiàng)識(shí)別方法為基礎(chǔ),同時(shí)參考前人的研究成果,對(duì)維吾爾語(yǔ)名詞短語(yǔ)進(jìn)行待消解項(xiàng)識(shí)別問題分析。
4.1 語(yǔ)料處理
目前國(guó)際上常用的中英文指代消解標(biāo)注語(yǔ)料庫(kù)有MUC和ACE,但針對(duì)維吾爾語(yǔ)指代消解的評(píng)測(cè)語(yǔ)料庫(kù)還未見報(bào)道。因此,實(shí)驗(yàn)組針對(duì)維吾爾語(yǔ)待消解項(xiàng)識(shí)別任務(wù),對(duì)語(yǔ)料進(jìn)行了收集和篩選。
實(shí)驗(yàn)語(yǔ)料來源于天山網(wǎng)、人民網(wǎng)、論壇和博客等維吾爾語(yǔ)版網(wǎng)頁(yè),從中篩選出至少包含兩條指代鏈信息以記人和敘事為題材的敘述文。在實(shí)驗(yàn)組維吾爾語(yǔ)專家的指導(dǎo)下,對(duì)語(yǔ)料進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、指代鏈信息標(biāo)注等預(yù)處理。其中指代鏈信息包括名詞短語(yǔ)、名詞的類別、名詞的數(shù)范疇、名詞的格范疇等,處理后的語(yǔ)料選用XML文件進(jìn)行存儲(chǔ)。
4.2 特征提取
特征提取在指代消解和待消解項(xiàng)識(shí)別中都有重要作用,其結(jié)果直接影響待消解項(xiàng)識(shí)別的準(zhǔn)確性,因?yàn)闇?zhǔn)確的特征才能夠得到正確的實(shí)驗(yàn)結(jié)果和結(jié)論。本文參考孔芳[10]等人在中英文指代消解中待消解項(xiàng)識(shí)別中的特征集,并根據(jù)實(shí)驗(yàn)組維吾爾語(yǔ)語(yǔ)言專家歸納的維吾爾語(yǔ)名詞短語(yǔ)類別,在維吾爾語(yǔ)語(yǔ)法的指導(dǎo)下,進(jìn)行維吾爾語(yǔ)名詞短語(yǔ)特征抽取。抽取以下特征集進(jìn)行待消解項(xiàng)識(shí)別,特征如下。
(1) Alias:別名。正式的或規(guī)范的名稱以外的名稱;如果是則取1,不是取0。
(2) Personal-pronoun: 人稱代詞。這里指維吾爾語(yǔ)語(yǔ)言中含有第一、二、三詞尾的名詞;如果是則取1,不是取0。
(3) Proper-nouns: 專有名詞。專有名詞包括人名、地名、組織機(jī)構(gòu)名等專用名詞,這個(gè)特征值可直接根據(jù)命名實(shí)體識(shí)別的結(jié)果來確定;如果是則取1,不是取0。
(4) Semantic-role: 語(yǔ)義角色。在句子中充當(dāng)一定句法角色,例如施事者、受事者、方法或者工具等;如果有則取1,無取0。
(5) Singular-plura: 單復(fù)數(shù)。如果是單數(shù)則取1,復(fù)數(shù)取0。
(6) Sex: 性別。如果是男則取0,女取1,未知0.5,沒有取2。
(7) Indicative NP: 指示性代名詞。如果是則取1,不是取0。
(8) FirstNP:當(dāng)前對(duì)象是不是語(yǔ)句中的第一個(gè)名詞短語(yǔ);如果是則取1,不是取0。
(9) Arg0:施事者。如果是則取1,不是取0。
(10) Arg1:受事者。如果是則取1,不是取0。
(11) NestIn:是否有名詞短語(yǔ)嵌套當(dāng)前對(duì)象,如果是則取1,不是取0。
(12) NestoOut:是否嵌套在名詞短語(yǔ)中,如果是則取1,不是取0。
(13) WordSense:該名詞短語(yǔ)之前是否有相同語(yǔ)義類別的名詞性短語(yǔ)。如果是則取1,不是取0。
(14) Str-Match:該名詞短語(yǔ)之前是否有與之全串匹配的名詞短語(yǔ)。如果是則取1,不是取0;
(15) Grammar:是否有格語(yǔ)法。如果有則取1,沒有取0。
4.3 訓(xùn)練及測(cè)試樣例提取
本文通過機(jī)器學(xué)習(xí)方法把待消解項(xiàng)識(shí)別看成是一個(gè)二分類問題,即判斷待消解項(xiàng)是否在指代鏈內(nèi),判斷名詞短語(yǔ)是否是待消解項(xiàng)。本文對(duì)標(biāo)注過的語(yǔ)料進(jìn)行名詞短語(yǔ)的提取(實(shí)驗(yàn)組共標(biāo)注語(yǔ)料170篇,其中名詞短語(yǔ)10 120個(gè),隨機(jī)抽取10 000個(gè)名詞短語(yǔ)進(jìn)行試驗(yàn)),使用4.2節(jié)的特征集提取特征,形成維吾爾語(yǔ)名詞短語(yǔ)待消解項(xiàng)識(shí)別的訓(xùn)練和測(cè)試樣例,如表6所示。
表6 訓(xùn)練及測(cè)試樣例
本文采用周國(guó)棟等人[9]提出的方法,使用了兩個(gè)準(zhǔn)確率來評(píng)估待消解項(xiàng)識(shí)別器的性能,分別是正例的準(zhǔn)確率Acc+和負(fù)例的準(zhǔn)確率Acc-。
(12)
這一準(zhǔn)確率越高,說明被丟失的待消解項(xiàng)越少,指代消解在這一環(huán)節(jié)損失的召回率越低。
(13)
這一準(zhǔn)確率越高,進(jìn)行指代消解測(cè)試時(shí),待消解項(xiàng)識(shí)別器正確濾去的不必要的測(cè)試實(shí)例越多,引入的噪聲越少。
5.1 SAE和SVM的結(jié)果對(duì)比分析
先用SAEi(i表示 SAE包含的自編碼器層數(shù))和SVM 模型進(jìn)行指代消解實(shí)驗(yàn)。SVM是處理非線性數(shù)據(jù)的淺層機(jī)器學(xué)習(xí)模型,與SAE 模型有較好的對(duì)比性,所以本文選用SVM 進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果如表7所示。
表7 SAEi與SVM實(shí)驗(yàn)結(jié)果對(duì)比
從表7中我們可以看到包含不同層的SAEi比SVM有效,使用SAE模型在待消解項(xiàng)識(shí)別的正例準(zhǔn)確率Acc+和負(fù)例準(zhǔn)確率Acc-都有提高,并且在SAEi模型自編碼層數(shù)提高時(shí)待消解項(xiàng)識(shí)別的正例準(zhǔn)確率Acc+也都有所提高。Acc-在三層模型后開始遞減,負(fù)例識(shí)別率降低了0.736%~0.9%。SAE的性能最佳是四隱層,其結(jié)果比SVM在Acc+ 和Acc-上分別高出6.375%和2.568%。這是因?yàn)镾AE通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,具有更好的泛化能力、更強(qiáng)大的學(xué)習(xí)能力。相比SVM單層神經(jīng)網(wǎng)絡(luò),SAE通過多層稀疏自編碼器能學(xué)習(xí)到更準(zhǔn)確、更有用的特征,從而提升分類或預(yù)測(cè)的準(zhǔn)確性。因此,SAE在指代消解中待消解項(xiàng)的識(shí)別方面優(yōu)于SVM。
5.2 基于SNCAE的結(jié)果分析
為了對(duì)比SNCAEi(i表示 SAE包含的自編碼器層數(shù))的結(jié)果,本文選取SNCAEi與SAE最優(yōu)結(jié)果SAE4做比對(duì)實(shí)驗(yàn)。SNCAE 模型由多個(gè)NCAE模型堆疊形成,NCAE模型是由SAE施加非負(fù)權(quán)重約束改進(jìn)的算法,所以本文采用SAE作對(duì)比實(shí)驗(yàn),結(jié)果如表8所示。
表8 NCAEi與SAEi、SVM實(shí)驗(yàn)結(jié)果對(duì)比
從表8中我們可以看出,SNCAEi在維吾爾語(yǔ)名詞短語(yǔ)的待消解項(xiàng)識(shí)別中的性能優(yōu)于SAEi和SVM。其中明顯可以看出SNCAE的隱藏層數(shù)與SAE的隱藏層數(shù)相等時(shí),SNCAE的實(shí)驗(yàn)結(jié)果優(yōu)于SAE。其中待消解項(xiàng)識(shí)別的正例準(zhǔn)確率Acc+和負(fù)例準(zhǔn)確率Acc-在SNCAEi模型下的最優(yōu)結(jié)果分別高于SAEi的最優(yōu)結(jié)果1.884%和1.590%。通過表7 中SAE與SVM的對(duì)比實(shí)驗(yàn)驗(yàn)證了SAE在指代消解中待消解項(xiàng)的識(shí)別方面優(yōu)于SVM。通過表8中SNCAEi與SAEi及SVM的對(duì)比實(shí)驗(yàn)驗(yàn)證了SNCAEi在指代消解中待消解項(xiàng)的識(shí)別方面優(yōu)于SAEi及SVM。隨著自編碼層數(shù)的增加,待消解項(xiàng)識(shí)別的正確率也在提高,在四隱層時(shí)得到最佳結(jié)果,SNCAE通過施加非負(fù)約束權(quán)重,提高自編碼網(wǎng)絡(luò)隱藏層活躍度的稀疏性,產(chǎn)生了更好的重建數(shù)據(jù)。因此,SNCAE相比于SAE和SVM更適合本文的待消解項(xiàng)識(shí)別任務(wù)。
本文深入研究了維吾爾語(yǔ)待消解項(xiàng)識(shí)別問題,在前人研究的基礎(chǔ)上,提出基于棧式非負(fù)約束自編碼(SNCAE)的維吾爾語(yǔ)名詞短語(yǔ)待消解項(xiàng)識(shí)別方法。SNCAE利用非負(fù)約束權(quán)重,提高自編碼隱藏層活躍度的稀疏性和重構(gòu)輸入數(shù)據(jù)的質(zhì)量,從而提高了深層神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)性能。本文經(jīng)過與SVM及SAE的對(duì)比,驗(yàn)證了SNCAE深度學(xué)習(xí)方法在維吾爾語(yǔ)待消解項(xiàng)識(shí)別任務(wù)中的有效性。
[1] Soon W M, Ng H T, Lim D. A machine learning approach to coreference resolution of noun phrase [J].Computational Linguistics,2001,27(4):521-544.
[2] 錢偉,郭以昆,周雅倩,等.基于最大熵模型的英文名詞短語(yǔ)指代消解[J].計(jì)算機(jī)研究與發(fā)展,2003, 40(9):1337-1343.
[3] 周俊生,黃書劍,陳家駿,等.一種基于圖劃分的無監(jiān)督漢語(yǔ)指代消解算法[J].中文信息學(xué)報(bào),2007,21(2):77-82.
[4] 孔芳, 周國(guó)棟. 基于樹核函數(shù)的中英文代詞消解[J].軟件學(xué)報(bào), 2012, 23(5): 1085-1099.
[5] 奚雪峰,周國(guó)棟. 基于Deep Learning的代詞指代消解[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,50(1):100-110.
[6] Bergsma S, Lin D. Bootstrapping path-based pronoun resolution[C]//Proceedings of the 21st International Conference on Computational Linguistics and the 4th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006: 33-40.
[7] Lappin S, Herbert J L. Analgorithm for Pronominal anaphora resolution [J]. Computational Linguistics,1994,20(4);535-561.
[8] Ng V, Cardie C.Improving machine learning approaches to coreference resolution [C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL). Philadelphia: Association for Computational Linguistics, 2002:104-111.
[9] Zhou G D, Kong F. Global learning of noun phrase anaphoricity in coreference resolution via label propagetion[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Stroudsburg, USA: Association for Computational Linguistics,2009:978-986.
[10] 孔芳,朱巧明,周國(guó)棟. 中英文指代消解中待消解項(xiàng)識(shí)別的研究[J].計(jì)算機(jī)研究與發(fā)展,2012,49(5):1072-1085.
[11] 張 超,孔 芳,周國(guó)棟. 交互式問答系統(tǒng)中待消解項(xiàng)的識(shí)別方法研究. 中文信息學(xué)報(bào),2014,28(4):111-116.
[12] Bengio Y,Delalleau O. On the expressive power of deep architectures[C]//Proceedings of the 14th International Conference on Discovery Science. Berlin: Springer-Verlag,2011: 18-36.
[13] Glorot X, Bordes A, Bengio Y. Deep sparse rectifier neural networks[C]//Proceedings of 14th International Conference on Artificial Intelligence and Statistics. Fort Lauderdale, USA : AISTATS, 2011: 315-323.
[14] Salakhutdinov R, Hinton G. Semantic hashing[J]. International Journal of Approximate Reasoning, 2009, 50(7): 969-978.
[15] Zhang K X, Zhou C L. Unsupervised feature learning for Chinese lexicon based on auto-encoder[J]. Journal of Chinese Information Processing,2013,27(5):85-92.
[16] 張開旭,周昌樂.基于自動(dòng)編碼器的中文詞匯特征無監(jiān)督學(xué)習(xí)[J].中文信息學(xué)報(bào),2013,27(5):85-92.
[17] 劉勘,袁蘊(yùn)英.基于自動(dòng)編碼器的短文本特征提取及聚類研究[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(2):282-288.
[18] G E Hinton, S Osindero, Y W Teh. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006,18(1): 1527-1554.
陶豆豆 (1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。
E-mail:tao__doudou@163.com
禹龍(1974—),碩士,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)智能技術(shù)與計(jì)算機(jī)網(wǎng)絡(luò)。
E-mail: yul_xju@163.com
田生偉 (1973—),博士,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與計(jì)算機(jī)智能技術(shù)。
E-mail: tianshengwei@163.com
AnaphoricityDeterminationofUyghurNounPhrases
TAO Doudou1, YU Long2, TIAN Shengwei1, ZHAO Jianguo3, Turgun?Ibrahim4, Askar?Hamdulla1
(1. School of Software, Xinjiang University, Urumqi, Xinjiang 830008, China;2. Net Center, Xinjiang University, Urumqi, Xinjiang 830046, China;3. School of Humanities, Xinjiang University, Urumqi, Xinjiang 830046, China;4. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China)
Focusedon Uyghur noun phrase coreference identification task, this paper proposed a Stacked Nonnegative Constrained Autoencoder( SNCAE) for anaphoricity determination based on semantic feature. Through the analysis of Uyghur noun phrase language phenomenon, 15 kinds of semantic features are extracted, and then input into SNCAE to extract the deep semantic features. Finally, the Softmax classifier is used to complete the recognition task. Compared with Support Vector Machine (SVM), the positive accuracy and negative accurate increased by 8.259% and 4.158%, respectively, and increased by 1.884% and 1.590%, respectively, than the Stacked Autoencoder (SAE).
anaphoricity determination; Uyghur; NCAE; SAE; SVM
1003-0077(2017)05-0092-07
TP391
A
2016-11-07定稿日期2017-03-27
國(guó)家自然科學(xué)基金(61563051, 61662074);國(guó)家自然科學(xué)基金(61262064); 國(guó)家自然科學(xué)基金(61331011);自治區(qū)科技人才培養(yǎng)項(xiàng)目(QN2016YX0051)