亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BiLSTM-CNN-CRF模型的維吾爾文命名實(shí)體識(shí)別

        2018-08-17 01:22:10買買提阿依甫
        計(jì)算機(jī)工程 2018年8期
        關(guān)鍵詞:維吾爾文字符命名

        買買提阿依甫,·,·,

        (新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)

        0 概述

        命名實(shí)體識(shí)別[1](Named Entity Recognition,NER)是自然語(yǔ)言處理(Natural Language Processing,NLP)工作中具有挑戰(zhàn)性的任務(wù)之一,通過(guò)它可以準(zhǔn)確地從文本中識(shí)別出人名、機(jī)構(gòu)名、地名、時(shí)間、日期、貨幣、百分號(hào)等信息,為話題識(shí)別、話題跟蹤、信息檢索、機(jī)器翻譯、輿情分析等高級(jí)NLP任務(wù)提供重要的特征信息。過(guò)去NER任務(wù)多采用基于規(guī)則的識(shí)別方法、基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的識(shí)別方法(包括隱馬爾可夫模型、條件隨機(jī)場(chǎng)模型、支持向量機(jī)等)和基于規(guī)則和統(tǒng)計(jì)相結(jié)合的混合識(shí)別方法[2]。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理領(lǐng)域受到了廣泛的關(guān)注,相比于上述方法,基于深度神經(jīng)網(wǎng)絡(luò)的方法具有泛化性更強(qiáng)、更少依賴人工特征的優(yōu)點(diǎn)。因此,面向漢語(yǔ)和英語(yǔ)等大語(yǔ)言,研究人員已提出了許多基于深度神經(jīng)網(wǎng)絡(luò)的NER模型,但針對(duì)以維吾爾語(yǔ)為代表的低資源少數(shù)民族語(yǔ)言的研究較少。維吾爾命名實(shí)體識(shí)別研究大多只針對(duì)維吾爾人名的識(shí)別,關(guān)于人名、地名、機(jī)構(gòu)名的通用研究較少,目前多數(shù)研究都是基于規(guī)則或統(tǒng)計(jì)模型的方法。

        針對(duì)維吾爾文命名實(shí)體識(shí)別問(wèn)題,本文構(gòu)建基于BiLSTM-CNN-CRF的混合深度學(xué)習(xí)模型。首先利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型捕獲單詞的字符級(jí)特征向量;然后將字符級(jí)特征向量、詞性向量和詞向量拼接的混合向量作為BiLSTM模型的輸入進(jìn)行訓(xùn)練,獲取語(yǔ)句單詞之間隱含的語(yǔ)義特征;最后通過(guò)CRF模型得到最優(yōu)標(biāo)注序列。

        1 神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)

        本節(jié)將詳細(xì)描述BiLSTM-CNN-CRF[1]神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的各組成部分,從下至上逐一介紹神經(jīng)網(wǎng)絡(luò)中的各神經(jīng)層。

        1.1 字詞向量特征

        1.1.1 字符特征

        維吾爾語(yǔ)是典型的黏著語(yǔ)[3],具有復(fù)雜的形態(tài)變化。從文字信息處理的角度出發(fā),維吾爾文字屬于復(fù)雜文本信息處理的范疇。現(xiàn)行維吾爾文使用的文字為基于阿拉伯字符的文字,該類文字的形狀特征為不等寬的字符,每個(gè)字符根據(jù)在詞中出現(xiàn)的位置又有不同的形狀,書寫特征是自右向左書寫(數(shù)字和其他非阿拉伯字符保持自己的書寫順序),與英語(yǔ)和漢語(yǔ)順序相反。

        現(xiàn)行維吾爾文有32個(gè)字母。每個(gè)字母按出現(xiàn)在詞首、詞中、詞末的位置有不同的形式。字母表中的單式除代表該字母的獨(dú)立形式外,一般出現(xiàn)在詞末不可連字母之后,前式出現(xiàn)在可連字母之前,中式出現(xiàn)在詞中2個(gè)可連字母中間,末式出現(xiàn)在詞末可連字母之后,有些字母只有單式和末式,這樣維吾爾文32個(gè)字母實(shí)際共有126種寫法。為了降低字符向量維度,本文通過(guò)設(shè)計(jì)現(xiàn)行維吾爾文到拉丁維吾爾文的轉(zhuǎn)換算法,從而將維吾爾文字符轉(zhuǎn)換為一個(gè)拉丁字符,這樣只用32個(gè)拉丁字母就可以表示維吾爾文。

        1.1.2 詞向量

        詞向量[4]的主要設(shè)計(jì)思想是通過(guò)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞語(yǔ)的聯(lián)合概率分布,將語(yǔ)料中的單詞映射到指定的d維稠密實(shí)數(shù)向量。word2vec用到了2個(gè)重要的模型:CBOW模型和Skip-Gram模型[5]。

        維吾爾句子中單詞之間用空格或標(biāo)點(diǎn)符號(hào)來(lái)分割。維吾爾文單詞在結(jié)構(gòu)上可以分為詞根和詞干:詞根是不可分割的最小語(yǔ)義單元;詞干是由幾個(gè)詞根或詞根和詞綴連接構(gòu)成,單詞一般由詞干和詞綴(附加成分)連接構(gòu)成,每個(gè)詞的變化形式最多可達(dá)到數(shù)百種。例如:詞根為ish(事宜,事情),通過(guò)對(duì)其連接構(gòu)詞詞綴qi,可以得到詞干ish+qi=ishqi(工人),可以將單詞結(jié)構(gòu)表示為:單詞=詞綴+詞干+后綴1+后綴2+后綴3+…。例如:ish+qi+lar+ning=ishqilarning(工人們的)。為了獲取維吾爾單詞隱含的豐富信息,本文未對(duì)維吾爾詞語(yǔ)進(jìn)行詞干提取,保留了詞干與詞綴,對(duì)語(yǔ)料庫(kù)中的每個(gè)單詞進(jìn)行訓(xùn)練預(yù)先生成了對(duì)應(yīng)的詞向量。

        本文利用word2vec工具的Skip-Gram模型對(duì)從網(wǎng)絡(luò)上下載的無(wú)標(biāo)注維吾爾語(yǔ)料庫(kù)進(jìn)行訓(xùn)練生成了詞向量,假設(shè)語(yǔ)料庫(kù)由w1,w2,…,wm個(gè)單詞組成,Skip-Gram模型的目標(biāo)是使以下函數(shù)最大化:

        其中,n是訓(xùn)練窗口大小,訓(xùn)練時(shí)根據(jù)窗口大小獲取當(dāng)前詞語(yǔ)的上下文相關(guān)詞語(yǔ)。

        經(jīng)過(guò)word2vec生成的詞向量為:vi=[a0,a1,…,ad],其中d=300表示詞向量的維度。通過(guò)word2vec訓(xùn)練生成的詞向量每一維都包含豐富的上下文信息。例1給出了維吾爾語(yǔ)料庫(kù)中一個(gè)單詞用word2vec生成的詞向量。

        圖1 通過(guò)維吾爾文詞向量獲取的相似單詞

        1.1.3 詞性特征

        本文采用詞向量很方便地添加了其他新的特征。例如,對(duì)于詞語(yǔ)可以添加詞性特征、字符特征等信息,通過(guò)這些信息可以對(duì)詞語(yǔ)進(jìn)行抽象化,能夠進(jìn)一步發(fā)現(xiàn)語(yǔ)句中詞語(yǔ)的結(jié)構(gòu)聯(lián)系。因此,本文加入了字符特征和詞性特征,進(jìn)一步提高了命名實(shí)體識(shí)別的性能。維吾爾文詞性有2種標(biāo)注方法:一級(jí)詞性和二級(jí)詞性,如表1所示。

        表1 維吾爾文詞性標(biāo)注設(shè)置

        由于本文語(yǔ)料庫(kù)沒(méi)有二級(jí)詞性標(biāo)注數(shù)據(jù),因此實(shí)驗(yàn)只使用一級(jí)詞性特征。使用維度為4的實(shí)數(shù)向量表示詞性向量,最后與詞向量和字符向量拼接構(gòu)成混合向量作為BiLSTM模型輸入,提高了模型的命名實(shí)體識(shí)別性能。

        1.2 卷積神經(jīng)模型

        卷積神經(jīng)網(wǎng)絡(luò)[6]中卷積層能夠提取文本數(shù)據(jù)的局部特征信息,通過(guò)使用卷積和最大池化層可以提取局部特征信息中最具有代表性的部分作為特征向量?,F(xiàn)有研究表明,CNN是一種從詞的字符中提取形態(tài)信息(如詞的前綴或后綴)并將其編碼為神經(jīng)表示的最有效方法,文獻(xiàn)[1,7]采用CNN提取字符級(jí)特征在命名實(shí)體識(shí)別領(lǐng)域達(dá)到了很好的效果,因此,本文利用CNN提取維吾爾文單詞的字符特征,通過(guò)使用字符級(jí)特征、單詞詞性和詞向量相結(jié)合的方法提高模型的命名實(shí)體識(shí)別性能,但維吾爾文中不存在大小寫的問(wèn)題,在本文中并沒(méi)有用到字符類型等特征,采用CNN提取的維吾爾文形態(tài)特征信息作為詞向量的補(bǔ)充,從而模型的識(shí)別率得到了很好的提高。

        CNN模型結(jié)構(gòu)如圖2所示,其由字符向量表、卷積層和池化層組成。

        圖2 字符級(jí)CNN模型結(jié)構(gòu)

        對(duì)CNN網(wǎng)絡(luò)中包括32個(gè)維吾爾文字母和37個(gè)標(biāo)點(diǎn)符號(hào),再加上一個(gè)表示不在字符集中的不確定字符的共70個(gè)字符分別生成對(duì)應(yīng)的字符向量,由這些向量構(gòu)成字符向量表。字符向量表的作用是將單詞中的每個(gè)字符轉(zhuǎn)換成為對(duì)應(yīng)的字符向量,然后生成單詞對(duì)應(yīng)的字符向量矩陣。由于單詞長(zhǎng)度不一樣,因此生成的字符向量矩陣的大小也不一樣。為解決該問(wèn)題,本文以最長(zhǎng)的單詞長(zhǎng)度為標(biāo)準(zhǔn),利用Padding占位符補(bǔ)全單詞兩端[8],使字符向量矩陣的長(zhǎng)度一致。此方法同樣可以用于句子長(zhǎng)度不一致的問(wèn)題,最后字符向量表在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中通過(guò)反向傳播機(jī)制自動(dòng)更新字符向量矩陣。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)CNN網(wǎng)絡(luò)可以有效獲取維吾爾文單詞中的前綴或后綴等形態(tài)特征信息。

        1.3 BiLSTM模塊

        1.3.1 LSTM模塊

        遞歸神經(jīng)網(wǎng)絡(luò)[9]具有一定的記憶功能,可以被用來(lái)解決很多NLP問(wèn)題,但是它并不能很好地處理長(zhǎng)時(shí)依賴問(wèn)題,存在梯度消失和梯度爆炸的問(wèn)題。

        為了解決傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的梯度消失等問(wèn)題,研究者提出了RNN的特殊形式:長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[9-10],傳統(tǒng)RNN每一步的隱藏單元只是執(zhí)行一個(gè)簡(jiǎn)單的tanh或ReLU操作[11]。LSTM是遞歸神經(jīng)網(wǎng)絡(luò)的一種特殊形式,同樣考慮時(shí)序關(guān)系,只是LSTM每個(gè)隱層節(jié)點(diǎn)還加一些特殊的結(jié)構(gòu),如圖3所示。可以看出,LSTM增加了記憶單元,主要由3個(gè)控制門,即遺忘門、輸入門、輸出門與一個(gè)記憶單元(cell)組成。LSTM利用記憶單元對(duì)歷史信息進(jìn)行記錄,并且這個(gè)記錄是由3個(gè)控制門來(lái)控制LSTM單元應(yīng)寫入、讀取、輸出的內(nèi)容。因此,通過(guò)這些控制門,LSTM能夠緩解原始RNN所面臨的“梯度消失”或“梯度爆炸”問(wèn)題。

        圖3 LSTM單元結(jié)構(gòu)

        LSTM單元在t時(shí)刻更新的公式如下:

        it=σ(Wiht-1+Uixt+bi)

        (1)

        ft=σ(Wfht-1+Ufxt+bf)

        (2)

        ot=σ(Woht-1+Uoxt+bo)

        (5)

        ht=ot⊙tanh(ct)

        (6)

        在維吾爾文中,人名、機(jī)構(gòu)名和地名中由3個(gè)以上的單詞構(gòu)成的情況較多,通過(guò)LSTM網(wǎng)絡(luò)能夠記憶單詞間的長(zhǎng)距離依賴關(guān)系的特點(diǎn),有效識(shí)別出維吾爾文中的較長(zhǎng)的人名、地名和機(jī)構(gòu)名。例如:“samat bilan kvrash xinjiang aptonum rayonluk helik dohturhanisida ishlaydu.”(賽買提和庫(kù)萊西在新疆自治區(qū)人民醫(yī)院工作。),針對(duì)這句話中的機(jī)構(gòu)名“xinjiang aptonum rayonluk helik dohturhanisida”(新疆自治區(qū)人民醫(yī)院),用傳統(tǒng)的統(tǒng)計(jì)模型CRF進(jìn)行識(shí)別時(shí)出現(xiàn)了無(wú)法完全識(shí)別的問(wèn)題,而LSTM模型巧妙地識(shí)別出了類似長(zhǎng)機(jī)構(gòu)名。在這句話中kvrash是個(gè)兼類詞(人名和動(dòng)詞),通過(guò)LSTM模型根據(jù)上下文歷史信息正確識(shí)別CRF統(tǒng)計(jì)模型無(wú)法識(shí)別的兼類詞。

        1.3.2 BiLSTM模塊

        在句子中命名實(shí)體的正確識(shí)別取決于詞的上下文[12]。前后2個(gè)詞對(duì)預(yù)測(cè)標(biāo)簽都很重要,如果能夠獲取過(guò)去和將來(lái)的上下文信息,對(duì)命名實(shí)體識(shí)別任務(wù)很有幫助。然而,LSTM的隱藏狀態(tài)ht僅從過(guò)去獲取信息,對(duì)未來(lái)一無(wú)所知。雙向LSTM[7,13](簡(jiǎn)稱為BiLSTM)是一種較好的解決方案,其有效性已在前人的工作中得以證明,基本思想是將每個(gè)順序序列和逆序序列呈現(xiàn)到2個(gè)單獨(dú)的隱藏狀態(tài),以分別捕獲過(guò)去和將來(lái)的信息,然后將連接2個(gè)隱藏狀態(tài)作為最終輸出。BiLSTM已經(jīng)被證明在許多機(jī)器翻譯、問(wèn)題回答、序列標(biāo)注等NLP任務(wù)中很有用。

        姥爺最拿手的是高湯汆大白菜:切掉菜根,將摘洗干凈的菜身攔腰切開一分為二,上邊是新嫩青綠的菜葉,下邊則是晶瑩粗厚的菜幫子,用香濃月白的高湯汆燙,然后加粉絲和紅肉丸子,出鍋的時(shí)候來(lái)一點(diǎn)香油和蝦米,美味至極,是我童年味蕾上最美好的記憶。

        1.4 CRF模塊

        條件隨機(jī)場(chǎng)(Condition Random Field,CRF)[7,12]模型是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。該模型結(jié)合了隱馬爾可夫模型和最大熵模型的優(yōu)點(diǎn)[13],避免了這些模型本身存在的一些缺點(diǎn),能夠有效地解決序列標(biāo)注問(wèn)題。 可以把命名實(shí)體識(shí)別任務(wù)轉(zhuǎn)化成一個(gè)序列標(biāo)注任務(wù),本文采用SBIEO標(biāo)記策略(如表2所示)對(duì)語(yǔ)料進(jìn)行標(biāo)注,表3是使用SBIEO標(biāo)記策略對(duì)給定現(xiàn)行維吾爾文句子進(jìn)行轉(zhuǎn)換為拉丁維吾爾句子后的標(biāo)注示例。

        表2 CRF模塊SBIEO標(biāo)簽集

        表3 維吾爾文命名實(shí)體標(biāo)注方法示例

        對(duì)于命名實(shí)體識(shí)別任務(wù),本文使用CRF模型聯(lián)合建模標(biāo)注決策,而不是獨(dú)立建模決策。將CRF層作為神經(jīng)網(wǎng)絡(luò)架構(gòu)的最后一層,對(duì)BiLSTM模塊的輸出結(jié)果進(jìn)行處理,獲得最優(yōu)的全局標(biāo)注序列。

        對(duì)于一個(gè)給定維吾爾文句子,本文用X={x1,x2,…,xn}表示對(duì)應(yīng)的輸入單詞序列,假設(shè)P是大小為n×k的BiLSTM網(wǎng)絡(luò)輸出的分?jǐn)?shù)矩陣,其中k是不同標(biāo)簽的數(shù)量,Pi,j對(duì)應(yīng)第i個(gè)單詞的第j個(gè)標(biāo)簽的分?jǐn)?shù)。對(duì)于一個(gè)標(biāo)簽預(yù)測(cè)y={y1,y2,…,yn},定義其分?jǐn)?shù)為:

        其中,A是轉(zhuǎn)移分?jǐn)?shù)矩陣,Ai,j表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的分?jǐn)?shù),y0和yn是在句子開始和結(jié)束為位置添加的標(biāo)簽,因此,A是一個(gè)大小為k+2的方陣。

        對(duì)于序列y,本文采用softmax來(lái)生成所有:

        在訓(xùn)練過(guò)程中最大化正確標(biāo)簽序列的對(duì)數(shù)概率:

        其中,YX是對(duì)于輸入句子X(jué)的所有可能標(biāo)簽序列。從上式可以明顯看出,本文的神經(jīng)網(wǎng)絡(luò)產(chǎn)生有效的輸出標(biāo)簽序列。最終解碼時(shí),通過(guò)以下公式預(yù)測(cè)得分最大的輸出序列:

        通過(guò)將BiLSTM的輸出向量輸入到CRF層來(lái)構(gòu)造神經(jīng)網(wǎng)絡(luò)模型[11]。本文神經(jīng)網(wǎng)絡(luò)架構(gòu)由BiLSTM模塊、CNN模塊和CRF模塊組成。第1層是輸入層,主要負(fù)責(zé)將輸入的句子進(jìn)行字詞向量的映射,為了便于后期處理首先通過(guò)轉(zhuǎn)換算法將現(xiàn)行維吾爾文句子轉(zhuǎn)換成拉丁維吾爾文,然后通過(guò)查詢?cè)~向量表將文本轉(zhuǎn)換為詞向量序列,再對(duì)于文本中的每個(gè)單詞,通過(guò)查詢字符向量表獲得每個(gè)字符的字符向量,由字符向量組成單詞的字符向量矩陣。CNN模塊對(duì)字符向量矩陣進(jìn)行卷積和最大池化,獲得每個(gè)單詞的字符級(jí)特征,每個(gè)單詞的字符向量和詞性向量與詞向量拼接組合后的混合向量作為第2層神經(jīng)網(wǎng)絡(luò)模塊BiLSTM的輸入,最后用第3層CRF模塊將第2層的輸出解碼出一個(gè)最優(yōu)的標(biāo)記序列。本文神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu)如圖4所示。

        圖4 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練

        2.1 參數(shù)初始化

        2.1.1 詞向量

        文獻(xiàn)[10,14]已指出,詞向量在提高序列標(biāo)記任務(wù)性能中起到了至關(guān)重要的作用。目前缺乏公開的已訓(xùn)練好的維吾爾文詞向量數(shù)據(jù)集。為了構(gòu)建維吾爾文詞向量,本文首先從知名度較高的幾個(gè)新聞網(wǎng)站上下載了新聞數(shù)據(jù)(如表4所示),然后對(duì)收集到的9.5萬(wàn)條新聞數(shù)據(jù)(包含多余3 500萬(wàn)條詞條,40多萬(wàn)單詞)用gensim的skip-gram模型進(jìn)行訓(xùn)練[15],生成了維度為300的詞向量,本實(shí)驗(yàn)設(shè)置窗口的大小為5,單詞頻率最小值設(shè)為4。

        表4 下載數(shù)據(jù)統(tǒng)計(jì)

        2.1.2 字符向量

        實(shí)驗(yàn)對(duì)70個(gè)維吾爾文字符和標(biāo)點(diǎn)符號(hào)使用隨機(jī)均勻分布來(lái)初始化字符向量查詢表,字符向量的維度設(shè)為10,并且其取值范圍為[-0.5,0.5]。

        2.2 優(yōu)化算法

        目前神經(jīng)網(wǎng)絡(luò)中流行的優(yōu)化算法有隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)、Momentum、Adagrad、Adadelta、RMSprop、Adam、Adamax等[13,16-17],每個(gè)優(yōu)化算法都有自己的特點(diǎn),本文實(shí)驗(yàn)中使用了SGD算法進(jìn)行優(yōu)化,實(shí)驗(yàn)結(jié)果表明SGD優(yōu)化算法提高了模型性能,學(xué)習(xí)率η0初始值設(shè)為0.001,momentum設(shè)為0.9,每個(gè)訓(xùn)練周期學(xué)習(xí)率η0通過(guò)公式:ηt=η0/1+ρt來(lái)自動(dòng)更新,其中延遲率為ρ=0.5,t是已經(jīng)完成的訓(xùn)練循環(huán)數(shù)。

        2.3 Dropout參數(shù)

        在正則化方法中,Dropout[16]是非常有用和成功的一種技術(shù)。一般來(lái)說(shuō),它會(huì)隨機(jī)刪除一些神經(jīng)元,以在不同批量上訓(xùn)練不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)。在實(shí)驗(yàn)中Dropout的值和在模型中的位置很關(guān)鍵,直接影響到模型的性能。在多數(shù)神經(jīng)網(wǎng)絡(luò)研究中,Dropout值設(shè)為0.5時(shí)的性能較好,能夠有效防止過(guò)擬合問(wèn)題,但在本文實(shí)驗(yàn)中,用不同的Dropout的值對(duì)模型進(jìn)行了交叉驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,Dropout值為0.63時(shí)達(dá)到了最好的識(shí)別效果,在BiLSTM模型輸入輸出端兩端都用了Dropout機(jī)制[17]。本文神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)定如表5所示。

        表5 神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        由于目前維吾爾命名實(shí)體識(shí)別缺乏公開的標(biāo)注數(shù)據(jù)集,因此本文人工建立了一個(gè)維吾爾文命名實(shí)體識(shí)別數(shù)據(jù)集。所使用的語(yǔ)料是從政府新聞網(wǎng)站天山網(wǎng)下載的維吾爾語(yǔ)新聞數(shù)據(jù),從中挑選22 150個(gè)維吾爾語(yǔ)句子,然后對(duì)其進(jìn)行人工標(biāo)注詞性和命名實(shí)體標(biāo)記,作為本文實(shí)驗(yàn)的維吾爾文命名實(shí)體識(shí)別語(yǔ)料庫(kù),如表6所示。

        表6 維吾爾文命名實(shí)體識(shí)別標(biāo)注語(yǔ)料庫(kù)

        3.2 實(shí)驗(yàn)結(jié)果

        本文進(jìn)行了5組實(shí)驗(yàn)對(duì)維吾爾文人名、地名、機(jī)構(gòu)名進(jìn)行命名實(shí)體識(shí)別,5組實(shí)驗(yàn)都在實(shí)驗(yàn)室的UNERDATA數(shù)據(jù)集上進(jìn)行命名實(shí)體識(shí)別。實(shí)驗(yàn)的評(píng)測(cè)方法是F1值、準(zhǔn)確率、召回率[18]。

        實(shí)驗(yàn)1實(shí)驗(yàn)?zāi)康?1)將CRF模型作為基準(zhǔn)模型,測(cè)試統(tǒng)計(jì)模型CRF在實(shí)驗(yàn)室提供的UNERDATA數(shù)據(jù)集上的性能;2)匯總使用CRF模型進(jìn)行命名實(shí)體識(shí)別時(shí)發(fā)現(xiàn)的一系列問(wèn)題。實(shí)驗(yàn)中使用了目前較流行的統(tǒng)計(jì)模型CRF++[18],由于標(biāo)記數(shù)據(jù)集是基于句子的,因此對(duì)于CRF++工具,只考慮了詞級(jí)特征。使用CRF工具進(jìn)行UNER任務(wù)后發(fā)現(xiàn)了以下問(wèn)題:

        1)CRF統(tǒng)計(jì)模型對(duì)語(yǔ)料中沒(méi)有出現(xiàn)的人名、地名無(wú)法正確識(shí)別。由于目前維吾爾文中尚缺少大型人名、地名和機(jī)構(gòu)名稱的標(biāo)注語(yǔ)料庫(kù),導(dǎo)致統(tǒng)計(jì)模型無(wú)法正確識(shí)別命名實(shí)體。

        2)維吾爾文中機(jī)構(gòu)名稱存在大量的縮寫情況,CRF模型對(duì)這種由單獨(dú)字符組成的機(jī)構(gòu)名縮寫無(wú)法進(jìn)行識(shí)別。例如:“ürümchi she?irlik j x idarsi”(烏魯木齊市公安局)里面的“j x”是公安局的縮寫,CRF模型對(duì)這種縮寫無(wú)法準(zhǔn)確識(shí)別。

        3)維吾爾文中的人名存在缺乏統(tǒng)一的寫作風(fēng)格,有些人名有幾種寫法。例如:人名“memetqasim”(買買提喀斯木)的另一個(gè)寫法是“matqasim”(買提喀斯木)。

        4)維吾爾文中存在大量兼類詞,有些人名兼有其他含義。例如:人名“yalqun”(亞力坤)的另一個(gè)意思是火焰,CRF模型無(wú)法利用上下文對(duì)這種兼類詞進(jìn)行正確識(shí)別,有時(shí)將類似人名識(shí)別標(biāo)記為O(其他)。

        5)維吾爾人姓名基本上由2個(gè)詞組成,但也存在一個(gè)人名由3,4個(gè)人名組成的情況,例如:“nurmemetоbulqasim”(努爾麥麥提吾布力卡斯木),CRF模型無(wú)法對(duì)這些長(zhǎng)人名正確識(shí)別。

        6)維吾爾地名中大量存在長(zhǎng)地名和長(zhǎng)機(jī)構(gòu)名,例如:“shinjang uyghur aptonom rayoni”(新疆維吾爾自治區(qū)),CRF模型無(wú)法對(duì)類似長(zhǎng)地名準(zhǔn)確識(shí)別。

        7)維吾爾文論壇、微博、新聞等網(wǎng)絡(luò)文本中存在大量的拼寫錯(cuò)誤問(wèn)題,CRF模型無(wú)法對(duì)拼寫錯(cuò)誤的單詞準(zhǔn)確識(shí)別,其準(zhǔn)確率為78.35%,召回率為75.78%,F1值為77.04%,

        實(shí)驗(yàn)2實(shí)驗(yàn)?zāi)康?1)研究深度神經(jīng)網(wǎng)絡(luò)模型相對(duì)于統(tǒng)計(jì)模型在維吾爾命名實(shí)體識(shí)別上是否有優(yōu)勢(shì);2)研究深度神經(jīng)網(wǎng)絡(luò)能否解決CRF統(tǒng)計(jì)模型中發(fā)現(xiàn)的問(wèn)題。實(shí)驗(yàn)中分別用簡(jiǎn)單RNN模型、LSTM模型和BiLSTM模型進(jìn)行UNER任務(wù)。從表7中可以看出,簡(jiǎn)單RNN模型的性能和CRF模型基本一樣,LSTM模型和BiLSTM模型的性能都比CRF模型好,其中BiLSTM模型的F1值比CRF模型提高了5.03%。

        表7 神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果 %

        實(shí)驗(yàn)3實(shí)驗(yàn)?zāi)康?驗(yàn)證CNN模型的有效性。實(shí)驗(yàn)在LSTM模型和BiLSTM模型的基礎(chǔ)上加入了CNN模型,使用CNN模型獲取字符特征,然后將字符向量和詞向量拼接后作為L(zhǎng)STM或BiLSTM模型的輸入進(jìn)行訓(xùn)練。從表8的實(shí)驗(yàn)結(jié)果可以看出,LSTM、BiLSTM模型加入CNN網(wǎng)絡(luò)后系統(tǒng)的識(shí)別能力都得到了提高,LSTM-CNN模型的F1值比LSTM模型提高了1.3%,BiLSTM-CNN模型比BiLSTM模型F1值提高了2.69%。

        表8 加入CNN模型后的實(shí)驗(yàn)結(jié)果 %

        實(shí)驗(yàn)4實(shí)驗(yàn)?zāi)康?驗(yàn)證CRF模型加入到BiLSTM-CNN-CRF框架后系統(tǒng)的性能,并進(jìn)一步提升系統(tǒng)UNER任務(wù)中的識(shí)別性能。在實(shí)驗(yàn)3的基礎(chǔ)上,對(duì)BiLSTM模型的輸出進(jìn)行CRF層,輸出概率最大的最優(yōu)標(biāo)記序列。從表9的實(shí)驗(yàn)結(jié)果可以看出,加入CRF層后LSTM-CNN-CRF模型和BiLSTM-CNN-CRF模型準(zhǔn)確率都得到了提高,其中BiLSTM-CNN-CRF模型的F1值比BiLSTM-CNN模型提高了4.3%。

        表9 加入CRF模型后各模型的實(shí)驗(yàn)結(jié)果 %

        實(shí)驗(yàn)5實(shí)驗(yàn)?zāi)康?進(jìn)一步提高系統(tǒng)的命名實(shí)體識(shí)別性能。在實(shí)驗(yàn)4的基礎(chǔ)上,對(duì)系統(tǒng)的輸入向量增加了詞性向量,本文實(shí)驗(yàn)中由于UNERDATA數(shù)據(jù)集中未提供維吾爾二級(jí)詞性的標(biāo)記,只使用了一級(jí)詞性作為特征進(jìn)行了模型訓(xùn)練,將CNN模型提取出來(lái)的字符特征向量和詞性向量與詞向量拼接生成最終特征向量作為RNN-CNN-CRF模型的輸入進(jìn)行訓(xùn)練。從表10的實(shí)驗(yàn)結(jié)果中可以看出,詞性向量加入到詞向量后BiLSTM-CNN-CRF模型準(zhǔn)確率有了提升,其中BiLSTM-CNN-CRF模型的準(zhǔn)確率達(dá)到了91.46%,F1值達(dá)到了91.89%,相對(duì)于基線CRF方法,其準(zhǔn)確率提高了13.11%,F1值提高了14.85%。

        表10 加入詞性向量后各模型的實(shí)驗(yàn)結(jié)果 %

        以上5組實(shí)驗(yàn)結(jié)果表明,本文建立的BiLSTM-CNN-CRF模型通過(guò)使用字符向量、詞性向量和詞向量組合的混合向量,在維吾爾文命名實(shí)體識(shí)別任務(wù)中達(dá)到了最好的性能。

        4 結(jié)束語(yǔ)

        針對(duì)維吾爾文命名實(shí)體識(shí)別任務(wù),本文以傳統(tǒng)的CRF統(tǒng)計(jì)模型作為基準(zhǔn)進(jìn)行實(shí)驗(yàn),總結(jié)維吾爾文命名實(shí)體識(shí)別中出現(xiàn)的問(wèn)題,進(jìn)而構(gòu)建基于BiLSTM-CNN-CRF框架的神經(jīng)網(wǎng)絡(luò)模型。該模型在CNN層捕獲字符級(jí)特征向量,在BiLSTM層獲取當(dāng)前詞語(yǔ)的過(guò)去和將來(lái)的上下文信息,在CRF層對(duì)BiLSTM層的輸出進(jìn)行解碼,最終輸出最優(yōu)的標(biāo)記序列。基于UNERDATA語(yǔ)料的實(shí)驗(yàn)結(jié)果進(jìn)一步驗(yàn)證了BiLSTM-CNN-CRF框架對(duì)維吾爾文命名實(shí)體識(shí)別的有效性。

        本文構(gòu)建的BiLSTM-CNN-CRF深度學(xué)習(xí)模型能夠在維吾爾文命名實(shí)體識(shí)別語(yǔ)料庫(kù)上得到較好的實(shí)驗(yàn)結(jié)果,并已應(yīng)用于維吾爾文網(wǎng)絡(luò)輿情分析系統(tǒng),有效識(shí)別出了文本中的人名、地名和機(jī)構(gòu)名,提高了輿情系統(tǒng)分析能力。后續(xù)將進(jìn)一步完善語(yǔ)料庫(kù),加入二級(jí)詞性標(biāo)注特征信息,并在新語(yǔ)料庫(kù)的基礎(chǔ)上測(cè)試本文模型的性能。

        猜你喜歡
        維吾爾文字符命名
        尋找更強(qiáng)的字符映射管理器
        命名——助力有機(jī)化學(xué)的學(xué)習(xí)
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        有一種男人以“暖”命名
        東方女性(2018年3期)2018-04-16 15:30:02
        為一條河命名——在白河源
        西部少數(shù)民族語(yǔ)言對(duì)阿拉伯文獻(xiàn)的譯介及其特點(diǎn)
        維吾爾文研究與Android維文閱讀器的實(shí)現(xiàn)?
        察合臺(tái)維吾爾文古籍的主要特點(diǎn)
        三级全黄裸体| 久久精品国产亚洲AV香蕉吃奶 | 亚洲人成人一区二区三区| 国产一级淫片免费播放电影| 91久久国产综合精品| 久久精品国产亚洲AV香蕉吃奶| 偷拍与自偷拍亚洲精品| 精品女人一区二区三区| 亚洲中文中文字幕乱码| 人妖国产视频一区二区| 永久免费视频网站在线| 五月色婷婷丁香无码三级| 无码av中文一区二区三区桃花岛| 亚洲成a人片在线观看无码3d| 成人午夜性a级毛片免费| 香蕉久久福利院| 欧美黑人疯狂性受xxxxx喷水| 熟妇无码AV| 久久久亚洲精品蜜桃臀| 一本大道久久精品一本大道久久| 一区二区三区国产大片| 麻神在线观看免费观看| 亚洲av无码成h在线观看| 黄网站欧美内射| 久久精品亚洲中文字幕无码网站| 大地资源中文第三页| 日本道免费精品一区二区| 国产精品午夜福利天堂| 日本乱熟人妻中文字幕乱码69| 大香焦av一区二区三区| 成人欧美一区二区三区在线| 被三个男人绑着躁我好爽视频 | 美丽人妻在夫前被黑人| 亚洲精品乱码久久久久久日本蜜臀| 亚洲欧洲无码一区二区三区| 国产成人精品亚洲午夜| 国产aⅴ丝袜旗袍无码麻豆| 亚洲综合网中文字幕在线| 精品少妇一区二区三区入口| 国产视频一区二区三区在线免费| 337p日本欧洲亚洲大胆精品|