亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識別

        2020-05-16 06:46:36楊雅婷蔣同海
        關(guān)鍵詞:維吾爾語詞綴字符

        董 瑞 楊雅婷 蔣同海

        1(中國科學(xué)院新疆理化技術(shù)研究所 新疆 烏魯木齊 830011)2(新疆民族語音語言信息處理實(shí)驗(yàn)室 新疆 烏魯木齊 830011)3(中國科學(xué)院大學(xué) 北京 100049)

        0 引 言

        隨著互聯(lián)網(wǎng)的普及和發(fā)展,網(wǎng)絡(luò)成為了每個人生活中不可缺少的部分,咨訊信息、新聞媒體、社交網(wǎng)絡(luò)充斥在每個人的身邊,維吾爾語文本信息增長飛快,因此維吾爾語自然語言處理研究變得越來越重要。命名實(shí)體識別是自然語言處理的基礎(chǔ)任務(wù),命名實(shí)體識別任務(wù)是從自然語言文本中識別出具有特點(diǎn)屬性和意義的實(shí)體,并加以分類。隨著深度學(xué)習(xí)在自然語言處理中的深入研究,神經(jīng)網(wǎng)絡(luò)模型已經(jīng)開始應(yīng)用于命名實(shí)體識別,相對于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別,神經(jīng)網(wǎng)絡(luò)模型能夠減少人工選擇特征、人工構(gòu)建模板這個復(fù)雜的特征工程,并且取得了不錯的效果。但是維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結(jié)構(gòu)上屬于黏著語,單詞是由詞干附加若干詞綴構(gòu)詞,形態(tài)非常豐富。由于其豐富的形態(tài)特征,僅僅通過神經(jīng)網(wǎng)絡(luò)模型自動提取的特征,無法獲得全面有效的文本表示。相對于僅使用神經(jīng)網(wǎng)絡(luò)模型自動提取特征,本文提出的融合多種語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型,在維吾爾語命名實(shí)體識別任務(wù)上取得了更好的識別效果。

        1 相關(guān)工作

        1991年Rau在第7屆IEEE人工智能應(yīng)用會議上提出命名實(shí)體的概念之后,信息理解會議(Message Understanding Conference,MUC)、內(nèi)容自動提取(Automatic Content Extraction,ACE)的評測推動著命名實(shí)體識別研究的發(fā)展。國家高技術(shù)研究發(fā)展計(jì)劃“中文信息處理與智能人機(jī)接口技術(shù)評測”以及SIGHAN(計(jì)算語言學(xué)協(xié)會特別興趣小組,研究中文自然語言處理)的BAKEOFF評測都對中文命名實(shí)體識別的發(fā)展起到了促進(jìn)的作用。

        傳統(tǒng)的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識別算法,例如SVM、HMM、CRF,為了獲取更高的識別性能,需要進(jìn)行大量的特征工程,人工定義特征,生成特征模板,識別算法的成功與否和研究者設(shè)置的特征模板息息相關(guān)。通常這些人工挑選的特征都是和語言相關(guān)的。例如,對于英語來說,文本中的命名實(shí)體詞需要首字母大寫,這一特征就非常重要,但是對于漢字和維吾爾語字母沒有大寫特征,因此針對不同語種的命名實(shí)體識別任務(wù),選擇合適的語言學(xué)特征就變得非常重要。

        隨著深度學(xué)習(xí)在自然語言處理的深入研究,詞向量通常作為神經(jīng)網(wǎng)絡(luò)模型的輸入層,在不同自然語言處理任務(wù)中都能夠取得非常好的效果。詞向量是在無標(biāo)注大規(guī)模文本上無監(jiān)督訓(xùn)練獲取的,能夠表達(dá)部分語義信息和上下文關(guān)系。Collobert等[1]為了減少特征工程的工作量,使用CNN-CRF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行命名實(shí)體識別任務(wù),取得了不錯的效果。Chiu等[2]在Bi-LSTM基礎(chǔ)上,聯(lián)合詞向量和CNN提取的字符特征作為輸入向量進(jìn)行命名實(shí)體識別,實(shí)驗(yàn)表明CNN提取的字符特征能夠更進(jìn)一步的豐富命名實(shí)體的文本表示。但是使用Bi-LSTM進(jìn)行命名實(shí)體識別時,輸出層通常使用Softmax作為激活函數(shù),將命名實(shí)體識別任務(wù)看作一個文本分類任務(wù),這樣做的前提假設(shè)是輸出類別之間相互獨(dú)立,但是命名實(shí)體識別輸出的實(shí)體類別標(biāo)簽是相互關(guān)聯(lián)的。例如某個單詞的輸出實(shí)體標(biāo)簽是I-LOC,那么它的上一個單詞一定是B-LOC或者I-LOC,而不能是B-ORG。為了解決輸出實(shí)體類別序列間的關(guān)系依賴問題,黃志恒等[3]提出了一種使用Bi-LSTM-CRF的網(wǎng)絡(luò)結(jié)構(gòu),將Bi-LSTM的輸出向量連接到CRF層,取得了不錯的效果,但是沒有加入CNN進(jìn)行字符特征提取。Ma等[4]在Bi-LSTM-CRF的基礎(chǔ)上,使用CNN提取每個單詞的字符特征,然后將字符特征和詞嵌入拼接在一起作為輸入向量,使用Bi-LSTM-CNN-CRF在CONLL2003數(shù)據(jù)集上取得了最優(yōu)的識別結(jié)果。

        維吾爾命名實(shí)體識別研究開始比較晚,從基于規(guī)則的人名翻譯開始[5-7],到使用規(guī)則和統(tǒng)計(jì)的方法進(jìn)行維吾爾語人名識別[8],再到使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行維吾爾語人名識別[9-10],以及分別針對機(jī)構(gòu)名、地名、和數(shù)詞進(jìn)行識別[11-15]。大部分針對維吾爾語命名實(shí)體識別的研究者都使用條件隨機(jī)場作為序列標(biāo)注算法[16]。近期一些學(xué)者也開始使用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行命名實(shí)體識別研究[17-18],但是目前還沒有開放的數(shù)據(jù)集以及公開評測項(xiàng)目。

        2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        2.1 詞向量

        文本使用Word2vec進(jìn)行維吾爾語詞向量的訓(xùn)練,訓(xùn)練語料為298萬句維吾爾語單語語料,共1 921 477個單詞。使用CBOW計(jì)算詞向量,詞特征窗口大小為8,最小詞頻為1,詳細(xì)內(nèi)容見表1。

        表1 詞向量參數(shù)設(shè)置

        2.2 CNN抽取字符特征

        卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在自然語言處理中,常使用CNN來提取文本特征,并且有研究者發(fā)現(xiàn),使用CNN抽取字符級特征,能夠很好地表示單詞的形態(tài)學(xué)特征。圖1為本文模型中抽取字符特征的網(wǎng)絡(luò)結(jié)構(gòu),“suyimen”是拉丁維語“我喜歡”的意思。

        圖1 CNN抽取字符特征

        本文設(shè)置字符向量維數(shù)為30,并且進(jìn)行隨機(jī)初始化。每個單詞的最大字符長度為50,如果超過最大長度,就截取前50個字母,如果長度小于50,就使用Padding進(jìn)行補(bǔ)齊。通過卷積層和最大池化層,抽取單詞的字符特征表示向量。卷積核尺寸為30,卷積核長度為3。

        2.3 語言學(xué)特征向量

        維吾爾語屬于阿爾泰語系突厥語族西匈語支,在語法結(jié)構(gòu)上屬于黏著語,維吾爾單詞是由詞干附加若干詞綴構(gòu)成,有著豐富的形態(tài)學(xué)特征。由于這種復(fù)雜形態(tài),CNN很難完全抽取所有的形態(tài)學(xué)特征,并且維吾爾語的每個詞綴還有自己的詞性特征。借鑒于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的維吾爾語命名實(shí)體識別研究,我們設(shè)計(jì)了一組維吾爾語語言學(xué)特征,見表2。

        表2 語言學(xué)特征說明

        例如拉丁維語單詞oquyalmidim(漢語意思:我不會讀),切分成詞干附加詞綴的形式為:

        oquyalmidim->oqu+yala+ma+d+im

        其中:oqu是詞干,yala是第一個詞綴,ma是第二個詞綴,d是第三個詞綴,im是第四個詞綴,每個詞綴有不同的詞性。這個維吾爾語單詞的語言學(xué)特征就可以用表3表示。

        表3 維吾爾語單詞語言學(xué)特征示例

        設(shè)置每個語言學(xué)特征的向量維數(shù)為30,隨機(jī)初始化向量。

        2.4 聯(lián)合向量表示

        將詞向量、字符特征向量以及語言學(xué)特征向量級聯(lián)作為神經(jīng)網(wǎng)絡(luò)的輸入向量表示。假設(shè)Vword表示詞向量,Vchar表示字符特征向量,Vfi表示表2中的第i個語言學(xué)特征向量,整體輸入向量就可以表示為V=[Vword:Vchar:Vf1:…:Vf10],結(jié)果如圖2所示。

        圖2 聯(lián)合特征表示

        2.5 Bi-LSTM

        (1) LSTM。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)的網(wǎng)絡(luò)結(jié)構(gòu)在自然語言處理中得到了廣泛的應(yīng)用。對于命名實(shí)體任務(wù)來說,RNN的輸入層就是詞向量,輸出層就是命名實(shí)體類別序列。RNN網(wǎng)絡(luò)有一個很大的缺點(diǎn)就是長期依賴問題,對于過長的神經(jīng)網(wǎng)絡(luò)序列,很難保留很久之前的輸入信息。為了解決這個問題,Hochreither等設(shè)計(jì)了長短期記憶網(wǎng)絡(luò)(Long short term merroy,LSTM),通過三個特殊的門結(jié)構(gòu)來控制輸入和輸出信息。圖3為一個LSTM單元的基本結(jié)構(gòu)。

        圖3 LSTM單元基本結(jié)構(gòu)

        LSTM更新公式如下:

        it=σ(Wxixt+Whiht-1+Wcict-1+bi)

        (1)

        ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

        (2)

        ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

        (3)

        ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo)

        (4)

        ht=ottanh(ct)

        (5)

        式中:σ是Sigmoid激活函數(shù);i是輸入門;f是遺忘門;c是記憶單元;o是輸出門;h是隱層;tanh表示雙曲正切激活函數(shù);W是權(quán)重矩陣,例如Wxi是輸入x到輸入門之間的權(quán)重矩陣,Whi是隱層到輸入門的權(quán)重矩陣,b是偏置向量。

        2.6 CRF

        條件隨機(jī)場(Conditional Random Fields,CRF) 是在給定一組輸入隨機(jī)變量條件下,另外一組輸出隨機(jī)變量的條件概率分布模型。使用Softmax激活函數(shù)作為輸出層的前提假設(shè)是輸出類別直接相互獨(dú)立,類別之間沒有約束。但是對于命名實(shí)體識別任務(wù)來說,輸出類別之間是有約束關(guān)系的。而CRF可以很好地對這種類別間關(guān)系進(jìn)行約束,因此使用CRF層和Bi-LSTM的輸出向量連接在一起進(jìn)行命名實(shí)體識別任務(wù)。

        2.7 多特征融合的Bi-LSTM-CNN-CRF模型

        將詞向量、字符特征以及語言學(xué)特征連接在一起作為輸入向量,將BLSTM的輸出向量和CRF層相連,構(gòu)成融多種合語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型,整體結(jié)構(gòu)如圖4所示。

        圖4 融合多語言學(xué)特征的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)

        每一個輸入的維吾爾語單詞,將其詞向量和CNN提取的字符特征向量以及經(jīng)過形態(tài)學(xué)分析得到的語言學(xué)特征向量拼接到一起,作為Bi-LSTM網(wǎng)絡(luò)的輸入向量,最后再將Bi-LSTM的輸出向量和CRF層相連。

        3 實(shí) 驗(yàn)

        3.1 標(biāo)注規(guī)范

        本文使用BIO標(biāo)注規(guī)范,命名實(shí)體類別包括三類:人名、機(jī)構(gòu)名和地名。具體定義如表4、表5所示。

        表4 BIO標(biāo)注含義

        表5 命名實(shí)體識別類別說明

        3.2 訓(xùn)練語料

        由于維吾爾語命名實(shí)體識別任務(wù),沒有公開發(fā)布的標(biāo)注數(shù)據(jù)集,因此本文使用中科院新疆理化所標(biāo)注的維吾爾語命名實(shí)體識別語料。詳細(xì)信息如表6所示。

        表6 訓(xùn)練語料說明

        3.3 評測指標(biāo)

        本文使用精確率P、召回率R、F1值來進(jìn)行評測。具體公式如下:

        (6)

        (7)

        (8)

        3.4 實(shí)驗(yàn)結(jié)果及分析

        為了驗(yàn)證加入語言學(xué)特征是否能夠提高維吾爾語命名實(shí)體性能,本文進(jìn)行了多組對比實(shí)驗(yàn),使用不添加任何語言學(xué)特征的Just_token作為基線系統(tǒng)。

        (1) 實(shí)驗(yàn)一:分別使用每個語言學(xué)特征,將其添加到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行對比,結(jié)果如表7所示。

        表7 多種語言學(xué)特征對比實(shí)驗(yàn)結(jié)果 %

        從實(shí)驗(yàn)結(jié)果看,對比不添加任何語言學(xué)特征直接使用Bi-LSTM-CNN-CRF,大部分添加的語言學(xué)特征的模型可以取得更好的識別結(jié)果,但是對于僅使用Pos4、suffix4這兩種語言學(xué)特征,識別結(jié)果并沒有基線系統(tǒng)高。為了確定這幾種語言學(xué)特征是否有效,進(jìn)一步進(jìn)行實(shí)驗(yàn)驗(yàn)證。

        (2) 實(shí)驗(yàn)二:對于Pos4特征,為了確定這個語言學(xué)特征是否對維吾爾語命名實(shí)體識別有用,我們將Pos1-Pos4這四種特征同時添加到神經(jīng)網(wǎng)絡(luò)模型中,用來比較添加Pos4特征后,是否對整體命名實(shí)體識別任務(wù)有幫助,實(shí)驗(yàn)結(jié)果見表8。

        表8 融合所有詞綴詞性特征對比 %

        可以看出,在F1值上,添加全部的詞綴詞性特征有一定的提高,因此我們決定將Pos4特征加入整體的語言學(xué)特征中去。

        (3) 實(shí)驗(yàn)三:Suffix1-Suffix4分別是每個維吾爾語單詞所附加的第一個到第四個詞綴特征,可以發(fā)現(xiàn)雖然使用CNN進(jìn)行字符特征提取能夠獲取一部分形態(tài)學(xué)特征,但是由于維吾爾語形態(tài)復(fù)雜,并不能獲取全部的形態(tài)學(xué)特征。通過表7可以看出Suffix1-Suffix3分別添加之后,識別結(jié)果都有一定的提升。Suffix4效果不好的原因經(jīng)過分析發(fā)現(xiàn),測試集中共有20 242個單詞,包含4個詞綴的單詞只有1 086個,過于稀疏,對識別訓(xùn)練造成了負(fù)面影響。為了驗(yàn)證Suffix4是否對維吾爾語命名實(shí)體識別有負(fù)面影響,我們同時添加Suffix1-Suffix4這四個特征進(jìn)行對比實(shí)驗(yàn),結(jié)果如表9所示。

        表9 融合所有詞綴特征對比 %

        通過表9可以發(fā)現(xiàn),雖然單獨(dú)加入Suffix4沒有能夠提高識別率,但是同時添加四個詞綴特征,可以有效提高命名實(shí)體識別精度。

        (4) 實(shí)驗(yàn)四:通過上述的實(shí)驗(yàn)可以看出,語言學(xué)特征能夠提高維吾爾語命名實(shí)體識別精度,因此,我們將加入所有的語言學(xué)特征,與實(shí)驗(yàn)二中加入Pos1-Pos4特征以及實(shí)驗(yàn)三中加入Suffix1-Suffix4特征進(jìn)行對比實(shí)驗(yàn),結(jié)果如表10所示。

        表10 融合所有語言學(xué)特征對比 %

        實(shí)驗(yàn)結(jié)果表明,融合所有語言學(xué)特征后,相對于沒有添加語言學(xué)特征的Bi-LSTM-CNN-CRF模型,維吾爾語命名實(shí)體識別精度有著顯著提高,F(xiàn)1值提高了3.98%。同時,相對于僅添加了部分特征的,Pos1-Pos4以及Suffix1-Suffix4這兩種模型,全部的語言學(xué)特征可以取得最好的命名實(shí)體識別精度。

        4 結(jié) 語

        由于維吾爾語的復(fù)雜形態(tài)特性,僅僅使用字符級CNN網(wǎng)絡(luò)無法充分提取維吾爾語形態(tài)特征。本文提出了一種融合多種語言學(xué)特征的Bi-LSTM-CNN-CRF神經(jīng)網(wǎng)絡(luò)模型。通過整合詞向量、字符特征、多種語言學(xué)特征向量作為輸入向量,使用Bi-LSTM獲取上下文信息,使用CRF作為輸出層,約束輸出命名實(shí)體類別序列。

        實(shí)驗(yàn)表明,本文提出的融合多種語言學(xué)特征的維吾爾語神經(jīng)網(wǎng)絡(luò)命名實(shí)體識別模型,可以彌補(bǔ)僅僅使用CNN提取字符特征無法充分獲取復(fù)雜形態(tài)特征的缺點(diǎn),有效提升維吾爾語命名實(shí)體識別效果。

        現(xiàn)有的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)還很難充分地自動抽取復(fù)雜形態(tài)語言的形態(tài)特征以及其他語言學(xué)特征,下一步將設(shè)計(jì)新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),能夠更充分地自動抽取維吾爾語語言特征,進(jìn)一步減少特征工程,并且提高維吾爾語命名實(shí)體識別精度。

        猜你喜歡
        維吾爾語詞綴字符
        尋找更強(qiáng)的字符映射管理器
        從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        消失的殖民村莊和神秘字符
        釋西夏語詞綴wji2
        西夏研究(2017年1期)2017-07-10 08:16:55
        統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識別方法
        維吾爾語話題的韻律表現(xiàn)
        維吾爾語詞重音的形式判斷
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
        語言與翻譯(2014年3期)2014-07-12 10:32:09
        一区二区三区最新中文字幕| 久久亚洲道色宗和久久| 久久天天躁狠狠躁夜夜中文字幕| 国产成人高清亚洲一区二区| 女同同性av观看免费| 最近中文字幕完整版免费| 久久亚洲黄色| 在线观看中文字幕一区二区三区| 国产亚洲91精品色在线| 久久久av波多野一区二区| 色欲aⅴ亚洲情无码av蜜桃| 国产成人精品日本亚洲直播| 伊人精品成人久久综合97| 丰满大爆乳波霸奶| 国产精品成人一区二区三区| 青青草视频网站免费观看| 伊人五月亚洲综合在线| 帅小伙自慰videogay男男| 亚洲粉嫩高潮的18p| 无码a级毛片免费视频内谢| 亚洲中文字幕第15页| 人妻丰满熟妇无码区免费| 欧美人与动牲交片免费| 日韩精品极品免费观看| 国产精品对白一区二区三区| 亚洲日韩国产一区二区三区在线| 亚洲AV一二三四区四色婷婷| 久久精品亚洲成在人线av| 精品午夜福利在线观看| 日本不卡在线视频二区三区| 色婷婷丁香综合激情| 国产精品老熟女乱一区二区| 国产日产精品一区二区三区四区的特点| 俺也去色官网| 国产精品国产三级在线专区| 亚洲精品久久国产精品| av蓝导航精品导航| 国产精品无码mv在线观看| 青青草成人在线播放视频| 一夲道无码人妻精品一区二区| 成人网站免费看黄a站视频|