阿布都克力木·阿布力孜,劉 暢,哈里旦木·阿布都克里木,郭文強
(新疆財經大學信息管理學院,新疆 烏魯木齊 830012)
形態(tài)切分是一項自然語言處理的基礎任務,將維吾爾語詞語切分為詞干和詞綴,進而可以為機器翻譯、信息抽取等上層應用任務提供高質量特征和預處理數(shù)據(jù)[4]。
近幾年,基于神經網絡的方法在維吾爾語形態(tài)切分任務中受到重視,包括雙向門限遞歸單元(Bi-directional Gated Recurrent Unit,BiGRU)和指針網絡(Pointer-Network)等模型。首先按照字符在切分好的語素中所在位置,添加相應的標識符,然后設計神經網絡模型學習字符到標識符的映射規(guī)律。但上述方法在對每個字符的標識進行推斷時都是獨立的,所以往往會預測出不符合轉移規(guī)則的標識序列。針對上述問題,雙向長短期記憶模型+條件隨機場(BiLSTM-CRF)模型[5]可以強化字符標識的關聯(lián)性。但是統(tǒng)計學方法的加入更多是為了考慮字符之間的關系,并沒有考慮到語素之間的轉移規(guī)則,即僅僅解決了標識序列不合理的問題,切分效果提升并不明顯。
為了解決現(xiàn)有神經網絡方法不能考慮上下語素關系的缺陷,受到Chiu等人[6]與Ma等人[7]的英文命名實體識別工作的啟發(fā),本文提出CNN-BiLSTM-CRF 維吾爾語形態(tài)切分模型。該模型改進了適用于文本的卷積神經網絡(Text-CNN)[8],使用了多尺度卷積,以字符作為切分細粒度,不依賴于詞典,自動編碼字符所在的多尺度字符串信息,與字符嵌入相融合后使用BiLSTM-CRF[5]進行切分。該方法避免模型推斷出相互獨立的結果,使得模型不僅考慮標簽轉移的合理化,且可以考慮到語素轉移之間的合理性,緩解標識符“BMES”過擬合問題,考慮到更遠的潛在語素信息,優(yōu)化切分效果。
此外,本文提出了一種新的切分性能評價指標切分準確率(S.A.),根據(jù)預測標識序列與標準標識序列之間的關系,更加全面的反映模型切分效果。
現(xiàn)有維吾爾語形態(tài)切分方法主要分為基于規(guī)則、基于統(tǒng)計和基于神經網絡 的方法。
基于規(guī)則的方法[9]根據(jù)專家建立的詞典和規(guī)則庫進行切分,雖然速度較快,但存在覆蓋面有限和規(guī)則相互沖突等問題[1]。
基于統(tǒng)計的方法則是將語言學問題轉變?yōu)榻y(tǒng)計學問題,根據(jù)詞、字符的共現(xiàn)、轉移規(guī)律實現(xiàn)對語素的識別和切分[10-17]。無監(jiān)督學習方面,主要利用Morfessor[14,17,18]等軟件,能夠有效處理歧義問題,但需求高質量語料庫[1]。監(jiān)督學習方面,一般利用條件隨機場(Conditional Random Field,CRF)[19]等概率圖模型來進行建模。整體上,基于統(tǒng)計的方法緩解了基于規(guī)則方法覆蓋面低和人力成本高的問題,但人工設計特征難度大,且切分準確率還有較大的提升空間。
基于神經網絡 的方法是一種新興的方法,神經網絡通過自動學習特征表示緩解統(tǒng)計方法特征設計困難等問題。哈里旦木·阿布都克里木等人[2]首次使用神經網絡模型進行維吾爾語形態(tài)切分,將BiGRU作為序列標注模型,利用GRU的記憶能力雙向編碼維吾爾語字母,優(yōu)于以Morfessor和CRF為代表的統(tǒng)計方法。Yang等人[20]簡化了標識序列,在四位標識符的基礎上去除了“E”和“M”,將原本是“B”和“S”的字符視為指針,原標識序列轉變?yōu)橹羔樞蛄?,然后將字符序列到指針序列的映射過程視為序列生成過程,再使用指針網絡建模,其F-Score超越了BiGRU。
盡管維吾爾語語料規(guī)模較小,缺乏可靠的語素詞典容易導致難以準確融合語素信息等問題,但引入外部語法或潛在語素信息可以緩解上述問題。賽迪亞古麗·艾尼瓦爾等人[13]將詞性特征和上下文詞干信息相融合,然后使用CRF作為序列標注模型,取得了更優(yōu)的詞干提取準確率。古麗尼格爾·阿不都外力等人[21]以BiLSTM-CRF為基礎,引入字符級的音類特征和語音特征,取得了更好的詞干提取準確率。吐爾洪·吾司曼等人[22]提出語素協(xié)同標記方法提高準確率。
在其它語言詞法分析任務中,許多研究引入了詞匯、語法或其它特征,有效提高了模型性能。Chiu等人[6]與Ma等人[7]將英文命名實體識別視作序列標注任務,利用融合潛在詞綴特征的模型取得了較好的F1值等性能。Bergmanis等人[23]在Log-Linear的基礎上使用了雙語語料,在融合雙語信息后,模型的語素切分準確率得到了提升。Zhang等人[24]通過引入漢語詞匯信息,提高了長短期記憶模型(Long Short-Term Memory,LSTM)在中文命名實體識別上的準確率。Qun等人[25]借助了漢語詞典和詞匯預訓練信息,提高了BiLSTM-CRF模型在中文分詞任務中的準確率。
本文提出一種多尺寸卷積的方法來編碼不同長度維吾爾語字符串的信息,如圖1所示。
圖1 多尺度字符串編碼器
這些卷積核在字符向量上以固定為1的步長進行滑動采樣,每個卷積核的寬度都與字符向量維度一致。為了控制每個卷積核的輸出維度等于序列輸入長度,本文根據(jù)卷積核的尺寸大小來對字符向量的兩端進行動態(tài)填充,固定卷積滑動步長為1,且卷積核尺寸必須為奇數(shù)。設x∈d是維度為d的字符向量,則一個長度為n的維吾爾詞語可以表示成式(1)
X1:(n+w-1)=pad⊕x1…xn⊕pad
(1)
其中,w∈+,⊕表示拼接,pad表示與x相同維度的填充向量,每端填充長度為(w-1)/2。使用一個卷積核Wc∈wd在序列維度上做卷積操作,得一個字符串特征值
cw,i=f(Wc·Xi:(i+w-1)+bc)
(2)
其中,b∈,i=1,2,…n,f表示某個激活函數(shù)。以固定為1的步長在輸入維度上滑動卷積核,以完成在整個輸入上采樣,最終得到每一個字符的字符串編碼
C=[cw1,cw2,…cwj]
(3)
本文利用BiLSTM[27,28]對維吾爾語字符串信息和字符信息同時進行雙向上下文編碼,充分考慮字符上下文特征和語素之間的上下文關系。首先,將卷積層輸出向量與字符嵌入向量拼接得到BiLSTM的輸入
I=C⊕X
(4)
按本文3.1節(jié)中的方法,BiLSTM逐步讀入所有拼接后的向量,最終得到一個字符和字符串的上下文編碼
(5)
然后經過一個線性層,得到t時刻輸入的字符分別屬于“B”、“M”、“E”、“S”的概率向量et
et=softmax(htWz)
(6)
所有字符的概率矩陣為E=[e1,…et,…en]。Yz=[y1,…yt,…yn]為X的某條標識轉移路徑,其中yt∈{B,M,E,S},t=1,2,…n。通過式(7)計算某條標識轉移路徑的分數(shù)
(7)
其中T(y(t-1),yt)表示由狀態(tài)y(t-1)轉移到y(tǒng)t的得分,是CRF的可訓練參數(shù)。CRF層用于對特征解碼,主要起到預測作用[16,21]。
圖2 CNN-BiLSTM-CRF網絡結構圖
對于輸入X,模型的真實路徑Yreal在所有路徑中的得分占比應該是最大的,則可以通過該比重的負對數(shù)來作為模型的損失L
P(X,Y)=EXP(s(X,Y))
(8)
(9)
最后,使用基于梯度的最優(yōu)化方法[29]最小化L,可將模型中的可訓練參數(shù)收斂到最優(yōu)值。
本實驗使用了由文獻 [2]公開的維吾爾語形態(tài)切分數(shù)據(jù)(https:∥github.com/halidanmu/THUUMS/tree/master/data)。數(shù)據(jù)集共有維吾爾詞語19 629個,其中開發(fā)集、測試集分別包含1 000個,其余17 629個被劃分為訓練集。數(shù)據(jù)集中的語素分布情況如表1所示。
表1 維吾爾語形態(tài)切分語料庫
未登錄詞(Out Of Vocabulary,OOV),在自然語言處理任務中指那些未被詞典收錄的詞匯。相對的,登錄詞(In Vocabulary,IV)是指那些在詞典中出現(xiàn)的詞匯。由于維吾爾語語素的稀疏性,訓練語料也相對貧乏,OOV的語素占比較大。這就意味著有大量的從未在訓練集中出現(xiàn)的語素在驗證和測試集中出現(xiàn)。表2展示了本文所用語料中OOV的情況。
表2 未登錄詞分布
為了緩解過擬合的影響,本文在BiGRU/BiLSTM層添加了Dropout機制,本文設計的實驗所使用超參數(shù)如表3所示:
表3 超參數(shù)表
本文的實驗采用精準率(P)、召回率(R)、與二者的調和平均F-Score作為模型的評估指標。首先,分別統(tǒng)計模型在“B”、“M”、“E”、“S”類別上的P、R和F-Score,最后求出各個指標在標識維度上的均值。
另外,由于本文根據(jù)每個字符的“B”、“M”、“E”、“S”標識來還原切分。在這種切分方案下,某些模型對少數(shù)字符的錯誤預測,會影響多個切分。例如,一個標準標識序列為“BMMES”,模型的推斷結果為“BMBES”,其中有一對轉移狀態(tài)“MB”不符合轉移規(guī)則,但由于不能定位錯誤位置,無法形成準確切分。為了盡可能還原切分,針對此錯誤,本文保留“B”與“S”的結果,即還原為“BEBES”。本文認為,僅利用標識的分類指標不足以衡量模型的最終切分性能,故本文提出以模型最終切分準確率來輔助衡量模型的切分性能。
如表4所示,首先,分別將預測的標識序列與標準標識序列還原為區(qū)間集合,每個區(qū)間代表一個切分;接著求出兩個區(qū)間集合的交集,該交集代表模型最終正確預測的切分;最后按式(10)求出正確預測的切分個數(shù)占標準切分個數(shù)的占比,它在本文中也被稱為切分準確率:
(10)
表4 切分集合與區(qū)間集合
為了驗證本文所提方法的有效性,選取了文獻 [2]提出的BiGRU形態(tài)切分模型作為本文的基準,并且引用了該文的Morfessor與CRF實驗結果作為參考。文獻[20]提出的Pointer-Network模型在維吾爾語形態(tài)切分任務上達到了最佳的F-Score,但由于未公開源碼及預處理數(shù)據(jù),本文引用了此文報告的最佳性能作為輔助參照。另外,為了驗證字符串編碼對形態(tài)切分的有效性,本文設計了BiLSTM-CRF作為消融對比模型。
4.5.1 不同模型性能對比
由表5可見,相較于BiLSTM,BiLSTM-CRF的F-Score提升并不明顯,但是切分準確率分別提升1.19%和0.94%。這說明在部分數(shù)據(jù)集上,CRF解決了標識序列不合理的問題,但在一些更難切分的語素上,CRF會過于考慮字符標識之間的轉移規(guī)則,而不能對語素正確切分,導致針對字符統(tǒng)計的F-Score提升不明顯,這個現(xiàn)象在4.5.2節(jié)有更詳細的討論。引入字符串信息后,CNN-BiLSTM-CRF模型的切分準確率、F值均優(yōu)于其它對比模型。在BiLSTM-CRF的基礎上,CNN-BiLSTM-CRF的F-Score在驗證集和測試集上分別提升了0.61%和0.66%,切分準確率提升0.45%和1.17%,綜合切分性能在所有比較模型中最好。
表5 維吾爾語形態(tài)切分實驗結果
綜合表明,利用CNN對字符串進行編碼,再使用BiLSTM編碼部分字符串之間的上下文關系,CRF在進行推斷時,可以考慮到一些強關聯(lián)的字符串,達到更高準確率。
4.5.2 樣例分析
本文針對各個模型出現(xiàn)的典型錯誤,對錯誤樣例進行分析如表6所示。
表6 切分實例
4.5.3 OOV與IV
為了進一步探究字符串編碼的作用,本文觀察了不同模型在OOV與IV上的表現(xiàn)。
如表7展示,僅加入CRF限制而不引入字符串的信息,BiLSTM-CRF在IV中的切分準確率相對BiLSTM有一定提升,但是對OOV的識別方面,模型在測試集上提升較小且在驗證集上準確率降低。這表明,僅僅加入CRF,能很好地解決不合理切分的問題,但是對模型識別OOV幫助甚微。進一步引入字符串信息之后,CNN-BiLSTM-CRF在IV中的切分準確率進一步提升,在OOV上也有顯著提升,在驗證和測試集上相較BiLSTM切分準確率分別提升0.97%和3.42%。這說明,引入字符串信息有助于幫助模型能更好地識別IV,利用字符串之間的上下文關系,模型可以更好地推斷OOV,從而提高整體語素識別。
表7 OOV與IV識別結果
本文將維吾爾語形態(tài)切分視作字符細粒度的序列標注任務,提出了一種融合多尺度字符串和字符嵌入的編碼方法,主要結論:
1) 本文提出的CNN-BiLSTM-CRF模型取得了較高的F-Score與切分準確率,較BiGRU分別提升0.63%和2.2%。IV和OOV的識別切分準確率至少提升1.02%和2.94%;
2)引入了一種新的指標切分準確率輔助衡量模型性能,通過實例分析不同模型的提升機制,在分析模型切分效果方面具有參考意義。
本文存在的局限性:將BiLSTM作為上下文編碼器,訓練所花費的時間較長,不能充分利用分布計算的優(yōu)勢,順序計算效率低。在未來的工作主要改進有:
1)采用基于注意力機制的編碼器代替循環(huán)結構的網絡,例如Transformer模型[30];
2)高質量的詞干詞綴詞典可以使CNN更有針對性地編碼所有潛在語素。擴充高質量的維吾爾語形態(tài)切分數(shù)據(jù)集、詞干詞綴詞典也是未來的研究內容;
3)采用預訓練(pre-train)等遷移學習方法緩解語料庫規(guī)模不足等問題[31][32]。