庫(kù)瓦特拜克·馬木提
(伊犁師范大學(xué) 電子與信息工程學(xué)院,新疆 伊寧 835000)
黏著語(yǔ)類型語(yǔ)言包括蒙古語(yǔ)、維吾爾語(yǔ)和哈薩克語(yǔ)等。黏著語(yǔ)類型的語(yǔ)言單詞在組成上可以分為:詞根、詞干、構(gòu)詞附加成分、構(gòu)形附加成分(附加成分也稱為詞綴)。一般而言,黏著語(yǔ)的每一個(gè)詞綴都只表達(dá)一種意思或只具有一種語(yǔ)法功能。詞根后面附加構(gòu)詞附加成分,形成新的詞匯意義從而構(gòu)成新詞;而詞干后面附加構(gòu)形附加成分,形成與詞干意義相同,語(yǔ)法含義不同的單詞。哈薩克語(yǔ)單詞的構(gòu)造形式是通過(guò)將不同的構(gòu)形附加成分按照一定的規(guī)則綴接在詞干后來(lái)實(shí)現(xiàn)的。根據(jù)這些規(guī)則,構(gòu)形附加成分是可以層疊的。哈薩克語(yǔ)單詞的這種構(gòu)形方式使哈薩克語(yǔ)單詞的形態(tài)變化豐富而且復(fù)雜。
哈薩克語(yǔ)單詞的構(gòu)形附加成分承載著該單詞數(shù)、格、體、時(shí)等大量語(yǔ)言相關(guān)的語(yǔ)法信息。每一個(gè)哈薩克語(yǔ)單詞與其他語(yǔ)言不同之處在于,其語(yǔ)法意義不僅與單詞在句子中的未知有關(guān),也與不同構(gòu)形附加成分的綴接相關(guān),所以要分析哈薩克語(yǔ)單詞的詞性屬性和語(yǔ)法關(guān)系就需要正確切分詞干和構(gòu)形附加成分。但是在現(xiàn)實(shí)的語(yǔ)言環(huán)境中,哈薩克語(yǔ)單詞整體為一個(gè)連續(xù)的字符串形式,各構(gòu)形成分之間沒(méi)有形式上的分隔。首先要從單詞中分離出詞干和構(gòu)形成分,才可以利用這些信息。同時(shí)詞干在綴接構(gòu)形成分時(shí)有些詞干會(huì)發(fā)生相應(yīng)的變化,需要進(jìn)行詞干的還原處理。構(gòu)形附加成分的識(shí)別及詞干還原過(guò)程就是哈薩克語(yǔ)的詞干切分。哈薩克語(yǔ)詞干切分屬于詞法分析的基礎(chǔ)性工作,對(duì)哈薩克語(yǔ)的信息檢索、句法分析、機(jī)器翻譯等具有重要作用。
基于機(jī)器學(xué)習(xí)的方法在哈薩克語(yǔ)詞干切分的研究中還沒(méi)有得到應(yīng)用。文中首先手工標(biāo)注了100萬(wàn)詞匯的哈薩克語(yǔ)文本語(yǔ)料,為開(kāi)展機(jī)器學(xué)習(xí)方法的研究準(zhǔn)備了較為充分的詞干切分語(yǔ)料;其次在哈薩克語(yǔ)詞干切分任務(wù)中應(yīng)用了最大熵模型和條件隨機(jī)場(chǎng)模型,為哈薩克語(yǔ)信息處理提供了可行的機(jī)器學(xué)習(xí)方法;再次設(shè)計(jì)并實(shí)現(xiàn)了兩種機(jī)器學(xué)習(xí)方法的對(duì)比性實(shí)驗(yàn),取得了較好的實(shí)驗(yàn)結(jié)果,哈薩克語(yǔ)詞干切分的準(zhǔn)確率在條件隨機(jī)場(chǎng)模型中達(dá)到了85%以上,相對(duì)于傳統(tǒng)的基于規(guī)則的方法,取得了一定提升,為進(jìn)一步利用統(tǒng)計(jì)學(xué)習(xí)方法研究哈薩克語(yǔ)信息處理技術(shù)奠定了基礎(chǔ)。
目前哈薩克語(yǔ)的詞干切分研究工作還處于起步階段,尤其是在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域如何將哈薩克語(yǔ)詞干切分很好地利用到各個(gè)不同的NLP任務(wù)當(dāng)中依然是一個(gè)值得研究的領(lǐng)域。當(dāng)前詞干切分工作主要有基于詞典和規(guī)則相結(jié)合的方法[1-2]。通過(guò)在詞干詞典的基礎(chǔ)上應(yīng)用哈薩克語(yǔ)詞干切分語(yǔ)言學(xué)規(guī)則實(shí)現(xiàn)了哈薩克語(yǔ)詞干切分的方法,存在的主要問(wèn)題是詞干切分的準(zhǔn)確率不高,在70%左右,還不能很好地滿足實(shí)用性的要求。下面將對(duì)包括蒙古語(yǔ)、維吾爾語(yǔ)、哈薩克語(yǔ)等在內(nèi)的黏著語(yǔ)類型的語(yǔ)言所采用的三種詞干切分方法逐一說(shuō)明。
基于詞干詞典和詞法規(guī)則的方法,在所有的黏著語(yǔ)類型的語(yǔ)言中都進(jìn)行了許多嘗試,2004年古麗拉·阿東別克老師在維吾爾語(yǔ)詞干切分研究中提出了基于規(guī)則的方法,實(shí)現(xiàn)了維吾爾語(yǔ)的詞切分算法[3],利用維吾爾語(yǔ)中語(yǔ)音的同化和和諧規(guī)律實(shí)現(xiàn)切分。該方法存在的難點(diǎn)是需要收集比較完整的維吾爾語(yǔ)詞干詞典;需要根據(jù)該種語(yǔ)言的語(yǔ)言學(xué)規(guī)律設(shè)置條件規(guī)則庫(kù),同時(shí)語(yǔ)言中又存在規(guī)則無(wú)法完全覆蓋到的特例和不規(guī)則變化。2008年米熱古麗·艾力提對(duì)維吾爾語(yǔ)詞干切分中存在的元音弱化現(xiàn)象進(jìn)行了討論,提出元音弱化還原算法有助于提升詞干切分的正確率[4]。阿孜古麗·夏力甫則進(jìn)一步探討了動(dòng)詞構(gòu)形附加成分規(guī)則,在復(fù)雜特征理論的基礎(chǔ)上進(jìn)一步提升了維吾爾語(yǔ)動(dòng)詞還原效果[5]。
熱娜·艾爾肯提出利用規(guī)則和詞典相結(jié)合的混合處理方法進(jìn)行形態(tài)還原[6],利用從左到右的分析和Lovin算法實(shí)現(xiàn)對(duì)詞干的提取,平均正確率為77.4%。早克熱·卡德?tīng)柼岢鼍S吾爾語(yǔ)詞干提取中使用名詞構(gòu)形詞綴分析DFA的構(gòu)造過(guò)程[7],利用構(gòu)形詞綴的規(guī)律性,使用有限狀態(tài)自動(dòng)機(jī)從右到左進(jìn)行描述,最后對(duì)自動(dòng)機(jī)進(jìn)行方向翻轉(zhuǎn)和轉(zhuǎn)換來(lái)確定該自動(dòng)機(jī)的操作。史建國(guó)提出將詞典和規(guī)則相結(jié)合的方法對(duì)斯拉夫蒙古文進(jìn)行切分[8],通過(guò)預(yù)處理部分蒙古文詞,然后基于詞典切分高頻和部分不符合規(guī)則的詞。最后對(duì)剩余的詞,用切分規(guī)則生成多個(gè)候選的詞切分方案,然后在這些方案中選出最優(yōu)方案。通過(guò)兩種方法的有機(jī)結(jié)合,發(fā)揮各自的優(yōu)點(diǎn),得到了性能較好的斯拉夫蒙古文詞切分系統(tǒng)。
2008年達(dá)吾勒·阿布都哈依爾老師在哈薩克語(yǔ)詞干切分任務(wù)中提出利用有限狀態(tài)機(jī)(FSM)和前后向切分相結(jié)合的方法[1],先對(duì)待切分單詞使用有限狀態(tài)機(jī)進(jìn)行分析。如果成功則將輸出作為切分結(jié)果,否則使用聯(lián)合的改進(jìn)方法進(jìn)行切分。相對(duì)于最大匹配法,從正確率和切分速度兩方面提高了詞干切分的效果。
2011年達(dá)吾勒·阿布都哈依爾老師又提出了利用詞干詞典和構(gòu)形附加成分構(gòu)詞規(guī)則的哈薩克語(yǔ)詞干切分方法[2],構(gòu)建了6.2萬(wàn)詞條的詞干詞典和436個(gè)構(gòu)形附加成分構(gòu)成的規(guī)則庫(kù);采用全切分算法和詞法分析相結(jié)合的方式進(jìn)行詞干切分。該方法首先對(duì)待切分單詞利用詞干詞典信息抽取出所有可能的詞干;隨后對(duì)對(duì)應(yīng)某一種詞干分離后的詞的其余部分進(jìn)行基于規(guī)則的分析,利用還原規(guī)則得到各種成分,再將其與規(guī)則庫(kù)中的構(gòu)形附加成分進(jìn)行匹配,從而確定是否為正確的切分,并將該切分結(jié)果作為派生詞放入派生詞表;最后根據(jù)詞干最長(zhǎng)、概率最高和整詞輸出作為詞干切分的最終結(jié)果輸出。
在統(tǒng)計(jì)自然語(yǔ)言處理理論的基礎(chǔ)上,哈薩克語(yǔ)還沒(méi)有基于統(tǒng)計(jì)學(xué)習(xí)方法的詞干切分方面的研究,漢語(yǔ)的分詞與黏著語(yǔ)類型語(yǔ)言的詞干切分有一定的相似性,同時(shí)漢語(yǔ)的分詞技術(shù)相對(duì)較為成熟,研究的也較為深入,因此基于統(tǒng)計(jì)方法的漢語(yǔ)自動(dòng)分詞技術(shù)對(duì)哈薩克語(yǔ)的詞干切分在研究中有借鑒意義。第一篇基于字標(biāo)注的漢語(yǔ)分詞是Xue根據(jù)漢字在詞語(yǔ)中出現(xiàn)的位置將漢字分為4類[9],然后利用最大熵模型標(biāo)記的方法進(jìn)行切分;Tseng基于字標(biāo)注方法采用條件隨機(jī)場(chǎng)模型[10];2014年Liu等提出了利用條件隨機(jī)場(chǎng)模型分詞系統(tǒng)在擁有自然分詞邊界的網(wǎng)絡(luò)文本中使用,從而提高了領(lǐng)域適應(yīng)性[11]。Zeng X提出了一種基于圖的標(biāo)記擴(kuò)展技術(shù)[12],構(gòu)建了一個(gè)最近鄰相似圖覆蓋所有已標(biāo)注的3-gram和擴(kuò)展句法信息的未標(biāo)記數(shù)據(jù)即標(biāo)記分布。派生的標(biāo)記分布被視為隱含的證明去正則化線性條件隨機(jī)場(chǎng)在未標(biāo)記數(shù)據(jù),最終獲得一個(gè)基于字符的聯(lián)合模型。
而同屬于黏著語(yǔ)類型的蒙古語(yǔ)和維吾爾語(yǔ)提出了基于統(tǒng)計(jì)學(xué)習(xí)方法的相關(guān)研究。2009年Aisha B提出利用特征模板和手工標(biāo)記的基于統(tǒng)計(jì)的詞干提取算法[13]。首先以特征模板為基礎(chǔ)使用手工切分的詞庫(kù)和最大熵方法學(xué)習(xí)一個(gè)字符轉(zhuǎn)移模型,用該模型來(lái)切分維吾爾語(yǔ)單詞,隨后利用語(yǔ)言知識(shí)使用條件隨機(jī)場(chǎng)將切分結(jié)果映射為詞干、詞綴。該方法需要較大的手工切分詞庫(kù),人工成本較高。
2011年薛化建基于詞綴庫(kù)及維吾爾語(yǔ)構(gòu)詞結(jié)構(gòu),提出了規(guī)則與統(tǒng)計(jì)相結(jié)合的詞干切分方法[14]。該方法對(duì)單詞進(jìn)行規(guī)則切分,采用MAP(最大后驗(yàn)概率)切分評(píng)價(jià)模型對(duì)基于規(guī)則的切分結(jié)果進(jìn)行賦分,選擇最高分?jǐn)?shù)的切分結(jié)果作為該單詞的切分結(jié)果。實(shí)驗(yàn)結(jié)果表明,使用該方法進(jìn)行維吾爾語(yǔ)詞切分具有更高的準(zhǔn)確率。2015年賽迪亞古麗·艾尼瓦爾利用維吾爾語(yǔ)構(gòu)詞規(guī)則、詞性特征和上下文信息[15],提出基于n-gram模型的詞干提取方法,實(shí)驗(yàn)準(zhǔn)確率達(dá)到96.60%。2009年候宏旭老師和劉群老師在蒙古語(yǔ)詞干切分中提出基于SKIP-N語(yǔ)言模型方法[16]。模型對(duì)單詞的上下文信息及詞性信息進(jìn)行考慮,解決切分規(guī)則中的二義性。首先給出單詞所有可能的切分候選集合,該集合由蒙古語(yǔ)詞切分規(guī)則獲得;然后利用SKIP-N語(yǔ)言模型對(duì)候選集合中的切分進(jìn)行賦分,選取打分最高的切分為結(jié)果。
2010年趙偉提出了基于條件隨機(jī)場(chǎng)模型的蒙古語(yǔ)詞干切分系統(tǒng)[17],該方法將蒙古語(yǔ)詞干切分問(wèn)題描述為序列標(biāo)注問(wèn)題,利用多維度特征,使詞干切分的正確率達(dá)到了較高的水平。
2011年姜文斌老師提出了蒙古語(yǔ)有向圖形態(tài)分析器的判別式詞干詞綴切分方法[18],以圖狀結(jié)構(gòu)刻畫(huà)句中詞干和詞綴之間的概率關(guān)系,從而借助上下文信息為每個(gè)單詞確定最佳的切分標(biāo)注候選。與之前詞干表與附加成分表結(jié)合的枚舉方法相比,提出判別式分類的切分方法,對(duì)OOV(未登錄詞)的詞干切分具有很好的泛化能力。以20萬(wàn)詞規(guī)模的三級(jí)標(biāo)注人工語(yǔ)料庫(kù)為訓(xùn)練數(shù)據(jù),采用判別式詞干詞綴切分的有向圖形態(tài)分析器,對(duì)于含有未登錄詞干的情形,詞級(jí)切分標(biāo)注正確率提高了7個(gè)百分點(diǎn)。2011年李文提出基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯形態(tài)蒙文切分模型和最小上下文構(gòu)成代價(jià)模型分別對(duì)詞表詞和未登錄詞進(jìn)行形態(tài)切分[19]。前者選取了短語(yǔ)機(jī)器翻譯系統(tǒng)中三個(gè)常用的模型,包括短語(yǔ)翻譯模型、詞匯化翻譯模型和語(yǔ)言模型,最小上下文構(gòu)成代價(jià)模型考慮了一元詞素上下文環(huán)境和詞綴N-gram上下文環(huán)境。實(shí)驗(yàn)結(jié)果顯示基于短語(yǔ)統(tǒng)計(jì)機(jī)器翻譯形態(tài)切分模型對(duì)詞表詞切分,最小上下文構(gòu)成代價(jià)模型對(duì)未登錄詞處理后,總體的切分準(zhǔn)確率達(dá)到96.94%。
2016年Manaal Faruqui等提出基于圖模型的半監(jiān)督學(xué)習(xí)方法[20],利用詞之間的句法和語(yǔ)義關(guān)系,從小的種子詞匯集自動(dòng)構(gòu)建廣泛覆蓋的詞典,這個(gè)詞典提供了形態(tài)標(biāo)簽和依存句法分析功能。這種半監(jiān)督學(xué)習(xí)方法是不依賴于語(yǔ)言的,在作為黏著語(yǔ)類型的芬蘭語(yǔ)和匈牙利語(yǔ)的實(shí)驗(yàn)中,芬蘭語(yǔ)的F1值為71.9%,匈牙利語(yǔ)的F1值為79.7%。
有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)方法具有以下優(yōu)點(diǎn):(1)基于堅(jiān)實(shí)的數(shù)學(xué)理論,提出了有效的消歧方法;(2)充分利用語(yǔ)料庫(kù)知識(shí),提供更多基于統(tǒng)計(jì)的實(shí)例化模型;(3)基于訓(xùn)練語(yǔ)料,可以學(xué)習(xí)到有效的語(yǔ)言學(xué)規(guī)律;(4)具有一致性、健壯性好的特點(diǎn)。能夠處理OOV(未登錄詞)以及不規(guī)則詞形變化等問(wèn)題。其中基于最大熵和基于條件隨機(jī)場(chǎng)的方法將詞干切分看作是序列化標(biāo)注問(wèn)題,能夠加入更多語(yǔ)言本身所具有的特征,體現(xiàn)不同構(gòu)形成分之間的不同,有利于詞干切分正確率的提升。
2002年Mathias Creutz,Krista Lagus提出了基于無(wú)監(jiān)督的方法構(gòu)建詞干切分模型[21],首先利用最小描述長(zhǎng)度方法(minimum description length,MDL)獲得詞干切分模型,然后利用極大似然方法(maximum likelihood,ML)優(yōu)化詞干切分模型對(duì)目標(biāo)語(yǔ)言的切分,得到基于統(tǒng)計(jì)獲得的類似于詞干和附加成分的子詞。并基于此開(kāi)發(fā)了基于數(shù)據(jù)驅(qū)動(dòng)的Morfessor開(kāi)源工具。Morfessor的MDL切分同時(shí)很好地處理了切分歧義和OOV切分問(wèn)題。
基于無(wú)監(jiān)督學(xué)習(xí)的統(tǒng)計(jì)方法的不足之處是由于黏著語(yǔ)具有形態(tài)豐富,詞綴數(shù)量大和詞綴有層疊現(xiàn)象,導(dǎo)致無(wú)監(jiān)督學(xué)習(xí)方法切分精度較低,無(wú)法滿足實(shí)際需要。
通過(guò)以上基于詞典和詞干切分規(guī)則的方法、有監(jiān)督的統(tǒng)計(jì)方法和無(wú)監(jiān)督統(tǒng)計(jì)方法這三種詞干切分方法的比較,可以看出每種方法都有各自的特點(diǎn)。第一種方法對(duì)人工的依賴較大,同時(shí)由于詞干切分存在歧義和兼類現(xiàn)象,所以基于切分規(guī)則的方法很難正確的切分。無(wú)監(jiān)督的統(tǒng)計(jì)方法具有語(yǔ)言無(wú)關(guān)性,不需要標(biāo)注語(yǔ)料等優(yōu)點(diǎn),但因?yàn)轲ぶZ(yǔ)具有形態(tài)豐富,詞綴數(shù)量大和詞綴有層疊現(xiàn)象,導(dǎo)致無(wú)監(jiān)督方法切分精度較低,無(wú)法滿足實(shí)際需要。
因此為了減少對(duì)人工因素的依賴,利用已有的標(biāo)注語(yǔ)料,同時(shí)結(jié)合蒙古和維吾爾文基于統(tǒng)計(jì)的詞干切分方法分析,文中提出了一種哈薩克語(yǔ)詞干切分的基于統(tǒng)計(jì)學(xué)習(xí)的方法。
詞干切分的問(wèn)題可形式化描述為序列標(biāo)注問(wèn)題?;诮y(tǒng)計(jì)學(xué)習(xí)的哈薩克語(yǔ)詞干切分方法,將每個(gè)單詞作為字符串序列進(jìn)行按字符標(biāo)注,從而得到標(biāo)注序列,這一標(biāo)注序列對(duì)應(yīng)該單詞的一個(gè)詞干切分。為方便統(tǒng)計(jì)學(xué)習(xí)方法處理,將哈薩克語(yǔ)轉(zhuǎn)換為標(biāo)準(zhǔn)化哈薩克語(yǔ)拉丁字符表示。
例如:哈薩克語(yǔ)單詞“merekedeg1”(節(jié)日中的),“mereke”為名詞詞性的詞干,“deg1”是一個(gè)構(gòu)形附加成分,則單詞“merekedeg1”的一個(gè)詞干切分所對(duì)應(yīng)的標(biāo)注序列就是“SBSISISISISEBIIE”,其中標(biāo)記“SB”表示詞干的首字母標(biāo)識(shí),“SI”表示詞干的除首尾以外的其他字母標(biāo)識(shí),“SE”表示詞干的尾字母標(biāo)識(shí),“B”表示構(gòu)形附加成分的首字母標(biāo)識(shí),“E”表示構(gòu)形附加成分的尾字母標(biāo)識(shí),標(biāo)記“I”表示構(gòu)形附加成分中除首尾以外的其他字母的標(biāo)識(shí)。
文中對(duì)哈薩克語(yǔ)已標(biāo)注好的語(yǔ)料,分別用最大熵模型和條件隨機(jī)場(chǎng)模型對(duì)哈薩克語(yǔ)單詞中每個(gè)字符進(jìn)行標(biāo)注。設(shè)m個(gè)字符組成的輸入單詞用W=c1c2…cm表示,目標(biāo)是輸出一個(gè)相應(yīng)的標(biāo)識(shí)序列,用T=t1t2…tm表示,則求解該單詞所有可能的標(biāo)識(shí)序列中最大概率值的序列值。
最大熵模型(maximum entropy,ME)建立在最大熵理論基礎(chǔ)之上,在序列標(biāo)注問(wèn)題中,設(shè)訓(xùn)練集樣本用(x,y)表示,其中x表示單詞字符序列信息的上下文,y表示字符序列標(biāo)注結(jié)果,根據(jù)已知的樣本集合構(gòu)建一個(gè)在已知上下文條件下,能夠準(zhǔn)確預(yù)測(cè)未知標(biāo)注結(jié)果y的概率統(tǒng)計(jì)模型p(y|x)。這一模型獲得的概率分布應(yīng)與訓(xùn)練集語(yǔ)料的經(jīng)驗(yàn)分布相符。最大熵原理說(shuō)明,在滿足已知約束的情況下,x,y的正確分布信息熵最大。按照這一原理構(gòu)建的模型即為最大熵模型,形式化為:
(1)
(2)
通過(guò)式(1)可知,對(duì)p(y|x)概率的求解是通過(guò)對(duì)特征參數(shù)λi的求解來(lái)實(shí)現(xiàn),一般采用迭代算法GIS和IIS。
條件隨機(jī)場(chǎng)模型(conditional random fields,CRFs)是常用于序列標(biāo)注任務(wù)的概率模型。在中文分詞、命名實(shí)體識(shí)別、詞性標(biāo)注等任務(wù)中取得了不錯(cuò)的效果。與隱馬爾可夫(HMMs)模型相比,它不需要嚴(yán)格獨(dú)立性假設(shè),并可以很好地表示交叉特征和長(zhǎng)距離依賴關(guān)系,還很好地解決了最大熵隱馬爾可夫(MEMMs)模型標(biāo)注偏置問(wèn)題。對(duì)于序列標(biāo)注任務(wù)常用的是鏈?zhǔn)紺RFs模型,對(duì)于輸入序列x,對(duì)應(yīng)標(biāo)注序列的y的條件概率為:
(3)
(4)
其中,fk(c,yc,x)是一個(gè)布爾型的特征函數(shù),Z(x)是一個(gè)歸一化因子。
運(yùn)用維特比算法,在給定一個(gè)輸入序列x的條件下,可求解出觀測(cè)序列最大化條件概率的標(biāo)注序列:
(5)
哈薩克語(yǔ)中的某些單詞在構(gòu)形過(guò)程中存在有形變現(xiàn)象,即詞干或構(gòu)形附加成分綴接其他構(gòu)形附加成分時(shí)會(huì)發(fā)生其中字符的變化。如“qep”是“干”這一單詞的詞干原形,“ip”是一個(gè)構(gòu)形附加成分,當(dāng)“qep”詞干后綴接構(gòu)形附加成分“ip”時(shí),“qep”會(huì)發(fā)生形變變成“qew”。所以“qep”和“ip”組成詞的形式就是“qewip”。訓(xùn)練語(yǔ)料庫(kù)中“qewip”對(duì)應(yīng)的切分是“qew”和“ip”,而不是“qep”和“ip”。而在統(tǒng)計(jì)學(xué)習(xí)方法中,輸入序列x與標(biāo)注序列y一一對(duì)應(yīng)。在訓(xùn)練語(yǔ)料中,如果詞干和構(gòu)形附加成分都是原型形式,則由于單詞中存在的形變,對(duì)單詞進(jìn)行切分時(shí)就無(wú)法識(shí)別已經(jīng)形變的詞干與構(gòu)形附加成分,從而無(wú)法獲得正確的切分結(jié)果。
因此為了正確切分,需要將訓(xùn)練語(yǔ)料中處于原型的詞干和構(gòu)形附加成分對(duì)應(yīng)轉(zhuǎn)換為變形形式。同樣在切分后,需要將變形形式的詞干和構(gòu)形附加成分還原為原型形式。文中構(gòu)建了50多條變形和還原規(guī)則,對(duì)數(shù)據(jù)進(jìn)行互為逆的操作處理。
選擇一種合適的標(biāo)注方式有助于序列標(biāo)注任務(wù)的研究。結(jié)合其他文獻(xiàn)的標(biāo)注方式和哈薩克語(yǔ)構(gòu)詞特點(diǎn),文中提出了一種標(biāo)注方法。對(duì)單詞的詞干部分和構(gòu)形附加成分部分采用不同的前中后標(biāo)記模式。這樣可以使統(tǒng)計(jì)學(xué)習(xí)方法在訓(xùn)練過(guò)程中針對(duì)詞干和構(gòu)形附加成分學(xué)習(xí)到有針對(duì)性的信息,從而提高詞干切分性能。
文中使用的標(biāo)注集“SBSISEBIE”如表1所示。實(shí)驗(yàn)結(jié)果表明,在特征函數(shù)不變的條件下,區(qū)分詞干和構(gòu)形附加成分的標(biāo)注集比不區(qū)分的標(biāo)注集在切分準(zhǔn)確率上有顯著提升。
表1 “SBSISEBIE”標(biāo)記集
例如在前文中提到的“merekedeg1”對(duì)應(yīng)的不區(qū)分詞干和詞綴的標(biāo)注序列是“BIIIIIBIII”,而如果使用有區(qū)分的表1標(biāo)記集,“merekedeg1”這個(gè)單詞對(duì)應(yīng)的標(biāo)注序列就是“SBSISISISISEBIIE”,詞切分系統(tǒng)從標(biāo)注形式上就可以區(qū)別詞干和構(gòu)形附加成分。
對(duì)于統(tǒng)計(jì)學(xué)習(xí)方法最大熵模型和條件隨機(jī)場(chǎng)模型,特征函數(shù)的選擇至關(guān)重要。特征函數(shù)反映訓(xùn)練語(yǔ)料包含的統(tǒng)計(jì)規(guī)律,而合適的特征函數(shù)可以很好地表示這些統(tǒng)計(jì)規(guī)律。
哈薩克語(yǔ)中構(gòu)形附加成分表現(xiàn)為若干字符相連的固定形式,從統(tǒng)計(jì)的角度觀察,這些構(gòu)形附加成分的固定搭配形式在訓(xùn)練集中出現(xiàn)頻率較高。為了提取出這些固定搭配的相鄰位置關(guān)系信息,構(gòu)建具有相鄰關(guān)系的特征函數(shù)。例如在特征函數(shù)中定義當(dāng)前字母用C0表示,當(dāng)前字母的前一個(gè)字母用C-1表示,當(dāng)前字母的后一個(gè)字母用C1表示。從而構(gòu)建特征函數(shù)C-1C0C1來(lái)表示當(dāng)前字母與前一個(gè)字母和后一個(gè)字母的位置關(guān)系。例如在單詞“merekedeg1”中,選取當(dāng)前字母為“k”,則特征函數(shù)C-1C0C1提取出特征“eke”。
在哈薩克語(yǔ)的構(gòu)詞規(guī)則中,某些構(gòu)形附加成分與另一部分構(gòu)形附加成分之間存在依賴關(guān)系,即一類構(gòu)形附加成分的出現(xiàn)會(huì)對(duì)另一類附加成分的出現(xiàn)起到約束作用,表現(xiàn)為遠(yuǎn)距離依賴關(guān)系。這時(shí)設(shè)置間隔字符位置關(guān)系的特征函數(shù)來(lái)提取這一類特征。例如:特征函數(shù)C-4C-3C3C4,表示當(dāng)前字母左側(cè)和右側(cè)第3和第4個(gè)位置上字符之間的關(guān)系特征。
窗口長(zhǎng)度表示一個(gè)特征函數(shù)包含的字符個(gè)數(shù),通過(guò)實(shí)驗(yàn)結(jié)果觀察,選擇適合哈薩克語(yǔ)詞干切分的相應(yīng)窗口大小。表2列出了文中用到的部分特征函數(shù)的表示。
表2 特征函數(shù)與單詞中字母對(duì)應(yīng)關(guān)系
文中構(gòu)建了包含436個(gè)哈薩克語(yǔ)構(gòu)形附加成分的詞典庫(kù),用于監(jiān)督詞干切分系統(tǒng)可能對(duì)構(gòu)形附加成分的錯(cuò)誤識(shí)別。通過(guò)切分結(jié)果中的構(gòu)形附加成分與該詞典庫(kù)中條目進(jìn)行比對(duì),確定是否正確切分。對(duì)切分系統(tǒng)按照p(y|x)概率大小給出的n-best結(jié)果,依次重復(fù)比對(duì)過(guò)程,選擇n-best結(jié)果中第一個(gè)與詞典庫(kù)對(duì)應(yīng)匹配成功的切分結(jié)果為最終輸出結(jié)果。
實(shí)驗(yàn)中的訓(xùn)練語(yǔ)料為2008年新疆日?qǐng)?bào)(哈文版),其中包含10萬(wàn)個(gè)哈薩克語(yǔ)句子,約有100萬(wàn)哈薩克語(yǔ)詞。同時(shí)使用2009年新疆日?qǐng)?bào)(哈文版)和人民網(wǎng)(哈文版)的500個(gè)哈薩克語(yǔ)句子作為測(cè)試集,并人工編寫(xiě)了對(duì)應(yīng)的標(biāo)準(zhǔn)切分結(jié)果。分別使用張樂(lè)博士的maxent-master實(shí)現(xiàn)最大熵模型和Taku Kudo開(kāi)源工具CRF++根據(jù)需要進(jìn)行修改實(shí)現(xiàn)的條件隨機(jī)場(chǎng)模型。
文中用不同的標(biāo)注集對(duì)訓(xùn)練集已切分語(yǔ)料進(jìn)行標(biāo)注,實(shí)驗(yàn)比較了不同標(biāo)注集對(duì)詞干切分效果的影響。顆粒度最大的是不區(qū)分詞干和構(gòu)形附加成分的BI標(biāo)注集,顆粒度最小的是區(qū)分詞干和構(gòu)形附加成分的SBSISEBIE標(biāo)記集。對(duì)最大熵模型和條件隨機(jī)場(chǎng)模型實(shí)驗(yàn)對(duì)比了顆粒度最小的SBSISEBIE標(biāo)記集,也在該標(biāo)注集上測(cè)試了不同窗口大小對(duì)詞干切分準(zhǔn)確率的影響。采用了在序列標(biāo)注任務(wù)中經(jīng)常使用的準(zhǔn)確率指標(biāo),定義如下:
(6)
其中,切分的單元為詞干或構(gòu)形附加成分。
在統(tǒng)一窗口大小為4的情況下,給出不同標(biāo)注集的開(kāi)放測(cè)試實(shí)驗(yàn)結(jié)果,如表3所示。
表3 不同標(biāo)記集在開(kāi)放測(cè)試的實(shí)驗(yàn)結(jié)果對(duì)比
通過(guò)表3可以看出,選擇顆粒庫(kù)越小的標(biāo)注集,切分結(jié)果越準(zhǔn)確。區(qū)分詞干和構(gòu)形附加成分的標(biāo)注集比不區(qū)分詞干和構(gòu)形附加成分的標(biāo)注集有2個(gè)百分點(diǎn)左右的提升。文中在統(tǒng)計(jì)學(xué)習(xí)方法的實(shí)驗(yàn)中統(tǒng)一使用顆粒度小的區(qū)分詞干和構(gòu)形附加成分的標(biāo)注集。
表4 在不同窗口長(zhǎng)度的實(shí)驗(yàn)結(jié)果對(duì)比
表4是在使用SBSISEBIE標(biāo)記集的條件下,不同窗口長(zhǎng)度的基于詞典和規(guī)則方法、最大熵方法和條件隨機(jī)場(chǎng)方法的詞干切分實(shí)驗(yàn)結(jié)果對(duì)比。在這里需要說(shuō)明的是,文獻(xiàn)[1-2]的測(cè)試環(huán)境由于無(wú)法獲得,因此第一種基于規(guī)則的方法和后兩種基于統(tǒng)計(jì)學(xué)習(xí)方法的測(cè)試環(huán)境存在一定的差別,此處的數(shù)值比較只能作為參考。從實(shí)驗(yàn)結(jié)果可以看出,文中的最大熵方法和條件隨機(jī)場(chǎng)方法在詞切分準(zhǔn)確率上比基于詞典和規(guī)則的方法有顯著的提升,其中條件隨機(jī)場(chǎng)模型有了15%的性能提升。基于統(tǒng)計(jì)學(xué)習(xí)方法的哈薩克語(yǔ)詞干切分方法顯示出了很好的性能,在窗口長(zhǎng)度從1到4的對(duì)比可以看到字符串的上下文信息對(duì)詞干切分的影響顯著。
特征函數(shù)的窗口長(zhǎng)度越長(zhǎng),特征集中所包含的上下文信息越多,但同時(shí)隨著窗口長(zhǎng)度的增加數(shù)據(jù)稀疏問(wèn)題就會(huì)越顯著。模型的訓(xùn)練時(shí)間開(kāi)銷和生成的模型文件的規(guī)模也會(huì)隨著窗口長(zhǎng)度的增加而成倍增加。綜合考慮窗口大小和時(shí)間空間開(kāi)銷,認(rèn)為窗口大小為4是對(duì)哈薩克語(yǔ)統(tǒng)計(jì)學(xué)習(xí)方法詞干切分比較適合的選擇。
通過(guò)對(duì)詞干切分實(shí)驗(yàn)結(jié)果的分析,發(fā)現(xiàn)對(duì)于哈薩克語(yǔ)單詞中單個(gè)構(gòu)形附加成分組成的單詞切分準(zhǔn)確率較高,但對(duì)由多個(gè)構(gòu)形附加成分構(gòu)成的識(shí)別準(zhǔn)確率較低。這可能是在詞中以字符為單位的字符上下文信息較少導(dǎo)致切分系統(tǒng)沒(méi)有足夠的信息做出正確判斷造成的。對(duì)于這種類型的問(wèn)題可能的解決方法是加入單詞所在句子的上下文信息和該單詞的詞性信息進(jìn)行判斷。同時(shí)根據(jù)單詞所處句子的上下文信息不同,存在兩種或兩種以上的切分形式,切分系統(tǒng)給出的都是正確的切分形式,但在當(dāng)前的句子上下文環(huán)境中可能是錯(cuò)誤的。解決這類歧義問(wèn)題的方法就是引入更多以詞為單位的上下文信息。這兩類錯(cuò)誤切分在文中所提到的以字符為單位的模型中無(wú)法完全解決。
哈薩克語(yǔ)詞干切分問(wèn)題在統(tǒng)計(jì)學(xué)習(xí)方法中屬于序列標(biāo)注任務(wù)的一種,通過(guò)分析哈薩克語(yǔ)單詞構(gòu)形上的特點(diǎn),提出了一種基于統(tǒng)計(jì)學(xué)習(xí)方法的區(qū)分詞干和構(gòu)形附加成分的標(biāo)注方法,其次利用機(jī)器學(xué)習(xí)方法中的最大熵模型和條件隨機(jī)場(chǎng)模型對(duì)轉(zhuǎn)化為序列化標(biāo)注問(wèn)題的哈薩克語(yǔ)詞干進(jìn)行切分,實(shí)驗(yàn)對(duì)比結(jié)果表明基于機(jī)器學(xué)習(xí)的方法能夠提高哈薩克語(yǔ)詞干切分的性能。
文中使用的哈薩克語(yǔ)詞干切分方法主要以字符為單位,考慮了單詞中字符之間的上下文信息,但沒(méi)有加入單詞所在的句子上下文信息和單詞的詞性信息。同時(shí)在實(shí)際語(yǔ)言環(huán)境中,哈薩克語(yǔ)單詞會(huì)根據(jù)上下文語(yǔ)境的不同采用不同的切分方法。同時(shí)隨著神經(jīng)網(wǎng)絡(luò)的興起,在下一步的研究中會(huì)嘗試使用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法和加入以詞為單位的句子上下文信息和單詞詞性信息,來(lái)進(jìn)一步提高哈薩克語(yǔ)單詞的詞干切分正確率,降低歧義性。同時(shí)利用詞干切分的結(jié)果來(lái)影響詞性標(biāo)注的效果,從而進(jìn)一步在哈薩克語(yǔ)詞法分析應(yīng)用中利用已取得的經(jīng)驗(yàn)。