亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        維吾爾語詞法中音變現(xiàn)象的自動還原模型

        2012-10-15 01:51:22麥熱哈巴艾力姜文斌吐爾根依布拉音
        中文信息學報 2012年1期
        關鍵詞:詞干音變詞法

        麥熱哈巴·艾力,姜文斌,吐爾根·依布拉音

        (1.新疆大學 信息科學與工程學院,新疆 烏魯木齊830046;2.中國科學院 計算技術研究所,北京100190)

        1 引言

        維吾爾語屬于阿爾泰語系突厥語族,是典型的黏著語,其特點是詞干可接多層(可以是零層)詞綴,呈現(xiàn)出豐富而復雜的形態(tài)變化。維吾爾語詞干在接詞綴時按維吾爾語語音和諧規(guī)律有些語音會發(fā)生弱化、脫落、增音等現(xiàn)象,例如,mektep(學校),mektipim(我的學校),mektipidin(從他的學校),mektipiningki(是他的學校的)等,都是同一個詞干mektep(學校)后分別接_im(第一人稱單數(shù))、_i(第三人稱單數(shù))+din(從格)、_i+ning(領屬格)+ki(替代人(物))等詞綴而來,其形態(tài)發(fā)生變化的同時詞干中最后一個元音e弱化成i。本文中,我們把這三種情況(弱化、脫落、增音)統(tǒng)稱為音變現(xiàn)象。維吾爾語詞綴類型、數(shù)目都較多,例如,名詞詞綴達到50個,而動詞詞綴的數(shù)量最多,遠多于200個,這么多數(shù)量的詞綴以及詞綴的多層連接使得維吾爾語的一個詞呈現(xiàn)出很多不同的形式,這給計算機處理維吾爾語帶來很多不便,所以詞干與詞綴的切分是非常必要的。

        詞干、詞綴的切分又叫做詞干提取,是詞干、詞綴連接的逆過程。所以在詞綴連接過程中所發(fā)生的音變現(xiàn)象需要找出它的原始形式即還原。可以說還原是提高詞干提取正確率的重要條件。目前為止,對于維吾爾語音變現(xiàn)象還原方法的研究可以分為基于規(guī)則的方法[1-3]和基于統(tǒng)計的方法[4-6]兩種。基于規(guī)則的方法中研究者主要以詞干、詞綴連接過程中所遵守的語音和諧規(guī)律作為還原的依據(jù),但還原過程并不是生成過程的簡單逆過程,有些語音的變化依賴的條件較復雜,還原時會有一定的困難繼而容易產(chǎn)生歧義。雖然研究者利用創(chuàng)建詞干庫的方法試圖進行消歧,但是詞干庫的覆蓋面以及還原后所產(chǎn)生的多個候選同時存在于詞干庫等情況一直成為此方法的弊端;還有些研究者利用統(tǒng)計方法來展開研究,雖然較好的克服了以上問題,但是對于多種音變現(xiàn)象同時出現(xiàn)、變化復雜等情況還是未能得到很好的解決。

        針對以上問題,本文提出維吾爾語音變現(xiàn)象的自動還原模型。此模型的思路是,維吾爾語詞被看作是所包含語音的線性序列,先假設音變現(xiàn)象會發(fā)生在每個語音上,那么構成一個詞的語音序列中每一個語音就可以有n(0≤n≤31)個原形候選,找到它們的原形就類似于詞序列自動標注,再利用序列標注的方法即可解決還原問題。

        2 維吾爾語變音顯現(xiàn)以及還原問題

        維吾爾語詞綴種類多、數(shù)目多,而且可以多層綴接,在綴接過程中由于語音和諧規(guī)律某些語音會發(fā)生弱化、增音、脫落等音變現(xiàn)象,構成同一個詞干的多種不同形態(tài)。例如:

        (1)弱化現(xiàn)象。

        a)元音弱化:qelem(筆)+im(第一人稱單數(shù))=qelimim(我的筆) (其中元音e弱化成i)

        b)輔音弱化。kel(來)+ip+idim(系助動詞,第一人稱過去式)=k?liwidim(我一來…)(其中輔音p弱化成w)

        (2)增音。arzu(愿望)+um(第一人稱單數(shù))=arzuyum(我的愿望) (詞干后增加了輔音y)

        (3)脫落音。

        burun(鼻子)+i(第三人稱單數(shù))=burni(他的鼻子)(詞干中第二個元音u被脫落)

        kel(拿)+ip(p型副動詞)+tu(為轉述式,過去時,第三人稱單(復)數(shù))=keptu(他來了)(l和i被脫落)

        (4)有些情況下多種現(xiàn)象同時發(fā)生。

        chal(彈)+ip +tu +iken(系助動詞)=ch?ptiken(聽說他彈了)(a弱化成?,l,第一個i,u被脫落)

        詞干提取是以上生成過程的逆過程。由于音變現(xiàn)象的存在,在對維吾爾語進行詞干提取時往往會發(fā)生一些歧義以及更復雜的情況。可歸納為以下幾種情況。

        (1)詞干的還原帶來的歧義

        (2)詞綴帶來的歧義

        (3)需還原多個語音,往往出現(xiàn)在合成詞中,切分時需還原成兩個詞。

        從以上分析可以看出,還原操作不是語音和諧規(guī)律的簡單逆向應用,使用規(guī)則有時很難消除這些現(xiàn)象;統(tǒng)計方法雖然可以彌補規(guī)則方法的缺點,但是對于復雜變化現(xiàn)象還是表現(xiàn)不佳。

        3 維吾爾語變音現(xiàn)象的自動還原模型

        首先確定本文中使用的幾個術語。

        術語1 詞的當前形式。是指在句子中出現(xiàn)的,已有n(0≤n≤lenw)個語音發(fā)生了變化的詞,本文用wcur來表示;

        術語2 詞的原始形式。指詞中所有語音都為原始形式即未發(fā)生變化的詞,本文用worg來表示;

        例如,“我的本子”詞的當前形式和原始形式分別為:wcur=deptirim worg=depterim。

        針對還原操作所存在的以上問題,我們提出了這樣一個模型:把維吾爾語詞看成它所包含語音的線性序列,先假設音變現(xiàn)象會發(fā)生在每個語音上,那么詞中每個語音就會有n(0≤n≤31)個原形候選。如果我們能夠事先知道每一個語音可能的原形候選(可包括自己),那么對當前詞的原操相當于從這個候選中找到最優(yōu)的一個。這個過程類似于自動標注問題,而從候選中找到最優(yōu)的一個就相當于它的解碼過程,則完全可以利用序列標注的方法解決此問題。

        還原模型中最重要的環(huán)節(jié)是枚舉出每個語音相應的原形候選,這也是模型的重點和難點,我們從最短編輯距離算法得到了啟發(fā),從而提出了詞內(nèi)字母對齊的算法。通過此方法即可得到每個語音可能的原形候選,那么對給定的一個詞進行還原相當于從每個語音原形的候選中找出“最為合理”的一個,而“最為合理”可以用概率值對其計算出來。

        3.1 詞內(nèi)字母對齊算法

        詞內(nèi)字母對齊算法的目的是找出詞內(nèi)每一個語音所有可能的原形候選。為了描述方便,以下我們將語音替換成它的文字形式——字母。

        假設一個詞的兩種形式分別為wcur、worg,詞內(nèi)字母的對齊原則為:以當前詞中字母為準,依次對齊wcur、worg中的字母,直到將wcur、worg中的所有字母互相對齊完為止,對齊的結果為一對一、一對多、一對空。其中“一對多”中“多”方的長度我們控制為2,這個值是經(jīng)驗值,可根據(jù)情況調(diào)整。字母對齊情況可由表1所示。

        表1 詞內(nèi)字母對齊情況

        利用動態(tài)規(guī)劃算法來實現(xiàn)了詞內(nèi)字母對齊模塊,其算法如下:

        算法中主要匹配工作是由maxMatch函數(shù)完成,其功能是依次比較wcur,worg中的每個字母,最大程度地匹配,盡量找出詞中發(fā)生音變的字母對,并將這些配對項壓入棧。棧中每個項為一個字母當前形式與對應的原形。

        3.2 特征模版的選擇以及最大熵訓練

        找出發(fā)生音變字母對后,方可利用機器學習的方法歸納出維吾爾語中每個字母可能的原形候選。

        我們利用最大熵模型對訓練語料進行了訓練。訓練語料庫中包括每個詞的當前形式和人工還原的原始形式。特征模版的選擇上,為了不失一般性,我們選擇了當前字母以及前后兩個字母變化的情況,如表2所示(下頁)。

        3.3 自動還原過程的解碼

        對給定的一個詞進行還原的操作即成為解碼過程,其實質(zhì)就是從原形候選中選“最可能”的一個作為原形,即:待還原的詞所包含的字母互相被隔開,將其變成字母線性序列,根據(jù)訓練得到的知識枚舉出每個字母可能的原形候選,再利用動態(tài)規(guī)劃算法找出各后選中其概率值之積為大者,而概率值就是最大熵訓練的結果。

        表2 選擇原始形式中字母位置的特征模板

        4 實驗及分析

        我們在新疆多語種信息技術重點實驗室手工標注的《維吾爾語百萬詞詞法分析語料庫》上進行試驗。此語料庫收集了維吾爾語文小說《故鄉(xiāng)3》全書、農(nóng)業(yè)雜志《棉花技術》、《小麥》的部分內(nèi)容,《黨的17大報告》、《知識——力量》、《新疆社科》等報告、雜志的部分內(nèi)容,包括67 114個完整的句子,牽扯到文學、科技、文獻等多個領域。語料被手工進行詞干與詞綴切分、還原并進行了三級標注。我們隨機抽取各5%的句子分別用做開發(fā)集和測試集,剩余的用做訓練集。

        我們開發(fā)了一套維吾爾語詞法分析器,其中引入了本文所介紹的還原模塊,為了全面地描述還原模型的功能,我們設計了多種實驗,從不同的側面進行了分析討論。

        4.1 實驗設計

        實驗1 還原模型對維吾爾語詞法分析器中的作用

        此實驗的目的是測試還原模塊對我們開發(fā)的詞法分析器結果的影響。為了測試這一點,在詞法分析器中我們對開發(fā)集分別進行了兩次詞法分析操作,第一次打開了自動還原模塊,其結果記為w1;第二次關閉自動還原模塊,其結果記為w2;詞法分析器的功能包括詞的還原,詞干、詞綴切分以及標注,而此實驗中我們暫時忽略了分析器的標注功能。評價自動詞法分析的結果時我們規(guī)定如果詞干、詞綴被正確切分且詞綴與詞綴互相正確切分時算是正確。兩次實驗的結果為圖1所示。

        圖1 自動還原模塊對詞法分析器結果的應用

        測試結果表明,系統(tǒng)中加自動還原模塊后其F值達到91.8%,比不加此模塊的F值84.1%提高了7.7%;準確率和召回率也都有相應的提高,說明自動還原模塊在詞干提取操作中起到了積極的作用。

        實驗2 測試還原模塊對維吾爾語不同詞類還原的影響

        維吾爾語詞類共有12種,其中動詞、名詞、形容詞、代詞和副詞的出現(xiàn)頻率高、詞綴類型較多,音變現(xiàn)象相對多發(fā)生。此實驗的目的為測試自動還原模塊對這些詞類詞法分析結果的影響。我們在開發(fā)集上分別做了兩個實驗:關閉自動還原模型和打開自動還原模型。這次把測試的重點放在了各詞類中被提取詞干的正確性,而忽略了詞綴。其結果如表3所示。

        表3 還原模塊對不同詞類詞干還原的影響

        表中可以看出,詞法分析其中打開自動還原模型后,各詞類詞干提取的正確率都有了向上走的趨勢,而且有些詞類這個趨勢的幅度較大,例如,名詞、動詞。同時,動詞詞干提取的F值為88.6%,屬于其他詞類中最低的。這是因為維吾爾語動詞詞綴數(shù)目多,連接到詞干后的音變現(xiàn)象最復雜,合成詞的還原也是處理較難的一個問題。

        實驗3 測試語料規(guī)模對還原模塊的影響

        此實驗的目的是測試語料擴建會否提高還原模塊的性能。為此,我們固定開發(fā)集和測試集不變,而從訓練集中每次提取不同規(guī)模的子集以訓練還原模塊,并考察該系統(tǒng)在測試集上的表現(xiàn)。整個訓練集含67 114條句子,我們從中取出50%、20%、10%、6%、4%及2%等不同規(guī)模的子集,并按照由小到大的次序訓練還原模塊,并對測試集進行詞法分析。與實驗1相似,這次的評價標準仍然是詞干和詞綴的正確切分。圖2為系統(tǒng)性能隨訓練數(shù)據(jù)增加的變化曲線。

        通過圖2所示的訓練集規(guī)?!到y(tǒng)性能曲線我們發(fā)現(xiàn),隨著訓練集語句數(shù)量的增加,系統(tǒng)性能有提高的趨勢。這在訓練語料規(guī)模較小的時候尤其明顯,例如,訓練集從1 344句擴大到4 028句時,詞干提取的F值從80%上升到85%。隨著語料規(guī)模的繼續(xù)擴大,系統(tǒng)性能的提升幅度趨于緩和,例如,訓練集從33 550句擴大到60 402句時,F(xiàn)值從91.3%提升到91.9%。這帶給我們兩方面的啟示,其一,通過進一步擴建語料庫以提升性能仍然是有意義的;其二,語料規(guī)模繼續(xù)增加到一定程度后,系統(tǒng)通過語料擴建提升性能的性價比會越來越低,此時,可以研究用語言學知識來增強模型。這也是我們今后在改善模型性能時需考慮的方面。

        圖2 訓練集規(guī)?!到y(tǒng)性能曲線

        4.2 分析

        我們對于還原模塊失效的詞進行了分析。我們隨即抽了904個被還原的詞,從中人工檢查后找出101個被錯誤還原的詞,對其進行錯誤分類統(tǒng)計的結果為表4所示。

        表4 被錯誤還原的種類

        經(jīng)過分析發(fā)現(xiàn)錯誤主要出現(xiàn)在:(1)經(jīng)常被還原的字母,例如:?,i等;(2)形態(tài)比較接近;(3)形態(tài)變化復雜的詞。出現(xiàn)此錯誤的原因可能:(1)模型的適應能力還不夠強,所學到的知識不夠全面;(2)所使用的特征模板沒能更好地體現(xiàn)維吾爾語語音和諧規(guī)律的特點。針對這個問題,我們可采取增大訓練語料的規(guī)模以及優(yōu)化特征模版等方法,一邊給系統(tǒng)提供更豐富的發(fā)生音變現(xiàn)象的上下文,一邊將語音和諧規(guī)律的規(guī)則引入到特征模板上。我們將此問題作為優(yōu)化系統(tǒng)的任務之中。

        5 總結與展望

        本文為維吾爾語音變現(xiàn)象的還原建立了一種模型,此模型不再單獨地考慮音變語音的規(guī)則以及其發(fā)生的條件,而是將音變現(xiàn)象泛化,從而將還原問題轉化為類似于序列自動標注問題,再利用成熟的標注方法解決了還原問題并在實際試驗中得到了較好的效果。

        然而,就像上面的分析,當前模型還有一些不足之處需一步改進。例如,詞內(nèi)字母對齊算法。目前算法實現(xiàn)起來較復雜,有些經(jīng)驗值還需多做實驗重新制定,同時在簡化算法復雜度方面也值得進一步研究。再者,我們可以適當?shù)財U建語料,以及將語料內(nèi)容多樣化,從而使得模型適應多種環(huán)境。此外,實驗2提醒我們維吾爾語動詞的還原有待于進一步研究。如何利用語言學規(guī)則來提高是我們下一步研究的內(nèi)容。同時,可喜的是,此還原模型不依賴于任何規(guī)則,與語言無關。通過此特性,我們完全有理由考慮將其擴展到其他有變化形式的語言。這也是我們下一步研究的另一個方面。表5是此系統(tǒng)還原的結果一覽。

        表5 系統(tǒng)還原的詞舉例

        [1]早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,等.維吾爾語名詞構形詞綴有限狀態(tài)自動機的構造[J].中文信息學報,2009,23(6):116-121.

        [2]米熱古麗·艾力,米吉提·阿不力米提,艾斯卡爾·艾木都拉.基于詞法分析的維吾爾語元音弱化算法研究[J].中文信息學報,2008,22(4):43-47.

        [3]古麗拉·阿東別克,米吉提·阿布力米提.維吾爾語詞切分方法初探 [J].中文信息學報.2004,18(6):61-66.

        [4]Aishan Wumaier,Tuergen Yibulayin,Zaokere Kadeer.Shengwei Tian Conditional Random Fields Combined FSM Stemming Method for Uyghur Proceeding[C]//2nd IEEE International Confrence on Computer and information Technology(ICCSIT 2009 )2009.8:295-299.

        [5]Aisha Batuer,Maosong Sun.A statistical method for Uyghur tokenization[C]//International Conference on Natural Language Processing and Knowledge Engineering.2009.9 :1-5.

        [6]M.Ablimit,M.Eli,T.Kawahara.Partly supervised Uyghur morpheme segmentation[C]//Proceedings of Oriental-COSOCODA Workshop.2008:71-76.

        [7]Lawrence.R.Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition[C]//Proceedings of IEEE,1989:257-286.

        [8]McCallum,A.,F(xiàn)reitag,D.,Pereira,F(xiàn).Maximum entropy Markov models for information extraction and segmentation[C]//Proceedings of ICML,2000:591-598.

        [9]Hwee Tou Ng,Jin Kiat Low.Chinese part-of-speech tagging:One-at-a-time or all-at-once?Wordbased or character-based? [C]//Proceedings of EMNLP,2004.

        [10]Wenbin Jiang,Liang Huang,Yajuan Lv,et al.A cascaded linear model for joint Chinese word segmentation and part-of-speech tagging [C]//Proceedings of the 46th ACL,2008.

        [11]阿依克孜·卡德爾,開沙爾·卡德爾,吐爾根·依布拉音.面向自然語言信息處理的維吾爾語名詞形態(tài)分析研究[J].中文信息學報,2006,20(3):43-48.

        [12]阿孜古麗·夏力甫.維吾爾語動詞附加語素的復雜特征研究[J].中文信息學報,2008,22(3):105-109.

        [13]力提甫·托乎提.電腦處理維吾爾語語音和諧律的可能性[J].中央民族大學學報,2004,(5):108-113.

        [14]瑪依熱·依布拉音,米吉提·阿不里米提,艾斯卡爾·艾木都拉.基于最小編輯距離的維語詞語檢錯與糾錯研究[J].中文信息學報.2008,22(3):110-114.

        [15]田生偉,吐爾根·依布拉音,禹龍.EBMT中高效的維吾爾語單詞散列表構造算法[J].中文信息學報,2009,23(4):124-128.

        [16]阿孜古麗·夏力甫.論維吾爾語SUBS+NP結構的形式化描述[J].中文信息學報,2011,25(2):117-121.

        猜你喜歡
        詞干音變詞法
        詞法 名詞、代詞和冠詞
        論柯爾克孜語詞干提取方法
        維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
        應用于詞法分析器的算法分析優(yōu)化
        談對外漢語“詞法詞”教學
        “分”的音變構詞及其句法語義特征
        長江學術(2016年3期)2016-08-23 01:29:30
        漢語單數(shù)人稱代詞音變式的功能演變及性質(zhì)
        語言研究(2015年4期)2015-05-28 12:21:30
        融合多策略的維吾爾語詞干提取方法
        基于維吾爾語詞干詞綴粒度的漢維機器翻譯
        青海貴德縣劉屯話的兒化音變
        国产精品亚洲综合色区| 亚洲中文字幕乱码免费看| 日本一区二区三区高清视 | 国产性生交xxxxx免费| 亚洲AV永久天堂在线观看| 丰满人妻无套内射视频| 国产成年人毛片在线99| 男女在线免费视频网站| av免费资源在线观看| 亚洲日韩激情无码一区| 超级碰碰色偷偷免费视频| 国产一区免费观看| 91人妻无码成人精品一区91| av天堂一区二区三区精品| 亚洲一区二区三区高清在线| 激情综合色五月丁香六月欧美| 亚洲成色www久久网站夜月| 成人永久福利在线观看不卡 | 精品99在线黑丝袜| 精品黄色av一区二区三区| 日本不卡一区二区三区久久精品| 欧美人与动性xxxxx杂性| 3d动漫精品啪啪一区二区下载 | 日本高清在线播放一区二区三区| 亚洲精品一区二在线观看| 亚洲av乱码一区二区三区林ゆな| 日韩成人极品在线内射3p蜜臀| 亚洲狼人社区av在线观看| 国产人妖在线免费观看| 蜜桃一区二区三区视频| 亚洲综合色区另类av| 亚洲国产精品久久久久秋霞1| 91国产视频自拍在线观看| 日韩av无码社区一区二区三区| 免费a级毛片无码无遮挡| 亚洲成a人片在线观看中文!!!| 久久综合另类激情人妖| 国产va免费精品高清在线观看| 日本老熟欧美老熟妇| 久久精品无码一区二区2020| 国产高清不卡二区三区在线观看|