亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用詞性標(biāo)注語(yǔ)料庫(kù)自動(dòng)推斷維吾爾語(yǔ)詞綴變體的研究

        2016-12-21 12:07:50阿布都哈力力·阿布都熱依木鄒帥余長(zhǎng)江
        電腦知識(shí)與技術(shù) 2016年28期
        關(guān)鍵詞:詞根詞綴

        阿布都哈力力·阿布都熱依木+鄒帥+余長(zhǎng)江

        摘要:即對(duì)詞根和詞綴以維吾爾語(yǔ)語(yǔ)法為基礎(chǔ),作出語(yǔ)法和詞匯定義,通過(guò)現(xiàn)代信息處理事業(yè)廣泛運(yùn)用的機(jī)器學(xué)習(xí)方法,計(jì)算詞綴和詞根聚合概率,將概率意義為主,自動(dòng)推斷文本中的單詞聚合失誤和符合詞根的詞綴自動(dòng)選擇原理。

        關(guān)鍵詞:維吾爾語(yǔ)詞法分析;詞根;詞綴;語(yǔ)音和諧律;MeCab-uyghur

        中圖分類號(hào):N945.23 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)28-0171-03

        1 背景

        維吾爾語(yǔ)在內(nèi)的阿勒泰語(yǔ)系語(yǔ)言中詞根與詞綴相互聚合時(shí),詞根和詞綴含有的元音和輔音之間存在相互限制和被限制關(guān)系,此種現(xiàn)象通稱語(yǔ)音和諧律(1999.竹內(nèi).現(xiàn)代維吾爾語(yǔ))。現(xiàn)代維吾爾語(yǔ)共有32個(gè)字母,其中有8個(gè)元音,24個(gè)輔音。元音按發(fā)音位置分為前元音、中元音、后元音。

        語(yǔ)音和諧律一個(gè)詞根粘附的詞綴有選擇性和若干種變體。例如:符合漢語(yǔ)中“向”詞的與格維吾爾語(yǔ)中有著“?a, qa, g?,k?” 等4中變體。這些變體根據(jù)跟前的獨(dú)立詞在內(nèi)的元音和輔音類型選擇。即舉例“bazar”這一詞,由于該詞屬于尾部由響音結(jié)尾的舌面前元音,連接開(kāi)頭由響音開(kāi)始的舌面前元音變體“?a”,構(gòu)成“bazar + ?a =bazar?a”。詞綴不僅按照詞根元音和輔音類型選擇,有時(shí)在詞綴的影響下詞根語(yǔ)音發(fā)生變化。例如:“imla+ing=imlaying”是以元音結(jié)束的詞連接以元音開(kāi)頭的詞綴時(shí)中間將會(huì)加上輔音,“bar+ip=berip”是以元音開(kāi)頭的詞綴對(duì)詞根產(chǎn)生壓力,將會(huì)引起語(yǔ)音的弱化,“orun+i=orni”是以元音開(kāi)頭的詞綴影響詞根的元音引起元音的減音。由于記錄維吾爾語(yǔ)的文字屬于有聲文字,以上變化也在文字直接表達(dá)。

        2 目前信息化處理情況

        上述語(yǔ)音和諧和變化現(xiàn)象在書(shū)面語(yǔ)發(fā)生的比較明顯。有些人在書(shū)面材料上把語(yǔ)音拼寫,影響意念的正確表達(dá)。這些問(wèn)題此前未突出明顯,但在信息技術(shù)上屬必須解決的重要問(wèn)題。

        至于信息技術(shù)領(lǐng)域如何解決以上問(wèn)題,主要采取兩種方法。其一,對(duì)詞根和詞綴未作出任何語(yǔ)法或詞匯范疇定義的情況下,分別作為單位編寫詞典,自動(dòng)聚合方法。雖通過(guò)這個(gè)方式所形成的詞庫(kù)能解決錯(cuò)字問(wèn)題,但無(wú)法解決像沒(méi)有語(yǔ)音和諧律的漢語(yǔ)等語(yǔ)言與維吾爾語(yǔ)之間機(jī)器翻譯系統(tǒng)和詞典中的一對(duì)一問(wèn)題(UyghurEdit, n.d.)。其二,將詞根和詞綴的構(gòu)形作為一個(gè)單詞編入詞典的處理方法。雖方法簡(jiǎn)單,維吾爾語(yǔ)的詞綴為數(shù)較多,文本中的聚合情況復(fù)雜,無(wú)法將全部構(gòu)形編入詞典。

        在這里我們要提出不同與上述方法的另一種方法。即對(duì)詞根和詞綴以維吾爾語(yǔ)語(yǔ)法為基礎(chǔ),作出語(yǔ)法和詞匯定義,通過(guò)現(xiàn)代信息處理事業(yè)廣泛運(yùn)用的機(jī)器學(xué)習(xí)方法,計(jì)算詞綴和詞根聚合概率,將概率意義為主,推斷文本中的單詞聚合失誤和符合詞根的詞綴自動(dòng)選擇原理。

        3 詞性標(biāo)注和處理方法

        用維吾爾語(yǔ)形態(tài)分析工具M(jìn)ecab-uyghur 把給予的文章分成單詞和詞綴。

        3.1 語(yǔ)音的和諧類型的處理

        首先把詞根和詞綴分為合適的部類,并人工匹配語(yǔ)音和諧律的單詞大義上歸屬于和諧類型范疇。第二階段,區(qū)別元音和諧類型,輔音和諧類型,元音和輔音和諧類型等三個(gè)類型。

        語(yǔ)音的和諧法列入到1至3的表格里,詞法形式表示詞根的語(yǔ)法形式。 詞根和詞綴類型進(jìn)一步細(xì)化到下一列詞典形里。作為附加信息, 詞音和諧類型列入下一個(gè)列里。詞根和詞綴的元音和輔音作為一個(gè)和諧因素列入到下一個(gè)相對(duì)應(yīng)的列里。 最后, 與詞音和諧法無(wú)關(guān)的部分標(biāo)記為Null.

        3.2 語(yǔ)音的變化類型的處理

        將語(yǔ)音變化大義上歸屬于語(yǔ)音變化類型范疇。作為小分類分別為語(yǔ)音弱化類型,語(yǔ)音増音類型,語(yǔ)音減音類型等三個(gè)類型。

        語(yǔ)音的變化規(guī)律列入到4至6的表格里,其中語(yǔ)音上有變化詞語(yǔ)的詞典型和本文形分別列入到詞典形該列里。語(yǔ)音的和諧法作為一個(gè)附加信息列入到下一列里,而詞根的結(jié)束語(yǔ)音和附加詞的字首語(yǔ)音作為一個(gè)影響語(yǔ)音變化規(guī)律的因素列入到一個(gè)列里。最后要列入語(yǔ)音的變化原因。

        4 實(shí)驗(yàn)

        4.1 計(jì)算方式

        本研究上我們使用維吾爾語(yǔ)詞法分析Mecab-uyghur系統(tǒng)。Mecab-uyghur系統(tǒng)是由日語(yǔ)的開(kāi)源詞法分析系統(tǒng)Mecab添加維吾爾語(yǔ)詞典及語(yǔ)法規(guī)則開(kāi)發(fā)演變而來(lái),此系統(tǒng)具體使用方法及其他情況不在此做詳細(xì)說(shuō)明;Mecab-uyghur 系統(tǒng)的計(jì)算方式:以最小開(kāi)銷法,利用了單詞的產(chǎn)生權(quán)重,以及連接權(quán)重這兩個(gè)概念。單詞的產(chǎn)生權(quán)重是從語(yǔ)料庫(kù)出現(xiàn)的單詞頻度獲取,連接權(quán)重是從語(yǔ)法概念獲取。

        4.2 訓(xùn)練

        把上述介紹的語(yǔ)法范疇用于傳統(tǒng)語(yǔ)言學(xué)詞類的附加識(shí)別因素(區(qū)別性特征), 并通過(guò)人工匹配建立1萬(wàn)句的詞性標(biāo)注語(yǔ)料庫(kù)。

        利用Mecab-uyghur訓(xùn)練法,獲取單詞的產(chǎn)生權(quán)重、語(yǔ)法范疇的連接概率。此連接概率是通過(guò)維吾爾語(yǔ)語(yǔ)法作為基礎(chǔ)作推斷。

        5 測(cè)試

        為驗(yàn)證上述方法的準(zhǔn)確性及可靠性,利用在訓(xùn)練階段推斷出的模型,將詞根與詞綴分別進(jìn)行聚合,例如:bazar + ?a =bazar?a,bazar + qa =bazarqa, bazar + g ?= bazarg ?, bazar + k ?= bazark ?;將此四種詞型利用Mecab-Uyghur系統(tǒng)進(jìn)一步分析,具體分析結(jié)果如下圖所示:

        bazar?a,bazarqa, bazarg ?, bazark ?從左到左開(kāi)始讀取,從詞典里面獲取有記錄的詞典序列。上圖為分解圖,其中方框內(nèi)的藍(lán)色數(shù)字表示該詞的產(chǎn)生權(quán)重,紅色數(shù)字表示連接權(quán)重,連接線上的咖啡色數(shù)字表示該文法段和它的左端文法段的連接權(quán)重。

        由上圖可知,bazar?a 這一個(gè)序列,bazar 的產(chǎn)生權(quán)重為10,?a 的產(chǎn)生權(quán)重為40," ?a 詞綴-和諧類型-前元音-清輔音"的連接權(quán)重為200。在四種序列中第一個(gè)序列的總共成本是10+700+40+200=950;第二個(gè)序列的總共成本是10+4500+38+150=4698;第三個(gè)序列的總共成本是 10+6000+70+250=6330;第四個(gè)序列的總共成本是10+4000+29+190=4229;這些序列里第一個(gè)序列的成本最小。因此,正確的是第一個(gè)序列。

        6 結(jié)束語(yǔ)

        論文主要闡述利用傳統(tǒng)語(yǔ)言規(guī)則及現(xiàn)代信息技術(shù)處理方法將維吾爾語(yǔ)詞根與詞綴聚合的辦法。以多次試驗(yàn)舉例驗(yàn)證了此猜想的正確性,以上舉例為其中以典型案例,此方法的研究證實(shí)不僅為維吾爾語(yǔ)和其他語(yǔ)言的機(jī)器翻譯、詞典學(xué)開(kāi)辟了一條先河,而且為維吾爾語(yǔ)正字法的校對(duì)工作提供了基礎(chǔ)。

        參考文獻(xiàn):

        [1] 吐?tīng)栠d·卡得. 維吾爾語(yǔ)柯坪土語(yǔ)研究[D]. 北京: 中央民族大學(xué), 2011.

        [2] 祖木拉提·阿扎提. 多語(yǔ)環(huán)境下伊犁維吾爾族人群語(yǔ)言使用狀況調(diào)查研究[D]. 新疆: 新疆大學(xué), 2012.

        [3] 木哈拜提·哈斯木. 從來(lái)源方面來(lái)看維吾爾語(yǔ)方言詞的特點(diǎn)[J]. 新疆大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版, 2005(1).

        [4] 李經(jīng)緯. 試論現(xiàn)代維吾爾語(yǔ)方言詞的類型及其對(duì)劃分方言的意義[J]. 語(yǔ)言與翻譯, 1986(3).

        [5] 陳宗振. 維語(yǔ)方言研究的回顧與展望[J]. 語(yǔ)言與翻譯, 2000(4).

        [6] 楊雅婷, 馬博, 王磊, 等. 維吾爾語(yǔ)語(yǔ)音識(shí)別中發(fā)音變異現(xiàn)象[C]// 第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一). 2011.

        [7] 楊雅婷, 馬博, 王磊, 等. 多發(fā)音字典在維吾爾語(yǔ)方言語(yǔ)音識(shí)別中的應(yīng)用[C]//第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一). 2011.

        [8] 楊雅婷, 馬博, 王磊, 等. 維吾爾語(yǔ)語(yǔ)音識(shí)別中發(fā)音變異現(xiàn)象[C]//第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二). 2011.

        [9] 楊雅婷, 馬博, 王磊, 等. 多發(fā)音字典在維吾爾語(yǔ)方言語(yǔ)音識(shí)別中的應(yīng)用[C]// 第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(二). 2011.

        猜你喜歡
        詞根詞綴
        藏在英文里的希臘詞根(二十四)
        藏在英文里的希臘詞根(二十三)
        藏在英文里的希臘詞根(二十二)
        藏在英文里的希臘詞根(十八)
        藏在英文里的希臘詞根(九)
        從網(wǎng)絡(luò)語(yǔ)“X精”看“精”的類詞綴化
        詞尾與詞綴的區(qū)別研究
        淺談現(xiàn)代漢語(yǔ)類詞綴
        釋西夏語(yǔ)詞綴wji2
        西夏研究(2017年1期)2017-07-10 08:16:55
        高職英語(yǔ)教學(xué)中“詞根教學(xué)”的應(yīng)用探微
        科技視界(2015年24期)2015-08-15 00:54:11
        黑人玩弄极品人妻系列视频| 日本韩国亚洲三级在线| 亚洲婷婷久久播66性av| 公厕偷拍一区二区三区四区五区| 国产成人精品无码一区二区三区| 国产精品久久久久久妇女| 精品日韩一级免费视频| 乱中年女人伦| 欧美在线 | 亚洲| 免费人成黄页在线观看视频国产| 亚洲都市校园激情另类| 久久高潮少妇视频免费| h动漫尤物视频| 免费人成网站在线观看| 日本熟妇免费一区二区三区| 亚洲精品中文字幕导航| 亚洲一区二区国产一区| 国产亚洲精品第一综合另类| 国产精品你懂的在线播放| 免费现黄频在线观看国产| 97福利视频| 一本色道久久综合中文字幕| 偷拍美女一区二区三区视频| 国产亚洲成人精品久久久| 国产激情无码视频在线播放性色| 国产一二三四2021精字窝| 国产高跟黑色丝袜在线| 国产亚洲人成a在线v网站| 青青草原综合久久大伊人| 国产欧美精品在线一区二区三区| 最新欧美一级视频| 中文字幕丰满人妻有码专区| 一区二区丝袜美腿视频| 国产一区二区三区中出| 国产韩国一区二区三区| 亚洲成熟女人毛毛耸耸多| 久久久久99精品成人片欧美| 亚洲第一最快av网站| 337人体做爰大胆视频| 一区一级三级在线观看| 成人免费丝袜美腿视频|