玉素甫·艾白都拉 艾孜海爾江 祖力克爾江 艾孜爾古麗
摘要:該文以社會(huì)語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)相結(jié)合的角度,根據(jù)烏茲別克語(yǔ)言特點(diǎn)提出烏茲別克語(yǔ)“詞干(詞根)+詞綴+詞尾”的詞法結(jié)構(gòu)模型、構(gòu)詞模型及名詞構(gòu)形詞綴規(guī)律,為了計(jì)算機(jī)處理方便,將原來(lái)的六種格擴(kuò)充十種格,為下一步開(kāi)展詞干提取、詞性標(biāo)注等烏茲別克語(yǔ)自然語(yǔ)言處理技術(shù)的研究提供基礎(chǔ)支撐。
關(guān)鍵詞:烏茲別克語(yǔ);詞法結(jié)構(gòu)模型;構(gòu)詞模型;名詞構(gòu)形詞綴;詞干切分
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)20-0200-02
The Research of the Noun Affixe in Modern Uzbek for Natural Language Processing
Abaydula Yusup, Azhar, Zulkar, Azragul
(Xinjiang Normal University,Urumqi 830054,China)
Abstract:This paper takes the perspective of social linguistics and computational linguistics, according to the characteristics of Uzbek language Uzbek "stem (root) + affix and suffix" lexical structure model, the formation model and configuration of terms affix rules, convenient for computer processing, the original expansion of ten kinds of six frames. It will provide a basis for the further research on the processing technology of Uzbek natural language such as word stem extraction and word tagging.
Key words:Uzbek language; Lexical structure model; Word formation model; Noun conformation affixes; Stems segmentation
1 引言
為加強(qiáng)與“一帶一路”沿線國(guó)家交流,與沿線國(guó)家的語(yǔ)言文化融通,為建立“語(yǔ)言互聯(lián)網(wǎng)”發(fā)揮積極作用。本文利用信息化手段挖掘?yàn)跗潉e克語(yǔ)的語(yǔ)言現(xiàn)象和規(guī)律,為方便采取定性和定量相結(jié)合的方法研究,在現(xiàn)有的維吾爾語(yǔ)言文字信息化技術(shù)的研究基礎(chǔ)之上,根據(jù)烏茲別克語(yǔ)的特點(diǎn)提出烏茲別克語(yǔ)“詞干(詞根)+詞綴+詞尾”的詞法結(jié)構(gòu)模型、構(gòu)詞模型及名詞構(gòu)形詞綴規(guī)律,為了計(jì)算機(jī)處理方便,將原來(lái)的六種格擴(kuò)充十種格。為研究烏茲別克語(yǔ)語(yǔ)料庫(kù)構(gòu)建技術(shù)、構(gòu)建烏茲別克語(yǔ)言資源庫(kù),建立“語(yǔ)言互聯(lián)網(wǎng)”提供語(yǔ)言基礎(chǔ)支撐。對(duì)及時(shí)了解語(yǔ)言生活狀況,建立語(yǔ)言監(jiān)測(cè)、分析和預(yù)警機(jī)制,正確引導(dǎo) “一帶一路”沿邊國(guó)家語(yǔ)言服務(wù)、社會(huì)語(yǔ)言生活的和諧發(fā)展打下基礎(chǔ),具有十分重要的意義。
2 烏茲別克語(yǔ)詞語(yǔ)研究
2.1 烏茲別克語(yǔ)詞法結(jié)構(gòu)模型
從傳統(tǒng)語(yǔ)言學(xué)角度考慮,烏茲別克語(yǔ)詞具有“詞根+詞綴+詞尾”的詞法結(jié)構(gòu),詞根、詞綴和詞尾的結(jié)合存在嚴(yán)格的次序規(guī)則,其中烏茲別克語(yǔ)中的詞綴有改變?cè)~義的功能,詞尾具有語(yǔ)法功能。烏茲別克語(yǔ)詞去除詞詞綴剩下的部分稱為詞干,因此烏茲別克語(yǔ)詞也是由詞干和詞尾構(gòu)成的,具體詞法結(jié)構(gòu)模型見(jiàn)圖1。
圖1中,A表示詞根,B表示詞綴,C表示詞尾,D表示詞干,W表示詞語(yǔ)。
一個(gè)烏茲別克文詞語(yǔ)是由零個(gè)或者一個(gè)前綴,一個(gè)詞根,零個(gè)或者多個(gè)后綴而組成。例如:
yordam(幫助)
yordam+lash = yordamlash(去幫忙)
yordam +lash + moq = yordamlashmoq (將幫助)。
2.2 烏茲別克語(yǔ)構(gòu)詞模型
“詞匯在句法信息作為詞匯形式出現(xiàn)的一種方式稱為語(yǔ)素”[1]。語(yǔ)素(morpheme)是語(yǔ)言中的最小語(yǔ)法單位,不能再分成其他有意義的成分[2]。語(yǔ)素可以分為兩種,分別是自由語(yǔ)素(free morpheme)和黏著語(yǔ)素(boundary morpheme)。自由語(yǔ)素指的是能夠獨(dú)立成詞的語(yǔ)素,具有詞匯意義,詞匯再不能進(jìn)行分割的語(yǔ)言單位,既通常叫作詞根(root) [3]。而黏著語(yǔ)素是不能夠單獨(dú)成詞的,它只能作為單詞的附加成分出現(xiàn)在詞根或者其他黏著語(yǔ)素的旁邊。黏著語(yǔ)素也會(huì)被叫作詞綴(affix),它有兩種形式,前綴(prefix) 和后綴(suffix),前綴鏈接在詞根前面,而后綴鏈接在詞根后面[4]。
烏茲別克語(yǔ)中的前綴可分為兩種,一種是構(gòu)詞(derivational)前綴,這種前綴是鏈接在詞根前面的,會(huì)給原詞根帶來(lái)語(yǔ)義上的(semantic)變化,即生成一個(gè)新的詞干,圖2構(gòu)詞前綴所示。
另外一種是強(qiáng)調(diào)性(imphatic)前綴,這種前綴是不會(huì)生成新詞,只會(huì)起強(qiáng)調(diào)原詞義的作用,圖3強(qiáng)調(diào)性前綴所示。
烏茲別克語(yǔ)中的后綴也分為兩種:一種是詞干鏈接構(gòu)詞后綴是產(chǎn)生語(yǔ)義變化的,也就是說(shuō)它會(huì)生成新的一個(gè)詞干。另一種,詞干鏈接構(gòu)形后綴是不會(huì)生成新詞,只會(huì)更改單詞的形式和單詞在句子中的語(yǔ)法作。詞干后面綴接后綴的時(shí)候往往是先綴接構(gòu)詞后綴再綴接構(gòu)形后綴,圖4多種后綴鏈接綴所示[3]。
烏茲別克語(yǔ)中有很多構(gòu)詞附加成分,而且構(gòu)詞附加成分的構(gòu)詞能力是很強(qiáng)的,正是因?yàn)檫@樣,理論上說(shuō),烏茲別克語(yǔ)有無(wú)限的詞匯量。構(gòu)形附加成分對(duì)詞干的詞匯意義不會(huì)有任何影響,它表示的是詞語(yǔ)和詞語(yǔ)之間的語(yǔ)法關(guān)系。無(wú)論是構(gòu)詞附加成分還是構(gòu)形附加成分肯定語(yǔ)義發(fā)生變化[3]。
3 烏茲別克語(yǔ)構(gòu)形詞綴
3.1 名詞詞綴
烏茲別克語(yǔ)中有構(gòu)形詞綴的詞類有名詞、動(dòng)詞、代詞、形容詞、數(shù)詞[6]。,名詞詞綴包括名詞的1個(gè)復(fù)數(shù)詞綴和10個(gè)格詞綴。其中在烏茲別克語(yǔ)語(yǔ)法里只存在六種格,即主格、屬格、賓格、從格、向格、位格[3]。并沒(méi)有把“gacha,cha,chali,dagi,dek”等詞綴歸屬為格,而是把它們當(dāng)作單獨(dú)的詞綴來(lái)處理。但是這些詞綴的作用與格詞綴相同。本文根據(jù)計(jì)算語(yǔ)言學(xué)需求,增加了格的范圍,擴(kuò)充了“止格,gacha”,“圍特征格,dagi”,“量擬格,cha,chali”,“形擬格,dek”等4個(gè)格[5]。此外,烏茲別克語(yǔ)非人稱動(dòng)詞中的動(dòng)名詞也會(huì)受到以上格詞綴的影響。
3.2 名詞數(shù)詞綴
烏茲別克語(yǔ)名詞一般都是單數(shù)和復(fù)數(shù)兩種形式,單數(shù)沒(méi)有特殊標(biāo)志,烏茲別克語(yǔ)名詞的復(fù)數(shù)詞綴只有一種。名詞復(fù)數(shù)構(gòu)形附加成分lor 綴接在名詞后面以后就會(huì)形成烏茲別克語(yǔ)名詞復(fù)數(shù)形態(tài)。根據(jù)烏茲別克語(yǔ)的復(fù)數(shù)構(gòu)形附加成分連接規(guī)律,名詞詞干的后綴接復(fù)數(shù)詞綴,再在復(fù)數(shù)詞綴后連接其他詞綴的這種特征這對(duì)詞干提取研究帶來(lái)一定的方便。
3.3 人稱詞綴
烏茲別克語(yǔ)名詞的還有一個(gè)語(yǔ)法范疇是人稱。利用人稱詞綴來(lái)表達(dá)名詞所指的事物之間的隸屬關(guān)系。烏茲別克語(yǔ)名詞人稱范疇按照連接的人稱詞綴的不同,表達(dá)不同的領(lǐng)屬關(guān)系。包括能表達(dá)單數(shù)、復(fù)數(shù)的是第一人稱和第二人稱,第三人稱沒(méi)有復(fù)數(shù)標(biāo)志。例如:第一人稱(單、復(fù)數(shù))“m\im(miz\imiz)”,第二人稱(單、復(fù)數(shù))“ng\ing(ngiz\ingiz)”,第三人稱(復(fù)數(shù))“i\si” [3]。
4 結(jié) 論
本文主要從傳統(tǒng)語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)角度考慮烏茲別克語(yǔ)詞具有的“詞干(詞根)+詞綴+詞尾”的語(yǔ)法結(jié)構(gòu)規(guī)律,提出烏茲別克語(yǔ)詞法結(jié)構(gòu)模型。并以烏茲別克語(yǔ)詞法結(jié)構(gòu)模型作為基礎(chǔ),深入探索烏茲別克語(yǔ)語(yǔ)素,在此基礎(chǔ)上研究三種烏茲別克語(yǔ)構(gòu)詞模型,探討構(gòu)詞規(guī)律。為計(jì)算機(jī)處理方便,在現(xiàn)有的烏茲別克語(yǔ)6種格基礎(chǔ)上,擴(kuò)充10到種烏茲別克語(yǔ)格。分析了烏茲別克語(yǔ)名詞構(gòu)形詞綴情況,為下一步研究烏茲別克名詞分析和詞干提取提供科學(xué)依據(jù),對(duì)以后要開(kāi)展的烏茲別克語(yǔ)自然語(yǔ)言處理方面有較好的應(yīng)用,是語(yǔ)言信息化中最基本和最重要的一項(xiàng)工作。
參考文獻(xiàn):
[1] 早克熱·卡德?tīng)?,艾山·吾買(mǎi)爾,吐?tīng)柛ひ啦祭?,帕里旦·吐?tīng)栠d,吳小川.混合策略的維吾爾語(yǔ)名詞詞干提取系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用.2013,49(1).
[2] 塔依爾·阿不都外力,艾山·吾買(mǎi)爾,吐?tīng)柛ひ啦祭?,張?基于標(biāo)注詞典和規(guī)則的維吾爾文動(dòng)詞詞干提取方法[J].新疆大學(xué)學(xué)報(bào),2013,30(1).
[3] 古麗巴努木·克拜吐里.烏孜別克語(yǔ)教程[M].北京:中央民族大學(xué)出版社,2016.
[4] 哈米提·鐵木爾.現(xiàn)代維吾爾語(yǔ)語(yǔ)法學(xué)[M].北京:民族出版社,2011.
[5] 哈米提·鐵木爾.關(guān)于維吾爾語(yǔ)名詞“格”的范疇[J].新疆大學(xué)學(xué)報(bào),1980(3).
[6] 高莉琴,阿不都許庫(kù)爾·艾山.關(guān)于維語(yǔ)的詞類劃分問(wèn)題[J].新疆大學(xué)學(xué)報(bào),1987(3).