摘 要:本文在傳統(tǒng)語言學(xué)知識(shí)基礎(chǔ)上,總結(jié)維吾爾語KP短語構(gòu)造規(guī)則,提出了維吾爾語KP短語的自動(dòng)識(shí)別方法,建立了構(gòu)造規(guī)則庫并對(duì)此方法進(jìn)行了實(shí)驗(yàn)測(cè)試。實(shí)驗(yàn)結(jié)果顯示,基于規(guī)則的方法能夠保證正確率和召回率,可以更好地完成KP短語的識(shí)別任務(wù),同時(shí)研究有關(guān)短語和句子及其識(shí)別帶來好多便利并提供良好的理論和實(shí)踐基礎(chǔ)。
關(guān)鍵詞:維吾爾語;KP短語;靜詞;規(guī)則庫
中圖分類號(hào):TP391.1
維吾爾語短語由兩個(gè)或兩個(gè)以上的詞語來構(gòu)造,表示詞匯語義的最大語言單位。傳統(tǒng)語言學(xué)中構(gòu)詞詞尾,包括格詞綴在內(nèi)的構(gòu)型詞尾都不能在短語范圍內(nèi),但計(jì)算語言學(xué)對(duì)短語的定義與傳統(tǒng)語言學(xué)不同。對(duì)計(jì)算機(jī)來說所有的語言單位包括詞干、詞綴(構(gòu)詞詞綴和構(gòu)型詞綴)、詞匯語義與語義等都被一同視為同一個(gè)指數(shù)的語言單位,任何一個(gè)語言單位實(shí)詞還是虛詞都是同等的。一個(gè)實(shí)詞與另一個(gè)構(gòu)型詞綴搭配從傳統(tǒng)語言學(xué)的角度來看是一個(gè)實(shí)詞的形態(tài)變化而止,因此它不成什么短語,但計(jì)算語言學(xué)的角度來說,兩個(gè)語言單位的搭配,因此它構(gòu)成一個(gè)短語。
1 基本KP短語及其特征
名詞的任何一個(gè)語法范疇通過名詞詞綴體現(xiàn)在除了動(dòng)詞之外的其它實(shí)詞身上。維吾爾語格范疇不僅是名詞的范疇,同時(shí)它形容詞、代詞、數(shù)詞、量詞、模擬詞等詞語(這些詞語統(tǒng)稱靜詞)共有的語法范疇。因此,格范疇是除了人稱動(dòng)詞以外的包括非人稱動(dòng)詞在內(nèi)的靜詞共有的范疇體系。因此生成語法中KP短語的構(gòu)造規(guī)則是很有規(guī)律的,它的基本框架[靜詞+格附加成分]。
它是以K(格詞綴)為核心詞,以靜詞為補(bǔ)足語或附加語的短語。
2 KP短語的構(gòu)造規(guī)則及其辨別
KP短語由靜詞和相應(yīng)的格詞綴組成,系統(tǒng)自動(dòng)抽取KP短語時(shí)未加上任何格詞綴的單詞也被劃分。因此,分析之前要考慮好相應(yīng)的語境(該單詞是否出現(xiàn)在句子中,并是否承擔(dān)句子的主語成分)。
??????在句子①中做主語;句子②中做謂語,即屬于主格。到底哪些詞類能接受格范疇呢?利用構(gòu)詞詞尾和構(gòu)形詞尾的區(qū)別來解決此問題:
(1)一個(gè)詞加上構(gòu)詞附加成分后構(gòu)成一個(gè)具有獨(dú)立意義的詞。雖然??????、????、???????、???????等單詞的后置字母跟我們所說的附加成分看起來一樣,但去掉該詞綴之后的成分不是真正的實(shí)詞,只是語音的積累而已,更不能表示任何語義。
(2)一些構(gòu)詞詞尾只能加上該詞本身,但格附加成分不僅可加上靜詞,而且還能加上它們的復(fù)數(shù)、從屬等成分。這樣它的詞義會(huì)變,語義不變。例如:
3 實(shí)驗(yàn)結(jié)果與分析
輸入一段維吾爾文本,劃分出簡(jiǎn)單句并存到數(shù)據(jù)庫中,在規(guī)則基礎(chǔ)上提取各類KP短語并進(jìn)行統(tǒng)計(jì)和評(píng)價(jià)。采用正確率(Total accuracy)來衡量總體的實(shí)驗(yàn)效果;采用召回率(Recall)來衡量人工劃分的KP短語識(shí)別效果;采用誤差率(Error rate)來衡量實(shí)驗(yàn)的使用價(jià)值。三種指標(biāo)定義如下:
實(shí)驗(yàn)結(jié)果顯示,其中主格短語的個(gè)數(shù)最多,界限格短語的個(gè)數(shù)最少。KP短語在句子中充當(dāng)不同的句子成分,主格可以擔(dān)任句子的任何成分;領(lǐng)屬格和時(shí)為標(biāo)志格做定語;賓格做賓語;向格、時(shí)為格、界限格時(shí)做狀語;形似格和量似格在不同的語境承擔(dān)不同的任務(wù),在名詞或名詞性詞(主語)前面,做定語;在謂語前定義謂語的狀態(tài),做狀語。但在實(shí)驗(yàn)過程中遇到歧義。
例如:①向格 ;②時(shí)位格 。③從格 ;④形似格 ;⑤量似格 等。
利用這些歧義單詞構(gòu)建歧義規(guī)則庫,與句子所包含的KP短語進(jìn)行比較的同時(shí)系統(tǒng)會(huì)報(bào)錯(cuò),并不把該單詞輸入劃分的短語庫中,通過構(gòu)建歧義規(guī)則庫來提高效率。
4 結(jié)束語
常見的維吾爾語短語識(shí)別研究都根據(jù)一些人工設(shè)定的規(guī)則來完成。本實(shí)驗(yàn)采用的規(guī)則在KP短語自動(dòng)識(shí)別方面具有良好的正確率和召回率,但誤差率有點(diǎn)高,導(dǎo)致高誤差率的主要原因是單詞歧義導(dǎo)致的。下一步研究將會(huì)進(jìn)行自動(dòng)識(shí)別句子所包含的短語工作,在基于規(guī)則的技術(shù)基礎(chǔ)上展開對(duì)比實(shí)驗(yàn)并采用更有效的方法來進(jìn)一步精確識(shí)別效率。
參考文獻(xiàn):
[1]力提甫·托乎提.現(xiàn)代維吾爾語參考語法[M].北京:中國(guó)科學(xué)社會(huì)出版社,2012.
[2]力提甫·托乎提.維吾爾語KP短語的句法分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2010.
[3]力提甫·托乎提.維吾爾語功能語類(K)的句法特征[J],2010.
[4]阿力木江·托乎提,阿布都熱合曼·庫爾班.論維吾爾語KP短語的構(gòu)成方法句法結(jié)構(gòu)[J].西北民族大學(xué)學(xué)報(bào),2012.
作者簡(jiǎn)介:海仁古麗·阿卜杜瓦伊提(1988.05-),女,維吾爾族,在讀碩士生,研究方向:計(jì)算語言學(xué),主要從事自然語言處理方面的研究;賽買提·艾力,男,主要從事自然語言處理;指導(dǎo)老師:木妮娜·玉素甫,女,副教授,就職于計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,碩士生導(dǎo)師,主要從事自然語言處理。
作者單位:新疆師范大學(xué),烏魯木齊 830054
基金項(xiàng)目:本文承新疆師范大學(xué)網(wǎng)絡(luò)信息安全與輿情分析實(shí)驗(yàn)室招標(biāo)課題(項(xiàng)目編號(hào):WLYQ2013201)、新疆師范大學(xué)優(yōu)秀青年教師科研啟動(dòng)基金項(xiàng)目(項(xiàng)目編號(hào):XJNU1216)和新疆師范大學(xué)“計(jì)算機(jī)應(yīng)用技術(shù)”重點(diǎn)學(xué)科招標(biāo)課題(課題編號(hào):12XSXZ0607)的資助。