摘 要:本文主要從計(jì)算語言學(xué)角度分析維吾爾語的句子結(jié)束形式,研究維吾爾語句子邊界規(guī)則[1],簡單句與復(fù)合句的劃分規(guī)則,探討劃分思路,進(jìn)行句型分類。以維吾爾語簡單句中的陳述句為例,通過基于語料庫的語義處理和語法處理,實(shí)現(xiàn)了現(xiàn)代維吾爾語簡單句識別研究的算法與程序。
關(guān)鍵詞:維吾爾語;簡單句;識別
中圖分類號:TP391.1
自然語言處理(簡稱NLP)是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科[2]。簡單地說,就是用計(jì)算機(jī)來處理人類的語言。本文擬借鑒國內(nèi)外研究成果[3],從語法和語義兩個角度來對維吾爾語句子結(jié)構(gòu)進(jìn)行分類并要用計(jì)算機(jī)語言來描述維吾爾語句法結(jié)構(gòu)、使計(jì)算機(jī)自動對維吾爾語簡單句句子結(jié)構(gòu)進(jìn)行分類。嘗試對維語簡單句句型作一個粗線條的分析,探討句型分析的方法?,F(xiàn)代維吾爾語單句處理研究,在翻譯、文本摘要、信息過濾、自動問答系統(tǒng)中都有廣泛的應(yīng)用、對現(xiàn)代維吾爾語句子計(jì)量研究奠定一定基礎(chǔ)。
1 基于規(guī)則的維吾爾語句法分析方法
1.1 簡單句組成的語法規(guī)則
根據(jù)現(xiàn)代維吾爾語句子成分由句子無主句(只有謂語),[主]+謂語句,[主]+[句子其它成分]+謂語句,[句子其它成分]+[主語]+[句子其它成分]+謂語等四種句子結(jié)構(gòu)構(gòu)成[4]。本文使用新疆師范大學(xué)《網(wǎng)絡(luò)信息安全與輿情分析》重點(diǎn)實(shí)驗(yàn)室提供的《信息處理用現(xiàn)代維吾爾語句類標(biāo)注標(biāo)記集》來描述,并分如下18類,其中[ ]表示可有可無成分。[5]本文中討論其中的[主]+謂語句,[主]+[句子其它成分]+謂語句等兩個句子結(jié)構(gòu),這兩個句子結(jié)構(gòu)由以下五個句型組成:
第一,由主語、謂語所組成的句型結(jié)構(gòu)。例如: (阿里木來了)。其規(guī)則1:V+N
第二,由主語、領(lǐng)屬語、謂語所組成的句型結(jié)構(gòu)。 (阿里木從學(xué)校來了)。其中 在句子中與 從格相結(jié)合, 從格以K3表示, ,其規(guī)則2:V+[K3+N]+N
第三,由主語、賓語、謂語所組成的句型結(jié)構(gòu)、例如: (阿里木做作業(yè)了)其中 在句子中與 從格相結(jié)合, 從格以K2表示。其規(guī)則3:V+[K2+N]+N
第四,由主語、狀語、領(lǐng)屬語、謂語所組成的句型結(jié)構(gòu)、例如: ,譯:阿里木無精打采地從學(xué)校回來了。其中 在句子中與 界限格相結(jié)合、句子中主要的作用是狀語、以K8表示。 在句子中與 從格相結(jié)合、以K3表示句子中主要的作用是領(lǐng)屬語、。其規(guī)則4:V+[K3+N]+[K8+N]+N
第五,由主語、狀語、定語、領(lǐng)屬語、謂語所組成的句型結(jié)構(gòu)、例如: 譯:阿里木跳上去從樹上把蘋果摘下來了。其中 在句子中與 界限格相結(jié)合、句子中主要的作用是狀語、以K8表示。 在句子中與 從格相結(jié)合、句子中主要的作用是領(lǐng)屬語、以K3表示。 在句子中與 從格相結(jié)合 從格以K2表示、句中的作用是定語。其規(guī)則5:V+[K2+N]+[K3+N]+[K8+N]+N
1.2 句子識別原則及算法
維吾爾語簡單句處理系統(tǒng)句子識別原則與方法:(1)系統(tǒng)根據(jù)已打開文本查找文件內(nèi)容里的“,”(逗號),“.”(句號),“!”(感嘆號),“?”(問號),“;”(分號)等標(biāo)點(diǎn)符號分類感嘆句[6],疑問句,陳述句,假設(shè)句,祈使句等五個句型;(2)在以上步驟分類的五個句型的基礎(chǔ)上,進(jìn)一步劃分簡單句和復(fù)雜句。根據(jù)“,”(逗號)和 等一些關(guān)聯(lián)詞來分五個句型中的簡單句和復(fù)雜句;(3)對系統(tǒng)已分類的簡單句中的陳述句進(jìn)行語義處理和語法處理;(4)語義處理模塊是基于已準(zhǔn)備好的語料庫進(jìn)行的。系統(tǒng)對主語比較后,找出相對應(yīng)的語義搭配庫和不搭配庫;(5)語法處理時,首先對已分配好的簡單句進(jìn)行分詞,找出主語和謂語。之后對剩下的部分根據(jù)詞綴進(jìn)行判別,找出句子成分并找出句子的這些部分在句子中的作用。本文中用正則表達(dá)式(Regular Expression)來檢索[7],描述,匹配了一系列符合維吾爾諺語語法規(guī)則的字符串。
2 現(xiàn)代維吾爾語簡單句處理實(shí)驗(yàn)結(jié)果分析
2.1 系統(tǒng)主要功能
本系統(tǒng)由句子分類模塊,語義處理模塊,語法處理模塊等三個模塊組成:(1)句子分類模塊:這一塊主要的作用是對文本中的句子進(jìn)行分類;(2)語義處理模塊:對已分類的句型中的陳述句進(jìn)行語義處理;(3)語法處理模塊:對已分類的句型中的陳述句進(jìn)行語法處理;(4)根據(jù)需要進(jìn)行查找和幫助、退出系統(tǒng)。
2.2 系統(tǒng)數(shù)據(jù)庫設(shè)計(jì)
首先在語義處理這一模塊所使用的Access數(shù)據(jù)庫。如圖1所示。
圖1 語義處理數(shù)據(jù)表
此數(shù)據(jù)庫中包含語義正確、語義正確搭配、語義錯誤、語義錯誤搭配等四個部分、完全符合傳統(tǒng)語言學(xué)和計(jì)算語言學(xué)的語法結(jié)構(gòu)[8]。在進(jìn)行語義處理時,與數(shù)據(jù)庫進(jìn)行查找比較、指出相應(yīng)的正確搭配和錯誤搭配詞匯。如圖2所示。
圖2 語法處理數(shù)據(jù)表
此表格中表現(xiàn)了維吾爾語單句中常見的五個句型的句子結(jié)構(gòu)、對應(yīng)的標(biāo)注、每一個詞的詞性標(biāo)注。此表格是為了歸納規(guī)則而使用,適用于維吾爾語中所有的由單詞構(gòu)成的句子進(jìn)行處理。
2.3 系統(tǒng)功能實(shí)現(xiàn)
2.3.1 語義處理模塊實(shí)驗(yàn)結(jié)果
圖3 語義處理模塊運(yùn)行結(jié)果
圖3是進(jìn)行語義處理的系統(tǒng)界面。系統(tǒng)可以自動地對語料進(jìn)行分句、并在每個句子后面的括號里顯示是簡單句或者是復(fù)合句和句型。根據(jù)其句型進(jìn)行語義處理。系統(tǒng)會自動的與數(shù)據(jù)庫(圖1)相比較顯示與謂語搭配的主語、不搭配的主語并且彈出提示。簡單來講,語義處理這一塊就是根據(jù)語料庫中已分好的句子找出與謂語在語義上相配合的主語庫與不配合的主語庫[9]。語義處理模塊提供的數(shù)據(jù)庫總量要是不夠多、系統(tǒng)會顯示找不到搭配庫、所以必須得準(zhǔn)備大量的主謂語搭配庫,需要人工處理。
2.3.2 語法處理模塊的實(shí)驗(yàn)結(jié)果
圖4 語法處理模塊運(yùn)行結(jié)果
圖4是系統(tǒng)進(jìn)行語法處理后的結(jié)果圖。上面文本框輸入的是由主領(lǐng)屬語、謂語組成的維吾爾語句型結(jié)構(gòu)。系統(tǒng)自動的進(jìn)行分詞并顯示出此詞匯的詞性,句子中的主要作用等。相對來說是一個功能相當(dāng)強(qiáng)的模塊。系統(tǒng)首先找出主語和謂語,然后根據(jù)詞性進(jìn)行標(biāo)注、并且顯示出此短語在句子中的主要作用,還根據(jù)已分好的簡單句進(jìn)行分詞、詞性標(biāo)注、然后指出每個詞在句子中的作用等一系列信息。在主界面中,單擊幫助按鈕時顯示幫助文本文件、提供了解并查看系統(tǒng)的功能。此模塊存在的歧義就是系統(tǒng)只能處理由單個詞構(gòu)成的簡單句,但是維吾爾語句子的種類很多、很多詞是由雙詞(短語)構(gòu)成的。本文只分析研究了由單個詞相聯(lián)接而構(gòu)成的句子和與格綴相結(jié)合的短語。此規(guī)則應(yīng)用于所有的句子,因?yàn)閺?fù)合句也是兩個以上簡單句構(gòu)成的。
參考文獻(xiàn):
[1]謝新洲,陳睿.文本自動分析中句法分析應(yīng)用述評[J].情報理論與實(shí)踐,1992.
[2]吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報,2011.
[3]阿力木江·托乎提.維吾爾語KP短語的句法分析研究[J].計(jì)算機(jī)應(yīng)用與軟件,2010.
[4]阿力甫·庫爾班,阿力木江·托乎提.維吾爾語單句句法分析研究[A].第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C],2011.
[5]阿比達(dá)·吾買爾.維吾爾語句子邊界識別算法的設(shè)計(jì)與實(shí)現(xiàn)[J].新疆大學(xué)學(xué)報,2008.
[6]方曉華.維吾爾語句子類型分析[J].民族語文,1997.
[7]劉文性.現(xiàn)代維吾爾語詞語研究中的幾個問題[J].西北民族大學(xué)學(xué)報,1983.
[8]力提甫·托乎提.論維吾爾語否定成分-ma-/-m的句法特性[J].民族語言,2011.
[9]祖麗皮亞·買買提明.維吾爾語基本動詞短語自動識別研究[J].北京郵電大學(xué)學(xué)報,2012.
作者簡介:穆妮熱·穆合塔爾(1989-),女,碩士研究生,研究方向:計(jì)算語言學(xué);艾孜爾古麗,女,碩士,講師,主要從事計(jì)算語言學(xué)、自然語言處理;玉素甫.艾白都拉,男,教授,導(dǎo)師,主要從事計(jì)算語言學(xué)、自然語言處理。
作者單位:新疆師范大學(xué),烏魯木齊 830054
基金項(xiàng)目:新疆維吾爾自治區(qū)自然科學(xué)基金(項(xiàng)目編號:2014211A045);教育部人文社會科學(xué)一般項(xiàng)目(項(xiàng)目編號:14YJC740001);新疆維吾爾自治區(qū)高??蒲杏?jì)劃青年教師科研啟動基金(項(xiàng)目編號:20140706213103147);國家自然科學(xué)基金重點(diǎn)項(xiàng)目(項(xiàng)目編號:61132009);國家自然科學(xué)基金項(xiàng)目(項(xiàng)目編號:61262066);國家語委“十二五”科研規(guī)劃項(xiàng)目(項(xiàng)目編號:YB125-45);新疆師范大學(xué)網(wǎng)絡(luò)信息安全與輿情分析重點(diǎn)實(shí)驗(yàn)項(xiàng)目資助(項(xiàng)目編號:WLYQ2013203)。