才藏太,索南才讓,才讓加
(1. 青海師范大學 計算機學院,青海 西寧 810016; 2. 藏文信息處理教育部重點實驗室,青海 西寧 810008; 3. 青海省藏文信息處理與機器翻譯重點實驗室,青海 西寧 810008; 4. 西北民族大學 社會科學研究院,甘肅 蘭州 730030)
自圖彌桑布扎創(chuàng)造藏文字以來,已有1400年的歷史。這期間,以他的《三十頌》和《音勢論》原著為藍本加以注釋和擴充,形成了以虛詞和動詞為核心的具有顯性結構特征的傳統(tǒng)藏文語法體系。綜觀藏文語法研究,歷代有關藏文語法書籍和研究成果汗牛充棟,數(shù)不勝數(shù)。藏文傳統(tǒng)語法研究對藏文字的構成、詞的時態(tài)變化、虛詞的關聯(lián)方法、藏文句子的結構等方面做出了細致的描述,但是對藏語短語層面沒有進行深入的研究。隨著自然語言信息處理的不斷發(fā)展和完善,逐漸從原來的以詞為單位的語法分析方法轉(zhuǎn)換成以短語為處理單位的語法分析的思想[1]。尤其在句法分析、機器翻譯、文本檢索等領域短語的應用較為成熟。
鑒于以上原因,我課題組對藏語短語的結構、藏語短語與藏語句子的界定、藏語短語的分類、藏語短語在詞典庫中的標記方法等層面做了深入的研究。為基于藏語短語的藏文句法分析、統(tǒng)計機器翻譯、藏文文本檢索等領域的研究打下了堅實的基礎。
為了更深入地區(qū)分藏語短語和藏語句子,首先要了解藏語短語和藏語句子的定義。
從功能層面來講,藏語短語和藏語句子的主要區(qū)別表現(xiàn)在能否表示相對完整的意思,如能則為句子,否則為短語。
從結構層面來講,藏語短語和藏語句子的主要區(qū)別表現(xiàn)在以下四個方面。
對于英語短語的劃分(bracket)和標注,比較大的研究項目有英國Lancaster大學UCREL的Lancaster Treebank[8]和美國的Pennsayvania大學的Penn Treebank[9]。前者的標記集較大,通過組織成不同的層次描述了詳細的短語句法信息。而后者的標記集則較為簡練,只有14個句法標記,但它的特點是增加了四個表明不同空元素(Null Elements)的標記。在國內(nèi),漢語短語的劃分和標注,主要有北京大學計算語言學研究所完成的“漢語短語標注標記集的確定”[10]。此文提出了一個用于漢語短語劃分和標注的句法標記集,為漢語短語標注的自動處理和人工校對提供了一個統(tǒng)一的規(guī)范。
在藏語短語的研究過程中,主要借鑒了文獻[10]的內(nèi)容,因為漢語和藏語畢竟同屬一個語系,在研究思路以及語言的功能、結構等方面有共同特點。文獻[10]中,漢語短語劃分為:
① 名詞性短語,如: 漂亮的帽子;
② 名詞性準短語,如: 工人們;
③ 動詞性短語,如: 看電影;
④ 動詞性準短語,如: 看一看;
⑤ 形容詞性短語,如: 特別安靜;
⑥ 形容性準短語,如: 紅了;
⑦ 副詞性短語,如: 虛心地;
⑧ 介詞性短語,如: 在北京;
⑨ 區(qū)別詞性短語,如: 這件;
⑩ 時間詞性短語,如: 戰(zhàn)爭初期;
見到上述漢語短語的分類之后,發(fā)現(xiàn)漢語短語的類別及其標記集不能直接借用到藏語處理的研究中,漢語和藏語雖屬同一個語系,但畢竟是兩門完全不同的語言。從這兩門語言的語法結構的特點分析,主要區(qū)別有以下三條:
面向語言信息處理的藏語短語的分類體系主要依據(jù)藏語傳統(tǒng)語法分類體系,根據(jù)藏語信息處理的特點和要求,并參考了漢語短語分類研究成果,按照語法功能和便于計算機自動分析和處理的原則劃分短語。大類之間不允許出現(xiàn)交叉,包括標注形式層和語義層;小類間允許出現(xiàn)標注形式層交叉,但不允許出現(xiàn)語義層交叉。
該分類體系將藏語短語劃分為八個大類,分別是名詞短語、動詞短語、形容詞短語、數(shù)量詞短語、判斷短語、固定短語、時間短語和代詞短語。其中:
(1) 名詞短語包括名補結構的名詞短語、后綴結構的名詞短語、偏正結構的名詞短語、并列結構的名詞短語、方位和處所結構的名詞短語、復指名詞短語等六個子類。
(2) 動詞短語包括賓動結構的動詞短語、并列結構的動詞短語、遞補結構的動詞短語、動補結構的動詞短語、受施結構的動詞短語、偏正結構的動詞短語、方位和處所結構的動詞短語、主謂結構的動詞短語等八個小類。
(3) 形容詞短語包括并列結構的形容詞短語和偏正結構的形容詞短語等兩個子類。
(4) 數(shù)量詞短語、判斷短語、固定短語、時間短語和代詞短語沒有劃分子類。
標記代碼的制定原則是依據(jù)國際通常做法,標記代碼主要采用英文術語的字母。例如,“名詞短語”采用NP、“數(shù)詞短語”采用MP作為標記代碼。 藏語獨有的或使用英文術語字母標記不便的,依據(jù)國內(nèi)通常做法,標記代碼采用漢語拼音字母,如“判斷短語”采用漢語拼音的首字母作為標記代碼PP。藏語短語的標記代碼、子類信息、短語結構及藏文實例等詳細內(nèi)容如表1所示(見下頁)。
表中最左邊一列表示藏語短語中八個大類的標記代碼,用NP、VP、AP、MP、PP、GP、TP和RP分別代表藏語短語中的名詞短語、動詞短語、形容詞短語、數(shù)量詞短語、判斷短語、固定短語、時間短語和代詞短語。第二列是藏語短語的名稱。第三列表示藏語短語的名詞短語、動詞短語和形容詞短語中分類出來的子類標記代碼,其余的數(shù)量詞短語、判斷短語、固定短語、時間短語和代詞短語沒有劃分子類。因此,此處表格內(nèi)容為空。表格第四列為子類名稱。第五列代表藏語短語的結構,其中小寫英文字母代表詞性;大寫英文字母表示短語;“+”表示連接;“/”代表“或者”;“[ ]”表示可有可無;“...”表示前面的詞重復連接;短語結構中出現(xiàn)的藏文表示固定搭配的藏語虛詞;“;”前后是不同的短語結構,例如,名補結構的名詞短語(NPM)中,名詞是中心詞,名詞后面的形容詞、方位詞或助詞用來修飾前面的名詞。又如,在偏正結構的短語中,整體的功能和其中一個成分的功能相同,這個成分就是中心詞。偏正關系的名詞短語的中心詞是名詞,前面部分是修飾中心詞的定語,定語部分由名詞或名詞短語、動詞或動詞短語、形容詞(除單音節(jié)的形容詞以外)或形容詞短語、代詞充當。定語和中心詞之間用屬格助詞,有時屬格可省略,但其意義及功能不變。為了控制篇幅,不作一一列舉。最后一列是藏文實例。
隨著自然語言信息處理技術的不斷發(fā)展和完善,從原來的以詞為單位的語法分析方法轉(zhuǎn)換成以短語為處理單位的語法分析的思想。在這樣的背景下,藏文信息處理也不例外,在藏文句法分析、藏漢機器翻譯、藏文文本檢索等領域都要用到藏語傳統(tǒng)語法不太被關注的藏語短語。因此,本文對藏語短語的定義、藏語短語與藏語句子的區(qū)別等方面進行了研究。在此基礎上對藏語短語進行分類,并規(guī)定了信息處理中藏語短語類別單位的標記代碼。下一步,我們將在建立大規(guī)模藏語語料庫的基礎上進行藏語短語的自動抽取研究,進而建立藏語短語信息庫,為基于藏語短語的藏文句法分析、統(tǒng)計機器翻譯、藏文文本檢索等領域的研究奠定堅實的基礎。
表1 藏語短語的分類及其標記代碼
續(xù)表