木合亞提?尼亞孜別克,古力沙吾利
(1.新疆大學信息科學與工程學院,新疆烏魯木齊830046;2.新疆醫(yī)科大學中醫(yī)學院,新疆烏魯木齊830011)
自1946年計算機出現(xiàn)到現(xiàn)在計算機普及的無處不有,計算機已成為日常生活中不可或缺的部件,這些還得歸功于計算機的語言文字信息處理的發(fā)展,我國是一個多民族國家,我國的“中文信息處理”就是中國語言文字信息處理的簡稱,它包括漢文和中國境內(nèi)其他少數(shù)民族的語言文字信息處理。新疆是多民族的地區(qū),少數(shù)民族占總?cè)丝诘?0%,哈薩克語是僅次于維吾爾語通用的6種少數(shù)民族語言文字之一,而且是跨竟語言(哈薩克斯坦),建設高質(zhì)量的標注語料庫是現(xiàn)代哈薩克語信息處理領域的基礎性工程。新疆從1980年開始進行了維吾爾文、哈薩克文、柯爾克孜文的信息研究,解決了輸入/輸出等基本問題,并制定了DOS系統(tǒng)、W INDOWS系統(tǒng)下的維、哈、柯文的國家標準,研制了DOS系統(tǒng)、W INDOWS操作系統(tǒng)、支持維、哈、柯文的 LINUX系統(tǒng)、基于Unicode編碼的維、哈、柯W INDOWS系統(tǒng)和文本編輯器,哈薩克文有了計算機信息處理的基本條件,已進入了對其詞、語法、語料庫標注等的信息處理研究階段,開發(fā)和應用具有國際水平的少數(shù)民族語言文字處理軟件,將是今后的一項重要研究課題[1]。哈薩克文信息處理作為中文信息處理家庭中的一員,哈薩克文信息處理系統(tǒng)也正在從無到有。想必,在不久的將來,完整的中文信息處理平臺將服務于千家萬戶。
哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,中國的哈薩克文借用了阿拉伯語和部分波斯文字母。哈薩克文有33個字母,其中有9個元音字母,24個輔音字母,每個字母的位置有詞首、詞中、詞末、獨立4種變體。并且,自右向左方向連續(xù)地書寫與漢語書寫順序是相反的,這樣,在計算機上處理哈文信息時,存在字母間連接問題。哈薩克語屬于黏著語類型,哈語文本中的詞是由詞根附加一定的語素構成的,語素又分為構詞語素和構形語素。構詞語素用來構造新詞,附加了構詞語素的哈語詞的詞匯意義將發(fā)生變化,既有由一個語素構成的,也有由多個語素構成的[2]。到目前為止,在哈薩克語自然語言處理領域中,對于自動詞法分析方法的研究、校對技術的研究、詞級研究、語料庫研究等方面非常欠缺。這樣使得這對哈薩克文信息處理領域的應用無疑是一個極大的限制。所以,應該進一步研究、完善哈薩克文信息處理技術問題是非常必要的。隨著信息技術的發(fā)展和互聯(lián)網(wǎng)絡的普及,近年來現(xiàn)代哈薩克語語料庫建設、機器翻譯、語音識別、自動校對、智能檢索等等工作也得到了重視。有關專家們已開始進行大型語料庫建設及研制機器翻譯系統(tǒng)工作等等。語言信息處理的不斷發(fā)展要求借助更多的語言學知識,對于哈薩克語來說更加如此。
“哈薩克文信息處理”、“哈薩克語信息處理”和“哈薩克文字信息處理”之間的關系是,“哈薩克文信息處理”可劃分為“哈薩克語信息處理”和“哈薩克字信息處理”兩個層次。哈薩克字信息處理層面包括操作系統(tǒng)以及編碼字符集、輸入技術、字形描述與生成、存儲、編輯、排版、字頻統(tǒng)計和哈薩克字屬性庫等課題[3];哈薩克語信息處理層面包括機器翻譯、信息檢索、信息提取、文本校對、文本生成、文本分類、自動摘要以及哈薩克文文字識別和語音識別的后處理等等。兩者之間也有交叉,哈薩克語信息處理要以哈薩克字信息處理的實現(xiàn)為基礎。既要提高哈薩克字信息處理的智能水平,又要借助哈薩克語信息處理的成果。
哈薩克文信息處理技術的研究還處于開始階段,要解決人與計算機接口、系統(tǒng)回答、從計算機的角度出發(fā)考慮哈薩克文分詞的規(guī)范原則、依據(jù)哈薩克文詞匯的構詞規(guī)律和特點,制定適合計算機信息處理的哈薩克文分詞規(guī)范標準、解決自動分詞、詞性標注、信息檢索、語料庫建設等一系列重要研究課題,實現(xiàn)計算機語言文字信息處理必須依賴穩(wěn)定的文字處理平臺、統(tǒng)一的規(guī)范標準和可靠的語言知識資源,三者相輔相成、缺一不可[4]。由于我國哈薩克文、維吾爾文、柯爾克孜文三種文字都是阿拉伯文為基礎的拼音文字,它們之間大部分字母是共同的,甚至發(fā)音也相同,但也有一些字母形同但音不同,有些字母還是特有的。因此,計算機信息處理這些文字時可以統(tǒng)一做在一個系統(tǒng)上,使系統(tǒng)具有同時處理這三種文字的功能;例如:80年代后期始,國內(nèi)和新疆自治區(qū)有關研究部門、高等院校、科研院所和高科技公司等開始進行計算機維、哈、柯文信息處理技術研究并逐步實現(xiàn)其信息處理的應用,制定出了相關標準。標準化是推動當今信息化社會進步的基礎,信息技術標準化是應用信息技術的前提,也是信息系統(tǒng)有效運行的保證。沒有相關標準作為技術先導和基礎保證,哈、維、柯等文信息交換和信息處理技術也就無從談起,哈薩克文要成為信息化社會一員的愿望也很難實現(xiàn)。特別是INTERNET得到迅猛發(fā)展和廣泛普及的今天,如果沒有信息技術標準化,那么在我國哈薩克族地區(qū)就沒有哈文軟件,哈文就不能進入信息化社會,如果不能夠普及電腦或不能夠進行信息化交流,那么教育、科技、文化、衛(wèi)生等又如何進步?所以,哈文信息技術的標準化和國際化顯得就更為重要[5]。
有了穩(wěn)定的文字處理平臺和統(tǒng)一的規(guī)范標準,還應有高質(zhì)量的語言知識資源語料庫和高質(zhì)量的詞義標注語料庫。語料庫資源應解決好語料來源的真實性、代表性以及各種語料所占的合理比例,從統(tǒng)計學的角度來看,語料庫越大,其反映出的語言就越接近真實的語言,就越有代表性[6]。但哈薩克語言的代表性并不是哈薩克語料的簡單堆砌。在哈薩克語料庫中基礎的詞匯分析顯示,不同語體中的詞與語義的分布很不相同。往往對一個詞的直覺并不能與該詞的實際使用類型相匹配。其次語料工具的兼容性、易操作性和統(tǒng)一性對語言文字信息處理是必不可少的,語料庫不僅是在真實情況下大量使用的語言信息集成庫,還要是能供計算機檢索和專門作研究使用的巨型資料庫[7]。如果語料真實、標注規(guī)模大、標注質(zhì)量高,就能保證檢索快捷準確,使哈文語言成為信息化社會的一員。另外哈文語料庫建設不僅要對語言描述框架作出研究,還要對語言觀念形成的社會和心理條件做出研究。這一工作不僅龐大而且艱辛;哈文語料庫中蘊藏著豐富的語言知識、詞匯知識、句法知識、語義知識、語篇知識,在采集大量詞匯時,不僅要按詞性組織還要按同義詞集合的形式組織,而且以不同的同義詞集合之間的語義連接、推演關系和反義關系來組織,這樣所形成的網(wǎng)絡形式才能構建一個機器可讀的詞庫。如果在哈文語料庫建設方面,能建成哈文—漢文雙語對齊的語料庫,就會為開展哈文語言的機器翻譯等領域產(chǎn)生重要的應用價值。
哈薩克文信息處理技術在近幾年來國家的支持下已取得了很多的進步,但現(xiàn)有成果離真正實現(xiàn)中國語言文字信息處理的要求還有很大的距離[8]。雖說相關基礎資源建設已初步形成,但其中存在的問題也非常凸顯,目前我們正在建立一定規(guī)模的哈文語料庫,但為了研究詞在文本中的真實情況,我們需要有大量的關于詞的出現(xiàn)情況的統(tǒng)計。像正式語言和非正式語言的選取,另外還有統(tǒng)計中的一些麻煩,如我們對出現(xiàn)的詞按用法和意義分類,我們又會發(fā)現(xiàn),有時,一個詞的一個用法可以很典型地代表所有其他的用法,而有時侯一個詞的幾個用法在文本中只出現(xiàn)了一個。如果根據(jù)這種情況作一個描述性的說明,那么這個說明就沒有充分性[9]。所以建立起來的哈文語料庫應該包括數(shù)百萬的詞,以實現(xiàn)平衡。再者,哈文語料庫的建設是需要不斷的維護和升級,任何一種語料庫中存在一些錯誤需要更正是在所難免的。同時,為了適應新的軟硬件需要而對語料庫進行改進和調(diào)整都將會是必要的。并且,還應不斷注意檢索系統(tǒng)、加工處理和分析的工具的及時和經(jīng)常地改進??傊?要實現(xiàn)真正完整的中文信息處理平臺—實現(xiàn)漢文和哈文信息處理系統(tǒng)的智能轉(zhuǎn)換,一是還需要不斷培養(yǎng)一批批精懂哈語的專業(yè)軟件開發(fā)隊伍,這是哈文信息處理事業(yè)發(fā)展的根本;二是要有國家高強度的支持,這是哈文信息處理事業(yè)能夠持續(xù)發(fā)展的保證;三是操作系統(tǒng)這樣大型的系統(tǒng)軟件開發(fā)必須要在政府強有力的支持下,要有大的企業(yè)參與開發(fā)才有可能形成實用的產(chǎn)品。
[1] 古麗拉?阿東別克,達吾勒?阿布都哈依爾,木合亞提?尼亞孜別克.現(xiàn)代哈薩克語詞級標注語料庫的構建研究[J].新疆大學學報,2009,26(4):394-401.
[2] 達吾勒?阿布都哈依爾,古麗拉?阿東別克.哈薩克語詞法分析器的研究與實現(xiàn)[J].計算機工程與應用,2008,44(19):146-149.
[3] 哈語語法(哈文)[M].新疆維吾爾自治區(qū)教育委員會民文教材審定委員會.1999.
[4] 達吾勒?阿布都哈依爾,古麗拉?阿東別克.基于規(guī)則的哈薩克語詞干提取系統(tǒng)的研究[C]//民族語言文字信息技術研究,第十一屆全國民族語言文字信息學術研討會.2007:109-1014.
[5] 張華平.中文信息處理技術發(fā)展簡史[R].中文自然語言處理開放平臺.
[6] 劉艷,古麗拉?阿東別克,伊力亞爾.哈薩克語詞性自動標注研究初探[J].計算機工程與應用,2008,44(20):242-244.
[7] 金澎,吳云芳,俞士汶.詞義標注語料庫建設綜述[J].中文信息學報,2008,22(3):16-22.
[8] 馮志偉.文本連貫中的常識推理研究[C]//中文信息處理的探索與實踐—HNC與語言學研究第三次會議文集,2006:55-65.
[9] 袁毓林.語義資源建設的最新趨勢和長遠目標[J].中文信息學報,2008,22(3):3-14.