安見才讓
(青海民族大學(xué)計(jì)算機(jī)學(xué)院,西寧810007)
語料庫由大量收集得來的書面語或口語構(gòu)成,使用計(jì)算機(jī)儲存并處理的用于語言學(xué)研究的文本庫。它為語言教學(xué)提供了自然出現(xiàn)的真實(shí)語料,為語言研究提供了科學(xué)的方法[1]。經(jīng)過20多年的發(fā)展,很多領(lǐng)域的語料庫已達(dá)到一定規(guī)模,相應(yīng)的語料庫日趨成熟,但藏區(qū)的漢語教學(xué)至今沒有一個(gè)可以應(yīng)用的漢藏語料庫。目前,國內(nèi)漢藏平行語料庫缺乏統(tǒng)一的標(biāo)準(zhǔn),藏區(qū)的漢語教學(xué)工作仍采用傳統(tǒng)的面授模式,教師的知識儲備有限,知識得不到及時(shí)更新與總結(jié),缺乏知識對比的參照標(biāo)準(zhǔn)和有效信息的搜索工具,而且檢索效率低下[2]。因此,文中建立了漢藏雙語語料庫平臺系統(tǒng),立足于“藏區(qū)使用的小學(xué)、初中漢語文教材”,充分結(jié)合漢藏雙語的特點(diǎn),應(yīng)用計(jì)算機(jī)技術(shù),實(shí)現(xiàn)了對漢、藏語料的收集、篩分、統(tǒng)計(jì)、檢索、對齊、對比、發(fā)音、朗讀、顯示等功能,為藏區(qū)的漢語教學(xué)、漢藏語言的研究提供了一個(gè)高效、準(zhǔn)確、統(tǒng)一的教學(xué)平臺。
九年義務(wù)教育六年制小學(xué)和三年制初級中學(xué)共17本《漢語》教科書(藏族地區(qū)使用)的內(nèi)容及與之對齊的藏語翻譯內(nèi)容是本系統(tǒng)的生語料。它含有904個(gè)課文文本文件,約2794445字。據(jù)此,本系統(tǒng)在設(shè)計(jì)上突出了以下幾個(gè)特點(diǎn):
(1)實(shí)現(xiàn)了良好的人機(jī)交互
系統(tǒng)在生語料的人工處理和熟語料的人工修正模塊中,通過友好的交互界面,實(shí)現(xiàn)了漢藏分詞、漢藏詞性標(biāo)注、漢藏句法分析和漢藏樹庫結(jié)果的人工修正等功能。
(2)加工深度到達(dá)詞、句、段級
在對生語料進(jìn)行加工的過程中,提取并保存了每個(gè)文件的段數(shù)、句數(shù)、詞數(shù)及其對象在數(shù)據(jù)結(jié)構(gòu)中的存取地址,可以方便地實(shí)現(xiàn)對任意文件、段、句、詞的檢索和提取。
漢藏平行語料庫系統(tǒng)功能結(jié)構(gòu)如圖1所示。
系統(tǒng)包括前臺應(yīng)用和后臺維護(hù)2個(gè)子平臺。應(yīng)用子平臺供最終用戶進(jìn)行語料檢索、統(tǒng)計(jì)、對比分析的使用,功能如下:
(1)語料檢索:檢索引擎根據(jù)檢索請求,輸出用戶需要的漢藏語料數(shù)據(jù)。
(2)語料對齊顯示:根據(jù)用戶的檢索請求,語料按成篇、段落、語句對齊等多種形式輸出給用戶。
漢藏句子級對齊如圖2所示。
圖1 漢藏雙語語料庫系統(tǒng)功能結(jié)構(gòu)
圖2 漢藏句子對齊
單擊漢語句子時(shí),會使其本身及與之相對齊的藏語句子的顏色加深并朗讀發(fā)聲,反之亦然。
(3)統(tǒng)計(jì)分析:系統(tǒng)分別對漢、藏語的各種項(xiàng)目進(jìn)行頻率統(tǒng)計(jì),并自動成為語料檢索的結(jié)果之一。
表1是任意選擇初級中學(xué)《漢語》課本第五冊,對其內(nèi)所有課文中各詞性類別、詞性出現(xiàn)次數(shù)和所占總字?jǐn)?shù)的百分比等情況作出的統(tǒng)計(jì):
表1 漢語的詞性類別、詞出現(xiàn)次數(shù)和百分比統(tǒng)計(jì)
(4)漢語朗讀:根據(jù)教學(xué)要求,對漢語語篇、段落、句子、詞語和字進(jìn)行朗讀或發(fā)音,為藏族學(xué)生普通話水平的提高提供幫助。
維護(hù)子平臺的功能是提供對語料的編輯和入庫操作。其功能如下:
·漢藏語料的錄入和編輯。如語料的錄入、修改及語料人工標(biāo)記的添加等
·漢藏語料中詞的切分和標(biāo)注
漢藏語料的分詞和標(biāo)注如圖3和圖4例示。
·語料句法分析和樹庫生成
例如句子:漢語“我們學(xué)習(xí)漢字”和與之對齊的藏語“NGA TSOS RGYA YIG SLOB,”的句法分析的樹型標(biāo)示如圖5和圖6。
圖3 藏語句子的分詞和標(biāo)注
圖4 漢語句子的分詞和標(biāo)注
·漢藏語料校對
漢藏平行語料庫系統(tǒng)分為語料庫文件和語料庫引擎(即語料庫索引程序)及其他應(yīng)用程序。本系統(tǒng)的總體框架如圖7所示。其中語料庫加工模塊對生語料或熟語料進(jìn)行詞語切分、詞性標(biāo)注和句法分析處理,得到存放在計(jì)算機(jī)磁盤中的庫文件。語料庫索引模塊則對庫文件中的語料信息,運(yùn)用特定的工具進(jìn)行分析處理,并生成索引文件,實(shí)現(xiàn)特定的功能。
圖5 漢語句子的句法分析
圖6 藏語句子的句法分析
圖7 漢藏平行語料庫系統(tǒng)
全部的漢語文教材內(nèi)容按冊分成18個(gè)類,系統(tǒng)將每個(gè)類作為一個(gè)單獨(dú)的庫文件存取,并可由語料庫索引程序根據(jù)用戶的選擇裝載、調(diào)用。每個(gè)庫文件由四個(gè)動態(tài)數(shù)組構(gòu)成,分別是文件數(shù)組、段信息數(shù)組、句信息數(shù)組和詞信息數(shù)組。每個(gè)數(shù)組元素為一個(gè)結(jié)構(gòu),具體定義如下所示:
由于漢語中95%的詞語都不超過4個(gè)字,教材中與漢語詞語對應(yīng)的藏語詞語基本上也是4個(gè)字長,為了減少存儲空間的占用,系統(tǒng)設(shè)定漢語詞條長度為8字節(jié),藏語詞條長度為28字節(jié)。若漢語詞條長度超過8字節(jié)或藏語詞條長度超過28字節(jié),則設(shè)一個(gè)指針指向LONGWORDINFO結(jié)構(gòu)。
在語料庫加工過程中,對熟語料文件,分析提取出其中的各個(gè)段、句、詞或者詞性標(biāo)記等信息,由這些信息計(jì)算出結(jié)構(gòu)各成員的值填入各數(shù)組中,對后繼的文件,同樣的信息也依次添加到數(shù)組中。對每篇文章的首段、每段的首句及每句的首詞或字,將其ID填入上一級對象相應(yīng)的成員中,實(shí)現(xiàn)上一級對下一級相應(yīng)對象的尋址,這樣就能夠存放文章的段、句結(jié)構(gòu)信息。通過詞對象的FileId,SenId成員,系統(tǒng)能夠方便地為詞語建立B+樹索引。
語料庫加工模塊的結(jié)構(gòu)如圖8所示。
詞語切分和詞性標(biāo)注是熟語料生成的基本步驟,本系統(tǒng)采用了基于N-最短路徑方法的漢藏詞語粗分模型實(shí)現(xiàn)生語料的切分和標(biāo)注。它綜合了最短路徑分詞方法與全切分分詞方法二者之長處,其基本思想是:
圖8 語料庫加工模塊
根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個(gè)詞對應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖,在起點(diǎn)到終點(diǎn)的所有路徑中,求出長度值按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等,下同)依次為第 1,第 2,...,第 i,...,第 N 的路徑集合作為相應(yīng)的粗分結(jié)果集。若兩條或兩條以上路徑長度相等,則它們的長度并列為第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號。最后粗分結(jié)果集合的大小應(yīng)該大于或等于N。在原有模型的基礎(chǔ)上,進(jìn)一步加入詞頻信息,建立統(tǒng)計(jì)模型,能夠使整個(gè)模型粗分結(jié)果的召回率有很大提高,模型的運(yùn)行效率也達(dá)到滿意的效果[3]。
數(shù)據(jù)結(jié)構(gòu)裝填和保存模塊實(shí)現(xiàn)了將切分標(biāo)注后的熟語料文本信息填入數(shù)組的功能,此外,還負(fù)責(zé)數(shù)組元素對象中各個(gè)成員的修改,數(shù)組元素的添加、刪除和數(shù)組的存取。
在熟語料的人工修正模塊和生語料的人工處理模塊中,通過交互界面提供的詞類選擇框、主題分類選擇框,可以很方便地實(shí)現(xiàn)句子的人工分詞、詞語的人工詞性標(biāo)注和文件的人工分類等功能。由于效率的要求,這兩個(gè)模塊一般利用不多。
語料庫索引模塊的結(jié)構(gòu)如圖9所示。
語料庫載入模塊根據(jù)用戶的選擇提取某一冊的庫文件,得到語料信息以供處理。指令分析模塊接收用戶發(fā)給交互界面的請求,發(fā)送指令調(diào)用相應(yīng)的功能模塊進(jìn)行運(yùn)作。
F1~F4功能模塊分別實(shí)現(xiàn)B+樹索引[4](一種改進(jìn)的B+樹索引)、詞表生成和語篇統(tǒng)計(jì)、分類主題詞提取和詞語搭配分析,獲得的結(jié)果由交互界面返回給用戶。
圖9 語料庫索引程序
交互界面接收用戶的請求,發(fā)送給指令分析模塊,并將處理結(jié)果返回給用戶,用戶對選定分類的庫文件的裝載請求也通過交互界面發(fā)送給語料庫載入模塊。此外,它還可將處理結(jié)果,如索引、主題詞集保存在計(jì)算機(jī)磁盤中。
為方便漢語教學(xué),本系統(tǒng)為便捷地使用語料庫信息提供了一些工具,并集中在“語料庫索引模塊”中。
系統(tǒng)地介紹了面向漢語教學(xué)漢藏平行語料庫平臺的基本功能、設(shè)計(jì)思想和實(shí)現(xiàn)方法。筆者實(shí)現(xiàn)了基于C/S模式的語料庫系統(tǒng),使用最短路徑分詞方法與全切分分詞方法二者之長處和動態(tài)索引樹技術(shù)實(shí)現(xiàn)對海量語料的各種操作。目前該語料庫已采集了含有904個(gè)課文文本文件,約2794445字的語料,并逐步投入到了面向藏族學(xué)生的漢語教學(xué)和漢藏語言對比的研究中。
[1] 楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:外語教育出版社,2002.
[2] 王長,勝劉群.雙語語料庫的檢索和管理[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(7):113-114.
[3] 李文翔,晏蒲柳,夏德麟.基于內(nèi)容主題的語料庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2004,21(10):149-151.
[4] 徐逸文,方鈺,陳閎中.一種處理B+樹重復(fù)鍵值的方法[J].計(jì)算機(jī)工程,2009,35(5):25-27.
[5] 哈斯.蒙古語語料庫語言資源管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2007,37(6):743-745.