亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向漢語教學(xué)的漢藏語料庫系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)*

2012-07-25 03:20:02安見才讓

微處理機(jī) 2012年2期

安見才讓

(青海民族大學(xué)計(jì)算機(jī)學(xué)院，西寧810007)

1 概述

語料庫由大量收集得來的書面語或口語構(gòu)成，使用計(jì)算機(jī)儲存并處理的用于語言學(xué)研究的文本庫。它為語言教學(xué)提供了自然出現(xiàn)的真實(shí)語料，為語言研究提供了科學(xué)的方法［1］。經(jīng)過20多年的發(fā)展，很多領(lǐng)域的語料庫已達(dá)到一定規(guī)模，相應(yīng)的語料庫日趨成熟，但藏區(qū)的漢語教學(xué)至今沒有一個(gè)可以應(yīng)用的漢藏語料庫。目前，國內(nèi)漢藏平行語料庫缺乏統(tǒng)一的標(biāo)準(zhǔn)，藏區(qū)的漢語教學(xué)工作仍采用傳統(tǒng)的面授模式，教師的知識儲備有限，知識得不到及時(shí)更新與總結(jié)，缺乏知識對比的參照標(biāo)準(zhǔn)和有效信息的搜索工具，而且檢索效率低下［2］。因此，文中建立了漢藏雙語語料庫平臺系統(tǒng)，立足于“藏區(qū)使用的小學(xué)、初中漢語文教材”，充分結(jié)合漢藏雙語的特點(diǎn)，應(yīng)用計(jì)算機(jī)技術(shù)，實(shí)現(xiàn)了對漢、藏語料的收集、篩分、統(tǒng)計(jì)、檢索、對齊、對比、發(fā)音、朗讀、顯示等功能，為藏區(qū)的漢語教學(xué)、漢藏語言的研究提供了一個(gè)高效、準(zhǔn)確、統(tǒng)一的教學(xué)平臺。

2 系統(tǒng)特點(diǎn)

九年義務(wù)教育六年制小學(xué)和三年制初級中學(xué)共17本《漢語》教科書(藏族地區(qū)使用)的內(nèi)容及與之對齊的藏語翻譯內(nèi)容是本系統(tǒng)的生語料。它含有904個(gè)課文文本文件，約2794445字。據(jù)此，本系統(tǒng)在設(shè)計(jì)上突出了以下幾個(gè)特點(diǎn):

(1)實(shí)現(xiàn)了良好的人機(jī)交互

系統(tǒng)在生語料的人工處理和熟語料的人工修正模塊中，通過友好的交互界面，實(shí)現(xiàn)了漢藏分詞、漢藏詞性標(biāo)注、漢藏句法分析和漢藏樹庫結(jié)果的人工修正等功能。

(2)加工深度到達(dá)詞、句、段級

在對生語料進(jìn)行加工的過程中，提取并保存了每個(gè)文件的段數(shù)、句數(shù)、詞數(shù)及其對象在數(shù)據(jù)結(jié)構(gòu)中的存取地址，可以方便地實(shí)現(xiàn)對任意文件、段、句、詞的檢索和提取。

2.1 漢藏雙語語料庫系統(tǒng)功能

漢藏平行語料庫系統(tǒng)功能結(jié)構(gòu)如圖1所示。

系統(tǒng)包括前臺應(yīng)用和后臺維護(hù)2個(gè)子平臺。應(yīng)用子平臺供最終用戶進(jìn)行語料檢索、統(tǒng)計(jì)、對比分析的使用，功能如下:

(1)語料檢索:檢索引擎根據(jù)檢索請求，輸出用戶需要的漢藏語料數(shù)據(jù)。

(2)語料對齊顯示:根據(jù)用戶的檢索請求，語料按成篇、段落、語句對齊等多種形式輸出給用戶。

漢藏句子級對齊如圖2所示。

圖1 漢藏雙語語料庫系統(tǒng)功能結(jié)構(gòu)

圖2 漢藏句子對齊

單擊漢語句子時(shí)，會使其本身及與之相對齊的藏語句子的顏色加深并朗讀發(fā)聲，反之亦然。

(3)統(tǒng)計(jì)分析:系統(tǒng)分別對漢、藏語的各種項(xiàng)目進(jìn)行頻率統(tǒng)計(jì)，并自動成為語料檢索的結(jié)果之一。

表1是任意選擇初級中學(xué)《漢語》課本第五冊，對其內(nèi)所有課文中各詞性類別、詞性出現(xiàn)次數(shù)和所占總字?jǐn)?shù)的百分比等情況作出的統(tǒng)計(jì):

表1 漢語的詞性類別、詞出現(xiàn)次數(shù)和百分比統(tǒng)計(jì)

(4)漢語朗讀:根據(jù)教學(xué)要求，對漢語語篇、段落、句子、詞語和字進(jìn)行朗讀或發(fā)音，為藏族學(xué)生普通話水平的提高提供幫助。

維護(hù)子平臺的功能是提供對語料的編輯和入庫操作。其功能如下:

·漢藏語料的錄入和編輯。如語料的錄入、修改及語料人工標(biāo)記的添加等

·漢藏語料中詞的切分和標(biāo)注

漢藏語料的分詞和標(biāo)注如圖3和圖4例示。

·語料句法分析和樹庫生成

例如句子:漢語“我們學(xué)習(xí)漢字”和與之對齊的藏語“NGA TSOS RGYA YIG SLOB，”的句法分析的樹型標(biāo)示如圖5和圖6。

圖3 藏語句子的分詞和標(biāo)注

圖4 漢語句子的分詞和標(biāo)注

·漢藏語料校對

漢藏平行語料庫系統(tǒng)分為語料庫文件和語料庫引擎(即語料庫索引程序)及其他應(yīng)用程序。本系統(tǒng)的總體框架如圖7所示。其中語料庫加工模塊對生語料或熟語料進(jìn)行詞語切分、詞性標(biāo)注和句法分析處理，得到存放在計(jì)算機(jī)磁盤中的庫文件。語料庫索引模塊則對庫文件中的語料信息，運(yùn)用特定的工具進(jìn)行分析處理，并生成索引文件，實(shí)現(xiàn)特定的功能。

圖5 漢語句子的句法分析

圖6 藏語句子的句法分析

圖7 漢藏平行語料庫系統(tǒng)

2.2 庫文件的數(shù)據(jù)結(jié)構(gòu)

全部的漢語文教材內(nèi)容按冊分成18個(gè)類，系統(tǒng)將每個(gè)類作為一個(gè)單獨(dú)的庫文件存取，并可由語料庫索引程序根據(jù)用戶的選擇裝載、調(diào)用。每個(gè)庫文件由四個(gè)動態(tài)數(shù)組構(gòu)成，分別是文件數(shù)組、段信息數(shù)組、句信息數(shù)組和詞信息數(shù)組。每個(gè)數(shù)組元素為一個(gè)結(jié)構(gòu)，具體定義如下所示:

由于漢語中95%的詞語都不超過4個(gè)字，教材中與漢語詞語對應(yīng)的藏語詞語基本上也是4個(gè)字長，為了減少存儲空間的占用，系統(tǒng)設(shè)定漢語詞條長度為8字節(jié)，藏語詞條長度為28字節(jié)。若漢語詞條長度超過8字節(jié)或藏語詞條長度超過28字節(jié)，則設(shè)一個(gè)指針指向LONGWORDINFO結(jié)構(gòu)。

在語料庫加工過程中，對熟語料文件，分析提取出其中的各個(gè)段、句、詞或者詞性標(biāo)記等信息，由這些信息計(jì)算出結(jié)構(gòu)各成員的值填入各數(shù)組中，對后繼的文件，同樣的信息也依次添加到數(shù)組中。對每篇文章的首段、每段的首句及每句的首詞或字，將其ID填入上一級對象相應(yīng)的成員中，實(shí)現(xiàn)上一級對下一級相應(yīng)對象的尋址，這樣就能夠存放文章的段、句結(jié)構(gòu)信息。通過詞對象的FileId，SenId成員，系統(tǒng)能夠方便地為詞語建立B+樹索引。

2.3 語料庫加工模塊

語料庫加工模塊的結(jié)構(gòu)如圖8所示。

詞語切分和詞性標(biāo)注是熟語料生成的基本步驟，本系統(tǒng)采用了基于N-最短路徑方法的漢藏詞語粗分模型實(shí)現(xiàn)生語料的切分和標(biāo)注。它綜合了最短路徑分詞方法與全切分分詞方法二者之長處，其基本思想是:

圖8 語料庫加工模塊

根據(jù)詞典，找出字串中所有可能的詞，構(gòu)造詞語切分有向無環(huán)圖。每個(gè)詞對應(yīng)圖中的一條有向邊，并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖，在起點(diǎn)到終點(diǎn)的所有路徑中，求出長度值按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等，下同)依次為第 1，第 2，...，第 i，...，第 N 的路徑集合作為相應(yīng)的粗分結(jié)果集。若兩條或兩條以上路徑長度相等，則它們的長度并列為第i，都要列入粗分結(jié)果集，而且不影響其他路徑的排列序號。最后粗分結(jié)果集合的大小應(yīng)該大于或等于N。在原有模型的基礎(chǔ)上，進(jìn)一步加入詞頻信息，建立統(tǒng)計(jì)模型，能夠使整個(gè)模型粗分結(jié)果的召回率有很大提高，模型的運(yùn)行效率也達(dá)到滿意的效果［3］。

數(shù)據(jù)結(jié)構(gòu)裝填和保存模塊實(shí)現(xiàn)了將切分標(biāo)注后的熟語料文本信息填入數(shù)組的功能，此外，還負(fù)責(zé)數(shù)組元素對象中各個(gè)成員的修改，數(shù)組元素的添加、刪除和數(shù)組的存取。

在熟語料的人工修正模塊和生語料的人工處理模塊中，通過交互界面提供的詞類選擇框、主題分類選擇框，可以很方便地實(shí)現(xiàn)句子的人工分詞、詞語的人工詞性標(biāo)注和文件的人工分類等功能。由于效率的要求，這兩個(gè)模塊一般利用不多。

2.4 語料庫索引模塊

語料庫索引模塊的結(jié)構(gòu)如圖9所示。

語料庫載入模塊根據(jù)用戶的選擇提取某一冊的庫文件，得到語料信息以供處理。指令分析模塊接收用戶發(fā)給交互界面的請求，發(fā)送指令調(diào)用相應(yīng)的功能模塊進(jìn)行運(yùn)作。

F1～F4功能模塊分別實(shí)現(xiàn)B+樹索引［4］(一種改進(jìn)的B+樹索引)、詞表生成和語篇統(tǒng)計(jì)、分類主題詞提取和詞語搭配分析，獲得的結(jié)果由交互界面返回給用戶。

圖9 語料庫索引程序

交互界面接收用戶的請求，發(fā)送給指令分析模塊，并將處理結(jié)果返回給用戶，用戶對選定分類的庫文件的裝載請求也通過交互界面發(fā)送給語料庫載入模塊。此外，它還可將處理結(jié)果，如索引、主題詞集保存在計(jì)算機(jī)磁盤中。

為方便漢語教學(xué)，本系統(tǒng)為便捷地使用語料庫信息提供了一些工具，并集中在“語料庫索引模塊”中。

3 結(jié)束語

系統(tǒng)地介紹了面向漢語教學(xué)漢藏平行語料庫平臺的基本功能、設(shè)計(jì)思想和實(shí)現(xiàn)方法。筆者實(shí)現(xiàn)了基于C/S模式的語料庫系統(tǒng)，使用最短路徑分詞方法與全切分分詞方法二者之長處和動態(tài)索引樹技術(shù)實(shí)現(xiàn)對海量語料的各種操作。目前該語料庫已采集了含有904個(gè)課文文本文件，約2794445字的語料，并逐步投入到了面向藏族學(xué)生的漢語教學(xué)和漢藏語言對比的研究中。

［1］楊惠中.語料庫語言學(xué)導(dǎo)論［M］.上海:外語教育出版社，2002.

［2］王長，勝劉群.雙語語料庫的檢索和管理［J］.計(jì)算機(jī)工程與應(yīng)用，2002，38(7):113-114.

［3］李文翔，晏蒲柳，夏德麟.基于內(nèi)容主題的語料庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［J］.計(jì)算機(jī)應(yīng)用研究，2004，21(10):149-151.

［4］徐逸文，方鈺，陳閎中.一種處理B+樹重復(fù)鍵值的方法［J］.計(jì)算機(jī)工程，2009，35(5):25-27.

［5］哈斯.蒙古語語料庫語言資源管理平臺的設(shè)計(jì)與實(shí)現(xiàn)［J］.內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版)，2007，37(6):743-745.