亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向漢語教學(xué)的漢藏語料庫系統(tǒng)設(shè)計(jì)和實(shí)現(xiàn)*

        2012-07-25 03:20:02安見才讓
        微處理機(jī) 2012年2期
        關(guān)鍵詞:漢藏藏語分詞

        安見才讓

        (青海民族大學(xué)計(jì)算機(jī)學(xué)院,西寧810007)

        1 概述

        語料庫由大量收集得來的書面語或口語構(gòu)成,使用計(jì)算機(jī)儲存并處理的用于語言學(xué)研究的文本庫。它為語言教學(xué)提供了自然出現(xiàn)的真實(shí)語料,為語言研究提供了科學(xué)的方法[1]。經(jīng)過20多年的發(fā)展,很多領(lǐng)域的語料庫已達(dá)到一定規(guī)模,相應(yīng)的語料庫日趨成熟,但藏區(qū)的漢語教學(xué)至今沒有一個(gè)可以應(yīng)用的漢藏語料庫。目前,國內(nèi)漢藏平行語料庫缺乏統(tǒng)一的標(biāo)準(zhǔn),藏區(qū)的漢語教學(xué)工作仍采用傳統(tǒng)的面授模式,教師的知識儲備有限,知識得不到及時(shí)更新與總結(jié),缺乏知識對比的參照標(biāo)準(zhǔn)和有效信息的搜索工具,而且檢索效率低下[2]。因此,文中建立了漢藏雙語語料庫平臺系統(tǒng),立足于“藏區(qū)使用的小學(xué)、初中漢語文教材”,充分結(jié)合漢藏雙語的特點(diǎn),應(yīng)用計(jì)算機(jī)技術(shù),實(shí)現(xiàn)了對漢、藏語料的收集、篩分、統(tǒng)計(jì)、檢索、對齊、對比、發(fā)音、朗讀、顯示等功能,為藏區(qū)的漢語教學(xué)、漢藏語言的研究提供了一個(gè)高效、準(zhǔn)確、統(tǒng)一的教學(xué)平臺。

        2 系統(tǒng)特點(diǎn)

        九年義務(wù)教育六年制小學(xué)和三年制初級中學(xué)共17本《漢語》教科書(藏族地區(qū)使用)的內(nèi)容及與之對齊的藏語翻譯內(nèi)容是本系統(tǒng)的生語料。它含有904個(gè)課文文本文件,約2794445字。據(jù)此,本系統(tǒng)在設(shè)計(jì)上突出了以下幾個(gè)特點(diǎn):

        (1)實(shí)現(xiàn)了良好的人機(jī)交互

        系統(tǒng)在生語料的人工處理和熟語料的人工修正模塊中,通過友好的交互界面,實(shí)現(xiàn)了漢藏分詞、漢藏詞性標(biāo)注、漢藏句法分析和漢藏樹庫結(jié)果的人工修正等功能。

        (2)加工深度到達(dá)詞、句、段級

        在對生語料進(jìn)行加工的過程中,提取并保存了每個(gè)文件的段數(shù)、句數(shù)、詞數(shù)及其對象在數(shù)據(jù)結(jié)構(gòu)中的存取地址,可以方便地實(shí)現(xiàn)對任意文件、段、句、詞的檢索和提取。

        2.1 漢藏雙語語料庫系統(tǒng)功能

        漢藏平行語料庫系統(tǒng)功能結(jié)構(gòu)如圖1所示。

        系統(tǒng)包括前臺應(yīng)用和后臺維護(hù)2個(gè)子平臺。應(yīng)用子平臺供最終用戶進(jìn)行語料檢索、統(tǒng)計(jì)、對比分析的使用,功能如下:

        (1)語料檢索:檢索引擎根據(jù)檢索請求,輸出用戶需要的漢藏語料數(shù)據(jù)。

        (2)語料對齊顯示:根據(jù)用戶的檢索請求,語料按成篇、段落、語句對齊等多種形式輸出給用戶。

        漢藏句子級對齊如圖2所示。

        圖1 漢藏雙語語料庫系統(tǒng)功能結(jié)構(gòu)

        圖2 漢藏句子對齊

        單擊漢語句子時(shí),會使其本身及與之相對齊的藏語句子的顏色加深并朗讀發(fā)聲,反之亦然。

        (3)統(tǒng)計(jì)分析:系統(tǒng)分別對漢、藏語的各種項(xiàng)目進(jìn)行頻率統(tǒng)計(jì),并自動成為語料檢索的結(jié)果之一。

        表1是任意選擇初級中學(xué)《漢語》課本第五冊,對其內(nèi)所有課文中各詞性類別、詞性出現(xiàn)次數(shù)和所占總字?jǐn)?shù)的百分比等情況作出的統(tǒng)計(jì):

        表1 漢語的詞性類別、詞出現(xiàn)次數(shù)和百分比統(tǒng)計(jì)

        (4)漢語朗讀:根據(jù)教學(xué)要求,對漢語語篇、段落、句子、詞語和字進(jìn)行朗讀或發(fā)音,為藏族學(xué)生普通話水平的提高提供幫助。

        維護(hù)子平臺的功能是提供對語料的編輯和入庫操作。其功能如下:

        ·漢藏語料的錄入和編輯。如語料的錄入、修改及語料人工標(biāo)記的添加等

        ·漢藏語料中詞的切分和標(biāo)注

        漢藏語料的分詞和標(biāo)注如圖3和圖4例示。

        ·語料句法分析和樹庫生成

        例如句子:漢語“我們學(xué)習(xí)漢字”和與之對齊的藏語“NGA TSOS RGYA YIG SLOB,”的句法分析的樹型標(biāo)示如圖5和圖6。

        圖3 藏語句子的分詞和標(biāo)注

        圖4 漢語句子的分詞和標(biāo)注

        ·漢藏語料校對

        漢藏平行語料庫系統(tǒng)分為語料庫文件和語料庫引擎(即語料庫索引程序)及其他應(yīng)用程序。本系統(tǒng)的總體框架如圖7所示。其中語料庫加工模塊對生語料或熟語料進(jìn)行詞語切分、詞性標(biāo)注和句法分析處理,得到存放在計(jì)算機(jī)磁盤中的庫文件。語料庫索引模塊則對庫文件中的語料信息,運(yùn)用特定的工具進(jìn)行分析處理,并生成索引文件,實(shí)現(xiàn)特定的功能。

        圖5 漢語句子的句法分析

        圖6 藏語句子的句法分析

        圖7 漢藏平行語料庫系統(tǒng)

        2.2 庫文件的數(shù)據(jù)結(jié)構(gòu)

        全部的漢語文教材內(nèi)容按冊分成18個(gè)類,系統(tǒng)將每個(gè)類作為一個(gè)單獨(dú)的庫文件存取,并可由語料庫索引程序根據(jù)用戶的選擇裝載、調(diào)用。每個(gè)庫文件由四個(gè)動態(tài)數(shù)組構(gòu)成,分別是文件數(shù)組、段信息數(shù)組、句信息數(shù)組和詞信息數(shù)組。每個(gè)數(shù)組元素為一個(gè)結(jié)構(gòu),具體定義如下所示:

        由于漢語中95%的詞語都不超過4個(gè)字,教材中與漢語詞語對應(yīng)的藏語詞語基本上也是4個(gè)字長,為了減少存儲空間的占用,系統(tǒng)設(shè)定漢語詞條長度為8字節(jié),藏語詞條長度為28字節(jié)。若漢語詞條長度超過8字節(jié)或藏語詞條長度超過28字節(jié),則設(shè)一個(gè)指針指向LONGWORDINFO結(jié)構(gòu)。

        在語料庫加工過程中,對熟語料文件,分析提取出其中的各個(gè)段、句、詞或者詞性標(biāo)記等信息,由這些信息計(jì)算出結(jié)構(gòu)各成員的值填入各數(shù)組中,對后繼的文件,同樣的信息也依次添加到數(shù)組中。對每篇文章的首段、每段的首句及每句的首詞或字,將其ID填入上一級對象相應(yīng)的成員中,實(shí)現(xiàn)上一級對下一級相應(yīng)對象的尋址,這樣就能夠存放文章的段、句結(jié)構(gòu)信息。通過詞對象的FileId,SenId成員,系統(tǒng)能夠方便地為詞語建立B+樹索引。

        2.3 語料庫加工模塊

        語料庫加工模塊的結(jié)構(gòu)如圖8所示。

        詞語切分和詞性標(biāo)注是熟語料生成的基本步驟,本系統(tǒng)采用了基于N-最短路徑方法的漢藏詞語粗分模型實(shí)現(xiàn)生語料的切分和標(biāo)注。它綜合了最短路徑分詞方法與全切分分詞方法二者之長處,其基本思想是:

        圖8 語料庫加工模塊

        根據(jù)詞典,找出字串中所有可能的詞,構(gòu)造詞語切分有向無環(huán)圖。每個(gè)詞對應(yīng)圖中的一條有向邊,并賦給相應(yīng)的邊長(權(quán)值)。然后針對該切分圖,在起點(diǎn)到終點(diǎn)的所有路徑中,求出長度值按嚴(yán)格升序排列(任何兩個(gè)不同位置上的值一定不等,下同)依次為第 1,第 2,...,第 i,...,第 N 的路徑集合作為相應(yīng)的粗分結(jié)果集。若兩條或兩條以上路徑長度相等,則它們的長度并列為第i,都要列入粗分結(jié)果集,而且不影響其他路徑的排列序號。最后粗分結(jié)果集合的大小應(yīng)該大于或等于N。在原有模型的基礎(chǔ)上,進(jìn)一步加入詞頻信息,建立統(tǒng)計(jì)模型,能夠使整個(gè)模型粗分結(jié)果的召回率有很大提高,模型的運(yùn)行效率也達(dá)到滿意的效果[3]。

        數(shù)據(jù)結(jié)構(gòu)裝填和保存模塊實(shí)現(xiàn)了將切分標(biāo)注后的熟語料文本信息填入數(shù)組的功能,此外,還負(fù)責(zé)數(shù)組元素對象中各個(gè)成員的修改,數(shù)組元素的添加、刪除和數(shù)組的存取。

        在熟語料的人工修正模塊和生語料的人工處理模塊中,通過交互界面提供的詞類選擇框、主題分類選擇框,可以很方便地實(shí)現(xiàn)句子的人工分詞、詞語的人工詞性標(biāo)注和文件的人工分類等功能。由于效率的要求,這兩個(gè)模塊一般利用不多。

        2.4 語料庫索引模塊

        語料庫索引模塊的結(jié)構(gòu)如圖9所示。

        語料庫載入模塊根據(jù)用戶的選擇提取某一冊的庫文件,得到語料信息以供處理。指令分析模塊接收用戶發(fā)給交互界面的請求,發(fā)送指令調(diào)用相應(yīng)的功能模塊進(jìn)行運(yùn)作。

        F1~F4功能模塊分別實(shí)現(xiàn)B+樹索引[4](一種改進(jìn)的B+樹索引)、詞表生成和語篇統(tǒng)計(jì)、分類主題詞提取和詞語搭配分析,獲得的結(jié)果由交互界面返回給用戶。

        圖9 語料庫索引程序

        交互界面接收用戶的請求,發(fā)送給指令分析模塊,并將處理結(jié)果返回給用戶,用戶對選定分類的庫文件的裝載請求也通過交互界面發(fā)送給語料庫載入模塊。此外,它還可將處理結(jié)果,如索引、主題詞集保存在計(jì)算機(jī)磁盤中。

        為方便漢語教學(xué),本系統(tǒng)為便捷地使用語料庫信息提供了一些工具,并集中在“語料庫索引模塊”中。

        3 結(jié)束語

        系統(tǒng)地介紹了面向漢語教學(xué)漢藏平行語料庫平臺的基本功能、設(shè)計(jì)思想和實(shí)現(xiàn)方法。筆者實(shí)現(xiàn)了基于C/S模式的語料庫系統(tǒng),使用最短路徑分詞方法與全切分分詞方法二者之長處和動態(tài)索引樹技術(shù)實(shí)現(xiàn)對海量語料的各種操作。目前該語料庫已采集了含有904個(gè)課文文本文件,約2794445字的語料,并逐步投入到了面向藏族學(xué)生的漢語教學(xué)和漢藏語言對比的研究中。

        [1] 楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:外語教育出版社,2002.

        [2] 王長,勝劉群.雙語語料庫的檢索和管理[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(7):113-114.

        [3] 李文翔,晏蒲柳,夏德麟.基于內(nèi)容主題的語料庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2004,21(10):149-151.

        [4] 徐逸文,方鈺,陳閎中.一種處理B+樹重復(fù)鍵值的方法[J].計(jì)算機(jī)工程,2009,35(5):25-27.

        [5] 哈斯.蒙古語語料庫語言資源管理平臺的設(shè)計(jì)與實(shí)現(xiàn)[J].內(nèi)蒙古師范大學(xué)學(xué)報(bào)(自然科學(xué)漢文版),2007,37(6):743-745.

        猜你喜歡
        漢藏藏語分詞
        淺談藏語中的禮儀語
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        漢藏語及其音樂
        結(jié)巴分詞在詞云中的應(yīng)用
        藏語拉達(dá)克話的幾個(gè)語音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        2《步輦圖》:初唐漢藏關(guān)系圖錄
        值得重視的分詞的特殊用法
        藏語地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        漢藏姐妹一家親
        民族大家庭(2016年3期)2016-03-20 14:52:24
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        古代漢藏文化交流研究成果(1979-2011)述評
        日本视频一区二区三区一| 国产成人美女AV| 日韩无码尤物视频| 中文字幕色婷婷在线视频| 黄片视频大全在线免费播放| 国产av久久久久精东av| 欧美人和黑人牲交网站上线| 久久精品国产亚洲av电影| 日韩精品首页在线观看| 午夜免费观看一区二区三区| 日本三级片在线观看| 国产乱码精品一区二区三区四川人| 人人做人人妻人人精| 熟女少妇av免费观看| 熟女一区二区国产精品| 四虎成人精品在永久免费| 精品久久欧美熟妇www| 男人j进女人p免费视频| 一区二区三区岛国av毛片| 夜夜高潮夜夜爽免费观看| 久久99国产精品久久99| 久久久无码中文字幕久...| 国产成人精品麻豆| 亚洲综合色视频在线免费观看| 日韩亚洲无吗av一区二区| 精品久久久久久无码人妻蜜桃| 亚洲av永久无码一区| 亚洲日本VA午夜在线电影| 男人天堂亚洲一区二区| 美女网站免费观看视频| 曝光无码有码视频专区| 色系免费一区二区三区| 国产自拍在线视频观看| 水蜜桃在线观看一区二区 | 精品一区2区3区4区| 人人人妻人人人妻人人人| 免费中文熟妇在线影片| 国产精品视频免费的| av免费在线播放一区二区 | 中文字幕人妻熟女人妻| 久久乐国产精品亚洲综合|