亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        央金藏文分詞系統

        2011-06-28 06:27:10史曉東盧亞軍
        中文信息學報 2011年4期
        關鍵詞:藏文分詞語料

        史曉東,盧亞軍

        (1. 廈門大學 人工智能研究所,福建 廈門 361005; 2. 西北民族大學 機器翻譯研究所, 甘肅 蘭州 730030)

        1 引言

        隨著少數民族語言(主要是藏、維、蒙)到漢語的機器翻譯研究逐漸進入人們的視野,相關的少數民族語言基礎語法分析工具也亟待完善。藏文分詞是藏語到其他語言的基礎性工具。雖然研究的時間也不算短(2002年陳玉忠[1]是較早的一篇研究),已經有至少10年的歷史,但是還沒有公開可用的工具。第一作者在研究漢語分詞方面有豐富的經驗,從2005年就開發(fā)的Segtag漢語分詞系統,雖然沒有發(fā)表相關的論文,但是在北京大學公開的1998年《人民日報》一個月的語料上的準確率約為98%。因此將其移植到藏文,并加以公開,是我們的一個想法。經過與第二作者密切合作,已經成功地開發(fā)出了藏文的分詞標注系統,在一個測試集上的準確率約為93%,取得了較為令人滿意的效果。本文描述該系統的基本算法,并對藏文所作的特殊改進。

        本文下面的內容如下: 首先綜述一下國內外的相關工作,然后介紹了央金藏文分詞系統的基本結構,然后再描述為了改進性能對藏文所作的特殊處理,最后得出結論,并指出了進一步的工作。

        由于第一作者一點也不懂藏文,因此本文對想開發(fā)一個未知語種(如蒙語、泰語、彝語等)的分詞系統的人,有一定的借鑒意義。

        2 相關工作

        陳玉忠[1]在2002年提出了基于格助詞和接續(xù)特征的藏文分詞算法。從此文中作者得出,其實藏文和日語類似,有很多格助詞,表示一定的句法語義功能。扎西加等[2]給出了藏文分詞的詞類劃分。Huidan Liu等[3]研究了藏文分詞中的數字識別問題。才智杰[4]描述了班智達藏文分詞系統的設計和實現。蘇峻峰[5]描述了一個基于HMM的藏文分詞模型。Yuan Sun等[6]在天之靈2009年也實現了一個基于格助詞和接續(xù)特征的分詞算法,并做了組塊切分研究。劉智文[7]做過一個基于CRF的藏文分詞系統。國內的藏文相關工作基本上集中在青海師大、西北民大、西藏大學等單位。

        與采用機器學習為主的漢語分詞相比,目前藏文分詞系統顯得落后一些。在漢語方面一般都采用HMM、ME、CRF等模型,很少采用相對原始的規(guī)則或最大匹配模型。

        作者也用過青海師大開發(fā)的國內最早的藏文分詞軟件班智達,但是該系統只支持班智達編碼。

        3 央金藏文分詞系統介紹

        HMM模型由于其簡單高效已經成為了分詞系統的基準模型,雖然ME或者CRF的準確率比HMM略高一些,但是其訓練卻相對復雜一些,而且當標注語料庫比較小的時候,并不見得有優(yōu)勢。所以我們便用HMM模型來做藏文分詞。另外,作者恰好早已經實現了一個基于HMM的漢語分詞系統Segtag,因此便直接移植過來。

        Segtag的結構非常簡單,分詞和標注一體化完成,其結構如圖1。

        圖1 Segtag分詞系統(其中詞典為央金系統所加)

        由于Segtag本身已經是基于Unicode的,所以對Unicode的藏文處理毫無困難,原始程序改動不到1%,主要是參照文獻[8]*實際上我們參考的主要規(guī)范是青海師范大學才讓加、吉太加、扎洛等起草的擬作為教育部標準的“信息處理用藏語詞類標記規(guī)范”。修改了詞性表,并增加了對藏語Unicode的未登錄詞識別。因為,與漢語相比,在0平面內,一個漢字只需雙字節(jié)表示碼位,藏文很多字(有些文章稱之為字丁[9],其實指一個可縱向疊加的書寫單位,我們仍然稱為字)是多個雙字節(jié)構成的序列。此外,專門針對藏文數字修改替換了原漢字數字識別,使之能處理藏文數字。移植后的系統由第二作者命名為央金藏文分詞系統。

        如果純粹用訓練語料來生成分詞詞典,由于訓練語料很小,得到的詞條僅有13 200余條,根本無法對藏文進行分詞。所以我們又合并了幾本藏文詞典。大約有9萬詞。簡單地把詞典中的詞條以頻率1加到訓練語料,從中訓練出分詞詞典,一共97 800余條。

        央金系統的性能如表1(此處2.7M指UTF16編碼的文件大小)。

        表1 央金分詞系統的性能

        這些訓練語料都是在央金系統的分詞結果的基礎上,由第二作者校對修正而滾雪球一樣得到。而初始種子語料來自于班智達分詞系統。

        另外,雖然Unicode目前已經是國際標準,國內仍然存在著部分班智達和同元編碼的文檔,我們集成了編碼識別和自動轉換功能,以方便用戶使用。

        南充市儀隴縣柑橘示范園區(qū)規(guī)劃采用“大園小鎮(zhèn)”模式,即鄉(xiāng)村旅游開發(fā)中所提出的一種創(chuàng)新休閑農業(yè)的模式。所謂“大園”就是有一定規(guī)?;蛘谝?guī)劃的大型園區(qū),而“小鎮(zhèn)”則是符合園區(qū)特色和整體風格,滿足園區(qū)旅游發(fā)展所需要的各種服務配套功能開發(fā)。在本項目中,小鎮(zhèn)指廟子梁中心場鎮(zhèn),結合柑橘食文化以及“三鄉(xiāng)文化”等元素,發(fā)展以客家文化為主題的特色農家樂;大園則以海升集團柑橘產業(yè)為園區(qū)基底,由休閑、教育、觀光、康養(yǎng)、文化體驗、電商物流等功能片區(qū)組成[4]。

        此外,我們還集成了鼠標藏漢詞典,以方便作者校對分詞結果。

        由于第一作者一點也不懂藏文,所以許多央金分詞系統的很多功能都是為了方便用戶能夠在系統內便于進行分詞校對而設。

        4 分詞系統的錯誤分析和改進

        4.1 分詞系統錯誤

        通過文件比較,對測試語料中的錯誤進行了分析。首先我們注意到,標注的準確率偏低。結果發(fā)現,訓練出詞典中的有些詞的不同詞性之間的頻率差異很大,如

        其中gj 和 gl都是格助詞,懷疑gj這個詞性是訓練語料中的標注錯誤而混進來的,因此在裝入詞典的時候做了一個簡單的處理: 如果某個詞的頻率低的詞性與該詞的頻率最高的詞性之頻率比小于閾值β(目前取1%),則舍棄該詞性。經過這樣處理以后,分詞的準確率沒有任何變化,而標注的準確率有所提高。

        簡單的分析表明: 分詞錯誤大部分是由于未登錄詞而造成的。而很多標注錯誤是因為訓練生成的詞典中根本沒有測試答案中的詞性造成的。其實這些錯誤大部分是訓練語料的不一致性造成的。

        舍棄低頻詞性后央金分詞系統的性能見表2。

        表2 舍棄低頻詞性以后央金分詞系統的性能

        4.2 漢語人名識別

        藏文新聞中經常出現人名。相對于地名等其他專名,人名是最豐富并且變化的。因此,分詞系統最好能自動識別人名。從來源分,人名基本上可以分為藏語人名、漢語人名、歐美人名等三大類。目前我們只考慮了漢語人名的自動識別。

        漢語人名翻譯成藏語,基本上都是采用音譯。也就是說,“王東”和“王棟”翻譯成藏語應該是一樣的。當然,不同的譯者可以選擇不同的藏文字來對同一個漢字(或同音漢字)進行譯音。目前我們已經收集了一個漢藏人名對照表TC(目前只有300條),我們可以把它改為藏音對照表(這里音指漢語拼音)。另外我們還有一個常用漢語人名表C,有20多萬條。此外還有一個海量的漢語語料庫。那么藏文中的漢語人名識別算法可簡單地描述如下:

        假設藏文的音節(jié)序列ABC,其中每個音節(jié)都是一個可能的漢字譯音A′B′C′,而且不是藏文單詞,P(A′B′C′)作為漢語人名的概率大于一定的閾值,那么可把ABC識別為一個藏文中的漢字人名譯音。

        人名識別和數字識別都在圖1的構造詞圖中進行,與其他處理無關。其實實現的時候就是和數字識別一樣加一個加權自動機即可。

        人名識別后的央金分詞系統的性能見表3。

        表3 人名識別后的央金分詞系統的性能

        盡管有所改進,但和漢語分詞相比差距不小,訓練語料庫太小可能是一個主要原因。

        5 結論和進一步的工作

        本文描述了一個基于HMM的藏文分詞系統。就我們和同類系統比較而言,該系統的分詞速度快,準確率也基本達到了可以使用的水平,目前已經用于我們的藏漢統計機器翻譯系統。

        下一步要做的主要工作是: 繼續(xù)擴大訓練語料規(guī)模;進行地名和機構名的自動識別;克服n元模型的局部性,處理長距離語義相關性。

        [1] 陳玉忠,李保利,俞士汶.藏文自動分詞系統的設計與實現[J].中文信息學報,2003,17(3): 15-20.

        [2] 扎西加,珠杰. 面向信息處理的藏文分詞規(guī)范研究[J].中文信息學報,2009,23(4): 113-117.

        [3] Haidian Liu. Tibetan Number Identification Based on Classification of Number Components in Tibetan Word Segmentation[C]//Proceedings of the Coling 2010: 719-724.

        [4] 才智杰. 班智達藏文自動分詞系統的設計與實現[J].青海師范大學民族師范學院學報,2010,12(2):75-77.

        [5] 蘇峻峰. 祁坤鈺,本太. 基于HMM 的藏語語料庫詞性自動標注研究[J]. 西北民族大學學報(自然科學版),2009,30(1): 42-45.

        [6] Yuan Sun et al. Design of a Tibetan Automatic Word Segmentation Scheme[C]//Proceedings of International Conference on Information Engineering and Computer Science, 2009: 1-6.

        [7] 劉智文. 藏漢統計機器翻譯研究[D]. 廈門大學碩士論文,2010.

        [8] 才讓加.藏語語料庫詞語分類體系及標記集研究[J].中文信息學報,2009,23(4):107-112.

        [9] 王維蘭,陳萬軍.藏文字丁、音節(jié)頻度及其信息熵[J].術語標準化與信息技術,2004,(2):27-31.

        猜你喜歡
        藏文分詞語料
        西藏大批珍貴藏文古籍實現“云閱讀”
        布達拉(2020年3期)2020-04-13 10:00:07
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        黑水城和額濟納出土藏文文獻簡介
        西夏學(2019年1期)2019-02-10 06:22:34
        基于語料調查的“連……都(也)……”出現的語義背景分析
        值得重視的分詞的特殊用法
        藏文音節(jié)字的頻次統計
        現代語境下的藏文報刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        國內外語用學實證研究比較:語料類型與收集方法
        18禁裸男晨勃露j毛免费观看| 成人大片免费在线观看视频| 不卡的av网站在线观看| 精品999日本久久久影院| 亚洲熟妇少妇69| 精品久久免费一区二区三区四区| 精品亚洲av乱码一区二区三区| 亚洲理论电影在线观看| 成人综合网亚洲伊人| 制服无码在线第一页| 亚洲精品一区二区三区在线观 | 国产精品女同二区五区九区| 内射白浆一区二区在线观看| 日本亚洲色大成网站www久久| 精品国产亚洲一区二区三区演员表| 黄页免费人成网址大全| 极品美女扒开粉嫩小泬图片| 三上悠亚久久精品| 亚洲欧美日韩精品香蕉| 美女免费观看一区二区三区| 日韩国产精品无码一区二区三区| 黑人巨大videos极度另类| 国产人妖赵恩静在线视频| 亚洲第一网站免费视频| 国产精品久久久久影院| 久久久综合九色合综国产| 在线观看一区二区三区视频| 色se在线中文字幕视频| 日本a级片免费网站观看| 亚洲处破女av日韩精品| 成年女人在线观看毛片| 久久人妻少妇嫩草av蜜桃| 亚洲av日韩aⅴ无码色老头| 欧美va免费精品高清在线| 日韩精品一区二区三区在线观看| 一本色道久久99一综合| 欧美色图中文字幕| 一区二区三区精品亚洲视频| 成人国产一区二区三区| 亚洲综合一区无码精品| 视频精品亚洲一区二区|