亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        班智達(dá)藏文標(biāo)注詞典設(shè)計

        2010-06-05 02:43:20才智杰才讓卓瑪
        中文信息學(xué)報 2010年5期

        才智杰, 才讓卓瑪

        (青海師范大學(xué) 藏文信息研究中心,青海 西寧 810008)

        1 引言

        大規(guī)模語料庫是除自然資源以外的重要資源,各國目前已把實現(xiàn)大規(guī)模真實文本的處理作為自然語言處理今后一個時期的戰(zhàn)略目標(biāo),從大規(guī)模的語料庫中提取、歸納、分析、概括出所需要的知識和信息。藏文和漢文都是字的序列,詞之間沒有間隔標(biāo)記,使得詞的界定缺乏自然標(biāo)準(zhǔn),這就需要分詞。分詞是理解自然語言的第一步,在此基礎(chǔ)上標(biāo)注詞性,分詞、標(biāo)注的語料可供劃分短語、抽取概念以及分析主題,以至自然語言理解,最終實現(xiàn)智能化[1]。

        近年來隨著藏文信息處理技術(shù)的不斷發(fā)展,研究人員已意識到藏文自動分詞標(biāo)注的重要性,在借鑒漢語分詞標(biāo)注研究已有成功經(jīng)驗的基礎(chǔ)上,藏文自動分詞標(biāo)注也取得了一些有價值的研究成果。目前藏文分詞標(biāo)注主要采用基于詞典的分詞標(biāo)注,基于詞典的分詞標(biāo)注是把分詞標(biāo)注所需的各種信息都以詞典的形式存儲,在整個分詞過程中都需要頻繁地訪問詞典以獲得詞語信息。因此詞典的設(shè)計和查詢是整個分詞標(biāo)注系統(tǒng)的關(guān)鍵?!栋嘀沁_(dá)藏文自動標(biāo)注系統(tǒng)》的研制為藏文輸入法研究、藏文電子詞典建設(shè)、藏文字詞頻統(tǒng)計、搜索引擎的設(shè)計和實現(xiàn)、機(jī)器翻譯系統(tǒng)的開發(fā)、網(wǎng)絡(luò)信息安全、藏文自動分析等方面的研究奠定了基礎(chǔ)。

        2 藏文自動標(biāo)注的過程

        《班智達(dá)藏文自動標(biāo)注系統(tǒng)》采用模塊化設(shè)計,由知識庫管理模塊、知識庫模塊、句子分塊模塊、塊分詞模塊、標(biāo)注模塊和校正模塊等六部分組成。

        自動標(biāo)注系統(tǒng)的總體設(shè)計思想是基于詞典的最大匹配算法。先將待切分文本分塊,然后按照一定的策略將待分析的字串與詞典中的詞條進(jìn)行匹配,若在詞典中找不到某個字串,則將字串縮小繼續(xù)查找,否則匹配成功,識別出一個詞,并加以標(biāo)注。藏文分詞標(biāo)注需要四步完成[2]:文本切分成句,句切分成塊,塊切分成詞,詞性標(biāo)注,其處理過程如圖1所示。

        圖1 分詞標(biāo)注流程

        3 詞典設(shè)計

        3.1 主詞典庫設(shè)計

        詞典庫是基于詞典的分詞標(biāo)注系統(tǒng)的核心,由于《班智達(dá)藏文自動標(biāo)注系統(tǒng)》采用基于詞典匹配的分詞方法,因而詞典庫設(shè)計的合理性直接影響其性能。通過對85萬字節(jié)原始藏語語料的統(tǒng)計及切分實驗,班智達(dá)藏文自動標(biāo)注詞典庫共收錄了95 970條詞,詞條分布見表1。

        表1 班智達(dá)藏文自動標(biāo)注詞典詞條分布統(tǒng)計表

        由表1可以看出班智達(dá)藏文分詞標(biāo)注詞典庫中長度最小的是1個字符,長度最大的達(dá)40個字符,詞條基本集中在1~20個字符之間,20個字符以上的詞條共467條,約占總詞條數(shù)的0.49%,隨字符數(shù)的增加詞條數(shù)遞減。通過在85萬字節(jié)藏語語料統(tǒng)計,文本中出現(xiàn)的詞絕大部分是3~13個字符(在詞典庫中共有87 672條,占總詞條的91.4%)構(gòu)成的詞,少部分由1、2、14~20個字符(在詞典庫中共有7 831條,占總詞條的8.11%)構(gòu)成的詞,20個以上字符組成的詞出現(xiàn)的頻率很低。假若按常規(guī)模式建立詞典庫,一方面由于詞典庫規(guī)模太大而增加模式匹配次數(shù),分詞速度將受到影響;另一方面,由于詞間字符數(shù)懸浮太大而出現(xiàn)數(shù)據(jù)冗余再現(xiàn),浪費系統(tǒng)資源。因此,為了減少查詞典的次數(shù)和計算量,提高藏文分詞標(biāo)注的速度,班智達(dá)藏文自動標(biāo)注系統(tǒng)在建立詞典庫時按詞條字符數(shù)分成高頻用庫、常規(guī)庫和稀疏庫等三種,并針對“最大匹配算法”的實際需要,設(shè)計了藏文分詞的“最大匹配索引法”。

        整個詞庫采用線性表組織,并通過分塊和索引的方法來提高詞庫的檢索速度,以減少進(jìn)行匹配的詞條數(shù)。首先對詞條按字符數(shù)分塊,字符數(shù)相同的詞條放到同一組,并組內(nèi)排序。一級索引加在各個分組上,一級索引記錄組成塊的字符數(shù)length和該項塊的首地址head1,再根據(jù)下一分組塊的首地址確定該分組的終止地址,組首地址可通過哈希函數(shù)f(n)=(n-1)×30+1確定。二級索引是加在一級索引內(nèi)部,記錄詞條的字符數(shù)length、首字符WH和length個字符且首字符為WH組成的詞在庫中首地址,在同一組內(nèi)部由于有很多的詞條,二級索引是按詞的首字符建立,它加在以不同字符開頭的詞條組中,這樣通過二級索引可以進(jìn)一步縮小查找范圍。使用這種結(jié)構(gòu)存儲庫,不但可以提高查詢速度,同時解決了由于藏語詞條間字符數(shù)懸浮太大而出現(xiàn)的數(shù)據(jù)冗余現(xiàn)象。

        在藏語詞語標(biāo)注分類體系的構(gòu)建上,根據(jù)藏語語料庫自動切分和標(biāo)注的實際需要,采用先分虛實詞,再確定大類,在大類的基礎(chǔ)上分出小類,再分出不同深度的子類。大類類劃分為21個一級類,60個二級類,二級類是在確定了基本屬性的基礎(chǔ)上對一級類的分解,也是對詞類信息的進(jìn)一步豐富。依據(jù)國際通常做法,標(biāo)記代碼主要采用英文術(shù)語中的字母。例如,“名詞”,采用英文術(shù)語“noun”的首字母“n”作為標(biāo)記代碼;“數(shù)詞”,采用英文術(shù)語“numeral”的第三個字母“m”作為標(biāo)記代碼。藏語獨有的或使用英文術(shù)語字母不便的,依據(jù)國內(nèi)通常做法,標(biāo)記代碼采用漢語拼音字母。如,“格助詞”采用漢字“格”漢語拼音的首字母“g”作為標(biāo)記代碼;“狀態(tài)詞”采用漢字“狀”漢語拼音的首字母“z”作為標(biāo)記代碼。庫結(jié)構(gòu)描述如下:

        Typedefine struct index1

        {int length;//描述組成詞的字符數(shù)

        int head1;//描述length個字符組成的詞在庫中首地址

        }ID1;

        Typedefine struct index2

        { int length;//描述組成詞的字符數(shù)

        string[] WH;//描述詞的首字符

        int head2;//描述length個字符且首字符為WH組成的詞在庫中首地址

        }ID2;

        Typedefine struct data

        {sting[] Word;//存儲詞

        Char G1;//存儲一級詞性

        Char G2;//存儲二級詞性

        }DT;

        庫結(jié)構(gòu)中部分內(nèi)容的索引表如圖2所示。

        圖2 索引表結(jié)構(gòu)示意圖

        3.2 臨界庫設(shè)計

        例如對下面藏文文本直接利用最大匹配算法其時間復(fù)雜度為35!≈1.03×1040,而先用特殊格助詞分塊然后再切分其時間復(fù)雜度為3!+2!+9!+16!+11!≈2.09×1013,有效地提高了切分速度。

        3.3 臨時庫設(shè)計

        未登錄詞的識別是分詞技術(shù)的難點[3-4],基于詞典的模式匹配分詞標(biāo)注系統(tǒng)而言未登錄詞的識別就更為重要。為解決未登錄詞的識別問題,班智達(dá)藏文自動標(biāo)注系統(tǒng)中建立臨時庫后采用智能和人工兩種方法識別未登錄詞。智能識別法:對無法分詞的字符串,統(tǒng)計這個子串在整篇文章中出現(xiàn)的頻率,若頻率較高則將此視為一新詞,把該詞自動添加到臨時庫,這種將詞庫與詞頻統(tǒng)計相結(jié)合的方法可提高未登錄詞的識別率,通過實驗用這種方法能夠識別85%以上的未登錄詞;人工識別法:人工閱讀文本時若發(fā)現(xiàn)某未登錄詞,則選擇該詞利用添加功能把詞添加到臨時庫。通過知識庫管理模塊把臨時庫中新抽取出的詞條添加到主詞典庫,這樣在實際應(yīng)用中,可不斷擴(kuò)充系統(tǒng)的詞庫,提高信息的查全率。

        4 詞庫索引查詢算法

        4.1 索引查詢算法

        索引查詢算法是索引搜索策略的形式化描述和具體實現(xiàn),由以上分詞標(biāo)注庫結(jié)構(gòu)描述可知,索引查詢算法的主要特點是通過建立二級索引減少查詢詞庫的次數(shù),從而提高分詞標(biāo)注系統(tǒng)的性能[5]。具體算法如下:

        1) 按照“最大匹配切分算法”從文本開頭取出一個最大待查字串;

        2) 求出該字串的長度,并根據(jù)哈希函數(shù)f(n)=(n-1)×30+1確定ID2的首地址和終地址;

        3) 在ID2的首地址到終地址間利用折半查找算法查找字串中的首字符,根據(jù)head2字段確定DT中的首地址和終地址;

        4) 在DT的首地址到終地址間利用折半查找算法查找字串。若字串在詞典庫存在,則分詞并加以標(biāo)注,否則縮小字串并轉(zhuǎn)至2)。

        4.2 索引查詢過程舉例

        下面結(jié)合3.1和4.1給出的結(jié)構(gòu)和算法,通過一個分詞標(biāo)注實例來介紹分詞標(biāo)注詞典庫中索引查找的具體實現(xiàn)過程。

        5 結(jié)束語

        藏文自動分詞標(biāo)注的研究,將推動機(jī)器翻譯、語音合成、文字識別技術(shù)的發(fā)展。隨著歧義性研究的進(jìn)展,還可進(jìn)一步提高分詞準(zhǔn)確率。

        [1] 陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的書面藏文分詞方案[J].語言文字應(yīng)用,2003,(1):75-82.

        [2] 才智杰.藏文自動切分系統(tǒng)中緊縮詞的識別[J].中文信息學(xué)報,2009,23(1):35-37,43.

        [3] 孫茂松,黃昌寧,等.中文姓名的自動辨識[J].中文信息學(xué)報,1995,9(2):16-27.

        [4] 孫茂松,鄒嘉彥,等.漢語自動分詞研究評述[J].當(dāng)代語言學(xué),2001,(1):22-32.

        [5] 李慶虎,陳玉健,孫家廣.一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J].中文信息學(xué)報,2003,17(4):13-18.

        [6] 陳玉忠,李保利,俞士汶,等.藏文自動分詞系統(tǒng)的設(shè)計與實現(xiàn)[J].中文信息學(xué)報,2003,17(3):15-20.

        [7] 陳玉忠,俞士汶.藏文信息處理的研究現(xiàn)狀與展望[J].中國藏學(xué),2003,(4):97-107.

        欧美一级视频在线| 国产高清av首播原创麻豆| 久久精品人人做人人爽电影蜜月| 美国黄色片一区二区三区| 性一交一乱一乱一视频亚洲熟妇| 亚洲美女毛片在线视频| 日韩中文字幕免费视频| 最新国产一区二区精品久久| 国产女主播免费在线观看| 精品一区二区三区蜜桃麻豆| 亚洲春色在线视频| 9999精品视频| 俺来也三区四区高清视频在线观看| 精品福利一区二区三区蜜桃 | 国产精品亚洲片夜色在线| 精品色老头老太国产精品| 精品无码一区二区三区的天堂| 国产在线视频一区二区三区| 麻豆密入视频在线观看| 日本免费播放一区二区| 亚洲无线一二三四区手机| 亚洲国产区男人本色| 精品视频在线观看一区二区有| 日韩人妻中文字幕专区| 精品久久久无码中字| 国产日韩A∨无码免费播放| 成人性生交大片免费看激情玛丽莎 | 日韩视频在线观看| 亚洲 高清 成人 动漫| 国产亚洲无码1024| 国产日产一区二区三区四区五区| 欧美性猛交xxxx富婆| 综合色天天久久| 亚洲日本中文字幕乱码| 亚洲国产美女精品久久久久∴| 亚洲欧洲av综合色无码| 三级在线看中文字幕完整版| 精品综合久久久久久99| 日本视频在线观看一区二区| 精品国产拍国产天天人| 亚洲中文欧美日韩在线人|