亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

班智達(dá)藏文標(biāo)注詞典設(shè)計

2010-06-05 02:43:20才智杰才讓卓瑪

中文信息學(xué)報 2010年5期

才智杰, 才讓卓瑪

(青海師范大學(xué) 藏文信息研究中心，青海西寧 810008)

1 引言

大規(guī)模語料庫是除自然資源以外的重要資源，各國目前已把實現(xiàn)大規(guī)模真實文本的處理作為自然語言處理今后一個時期的戰(zhàn)略目標(biāo)，從大規(guī)模的語料庫中提取、歸納、分析、概括出所需要的知識和信息。藏文和漢文都是字的序列，詞之間沒有間隔標(biāo)記，使得詞的界定缺乏自然標(biāo)準(zhǔn)，這就需要分詞。分詞是理解自然語言的第一步，在此基礎(chǔ)上標(biāo)注詞性，分詞、標(biāo)注的語料可供劃分短語、抽取概念以及分析主題，以至自然語言理解，最終實現(xiàn)智能化[1]。

近年來隨著藏文信息處理技術(shù)的不斷發(fā)展，研究人員已意識到藏文自動分詞標(biāo)注的重要性，在借鑒漢語分詞標(biāo)注研究已有成功經(jīng)驗的基礎(chǔ)上，藏文自動分詞標(biāo)注也取得了一些有價值的研究成果。目前藏文分詞標(biāo)注主要采用基于詞典的分詞標(biāo)注，基于詞典的分詞標(biāo)注是把分詞標(biāo)注所需的各種信息都以詞典的形式存儲，在整個分詞過程中都需要頻繁地訪問詞典以獲得詞語信息。因此詞典的設(shè)計和查詢是整個分詞標(biāo)注系統(tǒng)的關(guān)鍵?！栋嘀沁_(dá)藏文自動標(biāo)注系統(tǒng)》的研制為藏文輸入法研究、藏文電子詞典建設(shè)、藏文字詞頻統(tǒng)計、搜索引擎的設(shè)計和實現(xiàn)、機(jī)器翻譯系統(tǒng)的開發(fā)、網(wǎng)絡(luò)信息安全、藏文自動分析等方面的研究奠定了基礎(chǔ)。

2 藏文自動標(biāo)注的過程

《班智達(dá)藏文自動標(biāo)注系統(tǒng)》采用模塊化設(shè)計，由知識庫管理模塊、知識庫模塊、句子分塊模塊、塊分詞模塊、標(biāo)注模塊和校正模塊等六部分組成。

自動標(biāo)注系統(tǒng)的總體設(shè)計思想是基于詞典的最大匹配算法。先將待切分文本分塊，然后按照一定的策略將待分析的字串與詞典中的詞條進(jìn)行匹配，若在詞典中找不到某個字串，則將字串縮小繼續(xù)查找，否則匹配成功，識別出一個詞，并加以標(biāo)注。藏文分詞標(biāo)注需要四步完成[2]：文本切分成句，句切分成塊，塊切分成詞，詞性標(biāo)注，其處理過程如圖1所示。

圖1 分詞標(biāo)注流程

3 詞典設(shè)計

3.1 主詞典庫設(shè)計

詞典庫是基于詞典的分詞標(biāo)注系統(tǒng)的核心，由于《班智達(dá)藏文自動標(biāo)注系統(tǒng)》采用基于詞典匹配的分詞方法，因而詞典庫設(shè)計的合理性直接影響其性能。通過對85萬字節(jié)原始藏語語料的統(tǒng)計及切分實驗，班智達(dá)藏文自動標(biāo)注詞典庫共收錄了95 970條詞，詞條分布見表1。

表1 班智達(dá)藏文自動標(biāo)注詞典詞條分布統(tǒng)計表

由表1可以看出班智達(dá)藏文分詞標(biāo)注詞典庫中長度最小的是1個字符，長度最大的達(dá)40個字符，詞條基本集中在1～20個字符之間，20個字符以上的詞條共467條，約占總詞條數(shù)的0.49%，隨字符數(shù)的增加詞條數(shù)遞減。通過在85萬字節(jié)藏語語料統(tǒng)計，文本中出現(xiàn)的詞絕大部分是3～13個字符(在詞典庫中共有87 672條，占總詞條的91.4%)構(gòu)成的詞，少部分由1、2、14～20個字符(在詞典庫中共有7 831條，占總詞條的8.11%)構(gòu)成的詞，20個以上字符組成的詞出現(xiàn)的頻率很低。假若按常規(guī)模式建立詞典庫，一方面由于詞典庫規(guī)模太大而增加模式匹配次數(shù)，分詞速度將受到影響；另一方面，由于詞間字符數(shù)懸浮太大而出現(xiàn)數(shù)據(jù)冗余再現(xiàn)，浪費系統(tǒng)資源。因此，為了減少查詞典的次數(shù)和計算量，提高藏文分詞標(biāo)注的速度，班智達(dá)藏文自動標(biāo)注系統(tǒng)在建立詞典庫時按詞條字符數(shù)分成高頻用庫、常規(guī)庫和稀疏庫等三種，并針對“最大匹配算法”的實際需要，設(shè)計了藏文分詞的“最大匹配索引法”。

整個詞庫采用線性表組織，并通過分塊和索引的方法來提高詞庫的檢索速度，以減少進(jìn)行匹配的詞條數(shù)。首先對詞條按字符數(shù)分塊，字符數(shù)相同的詞條放到同一組，并組內(nèi)排序。一級索引加在各個分組上，一級索引記錄組成塊的字符數(shù)length和該項塊的首地址head1，再根據(jù)下一分組塊的首地址確定該分組的終止地址，組首地址可通過哈希函數(shù)f(n)=(n-1)×30+1確定。二級索引是加在一級索引內(nèi)部，記錄詞條的字符數(shù)length、首字符WH和length個字符且首字符為WH組成的詞在庫中首地址,在同一組內(nèi)部由于有很多的詞條，二級索引是按詞的首字符建立，它加在以不同字符開頭的詞條組中，這樣通過二級索引可以進(jìn)一步縮小查找范圍。使用這種結(jié)構(gòu)存儲庫，不但可以提高查詢速度，同時解決了由于藏語詞條間字符數(shù)懸浮太大而出現(xiàn)的數(shù)據(jù)冗余現(xiàn)象。

在藏語詞語標(biāo)注分類體系的構(gòu)建上，根據(jù)藏語語料庫自動切分和標(biāo)注的實際需要，采用先分虛實詞，再確定大類，在大類的基礎(chǔ)上分出小類，再分出不同深度的子類。大類類劃分為21個一級類，60個二級類，二級類是在確定了基本屬性的基礎(chǔ)上對一級類的分解，也是對詞類信息的進(jìn)一步豐富。依據(jù)國際通常做法，標(biāo)記代碼主要采用英文術(shù)語中的字母。例如，“名詞”，采用英文術(shù)語“noun”的首字母“n”作為標(biāo)記代碼；“數(shù)詞”，采用英文術(shù)語“numeral”的第三個字母“m”作為標(biāo)記代碼。藏語獨有的或使用英文術(shù)語字母不便的，依據(jù)國內(nèi)通常做法，標(biāo)記代碼采用漢語拼音字母。如，“格助詞”采用漢字“格”漢語拼音的首字母“g”作為標(biāo)記代碼；“狀態(tài)詞”采用漢字“狀”漢語拼音的首字母“z”作為標(biāo)記代碼。庫結(jié)構(gòu)描述如下：

Typedefine struct index1

{int length;//描述組成詞的字符數(shù)

int head1;//描述length個字符組成的詞在庫中首地址

}ID1;

Typedefine struct index2

{ int length;//描述組成詞的字符數(shù)

string[] WH;//描述詞的首字符

int head2;//描述length個字符且首字符為WH組成的詞在庫中首地址

}ID2;

Typedefine struct data

{sting[] Word;//存儲詞

Char G1;//存儲一級詞性

Char G2;//存儲二級詞性

}DT;

庫結(jié)構(gòu)中部分內(nèi)容的索引表如圖2所示。

圖2 索引表結(jié)構(gòu)示意圖

3.2 臨界庫設(shè)計

例如對下面藏文文本直接利用最大匹配算法其時間復(fù)雜度為35！≈1.03×1040，而先用特殊格助詞分塊然后再切分其時間復(fù)雜度為3!+2!+9!+16!+11！≈2.09×1013,有效地提高了切分速度。

3.3 臨時庫設(shè)計

未登錄詞的識別是分詞技術(shù)的難點[3-4]，基于詞典的模式匹配分詞標(biāo)注系統(tǒng)而言未登錄詞的識別就更為重要。為解決未登錄詞的識別問題，班智達(dá)藏文自動標(biāo)注系統(tǒng)中建立臨時庫后采用智能和人工兩種方法識別未登錄詞。智能識別法：對無法分詞的字符串，統(tǒng)計這個子串在整篇文章中出現(xiàn)的頻率，若頻率較高則將此視為一新詞，把該詞自動添加到臨時庫，這種將詞庫與詞頻統(tǒng)計相結(jié)合的方法可提高未登錄詞的識別率，通過實驗用這種方法能夠識別85%以上的未登錄詞；人工識別法：人工閱讀文本時若發(fā)現(xiàn)某未登錄詞，則選擇該詞利用添加功能把詞添加到臨時庫。通過知識庫管理模塊把臨時庫中新抽取出的詞條添加到主詞典庫，這樣在實際應(yīng)用中，可不斷擴(kuò)充系統(tǒng)的詞庫，提高信息的查全率。

4 詞庫索引查詢算法

4.1 索引查詢算法

索引查詢算法是索引搜索策略的形式化描述和具體實現(xiàn)，由以上分詞標(biāo)注庫結(jié)構(gòu)描述可知，索引查詢算法的主要特點是通過建立二級索引減少查詢詞庫的次數(shù)，從而提高分詞標(biāo)注系統(tǒng)的性能[5]。具體算法如下：

1) 按照“最大匹配切分算法”從文本開頭取出一個最大待查字串；

2) 求出該字串的長度，并根據(jù)哈希函數(shù)f(n)=(n-1)×30+1確定ID2的首地址和終地址；

3) 在ID2的首地址到終地址間利用折半查找算法查找字串中的首字符，根據(jù)head2字段確定DT中的首地址和終地址；

4) 在DT的首地址到終地址間利用折半查找算法查找字串。若字串在詞典庫存在，則分詞并加以標(biāo)注，否則縮小字串并轉(zhuǎn)至2)。

4.2 索引查詢過程舉例

下面結(jié)合3.1和4.1給出的結(jié)構(gòu)和算法，通過一個分詞標(biāo)注實例來介紹分詞標(biāo)注詞典庫中索引查找的具體實現(xiàn)過程。

5 結(jié)束語

藏文自動分詞標(biāo)注的研究，將推動機(jī)器翻譯、語音合成、文字識別技術(shù)的發(fā)展。隨著歧義性研究的進(jìn)展，還可進(jìn)一步提高分詞準(zhǔn)確率。

[1] 陳玉忠，李保利，俞士汶，等．基于格助詞和接續(xù)特征的書面藏文分詞方案[J]．語言文字應(yīng)用，2003，(1)：75-82．

[2] 才智杰．藏文自動切分系統(tǒng)中緊縮詞的識別[J]．中文信息學(xué)報，2009,23(1):35-37,43．

[3] 孫茂松，黃昌寧，等．中文姓名的自動辨識[J]．中文信息學(xué)報，1995,9(2):16-27．

[4] 孫茂松，鄒嘉彥，等．漢語自動分詞研究評述[J].當(dāng)代語言學(xué)，2001，(1):22-32.

[5] 李慶虎，陳玉健，孫家廣．一種中文分詞詞典新機(jī)制——雙字哈希機(jī)制[J]．中文信息學(xué)報，2003,17(4):13-18．

[6] 陳玉忠，李保利，俞士汶，等．藏文自動分詞系統(tǒng)的設(shè)計與實現(xiàn)[J]．中文信息學(xué)報，2003,17(3):15-20．

[7] 陳玉忠，俞士汶．藏文信息處理的研究現(xiàn)狀與展望[J]．中國藏學(xué)，2003,(4):97-107.

中文信息學(xué)報2010年5期

中文信息學(xué)報的其它文章: 基于樹核函數(shù)的“it”待消解項識別研究; 基于合一句法和實體語義樹的中文語義關(guān)系抽取; 副詞“就”的用法及其自動識別研究; 基于語義角色標(biāo)注的新聞領(lǐng)域復(fù)述句識別方法; ACL 2010 評述; 女書計算機(jī)鍵盤布局與輸入法的研究