仁青東主++安見才讓
摘要:隨著科技的發(fā)展,各類電子產(chǎn)品的日益增多,藏文文字的使用量也日益得到擴(kuò)大,藏文輸入法、藏文各類電子詞典等軟件的問世,這就迫使藏文文字需要結(jié)構(gòu)化、數(shù)字化、規(guī)范化,做這些工作要了解藏文字母的信息熵。本人用擴(kuò)大容量的方法統(tǒng)計(jì)了藏文字母的信息熵,并用zipf定律進(jìn)行了理論上的說明。
【關(guān)鍵詞】信息熵 藏文信息處理 藏文字母zipf
信息熵的一個(gè)重要應(yīng)用領(lǐng)域就是自然語言處理。熵是反映語言的數(shù)學(xué)面貌的一個(gè)重要的信息論參數(shù),信息熵是消除不確定性所需信息量的度量,也即未知事件可能含有的信息量。本人把藏文字母分為30個(gè)字母與4個(gè)元音共計(jì)34個(gè)字符,用擴(kuò)大容量的方法統(tǒng)計(jì)了藏文字母的信息熵。
1 擴(kuò)大藏字容量的方法計(jì)算藏文字母信息熵
如果隨機(jī)試驗(yàn)有n個(gè)結(jié)局,而這些結(jié)局是不等概率的。設(shè)第r個(gè)結(jié)局的概率為Pr,那么,這個(gè)隨機(jī)試驗(yàn)結(jié)局的熵H用下述公式計(jì)算:
在公式(1)中,因?qū)?shù)以2為底,故熵的單位是比特。且H>O。在相當(dāng)長(zhǎng)的文句中,藏文字母出現(xiàn)概率n近似地等于它的出現(xiàn)頻率。例如,在文句的總次為28427個(gè)字次時(shí),“?”字出現(xiàn)的次數(shù)為2691次,那么,“?”率為pr=2691/28427=0.0947。我們把藏字出現(xiàn)的總次數(shù)稱為文句長(zhǎng)度,用N表示,在文句出現(xiàn)了不同的藏字稱為藏字容量,用n表示。根據(jù)公式(1)計(jì)算出在不同文句長(zhǎng)度、不同藏字容量時(shí),34個(gè)藏文字母在不計(jì)空格與結(jié)束符時(shí)的熵如表1。
從表1我們可以看出,隨著藏字容量n的擴(kuò)大,熵值H相應(yīng)增大,而當(dāng)藏字容量n繼續(xù)擴(kuò)大2644時(shí),熵值H的增加就變得比較遲緩了。
下面,我們畫出藏語文句中包含一個(gè)藏文字母中的熵H隨著藏字容量n的增加而變化的圖像。橫坐標(biāo)表示藏字容量n,縱坐標(biāo)表示包含在一個(gè)藏文字母中的熵H,如圖1所示。
隨著藏字容量的擴(kuò)大,文句中常用藏文字母的出現(xiàn)概率逐漸趨于穩(wěn)定,不會(huì)有明顯的增大。例如,常用藏文字母“?”在不同的藏字容量中由公式pr=fr/N計(jì)算出的出現(xiàn)概率如表2。
從表2中可看出,當(dāng)藏字容量較小時(shí),隨著藏字容量由1244擴(kuò)大到4813,“?”字出現(xiàn)概率由0.0844增加到0.1035,在區(qū)間(O,0.1035)內(nèi),-prlog2Pr隨著pr的增加而增加。
我們可以借助于數(shù)理語言學(xué)中著名的Zipf定律來求出藏字容量達(dá)到某個(gè)值時(shí),使熵值穩(wěn)定的藏字容量n。把文句中的字母出現(xiàn)概率遞減的順序排列起來,并且順次從1到L編上號(hào)碼,造出這個(gè)文句的字母表。如表3所示。
隨著字母表中編號(hào)數(shù)目r的增大,相應(yīng)的字母在文句中出現(xiàn)概率pr逐漸減小,r由1增大到L,pr就由Pl減小到PT。
pr與r之間的關(guān)系,可用公式
pr=k/r
(2)
式中,r表示詞在此表中的號(hào)碼, pr表示號(hào)碼為r的詞的出現(xiàn)概率,由實(shí)驗(yàn)測(cè)出,k=0.11824。藏文字母出現(xiàn)概率情況如表4。
在根據(jù)公式(1)求熵時(shí),各個(gè)字母的出現(xiàn)概率 pr應(yīng)該滿足條件∑n=l pr=1,把Zipf定
2 總結(jié)
本人使用擴(kuò)大藏字容量的辦法計(jì)算了30個(gè)藏文字母與4個(gè)元音的信息熵,得出了當(dāng)藏字容量達(dá)到2644時(shí),包含在一個(gè)藏文字母中的熵為4.437615。并且從理論上證明了,如果再進(jìn)一步擴(kuò)大藏字容量,這個(gè)熵值不會(huì)再增加。通過這個(gè)結(jié)論,進(jìn)一步求出藏文字符的音節(jié)熵及藏文字符的冗余度,這些數(shù)據(jù)更能反映藏字的一些固有的屬性,對(duì)藏文字符研究工作者有更好的參考價(jià)值。
(導(dǎo)師:安見才讓)
參考文獻(xiàn)
[1]馮志偉.語言與數(shù)學(xué),世界圖書出版公司北京公司,2011.
[2]馮志偉,齊普夫定律的來龍去脈[J].情報(bào)科學(xué),1983 (02).
[3]昌臺(tái)·降洛.藏文文法匯編[M].四川民族出版社,2010.
[4]高定國,藏丈信息處理的原理與應(yīng)用[M].西安交通大學(xué)出版社,2014.[5]完么扎西,尼瑪扎西,藏文信息熵與輸入法鍵盤設(shè)計(jì)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016.endprint