亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏文字母的信息熵

        2018-01-30 21:15:31仁青東主安見才讓
        電子技術(shù)與軟件工程 2017年15期
        關(guān)鍵詞:信息熵

        仁青東主++安見才讓

        摘要:隨著科技的發(fā)展,各類電子產(chǎn)品的日益增多,藏文文字的使用量也日益得到擴(kuò)大,藏文輸入法、藏文各類電子詞典等軟件的問世,這就迫使藏文文字需要結(jié)構(gòu)化、數(shù)字化、規(guī)范化,做這些工作要了解藏文字母的信息熵。本人用擴(kuò)大容量的方法統(tǒng)計(jì)了藏文字母的信息熵,并用zipf定律進(jìn)行了理論上的說明。

        【關(guān)鍵詞】信息熵 藏文信息處理 藏文字母zipf

        信息熵的一個(gè)重要應(yīng)用領(lǐng)域就是自然語言處理。熵是反映語言的數(shù)學(xué)面貌的一個(gè)重要的信息論參數(shù),信息熵是消除不確定性所需信息量的度量,也即未知事件可能含有的信息量。本人把藏文字母分為30個(gè)字母與4個(gè)元音共計(jì)34個(gè)字符,用擴(kuò)大容量的方法統(tǒng)計(jì)了藏文字母的信息熵。

        1 擴(kuò)大藏字容量的方法計(jì)算藏文字母信息熵

        如果隨機(jī)試驗(yàn)有n個(gè)結(jié)局,而這些結(jié)局是不等概率的。設(shè)第r個(gè)結(jié)局的概率為Pr,那么,這個(gè)隨機(jī)試驗(yàn)結(jié)局的熵H用下述公式計(jì)算:

        在公式(1)中,因?qū)?shù)以2為底,故熵的單位是比特。且H>O。在相當(dāng)長(zhǎng)的文句中,藏文字母出現(xiàn)概率n近似地等于它的出現(xiàn)頻率。例如,在文句的總次為28427個(gè)字次時(shí),“?”字出現(xiàn)的次數(shù)為2691次,那么,“?”率為pr=2691/28427=0.0947。我們把藏字出現(xiàn)的總次數(shù)稱為文句長(zhǎng)度,用N表示,在文句出現(xiàn)了不同的藏字稱為藏字容量,用n表示。根據(jù)公式(1)計(jì)算出在不同文句長(zhǎng)度、不同藏字容量時(shí),34個(gè)藏文字母在不計(jì)空格與結(jié)束符時(shí)的熵如表1。

        從表1我們可以看出,隨著藏字容量n的擴(kuò)大,熵值H相應(yīng)增大,而當(dāng)藏字容量n繼續(xù)擴(kuò)大2644時(shí),熵值H的增加就變得比較遲緩了。

        下面,我們畫出藏語文句中包含一個(gè)藏文字母中的熵H隨著藏字容量n的增加而變化的圖像。橫坐標(biāo)表示藏字容量n,縱坐標(biāo)表示包含在一個(gè)藏文字母中的熵H,如圖1所示。

        隨著藏字容量的擴(kuò)大,文句中常用藏文字母的出現(xiàn)概率逐漸趨于穩(wěn)定,不會(huì)有明顯的增大。例如,常用藏文字母“?”在不同的藏字容量中由公式pr=fr/N計(jì)算出的出現(xiàn)概率如表2。

        從表2中可看出,當(dāng)藏字容量較小時(shí),隨著藏字容量由1244擴(kuò)大到4813,“?”字出現(xiàn)概率由0.0844增加到0.1035,在區(qū)間(O,0.1035)內(nèi),-prlog2Pr隨著pr的增加而增加。

        我們可以借助于數(shù)理語言學(xué)中著名的Zipf定律來求出藏字容量達(dá)到某個(gè)值時(shí),使熵值穩(wěn)定的藏字容量n。把文句中的字母出現(xiàn)概率遞減的順序排列起來,并且順次從1到L編上號(hào)碼,造出這個(gè)文句的字母表。如表3所示。

        隨著字母表中編號(hào)數(shù)目r的增大,相應(yīng)的字母在文句中出現(xiàn)概率pr逐漸減小,r由1增大到L,pr就由Pl減小到PT。

        pr與r之間的關(guān)系,可用公式

        pr=k/r

        (2)

        式中,r表示詞在此表中的號(hào)碼, pr表示號(hào)碼為r的詞的出現(xiàn)概率,由實(shí)驗(yàn)測(cè)出,k=0.11824。藏文字母出現(xiàn)概率情況如表4。

        在根據(jù)公式(1)求熵時(shí),各個(gè)字母的出現(xiàn)概率 pr應(yīng)該滿足條件∑n=l pr=1,把Zipf定

        2 總結(jié)

        本人使用擴(kuò)大藏字容量的辦法計(jì)算了30個(gè)藏文字母與4個(gè)元音的信息熵,得出了當(dāng)藏字容量達(dá)到2644時(shí),包含在一個(gè)藏文字母中的熵為4.437615。并且從理論上證明了,如果再進(jìn)一步擴(kuò)大藏字容量,這個(gè)熵值不會(huì)再增加。通過這個(gè)結(jié)論,進(jìn)一步求出藏文字符的音節(jié)熵及藏文字符的冗余度,這些數(shù)據(jù)更能反映藏字的一些固有的屬性,對(duì)藏文字符研究工作者有更好的參考價(jià)值。

        (導(dǎo)師:安見才讓)

        參考文獻(xiàn)

        [1]馮志偉.語言與數(shù)學(xué),世界圖書出版公司北京公司,2011.

        [2]馮志偉,齊普夫定律的來龍去脈[J].情報(bào)科學(xué),1983 (02).

        [3]昌臺(tái)·降洛.藏文文法匯編[M].四川民族出版社,2010.

        [4]高定國,藏丈信息處理的原理與應(yīng)用[M].西安交通大學(xué)出版社,2014.[5]完么扎西,尼瑪扎西,藏文信息熵與輸入法鍵盤設(shè)計(jì)[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2016.endprint

        猜你喜歡
        信息熵
        基于信息熵可信度的測(cè)試點(diǎn)選擇方法研究
        基于信息熵模糊物元的公路邊坡支護(hù)方案優(yōu)選研究
        基于小波奇異信息熵的10kV供電系統(tǒng)故障選線研究與仿真
        基于信息熵的實(shí)驗(yàn)教學(xué)量化研究
        基于信息熵賦權(quán)法優(yōu)化哮喘方醇提工藝
        中成藥(2017年7期)2017-11-22 07:32:59
        一種基于信息熵的雷達(dá)動(dòng)態(tài)自適應(yīng)選擇跟蹤方法
        改進(jìn)的信息熵模型在區(qū)域水文站網(wǎng)優(yōu)化布設(shè)中的應(yīng)用研究
        基于信息熵的IITFN多屬性決策方法
        基于信息熵的循環(huán)譜分析方法及其在滾動(dòng)軸承故障診斷中的應(yīng)用
        泊松分布信息熵的性質(zhì)和數(shù)值計(jì)算
        一本色道88久久加勒比精品| 337p粉嫩日本欧洲亚洲大胆| 亚洲精品久久久久久久不卡四虎| 色94色欧美sute亚洲线路二| 亚洲AV成人综合五月天在线观看| 男女在线免费视频网站| 蜜桃一区二区三区在线视频| 亚洲乱码中文字幕一线区| 97人人模人人爽人人喊网| 国产精品无码不卡一区二区三区| 在线视频青青草猎艳自拍69| a级三级三级三级在线视频| 亚洲乱码中文字幕综合久久| 日本又色又爽又黄的a片18禁| 日产精品久久久久久久蜜臀 | 精品免费久久久久久久 | 成人精品国产亚洲欧洲| 亚洲综合中文日韩字幕| 女同精品一区二区久久| 国产真实强被迫伦姧女在线观看| 国产精品入口牛牛影视| 9丨精品国产高清自在线看| 女优av性天堂网男人天堂| 久久熟女乱一区二区三区四区| 亚洲色AV天天天天天天| 国产三级精品三级在线专区| 极品少妇小泬50pthepon| 怡红院免费的全部视频| 中文字幕一区二区三区久久网站| 国产一区二区精品网站看黄| 视频一区二区三区黄色| 免费1级做爰片1000部视频| 免费无遮挡无码视频在线观看| 久久夜色精品国产三级| 媚药丝袜美女高清一二区| 国产办公室沙发系列高清| 亚洲日韩精品A∨片无码加勒比| 亚洲综合国产精品一区二区| 日本中国内射bbxx| 精品人妻伦九区久久AAA片69| 精品九九人人做人人爱|