亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于粒的二進(jìn)制數(shù)表示的一種熵的計(jì)算方法

2009-04-23 10:03:58李潔穎

新媒體研究 2009年6期

[摘要]很多決策樹(shù)算法中，進(jìn)行分裂選擇測(cè)試屬性的時(shí)候，都要用到對(duì)屬性熵的計(jì)算和比較，提出一種方法，該方法首先將屬性的等價(jià)類和粒聯(lián)系起來(lái)，繼而利用粒的二進(jìn)制數(shù)表示來(lái)計(jì)算相應(yīng)屬性的熵，也就是說(shuō)將等價(jià)類轉(zhuǎn)化為粒的二進(jìn)制數(shù)表示，這樣只需要將粒的二進(jìn)制數(shù)駐留內(nèi)存就可以計(jì)算熵了，現(xiàn)在在包含數(shù)以百萬(wàn)計(jì)樣本的非常大的訓(xùn)練集是很普通的，利用這種方法就可以減少在計(jì)算熵時(shí)訓(xùn)練樣本在主存和高速緩存換進(jìn)換出的次數(shù)，達(dá)到提高效率的目的。

[關(guān)鍵詞]信息粒熵

中圖分類號(hào)：TP3文獻(xiàn)標(biāo)識(shí)碼：A文章編號(hào)：1671－7597（2009）0320040－01

一、引言

由Z.Pawlak與他的合作者于70年代提出的粗糙集理論從一種全新的視覺(jué)審視知識(shí)，認(rèn)為知識(shí)與分類相關(guān)，知識(shí)是有粒度的。所謂信息粒（Information Granule）是指人類在解決處理和存貯信息的有限能力上的一種反映，也就是人類在解決和處理大量復(fù)雜信息問(wèn)題時(shí)，需要將大量復(fù)雜信息按其各自的特征和性能將其劃分成若干較簡(jiǎn)單的塊，而每個(gè)如此劃分出來(lái)的塊被看成一個(gè)粒。這種處理信息的過(guò)程就被稱作信息粒化。信息的顆?；喈?dāng)于把原始的復(fù)雜的問(wèn)題分解為多個(gè)易管理的子問(wèn)題，即把大顆粒分解為小顆粒，顆粒化問(wèn)題隨處可見(jiàn)，它是許多學(xué)科的共同研究課題。粒計(jì)算是由T.Y.Lin提出的，現(xiàn)在已經(jīng)成為數(shù)據(jù)挖掘等領(lǐng)域的一個(gè)重要工具。

二、有關(guān)粗糙集和粒計(jì)算的概念

一個(gè)論域U在一個(gè)等價(jià)關(guān)系R下可以得到U關(guān)于R的一個(gè)劃分，劃分后的所有U的子集的集合就是U關(guān)于R的一個(gè)商集U/R，商集U/R中的每個(gè)元素就是一個(gè)粒。知識(shí)的這種顆粒狀結(jié)構(gòu)通過(guò)等價(jià)關(guān)系的等價(jià)類表示。

既然等價(jià)類可以表示知識(shí)的顆粒狀結(jié)構(gòu)，那么將等價(jià)類看成是粒就是很容易理解的事情因?yàn)槭┬辛Ｓ?jì)算比施行等價(jià)類計(jì)算速度要快的多，靈活的多[2]。

例如表一是對(duì)AllElectronics顧客是否會(huì)買計(jì)算機(jī)所做的調(diào)查的一個(gè)決策表。按條件屬性age分類，則可得商集U/IND(age)={[“<=30”]，[“31…40”]，[“>40”]}。按決策屬性buys_computer分類，則可得商集U/IND(buys_computer)={[no],[yes]}。為了將等價(jià)類和粒建立聯(lián)系，我們將商集中的元素作為粒，顯然它是一種等價(jià)類。為了方便地表示一個(gè)粒，我們引入一個(gè)二進(jìn)制數(shù)表示。表示規(guī)則為：對(duì)每個(gè)粒中的元素都可以給出它在全域U上的位置即下標(biāo)表示法，然后以下標(biāo)編碼對(duì)應(yīng)于二進(jìn)制位數(shù)的位數(shù)來(lái)確定二進(jìn)制位數(shù)的0、1取值，即Oi∈U且出現(xiàn)于某個(gè)等價(jià)類時(shí)，相應(yīng)的表示該等價(jià)類的二進(jìn)制數(shù)的第i位上置1，否則置0。具體的表示見(jiàn)表二。

設(shè)K＝（U，M）為一知識(shí)庫(kù)，R∈M為一知識(shí)，在R對(duì)U形成均勻劃分的情況下，R的熵值較大，而此時(shí)知識(shí)的粒度GD（R）較小；由表三可以看出它們各自的變化趨勢(shì)。

接下來(lái)討論如何利用粒的二進(jìn)制數(shù)表示法來(lái)求取對(duì)應(yīng)屬性的熵。我們還用上面的那個(gè)例子，由表二已知U/IND(age)={[“<=30”],[“31…40”]，[“>40”]},

[“<=30”]=11000001101000，[“31,…,40”]=00100010000110，[“>40”]=00011100010001，其中sij是子集sj中類Ci的樣本數(shù)，pij＝是Sj中的樣本屬于類Ci的概率。

因?yàn)閇“<=30”]AND [no]＝11000001000000中1的個(gè)數(shù)為3，所以s11＝3，

[“<=30”]AND[yes]＝00000000101000中1的個(gè)數(shù)為2，所以s12＝2

按照公式，對(duì)于age＝”<=30”, I(s11,s12)=－3/5log2(3/5)－2/5log2(2/5)=0.971

同理對(duì)于age=”31…40”，易知I（s11,s12）=0,

age=”>40”時(shí)，I（s11,s12）=0.971

進(jìn)而知道E（age）＝5/14 I（s11,s12）+4/14 I（s11,s12）+5/14 I（s11,s12）=0.694

至此，我們利用粒的二進(jìn)制數(shù)表示法成功地求出了對(duì)應(yīng)屬性的熵。熵這個(gè)指標(biāo)，在生成判定樹(shù)的算法中，進(jìn)行分裂選擇測(cè)試屬性時(shí)，一般作為判定指標(biāo)。我們利用上面提到的思想來(lái)選擇最佳的分裂方案，不過(guò)這里計(jì)算的不是進(jìn)行分割時(shí)熵的減少量，而是分割后所產(chǎn)生的熵選擇具有最小熵值的屬性，顯然，這個(gè)和計(jì)算熵的減少量是異曲同工的。

三、總結(jié)

本文討論了粒和等價(jià)類的聯(lián)系，并采用粒的二進(jìn)制數(shù)表示法將它們統(tǒng)一了起來(lái)，因此將有關(guān)信息論的計(jì)算轉(zhuǎn)化為二進(jìn)制數(shù)之間的計(jì)算，提高了速度，節(jié)省了內(nèi)存。

參考文獻(xiàn)：

[1]張鈸、張鈴，問(wèn)題求解理論及原理[M].北京：清華大學(xué)出版社，1990.

[2]劉斕、劉清，基于粒的二進(jìn)制運(yùn)算的關(guān)聯(lián)規(guī)則提取方法[J].南昌大學(xué)學(xué)報(bào)，2003:27(1).

[3]Y.Y.Yao. On modeling data mining with granular computing[J].Proceedings of COMPSAC 2001,pp,638-643,2001.

[4]苗奪謙，范世棟. 知識(shí)的粒度計(jì)算及其應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐，2002,1(1):48-56.

[5]王國(guó)胤，Rough集理論與知識(shí)獲取[M].西安交通大學(xué)出版社，2001.

[6]J.W.Han,M.Kamber:Data Mining:Concepts and Techniques[M].Morgan Kaufmann Publishers,2001.

作者簡(jiǎn)介：

李潔穎，女，河南新鄉(xiāng)人，助教，研究方向?yàn)槿斯ぶ悄芎途W(wǎng)絡(luò)技術(shù)。