唐 鵬 飛
(四川師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院, 四川 成都 610066)
粗糙集理論是不確定性分析與智能計(jì)算的有效數(shù)學(xué)工具[1],已被廣泛應(yīng)用于屬性約簡(jiǎn)[2-3]、知識(shí)發(fā)現(xiàn)[4-5]、規(guī)則推導(dǎo)[6]等領(lǐng)域.其對(duì)于數(shù)據(jù)表的不確定性度量是一個(gè)重要的研究主題.針對(duì)經(jīng)典決策表,近似粗糙度[1]、知識(shí)粒度[7-8]、條件信息熵[9]是刻畫其不確定性的基本測(cè)度與有效手段.然而,除了經(jīng)典決策表,實(shí)際中還存在區(qū)間集決策表[10].區(qū)間集決策表是經(jīng)典決策表的一種擴(kuò)展,其屬性值為兩個(gè)精確集(即用上下邊界集來(lái)描述一個(gè)不確定概念),從而具有更好的不確定性刻畫能力,當(dāng)前具有相關(guān)研究及成果.例如,文獻(xiàn)[11]根據(jù)區(qū)間分析中的區(qū)間數(shù),將區(qū)間集概念引入到粗糙集中來(lái)表示不確定信息;文獻(xiàn)[12]基于優(yōu)勢(shì)關(guān)系,給出四種基于粒度度量的區(qū)間集信息表的不確定性度量;文獻(xiàn)[13]將區(qū)間集引入到概率粗糙近似中,研究了區(qū)間集概率粗糙集的單調(diào)性;文獻(xiàn)[14]基于區(qū)間δ-相似關(guān)系,研究區(qū)間集信息表的不確定性度量.特別地,文獻(xiàn)[15]將經(jīng)典決策表的近似粗糙度與條件信息熵方法拓展到區(qū)間集決策表,提出δ-區(qū)間近似粗糙度與δ-區(qū)間決策條件熵方法.但這兩種方法存在以下兩方面的不足:一是δ-區(qū)間近似粗糙度缺乏對(duì)負(fù)域信息的刻畫,導(dǎo)致計(jì)算出的不確定性偏大;二是采用δ-區(qū)間決策條件熵計(jì)算得到的不確定性度量值反而比考慮一種因素的不確定性度量值小,不符合常理.
本文對(duì)文獻(xiàn)[15]的兩個(gè)不足進(jìn)行改進(jìn).首先提出一種同時(shí)刻畫正域、負(fù)域信息變化的δ-區(qū)間改進(jìn)近似粗糙度;然后將δ-區(qū)間改進(jìn)近似粗糙度變形與δ-條件信息熵進(jìn)行求和,提出一種修正δ-區(qū)間決策條件熵方法,并得到?;瘑握{(diào)性等性質(zhì);最后通過(guò)一個(gè)實(shí)例對(duì)本文所提方法進(jìn)行有效驗(yàn)證.相關(guān)工作將深化文獻(xiàn)[15]的結(jié)果.
本節(jié)通過(guò)文獻(xiàn)[15]復(fù)習(xí)區(qū)間集決策表的相關(guān)知識(shí)和分析其現(xiàn)有不確定性度量方法的不足.
表1 區(qū)間集決策表[15]
在區(qū)間集決策表中,條件屬性子集B?C及閾值δ∈[0,1]誘導(dǎo)相似關(guān)系:
定義2[15]決策類Dh關(guān)于B的下、上近似集別為
決策分類πD關(guān)于B的δ-區(qū)間近似精度與δ-區(qū)間近似粗糙度分別為
(1)
定義2采用雙近似構(gòu)建了δ-區(qū)間近似精度與δ-區(qū)間近似粗糙度,其中δ-區(qū)間近似粗糙度直接描述近似分類的不確切性,其本質(zhì)是計(jì)算下近似集基數(shù)與上近似集基數(shù)之比,不僅缺乏對(duì)負(fù)域信息變化的刻畫能力,導(dǎo)致計(jì)算出的不確定性度量值偏大,而且對(duì)?;Y(jié)構(gòu)的變化也不敏感.文獻(xiàn)[15]接著對(duì)此進(jìn)行了改進(jìn),即將其與δ-條件信息熵進(jìn)行信息融合,提出了δ-區(qū)間決策條件熵方法.
定義3[15]基于B?C的δ-條件信息熵為
δ-區(qū)間決策條件熵為
(2)
這樣,當(dāng)集成兩種影響因素所得到的不確定性度量值,反而小于單個(gè)影響因素產(chǎn)生的不確定度量值,顯然不符合常理.
命題2[15]1)A?B?IDHδ(D|B)≤IDHδ(D|A);
2)0≤δ1≤δ2≤1?IDHδ2(D|B)≤IDHδ1(D|B);
基于以上分析可以看出,文獻(xiàn)[15]提出的不確定性度量存在以下兩個(gè)問(wèn)題:一是δ-區(qū)間近似粗糙度缺乏對(duì)負(fù)域信息的刻畫,導(dǎo)致計(jì)算出的不確定性度量值偏大;二是δ-區(qū)間粗糙度與δ-區(qū)間條件信息熵融合后所得到的不確定性度量值反而比單個(gè)影響因素產(chǎn)生的不確定度量值小,不符合常理.因此,本文主要對(duì)以上兩個(gè)不足進(jìn)行改進(jìn).
針對(duì)上一節(jié)提出的兩個(gè)不足,本節(jié)首先對(duì)δ-區(qū)間近似粗糙度進(jìn)行改進(jìn),然后提出一種新型度量方法,即修正δ-區(qū)間決策條件熵方法.
由于δ-區(qū)間近似粗糙度只刻畫了粗糙集正域信息變化,忽略了粗糙集負(fù)域信息的影響.因此,下面將同時(shí)考慮正域信息與負(fù)域信息的影響來(lái)改進(jìn)δ-區(qū)間近似粗糙度.基于上、下近似集,先給出區(qū)間集決策表的邊界域定義如下.
定義4決策類Dh關(guān)于條件屬性子集B的δ-區(qū)間邊界域?yàn)?/p>
定義5決策分類πD關(guān)于條件屬性子集B的δ-區(qū)間改進(jìn)近似精度與δ-區(qū)間改進(jìn)近似粗糙度分別為
(3)
證明
因此,
命題3提供了δ-區(qū)間改進(jìn)近似粗糙度的等價(jià)形式,進(jìn)一步揭示其度量本質(zhì)(即刻畫邊界域的大小).
命題4設(shè)A,B?C,δ∈[0,1],則以下結(jié)論成立:
1)如果A?B,則
2) 如果0≤δ1≤δ2≤1,則
2)同1)的證明類似.
命題4表明,δ-區(qū)間改進(jìn)近似粗糙度具有關(guān)于屬性與閾值的雙重?;瘑握{(diào)性,能夠度量上、下近似產(chǎn)生的不確定性.
命題5設(shè)A,B?C,δ∈[0,1],則以下結(jié)論成立:
證明
2)同1)的證明類似.
命題5表明,Iρ同時(shí)考慮決策類的正域信息與負(fù)域信息影響后,所得到的近似粗糙度更小,近似精度更大,說(shuō)明改進(jìn)后的粗糙度在度量區(qū)間集決策表不確定度時(shí)要更優(yōu)一些,下面通過(guò)一個(gè)例子來(lái)進(jìn)一步說(shuō)明.
說(shuō)明Iρ對(duì)?;Y(jié)構(gòu)的變化不夠敏感,由命題3可知,Iρ的本質(zhì)在于計(jì)算各個(gè)決策類Dh關(guān)于條件屬性集邊界域的基數(shù)之和與一個(gè)定值的比,當(dāng)?;Y(jié)構(gòu)發(fā)生變化時(shí),邊界域的基可能是不變的.雖然文獻(xiàn)[15]中的δ-區(qū)間決策條件熵能夠有效地表征?;Y(jié)構(gòu)變化帶來(lái)的不確定性變化,但該度量采用的是乘積融合形式,使得集成兩種因素后的度量值反而小于單個(gè)因素的度量值,不符合常理.為了克服該缺陷,下面提出修正δ-區(qū)間決策條件熵來(lái)改進(jìn)δ-區(qū)間決策條件熵.
定義6決策分類πD關(guān)于條件屬性子集B的δ-區(qū)間近似粗糙熵為
δ-區(qū)間近似粗糙熵通過(guò)信息函數(shù)log2(|πD||U|)與δ-區(qū)間改進(jìn)近似粗糙度作積得到,是一種熵形式度量,而δ-區(qū)間改進(jìn)近似粗糙度不是一種熵形式度量,不能與δ-條件信息熵進(jìn)行求和融合.其本質(zhì)上仍是刻畫上、下近似產(chǎn)生的不確定性,只是刻畫形式進(jìn)行了轉(zhuǎn)換.
定義7修正δ-區(qū)間決策條件熵為
式中:
命題6設(shè)A,B?C,δ∈[0,1],則以下結(jié)論成立:
1)A?B?AIDHδ(D|B)≤AIDHδ(D|A);
2)0≤δ1≤δ2≤1?AIDHδ2(D|B)≤AIDHδ1(D|B);
基于定義7的求和融合定義,命題6所述的?;瘑握{(diào)性自然成立.修正δ-區(qū)間決策條件熵融合了δ-區(qū)間近似粗糙熵和δ-條件信息熵的優(yōu)點(diǎn),既能度量上、下近似產(chǎn)生的不確定性,又能表征粒化結(jié)構(gòu)變化時(shí)不確定性的變化.該度量與單一度量方式相比更加全面,可以彌補(bǔ)兩種度量之間的不足.最后,下述命題7給出修正δ-區(qū)間決策條件熵的非負(fù)性,命題8則說(shuō)明修正δ-區(qū)間決策條件熵集成的度量值確實(shí)大于單個(gè)影響因素產(chǎn)生的不確定性度量值.由此可見,修正δ-區(qū)間決策條件熵滿足不確定度量的基本性質(zhì),并且克服了δ-區(qū)間決策條件熵的不足,是一種有效、合理的度量方式.
命題7AIDHδ(D|B)≥0且
證明由于
又因?yàn)?/p>
命題8設(shè)B?C,δ∈[0,1].則
證明由于
又因?yàn)?/p>
例3這里依舊使用表1給出的區(qū)間集決策表.假設(shè)
C={a1,a2,a3}?B={a1,a2}?A={a1},δ1=0.4<δ2=0.5<δ3=0.6.
由此可以計(jì)算關(guān)于屬性集C,B,A及參數(shù)δ1,δ2,δ3的相關(guān)?;Y(jié)構(gòu):
通過(guò)相關(guān)公式,采用以上?;Y(jié)構(gòu)可以計(jì)算得到五種不確定性度量,數(shù)值如表2所示.
表2 五種不確定性度量比較結(jié)果
觀測(cè)表2,不同粒化結(jié)構(gòu)下的不確定性度量值大小不一,但具有如下的比較結(jié)論.
2)在非最細(xì)劃分情況下,采用δ-區(qū)間改進(jìn)粗糙度計(jì)算得到的不確定性度量值都要小于δ-區(qū)間近似粗糙度的值,這是因?yàn)棣?區(qū)間改進(jìn)粗糙度同時(shí)考慮了正域信息、負(fù)域信息的影響,優(yōu)于只考慮正域信息的δ-區(qū)間近似粗糙度.與命題5一致.
區(qū)間集決策表的不確定性是由上、下近似集和?;Y(jié)構(gòu)變化引起的,δ-區(qū)間決策條件熵可以用來(lái)度量區(qū)間集決策表的不確定性.本文對(duì)文獻(xiàn)[15]所提出的δ-區(qū)間決策條件熵進(jìn)行修正,提出一種修正δ-區(qū)間決策條件熵方法,并得到?;瘑握{(diào)性等性質(zhì).通過(guò)分析和實(shí)例可以看出,與δ-區(qū)間決策條件熵相比,修正δ-區(qū)間決策條件熵具有更為強(qiáng)健的不確定性刻畫能力,后續(xù)的屬性約簡(jiǎn)及規(guī)則提取等還值得深入探討.
內(nèi)江師范學(xué)院學(xué)報(bào)2021年6期