楊 潔,袁 利,羅 天
(1.遵義師范學(xué)院 物理與電子科學(xué)學(xué)院,貴州 遵義 563002;2.云南大學(xué) 軟件學(xué)院,昆明 650091)
作為粒計(jì)算[1-2]的工具之一,粗糙集[3]是一種利用當(dāng)前信息粒來(lái)處理不確定性信息的有效模型,即采用上、下近似集對(duì)不確定性目標(biāo)概念進(jìn)行近似描述。作為粗糙集的擴(kuò)展模型,粗糙模糊集[4]是一種有效處理目標(biāo)概念為模糊集時(shí)的粒計(jì)算模型,通過(guò)定義上、下近似集來(lái)刻畫(huà)一個(gè)模糊目標(biāo)的概念,從而進(jìn)行知識(shí)獲取,更具有普遍性。當(dāng)前,有許多關(guān)于粗糙模糊集方面的研究,大致分為3個(gè)方面:理論研究,擴(kuò)展模型和應(yīng)用。其中,Rehman[5]提出了基于向上可加一致性的廣義多粒度模糊粗糙集模型,構(gòu)造了一種新的多屬性決策方法。Xue[6]提出了基于多粒度支持直覺(jué)模糊粗糙集的三支決策模型,設(shè)計(jì)了一個(gè)決策規(guī)則提取算法。Li[7]提出了基于粗糙模糊理論的雙定量多粒化決策模型,研究了包含相對(duì)定量信息和絕對(duì)定量信息的決策規(guī)則。Yang[8]借鑒Vague集中支持度和反對(duì)度的思想,構(gòu)建了多粒度鄰域粗糙模糊集的不確定性度量方法。
近年來(lái),Zhang[9-10]分別從模糊距離和相似度的角度出發(fā),提出了經(jīng)典粗糙集近似集的相關(guān)理論,通過(guò)利用已知信息粒直接對(duì)目標(biāo)概念進(jìn)行近似描述,從而構(gòu)建粗糙集的近似表示,一方面,證明了該近似集比上、下近似具有更高的近似度;另一方面,證明了0.5-近似集在一定約束條件下是最優(yōu)近似集,即閾值為0.5時(shí)最優(yōu)。在粗糙集近似集的基礎(chǔ)上,Zhang進(jìn)一步研究了粗糙模糊集近似集[12]和vague集的近似集[13]的相關(guān)理論,并將近似集理論應(yīng)用到屬性約簡(jiǎn)[14-15]、圖像分割[16]、粒度優(yōu)化[17]等領(lǐng)域上。雖然當(dāng)前粗糙集近似集理論方面具有一定的研究成果,但是,基于隸屬度的近似集可能存在對(duì)象誤分的情形[18],而從決策風(fēng)險(xiǎn)的角度出發(fā),通常希望劃分結(jié)果帶來(lái)的誤分類代價(jià)盡可能小,此時(shí)基于相似性的近似集模型不再適用于代價(jià)敏感的應(yīng)用場(chǎng)景?,F(xiàn)實(shí)應(yīng)用中,誤分類代價(jià)是一種決策代價(jià),分析誤分類代價(jià)在一定程度上有助于提高決策質(zhì)量。從三支決策[19]的角度來(lái)說(shuō),邊界域中的等價(jià)類在作為近似集時(shí)會(huì)產(chǎn)生誤分類代價(jià),如何使得構(gòu)建的近似集的誤分類代價(jià)最小是值得研究的問(wèn)題。再者,在分層遞階的多粒度知識(shí)空間中,隨著知識(shí)空間的細(xì)化,邊界域中對(duì)象可能會(huì)發(fā)生重新分類,使得邊界域中用于表示近似集的等價(jià)類發(fā)生變化,從而導(dǎo)致每個(gè)知識(shí)空間上近似集的誤分類代價(jià)也會(huì)隨之發(fā)生變化。
從多粒度的角度來(lái)說(shuō),在不同粒層上對(duì)同一個(gè)問(wèn)題進(jìn)行近似處理的結(jié)果可能具有相近的意義,但是這些近似處理的誤分類代價(jià)不盡相同。因此,針對(duì)以上問(wèn)題,本文從誤分類代價(jià)的角度,提出了粗糙模糊集近似表示模型,以保證得到的近似集對(duì)應(yīng)的誤分類代價(jià)在當(dāng)前粒度下最小,并在此基礎(chǔ)上進(jìn)一步研究了多粒度知識(shí)空間中誤分類代價(jià)的變化規(guī)律。
在介紹粗糙模糊集的不確定性度量之前,我們先回顧一些基本概念。
定義1(粗糙集)[3]設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R?C,X?U, 那么X的上、下近似集分別定義為
(1)
(2)
(1)—(2)式中,[E]R代表由等價(jià)關(guān)系U/R誘導(dǎo)的等價(jià)類, 即U/R={[E]R}={E1,E2,…,El}。
(3)
(4)
(5)
定義2(粗糙模糊集)[4]設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R?C,X是一個(gè)在U上的模糊集, 那么X的上、下近似集可以定義為一對(duì)模糊集,其隸屬度分別定義為
(6)
(7)
傳統(tǒng)的粗糙集沒(méi)有利用現(xiàn)有的知識(shí)粒近似刻畫(huà)邊界不確定的目標(biāo)概念,為了利用已有信息粒構(gòu)建目標(biāo)概念的近似刻畫(huà),文獻(xiàn)[10]從隸屬度的角度給出了粗糙模糊集的近似表示方法,如定義4。
定義4(基于隸屬度的粗糙模糊集近似集)[10]
假設(shè)S=(U,C∪D,V,f)是一個(gè)信息系統(tǒng),R?C,X是U上的一個(gè)模糊集。U/R={E1,E2,…,El}為U上的一個(gè)知識(shí)空間,則在U/R上對(duì)X的α近似表示可定義為
0<α≤1
(8)
例1給出了一個(gè)關(guān)于選取優(yōu)秀教師的信息系統(tǒng)(見(jiàn)表1)。R1,R2和R3分別代表3個(gè)評(píng)估指標(biāo)(科研、獲獎(jiǎng)、教學(xué)),為了方便說(shuō)明,假設(shè)它們的屬性值為離散值,D是決策屬性。
表1 有關(guān)選取優(yōu)秀教師的信息系統(tǒng)
定義5假設(shè)R={R1,R2,R3}是一個(gè)信息系統(tǒng),R?C,X是U上的一個(gè)模糊集。U/R={E1,E2,…,El}為U上的一個(gè)知識(shí)空間。λ11表示當(dāng)對(duì)象x屬于目標(biāo)概念X時(shí)將x作為近似表示時(shí)所產(chǎn)生的損失函數(shù),λ12表示當(dāng)對(duì)象x不屬于目標(biāo)概念X時(shí)將x作為近似表示時(shí)所產(chǎn)生的損失函數(shù),λ21表示當(dāng)對(duì)象x屬于目標(biāo)概念X時(shí)將x不作為近似表示時(shí)所產(chǎn)生的損失函數(shù)。λ22表示當(dāng)對(duì)象x不屬于目標(biāo)概念X時(shí)將x不作為近似表示時(shí)所產(chǎn)生的損失函數(shù)。則U/R中等價(jià)類被用于近似描述X的誤分類代價(jià)表示為
(9)
U/R中等價(jià)類不被用于近似描述X的誤分類代價(jià)表示為
(10)
(11)
定義6設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),閾值α、β(0≤β≤α≤1),R?C,X是U上的一個(gè)模糊集,U/R={E1,E2,…,El}為U上的一個(gè)近似空間,那么X的上、下近似集分別定義為
(12)
(13)
論域U通常被劃分為正域、負(fù)域和邊界域,分別定義為
(14)
(15)
(16)
本文進(jìn)一步提出了基于誤分類代價(jià)的粗糙模糊集近似集,如定義7所示。
定義7(基于誤分類代價(jià)的粗糙模糊集近似集)
假設(shè)S=(U,C∪D,V,f)是一個(gè)信息系統(tǒng),R?C,X是U上的一個(gè)模糊集,U/R={E1,E2,…,El}為U上的一個(gè)近似空間。令
(17)
(17)式中,Ei∈U/R。稱R(X)為基于誤分類代價(jià)的粗糙模糊集近似集。
圖1 基于誤分類代價(jià)的近似集(折線所圍部分)
(18)
定理1設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R?C,X是U上的一個(gè)模糊集,U/R={E1,E2,…,El}為U上的一個(gè)近似空間,則以下性質(zhì)成立
(19)
(20)
(19)—(20)式中,Ei∈U/R(i=1,2,…,l)。
由定理1可知,BNDI(X)域中等價(jià)類用于作為近似集時(shí)的誤分類代價(jià)總是小于或等于不作為近似集時(shí)的誤分類代價(jià),BNDII(X)域中等價(jià)類不用于作為近似集時(shí)的誤分類代價(jià)總是小于或等于作為近似集時(shí)的誤分類代價(jià)。
證明:由定義6可知
(21)
(22)
(23)
由于BND(X)=BNDI(X)∪BNDII(X),可得
(24)
(25)
因此,由定理1可得
定理3設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R?C,X是U上的一個(gè)模糊集,U/R={E1,E2,…,El}為U上的一個(gè)近似空間,當(dāng)λ1=λ2時(shí),R(X)=R0.5(X)。
證明:由條件可知,當(dāng)λ1=λ2時(shí),由定義6可得γ=0.5。
由定理3可知,當(dāng)λ1=λ2時(shí),基于誤分類代價(jià)的粗糙模糊集近似集R(X)將退化為R0.5(X)。
隨著信息的不斷完善,知識(shí)空間不斷細(xì)化,邊界域中對(duì)象可能會(huì)發(fā)生重新分類,導(dǎo)致邊界域中用于表示近似集的等價(jià)類發(fā)生變化。本節(jié)將分析多粒度知識(shí)空間中粗糙近似集模型誤分類代價(jià)的變化規(guī)律。
定理4設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R1?R2?C,X是U上的一個(gè)模糊集,則DC(R1(X))≥DC(R2(X))。
證明:假設(shè)U/R1={E1,E2,…,El}和U/R2={F1,F2,…,Fm}是U上的2個(gè)知識(shí)空間。由于R1?R2,故U/R2?U/R1。為了簡(jiǎn)單化,假設(shè)僅有一個(gè)信息粒E1(E1∈U/Ri)細(xì)分為2個(gè)更細(xì)的信息粒F1,F(xiàn)2(F1,F2∈U/R2)(其他復(fù)雜情形均可轉(zhuǎn)化為這種情形,這里不再重復(fù)),則E1=F1∪F2,E2=F3,E3=F4,…,El=Fm(m=l+1),即U/R2={F1,F2,E2,E3,…,El}。
由情形1可知,F(xiàn)1?R(X),F(xiàn)2?R(X)。如圖2a為BNDI(X)中等價(jià)類發(fā)生細(xì)分的一種情形,可知
圖2 近似集模型的BNDI(X)中等價(jià)類發(fā)生細(xì)分情形
(26)
由情形2可得:F1?R(X),F(xiàn)2?R(X)。圖2b為BNDI(X)中等價(jià)類發(fā)生細(xì)分的一種情形,可知
ΔDCR1-R2=DC(R1(X))-DC(R2(X))=
(27)
由情形1可知,F(xiàn)1?R(X),F(xiàn)2?R(X),圖3a為BNDII(X)中等價(jià)類發(fā)生細(xì)分的一種情形,可得
圖3 近似集模型的BNDII(X)中等價(jià)類發(fā)生細(xì)分情形
(28)
由情形2可得,F(xiàn)1?R(X),F(xiàn)2?R(X),圖3b為BNDII(X)中等價(jià)類發(fā)生細(xì)分的一種情形,可知
(29)
綜上所述,無(wú)論為哪種情形,DC(R1(X))≥DC(R2(X))都成立,因此,定理4成立。定理4表明知識(shí)空間近似模糊概念的誤分類代價(jià)隨著粒度的細(xì)化呈單調(diào)遞減,這個(gè)結(jié)果符合人的認(rèn)知習(xí)慣。
為了簡(jiǎn)化,本文僅以BNDI(X)為例,分析它對(duì)應(yīng)的誤分類代價(jià)的變化規(guī)律。
定理5設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R1?R2?…?RM?C,X是U上的一個(gè)模糊集,僅有BNDI(X)中的信息粒通過(guò)ΔR=R1-R2發(fā)生細(xì)分,則DCR1(BNDI(X))≤DCR2(BNDI(X))。
證明:假設(shè)U/R1={E1,E2,…,El}和U/R2={F1,F2,…,Fm}是U上的2個(gè)知識(shí)空間。由于R1?R2,故U/R2?U/R1。為了簡(jiǎn)單化,假設(shè)僅有一個(gè)信息粒E1(E1∈U/Ri)細(xì)分為2個(gè)更細(xì)的信息粒F1,F(xiàn)2(U/R2?U/R1)(其他復(fù)雜情形均可轉(zhuǎn)化為這種情形,這里不再重復(fù)),則E1=F1∪F2,E2=F3,E3=F4,…,El=Fm(m=l+1),即U/R2={F1,F2,E2,E3,…,El}。
由情況1可知,F(xiàn)1?BNDII(X),F(xiàn)2?BNDI(X),則
DCR1(BNDI(X))-DCR2(BNDI(X))=
(30)
由情況1可知,F(xiàn)1?BNDI(X),F(xiàn)2?BNDI(X),則
DCR1(BNDI(X))-DCR2(BNDI(X))=
(31)
綜上所述,DCR1(BNDI(X))≤DCR2(BNDI(X))。
定理6設(shè)一個(gè)信息系統(tǒng)S=(U,C∪D,V,f),R1?R2?…?RM?C,X是U上的一個(gè)模糊集,僅有BNDII(X)域中的信息粒通過(guò)ΔR=R1-R2發(fā)生細(xì)分,則DCR1(BNDI(X))≤DCR2(BNDI(X))。
與定理5相似,定理6很容易證明。結(jié)合定理5和定理6可知,在代價(jià)敏感的近似集模型中,當(dāng)僅有BNDI(X)或BNDII(X)中的信息粒隨著知識(shí)空間的細(xì)化發(fā)生細(xì)分時(shí),BNDI(X)的誤分類代價(jià)將會(huì)增加,這個(gè)結(jié)果并不符合人類認(rèn)知的習(xí)慣。
本實(shí)驗(yàn)的硬件配置為Intel i5-2430M的CPU, 8G內(nèi)存, 操作系統(tǒng)為Windows7 64bit OS的臺(tái)式機(jī),采用MATLAB2014軟件進(jìn)行仿真。表2列出了本文所用UCI數(shù)據(jù)集。
表2 數(shù)據(jù)集描述表
圖4 γ=0.5時(shí)不同粒度上的 和
圖5 γ=0.7時(shí)不同粒度上的 和
圖6 γ=0.5時(shí)不同粒度上的和
圖7 γ=0.7時(shí)不同粒度上的和
圖8展示了在不同數(shù)據(jù)集、不同粒度層次上的誤分類代價(jià)。由實(shí)驗(yàn)結(jié)果可知,知識(shí)空間近似模糊概念的誤分類代價(jià)隨著粒度的細(xì)化呈單調(diào)遞減,這個(gè)結(jié)果符合人的認(rèn)知習(xí)慣。
圖8 DC(R(X))隨著粒度細(xì)化的變化趨勢(shì)