陶 志,劉彩平
(中國(guó)民航大學(xué)理學(xué)院,天津 300300)
一種改進(jìn)的先驗(yàn)概率粗集模型
陶 志,劉彩平
(中國(guó)民航大學(xué)理學(xué)院,天津 300300)
基于容差關(guān)系和先驗(yàn)概率容差關(guān)系的粗糙集模型是粗糙集理論的重要擴(kuò)充,但卻均有其局限性。本研究結(jié)合上述兩種模型的優(yōu)點(diǎn),提出了一種改進(jìn)的先驗(yàn)概率粗糙集模型,新模型是建立在對(duì)不完備決策系統(tǒng)屬性值統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上,既考慮了同一屬性取值的不同情況,又考慮到不同屬性之間的關(guān)聯(lián)性,可以有效提高分類(lèi)精度和分類(lèi)的合理性。該模型對(duì)屬性間存在明顯的關(guān)聯(lián)性且未知屬性值較少的系統(tǒng)具有很強(qiáng)的實(shí)用性。
粗糙集;不完備決策系統(tǒng);改進(jìn)的容差關(guān)系
粗糙集理論自1982年由波蘭學(xué)者Z.Pawlak提出以來(lái)[1]已被廣泛應(yīng)用于數(shù)據(jù)挖掘、人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)及智能信息處理等領(lǐng)域。但Pawlak所提出的理論是基于信息系統(tǒng)是完備的這樣一個(gè)假設(shè),而實(shí)際問(wèn)題中由于數(shù)據(jù)采集手段及數(shù)據(jù)精度要求不同等原因,使得需處理更多的是不完備信息系統(tǒng),即系統(tǒng)中的部分屬性值是未知的。這就要求對(duì)經(jīng)典的粗糙集理論進(jìn)行擴(kuò)充。目前,對(duì)不完備信息系統(tǒng)的處理主要有兩種方法:一種是間接法,即通過(guò)領(lǐng)域?qū)<野阉笔У臄?shù)據(jù)補(bǔ)齊[2],間接地把不完備信息系統(tǒng)轉(zhuǎn)化為完備系統(tǒng);第二種是直接法,即直接把粗糙集理論中的相關(guān)概念在不完備信息系統(tǒng)中進(jìn)行擴(kuò)充[3-7]。間接法因?yàn)橛蓄I(lǐng)域?qū)<业膮⑴c而主觀性比較強(qiáng),而直接法由于其相對(duì)比較客觀,因此引起學(xué)者的廣泛關(guān)注。
針對(duì)不完備信息系統(tǒng),目前主要提出了容差關(guān)系和相似關(guān)系兩種擴(kuò)充模型[3-4],以及對(duì)這兩種模型的改進(jìn)形式(如限制容差關(guān)系[5]、限制非對(duì)稱(chēng)相似關(guān)系[6]等)?;谏鲜鰞煞N改進(jìn)模型,又有學(xué)者提出先驗(yàn)限制容差關(guān)系粗糙集模型[7]和先驗(yàn)限制非對(duì)稱(chēng)相似關(guān)系粗糙集模型等基于先驗(yàn)概率的粗集模型。然而,上述基于先驗(yàn)概率的粗糙集模型對(duì)已知信息只考慮了單個(gè)屬性?xún)?nèi)部的縱向比較,由單個(gè)屬性上屬性值出現(xiàn)的概率來(lái)確定該屬性中未知屬性的取值,卻忽略了各屬性間的聯(lián)系,對(duì)同一元素的其他已知屬性值不進(jìn)行考查,因而造成了信息的浪費(fèi)。事實(shí)上,許多屬性之間并不是相互獨(dú)立的,而是相互制約、相互推定的,即條件屬性之間也有決策關(guān)系存在。例如,中國(guó)法律規(guī)定男性公民到了22周歲才能登記結(jié)婚,那么對(duì)于一個(gè)婚姻情況未知的人,可以根據(jù)他的已知屬性年齡小于22歲以及他是男性推斷出他是未婚的。即使所得到的信息系統(tǒng)中婚姻狀況里出現(xiàn)概率最大的是已婚,也不能簡(jiǎn)單按婚姻狀況的先驗(yàn)概率確定這個(gè)人的婚姻狀況為已婚。這個(gè)例子說(shuō)明,在對(duì)先驗(yàn)信息進(jìn)行處理時(shí)還應(yīng)該橫向參考這個(gè)元素的其他已知屬性值。本文通過(guò)對(duì)現(xiàn)有先驗(yàn)概率粗集模型的研究,提出一種基于屬性間依賴(lài)關(guān)系的改進(jìn)先驗(yàn)概率容差關(guān)系,并討論了改進(jìn)的先驗(yàn)概率容差關(guān)系粗糙集模型的特點(diǎn)及其相關(guān)性質(zhì)。新模型對(duì)已知信息的利用更加充分,既提高了分類(lèi)精度又使分類(lèi)更趨合理,為不完備信息系統(tǒng)的數(shù)據(jù)處理提供了一種有效的新方法。
1.1 不完備決策系統(tǒng)
對(duì)于四元組S=(U,AT=C∪D,V,f),U是對(duì)象的非空有限集合;AT=C∪D是屬性的非空有限集合,C稱(chēng)為條件屬性集合,D稱(chēng)為決策屬性集合,且C∩D= ?;?a∈AT,Va表示屬性a的值域;V=∪a∈ATVa表示AT的值域;f為U×AT→V的一個(gè)映射,f(x,a)= a(x)∈Va是對(duì)象x在屬性a上的取值。若至少存在一個(gè)屬性a∈C使a(x)=*,則稱(chēng)S=(U,AT=C∪D,V,f)是一個(gè)不完備決策系統(tǒng)。
1.2 容差關(guān)系
Kryszkiewicz提出的容差關(guān)系認(rèn)為未知屬性值僅僅是被遺漏但又是確實(shí)存在的,因此,“*”被解釋為一個(gè)任何可能的屬性值。
定義1 在不完備決策系統(tǒng)S=(U,AT=C∪D,V,f)中,若所有未知屬性值均被認(rèn)為是遺漏形的(用“*”表示),則由屬性集A?C決定的容差關(guān)系為[3]:TA(x,y)??a∈A,a(x)=a(y)∨a(x)=*∨a(y)=*,x,y∈U。
顯然容差關(guān)系具有自反性和對(duì)稱(chēng)性,但不滿(mǎn)足傳遞性。
定義2 在不完備決策系統(tǒng)S=(U,C∪D)中,對(duì)象集合X?U關(guān)于屬性集A?C基于容差關(guān)系的上近似集下近似集和近似精度分別為
其中
顯然
由于容差關(guān)系過(guò)于寬松,因此會(huì)將兩個(gè)明顯不相似的對(duì)象判定在同一個(gè)容差類(lèi)中,進(jìn)而造成不合理分類(lèi)。為提高同一分類(lèi)中兩個(gè)對(duì)象間的相似程度,朱顥東等人依據(jù)概率統(tǒng)計(jì)知識(shí)提出了基于先驗(yàn)概率容差關(guān)系的粗集模型[7],從而有效地提高了分類(lèi)精度。
1.3 先驗(yàn)概率容差關(guān)系
在不完備決策系統(tǒng)S=(U,C∪gkcquag,V,f)中,對(duì)于任意一個(gè)屬性ai∈C,Vi={vi1,vi2,…,vimi}表示ai的值域,Pi={pi1,pi2,…,pimi}表示值域Vi中各個(gè)值出現(xiàn)的頻率,mi表示該屬性值域的大小,那么對(duì)象x,y在屬性ai∈C上的相似度為
相似度用來(lái)度量?jī)蓚€(gè)對(duì)象間的相似程度,相似度越高說(shuō)明兩對(duì)象在某個(gè)屬性上的相似性越高。
定義3 在不完備決策系統(tǒng)S=(U,AT=C∪D,V,f)中,由屬性A?AT所決定的先驗(yàn)概率容差關(guān)系為:T(A)?RA(x,y)≥τ,x,y∈U。其中τ是預(yù)先設(shè)定好的閾值表示對(duì)象x和y在屬性集A上的相似度。
如果兩個(gè)對(duì)象在某一屬性集上的相似度大于某一閾值,即認(rèn)為其滿(mǎn)足先驗(yàn)概率容差關(guān)系,否則就認(rèn)為不滿(mǎn)足。
定義4 在不完備決策系統(tǒng)S=(U,AT=C∪D,V,f)中,對(duì)象集合X?U關(guān)于屬性集A?C基于先驗(yàn)概率容差關(guān)系的上近似集下近似集和近似精度分別為
先驗(yàn)概率容差關(guān)系在確定未知屬性值時(shí),僅從縱向上參考該屬性的已知取值,沒(méi)有考慮屬性之間的關(guān)聯(lián)性,因此會(huì)造成對(duì)未知屬性值的片面推斷和分類(lèi)的不合理性。例如,已知有60個(gè)人,其中30個(gè)歐洲人,20個(gè)非洲人,10個(gè)亞洲人,且有一個(gè)亞洲人的膚色未知,如果按照先驗(yàn)概率容差關(guān)系,那么這個(gè)亞洲人的膚色被定為白色或者黑色的可能性最大。但是,判斷這個(gè)人的膚色實(shí)際上不應(yīng)該參考所有人的膚色,而是應(yīng)該參考已知的9個(gè)亞洲人的膚色,這樣才更加合理?;谶@個(gè)思想,提出了改進(jìn)的先驗(yàn)概率容差關(guān)系,新關(guān)系全面均衡地考慮了屬性間的相互關(guān)聯(lián)及已知和未知屬性對(duì)相似性的影響,從而使對(duì)象間的分類(lèi)更趨合理,分類(lèi)精度也得到進(jìn)一步提高。
定義5 在不完備決策系統(tǒng)S=(U,AT=C∪D,V,f)中,由A?C所決定的改進(jìn)先驗(yàn)概率容差關(guān)系為
顯然,改進(jìn)的先驗(yàn)概率容差關(guān)系是自反的、對(duì)稱(chēng)的,但不一定是傳遞的。
定義6 在不完備決策系統(tǒng)S=(U,AT=C∪D,V,f)中,對(duì)象集合X?U關(guān)于屬性集A?C基于改進(jìn)的先驗(yàn)概率容差關(guān)系的上近似集下近似集
定理1 設(shè)S=(U,AT=C∪D,V,f)是一個(gè)不完備決策系統(tǒng),由A?C決定的改進(jìn)先驗(yàn)概率容差關(guān)系為IT(A),則對(duì)于任意X,Y∈U,有:
證明由上、下近似定義直接驗(yàn)證即得。
該定理表明,改進(jìn)先驗(yàn)概率容差關(guān)系的上、下近似集合保持原集合的包含關(guān)系不變。
定理2 設(shè)S=(U,AT=C∪D,V,f)是一個(gè)不完備決策系統(tǒng),A?C,X?U,對(duì)于由A決定的容差關(guān)系TA和改進(jìn)的先驗(yàn)概率容差關(guān)系IT(A),下列關(guān)系成立:
證明顯然,對(duì)于?x,y∈U
而且
由定理2知,改進(jìn)的先驗(yàn)概率容差關(guān)系與容差關(guān)系相比減小了不確定性邊界,從而提高了分類(lèi)精度。
表1所示為一個(gè)不完備決策系統(tǒng),a1,a2,a3,a4代表?xiàng)l件屬性,d是決策屬性。U/ind(d)={φ,ψ},其中:φ={u1,u2,u3,u5,u6,u9,u10},ψ={u4,u7,u8,u11,u12}。
表1 不完備決策系統(tǒng)Tab.1 Incomplete decision system
現(xiàn)在分別用文中所述的3種粗集模型來(lái)處理這個(gè)實(shí)例。
首先對(duì)于容差關(guān)系有
近似精度
對(duì)于先驗(yàn)概率容差關(guān)系,如果取閾值τ=0.3,則有
由于對(duì)象u1和u2的后三個(gè)屬性值均相同,只有u2的第一個(gè)屬性值未知,按照常理他們不可區(qū)分的可能性非常大,但根據(jù)先驗(yàn)概率容差關(guān)系模型他們卻是可區(qū)分的,這顯然不太符合實(shí)際和人在分類(lèi)中的主觀感受(u7和u9及u10和u11也有類(lèi)似情況)。改進(jìn)的先驗(yàn)概率容差關(guān)系恰好克服了上述不合理性。綜上,進(jìn)一步驗(yàn)證了改進(jìn)的先驗(yàn)概率容差關(guān)系既克服了容差關(guān)系分類(lèi)過(guò)于粗糙的缺陷、提高了分類(lèi)近似精度,又彌補(bǔ)了先驗(yàn)概率容差關(guān)系分類(lèi)的不足。
本文分別分析了基于容差關(guān)系和先驗(yàn)概率容差關(guān)系的粗糙集模型,并針對(duì)先驗(yàn)概率容差關(guān)系模型在處理未知屬性時(shí)只參考已知縱向信息而對(duì)橫向信息運(yùn)用不足的缺陷,提出一種改進(jìn)的先驗(yàn)概率容差關(guān)系,并在此基礎(chǔ)上建立了相應(yīng)的粗集擴(kuò)充模型。新模型與容差關(guān)系模型相比提高了對(duì)象間的相似程度和分類(lèi)精度,同時(shí)又克服了先驗(yàn)概率容差關(guān)系模型在分類(lèi)上的缺陷。通過(guò)實(shí)例演算,進(jìn)一步驗(yàn)證了改進(jìn)的先驗(yàn)概率容差關(guān)系的優(yōu)點(diǎn)。一般在信息系統(tǒng)數(shù)據(jù)量較大、屬性間存在明顯關(guān)聯(lián)關(guān)系且未知屬性值所占比重較小時(shí),用這種模型進(jìn)行數(shù)據(jù)處理和分析是可行且具有優(yōu)勢(shì)的。下一步應(yīng)在本文提出的改進(jìn)先驗(yàn)概率容差關(guān)系的基礎(chǔ)上,進(jìn)一步研究不完備系統(tǒng)中屬性約簡(jiǎn)和規(guī)則抽取算法,為實(shí)際應(yīng)用系統(tǒng)開(kāi)發(fā)奠定理論基礎(chǔ)。
[1]PAWLAK Z.Rough set[J].International Journal of Computer and Information Science,1984,11:341-356.
[2]GRZYMALA-BUSSE J W,F(xiàn)U M.A Comparison of Several ApproachestoMissingAttributeValuesinDataMining[C]//ProcComputing.Berlin:Springer-Verlag,2000:378-385.
[3]KRYSZKIEWICZ M.Rough set approach to incomplete information system[J].Information Sciences,1998,112:39-49.
[4]STEFANOWSKI J,TSOUKIAS A.On the Extension of Rough Sets under Incomplete Information[C]//Proc of the 7th Int’1 Workshop on New Directions in Rough Sets,Data Mining,and Granular-Soft Computing. Berlin:Springer-Verlag,1999:73-81.
[5]王國(guó)胤.Rough集理論在不完備信息系統(tǒng)中的擴(kuò)充[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1238-1243.
[6]瞿彬彬,盧炎生.基于限制非對(duì)稱(chēng)相似關(guān)系模型的規(guī)則獲取算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2007,28(7):1221-1224.
[7]朱顥東,周 姝,鐘 勇.不完備信息系統(tǒng)粗集擴(kuò)展模型[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,24(3):73-77.
(責(zé)任編輯:楊媛媛)
Rough set model based on improved prior probability
TAO Zhi,LIU Cai-ping
(College of Science,CAUC,Tianjin 300300,China)
Rough set models based on tolerance relation and a prior probability tolerance relation are important expansions of the rough set theory,yet there are some limitations.Combining the advantages of the two models,an improved prior probability rough set model is proposed.The new model is based on the statistics of property values in incomplete decision system,taking into account both the same attribute's different values and the correlation between different attributes.The model can effectively improve classification accuracy and rationality.The model has a strong practicability in system which has fewer unknown attribute values and exists a significant association in different attributes.
rough set;incomplete system;improved tolerance relation
TP18
:A
:1674-5590(2014)08-0048-04
2013-06-17;
:2013-10-14
國(guó)家自然科學(xué)基金項(xiàng)目(60672178);中國(guó)民航大學(xué)科研基金項(xiàng)目(2010kys01)
陶 志(1963—),男,遼寧沈陽(yáng)人,教授,博士,研究方向?yàn)閺?fù)雜系統(tǒng)建模、粗糙集理論及其應(yīng)用等.