陶 志,王桂濱,李桂秋
(中國民航大學(xué)理學(xué)院,天津 300300)
一種新約束容差關(guān)系的粗糙集模型
陶 志,王桂濱,李桂秋
(中國民航大學(xué)理學(xué)院,天津 300300)
基于容差關(guān)系和先驗(yàn)概率容差關(guān)系的粗集模型是粗糙集理論的重要擴(kuò)充,然而其卻均有自己的局限性。結(jié)合上述兩種模型的優(yōu)點(diǎn),提出了一種新約束容差關(guān)系,新約束容差關(guān)系的粗集模型是建立在對(duì)不完備信息系統(tǒng)屬性值統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)上的,可有效提高分類精度和同類對(duì)象間的相似程度。實(shí)例分析表明,新的模型更具有實(shí)用性和操作性。
粗糙集;不完備信息系統(tǒng);容差關(guān)系;先驗(yàn)概率容差關(guān)系;新約束容差關(guān)系
1982年,波蘭數(shù)學(xué)家Pawlak教授提出了粗糙集理論,粗糙集理論是一種研究不確定和不精確性知識(shí)的數(shù)學(xué)工具,且已被成功地應(yīng)用于人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別與智能信息處理等領(lǐng)域。但遺憾的是他是基于完備信息系統(tǒng)這樣一個(gè)假設(shè),即所處理的信息系統(tǒng)是完備的,每個(gè)樣本對(duì)象的所有屬性值都是已知的情況。而在生產(chǎn)實(shí)踐中,由于采集設(shè)備發(fā)生故障或是對(duì)數(shù)據(jù)要求較高等原因,使某些樣本數(shù)據(jù)的屬性值往往存在缺失,因此建立用于處理不完備信息系統(tǒng)的粗集模型十分必要。近年來,不完備信息系統(tǒng)中知識(shí)的獲取問題已經(jīng)成為粗糙集理論與應(yīng)用研究的熱點(diǎn)問題??傮w而言,目前對(duì)不完備信息系統(tǒng)的處理方法主要有兩種:一是間接處理方法,其特點(diǎn)是通過一定的方法(概率統(tǒng)計(jì))把不完備信息系統(tǒng)轉(zhuǎn)化為完備信息系統(tǒng)[1-5];二是直接處理方法,其特點(diǎn)是對(duì)經(jīng)典粗糙集模型的相關(guān)概念在不完備信息系統(tǒng)中進(jìn)行擴(kuò)展[6-9]。并且就國內(nèi)外研究結(jié)果來看,不完備信息系統(tǒng)中的未知屬性值可以被認(rèn)為具有兩種不同語義的解釋:
1)所有的未知屬性值僅僅是遺漏的,但又是確實(shí)存在的;
2)所有的未知屬性值都被認(rèn)為是缺席的(丟失的),是不允許被比較的。
本文以容差關(guān)系和先驗(yàn)概率容差關(guān)系模型為基礎(chǔ),并結(jié)合兩者的數(shù)學(xué)思想,提出了一種新約束容差關(guān)系,并且討論了基于新約束容差關(guān)系的粗糙集模型的特點(diǎn)及其相關(guān)性質(zhì),為不完備信息系統(tǒng)的數(shù)據(jù)處理提供了一種新的有效方法。
定義1 在不完備信息系統(tǒng)S=(U,AT=C∪D,V)中,若所有未知屬性值均被認(rèn)為是遺漏型的(“*”),則由屬性集 A?AT 決定的容差關(guān)系[1]為:TA(x,y)??a∈A,a(x)=a(y)∨a(x)=*∨a(y)=*,x,y∈U。
容差關(guān)系認(rèn)為所有未知屬性均是遺漏型并且遺漏屬性值可與任意值相匹配,從而會(huì)將具有很少已知且相等屬性值的對(duì)象判定在同一個(gè)容差類中,如此分類顯然過于寬松。如 x={*,2,*,*,*,*,*,*},y={*,2,*,*,*,*,*,*},對(duì)象 x 和 y在所有 8 個(gè)屬性值中只有一個(gè)屬性值是已知且相等,若將兩者劃分在同一個(gè)容差類中明顯不夠合理。
為提高同一分類中兩個(gè)對(duì)象間的相似程度,朱顥東等人依據(jù)概率統(tǒng)計(jì)技術(shù)提出了基于先驗(yàn)概率容差關(guān)系的粗集模型[2],有效克服了上述容差關(guān)系的不足。
在不完備信息系統(tǒng) S=(U,AT=C∪D,V)中,屬性ai∈C,Vi={νi1,νi2,…,νimi}表示 ai的值域,Pi={pi1,pi2,…,pimi}表示值域Vi中各個(gè)值出現(xiàn)的頻率,mi表示該屬性值域的大小。先驗(yàn)概率容差關(guān)系模型認(rèn)為屬性ai取各個(gè)屬性值的概率是不相同的,“*”傾向于取出現(xiàn)概率較大的值,即 pi1≥pi2? P(*= νi1)≥P(*= νi2)。
定義3(相似度) 在不完備信息系統(tǒng)S=(U,AT=C∪D,V)中,x,y∈U,ai∈C,對(duì)象 x,y 在屬性 ai∈C 上的相似度Ri(x,y)可表示為
定義4(先驗(yàn)概率容差關(guān)系) 在不完備信息系統(tǒng) S=(U,AT=C∪D,V)中,由屬性集 A?AT決定的先驗(yàn)概率容差關(guān)系為
綜上所述,容差關(guān)系沒有考慮到取值明確且相等的屬性占所有屬性的比率對(duì)兩對(duì)象間相似性的影響,而先驗(yàn)概率容差關(guān)系雖然考慮到上述影響,但條件過于嚴(yán)格,過分看重未知屬性對(duì)對(duì)象之間相似程度的影響。本文提出的新約束容差關(guān)系克服了以上兩種關(guān)系的缺點(diǎn),全面均衡地考慮到已知和未知屬性對(duì)相似性的影響,從而使對(duì)象間的分類更趨合理。
定義6 在不完備信息系統(tǒng)S=(U,AT=C∪D,V)中,若所有未知屬性值均被認(rèn)為是遺漏型的(“*”),則由A?AT所決定的新約束容差關(guān)系為
由定義可知,通過引進(jìn)閾值α可以很好地控制取值明確且相等屬性的個(gè)數(shù)在所有屬性中所占比例,目的是通過適當(dāng)增大α可以提高分類的準(zhǔn)確性。引入β主要考慮到當(dāng)兩個(gè)對(duì)象已知且相等屬性在所有屬性中所占的比例并不是很大但未知屬性間的相似度卻很高時(shí),仍可將其看作在同一容差類中。
顯然,新約束容差關(guān)系是自反的、對(duì)稱的,但不一定是傳遞的。并且當(dāng)α,β=0時(shí),新約束關(guān)系就退化為容差關(guān)系。
例 如表1所示的不完備信息系統(tǒng)中,a1,a2,…,a5代表?xiàng)l件屬性“*”表示未知屬性值,d代表決策屬性。
表1 不完備信息系統(tǒng)Tab.1 Incomplete information system
1)根據(jù)容差關(guān)系分析表1得
由以上例子可看出,新約束容差關(guān)系吸收了容差關(guān)系和先驗(yàn)概率容差關(guān)系的優(yōu)點(diǎn),克服了兩者的缺陷。如x1、x8在所有屬性中有且僅有一個(gè)屬性是取值明確且相等的,事實(shí)上兩者屬于同一類的可能性很小,但是根據(jù)容差關(guān)系兩者卻被劃分在同一個(gè)容差類中。而x1、x2在所有屬性中有80%的屬性取值明確且相等,兩者屬于同一類的可能性應(yīng)該很大,但根據(jù)先驗(yàn)概率容差關(guān)系兩者卻不在同一類中。上述兩種情況如果按新約束容差關(guān)系重新劃分正好彌補(bǔ)了二者的不足。
經(jīng)典粗糙集只能處理具有完備屬性值的信息系統(tǒng),然而在現(xiàn)實(shí)世界中由于各種原因,需處理的信息系統(tǒng)往往是不完備的。建立不完備系統(tǒng)中拓展粗集模型并依此進(jìn)行數(shù)據(jù)分析已經(jīng)成為粗糙集理論研究的一個(gè)熱點(diǎn)問題。本文結(jié)合容差關(guān)系和先驗(yàn)概率容差關(guān)系的優(yōu)點(diǎn)提出了一種新約束容差關(guān)系,并且該種關(guān)系對(duì)于屬性值是“遺漏型”的情形有更好的應(yīng)用前景,因?yàn)樵摲N關(guān)系更加全面合理地考慮了對(duì)象之間的相似程度,通過前文分析可知只要合理地設(shè)置閾值α、β,新約束容差關(guān)系既可以大幅提高分類精度和同類對(duì)象間的相似程度,又可使分類更趨合理。文獻(xiàn)[9]中提出的粗糙集模型中,限制容差關(guān)系僅僅滿足對(duì)稱性,至于自反性還不一定滿足,這顯然很不符合人們的思維習(xí)慣。由此可以看出,本文所提出的新約束容差關(guān)系為不完備信息系統(tǒng)的數(shù)據(jù)處理提供了新的解決思路。下一步工作應(yīng)該是在本文提出的新約束容差關(guān)系的基礎(chǔ)上,進(jìn)一步研究不完備系統(tǒng)中屬性約簡和規(guī)則抽取算法,為實(shí)際應(yīng)用系統(tǒng)開發(fā)奠定理論基礎(chǔ)。
[1] KRYSZKIEWICZ M.Rough set approach to incomplete information system[J].Information Sciences,1998,112:39-49.
[2] 朱顥東,周 姝,鐘 勇.不完備信息系統(tǒng)粗集擴(kuò)展模型[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,24(3):73-77.
[3] 官禮和.基于粗糙集理論的不完備信息處理方法的研究[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,21(4):461-466.
[4] 鄧耀進(jìn),李仁發(fā).一種基于量化容差關(guān)系的粗糙集改進(jìn)模型[J].科學(xué)技術(shù)與工程,2008,16(8):4518-4526.
[5] ZHANG ZAI-MEI,LI REN-FA,LI ZHONG-SHENG,et al.An Incomplete Data Analysis Based on the Rough Set Theory and Divideand-Conquer Idea[C]//Fourth International Conference on Fuzzy Systems and Knowledge Discovery,Haikou,August 24-27,2007:119-123.
[6] YANG XI-BEI,YANG JING-YU,HU XIAO-HUA.A New Rough Set Model for Knowledge Acquisition in Incomplete Information System[C]//IEEE International Conference on Granular Computing,Nanchang,August 17-19,2009:696-701.
[7] 于東軍.不完備信息系統(tǒng)中一種拓展粗糙集模型[J].淮陰工學(xué)院學(xué)報(bào),2008,17(1):31-37.
[8] 王 蕊,饒?zhí)熨F.不完備信息系統(tǒng)的粗糙集擴(kuò)充方法[J].重慶工學(xué)院學(xué)報(bào)(自然科學(xué)),2008,22(3):51-54.
[9] 劉后勝,熊范綸,李紹穩(wěn).基于限制容差關(guān)系的不完備信息系統(tǒng)粗集模型拓展[J].生物數(shù)學(xué)學(xué)報(bào),2008,23(3):534-538.
New Constraint Tolerance Relation Rough Set Model
TAO Zhi,WANG Gui-bin,LI Gui-qiu
(College of Science,CAUC,Tianjin 300300,China)
The prior probability tolerance relation and tolerance relation are the significant expansion of the rough set.However,they do have their own limitations.In this paper,we combine the advantages of these two models,and propose a new constraint tolerance relations.The new relation is based on the incomplete information system property value based on statistical data.The new relation can effectively improve the classification accuracy and the same degree of similarity between objects.The case shows that the new model is more practical and operational.
rough set;incomplete information system;tolerance relation;prior probability tolerance relation;new constraint tolerance relation
TP18
A
1674-5590(2010)04-0056-04
2010-01-18;
2010-04-21 基金項(xiàng)目:國家自然科學(xué)基金委員會(huì)與中國民用航空局聯(lián)合資助項(xiàng)目(60672178)
陶 志(1963—),男,遼寧沈陽人,教授,博士,研究方向?yàn)閺?fù)雜系統(tǒng)建模、粗糙集理論及其應(yīng)用等.
(責(zé)任編輯:楊媛媛)