陶 志,李桂秋
(中國(guó)民航大學(xué)理學(xué)院,天津 300300)
基于集值信息系統(tǒng)的改進(jìn)粗集模型
陶 志,李桂秋
(中國(guó)民航大學(xué)理學(xué)院,天津 300300)
提出了一種新的帶有參數(shù)的改進(jìn)容許關(guān)系,并討論了基于該容許關(guān)系的粗糙集擴(kuò)充模型,證明了相關(guān)定理。理論分析表明,通過(guò)合理設(shè)置參數(shù)值,可使新擴(kuò)充模型比以往模型具有更好的分類效果,從而提高了對(duì)數(shù)據(jù)預(yù)測(cè)、分類的準(zhǔn)確度。實(shí)例分析進(jìn)一步驗(yàn)證了改進(jìn)容許關(guān)系及其擴(kuò)充模型的優(yōu)越性。
粗糙集;不完備信息系統(tǒng);集值信息系統(tǒng);改進(jìn)容許關(guān)系
經(jīng)典粗糙集理論[1-2]是在20世紀(jì)80年代初由波蘭數(shù)學(xué)家Z.Pawlak提出,主要用于研究完備信息系統(tǒng)。而在實(shí)際問(wèn)題中,由于種種原因,某些對(duì)象的屬性值可能是無(wú)法得到的、或是不完整、不精確的,也就是說(shuō)現(xiàn)實(shí)中不完備信息系統(tǒng)是普遍存在的。處理不完備信息系統(tǒng),目前主要有兩類方法:一類是間接處理方法,其特點(diǎn)是通過(guò)一定的方法(通常是基于概率統(tǒng)計(jì))把不完備信息系統(tǒng)轉(zhuǎn)化為完備信息系統(tǒng),即數(shù)據(jù)補(bǔ)齊;另一類是直接處理方法,其特點(diǎn)是對(duì)經(jīng)典粗糙集理論中的相關(guān)概念在不完備信息系統(tǒng)下進(jìn)行適當(dāng)擴(kuò)充[3]。集值粗糙集模型涵蓋了以上兩類方法的核心思想,用該方法研究不完備信息系統(tǒng),即是先對(duì)未知屬性值賦值(在這里認(rèn)為未知屬性值取相應(yīng)屬性值域中的某個(gè)子集),把不完備信息系統(tǒng)轉(zhuǎn)化為集值信息系統(tǒng),然后再將經(jīng)典粗糙集理論在集值信息系統(tǒng)下進(jìn)行擴(kuò)充。
本文列出了已有的幾個(gè)典型集值信息系統(tǒng)粗集模型,并分析了其優(yōu)缺點(diǎn),在此基礎(chǔ)上提出一種改進(jìn)的集值粗糙集模型,該模型中引入了兩個(gè)參數(shù)α和β,實(shí)際問(wèn)題中可通過(guò)合理地設(shè)置參數(shù)值,提高分類精度,克服了上述幾個(gè)典型集值粗集模型中可能存在的分類過(guò)于粗糙和不合理的缺陷,從而使不完備信息系統(tǒng)集值粗集模型能在更廣泛的背景下得到應(yīng)用。
定義2 稱(U,A,F(xiàn))是集值信息系統(tǒng),若U={x1,…,xn}為對(duì)象集,每個(gè)xi(i≤n)稱為一個(gè)對(duì)象;A={a1,…,am}為屬性集,每個(gè)al(l≤m)稱為一個(gè)屬性;F={fl∶l≤m}為對(duì)象屬性值映射,其中fl∶U→P0(Vl)(l≤m),Vl是屬性al的值域,P0(Vl)表示Vl的非空子集全體[4]。
設(shè)(U,A,F(xiàn))是一個(gè)集值信息系統(tǒng),任意屬性子集B?A。
變精度容許關(guān)系同樣沒(méi)有考慮兩個(gè)對(duì)象取值明確且相等的屬性個(gè)數(shù)對(duì)相似性的影響,這樣就容易把兩個(gè)沒(méi)有任何相等屬性值的對(duì)象認(rèn)為是不可區(qū)分的。例如,對(duì)象 xi=({1,2},{2,3},{1,2,3},{1,2,3,4,5})與xj=({1,2},{2,3},{1,2,3},{1,2,3,4}),這兩個(gè)對(duì)象沒(méi)有任何一個(gè)取值明確且相等的屬性值,而在關(guān)系下xi與xj卻很可能是相容的,這同樣不太符合人在數(shù)據(jù)處理中的直觀感覺(jué)。
事實(shí)上,兩個(gè)對(duì)象的相似程度既要考慮未知屬性對(duì)對(duì)象之間相似程度的影響,又要考慮兩個(gè)對(duì)象間取值明確且相等的屬性占整個(gè)屬性的比率,這樣才能使對(duì)象間的分類更趨合理。上述幾種關(guān)系都沒(méi)有考慮到取值明確且相等的屬性對(duì)兩對(duì)象間相似性的影響,過(guò)分看重未知屬性的影響,因而會(huì)造成分類過(guò)于粗糙和不精細(xì)。
為了全面均衡地考慮已知和未知屬性對(duì)相似性的影響,克服上述模型的不足,本文提出一種改進(jìn)的容許關(guān)系,改進(jìn)的容許關(guān)系可通過(guò)控制參數(shù)閾值來(lái)調(diào)整分類精度。
在實(shí)際問(wèn)題中,可根據(jù)需求調(diào)整α和β的值,以期得到主、客觀一致的結(jié)果。
定義4 設(shè)(U,A,F(xiàn))是一個(gè)集值信息系統(tǒng),X?U,B?A。則X的上、下近似集、正域、負(fù)域、邊界分別定義為
在表1所示的不完備集值信息系統(tǒng)中,U={x1,x2,…,x10},X={x1,x2,x4,x6,x10},A={a1,a2,a3,a4,a5}。利用本文提出的改進(jìn)的集值粗糙集模型分析如下。
表1 不完備集值信息系統(tǒng)Tab.1 Incomplete information system of set valued
析結(jié)果如下
將不完備信息系統(tǒng)轉(zhuǎn)化為集值信息系統(tǒng),為處理不完備信息系統(tǒng)提供了新的有效方法。本文提出了一種基于改進(jìn)容許關(guān)系的新的集值粗糙集模型,此模型克服了二元關(guān)系限制性太強(qiáng)和相容關(guān)系太過(guò)寬松的缺陷,同時(shí)也彌補(bǔ)了變精度容許關(guān)系未考慮取值明確且相等屬性對(duì)相容度影響的不足。依據(jù)改進(jìn)容許關(guān)系所得的分類結(jié)果更加符合實(shí)際情況以及人在數(shù)據(jù)處理過(guò)程中的直觀感覺(jué)。從文中分析還可以看出,只要合理地設(shè)置閾值α和β,新建立的粗集模型比以往各種拓展粗糙集模型分類更趨合理,大幅提高了同類對(duì)象間的相似程度和分類精度。下一步工作應(yīng)該是在本文提出的改進(jìn)容許關(guān)系的基礎(chǔ)上,進(jìn)一步研究不完備系統(tǒng)中屬性約簡(jiǎn)和規(guī)則抽取算法,為實(shí)際應(yīng)用系統(tǒng)開(kāi)發(fā)奠定理論基礎(chǔ)。
[1]PAWLAK Z.Rough Sets:Theoretical Aspects of Reasoning About Data[M].Boston:Kluwer Academic Publishers,1991.
[2] PAWLAK Z.Rough set theory and its application to data analysis[J].Cybernetics and Systems,1998,29(9):661-668.
[3] 王國(guó)胤.Rough集理論在不完備信息系統(tǒng)中的擴(kuò)充[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1238-1243.
[4] 張文修,梁 怡,吳偉志.信息系統(tǒng)與知識(shí)發(fā)現(xiàn)[M].北京:科學(xué)出版社,2003.
[5] 宋笑雪,李鴻儒,張文修.集值信息系統(tǒng)的知識(shí)約簡(jiǎn)與屬性特征[J].計(jì)算機(jī)工程,2006,32(22):26-27,36.
[6] 宋笑雪,解爭(zhēng)龍,張文修.集值決策信息系統(tǒng)的知識(shí)約簡(jiǎn)與規(guī)則提取[J].計(jì)算機(jī)科學(xué),2007,34(4):182-184,191.
[7] 陳子春,秦克云.集值信息系統(tǒng)基于變精度相容關(guān)系的知識(shí)約簡(jiǎn)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(9):20-23.
Improvement of Rough Set Model Based on Set Valued Information System
TAO Zhi,LI Gui-qiu
(College of Science,CAUC,Tianjin300300,China)
This paper puts forward an improved tolerance relationship which has parameters,discusses the new expanded rough set model based on the relationship,and proves the correlative theorems of the new model.Theoretical analysis shows that the new model,by setting parameters reasonably,has better classification ability than other rough set models.The new model enhances the accuracy of data predication and data classification.The case analysis further validates the advantages of the improved tolerance relationship and the expanded rough set model based on it.
rough set;incomplete information system;set valued information system;improved tolerance relation
TP18
A
1674-5590(2010)06-0045-04
2010-05-12;
2010-07-16
國(guó)家自然科學(xué)基金委員會(huì)與中國(guó)民用航空總局聯(lián)合資助項(xiàng)目(60672178);中國(guó)民航大學(xué)校級(jí)科研項(xiàng)目(2010kys01)
陶 志(1963—),男,遼寧沈陽(yáng)人,博士,教授,研究方向?yàn)閺?fù)雜系統(tǒng)建模、粗糙集理論及其應(yīng)用.
(責(zé)任編輯:李侃)