李桂秋 田德路
摘 ?要:粗糙集在數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、模式識別等領域的成功應用,使得粗糙集理論的研究有了很大的發(fā)展。但是由于對不精確屬性值的處理過于簡單化,阻礙了粗糙集理論在不完備信息系統(tǒng)中的進一步應用。論文對不精確屬性值和已有的基于集對分析的粗糙集模型進行了分析,提出了廣義聯(lián)系度的概念,并以此為基礎進一步完善了集對粗糙集理論,并且有力地說明了論文提出的廣義集對粗糙集模型能在不完備信息系統(tǒng)中得到更好的應用。
關鍵詞:粗糙集;不完備信息系統(tǒng);集對分析;不精確屬性值;廣義聯(lián)系度
1 ?引言
粗糙集理論[1,2,3]作為一種研究不精確信息系統(tǒng)的數(shù)學工具,自1982年波蘭學者Pawlak提出至今在知識發(fā)現(xiàn)、模式識別、決策分析、數(shù)據(jù)挖掘等領域得到廣泛的應用。Pawlak提出的粗糙集理論是基于完備信息系統(tǒng),即每個樣本對象的所有屬性值都是精確的,但在現(xiàn)實中由于對數(shù)據(jù)測量的誤差,対數(shù)據(jù)的遺漏以及數(shù)據(jù)獲取的限制等原因,使得我們往往面臨的是不完備信息系統(tǒng),即可能存在部分對象的部分屬性值不精確的情況。處理不完備信息系統(tǒng),目前主要有兩類方法:一類是間接處理方法,其特點是通過一定的方法(通常是基于概率統(tǒng)計)把不完備信息系統(tǒng)轉化為完備信息系統(tǒng),即數(shù)據(jù)補齊;另一類是直接處理方法,其特點是對經(jīng)典粗糙集理論中的相關概念在不完備信息系統(tǒng)下進行適當擴充[4]。
導致屬性值不精確的原因很多,所以我們遇見的不精確屬性值也各種各樣,各種不精確屬性值在解決實際問題中所起的作用往往是不一樣的,單一的處理這些不精確屬性值往往得不到理想的結果。在這樣的背景下,本文對不精確屬性值進行了分類,并通過對已有的集對粗糙集模型的分析,進一步完善了集對粗糙集理論,使得集對粗糙集模型在處理大型的或者小型的不完備信息系統(tǒng),以及空值較多或者空值較少的不完備信息系統(tǒng)時優(yōu)越性都較好。
2 ?基本概念
定義1 四元數(shù)組 稱為一個信息系統(tǒng),其中 是對象的非空有限集合,稱為論域; 是屬性的非空有限集合, 是條件屬性集合, 是決策屬性集合,且 ; , 表示屬性 的值域; 是一個信息函數(shù),它為每個對象在每個屬性上賦予一個信息值,即 , , 。若 ,則稱信息系統(tǒng)為數(shù)據(jù)表,否則為決策表。若至少存在一個 , ,有 不精確,則稱信息系統(tǒng) 為不完備的,否則稱信息系統(tǒng)是完備的。
文獻[5]中提到丟失型、遺漏型空值,這篇論文和文獻[5]對空值有不同的見解。這篇論文給“空值”以另一個解釋:“不精確屬性值”。在不完備信息系統(tǒng)中,我們對不精確屬性值根據(jù)其產(chǎn)生的原因對其進行分類:遺漏型不精確屬性值,記為 ,其特點是存在于相應屬性的屬性值集合中,由于沒有被記載而導致的不精確;變異型不精確屬性值,以下稱變異型屬性值,記為 ,其特點是它不屬于對應屬性的屬性值的集合,也就是說它與對應屬性的屬性值集合中的任一元素都有差異,由于對象在進化過程中產(chǎn)生了變異或者記載錯誤而導致的不精確;丟失型不精確屬性值,記為?,其特點是在目前的條件下我們對對象的該屬性值沒有任何認識,比如一個病人不適合做某項儀器檢查,在這個儀器下,我們可能檢測不到病人患有任何疾病。這樣我們對不精確屬性值就有了一個新的認識。
現(xiàn)實中,遺漏型不精確屬性值和丟失型不精確屬性值對我們研究問題的意義是一樣的。因為這兩種屬性值對我們來說都是沒有任何記載的,所以在實際問題中我們把這兩種不精確屬性值同等處理都稱為空白型屬性值,記為 。
簡單說明:在本文中,如果對象 在屬性 下的屬性值是變異型屬性值,則記 ,這并不是說 在 下的屬性值是 , 僅是變異型屬性值的標記。
集對分析(SPA)是我國學者趙克勤于1989年正式提出用于研究兩個集合相互關系的理論,其核心思想是把被研究的客觀事物的確定性聯(lián)系和不確定性聯(lián)系作為一個確定不確定系統(tǒng)來分析和處理[6]。下面給出集對分析中的一個重要概念。
7 ?結論
論文對不精確屬性值和已有的基于集對分析的粗糙集模型進行了分析,提出了廣義聯(lián)系度的概念,論文以此為基礎進一步完善了集對粗糙集理論。 與 的廣義集對相似關系以及對象 的廣義 ?鄰域中多個加權系數(shù)的使用,使得廣義集對粗糙集模型處理問題比較靈活,通過調節(jié)加權系數(shù) ?的值得到符合主觀和客觀要求的結果。有力地說明了廣義集對粗糙集模型有更廣泛的應用環(huán)境,能在不完備信息系統(tǒng)中得到更好的應用。下一步的工作是在廣義集對粗集模型的基礎上研究不完備信息系統(tǒng)的屬性約簡和規(guī)則提取問題,為實際應用奠定理論基礎。
參考文獻
[1] ?Pawlak Z. Rough Set Theory and Its Application to Data Analysis[J]. Cybernetics and Systems,1998,29(9):661-668.
[2] ?Pawlak Z,Busse J G,Slowinski R. et al,Rough Sets[J]. Communications of the ACM,1995,38(11):89-95.
[3] ?Z. Pawlak,A. Skowron,Rough Sets:some extensions,Information Sciences,177(2007)28-40.
[4] ?王國胤.Rough集理論在不完備信息系統(tǒng)中的擴充[J].計算機研究與發(fā)展,2002,39(10):1238-1243.
[5] ?陳蓉素.不完備信息系統(tǒng)中的集對粗糙集模型分析[J].計算機工程與應用,2009,45(16):63-65.
[6] ?黃兵,鐘斌,周獻中.改進集對粗集模型[J].計算機工程與應用,2004,18(9):82-84.
[7] ?趙克勤.集對分析及其初步應用[M]. 杭州:浙江科學技術出版社,2000年3月第一版,15-16.
[8] ?黃兵,等,基于集對分析的不完備信息系統(tǒng)粗糙集模型分析[J].計算機科學,2002.29(9.???-3.
[9] ?鄧毅雄,黃兆華.不完備信息系統(tǒng)的基于集對分析粗糙集模型[J].華東交通大學學報,Vol.22 No.2,Apr.,2005,100-103.
[10] ?徐怡,李龍澍,李學俊.擴充的基于集對聯(lián)系度的粗糙集模型[J] .Proceedings of the 26# Chinese Control Conference,July 26-31,2007,Zhangjiejia,Hunan,China 372-375.
[11] ?陶志,戴慧君,張艷.不完備信息系統(tǒng)中集對粗集模型[J].計算機應用,2008,28(7):1684-1685,1691.
[12] ?Li Wanqing,Ma Lihua,Meng Wenqing,Du Fengqiu. Analysis of Risk Decision of E-Commerce Project Based on Data Mining Of Rough Sets. International Conference on Computer Engineering and Applications. Gold Coast,Australia,January 17-19,2007,24-28.
[13] ?Hrudaya Ku. Tripathy,B. K. Tripathy,and Pradip K. Das. An Intelligent Approach of Rough Set in Knowledge Discovery Databases. International Journal of Computer Science and Engineering 2,Winter 2008,45-48.
[14] ?張文修,等,粗糙集理論與方法 [M]. 北京:科學出版社.2001.07.第一版,46.
作者簡介:李桂秋,女,1984年生,山東菏澤人,碩士,主要研究領域為復雜系統(tǒng)建模、粗糙集理論及其應用等。
基金支持:廣州市科技計劃項目(No:201804010088),廣東省普通高校特色創(chuàng)新類項目(No:2018KTSCX160),廣東第二師范學院質量工程項目(No:2019jxtd01,2018zygxk16)。