摘 要 粗糙集理論是一種新穎、有效的軟計(jì)算方法,是分析和處理不完備信息的一種數(shù)學(xué)工具。本文介紹了粗糙集理論的基本概念和發(fā)展歷程,闡述了粗糙集理論的應(yīng)用領(lǐng)域。
關(guān)鍵詞 粗糙集 模糊集 神經(jīng)網(wǎng)絡(luò)
中圖分類號:O24 文獻(xiàn)標(biāo)識碼:A
0 引言
隨著大規(guī)模數(shù)據(jù)庫的廣泛使用和因特網(wǎng)的迅猛發(fā)展,龐大的信息量已滲透到社會生活和生產(chǎn)的各個(gè)領(lǐng)域。由于人的參與以及自然語言中存在的模糊性和歧義性使得數(shù)據(jù)與信息不夠準(zhǔn)確,甚至不完整。如何處理這些模糊的、不確定的、不完整的大量信息,從中獲取潛在的、正確的、有利用價(jià)值的知識?
粗糙集(Rough Set)理論是一種刻畫不完整性和不確定性的數(shù)學(xué)工具,能有效分析和處理不精確、不一致和不完整等各種不完備信息,并從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。 它對人工智能和認(rèn)知科學(xué)非常重要,且為數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、決策分析和支持系統(tǒng)、模式識別、粒度計(jì)算、近似推理等領(lǐng)域的信息處理提供了很有效的理論框架。
1 粗糙集理論基礎(chǔ)
1.1 與知識相關(guān)的定義
定義1 知識庫:假設(shè)R是在論域U基礎(chǔ)上的一個(gè)等價(jià)關(guān)系,那么,U/R則表示為該論域U上R的等價(jià)類構(gòu)成的集合,所以,一個(gè)關(guān)系系統(tǒng)K = (U,R)就是一個(gè)知識庫。并且,一個(gè)知識庫對應(yīng)著一個(gè)劃分。通常情況下,我們用等價(jià)關(guān)系來代替分類,因此,知識庫代表了對論域U的一種分類能力。
定義2 不可分辨關(guān)系:如果P€H誖且P≠Q(mào),那么∩P(P中全部等價(jià)關(guān)系的交集)也是一種等價(jià)關(guān)系,稱其為P上的不可分辨關(guān)系,記為(P),此時(shí)U/(P),表示成ind(P)上的等價(jià)關(guān)系簇P的等價(jià)類構(gòu)成的集合,即與P相關(guān)的知識。
1.2 上、下近似集、正域、負(fù)域、邊界域
定義3 上近似集、下近似集:給定知識庫K = (U,S),S表示論域U上的等價(jià)關(guān)系簇,則€HOX€H誙和論域U上的一個(gè)等價(jià)關(guān)系R∈IND(K),定義子集X關(guān)于知識R的上近似集和下近似集分別為:
上近似:(X) = {∈U:[]R∩X≠€HT}
下近似:(X) = {∈U:[]R€H誜}
定義4 正域、負(fù)域和邊界域:(X) = (X)稱為X的R正域。表示論域U中R的某個(gè)或某些劃分完全屬于X。(X) = U(X)稱為X的R負(fù)域,表示根據(jù)知識R,肯定不屬于集合X的U中元素組成的集合。上近似和下近似的差(X) = (X)(X)稱為X的R邊界域,表示根據(jù)知識R,不能肯定屬于集合X也不能肯定屬于集合一X的U中元素組成的集合。由此可知,集合的不確定性是由邊界域引起的。
1.3 信息系統(tǒng)
定義5 信息系統(tǒng):四元組IS = (U,C,V, )是一個(gè)信息系統(tǒng),其中U = {,,…},為對象的非空有限集合,即論域; = {∣∈C}為屬性的非空有限集合,每個(gè)∈C(1≤≤)稱為C的一個(gè)簡單屬性;V = ∪表示信息函數(shù) 的值域,為屬性的值域; = {∣:U→}表示IS的信息函數(shù),為屬性的信息函數(shù)。
當(dāng)€HO∈C,€HO∈U,()沒有缺省值時(shí),我們稱信息系統(tǒng)是完備的,否則是不完備的。如果在知識系統(tǒng)KRS中,令A(yù) = C∪D(C∩D = €HT),其中C稱為條件屬性集,D稱為決策屬性集。若D = €HT,則知識表達(dá)系統(tǒng)就是一個(gè)信息系統(tǒng)(信息表);若D ≠ €HT,則稱知識表達(dá)系統(tǒng)是一個(gè)決策表。
2 粗糙集理論的背景及應(yīng)用
粗糙集理論是波蘭科學(xué)家Z· Pawlak于1982年提出的一種關(guān)于數(shù)據(jù)分析和推理的理論。1991年Z·Pawlak出版了第一本關(guān)于粗糙集的專著《Rough set:theoretical aspects of reasoning about data》,成為粗糙集理論研究的第一個(gè)里程碑。1993年在加拿大召開第二屆國際粗糙集理論與知識發(fā)現(xiàn)研討會,由于當(dāng)時(shí)正值數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD)成為研究的熱門話題,一些著名KDD學(xué)者參加了這次會議,介紹了許多應(yīng)用擴(kuò)展粗糙集理論的知識發(fā)現(xiàn)方法與系統(tǒng)。我國對粗糙集理論的研究起步較晚,始于20世紀(jì)90年代初期。王玨等人在將粗糙集理論引入作出了重要貢獻(xiàn)。2001年5月在重慶舉行了第一屆中國粗糙集理論與軟計(jì)算學(xué)術(shù)研討會(CRSSC)。
粗糙集理論與模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等理論相結(jié)合,開發(fā)了多個(gè)原型系統(tǒng),其中有代表性的有Rosetta系統(tǒng)、KDD-R系統(tǒng)、LERS系統(tǒng)等。粗糙集應(yīng)用在許多方面。
2.1 連續(xù)屬性的離散化
一般來說,數(shù)據(jù)庫中的屬性可以分為兩種類型:一種是連續(xù)(也稱定量)屬性,表示對象的某些可測性質(zhì),其取值自某個(gè)連續(xù)區(qū)間,如溫度等;另一種是離散(定性)屬性,這種屬性值使用語言或少量離散值來表述,如性別等。在大多數(shù)情況下,同一個(gè)數(shù)據(jù)庫中既包含連續(xù)屬性,也包含離散屬性。粗糙集理論為處理離散屬性提供了很有效的工具,但遺憾的是不能直接處理連續(xù)屬性。所以,連續(xù)屬性的離散化是制約粗糙集理論實(shí)用化的難點(diǎn)之一。目前已有一些離散化方法:Slowinski在研究一個(gè)醫(yī)療診斷決策表的粗糙分類時(shí),利用粗糙集理論將這類數(shù)據(jù)轉(zhuǎn)換成定性詞或詞匯表示的屬性值,如低、中、高等,在醫(yī)療診斷實(shí)踐中,這種轉(zhuǎn)換一般是根據(jù)專家的經(jīng)驗(yàn)標(biāo)準(zhǔn)來完成的,像這樣利用領(lǐng)域知識進(jìn)行連續(xù)屬性離散化的方法稱之為S方法。
2.2 不完備信息處理
由于一些原因,如對數(shù)據(jù)測量的誤差、數(shù)據(jù)處理和數(shù)據(jù)獲取的限制等,造成數(shù)據(jù)丟失,而經(jīng)典粗糙集理論只能處理完備的信息系統(tǒng)。為了利用粗糙集理論處理不完備數(shù)據(jù),很多學(xué)者提出了各自不同的方法,基本上都是基于對等價(jià)關(guān)系的泛化來解決的。如相似關(guān)系、容差關(guān)系、限制容差關(guān)系等。粗糙集理論在不完備信息系統(tǒng)中的應(yīng)用增大了其實(shí)用性。
2.3 粗糙集與模糊集
粗糙集和模糊集在處理不確定性和不精確性問題方面都推廣了經(jīng)典集合論,都能處理不完備數(shù)據(jù),但方法不同,粗糙集強(qiáng)調(diào)數(shù)據(jù)的不可辨別、不精確和模棱兩可,模糊集則注重描述信息的含糊程度。雖然有一定的相容性和相似性,但它們的側(cè)重面不同:粗糙集理論的計(jì)算方法是知識的表達(dá)和簡化,模糊集理論的計(jì)算方法主要是連續(xù)特征函數(shù)的產(chǎn)生;從集合的關(guān)系來看,粗糙集強(qiáng)調(diào)的是對象間的不可分辨性,而模糊集強(qiáng)調(diào)的是集合邊界的病態(tài)定義上的,即邊界的不分明性;從知識的“粒度”的描述上來看,粗糙集是通過一個(gè)集合關(guān)于某個(gè)可利用的知識庫的上下近似來描述的,而模糊集通過對象關(guān)于集合的隸屬程度來近似描述的;從研究的對象來看,粗糙集研究的是不同類中的對象組成的集合關(guān)系,重在分類,而模糊集研究的是屬于同一類的不同對象間的隸屬關(guān)系,重在隸屬程度。因此粗糙集和模糊集是兩種不同的理論,但它們又不是相互對立的,在處理不完備數(shù)據(jù)方面可以互為補(bǔ)充。目前已有的模糊粗糙集模型有Radzikowska模型、Morsi模型、Dubois模型、Greco模型、MI模型、Wu模型等。
2.4 粗糙集理論與神經(jīng)網(wǎng)絡(luò)
粗糙集和神經(jīng)網(wǎng)絡(luò)是數(shù)據(jù)挖掘中是常用的兩種技術(shù),但它們在處理信息時(shí)存在兩方面的差別:一是人工神經(jīng)網(wǎng)絡(luò)處理信息時(shí),一般不能將輸入信息空間的維數(shù)減少,所以輸入的信息空間維數(shù)較大,網(wǎng)絡(luò)不僅結(jié)構(gòu)復(fù)雜,而且訓(xùn)練時(shí)間很長,而粗糙集方法通過挖掘數(shù)據(jù)間的關(guān)系,不僅可以去掉冗余輸入信息,還可以簡化輸入信息的表達(dá)空間;二是在實(shí)際問題的處理中,粗糙集方法對噪聲較敏感,而人工神經(jīng)網(wǎng)絡(luò)方法有較好的抑制噪聲干擾的能力。用無噪聲的訓(xùn)練樣本學(xué)習(xí)推理的結(jié)果去處理有噪聲環(huán)境中的信息,一般應(yīng)用效果不佳。所以,將兩者結(jié)合起來,把粗糙集方法作為人工神經(jīng)網(wǎng)絡(luò)的前置系統(tǒng),有以下優(yōu)點(diǎn):
(1)通過粗糙集方法去掉冗余信息,使訓(xùn)練集簡化,以便減少人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間;
(2)通過粗糙集方法減少信息表達(dá)的屬性數(shù)量,減少構(gòu)建人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性,同時(shí)也減少后繼流程中信息作為網(wǎng)絡(luò)輸入時(shí)的特征值計(jì)算時(shí)間;
(3)使用人工神經(jīng)網(wǎng)絡(luò)作為后置的信息識別系統(tǒng),有較強(qiáng)的容錯(cuò)及抗干擾能力;
(4)因?yàn)榇植诩碚撛诤喕R的同時(shí),很容易得出決策規(guī)則,所以也可以作為后續(xù)使用中的信息識別規(guī)則,將粗糙集方法得到的結(jié)果與人工神經(jīng)網(wǎng)絡(luò)方法得到的結(jié)果相比較,從而作進(jìn)一步修正。
3 結(jié)束語
粗糙集理論是一種新穎、有效的軟計(jì)算方法。雖然該理論產(chǎn)生至今只有二十幾年的發(fā)展歷史,但在諸多領(lǐng)域獲得了廣泛的應(yīng)用,并且取得了一定的研究成果。而且粗糙集理論及其應(yīng)用研究還處在繼續(xù)發(fā)展中,相信會有越來越多的學(xué)者加入其中,共同促進(jìn)該學(xué)科在更多的實(shí)際應(yīng)用領(lǐng)域中發(fā)揮作用。
參考文獻(xiàn)
[1] 王國胤,姚一豫,于洪.粗糙集理論與應(yīng)用研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,7(32):1229-1246.
[2] 陳奇南,梁洪峻.模糊集和粗糙集[A].計(jì)算機(jī)工程,2002,8(28):138-140.
[3] 黃正華,胡寶清.模糊粗糙集理論研究進(jìn)展[A].模糊系統(tǒng)與數(shù)學(xué),2005,4(19):125-134.
[4] 胡可云,陸玉昌,石純一.粗糙集理論及其應(yīng)用進(jìn)展[A].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,1(41):64-68.
[5] 夏紅霞,劉春燕,鄒承明,吳青,李寶.粗糙集在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化中的應(yīng)用研究[J].計(jì)算機(jī)與數(shù)字工程,2008,4(36):41-43.
[6] 楊傳健,葛浩,汪志圣.基于粗糙集的屬性約簡方法研究綜述[A].計(jì)算機(jī)應(yīng)用研究,2012,1(29):16-20.