高亮
(安徽國(guó)際商務(wù)職業(yè)學(xué)院,安徽合肥230051)
粗糙集理論在數(shù)據(jù)分析中的應(yīng)用研究
高亮
(安徽國(guó)際商務(wù)職業(yè)學(xué)院,安徽合肥230051)
隨著Internet、信息檢索等新技術(shù)的不斷出現(xiàn)及快速發(fā)展,各種應(yīng)用所積累的數(shù)據(jù)量急劇增長(zhǎng),如何從這些海量數(shù)據(jù)中提取有用的信息成為了一個(gè)很現(xiàn)實(shí)而且重要的問(wèn)題.本文結(jié)合實(shí)例分析,給出了基于粗糙集理論數(shù)據(jù)分析的一般過(guò)程,為數(shù)據(jù)挖掘提供了一個(gè)新的方法.
粗糙集;數(shù)據(jù)分析;屬性
當(dāng)今世界正處在一個(gè)數(shù)據(jù)爆炸的時(shí)代.伴隨著多媒體、云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)的發(fā)展,以及天文觀測(cè)、空間地理、金融分析等各領(lǐng)域每天都在產(chǎn)生巨量的數(shù)據(jù),然而面對(duì)著這一片紛繁復(fù)雜的數(shù)據(jù),就像面對(duì)著一個(gè)巨大的礦脈,怎樣才能從中挖掘出真正的“金子”?那么最重要便是數(shù)據(jù)挖掘的工作,所謂數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、事先不知道的、但又是潛在有用的知識(shí)和信息的過(guò)程.目前,數(shù)據(jù)挖掘在科學(xué)研究、市場(chǎng)營(yíng)銷(xiāo)金融市場(chǎng)分析和預(yù)測(cè)、醫(yī)療保健、教育教學(xué)等許多領(lǐng)域得到了廣泛的應(yīng)用,已經(jīng)成為計(jì)算機(jī)科學(xué)與工程研究的一個(gè)熱點(diǎn).
然而,實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性,很少能直接滿足數(shù)據(jù)挖掘算法的要求,嚴(yán)重影響了數(shù)據(jù)挖掘算法的執(zhí)行效率.而粗糙集理論是一種用于處理不確定性和含糊性知識(shí)的數(shù)學(xué)工具,目前在數(shù)據(jù)挖掘的各方面已有很好的應(yīng)用,其基本思想是在保持分類(lèi)能力不變的前提下,通過(guò)知識(shí)約簡(jiǎn),導(dǎo)出概念的分類(lèi)規(guī)則.它無(wú)需提供相關(guān)數(shù)據(jù)集合外的任何先驗(yàn)信息,適合于發(fā)現(xiàn)數(shù)據(jù)中隱含的、潛在有用的規(guī)律,即知識(shí),找出其內(nèi)部數(shù)據(jù)的關(guān)聯(lián)關(guān)系和特征.
粗糙集(Rough Set)理論是波蘭數(shù)學(xué)家Z.pawlak于1982年提出的,是一種新的處理含糊性和不確定性問(wèn)題的數(shù)學(xué)工具.相對(duì)于概率統(tǒng)計(jì)、模糊集等處理含糊性和不確定性的數(shù)學(xué)工具而言,粗糙集理論有這些理論不具備的優(yōu)越性.統(tǒng)計(jì)學(xué)需要概率分布,模糊集理論需要隸屬函數(shù),而粗糙集理論的主要優(yōu)勢(shì)就在于它不需要關(guān)于數(shù)據(jù)的任何預(yù)備的或額外的信息.現(xiàn)已廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)、機(jī)器學(xué)習(xí)、決策支持、專(zhuān)家系統(tǒng)等領(lǐng)域.
定義1[1]設(shè)U是一個(gè)論域,R是U上的一個(gè)等價(jià)關(guān)系,U/R表示R的所有的等價(jià)類(lèi)(或者U上的分類(lèi))構(gòu)成的集合,[x]R表示包含元素x∈U的R等價(jià)類(lèi).一個(gè)知識(shí)庫(kù)就是一個(gè)關(guān)系系統(tǒng)K=(U,R),其中U為非空有限集,稱(chēng)為論域,R是U上的一簇等價(jià)關(guān)系.若P?R,且P≠?,則∩P(P中所有等價(jià)關(guān)系的交集)也是一個(gè)等價(jià)關(guān)系,稱(chēng)為P上的不可區(qū)分關(guān)系,記為IND(P),且有.
定義2[1]設(shè)集合X?U,R是一個(gè)等價(jià)關(guān)系,稱(chēng),且[x]R?}為集合X的R下近似集;稱(chēng),且[x]R∩X≠?}為集合X的R上近似集.稱(chēng)集合為X的R邊界域;稱(chēng)為X的R正域;稱(chēng)為 X的R負(fù)域.
定義3[2]四元組S=(U,A,V,F)是一個(gè)信息系統(tǒng),其中U為對(duì)象非空的有限集合,稱(chēng)為論域,即U={x1,x2,…,xn};A=C∪D是有限屬性集合,A={a1,a2,…,am},子集C和D分別稱(chēng)為條件屬性和決策屬性;
定義4[3]S=(U,A,V,F)是一個(gè)信息系統(tǒng),A=C∪ D,設(shè)P,Q?A,當(dāng)時(shí),稱(chēng)知識(shí)Q是k度依賴(lài)于知識(shí)P,記P?kQ,即對(duì)象的k×100%可以通過(guò)知識(shí)P劃分到U/P的模塊中.當(dāng)k=1時(shí),稱(chēng)屬性集Q完全依賴(lài)于P;0<k<1時(shí),稱(chēng)屬性集Q部分依賴(lài)于P;k=0時(shí),稱(chēng)屬性集Q完全獨(dú)立于P;而屬性子集P?C關(guān)于D的重要性定義為σ(P)=rC(D)-rC-P(D),特別地,當(dāng)P={a}時(shí),屬性a關(guān)于D的重要性定義為σ(P)=rC(D)-rC-P(D).
目前,基于粗糙集理論的方法逐漸成為數(shù)據(jù)分析主流方法之一.利用粗糙集理論進(jìn)行數(shù)據(jù)分析一般可分為以下五個(gè)過(guò)程:
1.數(shù)據(jù)準(zhǔn)備及預(yù)處理:在現(xiàn)實(shí)世界的很多情況下,我們拿到的第一手?jǐn)?shù)據(jù)都會(huì)存在噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)等我們不希望出現(xiàn)的數(shù)據(jù),因此,首先要對(duì)數(shù)據(jù)進(jìn)行必要的處理,包括數(shù)據(jù)刪除、數(shù)據(jù)補(bǔ)充、數(shù)據(jù)轉(zhuǎn)換等,從而為下一步數(shù)據(jù)分析提高良好的處理環(huán)境,并且還要明確條件屬性和決策屬性.
2.建立決策表:對(duì)于處理好的數(shù)據(jù)用一個(gè)信息系統(tǒng)S=(U,A,V,F)給表示出來(lái).
3.屬性約簡(jiǎn)及屬性重要度計(jì)算:屬性約簡(jiǎn)就是在保持知識(shí)庫(kù)分類(lèi)能力不變的條件下刪除其中不相關(guān)或不重要的冗余屬性,得到一個(gè)最簡(jiǎn)潔的決策即最?。ㄗ顑?yōu))約簡(jiǎn).在決策表中,不同屬性可能有不同的重要性,如果重要度為0則說(shuō)明此屬性為冗余屬性,可刪除,通過(guò)計(jì)算每個(gè)屬性的重要程度則可以更加有效地進(jìn)行屬性約簡(jiǎn).
4.規(guī)則提?。褐庇^地講就是將每個(gè)約簡(jiǎn)用在決策表的每個(gè)對(duì)象上,從表中讀出適當(dāng)?shù)膶傩灾祦?lái)形成決策規(guī)則.用類(lèi)似邏輯語(yǔ)言中α→β的形式表示決策規(guī)則,α和β分別稱(chēng)為決策規(guī)則的前件和后件,α代表?xiàng)l件屬性值的組合.
5.決策分析:根據(jù)生成的規(guī)則進(jìn)行數(shù)據(jù)分析,得到有用的結(jié)論.
下面我們用一個(gè)具體實(shí)例進(jìn)行闡述:通過(guò)利用粗糙集理論來(lái)分析影響學(xué)生《高等數(shù)學(xué)》課程學(xué)習(xí)成績(jī)的因素,以期量化學(xué)習(xí)成績(jī)和學(xué)習(xí)因素之間的關(guān)系,為教師能夠更好地進(jìn)行教學(xué)和培養(yǎng)合格的人才提供一定的理論支持.
1.數(shù)據(jù)準(zhǔn)備及預(yù)處理
首先采用問(wèn)卷調(diào)查的方法,對(duì)安徽國(guó)際商務(wù)職業(yè)學(xué)院2015級(jí)會(huì)計(jì)專(zhuān)業(yè)56名學(xué)生進(jìn)行了問(wèn)卷調(diào)查(表1),采取隨機(jī)抽樣的原則抽取研究對(duì)象,共發(fā)放問(wèn)卷56份,回收率100%,有效問(wèn)卷56份,有效率100%.調(diào)查問(wèn)卷分別從興趣、高考成績(jī)、課堂表現(xiàn)等六個(gè)方面提出問(wèn)題,受調(diào)查者根據(jù)實(shí)際情況選出自己的答案選項(xiàng),因此,各影響學(xué)習(xí)的因素屬性分別記為C1:興趣、C2:數(shù)學(xué)基礎(chǔ)(高考成績(jī))、C3:課堂表現(xiàn)、C4:作業(yè)完成情況、C5:教師授課水平、C6:學(xué)習(xí)時(shí)間,選項(xiàng)ABCDE在決策表中分別用12345代替;決策屬性為期末考試成績(jī),記作D,其中在[90,100]之間為優(yōu)秀,[75,90)之間為良好,[60,75)之間為合格,[0,60)不合格,分別以1、2、3、4表示.將每一類(lèi)中的所有實(shí)例的集合作為論域,每個(gè)實(shí)例作為論域中的對(duì)象,成績(jī)影響因素集作為條件屬性集,學(xué)生期末考試成績(jī)作為決策屬性.
表1 調(diào)查問(wèn)卷
2.根據(jù)以上數(shù)據(jù)可建立成績(jī)影響因素決策表(表2).
3.利用屬性約簡(jiǎn)算法進(jìn)行屬性約簡(jiǎn),并計(jì)算屬性重要度.
(1)屬性約簡(jiǎn):利用屬性約簡(jiǎn)算法進(jìn)行約簡(jiǎn),可知C1—C6所有屬性均為不可約屬性.
(2)計(jì)算屬性重要度.首先計(jì)算出二維決策表中決策屬性D相對(duì)于條件屬性C的正域POSC(D),根據(jù)粗糙集中的依賴(lài)度函數(shù),計(jì)算出決策屬性D對(duì)條件屬性C的依賴(lài)程度.
表2 決策表
其次,計(jì)算二維決策表中每一個(gè)屬性Ci(i=1,2,…,6)對(duì)于決策屬性D的重要度σ(Ci)=rC(D)-rC-Ci(D),其中rC-Ci(D)表示在條件屬性C中去掉Ci后,決策屬性D對(duì)條件屬性C的依賴(lài)程度,σ(Ci)的值越大,說(shuō)明屬性Ci對(duì)分類(lèi)的重要性越大,如果σ(Ci)=0,則說(shuō)明屬性Ci對(duì)分類(lèi)不起作用,可以忽視其影響.
利用數(shù)學(xué)軟件MATLB編程對(duì)二維決策表進(jìn)行計(jì)算:得到各屬性相應(yīng)的依賴(lài)度及重要性有:
由此可見(jiàn),σ(C6)>σ(C2)=σ(C3)>σ(C5)>σ(C4)>σ(C1)
4.規(guī)則提取:根據(jù)約簡(jiǎn)后的決策表提取規(guī)則,選取部分如下:
規(guī)則1:C1(1)∧C2(2)∧C3(1)∧C4(1)∧C5(1)∧C6(2)=>D(1)
規(guī)則2:C1(2)∧C2(2)∧C3(4)∧C4(2)∧C5(2)∧C6(4)=>D(4)
……
5.決策分析.
針對(duì)以上計(jì)算結(jié)果,我們進(jìn)行進(jìn)一步分析可知:
(1)興趣、基礎(chǔ)、課堂、作業(yè)、教師、學(xué)習(xí)時(shí)間等都是影響學(xué)生學(xué)習(xí)高等數(shù)學(xué)的重要因素;
(2)這六個(gè)影響因素的重要程度排序?yàn)椋簩W(xué)習(xí)時(shí)間>數(shù)學(xué)基礎(chǔ)(高考成績(jī))=課堂表現(xiàn)>教師授課水平>作業(yè)完成情況>興趣.因此,可以看出學(xué)生學(xué)習(xí)成績(jī)好壞很大程度上取決于自身的努力程度(即所花時(shí)間的多少),同時(shí),學(xué)生在學(xué)習(xí)過(guò)程中要緊緊抓住課堂時(shí)間,邊聽(tīng)邊記邊思考,只有這樣才能取得較好的學(xué)習(xí)效果;
(3)根據(jù)提取的規(guī)則可以得到相應(yīng)的結(jié)論,比如從提取的規(guī)則1中可以看出當(dāng)一個(gè)學(xué)生在這六個(gè)方面都做得很好時(shí),一定可以取得優(yōu)秀的成績(jī),反之,由規(guī)則2得出雖然基礎(chǔ)較好,但是如果上課不聽(tīng)課,課后自己不花時(shí)間努力學(xué)習(xí),那么成績(jī)必然不及格;
(4)從數(shù)據(jù)中可以看出數(shù)學(xué)基礎(chǔ)也是影響大學(xué)生學(xué)好高等數(shù)學(xué)的一個(gè)非常重要的因素,這主要是由于數(shù)學(xué)課程具有連續(xù)性的特點(diǎn),因此,對(duì)于一些基礎(chǔ)較差、尤其是沒(méi)有參加高考,自主招生進(jìn)來(lái)的學(xué)生來(lái)講,學(xué)習(xí)高等數(shù)學(xué)的難度更大,故而,要求我們教師在針對(duì)這部分學(xué)生時(shí),應(yīng)該更加關(guān)注他們,在教授過(guò)程中更耐心一些,更詳細(xì)一些.
粗糙集理論作為一種新的處理含糊性和不確定性問(wèn)題的數(shù)學(xué)工具,為數(shù)據(jù)分析提供了一條嶄新的途徑,其在數(shù)據(jù)挖掘中的應(yīng)用研究目前正成為信息科學(xué)中的一個(gè)研究熱點(diǎn),發(fā)展空間廣闊.
〔1〕張文修,吳偉志,梁吉業(yè),李德玉.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.1-25.
〔2〕安海忠,鄭鏈,王廣祥,等.粗糙集知識(shí)發(fā)現(xiàn)的研究現(xiàn)狀和展望.計(jì)算機(jī)測(cè)量與控制,2003(2):81-83.
〔3〕史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版社, 2002.26-28.
TP274
:A
:1673-260X(2017)03-0022-03
2016-11-25
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2017年5期