張 進(jìn), 李 超, 劉孫俊
(成都信息工程學(xué)院計(jì)算機(jī)學(xué)院,四川成都 610225)
隨著計(jì)算機(jī)和網(wǎng)絡(luò)的飛速發(fā)展,信息技術(shù)的不斷發(fā)展和普及,人類積累的數(shù)據(jù)量以指數(shù)級的方式增長,并且在網(wǎng)絡(luò)上還存在著各種豐富的數(shù)據(jù)資源。不過與數(shù)據(jù)量的增長迅速形成了鮮明的對比,人類分析數(shù)據(jù)的能力和從數(shù)據(jù)中提取知識的能力卻與之存在著相當(dāng)大的差距,大量的數(shù)據(jù)被收集在大型數(shù)據(jù)庫中常年不被訪問,造成了”數(shù)據(jù)墳?zāi)埂?。因此如何有效、科學(xué)、合理、正確地應(yīng)用這些數(shù)據(jù)擺在了科學(xué)家的面前,知識挖掘技術(shù)就在這個時候產(chǎn)生了。但是對大量數(shù)據(jù)分析和挖掘時遇到了很大的問題,大量的數(shù)據(jù)具有不完全、模糊、冗余的特性,只有很少一部分能夠滿足數(shù)據(jù)挖掘算法的要求,因此需要對數(shù)據(jù)進(jìn)行預(yù)處理,并且需要去除其中無意義的成分,粗糙集理論由此誕生了。
粗糙集理論是由波蘭杰出的數(shù)學(xué)家Z.Pawlak在1982年提出來的一種數(shù)據(jù)分析理論,剛開始時主要集中在東歐國家,當(dāng)時并沒有引起國際計(jì)算機(jī)界和數(shù)學(xué)界的重視,直到1990年左右該理論在數(shù)據(jù)的知識發(fā)現(xiàn),模式識別,決策與分析中的成功應(yīng)用才引起了各國學(xué)者的廣泛關(guān)注。1991年Z.Pawlak的專著《粗糙集一關(guān)于數(shù)據(jù)推理的理論》的問世,標(biāo)志著粗糙集理論及其應(yīng)用的研究進(jìn)入活躍時期[1-2]。
粗糙集理論是一種刻畫不完整性和不精確性的數(shù)學(xué)工具,能夠有效地分析和處理不完備性數(shù)據(jù),通過發(fā)現(xiàn)其中的隱藏關(guān)系,從而提取出有效數(shù)據(jù)揭示其規(guī)律,簡化信息處理。屬性約簡算法是粗糙集理論的核心內(nèi)容之一。
中國是一個自然災(zāi)害頻繁的國家,而洪水災(zāi)害則是對整個社會經(jīng)濟(jì)發(fā)展影響最大的自然災(zāi)害之一。僅僅依靠工程防洪根本無法抵御洪水的侵襲,所以在建立完善的防洪工程體系的基礎(chǔ)上通過災(zāi)情評估,防洪調(diào)度等非工程措施對于實(shí)現(xiàn)防洪減災(zāi)的正規(guī)化和現(xiàn)代化具有非常重要的意義。洪水災(zāi)害風(fēng)險評估是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及到社會,經(jīng)濟(jì)等諸多方面,選擇洪水災(zāi)害評估指標(biāo)是進(jìn)行洪水災(zāi)害評估的前提和關(guān)鍵。此前的洪水風(fēng)險評估一般都是集中在評估算法的優(yōu)化,而用于評估的指標(biāo)都是由專家根據(jù)經(jīng)驗(yàn)和知識總結(jié)出來的,為了評估的準(zhǔn)確性可能一些并沒有意義或者對洪水風(fēng)險評估不起作用的指標(biāo)也被加入指標(biāo)體系,從而導(dǎo)致參照的指標(biāo)多達(dá)上百個,嚴(yán)重影響了評估算法的精確度和收斂速度。
通過對粗糙集中屬性約簡算法的研究,首次提出對用于洪水風(fēng)險評估的指標(biāo)進(jìn)行約簡,剔除無意義的指標(biāo),然后利用約簡后的屬性進(jìn)行風(fēng)險評估,不僅降低了專家在對指標(biāo)進(jìn)行打分時的模糊性,并且提高風(fēng)險評估的準(zhǔn)確性和效率[3-4]。
粗糙集理論是處理不精確和不完備問題的數(shù)學(xué)工具,主要思想是在保持分類能力不變的前提下通過約簡導(dǎo)出問題的分類規(guī)則。
定義1 設(shè)非空集U是我們感興趣的對象組成的非空有限集合,稱為論域。
定義2 設(shè)R施U上的一個等價關(guān)系,U/R表示R的所有等價類構(gòu)成的集合。
定義3 給定一個論域U和U上的一簇等價關(guān)系,若P?S且P≠?,則∩P仍是論域U上的一個等價關(guān)系,稱為P上的不可分辨關(guān)系,記為 IND(P)。
顯然不可區(qū)分關(guān)系是一個等價關(guān)系,U/IND(P)表示不可區(qū)分關(guān)系 IND(P)在論域U上形成的一個區(qū)分,稱為U的一個知識,可以簡記為 U/P。
屬性約簡是粗糙集理論的核心內(nèi)容之一,所謂屬性約簡就是在保持知識庫分類能力不變的前提下刪除其中不相關(guān)或不重要的屬性。
定義4 給定一個知識庫K=(U,S)和知識庫中的一個等價關(guān)系簇P?S,∨P∈P若IND(P)=IND(P-{R})成立,則稱知識 R為P中不必要的,否則稱R為P中必要的。其中必要的條件屬性組成的集合稱為核。
定義5 給定一個知識庫K=(U,S)和知識庫中的一簇等價關(guān)系P?S,對任意的G?P,若G滿足以下兩條:
(1)G是獨(dú)立的;
(2)IND(G)=IND(P);
則稱G是P的一個約簡,記為G∈RED(P)。其中RED(P)表示P的全體約簡組成的集合。
顯然,知識的任何一個約簡與知識本身對數(shù)據(jù)庫中的任意一個范疇的表達(dá)都是等同的,即它們對論域的分類能力相同。一般而言,知識約簡不唯一,可以有多種約簡。
粗糙集理論對給定的對象集合由若干個屬性描述,對象按照屬性的取值情況分成若干個等價類,統(tǒng)一等價類中的對象不可區(qū)分[5]。
定義8 對于決策表 T=(U,A,V,F),A=C∪D,C∩D=?,C為條件屬性集,D為決策屬性集,可以用類似的方法計(jì)算其相對約簡和相對核。
定義9 令S=(U,A,V,F)是一個只是表達(dá)系統(tǒng),|U|=n,決策表S的區(qū)分矩陣是一個n*n矩陣。
基于區(qū)分矩陣的約簡算法的基本過程一般如下:
(1)基于決策表生成區(qū)分矩陣;
(2)從區(qū)分矩陣中找到屬性組合數(shù)為1的屬性,即為核屬性;
(3)從區(qū)分矩陣中找到不包含核屬性的條件屬性組合;
(4)將這些條件屬性組合轉(zhuǎn)化成合取范式的形式,并且利用吸收率進(jìn)行約簡;
(5)根據(jù)要求選擇合適的約簡。
因?yàn)楫?dāng)決策表?xiàng)l件屬性很多時,基于區(qū)分矩陣的屬性約簡算法邏輯轉(zhuǎn)換運(yùn)算代價太大,計(jì)算復(fù)雜度很大,所以本過程利用任何一個相對約簡都包含核屬性這一特性對基于屬性依賴度的約簡算法進(jìn)行改進(jìn),將大大降低計(jì)算的復(fù)雜度[6]。
根據(jù)區(qū)分矩陣中屬性的特點(diǎn),可以得知,區(qū)分矩陣中某個屬性出現(xiàn)的頻率越大和它所在的項(xiàng)越短,則該屬性的潛在區(qū)分能力就會越大,該屬性就會越重要
因此可以得到屬性的重要性函數(shù):
其中k為項(xiàng)長,指屬性a是否出現(xiàn)在該項(xiàng)中,如果出現(xiàn)則值為1,否則值為0。該函數(shù)能夠很好的體現(xiàn)屬性的重要性,因此把其作為啟發(fā)函數(shù)。
由區(qū)分矩陣可以得知,區(qū)分矩陣中的每一項(xiàng)與系統(tǒng)的約簡都不為空,因?yàn)槿绻麨榭站驼f明該約簡對該兩個對象不可區(qū)分。可以根據(jù)區(qū)分矩陣中屬性長度為1的作為核元素,在區(qū)分矩陣中凡是含有約簡中屬性的項(xiàng)都可以用約簡代替。因此可以將這些項(xiàng)直接置空,從而得到過濾矩陣。
綜上得到約簡算法的步驟:
(1)根據(jù)構(gòu)造的區(qū)分矩陣得到核元素,既項(xiàng)長為1的就是核元素;
(2)利用核元素對約簡進(jìn)行初始化,然后用約簡和區(qū)分矩陣中的每一項(xiàng)進(jìn)行與運(yùn)算,將結(jié)果不為空的項(xiàng)刪除,從而得到過濾矩陣;
(3)利用上述的啟發(fā)函數(shù)對約簡以外的屬性計(jì)算重要性,將屬性重要性最大的屬性加入到約簡中;
(4)計(jì)算約簡與區(qū)分矩陣中每一項(xiàng)的交集,如果為空則結(jié)束,否則轉(zhuǎn)到(3);
(5)返回約簡。
首先應(yīng)該選定進(jìn)行洪水風(fēng)險評估的特定地區(qū),這里選定武漢市作為洪水風(fēng)險評估的區(qū)域。
通過詢問專家和實(shí)地調(diào)查得到可能影響該地洪水風(fēng)險的因子包括:地形,植被,土壤含水量,降雨,水庫分布,人口密度,耕地面積,人均收入水平,水利設(shè)施建設(shè),防災(zāi)意識,河網(wǎng)密度,年齡結(jié)構(gòu),健康狀況,教育程度,基礎(chǔ)設(shè)施密度,生產(chǎn)總值等。
通過查詢1991~2005年《中國城市統(tǒng)計(jì)年鑒》中武漢市當(dāng)時相關(guān)統(tǒng)計(jì)數(shù)據(jù)和中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)中暴雨洪澇災(zāi)害數(shù)據(jù)集、中國地面國際交換站氣候標(biāo)準(zhǔn)值年值數(shù)據(jù)集、中國農(nóng)作物生長發(fā)育和農(nóng)田土壤濕度旬值數(shù)據(jù)集得到武漢市對應(yīng)各屬性的數(shù)值。
表1是通過對上述查詢數(shù)據(jù)進(jìn)行一致性處理:即根據(jù)一定的標(biāo)準(zhǔn)劃分等級,這里采用中華人民共和國水利部于1994年6月2日發(fā)布的防洪標(biāo)準(zhǔn)(GB50201-94),其中決策屬性劃分為特大洪水,大洪水,小洪水,無4個等級;而條件屬性則根據(jù)防洪標(biāo)準(zhǔn)劃分為4個等級,然后再根據(jù)等級數(shù)據(jù)構(gòu)造洪水信息決策表。
表1 歷年洪水信息決策表
根據(jù)區(qū)分矩陣的定義,可以知道區(qū)分矩陣具有如下性質(zhì):首先,區(qū)分矩陣是一個對稱矩陣,因此只需要計(jì)算上三角矩陣或者下三角矩陣就可以了。其次可以根據(jù)定義得知區(qū)分矩陣的元素內(nèi)容是由區(qū)分兩個對象的屬性構(gòu)成的:當(dāng)兩個對象的條件屬性和決策屬性完全相同時,則它們所對應(yīng)的區(qū)分矩陣的元素為0;當(dāng)兩個對象可以通過條件屬性取值不同加以區(qū)分時,則它們所對應(yīng)的區(qū)分矩陣元素取值為這兩個對象不同的條件屬性集合;當(dāng)這兩個對象的所有條件屬性取值相同而決策屬性取值不同時,則對應(yīng)的區(qū)分矩陣中的元素取值為空。
表2是根據(jù)歷年洪水信息決策表構(gòu)建的區(qū)分矩陣,由于區(qū)分矩陣是對稱矩陣,所以這里只計(jì)算了下三角矩陣。
表2 區(qū)分矩陣
從區(qū)分矩陣中找到屬性組合數(shù)為1的條件屬性,則這些條件屬性的組合即為核屬性,得到的核屬性是降雨,將核屬性加入到約簡集中。
表3 過濾矩陣
表3就是用約簡集和區(qū)分矩陣中的每一項(xiàng)進(jìn)行與操作后得到的過濾矩陣,然后根據(jù)過濾矩陣計(jì)算矩陣中所有屬性的重要性:
由以上計(jì)算可知,在過濾矩陣中重要性最大的是d(國民生產(chǎn)總值),因此將d加入到約簡集中,然后再次用約簡集與過濾矩陣相交,得到新的過濾矩陣,再按屬性的重要度依次將屬性加入到約簡集中,直到約簡集與過濾矩陣的相交為空,返回約簡集。
得到的相對約簡包括的條件屬性:降雨,國民生產(chǎn)總值,植被覆蓋率,人口密度,財(cái)產(chǎn)密度,基礎(chǔ)設(shè)施密度,中小企業(yè)密度,防洪設(shè)施建設(shè)。
由于在此應(yīng)用的是粗糙集的基于區(qū)分矩陣的約簡算法,能夠得到所有約簡,因此這里還需要專家根據(jù)經(jīng)驗(yàn)選擇合適的約簡作為指標(biāo)集構(gòu)建風(fēng)險評估指標(biāo)體系。用約簡的結(jié)果和以前一些用于洪水評估的指標(biāo)進(jìn)行對比,不難發(fā)現(xiàn)條件屬性中土壤含水量,地勢,國民受教育程度等因素都沒有被用于構(gòu)建評價指標(biāo)體系。因?yàn)楦鶕?jù)武漢市的歷史資料發(fā)現(xiàn)這些因素對武漢市的洪水災(zāi)情并沒有起到作用,因此在這里對這些因素進(jìn)行了刪除,以免影響后面進(jìn)行的風(fēng)險評估。
圖1是武漢市的洪水風(fēng)險評估的指標(biāo)體系,分為3層結(jié)構(gòu):第一層是該地區(qū)的洪水風(fēng)險等級;第二層是因素集;第三層是子因素集。
圖1 洪水風(fēng)險評估的指標(biāo)體系
根據(jù)模糊層次分析法所建立的數(shù)學(xué)評估模型如下:
其中F為系統(tǒng)總得分,C為系統(tǒng)評估矩陣;S為專家評定的洪水風(fēng)險的安全等級加權(quán)值;A為指標(biāo)體系第二層的因素權(quán)重分配集;B為由Bi組成的總評估矩陣;Ai為第三層子因素的權(quán)重分配集;Ri各因素對應(yīng)的評估矩陣,是由專家根據(jù)評語集即表4投票得出的[7-8]。
表4 洪水風(fēng)險等級加權(quán)值
表5 洪水風(fēng)險等級
應(yīng)用模糊層次分析法進(jìn)行洪水風(fēng)險評估介紹:
(1)要采用層次分析法確定武漢市洪水評估指標(biāo)因素的權(quán)重值:洪水風(fēng)險評估指標(biāo)體系遞減層次結(jié)構(gòu)的構(gòu)成確定了上下級之間的關(guān)系,可對每一層次各個因素相對于上一層某一準(zhǔn)則的重要性進(jìn)行兩兩比對,從而構(gòu)造出判斷矩陣。其中表6是因素層中各因素對于系統(tǒng)的權(quán)重所建立的判斷矩陣,求得的權(quán)重集是(0.45,0.27,0.10,0.18)。類似還需要求出子因素層中各子因素對于因素層中對應(yīng)因素的權(quán)重判斷矩陣,并且求出權(quán)重集。
表6 判斷矩陣
(2)求得武漢市洪水風(fēng)險的總得分:利用表4根據(jù)所建立的模糊層次評估模型計(jì)算得到的武漢市的風(fēng)險評估得分為51。
(3)確定武漢市洪水風(fēng)險等級:根據(jù)表5,武漢市的風(fēng)險的風(fēng)險評估得分為51屬于45-59范疇,因此風(fēng)險等級為較差。
查看了武漢市2005年至今的洪水災(zāi)害損失情況都是比較嚴(yán)重的,其中重大洪水兩次,排在了全國城市洪水損失的前列,可見評估得到的結(jié)果與武漢市的現(xiàn)實(shí)情況基本相符。因此在對武漢市的洪水風(fēng)險進(jìn)行評估時利用粗糙集約簡理論對用于評估的屬性集進(jìn)行約簡,利用約簡后的屬性進(jìn)行風(fēng)險評估,最終的結(jié)果是可靠的。由此可見土壤,地勢等屬性對于武漢市的洪水風(fēng)險評估是多余的,是可以剔除的,并不影響最終評估結(jié)果的準(zhǔn)確性。
運(yùn)用粗糙集理論的基于區(qū)分矩陣的改進(jìn)的屬性約簡算法對洪水風(fēng)險評估中的指標(biāo)集進(jìn)行了約簡,得到了在洪水風(fēng)險評估中起作用的指標(biāo),剔除了無意義的指標(biāo),比傳統(tǒng)的專家投票等單純依靠經(jīng)驗(yàn)的方法具有科學(xué)依據(jù)和數(shù)據(jù)支持。由于指標(biāo)數(shù)量減少更易于專家對各個指標(biāo)進(jìn)行打分,提高了區(qū)域洪水風(fēng)險評估的準(zhǔn)確性和效率。因?yàn)閼?yīng)用粗糙集的屬性約簡算法需要大量的樣本數(shù)據(jù),當(dāng)數(shù)據(jù)量不充足時可能會導(dǎo)致最終的結(jié)果出現(xiàn)偏差,所以在應(yīng)用粗糙集的屬性約簡算法時應(yīng)該保證樣本數(shù)據(jù)的正確性和充分性。
[1] 張文修,吳偉志,梁吉業(yè),李德.粗糙集理論與方法[M].北京:機(jī)械工業(yè)出版社,2002.
[2] 殷杰,柴毅,郭茂耘.應(yīng)用粗糙集提取柴油機(jī)故障數(shù)據(jù)特征[J].計(jì)算機(jī)工程與應(yīng)用,2011,(29).
[3] 劉新立.區(qū)域水災(zāi)風(fēng)險評估的理論與實(shí)踐[D].北京:北京師范大學(xué),2000.
[4] 王保生,江西旱澇災(zāi)害風(fēng)險評估與農(nóng)業(yè)可持續(xù)發(fā)展[J].同濟(jì)大學(xué)學(xué)報(自然科學(xué)版),2005,(8):31-34.
[5] 梁蒙.基于粗糙集的屬性約簡算法研究[D].河南:河南大學(xué),2011.
[6] 趙永安.基于粗糙集的屬性約簡算法研究[D].內(nèi)蒙古:內(nèi)蒙古大學(xué),2008.
[7] 王為人.基于層次分析法的流域水資源配置權(quán)重測算[M].北京:中國林業(yè)出版社,1998.