王秋月,孫建華,郭曉林
(1.河北醫(yī)科大學(xué)附屬華北石油管理局總醫(yī)院 信息技術(shù)科,河北 任丘 062552;2.中國(guó)石油華北石油管理局 a.信息中心;b.器材供應(yīng)處,河北 任丘 062552)
?
基于不協(xié)調(diào)決策信息系統(tǒng)的規(guī)則獲取
王秋月1,孫建華2a,郭曉林2b
(1.河北醫(yī)科大學(xué)附屬華北石油管理局總醫(yī)院 信息技術(shù)科,河北 任丘 062552;2.中國(guó)石油華北石油管理局 a.信息中心;b.器材供應(yīng)處,河北 任丘 062552)
[摘 要]本文提出了一種新的規(guī)則獲取方法,首先對(duì)單決策不協(xié)調(diào)信息系統(tǒng)采用最大分布約簡(jiǎn)法進(jìn)行知識(shí)約簡(jiǎn),然后通過(guò)決策分辨矩陣和決策矩陣函數(shù)來(lái)獲取決策規(guī)則,從而挖掘出不協(xié)調(diào)決策信息系統(tǒng)中具有可信度的隱規(guī)則。最后通過(guò)實(shí)例驗(yàn)證了該算法的有效性,并且在一定程度上彌補(bǔ)了信息系統(tǒng)知識(shí)匱乏的缺陷。
[關(guān)鍵詞]不協(xié)調(diào)信息決策系統(tǒng);最大分布約簡(jiǎn);分辨矩陣;決策矩陣函數(shù);規(guī)則獲取
由Pawlak提出的粗糙集理論在處理不精確、不確定、不一致的數(shù)據(jù)時(shí)是一個(gè)有效的數(shù)學(xué)工具,基于粗糙集理論人們已經(jīng)提出很多的知識(shí)約簡(jiǎn)算法。
知識(shí)約簡(jiǎn)是粗糙集理論的核心問(wèn)題之一,現(xiàn)已證明決策表的屬性約簡(jiǎn)是NP-hard問(wèn)題的同時(shí)也是知識(shí)發(fā)現(xiàn)的重要課題。眾所周知,知識(shí)庫(kù)中的屬性并不是同等重要的,甚至有些是冗余的。知識(shí)的冗余,一方面會(huì)造成存儲(chǔ)空間的浪費(fèi),另一方面,會(huì)干擾人們提出正確的決策規(guī)則。知識(shí)約簡(jiǎn)就是保持知識(shí)系統(tǒng)決策和分類(lèi)不變的情況下,刪除不重要或不相關(guān)的數(shù)據(jù)的過(guò)程。因此,復(fù)雜的信息系統(tǒng)通過(guò)知識(shí)約簡(jiǎn)可以使知識(shí)表示更加清晰、簡(jiǎn)潔,從而更加有利于決策規(guī)則的形成。
然而現(xiàn)實(shí)中的目標(biāo)信息系統(tǒng)很多都是不協(xié)調(diào)的,目前針對(duì)不協(xié)調(diào)信息系統(tǒng)的知識(shí)約簡(jiǎn)研究取得了大量的成果?!癈omparative studies of alternative type ofknowledgereduction in inconsistent systems”一文提出了兩種對(duì)不協(xié)調(diào)信息系統(tǒng)知識(shí)約簡(jiǎn)的方法:分配約簡(jiǎn)和分布約簡(jiǎn)。但分配約簡(jiǎn)可能產(chǎn)生與原系統(tǒng)不相容決策規(guī)則,具有一定的局限性?!恫粎f(xié)調(diào)目標(biāo)信息系統(tǒng)知識(shí)約簡(jiǎn)算法比較研究》總結(jié)了幾種知識(shí)約簡(jiǎn)的關(guān)系,本質(zhì)上只有分布約簡(jiǎn)和分配約簡(jiǎn)。《不協(xié)調(diào)目標(biāo)信息系統(tǒng)的知識(shí)約簡(jiǎn)》提出一種新的較有效的方法,最大分布約簡(jiǎn),給出了知識(shí)約簡(jiǎn)的判定定理和分辨矩陣的定義,提供了不協(xié)調(diào)信息系統(tǒng)理論基礎(chǔ),它弱于分布約簡(jiǎn),降低了對(duì)信息系統(tǒng)的要求。但是《不協(xié)調(diào)目標(biāo)信息系統(tǒng)的知識(shí)約簡(jiǎn)》沒(méi)有進(jìn)一步研究規(guī)則獲取。然而目前規(guī)則獲取大部分是針對(duì)協(xié)調(diào)決策信息系統(tǒng)的,面向不協(xié)調(diào)決策信息系統(tǒng)規(guī)則獲取相關(guān)研究成果還鮮有報(bào)道,本文采用最大分布約簡(jiǎn)法,即通過(guò)決策矩陣和決策矩陣函數(shù)來(lái)獲取決策規(guī)則集。挖掘出系統(tǒng)具有可信度的隱規(guī)則,并給出了實(shí)例驗(yàn)證,不僅對(duì)不協(xié)調(diào)決策信息系統(tǒng)約簡(jiǎn)方法加以補(bǔ)充,也同樣適用于協(xié)調(diào)的決策信息系統(tǒng)。
定義1 四元組DT=(U,C∪D,V, f )是一個(gè)決策信息系統(tǒng),其中:U={x1,x2,x3,…,xn}為有限對(duì)象的集合,稱(chēng)為論域C={c1,c2,c3,…,cp}為條件屬性集;C={d1,d2,d3,…,dq}稱(chēng)為決策屬性集,且C∩D=?,C≠?,D≠?;V=∪Vα(Αα∈C∪D)是函數(shù)f的值f={fα| fα∶U→Vα,(Αα∈C∪D)}表示決策表的信息函數(shù)。
定義2 四元組DT=(U,C∪D,V, f )是一個(gè)決策信息系統(tǒng),若[x]c[x]d,Αx∈U則稱(chēng)該決策信息系統(tǒng)是協(xié)調(diào)的,反之稱(chēng)不協(xié)調(diào)的。協(xié)調(diào)的決策信息系統(tǒng)產(chǎn)生確定性的規(guī)則,不協(xié)調(diào)的決策信息系統(tǒng)產(chǎn)生不確定的規(guī)則。
定義3 設(shè)(U,R)為近似空間,U為對(duì)象集,R是U上的等價(jià)關(guān)系,則由(U,R)產(chǎn)生的等價(jià)類(lèi)為: U/R={[xi]R}|xi∈R,其中[xi]R={xj|(xi,xj)∈R}。
定義4[1]對(duì)任意XU,BC以下集合:。分別稱(chēng)為X關(guān)于B的上近似集與下近似集。上近似集是根據(jù)知識(shí)B可能屬于X的U中對(duì)象組成的集合。
定義5(規(guī)則可信度) DT=(U,C∪D,V, f ) 是決策信息系統(tǒng),U/D={D1,D2,D3,…Dr}決策屬性集將對(duì)象分r類(lèi),XU,BC,,(1≤j≤r),則稱(chēng)(x)為規(guī)則“若y∈[x]B,則y∈DjB”的可信度。
定義6(最大分布約簡(jiǎn)) DT=(U,C ∪ D,V, f ) 是一個(gè)決策信息系統(tǒng),,則稱(chēng)B是決策信息系統(tǒng)的最大分布協(xié)調(diào)集。當(dāng)且僅當(dāng)B是最大分布協(xié)調(diào)集,且B的任何真子集都不是最大分布協(xié)調(diào)集,則稱(chēng)B是決策信息系統(tǒng)的最大分布約簡(jiǎn)。最大分布協(xié)調(diào)集的每個(gè)對(duì)象的最大分布決策類(lèi)可信度不變。如果B是(U,C∪D,V, f )的最大分布約簡(jiǎn),則由屬性B產(chǎn)生的不確定規(guī)則與C所產(chǎn)生的不確定性規(guī)則是完全一致的。
定義7(分辨矩陣) 設(shè)(U,C∪D,V, f )是決策支持系統(tǒng),用fm(Ti) 表示屬性cm在對(duì)象Ti的取值,記:
稱(chēng)D(Ti,Tj) 為T(mén)i,Tj的最大分布分辨屬性集,DIS=(D(Ti,Tj) m×m)為最大分辨矩陣[12]。其中最大不可分辨函數(shù)是由D(Ti,Tj)中屬性的析取得到。若D(Ti,Tj)≠?,則∨D(Ti,Tj)=1。
多屬性決策和多決策類(lèi)都可以轉(zhuǎn)化為決策屬性值為Yes和No的不協(xié)調(diào)決策信息系統(tǒng),所以下面只考慮屬性值D=sqeqocu,U/ D={D1,D2}。其中:。一個(gè)有序?qū)?cm, fm(xj)), fm(xi)為對(duì)象xi在屬性cm上屬性值,規(guī)則的形式表示:(cm, fm(xi))→No,(cm, fm(xi))→Yes。同理兩個(gè)決策值為No的規(guī)則集合是決策矩陣的行,D1是矩陣的列,兩者組成的序?qū)π纬梢粋€(gè)矩陣。下面是矩陣元素的求法:設(shè),sj∈D1,如果fm(xi)≠fm(sj),fm(xi)為對(duì)象xi在屬性cm上屬性值,m=1,2,…,p則第i行,j列矩陣元素為(cm, fm(xi))元素的集合。
《基于粗糙集理論的一種屬性約簡(jiǎn)算法》中還定義了基集和對(duì)立集,是基于歸納積極規(guī)則的候選集合:YL, YU稱(chēng)為基集;稱(chēng)為對(duì)立集。由此得到形成決策規(guī)則的多種形式:在此排出了3種情況,因?yàn)樵谛纬梢?guī)則相同的情況,如:YL,形成的規(guī)則與相同,因此忽略這3種形式。當(dāng):時(shí),不能形成任何的規(guī)則,在此就不作證明。
這多種形式的決策規(guī)則集對(duì)于獲得所需規(guī)則的價(jià)值是不同的,也就是對(duì)于這多種形式應(yīng)采用不同的重視程度,有強(qiáng)弱之分,優(yōu)先考慮權(quán)的區(qū)分,顯然所形成的規(guī)則集越強(qiáng),說(shuō)明參考價(jià)值越高。規(guī)則集強(qiáng)弱程度如圖1所示:
圖1 規(guī)則集強(qiáng)弱示意圖
對(duì)每一種形式(Y, N),可以定義如下的決策矩陣D(Y, N)和決策矩陣函數(shù)μ(Y, N)。
決策矩陣的元素Dij(Y, N)定義如下:
Dij(Y, N)={cm, fm(ri)|fm(ri)≠fm(sj)
fm(sj)≠*,cm∈C},ri∈Y, Sj∈N
4.1規(guī)則獲取規(guī)則描述:
輸入:不協(xié)調(diào)決策信息系統(tǒng)S=(U,C∪D,V, f );輸出:決策規(guī)則集合。
4.2詳細(xì)步驟
Step1:由不協(xié)調(diào)決策信息系統(tǒng)得到DIS=(D(Ti,Tj) m×m)(最大分布分辨矩陣)——分辨矩陣中不同屬性的并集。然后利用M=∧(Ti ,Tj)∈D*(∨D(Ti,Tj))(最大分布分辨函數(shù))對(duì)各項(xiàng)合取值,求最大分布約簡(jiǎn)。
Step2:根據(jù)最大分布約簡(jiǎn)B,形成新的不協(xié)調(diào)決策信息系統(tǒng)M=(U,C∪D,V1, f1)。
Step3:求出新的決策信息系統(tǒng)S=(U,C∪D,V1, f1)的基集(YL, YU),對(duì)立集。但大多數(shù)只考慮最強(qiáng)的一種,即
Step5:輸出決策規(guī)則集合。
綜上所述算法中,因?yàn)槊總€(gè)序?qū)哂袕?qiáng)弱之分,所以所對(duì)應(yīng)的決策規(guī)則也具有不同的參考價(jià)值,序?qū)υ綇?qiáng),所獲取的決策規(guī)則越有參價(jià)值。由于多種情況的決策規(guī)則集可信度各有不同,使該算法在數(shù)據(jù)挖掘方面有很廣的應(yīng)用范圍,可以根據(jù)不同的應(yīng)用領(lǐng)域選擇不同程度可信度的決策規(guī)則集來(lái)進(jìn)行數(shù)據(jù)挖掘工作。但是目前每種決策規(guī)則集還沒(méi)有一個(gè)統(tǒng)一的量化標(biāo)準(zhǔn)值,也就是沒(méi)有確定的方法來(lái)求出每種決策規(guī)則的可信度值,因此還不能準(zhǔn)確根據(jù)具體情況來(lái)確定相應(yīng)的規(guī)則集。
以上算法步驟,以某品牌數(shù)碼相機(jī)銷(xiāo)售表為例,進(jìn)行實(shí)例分析,來(lái)進(jìn)一步驗(yàn)證該算法的可行性。銷(xiāo)售表如表1所示,對(duì)象集U={u1,u2,u3,u4,u5,u6,u7,u8},條件屬性集C={a1,a2,a3,a4}={大小,功能,款式,顏色},決策屬性D=kuuc0ye={是否購(gòu)買(mǎi)}。
表1 某品牌數(shù)碼相機(jī)銷(xiāo)售表
(1)求最大分布約簡(jiǎn)
那么{a1,a2},{a1,a4}是決策信息系統(tǒng)的最大分布協(xié)調(diào)集,也就是最大分布約簡(jiǎn)。第二步的任務(wù)是獲取這七對(duì)序?qū)Φ牟淮_定性決策規(guī)則集。新的決策信息系統(tǒng)以a1,a2為條件屬性來(lái)進(jìn)行決策規(guī)則集的歸納。
首先由(NU,YL)得到的矩陣如表2所示:
表2 由(NU,YL)得到的矩陣
=(復(fù)合型∧復(fù)合型)∧(小型∧小型)=復(fù)合型∨小型最終得到可能的決策屬性值為No的規(guī)則集合:
(4)決策矩陣函數(shù)
=(簡(jiǎn)易型∧正常)∨(簡(jiǎn)易型∧正常)
=(簡(jiǎn)易型∧正常);(a1,正常)∧(a2,簡(jiǎn)易型)→接受
表3 基于(YL,)的決策矩陣
表3 基于(YL,)的決策矩陣
YL N?U s1 s2 {(a1,正常)} {(a1,正常)} u1 u2 {(a2,簡(jiǎn)易型)} {(a2,簡(jiǎn)易型)}
(5)最強(qiáng)的序?qū)?/p>
(YL,)對(duì)應(yīng)的決策規(guī)則集為(a1,正常)∧(a4,黑色)→接受。此規(guī)則集的可信度最高,與實(shí)例分析表中的數(shù)據(jù)無(wú)任何沖突,也符合實(shí)際的事實(shí),同時(shí)它是所有決策規(guī)則集中最具有參考價(jià)值的。(YL,所對(duì)應(yīng)的決策規(guī)則集的可信度次之,依次遵循圖1所示的順序,最弱的是(YL, NU)。目前只是根據(jù)實(shí)際情況進(jìn)行估計(jì)來(lái)選擇適當(dāng)?shù)臎Q策規(guī)則集來(lái)參考,目前每種決策規(guī)則集還沒(méi)有一個(gè)統(tǒng)一的量化標(biāo)準(zhǔn)值。
對(duì)于不協(xié)調(diào)決策信息系統(tǒng),通過(guò)規(guī)則提取算法來(lái)挖掘出系統(tǒng)具有可信度的隱規(guī)則,在一定程度上彌補(bǔ)了信息系統(tǒng)知識(shí)匱乏的缺陷,通過(guò)最大分布約簡(jiǎn)找出那些使決策最可能發(fā)生的數(shù)據(jù),從而實(shí)現(xiàn)系統(tǒng)的最優(yōu)選擇,使獲取規(guī)則可信度最大。
本文在粗糙集理論的粒度計(jì)算模型框架下,將經(jīng)典粗糙集理論應(yīng)用于不協(xié)調(diào)決策信息系統(tǒng)中,對(duì)不協(xié)調(diào)決策信息系統(tǒng)約簡(jiǎn)方法加以補(bǔ)充,并以實(shí)例來(lái)驗(yàn)證該方法的有效性,具有一定的實(shí)際意義,顯然該方法同樣適于協(xié)調(diào)的決策信息系統(tǒng)。
主要參考文獻(xiàn)
[1]Z Pawlak.Rough Sets-Theoretical Aspects of Reasoning about Data[M]. Dordrecht:Kluwer Academic Publishers,1991.
[2]M Kryszkiewicz.Comparative Studies of Alternative Type of KnowledgeReduction in Inconsistent Systems[J].International Journal ofIntelligent Systems,2001(1).
[3]張文修,吳偉志,梁吉業(yè),等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.
[4]苗奪謙,胡桂榮.知識(shí)約簡(jiǎn)的一種啟發(fā)式算法[J].計(jì)算機(jī)研究與發(fā)展,1996(6).
[5]常犁云,王國(guó)胤,吳渝.一種基于Rough Set理論的屬性約簡(jiǎn)及規(guī)則提取方法[J].軟件學(xué)報(bào),1999(11).
[6]王國(guó)胤,楊大春.基于條件信息熵的決策表約簡(jiǎn)[J].計(jì)算機(jī)學(xué)報(bào),2004(7).
[7]官禮合,王國(guó)胤,于洪.屬性序下的增量式Pawlak約簡(jiǎn)算法[J].西安交通大學(xué)學(xué)報(bào),2011(3).
[8]米據(jù)生,吳偉志,張文修.不協(xié)調(diào)目標(biāo)信息系統(tǒng)知識(shí)約簡(jiǎn)算法比較研究[J].模糊系統(tǒng)與數(shù)學(xué),2003(3).
[9]張文修,米據(jù)生,吳偉志.不協(xié)調(diào)目標(biāo)信息系統(tǒng)的知識(shí)約簡(jiǎn)[J].計(jì)算機(jī)學(xué)報(bào),2004(1).
[10]馬光志,吳黎明.基于粗糙集理論的一種屬性約簡(jiǎn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2006(18).
[11]譚旭.改進(jìn)分辨矩陣下的增量式條件屬性約簡(jiǎn)方法算法[J].系統(tǒng)工程理論與實(shí)踐,2010(9).
[12]胡雷剛,肖明清,方甲永.不協(xié)調(diào)信息的協(xié)調(diào)近似表示空間故障診斷方法[J].系統(tǒng)工程與電子技術(shù),2011(8).
[收稿日期]2015-12-18
[中圖分類(lèi)號(hào)]TP18
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1673-0194(2016)02-0193-03
doi:10.3969/j.issn.1673 - 0194.2016.02.150