黃麗萍
(閩南師范大學(xué)計(jì)算機(jī)學(xué)院,福建漳州363000)
不完備序信息系統(tǒng)的集對(duì)優(yōu)勢(shì)度粗糙集模型①
黃麗萍
(閩南師范大學(xué)計(jì)算機(jī)學(xué)院,福建漳州363000)
不完備序信息系統(tǒng)粗糙集模型是經(jīng)典粗糙集模型的擴(kuò)展,它能進(jìn)一步處理含未知屬性值和具有優(yōu)勢(shì)關(guān)系的數(shù)據(jù).針對(duì)相似優(yōu)勢(shì)關(guān)系條件過(guò)于寬松而限制擴(kuò)展優(yōu)勢(shì)關(guān)系條件又過(guò)于嚴(yán)格的缺點(diǎn),引入集對(duì)分析思想,提出了集對(duì)優(yōu)勢(shì)度粗糙集模型.它可以通過(guò)調(diào)整參數(shù),達(dá)到較理想的分類(lèi),克服了現(xiàn)有不完備序信息系統(tǒng)優(yōu)勢(shì)關(guān)系的不足.并以實(shí)例分析驗(yàn)證了集對(duì)優(yōu)勢(shì)度粗糙模型的有效性.最后,在UCI數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)進(jìn)一步說(shuō)明集對(duì)優(yōu)勢(shì)度粗糙模型可以獲得更優(yōu)的分類(lèi)效果.
粗糙集,不完備序信息系統(tǒng),限制優(yōu)勢(shì)關(guān)系,對(duì)優(yōu)勢(shì)度
Pawlak[1]提出的經(jīng)典粗糙集理論是以完備信息系統(tǒng)為研究對(duì)象.但現(xiàn)實(shí)世界,由于數(shù)據(jù)理解、獲取過(guò)程中噪音的影響、獲取技術(shù)的限制等因素,不完備信息系統(tǒng)廣泛地存在現(xiàn)實(shí)生活中.而經(jīng)典粗糙集并不適用于不完備信息系統(tǒng),這就有必要對(duì)它進(jìn)行擴(kuò)充以處理不完備數(shù)據(jù).許多學(xué)者針對(duì)不完備信息系統(tǒng)缺失給出不同理解,得出相應(yīng)的擴(kuò)展粗糙集模型,如Kryszkiewicz[2]提出基于容差關(guān)系的粗糙集模型;Stefanowski等[3]提出了基于非對(duì)稱(chēng)相似關(guān)系和量化容差關(guān)系的粗糙集模型;王國(guó)胤[4]提出了基于限制容差關(guān)系的粗糙集模型.
在實(shí)際問(wèn)題中,屬性的取值不僅含有不完整的數(shù)據(jù)而且往往數(shù)值之間具有優(yōu)勢(shì)關(guān)系.屬性值的有序特性是非常重要的.如決策系統(tǒng)中的效益型和成本型屬性則說(shuō)明了在系統(tǒng)中采用有序思想的重要性,該類(lèi)問(wèn)題更能客地描述眾多決策問(wèn)題[5].而粗糙集的等價(jià)關(guān)系不能處理該類(lèi)數(shù)據(jù),因此,Greco等[6]提出了基于優(yōu)勢(shì)關(guān)系的粗糙集模型,用優(yōu)勢(shì)關(guān)系代替了等價(jià)關(guān)系.對(duì)于上述兩類(lèi)問(wèn)題的處理,Shao[7]提出了基于優(yōu)勢(shì)關(guān)系的不完備序信息系統(tǒng)的屬性約簡(jiǎn)和規(guī)則提?。槍?duì)Shao的相似優(yōu)勢(shì)關(guān)系過(guò)于寬松的問(wèn)題,胡明禮等[8]引入了閥值廣義擴(kuò)展優(yōu)勢(shì)關(guān)系;駱公志等[9]進(jìn)一步提出了限制優(yōu)勢(shì)粗糙集模型,避免了相似優(yōu)勢(shì)關(guān)系條件過(guò)于寬松的現(xiàn)象,但在某些情況下又顯得過(guò)于嚴(yán)格.韋碧鵬等[10]提出了α優(yōu)勢(shì)下的粗糙集模型的屬性約簡(jiǎn),莫京蘭等[11]提出的不完備序信息系統(tǒng)及其擴(kuò)展模型,陶志等[12]提出的概率優(yōu)勢(shì)關(guān)系和施玉杰等[13]提出的α先驗(yàn)概率優(yōu)勢(shì)關(guān)系下的粗糙集模型,這些模型都需要統(tǒng)計(jì)各個(gè)屬性中各數(shù)據(jù)值出現(xiàn)的頻率;對(duì)于大數(shù)據(jù)來(lái)說(shuō),計(jì)算各數(shù)據(jù)值出現(xiàn)的頻率已經(jīng)需要花費(fèi)大量的時(shí)間代價(jià),顯然不符合實(shí)際.
集對(duì)分析方法[14]是趙克勤教授近年來(lái)提出的用于研究集合之間相互關(guān)系的一種新理論,其核心思想是把被研究的客觀(guān)事物之確定性聯(lián)系和不確定性聯(lián)系作為一個(gè)系統(tǒng)來(lái)處理,現(xiàn)在它已經(jīng)得到了廣泛的應(yīng)用.一些學(xué)者利用運(yùn)用集對(duì)分析方法對(duì)不完備信息系統(tǒng)粗糙集模型進(jìn)行了擴(kuò)展,建立了相應(yīng)的不完備信息系統(tǒng)的集對(duì)粗糙集模型[15-18].而不完備序信息系統(tǒng)的集對(duì)分析方法目前還較少.文獻(xiàn)[19]將集對(duì)分析方法應(yīng)用于不完備序信息系統(tǒng),提出了關(guān)鍵屬性,而關(guān)鍵屬性的認(rèn)定具有人為因素,主觀(guān)性過(guò)強(qiáng).因此,本文在分析現(xiàn)有不完備序信息系統(tǒng)的幾種粗糙集模型的基礎(chǔ)上,提出了集對(duì)優(yōu)勢(shì)度粗糙模型.
1.1 相似優(yōu)勢(shì)關(guān)系
1.2 限制優(yōu)勢(shì)關(guān)系
定義3[9]設(shè)IIS=〈U,AT,V,f〉是一個(gè)不完備序信息系統(tǒng),對(duì)于A(yíng)?AT,?x,y∈U,對(duì)象在屬性A下的限制優(yōu)勢(shì)關(guān)系為
限制相似優(yōu)勢(shì)關(guān)系克服了相似優(yōu)勢(shì)關(guān)系限制條件過(guò)于寬松的不足;但其條件過(guò)于苛刻,容易將實(shí)際上具有很大可能性的同類(lèi)對(duì)象誤判為不同類(lèi).如信息表中屬性a的值域?yàn)閇1-8],存在y(a)=*,x(a)=1,按照限制相似優(yōu)勢(shì)的定義有y(a)=*優(yōu)于x(a)=1,但是對(duì)于y(a)=*,x(a)=3,則不能判斷y(a)=*優(yōu)于x(a)=3.而實(shí)際上,如果y(a)的取值滿(mǎn)足均值分布,則y(a)>x(a)的概率很大,因此,y(a)優(yōu)于x(a)成立的可能性很大,所以限制相似優(yōu)勢(shì)關(guān)系會(huì)造成一定的分類(lèi)錯(cuò)誤.
針對(duì)上述存在的問(wèn)題,本文提出了集對(duì)優(yōu)勢(shì)度粗糙集模型.
M(x,y)={a∈A|fa(x)≥fa(y)∨(fa(x)=maxva∧fa(y)=*)∨(fa(x)=*∧fa(y)=minva)},
N(x,y)={a∈A|(fa(x)=*∧fa(y)=*)∨(fa(x)≠*∧fa(x)≠maxva∧fa(y)=*)∨
(fa(x)=*∧fa(y)≠minva∧fa(y)≠*)},
K(x,y)={a∈A|(fa(x) 顯然0≤S1,S2,S3≤1,S1+S2+S3=1. 對(duì)于弱勢(shì)度中的對(duì)象如何定義其中可能的優(yōu)勢(shì)度,本文給出對(duì)象屬性值聯(lián)合優(yōu)勢(shì)率的定義. 定義6 設(shè)IIS=〈U,AT,V,f〉是不完備序信息系統(tǒng),B?AT,對(duì)于任意的x,y∈U,對(duì)象x,y屬性值聯(lián)合優(yōu)勢(shì)率FP(x,y)定義為 在差異對(duì)象中,對(duì)象屬性值聯(lián)合優(yōu)勢(shì)率通過(guò)用平均值來(lái)代替未知值*來(lái)進(jìn)行優(yōu)劣比較,不僅解決相似優(yōu)勢(shì)關(guān)系和限制優(yōu)勢(shì)關(guān)系不能合理地比較f(x,a)=Vi(Vi∈Va∧Vi≠maxVa∧Vi≠minVa),f(y,a)=*的情形;也克服了文獻(xiàn)[16]中依靠專(zhuān)家選擇一些屬性作為關(guān)鍵屬性而導(dǎo)致的主觀(guān)性過(guò)強(qiáng). 證明 由定義7可知,當(dāng)S1=1時(shí),只考慮強(qiáng)優(yōu)勢(shì)度不考慮弱優(yōu)勢(shì)度,這時(shí)集對(duì)優(yōu)勢(shì)關(guān)系的定義等價(jià)于限制優(yōu)勢(shì)關(guān)系的定義;當(dāng)S1+S2=1,即不對(duì)弱勢(shì)度進(jìn)行進(jìn)一步限定,則集對(duì)優(yōu)勢(shì)關(guān)系的定義等價(jià)于相似優(yōu)勢(shì)關(guān)系的定義.從而可得性質(zhì)2.從性質(zhì)2可以看出,本文提出的集對(duì)優(yōu)勢(shì)度粗糙模型客服了相似優(yōu)勢(shì)關(guān)系劃分粒度過(guò)大和限制優(yōu)勢(shì)關(guān)系劃分過(guò)小的缺點(diǎn),對(duì)不完備序信息系統(tǒng)的處理更加合理. 文獻(xiàn)[20]給出的一個(gè)完備的序信息系統(tǒng),有11個(gè)對(duì)象U={x1,x2,…,x11},8個(gè)條件屬性AT={a1,a2,…,a8}.條件屬性值A(chǔ)>B>C>D,分別用4,3,2,1來(lái)表示.將表內(nèi)一些對(duì)象設(shè)置成未知值,用*表示;從而得到一個(gè)不完備序信息系統(tǒng)如表1所示.運(yùn)用表1給出的不完備序信息系統(tǒng)來(lái)分析文獻(xiàn)[6]提出的相似優(yōu)勢(shì)關(guān)系、文獻(xiàn)[9]提出的限制優(yōu)勢(shì)關(guān)系以及本文提出的優(yōu)勢(shì)關(guān)系之間的分類(lèi)效果. 表1 不完備序信息系統(tǒng) 從上面的結(jié)果可以看出,集對(duì)優(yōu)勢(shì)度優(yōu)勢(shì)關(guān)系通過(guò)平均值來(lái)代替未知值來(lái)進(jìn)行比較的方法,解決了相似優(yōu)勢(shì)關(guān)系條件過(guò)于寬松而限制優(yōu)勢(shì)關(guān)系條件過(guò)于苛刻的問(wèn)題,使基于集對(duì)優(yōu)勢(shì)度的優(yōu)勢(shì)關(guān)系的優(yōu)勢(shì)類(lèi)更接近信息完備時(shí)的優(yōu)勢(shì)類(lèi),具有更優(yōu)的分類(lèi)效果. 下面通過(guò)MATLAB,選用表1和UCI數(shù)據(jù)庫(kù)中的IRIS數(shù)據(jù)集,進(jìn)一步驗(yàn)證基于集對(duì)優(yōu)勢(shì)度的優(yōu)勢(shì)關(guān)系的分類(lèi)性能.采用隨機(jī)函數(shù)分別對(duì)表1和IRIS數(shù)據(jù)集設(shè)置5%,10%,20%和40%數(shù)據(jù)量的未知值,然后用集對(duì)優(yōu)勢(shì)度優(yōu)勢(shì)關(guān)系、限制相似優(yōu)勢(shì)關(guān)系對(duì)對(duì)象進(jìn)行劃分,產(chǎn)生各對(duì)象的優(yōu)勢(shì)類(lèi),將各對(duì)象的優(yōu)勢(shì)類(lèi)與其相應(yīng)的未設(shè)未知值時(shí)的優(yōu)勢(shì)類(lèi)(標(biāo)準(zhǔn)類(lèi)),利用文獻(xiàn)[21]所給分類(lèi)誤判率公式計(jì)算兩者之間的誤分類(lèi)率. 表2 分類(lèi)錯(cuò)誤率比較 實(shí)驗(yàn)結(jié)果表明,限制相似優(yōu)勢(shì)關(guān)系的分類(lèi)誤判率明顯高于本文基于集對(duì)優(yōu)勢(shì)度的優(yōu)勢(shì)關(guān)系;且隨著信息不完備率的增加,其誤判率快速上升,而基于集對(duì)優(yōu)勢(shì)度的優(yōu)勢(shì)關(guān)系的誤判率比較穩(wěn)定.通過(guò)調(diào)節(jié)α的大小,可以進(jìn)一步提高分類(lèi)精度.當(dāng)α=0.6是的分類(lèi)誤判率小于α=1時(shí)的分類(lèi)誤判率.可以進(jìn)一步看出,對(duì)于序信息系統(tǒng)的分類(lèi),若分類(lèi)條件過(guò)于苛刻,容易將實(shí)際上具有很大可能性的同類(lèi)對(duì)象誤判為不同類(lèi). 現(xiàn)實(shí)中,存在很多不完備且含有序關(guān)系的數(shù)據(jù),因此對(duì)這種復(fù)雜數(shù)據(jù)的處理是很有意義的.本文通過(guò)對(duì)不完備信息系統(tǒng)和優(yōu)勢(shì)關(guān)系的分析,結(jié)合集對(duì)分析方法提出了集對(duì)優(yōu)勢(shì)度粗糙模型.該方法對(duì)于不完備序信息系統(tǒng)的數(shù)據(jù)分析更加合理.這種模型可根據(jù)實(shí)際應(yīng)用的需求,對(duì)參數(shù)α合理地調(diào)節(jié),可以靈活地控制從不完備序信息系統(tǒng)中獲取信息粒度的大??;從而更有效地對(duì)數(shù)據(jù)進(jìn)行處理,克服了已有擴(kuò)展模型的局限性.在本文的基礎(chǔ)上,下一步將進(jìn)一步研究基于集對(duì)優(yōu)勢(shì)度的不完備序決策系統(tǒng)的屬性約簡(jiǎn)和規(guī)則提取方法. [1]PawlakZ.Roughset[J].InternationalJournalofComputerandInformationSciences,1982,11:341-356. [2]KryszkiewiczM.Roughsetapproachtoincompleteinformationsystem[J].InformationSciences,1998,112:39-49. [3]StefanowskiJ,TsoukiasA.OntheExtensionofRoughSetsUnderIncompleteInformation[C].//ProceedingsofNewDirectionsinRoughSets,DataMiningandGranular-SoftComputing.Berlin:Springer,1999:73-81. [4] 王國(guó)胤.Rough集理論在不完備信息系統(tǒng)中的擴(kuò)充[J].計(jì)算機(jī)研究與發(fā)展,2002,39(10):1 238-1 243. [5] 黃麗萍.區(qū)間序信息系統(tǒng)在向量相似度下的優(yōu)勢(shì)關(guān)系及屬性約簡(jiǎn)[J].齊齊哈爾大學(xué)學(xué)報(bào):自然科學(xué)版,2015,31(6):1-4. [6]GrecoS,MatarazzoB.SlowingskiR.Roughsetstheoryformulticriteriadecisionanalysis[J].EuropeanJournalofOperationalResearch,2001,129(1):1-47. [7]ShaoMW,ZhangWX.Dominancerelationandrulesinanincompleteorderedinformationsystem[J],InternationalJournalofIntelligentSystems,2005,20:13-27. [8] 胡明禮,劉思峰.基于廣義擴(kuò)展優(yōu)勢(shì)關(guān)系的粗糙決策分析方法[J].控制與決策,2007,22(12):1 347-1 351. [9] 駱公志,楊曉江,周德群.基于限制擴(kuò)展優(yōu)勢(shì)關(guān)系的粗糙決策分析模型[J].系統(tǒng)管理學(xué)報(bào),2009,18(4):391-396. [10] 韋碧鵬,呂躍進(jìn),李金海.α優(yōu)勢(shì)下的粗糙集模型的屬性約簡(jiǎn)[J].智能系統(tǒng)學(xué)報(bào),2014,9(2):251-257. [11] 陶志,胡樹(shù)芹,不完備偏好決策系統(tǒng)中一種擴(kuò)展優(yōu)勢(shì)關(guān)系模型.中國(guó)民航大學(xué)學(xué)報(bào),2015,32(4):51-55. [12] 施玉杰,楊宏志,徐久成.α先驗(yàn)概率優(yōu)勢(shì)關(guān)系下的粗糙集模型研究[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2016,52(5):899-907. [13] 莫京蘭,呂躍進(jìn),李金海.不完備序信息系統(tǒng)的模型擴(kuò)展及其屬性約簡(jiǎn)[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2015,51(2):430-437. [14] 趙克勤.集對(duì)分析及其初步應(yīng)用[M].1版.杭州:浙江科學(xué)技術(shù)出版社,2000. [15] 黃兵,周獻(xiàn)中.基于集對(duì)分析的不完備信息系統(tǒng)粗糙集模型[J].計(jì)算機(jī)科學(xué),2002,29(7):1-3. [16] 劉富春.變集對(duì)聯(lián)系度的擴(kuò)充粗糙集模型及其屬性約簡(jiǎn)[J].計(jì)算機(jī)科學(xué),2006,33(3):185-187. [17] 李長(zhǎng)清,李克典,李進(jìn)金.不完備信息系統(tǒng)確定性和集對(duì)聯(lián)系度的粗糙擴(kuò)展模型[J].工程數(shù)學(xué)學(xué)報(bào),2010,27(2):342-346. [18] 趙煥煥,菅利榮,劉勇.基于順勢(shì)相似關(guān)系的變精度粗糙集模型[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(6):51-56. [19] 翟育明,蔡紅,郭斌.(α,β)集對(duì)限制優(yōu)勢(shì)粗糙集及決策模型[J].系統(tǒng)管理學(xué)報(bào),2014,23(3):437-443. [20] 菅利榮,劉思峰,謝乃明.雜合灰色聚類(lèi)與擴(kuò)展優(yōu)勢(shì)粗集的概率決策方法[J].系統(tǒng)工程學(xué)報(bào),2010,25(4):554-560. [21]WinterS.Locationsimilarityofregions[J].ISPRSJournalofPhotogrammetry&RemoteSensing(S0924-2716),2000,55:189-200 Incomplete Ordered Information System Rough Set Model Based on Set-Pair Dominant Degree HUANG Li-ping (School of Computer,Minnan Normal University,Zhangzhou 363000,China) Rough set model of incomplete ordered information system is an extension of classical rough set model,which can deal with the data with unknown attribute values and dominance relation.For similar dominance relation condition was too loose and limited extended dominance relation was too strict,motivated by the problem,set-pair dominant degree rough set model was proposed base on the analysis of set-pair,which can be by adjusting the parameters,to achieve the ideal classification,overcome the shortcomings of the dominance relation in the existing incomplete ordered information system definition.And the feasibility of the model was verified by an example.Finally,we carried on the simulation experiment on UCI data sets and the experimental results illustrate that the classification results were more accuracy can be obtained based on the set pair dominance relation. rough set,incomplete ordered information system,limited dominant relation,set-pair dominant degree 2016-12-13 福建省教育廳科技項(xiàng)目(JAT160305)資助 黃麗萍,E-mail:liphuang@126.com. TP391 A 1672-6634(2017)01-0097-053 實(shí)例分析
4 仿真實(shí)驗(yàn)
5 結(jié)束語(yǔ)