富雨晴
摘要:粗糙集理論是一種處理不確定信息的有效工具,利用其可在無(wú)任何先驗(yàn)信息下獲取屬性約簡(jiǎn)子集。本文采用優(yōu)勢(shì)粗糙集理論中的排列互信息和最大相關(guān)最小冗余相融合技術(shù)進(jìn)行屬性子集選取,在每個(gè)屬性子集上對(duì)五種決策樹進(jìn)行訓(xùn)練并作為基礎(chǔ)分類器,并按照投票機(jī)制融合個(gè)體分類器的輸出得到最終決策結(jié)果。在實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)表明,基于排列互信息和最大相關(guān)最小冗余方法得到屬性子集能夠反映數(shù)據(jù)本質(zhì)信息,使得分類算法有較好的準(zhǔn)確率。同時(shí),與單個(gè)決策樹的分類結(jié)果相比,融合決策樹具有較好的分類效果。
Abstract: Rough set theory offers a new effective tool for dealing with uncertain information. Its typical feature is to obtain a subset of attribute reductions without any prior information. In this study, a fusion technique by combining the attributes' mutual information and the maximum relevance minimum redundancy in the dominant rough set theory are used to select the attribute subsets. Five decision trees are learned on each attribute reduction subset as some basic classifiers, and then the output of the individual classifier is fused according to the voting mechanism to obtain the final decision result. The numerical experiments on the actual dataset illustrate that the attribute subsets can capture the essential information of the data based on the arrangement mutual information and the maximum relevance minimum redundancy method, so the classification algorithm has better accuracy than the classification result of the single decision tree.
關(guān)鍵詞:優(yōu)勢(shì)粗糙集;決策樹;最大相關(guān)最小冗余;屬性約簡(jiǎn)
Key words: dominant rough sets;decision tree;maximum relevance minimum redundancy;attribute reduct
中圖分類號(hào):TP18;O225? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號(hào):1006-4311(2019)28-0226-04
0? 引言
粗糙集理論是Pawlak于1982年首次提出的[1],它具有處理不完全和不精確數(shù)據(jù)的能力,因而引起了許多學(xué)者的關(guān)注。利用粗糙集理論中上下近似逼近來(lái)挖掘一些有用的信息,并用于指導(dǎo)實(shí)踐活動(dòng)。該理論已被廣泛用于特征選擇[2-3],規(guī)則提取[4],分類[5-6]等相關(guān)問(wèn)題求解中。在Pawlak粗糙集中,利用等價(jià)關(guān)系生成的等價(jià)類來(lái)近似目標(biāo)集,其操作過(guò)程簡(jiǎn)單,但會(huì)受到信息系統(tǒng)數(shù)值類型的限制。因此,基于等價(jià)關(guān)系定義的經(jīng)典粗糙集只能處理離散的信息表,對(duì)于連續(xù)型信息表則要通過(guò)離散化方法對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。然而,離散化過(guò)程未考慮結(jié)果的語(yǔ)義描述,缺少可解釋性。連續(xù)型數(shù)據(jù)往往具有序關(guān)系特性,而離散化后的結(jié)果是完全無(wú)序的,容易導(dǎo)致信息損失。此外,面對(duì)包含名義型、區(qū)間型等多種數(shù)據(jù)類型且?guī)в胁煌陚浜投喑叨忍卣鞯臄?shù)據(jù)集,許多研究者引入了不同的二元關(guān)系來(lái)提升粗糙集問(wèn)題求解的能力,相應(yīng)地,Pawlak粗糙集的多個(gè)擴(kuò)展模型已被提出。
通常減少有序結(jié)構(gòu)信息損失的粗糙集方法有兩種:模糊粗糙集和考慮序關(guān)系的粗糙集?;趦?yōu)勢(shì)關(guān)系的粗糙集方法(DRSA)考慮了屬性值的有序性[6-9],其將不可分辨關(guān)系擴(kuò)充到了優(yōu)勢(shì)關(guān)系,不同對(duì)象在條件屬性上與類標(biāo)簽單調(diào)的比較可用單調(diào)關(guān)系來(lái)表示。優(yōu)勢(shì)粗糙集以優(yōu)勢(shì)類實(shí)現(xiàn)集合上下近似逼近,在此基礎(chǔ)上處理多準(zhǔn)則決策和多準(zhǔn)則排序問(wèn)題[10-13]。DRSA自被提出以來(lái),已被擴(kuò)展為多種形式來(lái)處理各類序信息系統(tǒng)中的知識(shí)獲取問(wèn)題,包含特征優(yōu)勢(shì)關(guān)系[14]、相似優(yōu)勢(shì)關(guān)系[15]和優(yōu)勢(shì)等價(jià)關(guān)系[16]的優(yōu)勢(shì)粗糙集。
優(yōu)勢(shì)粗糙集的一個(gè)關(guān)鍵應(yīng)用是可對(duì)信息系統(tǒng)和決策系統(tǒng)進(jìn)行屬性約簡(jiǎn)和規(guī)則提取。Hu等人[17]提出了一種基于排列熵的單調(diào)分類決策樹。排列熵可以作為一種新的有序信息測(cè)度,它比Shannon信息熵[18]對(duì)單調(diào)分類具有更好的魯棒性。Qian等學(xué)者通過(guò)在學(xué)習(xí)基分類器中引入一種保留序關(guān)系的屬性約簡(jiǎn)方法,來(lái)建立集成單調(diào)決策樹[19-20]。受以上工作的啟發(fā),本文采用優(yōu)勢(shì)粗糙集理論中的排列互信息和最大相關(guān)最小冗余相融合進(jìn)行屬性子集選取,并在每個(gè)屬性約簡(jiǎn)子集上對(duì)不同決策樹進(jìn)行訓(xùn)練來(lái)作為基礎(chǔ)分類器,進(jìn)而按照投票機(jī)制融合這些個(gè)體分類器的輸出得到最終分類結(jié)果。