宋 鵬,梁吉業(yè),錢(qián)宇華,李常洪
(1.山西大學(xué)經(jīng)濟(jì)與管理學(xué)院,山西 太原 030006; 2.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
?
區(qū)間數(shù)分級(jí)決策的特征選擇方法研究
宋 鵬1,2,梁吉業(yè)2,錢(qián)宇華2,李常洪1
(1.山西大學(xué)經(jīng)濟(jì)與管理學(xué)院,山西 太原 030006; 2.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
在多屬性決策分析中,科學(xué)的特征選擇方法有利于提取關(guān)鍵決策指標(biāo),進(jìn)而求解決策方案并提升決策效率。本文面向區(qū)間數(shù)分級(jí)決策問(wèn)題,以區(qū)間數(shù)優(yōu)勢(shì)關(guān)系為序化信息刻畫(huà)的基本手段;基于粗糙集與信息熵理論,通過(guò)分析條件屬性與決策屬性序相關(guān)性的決策內(nèi)涵,提出了一種新的特征評(píng)價(jià)函數(shù)——區(qū)間序補(bǔ)集條件熵。在此基礎(chǔ)上,基于區(qū)間序補(bǔ)集條件熵的變化程度,給出了必要屬性的形式化表示與屬性重要度的度量準(zhǔn)則,進(jìn)而設(shè)計(jì)了區(qū)間數(shù)分級(jí)決策表的啟發(fā)式特征選擇算法。最后,通過(guò)兩個(gè)案例研究,驗(yàn)證了特征選擇方法的有效性。
區(qū)間數(shù); 分級(jí)決策; 特征選擇; 補(bǔ)集條件熵
在管理科學(xué)與決策科學(xué)的發(fā)展進(jìn)程中,多屬性決策作為其重要組成部分,也取得了諸多重要的研究成果[1-6]。就多屬性決策而言,其可分為選擇、排序、分類/分級(jí)三大類研究問(wèn)題[7-8]。然而,需要指出的是,盡管相關(guān)研究將分類/分級(jí)問(wèn)題歸入了同一類別,但本質(zhì)上,分類與分級(jí)問(wèn)題具有顯著區(qū)別。在分類問(wèn)題中,類別之間沒(méi)有等級(jí)關(guān)系;而分級(jí)問(wèn)題,其類別之間具有優(yōu)劣關(guān)系,即有序的分類。實(shí)際上,分級(jí)決策(Sorting decision)廣泛的存在于決策實(shí)踐中,如能源效率評(píng)價(jià)、風(fēng)險(xiǎn)評(píng)級(jí)、城市評(píng)價(jià)、企業(yè)效益評(píng)價(jià)、組織沖突分析等[9-13]。
在分級(jí)決策中,決策者需要基于相關(guān)的評(píng)價(jià)指標(biāo)集(或稱特征集、屬性集等),著眼于問(wèn)題求解的決策目標(biāo),進(jìn)而對(duì)備選方案開(kāi)展決策分析研究。然而,在眾多的評(píng)價(jià)指標(biāo)中,往往存在不相關(guān)或冗余的屬性。這些不相關(guān)或冗余的指標(biāo),不僅僅會(huì)增加決策成本,也將影響決策性能。當(dāng)然,這也是多屬性決策的共性問(wèn)題。為了有效提升決策性能與決策效率,旨在挖掘符合決策目標(biāo)的關(guān)鍵特征的特征選擇方法受到了更多的關(guān)注[14-17]。
就特征選擇方法而言,其一般可分為兩大類:封裝式(Wrapper)、過(guò)濾式(Filter)。比較而言,前者在進(jìn)行特征選擇時(shí)需結(jié)合隨后的學(xué)習(xí)算法來(lái)評(píng)價(jià)候選的特征子集;后者則基于特定的評(píng)價(jià)函數(shù),通過(guò)考查特征之間、特征與決策目標(biāo)之間的關(guān)聯(lián)程度,從而求解關(guān)鍵特征子集。從決策分析的內(nèi)涵目標(biāo)來(lái)看,緊密?chē)@決策問(wèn)題目標(biāo),進(jìn)而獲取重要的特征子集,更有利于決策者在決策全流程中的監(jiān)督和控制,因此,本文重點(diǎn)探討過(guò)濾式特征選擇方法。
就過(guò)濾式方法而言,特征評(píng)價(jià)函數(shù)的選擇是核心環(huán)節(jié)。從現(xiàn)有研究進(jìn)展來(lái)看,為了保證特征選擇效果,人們從不同視角嘗試不同的特征評(píng)價(jià)函數(shù),如距離度量、依賴性度量和信息度量等[18]。在上述特征評(píng)價(jià)函數(shù)中,基于信息度量的特征評(píng)估準(zhǔn)則,由于其無(wú)需假設(shè)數(shù)據(jù)分布已知,且能夠考查特征間的非線性關(guān)系,因此,在特征選擇方法的研究中備受關(guān)注[16, 19-20]。需要進(jìn)一步強(qiáng)調(diào)的是,由于粗糙集方法能夠在保持分類能力不變的條件下有效開(kāi)展屬性約簡(jiǎn)并提取決策規(guī)則,因此,基于粗糙集與信息熵結(jié)合的特征選擇方法的研究成果也不斷涌現(xiàn)。Jensen 和 Shen Qiang[21]著眼于保持決策語(yǔ)義不變的視角,提出了粗糙特征選擇方法和模糊粗糙特征選擇方法。針對(duì)經(jīng)典粗糙集方法需要進(jìn)行數(shù)據(jù)離散化的預(yù)處理步驟進(jìn)而引致信息損失的問(wèn)題,Parthaláin和 Shen Qiang[22]基于相容粗糙集模型給出了一種可以處理連續(xù)性數(shù)值的特征選擇算法。面向特征選擇方法計(jì)算耗時(shí)的共性困難,Qian Yuhua等[23]基于正向近似概念,針對(duì)Shannon熵、補(bǔ)集條件熵、組合熵等不同的特征評(píng)價(jià)函數(shù)給出了一類通用的特征選擇加速方法。面對(duì)實(shí)際決策環(huán)境中,數(shù)據(jù)樣本呈現(xiàn)動(dòng)態(tài)增加形式的現(xiàn)實(shí)問(wèn)題,Liang Jiye等[24]通過(guò)分析信息熵的增量機(jī)制提出了一種具有批增量處理能力的粗糙特征選擇算法。Tseng和 Huang[25]則將基于粗糙集的特征選擇方法應(yīng)用于客戶關(guān)系管理研究中??梢钥闯?,基于粗糙集與信息熵結(jié)合的特征選擇方法為有效提升特征選擇的決策性能與計(jì)算效率提供了一條可行的研究路徑。
需要進(jìn)一步指出的是,在現(xiàn)實(shí)的決策分析中,由于決策問(wèn)題的不確定性以及決策者的不同偏好,人們面對(duì)的數(shù)據(jù)形式也往往呈現(xiàn)模糊值、缺省值、區(qū)間值等復(fù)雜形式[26-31]。相應(yīng)地,相關(guān)學(xué)者圍繞不同的數(shù)據(jù)表示形式開(kāi)展了系列的特征選擇方法研究。Hu Qinghua等[32]面向具有名義型、數(shù)值型和模糊型混合數(shù)據(jù)的決策表,運(yùn)用粗糙集模型和模糊粗糙集模型,給出了基于條件熵的特征選擇方法。Qian Yuhua等[33]針對(duì)模糊型數(shù)據(jù)的決策表提出了一種特征選擇的加速算法。事實(shí)上,在實(shí)際的決策問(wèn)題中,各類決策指標(biāo)的數(shù)值往往呈現(xiàn)動(dòng)態(tài)波動(dòng)的狀態(tài),因此,與單值型數(shù)據(jù)相比,區(qū)間型數(shù)據(jù)更有利于反映數(shù)據(jù)集的取值情況。因而,基于區(qū)間數(shù)據(jù)的決策建模與分析研究日益受到重視。劉小弟等[34]運(yùn)用相對(duì)熵方法,針對(duì)屬性取值、方案偏好為區(qū)間型數(shù)據(jù)表示形式的多屬性決策問(wèn)題,開(kāi)展了群決策建模與分析研究。梁燕華等[35]結(jié)合灰靶思想,構(gòu)建了區(qū)間數(shù)灰靶決策模型,進(jìn)而為具有多決策對(duì)象、分類數(shù)不確定等復(fù)雜特性的分類決策問(wèn)題提供了有效的決策分析方法。郭崇慧和劉永超[36]圍繞分類決策問(wèn)題,基于距離度量區(qū)間數(shù)的相似性,運(yùn)用最近鄰分類器,建立了一種區(qū)間型符號(hào)數(shù)據(jù)的特征選擇方法。然而,從現(xiàn)有研究進(jìn)展來(lái)看,關(guān)于區(qū)間數(shù)據(jù)分級(jí)決策的特征選擇研究仍鮮有報(bào)道。因而,本文將面向區(qū)間數(shù)分級(jí)決策問(wèn)題,在粗糙集理論框架下,提出一個(gè)新的概念——區(qū)間序補(bǔ)集條件熵,通過(guò)有效刻畫(huà)特征集合與有序決策類之間的序的相關(guān)性,進(jìn)而構(gòu)建一種面向區(qū)間數(shù)分級(jí)決策表開(kāi)展特征選擇的新方法。
一般地,稱S=(U,AT,V,f)是一個(gè)信息系統(tǒng),其中,U為對(duì)象集合,AT為屬性集合,V=∪a∈ATVa(Va為屬性a的值域),f:U×AT→V是一個(gè)函數(shù)使得f(x,a)∈Va(a∈AT,x∈U)。進(jìn)一步地,稱S=(U,AT,V,f)是一個(gè)區(qū)間信息系統(tǒng),其中,Va為區(qū)間數(shù)的集合,f(x,a)的形式表示如下:
f(x,a)=[aL(x),aU(x)]={p|aL(x)≤p≤aU(x),aL(x),aU(x)∈R}.
定義2.1對(duì)于區(qū)間信息系統(tǒng)S=(U,AT,V,f),若所有的屬性均為有序型屬性,則稱其為一個(gè)區(qū)間序信息系統(tǒng)。
在區(qū)間序信息系統(tǒng)中,有序型屬性一般包括收益型屬性與成本型屬性,對(duì)象之間的優(yōu)劣關(guān)系通過(guò)優(yōu)勢(shì)關(guān)系來(lái)刻畫(huà)。
(1)
(2)
在此基礎(chǔ)上,可以給出區(qū)間數(shù)分級(jí)決策表的定義。
定義2.3稱S=(U,C∪d,V,f)是一個(gè)區(qū)間數(shù)分級(jí)決策表,若條件屬性集C中的屬性均是有序型屬性且VC為區(qū)間數(shù)的集合,決策屬性為有序的類且f(x,d)∈Vd(x∈U)為單值型數(shù)據(jù)。
在分級(jí)決策表中,可令決策類集合D={D1,D2,…,Dt}(t≤|U|, |·|表示基數(shù)),表示對(duì)象集合被劃分為t類,即|Vd|=t;進(jìn)一步地,不失一般性,可令r,s∈T(T={1,2,…,t}),并假設(shè)若r>s,則決策類Dr中的對(duì)象在決策屬性上優(yōu)于決策類Ds中的對(duì)象,而任一決策類內(nèi)的所有對(duì)象則具有同等的優(yōu)劣級(jí)別。
(3)
從區(qū)間數(shù)分級(jí)決策表特征選擇的決策語(yǔ)義來(lái)看,其本質(zhì)上是在條件屬性集上求解與決策屬性具有“序的相關(guān)性”的屬性子集。這里的相關(guān)性,可以理解為序的一致性和不一致性。在分級(jí)決策表中,所謂序的一致性是指,若對(duì)象y在條件屬性集A上優(yōu)于對(duì)象x,則對(duì)象y在決策屬性d上也應(yīng)優(yōu)于對(duì)象x;反之,若對(duì)象y在條件屬性集A上優(yōu)于對(duì)象x,而對(duì)象y在決策屬性d上卻不優(yōu)于對(duì)象x,則認(rèn)為其在序上具有不一致性。
事實(shí)上,分級(jí)決策表中序的一致性與序的不一致性,共同構(gòu)成了序的不確定性。從現(xiàn)有研究成果來(lái)看,熵可以作為信息系統(tǒng)中不確定性度量的有效工具。本節(jié)將基于粗糙集與信息熵的結(jié)合,首先給出區(qū)間序補(bǔ)集條件熵的定義,然后對(duì)其所具有的特征評(píng)價(jià)性能進(jìn)行分析。
3.1 區(qū)間序補(bǔ)集條件熵
(4)
實(shí)際上,Liang Jiye等[37]在等價(jià)關(guān)系條件下,通過(guò)考慮等價(jià)類的補(bǔ)集信息,提出了信息系統(tǒng)中補(bǔ)集信息熵的概念。然而,其并不適用于具有序信息的決策系統(tǒng)。因此,Song Peng等[31]面向區(qū)間序信息系統(tǒng)的決策需求提出了優(yōu)勢(shì)關(guān)系下的補(bǔ)集信息熵概念。
(5)
根據(jù)區(qū)間序信息系統(tǒng)中補(bǔ)集信息熵、補(bǔ)集聯(lián)合熵的定義,可以得出補(bǔ)集條件熵的定義。
定義3.3[31]設(shè)S=(U,AT,V,f)是一個(gè)區(qū)間序信息系統(tǒng),A,B?AT,屬性集A關(guān)于屬性集B的補(bǔ)集條件熵的定義為:
(6)
根據(jù)式(6),可以得出區(qū)間數(shù)分級(jí)決策表的區(qū)間序補(bǔ)集條件熵的形式化表示。
(7)
性質(zhì)3.1設(shè)S=(U,C∪d,V,f)是一個(gè)區(qū)間數(shù)分級(jí)決策表,A?C,則E(d≥|A≥)=E(d≥∪A≥)-E(A≥)。
證明:根據(jù)定義3.4,可以得出
證畢。
從性質(zhì)3.1可以看出,式(7)所提出的補(bǔ)集條件熵可以度量條件屬性集A和決策屬性d的聯(lián)合熵與條件屬性集A的信息熵之間的差異,因此,其符合條件熵的內(nèi)涵。
3.2 區(qū)間序補(bǔ)集條件熵的特征評(píng)價(jià)性能分析
基于區(qū)間序補(bǔ)集條件熵的概念表示,本節(jié)將首先給出兩個(gè)重要的定理,然后對(duì)其決策語(yǔ)義進(jìn)行相關(guān)分析。
證明見(jiàn)附錄A。
0≤E(d≥|A≥)≤1-1/|U|-E(A≥)
證明見(jiàn)附錄B。
可以看出,定理3.1分析了區(qū)間序補(bǔ)集條件熵的單調(diào)性,定理3.2則分析了其極值性。為了更好地理解極值性,本節(jié)將給出性質(zhì)3.2。
證畢。
就特征選擇方法而言,其一般包括初始特征子集的選擇、搜索策略、特征評(píng)估準(zhǔn)則以及停止條件四個(gè)方面的內(nèi)容。在粗糙集理論框架下,特征選擇也被稱作為屬性約簡(jiǎn),其是在保持決策能力不變的條件下求解關(guān)鍵屬性。相應(yīng)地,基于區(qū)間序補(bǔ)集條件熵的變化程度,本節(jié)將建立區(qū)間數(shù)分級(jí)決策的特征選擇算法。
在粗糙集理論框架下的屬性約簡(jiǎn)過(guò)程中,若從條件屬性集中剔除某一屬性而條件熵不變,則認(rèn)為這一屬性對(duì)于決策而言是不必要的;與之相反,當(dāng)剔除掉某一屬性時(shí)條件熵發(fā)生變化,則認(rèn)為這一屬性對(duì)于決策而言是必要的,所有必要的屬性構(gòu)成的集合也被稱作為核。顯然,由于核屬性對(duì)于決策而言是必要的,因此,其構(gòu)成了特征選擇中的初始特征子集。其形式化表示見(jiàn)定義4.1。
定義4.1設(shè)S=(U,C∪d,V,f)是一個(gè)區(qū)間數(shù)分級(jí)決策表,對(duì)于屬性c(?c∈C),若其滿足
E(d≥|(C-c)≥)≠E(d≥|C≥)
(8)
則稱屬性c為必要屬性;若其滿足:
E(d≥|(C-c)≥)=E(d≥|C≥)
(9)
則稱屬性c為不必要屬性。
以初始特征子集為特征搜索的基礎(chǔ),基于補(bǔ)集條件熵的變化程度度量剩余屬性的重要性程度,將最重要的屬性優(yōu)先進(jìn)入關(guān)鍵特征子集,進(jìn)而構(gòu)建一個(gè)啟發(fā)式搜索策略。為了度量屬性重要性程度,需給出區(qū)間序補(bǔ)集條件熵的另一性質(zhì)。
性質(zhì)4.1設(shè)S=(U,C∪d,V,f)是一個(gè)區(qū)間數(shù)分級(jí)決策表,對(duì)于屬性集A(A?C)和屬性c(c∈C,c?A),有E(d≥|A≥)≥E(d≥|(A∪c)≥)。
證畢。
根據(jù)性質(zhì)4.1,基于補(bǔ)集條件熵的變化程度,可給出屬性重要性程度的度量準(zhǔn)則。
定義4.2 設(shè)S=(U,C∪d,V,f)是一個(gè)區(qū)間數(shù)分級(jí)決策表,A?C,屬性c∈C-A,則屬性c的重要度為:
Sig(c,A,d)=E(d≥|A≥)-E(d≥|(A∪c)≥)
(10)
當(dāng)關(guān)鍵特征子集B相對(duì)于決策屬性的補(bǔ)集條件熵E(d≥|B≥)與E(d≥|C≥)相等時(shí),則說(shuō)明所搜索到的特征子集保持了原始決策表的決策信息。進(jìn)一步地,基于必要屬性的定義,檢測(cè)所搜索到的特征子集是否具有冗余屬性。即若?c∈B,滿足
E(d≥|(B-c)≥)≠E(d≥|B≥)
(11)
則稱關(guān)鍵特征子集B中沒(méi)有冗余屬性。此時(shí),稱屬性集B為相對(duì)于決策屬性d的約簡(jiǎn)。
基于上述分析,可以給出區(qū)間數(shù)分級(jí)決策的特征選擇算法。具體算法步驟如下:
步驟1:計(jì)算區(qū)間數(shù)分級(jí)決策表S=(U,C∪d,V,f)的區(qū)間序補(bǔ)集條件熵E(d≥|C≥);
步驟2:令特征子集Red←?,對(duì)于條件屬性集中的任意屬性c∈C,若E(d≥|(C-c)≥)≠E(d≥|C≥),則Red←Red∪{c};
步驟3:B←Red;
步驟4:計(jì)算E(d≥|B≥);若E(d≥|B≥)≠E(d≥|C≥),則執(zhí)行步驟5;若E(d≥|B≥)=E(d≥|C≥),則執(zhí)行步驟6;
步驟5:對(duì)屬性集C-B循環(huán)執(zhí)行:
5.1:對(duì)于任意的屬性c∈C-B,計(jì)算屬性重
要度Sig(c,B,d);
5.2:若屬性c0滿足條件Sig(c0,B,d)=max
{Sig(c,B,d),c∈C-B},則B←B∪{c0};
5.3:若E(d≥|B≥)=E(d≥|C≥),則執(zhí)行步驟6;若E(d≥|B≥)≠E(d≥|C≥),則轉(zhuǎn)至5.1;
步驟6:對(duì)于任意的屬性c∈B,若E(d≥|(B-c)≥)=E(d≥|B≥),則B←B-{c};
步驟7:Red←B,結(jié)束。
在現(xiàn)實(shí)的數(shù)據(jù)挖掘與決策分析任務(wù)中,數(shù)據(jù)的預(yù)處理步驟(如缺省數(shù)據(jù)處理、異常樣本剔除、特征選擇等)是決策結(jié)果的重要影響因素,就其工作量而言,也往往占據(jù)決策任務(wù)的80%[38]。事實(shí)上,Roy[39]將多屬性決策分為選擇、排序、分類/分級(jí)、特征選擇四類主要的決策分析任務(wù)??梢?jiàn),特征選擇在多屬性決策中具有重要的研究意義。本節(jié)將面向風(fēng)險(xiǎn)投資項(xiàng)目決策、股票選擇決策兩個(gè)典型的投資決策問(wèn)題,基于所提出的特征選擇方法進(jìn)行預(yù)處理,分別就特征選擇與分級(jí)決策、特征選擇與排序決策的結(jié)合開(kāi)展應(yīng)用研究。
5.1 風(fēng)險(xiǎn)投資項(xiàng)目決策
從風(fēng)險(xiǎn)投資項(xiàng)目決策的現(xiàn)有研究進(jìn)展來(lái)看,主要圍繞投資前的項(xiàng)目篩選開(kāi)展多屬性決策分析研究。然而,為了有效降低投資風(fēng)險(xiǎn),風(fēng)投資金往往并非一次全部注入風(fēng)險(xiǎn)項(xiàng)目,而是采取多階段投資形式。在每一階段中,可以根據(jù)項(xiàng)目的收益情況進(jìn)行相關(guān)決策分析。
表1列示了16個(gè)待評(píng)價(jià)的風(fēng)險(xiǎn)項(xiàng)目。按照項(xiàng)目在上一輪投資后的收益情況分為優(yōu)、良、一般三類,不失一般性,令決策屬性值分別為3、2、1。一般地,在風(fēng)投專家進(jìn)行投資前項(xiàng)目篩選時(shí),重點(diǎn)關(guān)注管理團(tuán)隊(duì)能力、市場(chǎng)競(jìng)爭(zhēng)力、產(chǎn)品差異度以及財(cái)務(wù)能力等;在分階段注入投資后,由于風(fēng)投企業(yè)將參與項(xiàng)目運(yùn)作與管理(即投資后管理),因此,主要關(guān)注市場(chǎng)競(jìng)爭(zhēng)力、項(xiàng)目發(fā)展能力,并更為細(xì)致的考查項(xiàng)目的財(cái)務(wù)能力。表1列示了8個(gè)評(píng)價(jià)指標(biāo)cj(j=1,2,…,8),分別代表市場(chǎng)銷售能力(銷售毛利率)、項(xiàng)目發(fā)展能力(資產(chǎn)增長(zhǎng)率)、項(xiàng)目現(xiàn)金流能力(經(jīng)營(yíng)活動(dòng)現(xiàn)金流比率、現(xiàn)金流動(dòng)負(fù)債比率)、項(xiàng)目營(yíng)運(yùn)能力(總資產(chǎn)周轉(zhuǎn)率、固定資產(chǎn)周轉(zhuǎn)率)、項(xiàng)目抵御財(cái)務(wù)風(fēng)險(xiǎn)能力(速動(dòng)比率、利息保障倍數(shù))。
表1 風(fēng)險(xiǎn)投資項(xiàng)目決策指標(biāo)值數(shù)據(jù)表
就風(fēng)險(xiǎn)投資項(xiàng)目的多階段投資模式而言,在每一投資階段的項(xiàng)目運(yùn)行中,項(xiàng)目運(yùn)營(yíng)業(yè)績(jī)指標(biāo)的數(shù)值往往呈現(xiàn)動(dòng)態(tài)波動(dòng)的特征。一般地,決策者往往以每一階段為特定時(shí)間段來(lái)計(jì)量相關(guān)的業(yè)績(jī)指標(biāo);相應(yīng)地,獲得的指標(biāo)數(shù)值則是單值數(shù)據(jù)形式,并以此為基礎(chǔ)進(jìn)行決策分析。顯然,單值數(shù)據(jù)難以反映現(xiàn)實(shí)中各項(xiàng)業(yè)績(jī)指標(biāo)的取值波動(dòng)情況。為了更好地刻畫(huà)數(shù)據(jù)的數(shù)值波動(dòng)特征,可將每一投資階段按照特定標(biāo)準(zhǔn)(如月份、季度)劃分為多個(gè)時(shí)間段,并針對(duì)每個(gè)時(shí)間段計(jì)算相應(yīng)的指標(biāo)數(shù)值;在此基礎(chǔ)上,通過(guò)分析每一指標(biāo)不同時(shí)間段的多個(gè)數(shù)值的取值情況,給出該指標(biāo)的區(qū)間數(shù)值。本文基于數(shù)據(jù)打包思想[40],以每一指標(biāo)數(shù)值的最小值為區(qū)間值下界,以每一指標(biāo)數(shù)值的最大值為區(qū)間值上界,進(jìn)而給出每一指標(biāo)的區(qū)間數(shù)。當(dāng)然,需要說(shuō)明的是,當(dāng)每一指標(biāo)的數(shù)據(jù)樣本足夠多時(shí),則可通過(guò)估計(jì)數(shù)值的分布,給出更為準(zhǔn)確的區(qū)間數(shù)取值。基于上述思想,結(jié)合我國(guó)高科技行業(yè)相關(guān)指標(biāo)的實(shí)際取值范圍,表1給出了16個(gè)風(fēng)險(xiǎn)項(xiàng)目的8個(gè)評(píng)價(jià)指標(biāo)的區(qū)間數(shù)據(jù)。
按照算法,可以得出如下特征選擇計(jì)算結(jié)果。
(1)計(jì)算表1的區(qū)間序補(bǔ)集條件熵,可得E(d≥|C≥)=0.0078。
(2)針對(duì)每個(gè)指標(biāo)計(jì)算E(d≥|(C-c)≥),可得:
E(d≥|(C-c1)≥)=0.0117,E(d≥|(C-c2)≥)=0.0117
E(d≥|(C-c3)≥)=0.0156
E(d≥|(C-c4)≥)=E(d≥|(C-c5)≥)=E(d≥|(C-c6)≥)=E(d≥|(C-c7)≥)=E(d≥|(C-c8)≥)=0.0078
因此,核屬性集為{c1,c2,c3}。
(3)計(jì)算核屬性集相對(duì)于決策屬性的區(qū)間序補(bǔ)集條件熵,得出:
E(d≥|{c1,c2,c3}≥)=0.0078=E(d≥|C≥)
(4)回溯檢驗(yàn)屬性集{c1,c2,c3}是否存在冗余屬性,可得:
E(d≥|(B-c1)≥)=0.0117≠E(d≥|B≥),
E(d≥|(B-c2)≥)=0.0117≠E(d≥|B≥),
E(d≥|(B-c3)≥)=0.0156≠E(d≥|B≥)。
因此,屬性集{c1,c2,c3}中不存在冗余屬性。相應(yīng)地,可得關(guān)鍵特征子集為:
B={c1,c2,c3}
從關(guān)鍵特征子集的決策語(yǔ)義來(lái)看,其表示特征子集中的相關(guān)指標(biāo)與決策屬性具有序相關(guān)性。就風(fēng)險(xiǎn)投資項(xiàng)目的投資后管理而言,探尋與項(xiàng)目收益具有序相關(guān)的關(guān)鍵評(píng)價(jià)指標(biāo),可為風(fēng)險(xiǎn)投資項(xiàng)目的運(yùn)作管理構(gòu)建重點(diǎn)指標(biāo)監(jiān)控體系,并提取分級(jí)決策規(guī)則。事實(shí)上,粗糙集理論的核心思想就是通過(guò)有效的特征選擇進(jìn)而獲取符合人類決策行為模式的If…then…決策規(guī)則。進(jìn)一步地,結(jié)合Qian Yuhua等[41],可以對(duì)決策規(guī)則、整體決策規(guī)則集的決策性能進(jìn)行評(píng)價(jià)。本節(jié)僅討論各規(guī)則的決策性能。
根據(jù)表1中每個(gè)項(xiàng)目的指標(biāo)數(shù)據(jù)可以誘導(dǎo)出一條決策規(guī)則。首先,可分析決策屬性值f(xi,d)=3的項(xiàng)目x1,x3,x7,x8,x14,x16,相應(yīng)地,基于關(guān)鍵特征子集可獲得6條決策規(guī)則:
a)Iff(x,c1)≥[0.31,0.33]∧f(x,c2)≥[0.35,0.38]∧f(x,c3)≥[0.92,0.97], thenf(x,d)≥3.
b)Iff(x,c1)≥[0.30,0.32]∧f(x,c2)≥[0.35,0.38]∧f(x,c3)≥[0.90,0.97], thenf(x,d)≥3.
c)Iff(x,c1)≥[0.29,0.32]∧f(x,c2)≥[0.29,0.34]∧f(x,c3)≥[0.49,0.53], thenf(x,d)≥3.
d)Iff(x,c1)≥[0.25,0.28]∧f(x,c2)≥[0.25,0.27]∧f(x,c3)≥[0.38,0.45], thenf(x,d)≥3.
e)Iff(x,c1)≥[0.20,0.25]∧f(x,c2)≥[0.24,0.26]∧f(x,c3)≥[0.38,0.42], thenf(x,d)≥3.
f)Iff(x,c1)≥[0.15,0.21]∧f(x,c2)≥[0.23,0.25]∧f(x,c3)≥[0.36,0.39], thenf(x,d)≥3.
對(duì)于每個(gè)決策規(guī)則而言,可根據(jù)其確定度(Certainty measure)對(duì)其決策性能進(jìn)行評(píng)價(jià)。確定度的形式表示為:
(12)
根據(jù)式(12),可以計(jì)算得出上述6條決策規(guī)則的確定度,即:
CM(x1)=CM(x3)=CM(x7)=CM(x8)=CM(x14)=100%,
CM(x16)=6/7=85.71%.
進(jìn)一步分析基于對(duì)象x16誘導(dǎo)出的決策規(guī)則f,可以發(fā)現(xiàn),存在一個(gè)對(duì)象x4與其相矛盾,該對(duì)象在條件屬性上符合決策規(guī)則,但其決策屬性值卻為2。綜合來(lái)看,由于前5條規(guī)則均是完全確定的,因此,可將其合并。實(shí)際上,規(guī)則e包含了前4條規(guī)則。所以,通過(guò)分析決策屬性值f(xi,d)=3的項(xiàng)目x1,x3,x7,x8,x14,x16,可以得出一條確定性決策規(guī)則,一條非確定性決策規(guī)則,即:
r1:Iff(x,c1)≥[0.20,0.25]∧f(x,c2)≥[0.24,0.26]∧f(x,c3)≥[0.38,0.42], thenf(x,d)≥3.(CM=100%)
r2:Iff(x,c1)≥[0.15,0.21]∧f(x,c2)≥[0.23,0.25]∧f(x,c3)≥[0.36,0.39], thenf(x,d)≥3. (CM=85.71%)
類似地,通過(guò)分析決策屬性值f(xi,d)≥2的11個(gè)項(xiàng)目,可以得出兩條決策規(guī)則,即:
r3:Iff(x,c1)≥[0.10,0.14]∧f(x,c2)≥[0.14,0.15]∧f(x,c3)≥[0.30,0.32], thenf(x,d)≥2. (CM=100%)
r4:Iff(x,c1)≥[0.10,0.12]∧f(x,c2)≥[0.14,0.15]∧f(x,c3)≥[0.25,0.26], thenf(x,d)≥2.(CM=91.67%)
可以看出,基于關(guān)鍵特征子集,決策者可獲取更為精煉的分級(jí)決策規(guī)則。實(shí)際上,精煉的決策規(guī)則在實(shí)際的決策分析中是非常必要的,畢竟決策規(guī)則中條件屬性的數(shù)量越多,其在決策支持中的泛化能力(即適用性)就會(huì)越弱。進(jìn)一步地,結(jié)合決策規(guī)則的確信度評(píng)價(jià),可為決策者提供具有概率意義的決策規(guī)則評(píng)價(jià)準(zhǔn)則。
當(dāng)然,需要說(shuō)明的是,為了便于直觀理解,本節(jié)通過(guò)簡(jiǎn)潔的算例分析了特征選擇、分級(jí)決策規(guī)則的決策內(nèi)涵。實(shí)際上,在風(fēng)險(xiǎn)投資項(xiàng)目決策的投資后管理中,基于大量、多輪的項(xiàng)目案例,通過(guò)分析關(guān)鍵特征子集及其對(duì)應(yīng)的分級(jí)決策規(guī)則,特別是分析決策規(guī)則中各指標(biāo)的取值分布情況以及各決策規(guī)則的平均確信度,有利于風(fēng)險(xiǎn)投資項(xiàng)目的相關(guān)利益主體建立多階段風(fēng)險(xiǎn)投資項(xiàng)目管理的重點(diǎn)指標(biāo)監(jiān)控與量化評(píng)價(jià)體系,進(jìn)而為風(fēng)險(xiǎn)投資項(xiàng)目決策優(yōu)化提供有效的決策支持。
5.2 股票選擇決策
隨著全球資本市場(chǎng)的迅速發(fā)展,股票投資決策的研究也受到更為廣泛的關(guān)注。尤其近二十年來(lái),隨著人工智能決策方法的發(fā)展,關(guān)于選股策略的研究不斷涌現(xiàn)。當(dāng)然,關(guān)于選股策略研究的爭(zhēng)論也從未停止。有效市場(chǎng)理論認(rèn)為,投資者在可用信息集(歷史的價(jià)格信息、市場(chǎng)公開(kāi)信息以及私有信息)下無(wú)法獲得超額收益,并將市場(chǎng)劃分為弱式、半強(qiáng)式及強(qiáng)式有效三種形式。但是,諸多的研究證據(jù)表明中國(guó)股票市場(chǎng)未達(dá)半強(qiáng)式有效,這也就意味著,投資者基于公開(kāi)的企業(yè)財(cái)務(wù)信息可以獲得超額投資收益。
本節(jié)以上證180指數(shù)成分股為研究樣本,基于9個(gè)財(cái)務(wù)指標(biāo)(條件屬性)以及股票收益率(決策屬性)構(gòu)建區(qū)間數(shù)分級(jí)決策表?;谔卣鬟x擇算法,可以獲取與股票收益率具有序相關(guān)性的關(guān)鍵財(cái)務(wù)指標(biāo)。在此基礎(chǔ)上,通過(guò)特定的排序方法,基于關(guān)鍵財(cái)務(wù)指標(biāo)集進(jìn)行排序決策,即可獲得股票選擇的排序決策結(jié)果。本質(zhì)上來(lái)看,這是一類符合謹(jǐn)慎投資者投資需求的股票選擇策略。其核心思想是,在影響股票收益率的眾多影響因素中(如:財(cái)務(wù)指標(biāo)、宏觀經(jīng)濟(jì)指標(biāo)、專家投資建議、“內(nèi)幕消息”等),只有基于反映企業(yè)經(jīng)濟(jì)運(yùn)行情況的評(píng)價(jià)準(zhǔn)則進(jìn)行的決策,才是可靠的選股策略。Sevastjanov和Dymova[42]以模糊數(shù)為數(shù)據(jù)的基本表示形式,基于上述思想開(kāi)展了股票選擇決策研究。本文則基于區(qū)間數(shù)據(jù)表示形式,綜合運(yùn)用區(qū)間數(shù)分級(jí)決策的特征選擇方法和區(qū)間數(shù)排序決策方法,開(kāi)展股票選擇決策研究。
事實(shí)上,從股票選擇決策的研究進(jìn)展來(lái)看,決策者往往基于財(cái)務(wù)指標(biāo)的單值數(shù)據(jù)開(kāi)展決策建模與分析。然而,對(duì)于股票市場(chǎng)而言,無(wú)論是上市公司的財(cái)務(wù)指標(biāo)還是市場(chǎng)回報(bào)指標(biāo),數(shù)值的波動(dòng)性是普遍而又必須關(guān)注的特征。顯然,傳統(tǒng)的單值數(shù)據(jù)是一種信息不完全的數(shù)據(jù)表現(xiàn)形式。相比較單值數(shù)據(jù)而言,區(qū)間數(shù)據(jù)更有利于反映數(shù)值的取值分布情況,更有利于揭示數(shù)據(jù)取值的整體特性。
本節(jié)選取全球金融危機(jī)爆發(fā)后的2009年上證180指數(shù)成分股為研究樣本。在樣本選擇時(shí),考慮到金融類上市公司與非金融類上市公司的財(cái)務(wù)指標(biāo)數(shù)值具有顯著差異,剔除掉了金融類股票;考慮到股票選擇決策本質(zhì)上是選優(yōu),剔除掉了企業(yè)經(jīng)營(yíng)中利潤(rùn)指標(biāo)為負(fù)值的股票;此外,剔除了數(shù)據(jù)不全的公司。樣本股票共91支。財(cái)務(wù)指標(biāo)選擇了表示企業(yè)財(cái)務(wù)運(yùn)營(yíng)狀況的常用的9個(gè)指標(biāo),分別為:營(yíng)業(yè)利潤(rùn)率、凈資產(chǎn)收益率、現(xiàn)金流量比率、現(xiàn)金流動(dòng)負(fù)債比率、總資產(chǎn)周轉(zhuǎn)率、固定資產(chǎn)周轉(zhuǎn)率、凈利潤(rùn)增長(zhǎng)率、速動(dòng)比率、資產(chǎn)負(fù)債率。在構(gòu)建區(qū)間數(shù)分級(jí)決策表時(shí),基于上市公司的季報(bào)公布制度,考慮到上市公司2008年度的財(cái)務(wù)報(bào)告在2009年4月30日前公布,因此,財(cái)務(wù)指標(biāo)以2008年度的季度數(shù)據(jù)為基礎(chǔ),取季度數(shù)據(jù)的最大值為區(qū)間數(shù)的上界,取季度數(shù)據(jù)的最小值為區(qū)間數(shù)的下界;決策屬性則按照2009年5月——6月股票收益率的取值,將樣本分為三類,即股票收益率前30%樣本的決策屬性值為3,股票收益率后30%樣本的決策屬性值為1,其余樣本的決策屬性值為2。具體數(shù)據(jù)信息見(jiàn)表2。
按照算法,可以得出如下特征選擇計(jì)算結(jié)果。
(1)計(jì)算表2的區(qū)間序補(bǔ)集條件熵,可得:
E(d≥|C≥)=0.000724
(2)針對(duì)每個(gè)指標(biāo)計(jì)算E(d≥|(C-c)≥),可得:
E(d≥|(C-cj)≥)≠E(d≥|C≥) (j=1,3,5,6,7,9)
E(d≥|(C-cj)≥)=E(d≥|C≥) (j=2,4,8)
因此,核屬性集為{c1,c3,c5,c6,c7,c9}
(3)計(jì)算核屬性集相對(duì)于決策屬性的區(qū)間序補(bǔ)集條件熵,得出:
E(d≥|{c1,c3,c5,c6,c7,c9}≥)=0.001087≠E(d≥|C≥)
(4)計(jì)算非核屬性的重要度,可得:
Sig(c2,B,d)=0.000363,Sig(c4,B,d)=0.000242
Sig(c8,B,d)=0.000363
可以看出,此時(shí),屬性c2和c8的重要度最大,則分別令其進(jìn)入關(guān)鍵特征子集,并計(jì)算區(qū)間序補(bǔ)集條件熵,得出:
E(d≥|{c1,c3,c5,c6,c7,c9,c2}≥)=E(d≥|C≥)
E(d≥|{c1,c3,c5,c6,c7,c9,c8}≥)=E(d≥|C≥)
(5)回溯檢驗(yàn)屬性集{c1,c3,c5,c6,c7,c9,c2}和{c1,c3,c5,c6,c7,c9,c8}是否存在冗余屬性,可得各屬性此時(shí)均滿足E(d≥|(B-cj)≥)≠E(d≥|B≥)。因此,可以得出,區(qū)間序分級(jí)決策表具有兩個(gè)特征選擇結(jié)果,即:
B1={c1,c2,c3,c5,c6,c7,c9},B2={c1,c3,c5,c6,c7,c8,c9}
基于特征選擇結(jié)果,結(jié)合文獻(xiàn)[31]中的區(qū)間數(shù)排序決策方法,可以獲得股票選擇決策的排序結(jié)果。表3列示了基于兩個(gè)關(guān)鍵特征子集的兩種排序前5位的股票選擇決策結(jié)果??梢钥闯觯瑑煞N結(jié)果中有4支股票是相同的。實(shí)際上,在第一種排序結(jié)果中代碼為600085的股票在第二種排序決策結(jié)果中排列于第6位,說(shuō)明了兩個(gè)關(guān)鍵特征子集所包含的決策信息是相近的。
表2 股票選擇決策指標(biāo)值數(shù)據(jù)表
表3 排序前五位股票結(jié)果列表
進(jìn)一步地,為了驗(yàn)證方法的有效性,表4列示了兩種方案下持有前五位股票從2009年7月——2009年12月(即持有1個(gè)月至持有6個(gè)月)的股票平均回報(bào)率;為了分析投資策略的收益能力,將同期的上證180指數(shù)回報(bào)率作為選股策略是否有效的評(píng)價(jià)基準(zhǔn),并在表4中列示;同時(shí),考慮到研究樣本集進(jìn)行了樣本剔除,因此,本文也計(jì)算了同期的股票樣本集的平均回報(bào)率。為了清晰的展示實(shí)證結(jié)果,圖1給出了投資回報(bào)率的比較圖。從表4與圖1的結(jié)果可以看出,本節(jié)基于特征選擇結(jié)果構(gòu)建的股票選擇策略可以獲得超額收益,進(jìn)而驗(yàn)證了方法的有效性。
表4 股票回報(bào)率結(jié)果列表
圖1 股票回報(bào)率結(jié)果比較圖
特征選擇作為多屬性決策的重要預(yù)處理步驟,對(duì)于決策分析任務(wù)中,有效獲取關(guān)鍵決策指標(biāo)進(jìn)而求解決策方案、提升決策效率具有重要的意義。本文面向區(qū)間數(shù)分級(jí)決策問(wèn)題,以區(qū)間數(shù)優(yōu)勢(shì)關(guān)系作為區(qū)間數(shù)分級(jí)決策表序化信息刻畫(huà)的基本手段,基于粗糙集理論與信息熵的結(jié)合,著眼于條件屬性與決策屬性序相關(guān)性的度量,提出了一個(gè)新的特征評(píng)價(jià)函數(shù)——區(qū)間序補(bǔ)集條件熵。在此基礎(chǔ)上,通過(guò)分析區(qū)間序補(bǔ)集條件熵的變化程度,基于必要屬性概念給出了初始特征子集的選取方法,基于屬性重要性程度的度量準(zhǔn)則設(shè)計(jì)了關(guān)鍵特征子集的搜索策略,進(jìn)而構(gòu)建了基于區(qū)間序補(bǔ)集條件熵的區(qū)間數(shù)分級(jí)決策表特征選擇算法。通過(guò)風(fēng)險(xiǎn)投資項(xiàng)目決策與股票選擇決策兩個(gè)案例,說(shuō)明了特征選擇與分級(jí)決策、特征選擇與排序決策結(jié)合的決策建模與分析流程。研究結(jié)果表明,本文所提出的區(qū)間序補(bǔ)集條件熵可以有效度量條件屬性與決策屬性的序相關(guān)性,進(jìn)而為區(qū)間數(shù)分級(jí)決策中求解關(guān)鍵決策指標(biāo)提供了科學(xué)的特征選擇方法。
附錄:
A.定理3.1的證明
證明:根據(jù)定義3.4,可以得出
證畢。
B.定理3.2的證明
證畢。
[1] Dyer J S, Fishburn P C, Steuer R E, et al. Multiple criteria decision making, multiattribute utility theory: The next ten years[J]. Management Science, 1992, 38(5): 645-654.
[2] Wallenius J, Dyer J S, Fishburn P C, et al. Multiple criteria decision making, multiattribute utility theory: Recent accomplishments and what lies ahead[J]. Management Science, 2008, 54(7): 1336-1349.
[3] 梁昌勇, 顧東曉, 程文娟, 等. 含非連續(xù)性信息多屬性案例中的決策知識(shí)發(fā)現(xiàn)方法[J]. 中國(guó)管理科學(xué), 2014, 22(4): 83-91.
[4] 劉健, 劉思峰, 馬義中, 等.基于心理閾值的多屬性決策問(wèn)題目標(biāo)調(diào)整研究[J]. 中國(guó)管理科學(xué), 2015, 23(2): 123-130.
[5] 丁濤, 梁樑. 基于方案占優(yōu)和排序穩(wěn)健性的多屬性決策方法[J]. 中國(guó)管理科學(xué), 2016, 24(8): 132-138.
[6] 韓菁, 葉順心, 柴建,等. 基于后悔理論的混合型多屬性案例決策方法[J]. 中國(guó)管理科學(xué), 2016, 24(12): 108-116.
[7] Roy B.Multicriteria methodology for decision aiding[M]//Pardalos P.nonconvex optimization and its applications.US:Springer Verlag, 1996.
[8] Zopounidis C, Doumpos M.Multicriteria classification and sorting methods: A literature review[J]. European Journal of Operational Research, 2002, 138 (2): 229-246.
[9] Neves L P, Martins A G, Antunes C H, et al. A multi-criteria decision approach to sorting actions for promoting energy efficiency[J]. Energy Policy, 2008, 36(7): 2351-2363.
[10] Kadziński M, Tervonen T, Figueira J R.Robust multi-criteria sorting with the outranking preference model and characteristic profiles[J]. Omega, 2015, 55: 126-140.
[11] Kadziński M, Ciomek K, Sowiński R.Modeling assignment-based pairwise comparisons within integrated framework for value-driven multiple criteria sorting[J].European Journal of Operational Research, 2015, 241(3): 830-841.
[12] 張小芝, 朱傳喜, 朱麗. 時(shí)序多屬性決策的廣義等級(jí)偏好優(yōu)序法[J]. 中國(guó)管理科學(xué), 2014, 22(4): 105-111.
[13] Silva M M, Costa APCS,de Gusmao APH.Continuous cooperation: Aproposal using a fuzzy multicriteria sorting method[J]. International Journal of Production Economics, 2014, 151: 67-75.
[14] Dash M, Liu Huan.Consistency-based search in feature selection[J]. Artificial Intelligence, 2003, 151(1-2): 155-176.
[15] 趙宇, 黃思明, 陳銳. 數(shù)據(jù)分類中的特征選擇算法研究[J]. 中國(guó)管理科學(xué), 2013, 21(6): 38-46.
[16] Lee J, Kim D W.Fast multi-label feature selection based on information-theoretic feature ranking[J]. Pattern Recognition, 2015, 48(9): 2761-2771.
[17] Maldonado S, Montoya R, Weber R.Advanced conjoint analysis using feature selection via support vector machines[J]. European Journal of Operational Research, 2015, 241(2): 564-574.
[18] 姚旭, 王曉丹, 張玉璽, 等. 特征選擇方法綜述[J]. 控制與決策, 2012, 27(2): 161-166.
[19] Peng Hanchuan, Long Fuhui, Ding C. Feature selection based on mutual information: Criteria of max-dependency,max-relevance, and min-redundancy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(8):1226-1238.
[20] Wang Feng, Liang Jiye. An efficient feature selection algorithm for hybrid data[J]. Neurocomputing, 2016, 193(c): 33-41.
[21] Jensen R, Shen Qiang.Semantics-preserving dimensionality reduction:Rough and fuzzy-rough-based approaches[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(12): 1457-1471.
[22] Parthaláin N M, Shen Qiang.Exploring the boundary region of tolerance rough sets for feature selection[J]. Pattern Recognition, 2009, 42(5): 655-667.
[23] Qian Yuhua, Liang Jiye, Pedrycz W, et al. Positive approximation:An accelerator for attribute reduction in rough set theory[J]. Artificial Intelligence,2010, 174(9-10): 597-618.
[24] Liang Jiye, Wang Feng, Qian Yuhua,et al.A group incremental approach to feature selection applying rough set technique[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(2): 294-308.
[25] Tseng T L, Huang C C.Rough set-based approach to feature selection in customer relationship management[J]. Omega, 2007, 35 (4): 365 - 383.
[26] 徐澤水, 達(dá)慶利. 一種基于可能度的區(qū)間判斷矩陣排序法[J]. 中國(guó)管理科學(xué), 2003, 11(1): 63-65.
[27] Xu Zeshui, Liao Huchang.Intuitionistic fuzzy analytic hierarchy process[J]. IEEE Transactions on Fuzzy Systems, 2014, 22(4): 749 - 761.
[28] 樊治平, 陳發(fā)動(dòng), 張曉. 考慮決策者心理行為的區(qū)間數(shù)多屬性決策方法[J]. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011, 32(1): 136-139.
[29] Fan Zhiping, Liu Yang.An approach to solve group-decision- making problems with ordinal interval numbers[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2010, 40(5):1413-1423.
[30] Liang Jiye, Xu Zongben.The algorithm on knowledge reduction in incomplete information systems[J].International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(1): 95-103.
[31] Song Peng, Liang Jiye, Qian Yuhua. A two-grade approach to ranking interval data[J]. Knowledge-Based Systems, 2012, 27: 234-244.
[32] Hu Qinghua, Yu Daren, Xie Zongxia. Information-preserving hybrid data reduction based on fuzzy-rough techniques[J]. Pattern Recognition Letters, 2006, 27 (5):414-423.
[33] Qian Yuha, Wang Qi, Cheng Honghong, et al.Fuzzy-rough feature selection accelerator[J]. Fuzzy Sets and Systems, 2015, 258: 61-78.
[34] 劉小弟, 朱建軍, 劉思峰. 方案有不確定偏好的區(qū)間數(shù)相對(duì)熵群決策方法[J]. 中國(guó)管理科學(xué), 2014, 22(6): 134-140.
[35] 梁燕華, 郭鵬, 朱煜明. 基于樣本集的區(qū)間數(shù)灰靶分類決策模型及應(yīng)用[J]. 中國(guó)管理科學(xué), 2014, 22(5): 98-103.
[36] 郭崇慧, 劉永超. 區(qū)間型符號(hào)數(shù)據(jù)的特征選擇方法[J]. 運(yùn)籌與管理, 2015, 24(1): 67-74.
[37] Liang Jiye, Chin K S, Dang C Y, et al. A new method for measuring uncertainty and fuzziness in rough settheory[J]. International Journal of General Systems, 2002, 31(4):331-342.
[38] Piramuthu S.Evaluating feature selection methods for learning in data mining applications[J]. European Journal of Operational Research, 2004, 156(2): 483-494.
[39] Roy B.Méthodologie Multicritèred’Aide à la Décision[M]. Paris:Economica, 1985.
[40] Diday E. From data to knowledge: Probabilistic objects for a symbolic data analysis[M]//Dodge Y,Whittaker J.Statistics,Heidelberg:Physica,1992.
[41] Qian Yuhua,Liang Jiye, Song Peng, et al.Evaluation of the decision performance of the decision rule set from an ordered decision table[J].Knowledge-Based Systems, 2012, 36: 39-50.
[42] Sevastjanov P, Dymova L. Stock screening with use of multiple criteria decision making and optimization[J]. Omega, 2009, 37(3): 659-671.
Research on Feature Selection Method for Interval Sorting Decision
SONG Peng1,2,LIANG Ji-ye2,QIAN Yu-hua2,LI Chang-hong1
(1. School of Economics and Management, Shanxi University, Taiyuan 030006, China;2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University, Taiyuan 030006, China)
In the field of multiple attributes decision making, sorting decision has become an important kind of issue and been widely concerned in many practical application areas. In the process of making sorting decision,the rational and effective feature selection methods can extract informative and pertinent attributes, and thus improve the efficiency of decision making. From the extant literatures, many valuable researches have been provided for more reasonably solving this problem in the context of diverse data types, such as single value, null value and set value. However, very few studies focus on the sorting decision in term of interval-valued data. The objective of this paper is to provide a new feature selection approach for interval sorting decision by using the interval outranking relation. By integrating rough set model and information entropy theory, a new measurement called complementary condition entropy, which investigates the complementary nature of the relevant sets, is proposed for feature evaluation through analyzing the inherent implication of correlation between considered attributes in the problem of interval sorting decision. Furthermore,on the basis of the difference of the values of complementary condition entropy,the representation of the indispensable attributes and the measurement of attributes importance are presented, and then develop a heuristic feature selection algorithm is proposed for interval sorting decision. Finally, two illustrative applications, namely,the issues of venture investment and portfolio selection, are employed to demonstrate the validity of the proposed method.For the problem of multi-stage venture investment decision, through investigating the competitiveness, development capacity and financial capability of 16 investment projects, the corresponding probabilistic decision rules having better generalization capability, which can be used to determine whether to perform further investment. As to the issue of portfolio selection, 91 stocks coming from Chinese stock market and 9 operating performance indicators of these firms are employed. By using the presented approach in this study, a portfolio which has better investment return can be construeted. Accordingly, the corresponding strategy for building portfolio is useful to quantitative investment decision. In brief, as the important preprocessing tool in the process of decision analysis, the feature selection method built in this paper is of extensive meaning for discovering the key indicators and improving decision performance in the field of sorting decision.
interval-valued data; sorting decision; feature selection; complementary condition entropy
2016-01-014;
2016-02-12
國(guó)家自然科學(xué)基金青年項(xiàng)目(71301090);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(71031006, 61432011);國(guó)家優(yōu)秀青年科學(xué)基金項(xiàng)目(61322211);教育部人文社會(huì)科學(xué)研究青年基金項(xiàng)目(12YJC630174);山西省高等學(xué)校創(chuàng)新人才支持計(jì)劃(2013052006)
宋鵬(1979-),男(漢族),山西晉城人,山西大學(xué)經(jīng)濟(jì)與管理學(xué)院副教授,管理學(xué)博士,研究方向:決策理論與方法、數(shù)據(jù)挖掘,E-mail:songpeng@sxu.edu.cn.
1003-207(2017)07-0141-12
10.16381/j.cnki.issn1003-207x.2017.07.016
C934
A