余順坤,閆泓序
(華北電力大學(xué)經(jīng)濟(jì)與管理學(xué)院,北京 102206)
作為一種新型軟計(jì)算理論與智能算法,粗糙集理論可以有效處理具有不確定、不精確或不完整信息的數(shù)據(jù)[1-2]。它能夠在不依靠任何先驗(yàn)知識(shí)的情況下,只根據(jù)數(shù)據(jù)本身完成挖掘和推理[3],是對(duì)專家系統(tǒng)進(jìn)行數(shù)據(jù)挖掘的強(qiáng)大工具[4-5]。屬性值約簡(jiǎn)是粗糙集理論研究和應(yīng)用的核心課題之一,也是構(gòu)建規(guī)則提取算法[6-13]和歸納規(guī)則分類器[14-15]的重要技術(shù)基礎(chǔ)。屬性值約簡(jiǎn)是指在不影響決策系統(tǒng)知識(shí)表達(dá)能力的前提下,去除其中冗余屬性值的過(guò)程[16],它不但能夠從原始數(shù)據(jù)庫(kù)中直接提取出可讀性高、便于應(yīng)用的簡(jiǎn)約規(guī)則,而且還能在不降低專家系統(tǒng)可分辨性的基礎(chǔ)上提高其清晰度,并從中揭示出以往未知、有潛在價(jià)值的信息,從而實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)[10,16]。
目前,針對(duì)構(gòu)建屬性值約簡(jiǎn)模型這一問(wèn)題,學(xué)術(shù)界已經(jīng)取得一定進(jìn)展,主要包括基于區(qū)分矩陣的屬性值約簡(jiǎn)模型[10,13,17-19]以及啟發(fā)式屬性值約簡(jiǎn)模型[20-23]兩個(gè)建模方向。其中,基于區(qū)分矩陣的屬性值約簡(jiǎn)模型思想簡(jiǎn)單,易于理解;但當(dāng)將其應(yīng)用于大規(guī)模數(shù)據(jù)集時(shí),往往需要構(gòu)造與遍歷大型矩陣,導(dǎo)致算法的時(shí)間與空間復(fù)雜度較高。另一方面,大多數(shù)啟發(fā)式屬性值約簡(jiǎn)模型程序復(fù)雜,難以實(shí)現(xiàn),且計(jì)算復(fù)雜度較高。最近,Chen 等[9]提出了一種基于決策依賴度的啟發(fā)式屬性值約簡(jiǎn)模型,能夠有效控制算法的時(shí)?空復(fù)雜度,但僅適用于具有較高重復(fù)性或冗余性的數(shù)據(jù)集,對(duì)數(shù)據(jù)本身特征要求較高。除此之外,現(xiàn)有屬性值約簡(jiǎn)模型大多傾向于產(chǎn)生極簡(jiǎn)短規(guī)則,導(dǎo)致專家系統(tǒng)的決策能力受到較大程度削弱,并且未能對(duì)數(shù)據(jù)庫(kù)進(jìn)行多層次挖掘以獲得多元豐富的決策描述,導(dǎo)致數(shù)據(jù)知識(shí)的本質(zhì)特征和內(nèi)在規(guī)律沒(méi)有被充分發(fā)現(xiàn)與理解。
針對(duì)以上問(wèn)題,在現(xiàn)有研究的基礎(chǔ)上,本文提出了一種基于確定性因子的啟發(fā)式屬性值約簡(jiǎn)模型。首先,簡(jiǎn)要闡述粗糙集理論的相關(guān)理論基礎(chǔ);然后,開(kāi)發(fā)了幾種不同性質(zhì)的屬性集工具,用韋恩圖的形式直觀展示它們的邏輯聯(lián)系,并提出相關(guān)定理與證明;其次,構(gòu)造一個(gè)約簡(jiǎn)信息函數(shù),為約簡(jiǎn)屬性賦值;再次,將確定性因子作為啟發(fā)信息,提出一種新的屬性值約簡(jiǎn)模型,簡(jiǎn)稱CerFac 模型,并給出其程序偽代碼,以直觀展示模型運(yùn)行路徑;最后,采用已有研究中的模擬數(shù)據(jù)開(kāi)展模型應(yīng)用與驗(yàn)證,并對(duì)模型特點(diǎn)進(jìn)行總結(jié)與討論。研究表明,CerFac 模型可以有效去除冗余信息,并能導(dǎo)出多元簡(jiǎn)約規(guī)則,同時(shí)易于編程實(shí)現(xiàn)。特別地,新模型適用于重復(fù)或冗余較少的數(shù)據(jù)集,對(duì)數(shù)據(jù)結(jié)構(gòu)要求低,且應(yīng)用范圍廣泛。
先簡(jiǎn)要回顧粗糙集理論的相關(guān)理論基礎(chǔ)[1-2]。
定義1決策系統(tǒng)。設(shè)S=(U,A,V,f)為一個(gè)信息系統(tǒng),其中,U={x1,x2,…,xn}為非空有限對(duì)象集,稱為論域;A={a1,a2,…,am}為非空有限屬性集;V為屬性值域,即V=,其中k=1,2,…,m,這里表示屬性ak∈A的取值;f:U×A→V稱為信息函數(shù),它根據(jù)每個(gè)屬性為每個(gè)對(duì)象賦予一個(gè)信息值,即?xi∈U,?ak∈A,f(xi,ak)=。特別地,若A由一個(gè)條件屬性集C和一個(gè)決策屬性集D組成,且二者滿足C∪D=A,C∩D=?,則稱S為決策系統(tǒng),表示為S=(U,C∪D,V,f)。當(dāng)D中只有一個(gè)決策屬性d時(shí),通常將決策系統(tǒng)表示為S=(U,C∪80o00ey,V,f)。
定義2等價(jià)類。設(shè)S=(U,C∪0meeys0,V,f)為決策系統(tǒng),?xi,xj∈U,?P?C,P≠?,定義對(duì)象間關(guān)于P的不可分辨關(guān)系為:IND(P)={(xi,xj)|(xi,xj)∈U×U,?ak∈P,f(xi,ak)=f(xj,ak)}。對(duì)象x(ii≤n)關(guān)于IND(P)的等價(jià)類定義為:
[xi]IND(P)={xj|(xi,xj)∈IND(P)}
定義3確定性因子。設(shè)S=(U,C∪u0umqeo,V,f)為決策系統(tǒng),?xi∈U,?P?C,P≠?,定義決策對(duì)象xi關(guān)于不可分辨關(guān)系IND(P)與IND(d)的確定性因子為:
顯然0 下面先介紹本文CerFac 模型的相關(guān)概念與符號(hào)。 定義4k-屬性集。設(shè)S=(U,C∪yai0qoe,V,f)為決策系統(tǒng),其中:|C|=m;?aj∈C(j=1,2,…,m),定義含有k個(gè)屬性的集合為k-屬性集,表示為Ak,即Ak={A?C||A|=k},其所含元素總數(shù)為從m個(gè)屬性中隨機(jī)抽取k個(gè)的組合數(shù)。A*k={Ak|1≤k≤m,k∈Z}為決策系統(tǒng)中條件屬性的全部可能組合,稱之為系統(tǒng)屬性格結(jié)構(gòu),k為格結(jié)構(gòu)的層次。 特定對(duì)象xi的k-屬性集稱為k-對(duì)象屬性集,表示為Ai,k,將Ai,k中的各屬性元素ai,k∈Ai,k按照以下標(biāo)準(zhǔn)進(jìn)行劃分: 1)若決策對(duì)象xi關(guān)于ai,k的信息表達(dá)能力與關(guān)于屬性集C的一致,則將ai,k定義為xi的k-核屬性(或集合),全部k-核屬性(或集合)稱為k-核屬性集,表示為coreAi,k,即cer(coreAi,k,xi)=cer(C,xi)。反之,則將ai,k定義為xi的k-非核屬性(或集合),全部k-非核屬性(或集合)稱為k-非核屬性集,表示為ncoreAi,k,即cer(ncoreAi,k,xi)≠cer(C,xi)。 2)若ai,k為xi的最小k-核屬性(或集合),則將ai,k定義為xi的k-約簡(jiǎn)屬性(或集合),全部k-約簡(jiǎn)屬性(或集合)稱為k-約簡(jiǎn)屬性集,表示為redAi,k,即redAi,k=,其中,?ni,k-1∈ncoreAi,k-1。反之,則將ai,k定義為xi的k-非約簡(jiǎn)屬性(或集合),全部k-非約簡(jiǎn)屬性(或集合)稱為k-非約簡(jiǎn)屬性集,表示為nredAi,k。有nredAi,k=ncoreAi,k+sredAi,k,其中,sredAi,k表示xi的k-約簡(jiǎn)屬性集超集,它是一種包含(k-1)層約簡(jiǎn)屬性的k-核屬性集,它雖能保持xi的信息表達(dá)能力不變,但并非最小集合,因此屬于k-非約簡(jiǎn)屬性集。 3)對(duì)象xi的k-屬性集Ai,k由redAi,k、sredAi,k與ncoreAi,k綜合構(gòu)造而成,即Ai,k=redAi,k+sredAi,k+ncoreAi,k。 為了清晰形象地說(shuō)明Ai,k、coreAi,k、ncoreAi,k、redAi,k、nredAi,k與sredAi,k之間的邏輯關(guān)系,以下進(jìn)一步給出其韋恩圖,如圖1 所示的k-對(duì)象屬性集元素韋恩圖,其中redAi,k、sredAi,k與ncoreAi,k不同時(shí)為空集。 圖1 k-對(duì)象屬性集元素韋恩圖Fig.1 Venn diagram for elements within a k-object attribute set 定義5k-候選約簡(jiǎn)屬性集。定義決策對(duì)象的潛在k-約簡(jiǎn)屬性集為k-候選約簡(jiǎn)屬性集,表示為candAi,k,其由(k-1)層非核屬性(或集合)構(gòu)造而成,即candAi,k=,其中,?ni,k-1∈ncoreAi,k-1。對(duì)于candAi,k,有以下定理成立: 定理1對(duì)于決策系統(tǒng)S中某對(duì)象xi,其k-候選約簡(jiǎn)屬性集由k-約簡(jiǎn)屬性集及k-非核屬性集構(gòu)成,即?xi∈U,有candAi,k=redAi,k+ncoreAi,k成立。 證明 因?yàn)?xi∈U(k=1,2,…,m),redAi,k-1、sredAi,k-1與ncoreAi,k-1不同時(shí)為空集。根據(jù)定義4,第k層屬性集Ai,k由第k-1 層屬性集redAi,k-1、sredAi,k-1與ncoreAi,k-1構(gòu)成;又因?yàn)閞edAi,k-1或sredAi,k-1將構(gòu)成sredAi,k,所以Ai,k=sredAi,k+,其中,?ni,k-1∈ncoreAi,k-1;根據(jù)定義4,有Ai,k=sredAi,k+redAi,k+ncoreAi,k,所以=redAi,k+ncoreAi,k;又根據(jù)定義5,有candAi,k=,即candAi,k=redAi,k+ncoreAi,k,綜上得證。 根據(jù)定義5 和定理1,即可構(gòu)造CerFac 模型,其基本思想是:對(duì)于特定決策對(duì)象的某一屬性格層k,首先應(yīng)用確定性因子過(guò)濾出k-1 層非核屬性;然后將其進(jìn)行組合,構(gòu)造形成第k層候選約簡(jiǎn)屬性集;據(jù)此,再次利用確定性因子進(jìn)行過(guò)濾,即可獲取決策對(duì)象的第k層約簡(jiǎn)屬性集。 定義6約簡(jiǎn)信息函數(shù)。設(shè)S=(U,C∪8uu008i,V,f)為決策系統(tǒng),dred(S)=(U,A*∪wya0akg,V*,f*)為論域?qū)傩灾导s簡(jiǎn)系統(tǒng),由每個(gè)決策對(duì)象xi∈U的屬性值約簡(jiǎn)dred(Si)組合而成。其中:A*i為對(duì)象xi的非空有限k-屬性組合;V*i為對(duì)象xi的約簡(jiǎn)屬性信息值域;f*為約簡(jiǎn)信息函數(shù),它為決策對(duì)象的每個(gè)屬性組合賦予特定的信息值。?xi∈U(i=1,2,…,n),A*i=redA*i∪ncoreA*i∪sredA*i,?a*i∈A*i,?aj∈a*i(j=1,2,…,m),定義約簡(jiǎn)信息函數(shù)f*如下: 應(yīng)用CerFac 模型獲取的dred(S)中存在大量重復(fù)條目信息行,對(duì)其執(zhí)行去重操作,將得到非重復(fù)論域?qū)傩灾导s簡(jiǎn)系統(tǒng),記為ddred(S)=(U*,A*∪kmqsm0e,V*,f*),系統(tǒng)排列方式按照約簡(jiǎn)層次k與k-屬性組合的形式進(jìn)行分布,對(duì)其依照決策系統(tǒng)的分布形式進(jìn)行格式標(biāo)準(zhǔn)化,即可得到?jīng)Q策屬性值約簡(jiǎn)系統(tǒng),記為red(S)=(R,C∪imqweyg,V*,f*)。 應(yīng)用以上不同性質(zhì)的屬性集工具,將確定性因子作為啟發(fā)信息,即可自底向上地搜索到?jīng)Q策系統(tǒng)的全部約簡(jiǎn)屬性,再應(yīng)用約簡(jiǎn)信息函數(shù)對(duì)約簡(jiǎn)屬性進(jìn)行賦值,即可獲取決策系統(tǒng)的全體屬性值約簡(jiǎn)。在此,構(gòu)建基于確定性因子的屬性值約簡(jiǎn)模型CerFac,模型程序偽代碼如下所示,其主要包括三大模塊: 1)模塊A。首先,在k屬性格層上,將對(duì)象xi的候選約簡(jiǎn)屬性集candAi,k作為中間變量,獲取其約簡(jiǎn)屬性集redAi,k;其次,利用約簡(jiǎn)信息函數(shù)f*為redAi,k賦值Vi,k;然后,綜合以上結(jié)果獲取決策對(duì)象xi的屬性值約簡(jiǎn)dred(Si);最后,循環(huán)以上步驟,生成論域內(nèi)每個(gè)決策對(duì)象的屬性值約簡(jiǎn),再將其進(jìn)行組合,形成論域?qū)傩灾导s簡(jiǎn)系統(tǒng)dred(S)。 2)模塊B。對(duì)dred(S)執(zhí)行去重操作,生成非重復(fù)論域?qū)傩灾导s簡(jiǎn)系統(tǒng)ddred(S)。 3)模塊C。對(duì)ddred(S)進(jìn)行格式標(biāo)準(zhǔn)化,最終獲取決策屬性值約簡(jiǎn)系統(tǒng)red(S)。 模塊A 是CerFac 模型的核心模塊,其主要功能是對(duì)特定決策對(duì)象的屬性組合類型進(jìn)行精準(zhǔn)劃分,通過(guò)一個(gè)具體例子,來(lái)對(duì)該模塊的執(zhí)行過(guò)程進(jìn)行形象直觀說(shuō)明,如圖2 所示的CerFac 模型中模塊A 執(zhí)行概覽。 圖2 中展示了某決策對(duì)象的屬性格結(jié)構(gòu),其中,自上而下依次為第0 至第m(條件屬性總數(shù))層屬性格。相鄰兩屬性格層之間的連線代表將多個(gè)屬性(或集合)組合成為更大的屬性集。假設(shè)圖中某一決策對(duì)象xi的條件屬性集為{A,B,C,D},其所有可供構(gòu)造的k-屬性組合如圖所示。以第k=1 屬性格層為例,若屬性A經(jīng)確定性因子檢查是核屬性(在此,亦為約簡(jiǎn)屬性),那么其超集{{A,B},{A,C},{A,D}}(格層k=2)、{{A,B,C},{A,B,D},{A,C,D}}(格層k=3)以及{A,B,C,D}(格層k=4)將不再執(zhí)行算法在高序格層上的循環(huán)遍歷。同時(shí),在第k=1 格層上的非核屬性{B}、{C}和{D},將構(gòu)成k=2 格層上的候選約簡(jiǎn)屬性集{B,C}、{B,D}和{C,D},再次利用確定性因子進(jìn)行檢查,將其中保持對(duì)象確定性因子不變的非核屬性集標(biāo)記為此格層的約簡(jiǎn)屬性集,如{B,C}、{B,D},其他則仍舊作為本格層的非核屬性集,如{C,D}。若本格層的非核屬性集總數(shù)不小于下一格層編碼,則繼續(xù)組合本格層的非核屬性集,以作為下一格層的候選約簡(jiǎn)屬性集,進(jìn)而循環(huán)算法;反之,則終止算法。 圖2 CerFac模型中模塊A執(zhí)行概覽Fig.2 Execution overview of CerFac model-Module A 由此可知,CerFac 模型秉承自下而上的屬性值約簡(jiǎn)策略,即從決策對(duì)象的低屬性格層出發(fā),一旦在低格層上搜索到約簡(jiǎn)屬性(或集合),那么對(duì)于其他所有高格層中包含該約簡(jiǎn)屬性(或集合)的屬性組合將不再運(yùn)行本文算法,這將顯著提升算法的時(shí)?空效率。 以文獻(xiàn)[9]中的算例數(shù)據(jù)為例,舉例說(shuō)明本文模型CerFac 的應(yīng)用步驟,其中算例數(shù)據(jù)集、模型應(yīng)用過(guò)程及相應(yīng)結(jié)果如圖3 所示的仿真算例分析所示。模型具體應(yīng)用過(guò)程如下: 1)模塊A。圖3(a)為算例數(shù)據(jù)集,從中可看出,該數(shù)據(jù)集為相容決策系統(tǒng),表示為S=(U,C∪{e},V,f),其中論域U={x1,x2,…,x27},條件屬性集C={a,b,c,d},決策屬性為e。以對(duì)象x9為例,展示應(yīng)用本模型搜索其屬性值約簡(jiǎn)的具體過(guò)程。 首先,根據(jù)定義4,生成x9的k-對(duì)象屬性集A9,k,其中k∈{1,2,3,4},得A*k={A9,1,A9,2,A9,3,A9,4}={{a,b,c,d},{ab,ac,ad,bc,bd,cd},{abc,abd,acd,bcd},{abcd}}。 然后,根據(jù)定義5 獲取各k層候選約簡(jiǎn)屬性集以及約簡(jiǎn)屬性(或集合): 當(dāng)k=1 時(shí),對(duì)象x9的候選約簡(jiǎn)屬性集為candA9,1={a,b,c,d},根據(jù)定義3,計(jì)算candA9,1內(nèi)各元素在論域范圍內(nèi)的確定性因子cer(candA9,1,x9)={2/9,1,2/3,3/7},據(jù)此,將確定性因子1 對(duì)應(yīng)的屬性反選為對(duì)象x9的約簡(jiǎn)屬性,即redA9,1={b},那么x9的非核屬性集為ncoreA9,1=candA9,1-redA9,1={a,c,d},因?yàn)閨ncoreA9,1|>k+1,因而進(jìn)行下一循環(huán)。 當(dāng)k=2 時(shí),同理,對(duì)象x9的候選約簡(jiǎn)屬性集由k=1 層的非核屬性組合而成,即candA9,2={ac,ad,cd},其中各元素確定性因子為cer(candA9,2,x9)={1,2/5,1},則對(duì)象x9的約簡(jiǎn)屬性集為redA9,2={ac,cd},那么對(duì)象x9的非核屬性集為ncoreA9,2={ad},由于|ncoreA9,2| 由此獲取到對(duì)象x9的各層約簡(jiǎn)屬性(或集合),根據(jù)定義6,應(yīng)用約簡(jiǎn)信息函數(shù)為全部所得約簡(jiǎn)結(jié)果賦予約簡(jiǎn)信息值,即可生成對(duì)象x9的各層屬性值約簡(jiǎn)dred(S9)。同理,可搜索到論域范圍內(nèi)其他全部對(duì)象的屬性值約簡(jiǎn)dred(Si),再次根據(jù)定義6,將其進(jìn)行組合,即可形成各約簡(jiǎn)層次上的論域?qū)傩灾导s簡(jiǎn)系統(tǒng)dred(S),相關(guān)結(jié)果如圖3(b)~(d)所示,其中:圖3(b)為決策系統(tǒng)S在k=1 約簡(jiǎn)層次上的論域?qū)傩灾导s簡(jiǎn)系統(tǒng);圖3(c)為S在k=2 層的論域?qū)傩灾导s簡(jiǎn)系統(tǒng);圖3(d)為S在k=3 層的論域?qū)傩灾导s簡(jiǎn)系統(tǒng)。 2)模塊B。經(jīng)模塊A,在dred(S)中生成了較多條目的重復(fù)屬性值約簡(jiǎn)信息行,對(duì)其執(zhí)行去重操作,即可得到非重復(fù)論域?qū)傩灾导s簡(jiǎn)系統(tǒng)ddred(S)。圖3(e)為決策系統(tǒng)S在各約簡(jiǎn)層次上的非重復(fù)論域?qū)傩灾导s簡(jiǎn)系統(tǒng)。 3)模塊C。經(jīng)模塊B,獲取到屬性依照約簡(jiǎn)層次k及屬性組合Ak排列的非重復(fù)論域?qū)傩灾导s簡(jiǎn)系統(tǒng),對(duì)其按決策系統(tǒng)S進(jìn)行格式標(biāo)準(zhǔn)化,最終生成決策屬性值約簡(jiǎn)系統(tǒng)red(S)。圖3(f)為決策系統(tǒng)S的決策屬性值約簡(jiǎn)系統(tǒng)。 圖3 仿真算例分析Fig.3 Simulation example analysis 與現(xiàn)有研究相比,應(yīng)用本文CerFac 模型搜索到的屬性值約簡(jiǎn)具有更高預(yù)測(cè)精度。比如,文獻(xiàn)[9]從此算例數(shù)據(jù)集中先后挖掘得到的、能夠匹配對(duì)象x19({a3∧b1∧c1∧d2→e3})的屬性值約簡(jiǎn)依次為{a*∧b*∧c1∧d2→e2}與{a*∧b*∧c1∧d*→e3},它無(wú)論基于規(guī)則覆蓋率(匹配具有更多一致屬性值的約簡(jiǎn)規(guī)則),還是規(guī)則生成順序(匹配優(yōu)先生成的約簡(jiǎn)規(guī)則),都無(wú)法準(zhǔn)確預(yù)測(cè)對(duì)象x19,但是CerFac 模型所推演出的屬性值約簡(jiǎn)能對(duì)文獻(xiàn)[9]中的全部算例數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)預(yù)測(cè)。 CerFac 模型并非一種逐步剪枝策略,即無(wú)需一步步地去除約簡(jiǎn)屬性超集,就可直接得到特定對(duì)象的屬性約簡(jiǎn)。此外,新模型聚焦于某決策對(duì)象較低格層的非核屬性集,將確定性因子作為啟發(fā)信息,經(jīng)過(guò)簡(jiǎn)單掃描,即可獲取較高格層的屬性值約簡(jiǎn),亦即直接生成多元、簡(jiǎn)約,且不影響決策對(duì)象信息表達(dá)能力的規(guī)則描述,這些優(yōu)勢(shì)使得CerFac 模型易于計(jì)算、編程和執(zhí)行。 CerFac 模型所生成的簡(jiǎn)明規(guī)則具有較強(qiáng)泛化性與描述力,這使得基于CerFac 模型的分類器具有比較高的穩(wěn)健性。此外,新模型能夠深度挖掘出決策對(duì)象多種可能的屬性值約簡(jiǎn)結(jié)果,利用某些個(gè)性化篩選標(biāo)準(zhǔn)對(duì)其進(jìn)行提取,如規(guī)則置信度、規(guī)則提升度及規(guī)則覆蓋度等,即可提取出符合需求、有價(jià)值的簡(jiǎn)約規(guī)則,因此CerFac 模型為基于確定性因子的粗糙規(guī)則提取算法奠定了技術(shù)基礎(chǔ)。 CerFac 模型的算法復(fù)雜度與決策系統(tǒng)中每個(gè)實(shí)例對(duì)象的條件屬性取值及數(shù)據(jù)規(guī)模有關(guān),如設(shè)某決策系統(tǒng)含有n個(gè)對(duì)象,m個(gè)條件屬性,則:當(dāng)系統(tǒng)中每一條決策對(duì)象的條件屬性取值均各不相同時(shí),模型處于最好情況,此時(shí)算法時(shí)間復(fù)雜度為O(n2m);而當(dāng)系統(tǒng)中每一條決策對(duì)象的條件屬性取值均相同,而決策屬性值不同時(shí)(即完全矛盾系統(tǒng)),模型處于最差情況,此時(shí)算法時(shí)間復(fù)雜度為O(2mn2)。由此,當(dāng)模型應(yīng)用于海量數(shù)據(jù)時(shí),對(duì)決策系統(tǒng)先行進(jìn)行純化處理[24-25],或基于MapReduce[26-27]并行運(yùn)算框架,優(yōu)先完成行(元組)約簡(jiǎn)與列(屬性)約簡(jiǎn)[28-30],將使本模型的運(yùn)行成本得到進(jìn)一步改善,這也是下一步的研究方向。此外,新模型將為決策系統(tǒng)推導(dǎo)出多元豐富的簡(jiǎn)約規(guī)則,因此,適用于需要全面性規(guī)則來(lái)指導(dǎo)實(shí)踐的研究領(lǐng)域,如市場(chǎng)營(yíng)銷[12,31]等,或是針對(duì)成熟專家系統(tǒng),要求較高預(yù)測(cè)精度的知識(shí)發(fā)現(xiàn)任務(wù),如醫(yī)療診斷[32]等。 本文針對(duì)現(xiàn)有屬性值約簡(jiǎn)模型的不足,構(gòu)建了一種基于確定性因子的自底向上型啟發(fā)式屬性值約簡(jiǎn)模型。首先,根據(jù)粗糙集理論,設(shè)計(jì)了幾種不同性質(zhì)的屬性集工具,并將確定性因子作為啟發(fā)信息,從中分層搜索特定決策對(duì)象的約簡(jiǎn)屬性;然后,開(kāi)發(fā)了約簡(jiǎn)信息函數(shù),從而實(shí)現(xiàn)為決策對(duì)象的約簡(jiǎn)屬性賦值;其次,以程序偽代碼的形式,直觀展示了模型的布置路徑與運(yùn)行流程;再次,以現(xiàn)有研究中的仿真數(shù)據(jù)為載體,對(duì)模型進(jìn)行了應(yīng)用與驗(yàn)證;最后,討論了模型的優(yōu)勢(shì)、適用性與延展性。研究表明,新模型可行有效、科學(xué)先進(jìn),同時(shí)具有廣闊的應(yīng)用前景。未來(lái)的研究將集中于以下幾個(gè)方面:1)從行、列約簡(jiǎn)的角度提升算法效率;2)構(gòu)建基于CercFac 模型的規(guī)則提取算法;3)構(gòu)建基于CercFac 模型的歸納規(guī)則分類器。2 CerFac模型
3 CerFac屬性值約簡(jiǎn)模型
4 仿真算例
5 討論
6 結(jié)語(yǔ)