亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖的覆蓋決策信息系統(tǒng)屬性約簡新算法

        2022-04-19 06:47:36張燕蘭林藝東
        關(guān)鍵詞:定義

        張 杰,張燕蘭*,林藝東

        (1.閩南師范大學(xué) 計算機(jī)學(xué)院,福建 漳州 363000;2.廈門大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,福建 廈門 361005)

        由Pawlak[1]提出的粗糙集理論是一種處理不確定信息的重要工具,在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和知識發(fā)現(xiàn)等領(lǐng)域有重要的應(yīng)用。在粗糙集理論中,數(shù)據(jù)通常由信息系統(tǒng)來表示,并且由一組特征來描述。然而,這些特征中有許多是冗余的,這使得分類過程更加困難。因此,通過選擇相關(guān)的特征來減少冗余的特征的數(shù)量是很有必要的。屬性約簡的主要目的是去除數(shù)據(jù)集中的冗余信息,這不僅可以減少學(xué)習(xí)算法的運(yùn)行時間,在某些情況下還可以提供更好的分類精度。

        在經(jīng)典的粗糙集中,很多學(xué)者已對屬性約簡作了深入的研究[2-4]并取得了重要的結(jié)果。例如,錢宇華等提出了4種尋找屬性約簡的加速算法[5]。然而,基于經(jīng)典Pawlak粗糙集模型的屬性約簡方法只適用于離散型數(shù)據(jù),并不能直接應(yīng)用于連續(xù)型數(shù)據(jù)。換句話說,屬性約簡之前需要對連續(xù)型數(shù)據(jù)進(jìn)行離散化,而這會造成信息損失和丟失[6]。為此,很多學(xué)者提出了覆蓋粗糙集、相似關(guān)系粗糙集和鄰域粗糙集等廣義粗糙集模型[7-13]。Chen等提出了一種基于覆蓋粗糙集模型的屬性約簡方法[14],此方法可以用來處理數(shù)值型數(shù)據(jù),而且不需要對數(shù)值型數(shù)據(jù)離散化,只需轉(zhuǎn)化為一個覆蓋決策系統(tǒng)即可。在此基礎(chǔ)上,Chen等又提出了另一種基于覆蓋粗糙集模型的屬性約簡方法[14],但是,該算法非常耗時。為了克服這個缺點(diǎn),Wang等簡化了文獻(xiàn)[14]中辨識矩陣的構(gòu)造,提出了一種更有效的尋找屬性約簡的CDA算法[15]。CDA算法可以有效地處理中等規(guī)模的數(shù)據(jù)集,然而,CDA算法的計算復(fù)雜度隨著樣本和屬性的增加呈指數(shù)增長,且CDA算法可能會得到一個空的特征子集,因此,對于較大數(shù)據(jù)集,需要更有效的屬性約簡方法。于是,Chen等提出了一種基于圖的覆蓋決策信息系統(tǒng)屬性約簡的CDG算法[16],結(jié)果表明CDG算法比文獻(xiàn)[15]中CDA算法更高效。

        本研究在文獻(xiàn)[15]的基礎(chǔ)上研究覆蓋決策信息系統(tǒng)屬性約簡的問題,并在文獻(xiàn)[16]的約簡理論框架下研究基于圖的覆蓋信息系統(tǒng)屬性約簡的新方法,采用的策略是:首先計算覆蓋決策信息系統(tǒng)的辨識集,進(jìn)而得到一個超圖的關(guān)聯(lián)矩陣;然后,基于貪心法求該超圖的極小頂點(diǎn)覆蓋;最后,通過連續(xù)型數(shù)據(jù)實(shí)驗(yàn)分析得知新算法的時間復(fù)雜度為O(|U||A|),其中|U|與|A|的含義分別是論域的大小、屬性集的大小,這比CDG算法的時間復(fù)雜度O(|U|2|A|)更低。

        1 預(yù)備知識

        1.1 覆蓋決策信息系統(tǒng)的屬性約簡

        在本節(jié)中,先介紹覆蓋粗糙集和圖論的幾個基本概念。稱S=(U,A)是一個信息系統(tǒng),其中U和A分別是非空有限論域和屬性集。對于任意屬性a∈A,稱a:U→Va是信息函數(shù),其中Va稱為屬性a的值域。決策信息系統(tǒng)的形式為S=(U,A,wi0oi0o),其中(U,A)是一個信息系統(tǒng),A是條件屬性集,d:U→Vd是決策屬性,且d?A。

        眾所周知,經(jīng)典粗糙集只能用于處理離散型數(shù)據(jù)。然而,在許多實(shí)際的情況中經(jīng)常要面臨連續(xù)型數(shù)據(jù)的情況。現(xiàn)在回顧相關(guān)文獻(xiàn)中處理連續(xù)型數(shù)據(jù)的屬性約簡方法[14-15,17]。

        定義1[17]設(shè)U為論域,C是U的子集族,如果C中不含空集,且∪C=U,則稱C為U的一個覆蓋。

        定義2[14]設(shè)C={K1,K2,...,Kn}為U的一個覆蓋,對于每一個x∈U,令Cx=∩{Kj|Kj∈C,x∈Kj},則Cov(C) ={Cx|x∈U}也是U的一個覆蓋,稱Cov(C)為C誘導(dǎo)的覆蓋。設(shè)Δ ={Ci|i= 1,2,…,m}為U的一族覆蓋,?x∈U,記Δx=∩{(Ci)x|(Ci)x∈Cov(Ci) ,i= 1,2,…,m},那么Cov(Δ) ={Δx|x∈U}也是U的一個覆蓋,稱Cov(Δ)為Δ的誘導(dǎo)覆蓋。?X?U,X相對于Δ的上、下近似算子定義如下:

        通常,對每個數(shù)值型屬性a∈A,可以定義每個樣本x∈U的鄰域。Na(x,ε) ={y∈U|d(x,y)ε},其中d( ?, ?)是一個距離函數(shù),ε是指定的閾值。通常,d(x,y) =|a(x) -a(y)|。顯然,Na={Na(x,ε)|x∈U}是U的一個覆蓋,Δ ={Na|a∈A}是U的一個覆蓋族。因此,可以獲得一個覆蓋決策信息系統(tǒng)S=(U,Δ,q0a4umg)。

        例1 設(shè)S=(U,A,m0m0ywk)為一個由連續(xù)型屬性組成的決策信息系統(tǒng)(見表1),其中U={x1,x2,x3,x4,x5},A={a1,a2,a3,a4},d是決策屬性。

        表1 數(shù)值型數(shù)據(jù)表Table 1 Table of numerical data

        令閾值ε= 0.20,可以獲得以下覆蓋決策信息系統(tǒng)S=(U,Δ,0cakgmw):

        另外,U/d={{x1,x3},{x2,x4,x5}},記D1={x1,x3},D2={x2,x4,x5}。

        例2(續(xù)例1) 覆蓋決策信息系統(tǒng)S的辨識矩陣如表2所示。為簡單起見,我們對集合使用無分隔符形式,例如,用C1C2C4表示{C1,C2,C4}。

        表2 覆蓋決策信息系統(tǒng)S的辨識矩陣Table 2 Discernibility matrix of S

        在覆蓋決策信息系統(tǒng)S=(U,Δ,ymku0yu)中,覆蓋C1,C2,…,Cm分別對應(yīng)于m個布爾變量C*1,C*2,…,C*m,則定義辨識函數(shù)fS如下:

        這種簡化析取形式的每一個合取式被稱為主蘊(yùn)涵[18]。Wang等通過析取和合取運(yùn)算證明了覆蓋決策信息系統(tǒng)的約簡計算可以轉(zhuǎn)化為布爾函數(shù)的主蘊(yùn)涵的計算[18]。

        表3 點(diǎn)的鄰域Table 3 The neighborhood of a point

        1.2 超圖的頂點(diǎn)覆蓋

        超圖是傳統(tǒng)圖的泛化,超圖里的邊可以連接任意數(shù)量的頂點(diǎn)。一般,超圖H可以表示為(V,ε),其中V是所有頂點(diǎn)元素的集合,ε是V的非空子集族,ε的元素被稱為超邊或者邊,用E表示。而超圖H的頂點(diǎn)覆蓋K是一個集合K?V,且K與H的每條邊交非空。換句話說,頂點(diǎn)覆蓋是一組覆蓋所有邊的頂點(diǎn)集合。如果K的任意子集均不是頂點(diǎn)覆蓋,則頂點(diǎn)覆蓋K是極小的。極小頂點(diǎn)覆蓋是頂點(diǎn)數(shù)目最少的頂點(diǎn)覆蓋。超圖H的所有極小頂點(diǎn)覆蓋的集合用T(H)表示。與粗糙集中的屬性約簡方法相似,超圖的所有極小頂點(diǎn)覆蓋也可以通過邏輯表達(dá)式得到。

        2 基于圖的覆蓋決策信息系統(tǒng)的屬性約簡

        從引理1和引理2可以看出,覆蓋決策信息系統(tǒng)的屬性約簡與超圖的極小頂點(diǎn)覆蓋之間存在聯(lián)系。在本節(jié)中,我們首先介紹由覆蓋決策信息系統(tǒng)誘導(dǎo)出的超圖,然后討論導(dǎo)出超圖的極小頂點(diǎn)覆蓋與覆蓋決策信息系統(tǒng)屬性約簡之間的關(guān)系,最后,提出一種基于圖的覆蓋決策信息系統(tǒng)屬性約簡的近似算法。

        2.1 覆蓋決策信息系統(tǒng)中的超圖

        定義5[16]設(shè)S=(U,Δ,muke0s0)為覆蓋決策信息系統(tǒng),其中Δ ={C1,C2,…,Cm},Μ′是S的可分辨識集,M*={M∈M′|M≠Δ}。令V= Δ,ε=M*,稱H=(V,ε)為S的誘導(dǎo)圖。

        定義5是在文獻(xiàn)[3]的基礎(chǔ)上給出的,僅適用于分類數(shù)據(jù)。回想一下,超圖是傳統(tǒng)圖的泛化。覆蓋決策信息系統(tǒng)的誘導(dǎo)圖H可能是一個傳統(tǒng)的圖,但在大多數(shù)情況下,它是一個超圖。因此,如果不存在歧義,我們就把定義5中的誘導(dǎo)圖稱為超圖。

        例5(續(xù)例1) 易知:M*={{C2,C4},{C1,C2,C4},{C1,C3,C4}}。S誘導(dǎo)的超圖H=(V,ε)為:ε={{C2,C4},{C1,C2,C4},{C1,C3,C4}},V={C1,C2,C3,C4}。

        通過引理1、引理2以及定義5,可得到下面的結(jié)果。

        定理1[16]設(shè)H=(V,ε)為覆蓋決策信息系統(tǒng)S誘導(dǎo)的一個超圖,則Red(S)=T(H)。

        定理1給出一個覆蓋決策信息系統(tǒng)屬性約簡的圖模型??梢钥吹?,求一個覆蓋決策信息系統(tǒng)的所有約簡可以看作是求一個超圖極小頂點(diǎn)覆蓋集,這為我們提供了獲取覆蓋決策信息系統(tǒng)屬性約簡的新方法。

        例6(續(xù)例5) 知:Re d(S) ={{C4},{C1,C2},{C2,C3}}。從例4 誘導(dǎo)的超圖所有極小頂點(diǎn)覆蓋集合為:T(H)={{C4},{C1,C2},{C2,C3}}。

        因此,有Red(S) =T(H)。

        2.2 覆蓋決策信息系統(tǒng)的屬性約簡算法

        在實(shí)際應(yīng)用中,沒有必要找出覆蓋決策信息系統(tǒng)的所有約簡,只需要找到一個約簡。此外,相較于效率來說,找到約簡是否為最小并不是很重要。在大多數(shù)文獻(xiàn)中,粗糙集屬性約簡算法得到的是次優(yōu)約簡。在本小節(jié)中,將給出一種新的基于圖的覆蓋決策系統(tǒng)屬性約簡的近似算法,其中生成覆蓋決策表的超圖是構(gòu)造上述約簡算法的關(guān)鍵步驟之一。接下來將用關(guān)聯(lián)矩陣的簡單表示設(shè)計一個快捷計算超圖的算法。超圖H=(V,ε)的關(guān)聯(lián)矩陣是一個m×n的矩陣MH=(mij)m×n,其中|ε| =m,|V| =n。若邊Ei和頂點(diǎn)vj是關(guān)聯(lián)的,則mij= 1;否則,mij= 0。

        例7(續(xù)例4) 例4 所示的超圖關(guān)聯(lián)矩陣是一個由3 行(對應(yīng)于3 條邊E1~E3)和4 列(對應(yīng)于4 個頂點(diǎn)V1~V4)組成的矩陣,見表4。

        表4 例4中超圖H的關(guān)聯(lián)矩陣Table 4 Incidence matrix of hypergraph H of example 4

        下面給出生成覆蓋決策信息系統(tǒng)的超圖的算法:

        算法1 生成覆蓋決策信息系統(tǒng)的超圖(CDG1)

        輸入:一個決策信息系統(tǒng)S=(U,Δ,ueqsquw)和ε;//ε是一個閾值;

        輸出:超圖MH。

        1.forx∈Udo

        2.if d(x)≠d(y)then

        3.M'(x,y) ={|data - title(data)| >ε}//title(data)對原數(shù)據(jù)集的每一行復(fù)制并平鋪

        4.MH G(M'(x,y))

        5.end if

        6.end for

        7.刪除MH多余的行,且刪除和等于0或|A|的那一行。

        由于CDG1算法僅有一層循環(huán),其計算的時間復(fù)雜度為O(|U||A|),相較于文獻(xiàn)[16]中算法1的時間復(fù)雜度O(|U|2|A|)更低。值得注意的是由算法1生成的辨識集M' ={M'(x,y)|x,y∈U}與定義4中定義的辨識集不一樣。但是,M′比定義4中M更容易實(shí)現(xiàn),因?yàn)閷τ谌魏胃采wC∈Δ都不需要再計算Cx。事實(shí)上,它們有如下關(guān)系:

        命題2[16]令H=(V,ε)和H' =(V,ε')是兩個超圖,滿足任何E∈ε,E' ∈ε',則E' ?E。如果K?V是H'的極小頂點(diǎn)覆蓋,那么K也是H的一個頂點(diǎn)覆蓋。

        根據(jù)命題1和2,得到以下結(jié)果:

        定理2[16]設(shè)S=(U,A,iqy0cim)為決策信息系統(tǒng)。M'和M分別是由算法1和定義4生成的兩個辨識集。如果P?Δ是M'的一個約簡,則POSP(d)= POSΔ(d)。

        定理2為我們構(gòu)造新的屬性約簡算法提供了基礎(chǔ)。結(jié)合定理1可知,由算法1導(dǎo)出超圖的極小頂點(diǎn)覆蓋可以得到一個決策表的近似約簡。根據(jù)上述結(jié)果,我們設(shè)計一種新的覆蓋決策信息系統(tǒng)屬性約簡近似算法2。

        算法2 基于圖的覆蓋決策信息系統(tǒng)的約簡算法(CDG2)

        輸入:一個決策信息系統(tǒng)S=(U,A∪kqo0gkq)和ε;

        輸出:一個約簡Red。

        1.生成超圖MH=(V,ε);//參見算法1

        2.令Red= ?

        3.whileε≠?do

        4.v0= arg max{dMH(v)|v∈Vx},

        Red[Red,v0];//去掉E中被Red所覆蓋的邊,并仍記為E

        5.end while

        6.if Red -{v}//能覆蓋簡化圖G的所有邊

        7.Red Red -{v}

        8.end if

        9.輸出Red。

        該算法的主要思想是基于求超圖極小頂點(diǎn)覆蓋的貪心法[9,14],步驟1~8 的時間復(fù)雜度為O(|U||A|)。因此,CDG2的時間復(fù)雜度為O(|U||A|),比文獻(xiàn)[16]中算法2的時間復(fù)雜度O(|U|2|A|)更低。為了驗(yàn)證該算法的有效性,將其與文獻(xiàn)[16]中的CDG的算法進(jìn)行了比較。比較的指標(biāo)有:生成辨識集的運(yùn)行時間、生成約簡集的運(yùn)行時間、約簡的程度。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)準(zhǔn)備

        所有的算法都是在Python3.6中實(shí)現(xiàn)的,并在裝有Windows 7的個人電腦上運(yùn)行,其他要素為:雙核處理器,采用串行編程,CPU 主頻為2.4 GHZ,睿頻為3.0 GHZ,內(nèi)存為10 GB。實(shí)驗(yàn)選用10個公開的數(shù)據(jù)集進(jìn)行驗(yàn)證。具體的數(shù)據(jù)集描述見表5。

        3.2 實(shí)驗(yàn)比較

        表5記錄了從UCI公開數(shù)據(jù)集中選取10個常見的數(shù)據(jù)集,有小樣本,也有高維小樣本,以檢驗(yàn)本文算法在真實(shí)數(shù)據(jù)集上的有效性。具體實(shí)驗(yàn)結(jié)果如表6~8所示。

        表5 實(shí)驗(yàn)數(shù)據(jù)集Table 5 Experimental data set

        表6 約簡后的屬性數(shù)量Table 6 Number of attributes after reduction

        表7 辨識集的運(yùn)行時間Table 7 Running time of identification data set ms

        表6為CDG2算法和CDG算法對10個數(shù)據(jù)集具體的約簡結(jié)果。從表中可以看出,本文提出的CDG2算法和CDG算法都可以獲得極小的屬性子集,CDG2算法在獲得的極小屬性子集的數(shù)目上也保持著優(yōu)勢,實(shí)際上它們均能獲得一個真正的約簡集。

        表8為CDG2算法和CDG算法在8個數(shù)據(jù)集上產(chǎn)生約簡集的運(yùn)行時間。從表中可以看出,本研究提出的CDG2算法在Aggregation 數(shù)據(jù)集上得到約簡集的時間是CDG 算法的14.24%,在Car 數(shù)據(jù)集上得到約簡集的時間是CDG算法的21.23%,在Glass數(shù)據(jù)集上得到約簡集的時間優(yōu)勢更加明顯。由此可見,CDG2算法計算約簡運(yùn)行時間均小于CDG算法,這些數(shù)據(jù)結(jié)果進(jìn)一步表明CDG2算法是一種高效的屬性約簡方法。綜上可知,CDG2算法優(yōu)于CDG算法。

        表8 約簡集的運(yùn)行時間Table 8 Running time of reduced set ms

        4 結(jié)論

        屬性約簡是粗糙集領(lǐng)域重要的研究內(nèi)容之一。本研究提出了一個基于圖的覆蓋決策信息系統(tǒng)屬性約簡的貪心算法,該算法可以直接處理數(shù)值型數(shù)據(jù)。此外,與文獻(xiàn)[16]的CDG算法相比,CDG2算法方法更適合處理高維大數(shù)據(jù)集,同時,CDG2算法有較低的時間復(fù)雜度,并通過實(shí)例和數(shù)值型實(shí)驗(yàn)驗(yàn)證了該算法的有效性,該方法可以看作是一種局部逼近最優(yōu)的特征選擇策略。然而,如何進(jìn)一步獲得最小頂點(diǎn)覆蓋以生成一個盡可能接近最優(yōu)解的最小特征子集,這是我們后續(xù)的主要研究方向之一。

        猜你喜歡
        定義
        以愛之名,定義成長
        活用定義巧解統(tǒng)計概率解答題
        例談橢圓的定義及其應(yīng)用
        題在書外 根在書中——圓錐曲線第三定義在教材和高考中的滲透
        永遠(yuǎn)不要用“起點(diǎn)”定義自己
        海峽姐妹(2020年9期)2021-01-04 01:35:44
        嚴(yán)昊:不定義終點(diǎn) 一直在路上
        華人時刊(2020年13期)2020-09-25 08:21:32
        定義“風(fēng)格”
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        有壹手——重新定義快修連鎖
        修辭學(xué)的重大定義
        亚洲制服无码一区二区三区| 亚洲精品字幕在线观看| 国产免费牲交视频| 加勒比hezyo黑人专区| 99久久婷婷国产综合精品青草免费| 97人人超碰国产精品最新| 特级婬片国产高清视频| 国产精品99久久久久久宅男| 久热这里只有精品99国产| 日本a在线免费观看| 高跟丝袜一区二区三区| 蜜桃av噜噜一区二区三区免费| 国产91在线播放九色快色 | 高清在线亚洲中文精品视频| 久久免费精品视频老逼| 91精品国产综合久久国产| 日本二区在线视频观看| 精品人无码一区二区三区| 粗大的内捧猛烈进出小视频| 亚洲精品一区二区| 五十路熟女一区二区三区| 中文字幕久久久久久精| 国产亚洲精品综合99久久| 久久99免费精品国产| 国产精品高清一区二区三区不卡| 亚洲精品天堂成人片av在线播放| 毛片网站视频| 精品国产迪丽热巴在线| 国产激情在线观看免费视频| 三级全黄裸体| 粗大的内捧猛烈进出视频| 欧美俄罗斯乱妇| 久久久调教亚洲| 亚洲国产精品成人一区二区在线| 天堂视频在线观看一二区| 精品国产一区二区三区av性色| 国产免费丝袜调教视频| 亚洲国产午夜精品乱码| 激情综合网缴情五月天| 国产自拍av在线观看| 国产欧美日韩精品丝袜高跟鞋|