亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低秩約束的非線性屬性選擇算法

        2019-01-07 12:23:28張樂園李佳燁李鵬清
        計算機應(yīng)用 2018年12期
        關(guān)鍵詞:維空間范數(shù)線性

        張樂園,李佳燁,李鵬清

        (廣西師范大學(xué) 計算機科學(xué)與信息工程學(xué)院,廣西 桂林 541004))(*通信作者電子郵箱zhang7681193@163.com)

        0 引言

        圖像處理[1-2]和數(shù)據(jù)挖掘等領(lǐng)域常用高維的矩陣來存儲數(shù)據(jù)[3]。高維的矩陣在存儲大量信息的同時,也會帶來屬性冗余、占用大量存儲空間等問題。為了能夠提取這些數(shù)據(jù)的有效信息,并提升處理效率,需要對這些數(shù)據(jù)進行預(yù)處理。因此屬性約簡成為了越來越重要的一個研究領(lǐng)域[4]。

        屬性選擇是常見的屬性約簡方法。它主要是按照某種標(biāo)準(zhǔn)從紛繁雜亂的屬性中選出能夠最好表示出數(shù)據(jù)的原始屬性的子集。屬性選擇廣泛應(yīng)用于模式識別、機器學(xué)習(xí)以及其他領(lǐng)域中[5-6]。之前的大部分研究都是基于線性條件下的屬性選擇,然而現(xiàn)實生活中的數(shù)據(jù)之間往往不是恰好線性的關(guān)系,有時需要去更多地考慮數(shù)據(jù)之間的非線性關(guān)系,因此可以引入核函數(shù)來實現(xiàn)非線性的屬性選擇[7]。

        本文提出了一種基于核函數(shù)的屬性自表達(dá)無監(jiān)督屬性選擇算法——低秩約束的非線性屬性選擇算法(Low Rank Non-linear Feature Selection algroithm, LRNFS)。首先,用核函數(shù)將數(shù)據(jù)的每個屬性映射到核空間上,在核空間中這些數(shù)據(jù)是線性可分的,然后在核空間上進行線性屬性選擇,即相當(dāng)于進行了非線性屬性選擇[8]。其次用得到的屬性核矩陣去作屬性選擇,同時通過屬性自表達(dá)和偏差項得到一個自表達(dá)矩陣[9],去解決無監(jiān)督屬性選擇方法中無類標(biāo)簽的問題;然后在線性回歸的模型框架中進行低秩屬性選擇,其中低秩屬性選擇運用了稀疏(利用l2,1-范數(shù)來去除冗余的屬性)和低秩(假設(shè)矩陣具有低秩,以此來排除噪聲的干擾)兩種方法[9]。最后,提出一種新的優(yōu)化方法,即對目標(biāo)函數(shù)按順序迭代執(zhí)行低秩屬性選擇和l1-范數(shù)處理[10]的優(yōu)化求解算法,不斷交替迭代使得結(jié)果達(dá)到最優(yōu),最終取得全局最優(yōu)解。由于本文引入了核函數(shù)進行非線性屬性選擇,所以比一般的線性屬性選擇學(xué)習(xí)方法具有更好的效果。實驗結(jié)果表明,所提算法在分類準(zhǔn)確率上能夠達(dá)到較好的效果。

        1 相關(guān)工作

        參考模式識別理論[11]可知,低維空間中線性不可分的數(shù)據(jù)可以通過映射到高維空間中去實現(xiàn)線性可分。但是如果直接將低維數(shù)據(jù)映射到高維空間上進行機器學(xué)習(xí)的相關(guān)工作,將在高維空間上運算中出現(xiàn)“維數(shù)災(zāi)難”[12],因此引入核函數(shù)這一概念來降低其計算復(fù)雜度。

        設(shè)x,z∈X,X?Rn,非線性函數(shù)Φ實現(xiàn)低維數(shù)據(jù)集X到高維空間F上的映射,這里F?Rm,n?m。由核方法可得:

        K(x,z)=〈Φ(x),Φ(z)〉

        (1)

        其中:〈,〉為內(nèi)積;K(x,z)為核函數(shù)。引入式(1)中核函數(shù)可以巧妙地把高維空間上的內(nèi)積運算轉(zhuǎn)化成低維空間上的計算,因此可以避免高維空間中高計算復(fù)雜度等問題,這樣可以實現(xiàn)在高維空間中的一些機器學(xué)習(xí)問題。

        依據(jù)Mercer定理,去確定一個核函數(shù)并不難[11]。常用的核函數(shù)有如下幾種:

        1)高斯核函數(shù)K(x,xi)=exp(-‖x-xi‖2/(2σ2));

        2)多項式核函數(shù)K(x,xi)=(x·xi+1)d,d=1,2,…,N;

        3)感知器核函數(shù)K(x,xi)=tanh(βxi+b);

        4)樣條核函數(shù)K(x,xi)=B2n+1(x-xi)。

        目前,核函數(shù)在機器學(xué)習(xí)領(lǐng)域已經(jīng)得到廣泛的應(yīng)用,它具有以下優(yōu)點:

        1)避免了“維數(shù)災(zāi)難”,降低了計算復(fù)雜度;

        2)函數(shù)Φ的具體形式和參數(shù)不需要知道;

        3)核函數(shù)通過其形式和具體參數(shù)的調(diào)整可以改變低維空間到高維核空間的映射,從而對高維核空間的性質(zhì)產(chǎn)生影響,最終改變各種核方法的性能;

        4)核方法可以應(yīng)用到不同的算法中,從而將一些線性算法轉(zhuǎn)換為非線性的算法,并且可以對于不同的應(yīng)用選取不同的核函數(shù)。

        2 算法介紹與優(yōu)化

        2.1 符號表示

        用K(i)表示第i個屬性映射到高維核空間上所對應(yīng)的核矩陣。對于一個矩陣X=[xij],它的第i行和第j列表示為Xi和Xj。矩陣X的跡表示為tr(X),XT代表矩陣X的轉(zhuǎn)置。同時,把矩陣X的Frobenius范數(shù)和l2,p-范數(shù)分別表示為:

        2.2 LRNFS

        一般情況下,作屬性選擇時,通常把一個數(shù)據(jù)集表示為X∈Rn×d的形式,在有監(jiān)督學(xué)習(xí)情況下,屬性選擇模型[9]為:

        (2)

        其中φ(W)是關(guān)于W的正則化因子。大部分情況下,數(shù)據(jù)之間的關(guān)系都不剛好是線性關(guān)系,式(2)通常不能表示出數(shù)據(jù)之間的非線性關(guān)系,因此需要引入核函數(shù)來對本文的目標(biāo)函數(shù)來進行改進。

        參考廣義多核學(xué)習(xí)(Generalized Multiple Kernel Learning, GMKL)算法[8],上面目標(biāo)函數(shù)可以變成:

        K(i)∈Rn×n,Y∈Rn×c,W∈Rn×c,α∈Rd×1

        (3)

        這樣,W并不能起到對屬性進行選擇的作用,所以需要引入新的屬性選擇系數(shù)向量α,因此這里對W不用l2,1-范數(shù),而是用l2-范數(shù),它比較容易優(yōu)化。對于α用一個l1-范數(shù)去得到稀疏的結(jié)果,顯然,α是一個有d個元素的向量。如果α某個位置是0,對應(yīng)X的那個屬性就是被當(dāng)作冗余的屬性。

        式(3)中的模型將數(shù)據(jù)的相似性和選擇特征一起考慮。盡管它被廣泛應(yīng)用于許多屬性選擇方法中,但很難去選擇合適的響應(yīng)矩陣。由于屬性的自表征性質(zhì)的存在,本文提出了一個用于無監(jiān)督屬性選擇的的正則化自表征模型。本文提出的模型簡單地利用矩陣X作為響應(yīng)矩陣,每個屬性可以被所有屬性很好地表示出來。對于每個X中屬性fi,將其表示為其他屬性的線性組合:

        (4)

        那么對于所有屬性有:

        (5)

        通過將每個屬性作為一項任務(wù)去預(yù)測,并使用l2,p-范數(shù)正則化項去約束任務(wù)之間的稀疏性。然后,定義了一個新的屬性自表征目標(biāo)函數(shù)如下:

        λ2‖α‖1}

        (6)

        其中:λ1和λ2是控制參數(shù),分別去影響系數(shù)矩陣W和向量α的稀疏性;l1-范數(shù)正則化項‖α‖1同時懲罰α中所有的元素去實現(xiàn)在屬性選擇向量α的稀疏來作出屬性的選擇和不選擇的決定;p(0

        在實際應(yīng)用中,通常會發(fā)現(xiàn)噪聲或異常數(shù)據(jù)會增加自表征系數(shù)矩陣的秩[13],所以,低秩約束在處理高維數(shù)據(jù)時就顯得特別合理。對W的秩施加約束[13],即:

        rank(W)=r;r≤min(n,d)

        (7)

        其中:n和d分別是樣本和屬性的數(shù)量。這樣,對于W的低秩約束可以自然地表示為如下兩個r秩矩陣的乘積:

        W=AB

        (8)

        其中:A∈Rd×r,B∈Rr×d。那么最終的目標(biāo)函數(shù)變?yōu)椋?/p>

        λ2‖α‖1}

        (9)

        其中:X∈Rd×r;λ1、λ2都是可調(diào)節(jié)參數(shù)。

        2.3 優(yōu)化過程

        這一節(jié)給出目標(biāo)函數(shù)式(9)的優(yōu)化過程。由于本文用l2,p-范數(shù)去除異常值樣本以及用l1-范數(shù)去實現(xiàn)屬性選擇,目標(biāo)函數(shù)不能求出一個閉式解。同時,對于4個變量A、B、b、α,目標(biāo)函數(shù)不是共凸的。因此,參照具有收斂速度快、逼近真實值等優(yōu)點的迭代重新加權(quán)最小二乘法(Iteratively Re-weighted Least Squares, IRLS)[14]的思想,本文提出了一種新的用A、B、b、α迭代優(yōu)化的方法。詳細(xì)地說,本文迭代地執(zhí)行以下三個步驟直到滿足預(yù)定條件。

        1)用固定的α、A、B更新b。

        當(dāng)α、A、B被固定,目標(biāo)函數(shù)式(9)中的后面兩項都可以被看作常數(shù),其關(guān)于b的導(dǎo)數(shù)自然為0。將目標(biāo)函數(shù)式(9)對b進行求導(dǎo),令其為0:

        (10)

        經(jīng)過簡單計算得出:

        b=(eTX-eTZAB)/n

        (11)

        2)用固定的α、b更新A、B。

        把式(11)帶入式(9)可以得到:

        λ1‖AB‖2,p}

        (12)

        令H=In-eeT/n,H∈Rn×n,In∈Rn×n是一個單位矩陣,式(12)可以重寫為:

        (13)

        λ1tr(BTATQAB)

        (14)

        式中:P∈Rn×n,Q∈Rd×d,是兩個對角矩陣。其中:

        i=1,2,…,n,0

        (15)

        (16)

        對B求導(dǎo),令其為0可以得到:

        B=(AT(ZTHTPHZ+λ1Q)A)-1ATZTHTPHX

        (17)

        把式(17)代入式(14)可得:

        λ1Q)A)-1ATZTHTPHXXTHTPTHZA

        (18)

        注意到:

        St=ZTHTPHZ+λ1Q

        (19)

        Sb=ZTHTPHXXTHTPTHZ

        (20)

        式中:St和Sb分別是線性判別分析(Linear Discriminant Analysis, LDA)中定義的總類散布矩陣和類間散布矩陣。因此式(18)的解可以寫成:

        (21)

        3)用固定的A、B、b更新α。

        (22)

        令K(i)W=Q(i)∈Rn×d,式(22)等價為:

        λ2‖α‖1}

        (23)

        (24)

        λ2‖α‖1}

        (25)

        (26)

        (27)

        令:

        式(27)可以記為:

        F(α)=f(α)+λ2‖α‖1

        (28)

        α的l1-范數(shù)使用一般的方法并不能得優(yōu)化出來,這里使用加速近端梯度下降(Accelerated Proximal Gradient Descent, APGD)算法[10,15]來對α的l1-范數(shù)進行優(yōu)化求解,具體過程如下:

        (29)

        Gηt(α,αt)=f(αt)+〈▽f(αt),α-αt〉+

        ηt‖α-αt‖2/2+λ2‖α‖1

        (30)

        λ2‖α‖1/ηt}

        (31)

        令Ut=αt-▽f(αt)/ηt,有:

        λ2‖α‖1/ηt}

        (32)

        令αi表示α的i第個分量,將式(31)按照分量展開可以看出,其中不存在αiαj(i≠j)這樣的項,所以式(31)有如下閉式解:

        (33)

        同時,為了加速式(29)中的近似梯度法,本文進一步引入輔助變量V(t+1),即:

        V(t+1)=α(t)+(α(t+1)-α(t))(β(t)-1)/

        β(t+1)

        (34)

        其中系數(shù)β(t+1)通常設(shè)置為:

        (35)

        至此,對于目標(biāo)函數(shù)式(9)的優(yōu)化已經(jīng)完成,可由下面的算法1給出其具體的偽代碼。

        算法1 求解式(9)的偽代碼。

        輸入η(0),β(1)=1,γ,X∈Rn×d,λ1,λ2,p,r;

        輸出α。

        初始化t=1;

        隨機初始化α(1)∈Rd×1,P(1)為一個n×n對角陣,Q(1)為一

        個d×d對角陣,令V(1)=α(1);

        repeat;

        更新A(k+1)基于式(21);

        更新B(k+1)基于式(17);

        更新b(k+1)基于式(11);

        計算P(k+1)基于式(15);

        計算Q(k+1)基于式(16);

        whileF(α(t))>Gη(t-1)(πη(t-1))(α(t),α(t)) do

        setη(t-1)=γη(t-1);

        end while

        setη(t)=η(t-1);

        計算β(t+1)基于式(35);

        計算V(t+1)基于式(34);

        t=t+1;

        unitil式(9)收斂。

        2.4 收斂性證明

        下面說明α優(yōu)化的收斂性。

        定理1 設(shè){α(t)}是由算法1產(chǎn)生的序列,那么對于?t≥1,式(36)成立:

        (36)

        定理1的證明詳見文獻(xiàn)[16]。定理1表明本文所用的加速近似梯度算法的收斂率為O(1/t2),其中t是算法1的迭代次數(shù)。

        接下來可以證明式(13)中的目標(biāo)函數(shù)值在每次迭代中單調(diào)遞減。目標(biāo)函數(shù)式(13)等價于:

        λ1tr(BTATQAB)

        (37)

        即要證明:

        tr((HX-HZA(t+1)B(t+1))TP(t)(HX-HZA(t+1)B(t+1)))+

        λ1tr((B(t+1))T(A(t+1))TQA(t+1)B(t+1))≤

        tr((HX-HZA(t+1)B(t+1))TP(t)(HX-HZA(t)B(t)))+

        λ1tr((B(t))T(A(t))TQA(t)B(t))

        (38)

        令Y=HX-HZAB,然后可以得到:

        (39)

        對于每個i,能夠得到如下不等式:

        (40)

        對于每個j,可以得到:

        (41)

        由式(40)和式(41)可得:

        (42)

        然后合并式(39)和式(42)可得:

        (43)

        得證

        通過上面分析可以看出,每次迭代過程中目標(biāo)函數(shù)式(9)的值是單調(diào)遞減的,同時目標(biāo)函數(shù)式(9)對于A、B、b是凸函數(shù),因此依據(jù)式(38)以及定理1可以得出目標(biāo)函數(shù)式(9)會逐漸收斂到全局最優(yōu)解。

        3 實驗結(jié)果及分析

        3.1 實驗數(shù)據(jù)集和對比算法

        本文在6個數(shù)據(jù)集[17]上測試所提出的屬性選擇算法的性能,Glass、Hill-Valley1(含有大量噪聲)、Hill-valley2(沒有噪聲)、Yale、Colon、Arrhythmia數(shù)據(jù)集詳情如表1所示。

        所有實驗均在Windows 7系統(tǒng)下使用Matlab 2014a軟件進行測試。選擇5種對比算法來與本文算法LRNFS進行比較,有:

        1)LDA[18]:是一種全局子空間學(xué)習(xí)方法,旨在最大限度地減少類間距離,同時在進行特征選擇時最大化類間距離。

        2)結(jié)構(gòu)化最優(yōu)圖特征選擇(Structured Optimal Graph Feature Selection, SOGFS)算法[19]:給出了一種進行特征選擇和保持局部結(jié)構(gòu)學(xué)習(xí)的無監(jiān)督屬性選擇算法,同時適應(yīng)性地去確定相似度矩陣,對相似度矩陣的限制可以保留更多的數(shù)據(jù)結(jié)構(gòu)的信息。

        3)重新調(diào)整的線性平方回歸(Rescaled Linear Square Regression, RLSR)算法[20]:提出了一種可以學(xué)習(xí)投影矩陣的全局和稀疏解的新型半監(jiān)督特征選擇方法,在最小二乘回歸中用一組比例因子調(diào)整回歸系數(shù),這些比例因子用于對各屬性進行排名。

        4)正則化自表征(Regularized Self-Representation, RSR)算法[21]:通過范數(shù)來規(guī)范化自表征系數(shù)矩陣以選擇具有代表性的屬性,并確保對離群點的健壯性。

        5)希爾伯特-施密特獨立標(biāo)準(zhǔn)壓縮(Hilbert-Schmidt Independence Criterion Lasso, HSICLasso)估計算法[22]:通過核函數(shù)的映射使得數(shù)據(jù)線性可分,同時用Lasso來對屬性權(quán)重向量進行稀疏,從而實現(xiàn)屬性約簡。

        3.2 結(jié)果分析

        本文采用分類準(zhǔn)確率作為評價指標(biāo),分類準(zhǔn)確率越高表示算法效果越好,并且引入P_value進行算法之間的顯著性差異分析。實驗通過10折交叉驗證的方法把原始數(shù)據(jù)劃分為訓(xùn)練集和測試集,再使用LIBSVM工具箱[23]在支持向量機(Support Vector Machine, SVM)上對使用各算法進行屬性選擇之后的數(shù)據(jù)集進行分類,得出其分類準(zhǔn)確率。對于每個算法在每個數(shù)據(jù)集上進行10次實驗并取10次實驗結(jié)果的均值作為最終的分類準(zhǔn)確率,這樣可以降低實驗過程中的偶然性,并取其標(biāo)準(zhǔn)差來預(yù)測模型的穩(wěn)定性。

        表1 實驗中使用的數(shù)據(jù)集Tab. 1 Datasets used in the experiment

        在各數(shù)據(jù)集上不同算法進行屬性選擇之后的分類準(zhǔn)確率如圖1所示。由圖1可以看出,LRNFS在絕大多數(shù)情況下是優(yōu)于對比算法的。由于Hill-Valley1數(shù)據(jù)集中含有大量噪聲,所以各算法的分類準(zhǔn)確率的波動比較大,導(dǎo)致有部分實驗中效果比對比算法略差,但整體還是優(yōu)于對比算法的,這點在表2中可以證實。

        圖1 不同數(shù)據(jù)集上各算法的實驗結(jié)果Fig. 1 Experimental results of different algorithms on different datasets表2 不同屬性選擇算法在不同數(shù)據(jù)集上的分類準(zhǔn)確率Tab. 2 Classification accuracy of different feature selection algorithms on different data sets

        算法分類準(zhǔn)確率均值/%glassHill-Valley1Hill-valley2YalecolonArrhythmia分類準(zhǔn)確率標(biāo)準(zhǔn)差/%glassHill-Valley1Hill-valley2YalecolonArrhythmia平均準(zhǔn)確率均值/%平均準(zhǔn)確率標(biāo)準(zhǔn)差/%P_valueLDA69.6172.3475.0074.3664.5554.710.902.502.151.310.200.2168.431.200.0541SOGFS69.8172.3481.9073.5884.4070.531.002.501.041.070.870.9075.431.230.0030RLSR70.3972.5880.0973.5284.1070.570.961.421.421.581.190.6975.211.210.0046RSR70.1671.7381.5073.3984.2470.331.463.121.291.881.300.6275.231.610.0023HSICLasso68.0275.5680.9475.0983.2168.351.260.790.420.771.530.7175.200.910.0622LRNFS71.5774.1083.0876.2985.1071.671.282.821.151.221.080.5176.971.34—

        各屬性選擇算法在不同數(shù)據(jù)集上的分類準(zhǔn)確率如表2所示。從表2可以看出,LRNFS的平均分類準(zhǔn)確率較傳統(tǒng)的LDA提升了12.48%,較SOGFS提升了2.04%,較RLSR提升了2.34%,較RSR和HSICLasso分別提升了2.31%和2.35%。SOGFS、RLSR和RSR均是近幾年性能較優(yōu)的屬性選擇算法,在使用徑向基函數(shù)(Radial Basis Function, RBF)核的SVM的情況下,本文方法的分類準(zhǔn)確率得到了明顯的提升。由此可以看出,LRNFS在屬性選擇的時候擁有較優(yōu)的性能。從P_value可以看出,由于LRNFS采用了LDA思想和HSICLasso中核函數(shù)方法,所以其P_value值分別達(dá)到了0.054 1和0.062 2,而與其余對比算法的P_value都在0.01以下。

        4 結(jié)語

        本文在線性屬性選擇的基礎(chǔ)上引入核函數(shù),考慮了數(shù)據(jù)之間的非線性關(guān)系,并解決了數(shù)據(jù)在低維特征空間上線性不可分的問題,提升了屬性選擇的準(zhǔn)確率。但引入核函數(shù)的同時,計算復(fù)雜度增加了,這是需要進一步解決的問題,而且通過實驗結(jié)果可以看出,LRNFS的魯棒性還有待提升。接下來的工作中,將拓展LRNFS為半監(jiān)督屬性選擇算法,并逐步改進其計算復(fù)雜度和魯棒性。

        猜你喜歡
        維空間范數(shù)線性
        漸近線性Klein-Gordon-Maxwell系統(tǒng)正解的存在性
        線性回歸方程的求解與應(yīng)用
        Update on Fengyun Meteorological Satellite Program and Development*
        二階線性微分方程的解法
        基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
        矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
        從零維到十維的空間之旅
        十維空間的來訪者
        一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
        具有θ型C-Z核的多線性奇異積分的有界性
        麻豆视频在线播放观看| 亚洲精品一二区| 久久精品国产精品亚洲婷婷| 美女一区二区三区在线观看视频| 蜜桃视频在线在线观看| 久久综合九色欧美综合狠狠| 精品无码国产自产拍在线观看蜜| 236宅宅理论片免费| 色婷婷丁香综合激情| 国产精品自拍网站在线| 亚洲人妻调教中文字幕| 高清偷自拍亚洲精品三区| 日韩内射美女人妻一区二区三区| 久久夜色精品国产亚洲噜噜| 人妻av中文字幕精品久久| 少妇免费av一区二区三区久久| 女人被男人爽到呻吟的视频| 国产精品熟女一区二区| 娇柔白嫩呻吟人妻尤物| 日本高清无卡一区二区三区| 97cp在线视频免费观看| 精品免费久久久久久久| 精品一品国产午夜福利视频| 亚洲精品国产熟女久久| 亚洲丰满熟女一区二亚洲亚洲 | 亚洲第一狼人天堂网亚洲av| 国产精品亚洲一区二区三区在线| 国产高潮精品久久AV无码| 亚洲中国美女精品久久久| 蜜桃臀av一区二区三区| 99久久精品免费观看国产| 国产激情з∠视频一区二区| 最大色网男人的av天堂| 日韩精品视频高清在线| 人妻丰满熟妇无码区免费| 免费人成年小说在线观看| 久久精品国产一区二区涩涩| 日韩人妻系列在线观看| 香港三级日本三级a视频| 国产免费破外女真实出血视频 | 久久久久亚洲av无码专区|