亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        半監(jiān)督類保持局部線性嵌入方法

        2021-06-10 17:13:24鄧廷權(quán)王強(qiáng)
        智能系統(tǒng)學(xué)報 2021年1期
        關(guān)鍵詞:特征提取監(jiān)督信息

        鄧廷權(quán),王強(qiáng)

        (哈爾濱工程大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,黑龍江 哈爾濱 150001)

        隨著信息科技的迅速發(fā)展,數(shù)據(jù)規(guī)模的爆炸式增長成為了大數(shù)據(jù)時代的主要特征之一。在此時代背景下,數(shù)據(jù)通常具有維數(shù)高和稀疏性等特點(diǎn),為數(shù)據(jù)挖掘帶來了空前的挑戰(zhàn)。特征提取作為處理高維數(shù)據(jù)的有效手段,通過提取數(shù)據(jù)的低維特性,可以將高維特征空間映射到低維特征空間中進(jìn)行數(shù)據(jù)的分析和處理,通常分為線性特征提取和非線性特征提取2種方式。非線性特征提取不依賴于線性假設(shè),對于處理非線性結(jié)構(gòu)的數(shù)據(jù)效果較好,成為當(dāng)前數(shù)據(jù)挖掘的熱門方向之一。流形學(xué)習(xí)[1-6]作為一種非線性特征提取方法,應(yīng)用了流形在局部結(jié)構(gòu)上與歐氏空間同胚的性質(zhì)。通過對高維數(shù)據(jù)樣本的分析來挖掘隱藏的本質(zhì)結(jié)構(gòu),從而提取有效的低維特征。然而,流形學(xué)習(xí)方法仍然存在一些不足,例如:流形學(xué)習(xí)方法忽略了數(shù)據(jù)的類別標(biāo)記信息,提取的特征并不是分類上的最優(yōu)特征。因此,忽略標(biāo)記信息而提取到的特征在進(jìn)行數(shù)據(jù)聚類或分類時,結(jié)果往往與實際存在較大差異。所以希望可以使用半監(jiān)督[7-14]的方法進(jìn)行學(xué)習(xí),即少量標(biāo)記信息來指導(dǎo)特征提取,同時又使用大量無標(biāo)記信息的數(shù)據(jù)點(diǎn)來刻畫并保持樣本的局部或全局幾何、線性等結(jié)構(gòu)。

        局部線性嵌入(LLE)[15]是一種無監(jiān)督[16]的流形學(xué)習(xí)方法,直接用它提取的特征進(jìn)行數(shù)據(jù)挖掘如聚類或分類得到的結(jié)果并不是很理想。因此我們希望將數(shù)據(jù)集的標(biāo)記信息引入到LLE方法中用以提高特征提取效果。而已有的一些半監(jiān)督方法,例如半監(jiān)督局部線性嵌入方法(semi-supervised locally linear embedding, SSLLE)雖然利用了標(biāo)記信息對特征提取進(jìn)行一定的改進(jìn),但它只考慮了近鄰點(diǎn)的標(biāo)記信息做局部調(diào)整,因此當(dāng)整體標(biāo)記信息較低時每個近鄰中將有可能出現(xiàn)沒有標(biāo)記點(diǎn)的情況。這時SSLLE將失去作用并且由于它只考慮近鄰的這種調(diào)整,當(dāng)標(biāo)記信息很多時它們整體的區(qū)分度也不大。本文在LLE的基礎(chǔ)上利用近鄰偽標(biāo)簽賦予得到的標(biāo)記信息作局部調(diào)整,同時從全局[17]角度對同類數(shù)據(jù)點(diǎn)和異類數(shù)據(jù)點(diǎn)進(jìn)行全局調(diào)整,使得重構(gòu)數(shù)據(jù)低維特征空間時,既保持局部線性結(jié)構(gòu),又能使提取后的數(shù)據(jù)在低維特征空間中可以實現(xiàn)具有相同標(biāo)記信息的數(shù)據(jù)點(diǎn)互相靠近,而標(biāo)記不同的數(shù)據(jù)點(diǎn)彼此分離,從而達(dá)到更好的特征提取結(jié)果。最后通過聚類分析及可視化證明本文方法的有效性。

        1 局部線性嵌入

        由Roweis等提出的LLE是一個經(jīng)典的保持局部線性特性的流形學(xué)習(xí)方法,可以有效提取高維數(shù)據(jù)的低維特征。其基本原理為:假設(shè)數(shù)據(jù)是分布在一個流形上的,任一點(diǎn)均可用它的近鄰點(diǎn)經(jīng)由線性重構(gòu)而得到?;诰植烤€性表示系數(shù),構(gòu)造優(yōu)化問題使得數(shù)據(jù)在高維原始空間到低維特征空間的過程中局部線性重構(gòu)權(quán)值不發(fā)生變化,獲得高維數(shù)據(jù)的低維特征。

        假設(shè)數(shù)據(jù)集X={x1,x2,···,xn} 中有n個樣本點(diǎn)為特征提取后獲得的n個低維特征矩陣,

        對于每個數(shù)據(jù)點(diǎn),計算每一個數(shù)據(jù)點(diǎn)xi到其它點(diǎn)的歐氏距離,找到最近的k個點(diǎn)作為該數(shù)據(jù)樣本的近鄰,確定數(shù)據(jù)的k近鄰域。也可采用ε鄰域方法確定數(shù)據(jù)的近鄰點(diǎn)。

        假設(shè)任一點(diǎn)xi都可用它的k近鄰?fù)ㄟ^線性權(quán)值加權(quán)來得到,由以下優(yōu)化問題求解線性重構(gòu)的權(quán)矩陣為

        容易獲得優(yōu)化問題式(1)的最優(yōu)解:

        基于局部線性重構(gòu)矩陣式(2),構(gòu)造優(yōu)化問題:

        獲得高維數(shù)據(jù)X的低維嵌入

        根據(jù)樣本的鄰域點(diǎn)分布將k維行向量wi擴(kuò)充成n維行向量則優(yōu)化問題式(3)的目標(biāo)函數(shù)可化簡為

        采用拉格朗日乘子法求解優(yōu)化問題式(3),可得MY=λY。即式(3)可轉(zhuǎn)化為求特征值問題。實對稱半正定矩陣M的最小d個非0特征值對應(yīng)的特征向量按列排列時,每行做成的向量的就是對應(yīng)數(shù)據(jù)的低維特征yi。

        2 半監(jiān)督類保持局部線性嵌入方法

        在數(shù)據(jù)挖掘任務(wù)中,監(jiān)督信息為用戶提供強(qiáng)有力的數(shù)據(jù)分析基礎(chǔ)。然而,眾多實際問題只能獲得少量樣本的監(jiān)督標(biāo)記。半監(jiān)督機(jī)器學(xué)習(xí)方法應(yīng)運(yùn)而生。

        LLE是一種經(jīng)典的無監(jiān)督高維數(shù)據(jù)特征提取方法。本文在LLE基礎(chǔ)上提出一種半監(jiān)督類保持局部線性嵌入方法(SSCLLE)。該方法不僅利用近鄰偽標(biāo)簽賦予得到的標(biāo)記信息調(diào)整近鄰數(shù)據(jù)間的距離,而且從全局角度加入了同類數(shù)據(jù)點(diǎn)和異類數(shù)據(jù)點(diǎn)的全局約束,使提取后的數(shù)據(jù)在低維特征空間中可以實現(xiàn)具有相同標(biāo)記信息的數(shù)據(jù)點(diǎn)互相靠近,而標(biāo)號不同的數(shù)據(jù)點(diǎn)彼此分離,達(dá)到更好的特征提取效果。

        假設(shè)X是一個半監(jiān)督數(shù)據(jù)集,其中少部分?jǐn)?shù)據(jù)樣本帶有標(biāo)記(類別標(biāo)簽)。記Xc是有標(biāo)簽的數(shù)據(jù)組成的集合,l(x)∈{1,2,···,f} 是Xc中各數(shù)據(jù)點(diǎn)所對應(yīng)的標(biāo)簽,L={l(x1),l(x2),···,l(xs)},f是數(shù)據(jù)集的類數(shù)。

        一般情況下,Xc中的樣本量較少。在流形學(xué)習(xí)中,少量監(jiān)督樣本不能全面描述和刻畫數(shù)據(jù)的局部和全局流形結(jié)構(gòu),致使學(xué)習(xí)到的特征不能準(zhǔn)確反映數(shù)據(jù)的內(nèi)在特性。本文給出一種近鄰偽標(biāo)簽賦予的方法,給部分未標(biāo)記樣本賦予偽標(biāo)簽,增大標(biāo)記樣本量。

        將所有標(biāo)記樣本Xc的各自近鄰中的未標(biāo)記點(diǎn)設(shè)置與標(biāo)記點(diǎn)相同的初標(biāo)簽,然后對這些初標(biāo)簽點(diǎn)進(jìn)行篩選。如果這個未標(biāo)記點(diǎn)只賦予了一個標(biāo)簽,則將此標(biāo)簽設(shè)定為這個點(diǎn)的偽標(biāo)簽。如果這個未標(biāo)記點(diǎn)有2個以上的偽標(biāo)簽,把這個點(diǎn)的所有初標(biāo)簽都去掉,該點(diǎn)依然設(shè)定為未標(biāo)記點(diǎn),如圖1所示。

        圖1 近鄰偽標(biāo)簽賦值方法示意Fig. 1 Schematic diagram of nearest neighbor pseudo label assignment method

        在圖1的左圖中,紅色和綠色的點(diǎn)分別代表標(biāo)記點(diǎn)(2類),藍(lán)色是無標(biāo)簽的點(diǎn)。經(jīng)過上述近鄰偽標(biāo)簽賦值方法后,只有一類標(biāo)記信息的近鄰點(diǎn)保留賦予的標(biāo)簽(右圖新增加的紅色點(diǎn)和綠色點(diǎn)),而有2種(或多種)標(biāo)記的近鄰點(diǎn)則依舊標(biāo)為無標(biāo)記點(diǎn),保持其藍(lán)色不變(右圖大圓中的2個藍(lán)色點(diǎn))。得到的新標(biāo)簽數(shù)據(jù)為Xw,則有標(biāo)簽的數(shù)據(jù)組成的集合為Xz=[Xc,Xw],對應(yīng)的新標(biāo)簽集合為

        新增加的偽標(biāo)簽雖然不是真實的標(biāo)簽,但由于其與被標(biāo)注樣本具有很好的近鄰關(guān)系,通過這樣的擴(kuò)充可增加標(biāo)記信息的量,有利于更好地描述數(shù)據(jù)的內(nèi)在結(jié)構(gòu),發(fā)現(xiàn)樣本中隱藏的鑒別能力。

        為了構(gòu)造出利用全局信息進(jìn)行調(diào)整的優(yōu)化問題,首先定義同類數(shù)據(jù)點(diǎn)對集合:

        和異類數(shù)據(jù)點(diǎn)對集合:

        分別構(gòu)造同類樣本項偏差和異類樣本項偏差:

        本文的目的是要求同類樣本項偏差盡量小,同時確保異類樣本項偏差盡可能的大。

        構(gòu)造半監(jiān)督數(shù)據(jù)集X中每一個數(shù)據(jù)樣本點(diǎn)的線性重構(gòu)權(quán)值。利用數(shù)據(jù)中已有的標(biāo)記信息以及新標(biāo)記的標(biāo)記信息來重新調(diào)整距離矩陣,從而使得構(gòu)造的數(shù)據(jù)點(diǎn)的鄰域更加有利于提取優(yōu)質(zhì)的特征。

        式中0<r<1。

        從式(4)可以看出,如果2個樣本有相同的類標(biāo),則將其距離縮小。如果2個樣本有不同的類標(biāo),則將其距離擴(kuò)大。在其他情況下,樣本點(diǎn)間的距離保持不變。

        再由(2)計算樣本點(diǎn)的鄰域局部線性重構(gòu)權(quán)矩陣由此利用標(biāo)記信息得到改進(jìn)后的新重構(gòu)權(quán)矩陣

        基于以上分析,構(gòu)造如下優(yōu)化問題:

        該優(yōu)化問題式(5)的目標(biāo)函數(shù)由3部分組成。第1項形式上雖然和LLE相同,但其中的重構(gòu)權(quán)矩陣包含了樣本點(diǎn)的半監(jiān)督信息,能夠確保提取出的特征既保持?jǐn)?shù)據(jù)的局部線性結(jié)構(gòu)不變,又能在局部上使類內(nèi)(同類)數(shù)據(jù)更緊密,并對類間(異類)數(shù)據(jù)進(jìn)行分離的效果。第2項和第3項分別是全局同類樣本偏差和全局異類樣本偏差,目的是確保同類樣本偏差最小,同時確保全局異類樣本偏差最大,參數(shù) α ∈(0,1) 是2個偏差項的平衡系數(shù),權(quán)衡同類樣本項和異類樣本項對目標(biāo)函數(shù)的影響。β也是一個平衡參數(shù),用于調(diào)節(jié)局部線性重構(gòu)對于目標(biāo)函數(shù)的影響。

        式(5)的約束條件與LLE相同,確保提取出的特征在低維空間中旋轉(zhuǎn)平移伸縮都具有平移和縮放不變性,其中I為d階單位矩陣。

        簡記式(5)的目標(biāo)函數(shù)為

        這樣,式(6)的第1部分形式上與LLE相同,仍可表示為

        式中的M由式(2)、(4)確定。

        為了簡化第2部分和第3部分,給定矩陣[10]則對任意均有:

        其中 矩陣,則

        則有:

        因此,優(yōu)化問題(5)的矩陣表示形式為

        式中:H=βM+αVML?(1?α)VCL; 1 =(1,1,···,1)T是一個n×1 的全1矩陣。采用拉格朗日乘子法求解,優(yōu)化問題(7)的解轉(zhuǎn)化為求解HY=λY的特征值問題。

        計算矩陣H的前d個最小非零特征值(0≠λ1≤λ2≤···≤λd) 所對應(yīng)的特征向量(列向量)vp,p=1,2,···,d,將其構(gòu)成矩陣Y=[v1v2···vp],則矩陣Y的第i行向量即為高維數(shù)據(jù)xi的低維特征yi。

        3 實驗及結(jié)果分析

        為了證明本文提出的SSCLLE的性能,在加州大學(xué)歐文分校(university of california irvine,UCI)數(shù)據(jù)集、實物數(shù)據(jù)集coil_20和手寫數(shù)字MNIST數(shù)據(jù)集上進(jìn)行實驗。實驗結(jié)果分別與經(jīng)典的無監(jiān)督流形學(xué)習(xí)方法LLE、半監(jiān)督SSLLE[18]方法,半監(jiān)督拉普拉斯特征映射(semi-supervised laplacian eigenmap, SSLE)[19]和分類約束降維方法(classification constrained dimensionality reduction,CCDR)[20]進(jìn)行實驗對比。從聚類精度和數(shù)據(jù)可視化角度對它們進(jìn)行實驗比較和分析。

        在這里簡單介紹3種半監(jiān)督方法?;贚LE提出的SSLLE,它的思想是結(jié)合數(shù)據(jù)擁有的部分標(biāo)記信息調(diào)整近鄰樣本點(diǎn)之間的距離,再利用調(diào)整后的距離來重構(gòu)權(quán)值矩陣。雖然SSLLE可以利用部分標(biāo)簽信息使得近鄰中同類數(shù)據(jù)點(diǎn)距離更近,異類數(shù)據(jù)點(diǎn)更遠(yuǎn)從而實現(xiàn)更好的分類以及聚類效果。但由于 SSLLE 方法僅對近鄰點(diǎn)之間的距離做調(diào)整,缺乏對全局同類異類點(diǎn)的考慮。當(dāng)標(biāo)記點(diǎn)較少時近鄰中可能出現(xiàn)沒有同類或異類的點(diǎn)的情況,這時 SSLLE 將失去作用。而且由于它只考慮近鄰的調(diào)整,當(dāng)標(biāo)記信息很多時它們整體的區(qū)分度也不大。

        SSLE和CCDR都是在拉普拉斯特征映射(laplacian eigenmap,LE)的基礎(chǔ)上提出的半監(jiān)督方法。在這里SSLE也是一種利用信息在局部做調(diào)整的方法,缺點(diǎn)和SSLLE類似。而CCDR是一種全局的調(diào)整,相較于SSLE有較好的提取效果。

        本文SSCLLE方法在保持局部線性結(jié)構(gòu)的同時,不僅利用標(biāo)記信息對局部做調(diào)整,同時利用全局項對全局做調(diào)整。使類內(nèi)數(shù)據(jù)更緊密,而對類間數(shù)據(jù)進(jìn)行分離。從而達(dá)到更好的特征提取效果,以下是相關(guān)的實驗驗證。

        統(tǒng)一對各方法設(shè)定參數(shù),進(jìn)行特征提取。這里用聚類精度作為評判方法有效性的指標(biāo)之一,利用模糊C均值(fuzzy c-means,F(xiàn)CM)聚類方法進(jìn)行聚類分析。關(guān)于樣本標(biāo)簽個數(shù)做以下設(shè)置:從數(shù)據(jù)集的每類樣本中隨機(jī)抽取S(S=5%,10%,···,50%)比例的數(shù)據(jù)作為已知標(biāo)簽樣本。取20次實驗的平均值作為最終的聚類精度。參數(shù)表示:近鄰個數(shù)為k,低維特征維度為d,SSLLE方法調(diào)節(jié)參數(shù)用r表示,SSLE方法中的參數(shù)用v表示,CCDR方法中的參數(shù)用u表示,本文SSCLLE方法中 α 和 β 分別用a和b表示,r與SSLLE中設(shè)置相同。

        3.1 UCI中幾個數(shù)據(jù)集

        實驗中從UCI數(shù)據(jù)庫里選3個數(shù)據(jù)集,分別為Wine數(shù)據(jù)集、Seeds數(shù)據(jù)集和WDBC(wisconsin diagnostic breast cancer)。

        然后,分別用5種方法進(jìn)行實驗比較和分析。根據(jù)特征提取的維數(shù)d做3組實驗,分別設(shè)置d的值為2、3和4。每類數(shù)據(jù)隨機(jī)標(biāo)記5%,每組實驗進(jìn)行20次,求聚類精度的平均值來評判5種方法的特征提取效果。表1~3分別是d值為2、3和4時,各方法對3個數(shù)據(jù)集進(jìn)行特征提取后得到的平均聚類精度。實驗中,將參數(shù)設(shè)置為:

        表1 數(shù)據(jù)集信息Table 1 Data set information

        表2d=2 時5種方法的平均聚類精度Table 2 Average clustering accuracy of the five methods when d=2 %

        表3d=3 時5種方法的平均聚類精度Table 3 Average clustering accuracy of the five methods when d =3 %

        由表2~4數(shù)據(jù)可知:當(dāng)特征空間的維數(shù)d為3和4時,在3個數(shù)據(jù)集上SSCLLE方法的聚類精度都比其他4種方法高,其他方法在不同數(shù)據(jù)集之間聚類精度各有高低。而當(dāng)d為2時,雖然SSCLLE方法在Seeds數(shù)據(jù)集的實驗中的聚類精度并不是全部保持最高,當(dāng)標(biāo)記比例為5%時SSLLE方法僅僅略高于本文方法,在標(biāo)記比例為15%以及另外2個數(shù)據(jù)集時SSCLLE的聚類精度最高??傮w實驗分析可知,本文提出的半監(jiān)督流形學(xué)習(xí)方法SSCLLE相比無監(jiān)督方法LLE與其他3種半監(jiān)督方法聚類精度最高,體現(xiàn)出本文方法的優(yōu)勢。

        表4d=4 時5種方法的平均聚類精度Table 4 Average clustering accuracy of the five methods when d=4 %

        對于半監(jiān)督方法來說標(biāo)記信息的多少會影響聚類的結(jié)果。這里把3組UCI數(shù)據(jù)中的每一個類標(biāo)記信息比例設(shè)置為5%、20%和40%,提取特征維數(shù)d=2。圖2為3個數(shù)據(jù)集在4種半監(jiān)督方法下的實驗結(jié)果。

        由圖2的實驗結(jié)果可以看出:3個數(shù)據(jù)集的柱狀分析圖,隨著數(shù)據(jù)的標(biāo)記比例的增加,各個半監(jiān)督方法的聚類精度也在增加,符合半監(jiān)督方法利用越多標(biāo)記信息就會提高聚類精度的設(shè)想。但明顯可以看出2種基于局部標(biāo)記信息進(jìn)行調(diào)整的方法SSLLE和SSLE,隨著標(biāo)記信息的增加聚類精度提升,相對考慮全局信息的SSCLLE與CCDR不明顯。而SSCLLE方法的聚類精度已經(jīng)達(dá)到了一個很高的值,明顯高于CCDR,所以相對沒有CCDR提升比率那么高??傮w實驗分析中可以看到,在每組實驗里SSCLLE方法的聚類精度基本都能保持最高,證明了本方法在UCI數(shù)據(jù)上的優(yōu)勢。

        圖2 標(biāo)記樣本的比例對聚類精度的影響,d=2Fig. 2 Influence of proportion of labeled samples on clustering accuracy, d=2

        3.2 實物數(shù)據(jù)集COIL _20

        這里采用哥倫比亞大學(xué)(COIL-20) 數(shù)據(jù)集中第2種(背景被丟棄,圖像由包含物體的最小正方形組成),數(shù)據(jù)集共有20種不同的物體,每種有72張圖片。每個圖片都是50×50的灰度圖像,在實驗中將每張圖片以行拉成一個2 500的向量。最后以向量集的形式進(jìn)行處理與分析。

        從數(shù)據(jù)集中按順序選取6組數(shù)據(jù),每組3類不同的物體。分組分別是{1,2,3},{4,5,6},{7,8,9},{10,11,12},{13,14,15}和{16,17,18},然后再隨機(jī)選取3組不同的數(shù)據(jù){9,7,10},{7,3,5},{4,10,1},每組運(yùn)行20次計算聚類精度。其中Group1~Group9分別對應(yīng)以上9組數(shù)據(jù),用不同方法做實驗得到聚類精度。參數(shù)設(shè)置為:k=8,d=8,r=0.5,a=1,b=10,u=1,v=0.5,標(biāo)記比例為15%,實驗結(jié)果如表5所示。

        由表5實驗結(jié)果可以看到,在這9組數(shù)據(jù)中由于SSLLE和本文方法SSCLLE都是在LLE方法上進(jìn)行的一種改進(jìn),所以它們的聚類精度都高于LLE。且本方法利用了全局標(biāo)記信息進(jìn)行調(diào)整,聚類精度明顯高于SSLLE。SSLE與CCDR都是一種在LE基礎(chǔ)上做的改進(jìn),分析數(shù)據(jù)可以看出整體上它們略低于LLE的改進(jìn)。且由于CCDR也是一種基于全局考慮標(biāo)記信息的方法,基本上聚類精度都高于SSLE。由此體現(xiàn)出基于全局角度考慮標(biāo)記信息的方法較局部效果要好,充分說明SSCLLE方法基于全局考慮的正確性。除在第6組數(shù)據(jù)中SSLLE方法的聚類精度最高外,其它組中都是本文中提出的SSCLLE方法精度最高。

        表5 COIL_20數(shù)據(jù)集在不同方法下的平均聚類精度Table 5 Average clustering accuracy of COIL_20 dataset under different methods %

        接下來隨機(jī)選出一組數(shù)據(jù)為{7,3,9},來做在不同標(biāo)簽比例下不同方法聚類精度的折線圖,參數(shù)設(shè)置為

        圖3 不同標(biāo)記比例COIL_20數(shù)據(jù)集聚類精度Fig. 3 The clustering accuracy of COIL_20 dataset under different labeling ratios

        由圖3可看出在這組數(shù)據(jù)中隨著標(biāo)記比例的增加無監(jiān)督LLE方法精度保持不變,而SSLLE與SSLE方法的聚類精度隨著標(biāo)記比例的增加只發(fā)生了波動,基本沒有體現(xiàn)出上升趨勢,說明這2種利用類信息只調(diào)節(jié)近鄰關(guān)系的方法對一些數(shù)據(jù)提取到的特征不能很好地提高可分性。而SSCLLE和CCDR方法都是考慮全局的調(diào)整,可看到聚類精度呈上升趨勢,且高于其他方法,除在5%的情況下略低于CCDR方法外,其余比例下均高于其他方法。體現(xiàn)出SSCLLE方法對近鄰及全局做調(diào)整的優(yōu)勢。

        3.3 數(shù)據(jù)可視化

        數(shù)據(jù)可視化作為一種重要的數(shù)據(jù)分析方式,相對于單純的數(shù)據(jù)表格等,可更加直觀、形象地感知或理解高維數(shù)據(jù)集的結(jié)構(gòu)分布。為驗證SSCLLE方法在可視化上的優(yōu)勢,下面隨機(jī)選取MNIST數(shù)據(jù)集中的3個手寫數(shù)字做可視化實驗。分別用LLE方法、半監(jiān)督:SSLLE、SSLE和CCDR方法,將選取的手寫數(shù)據(jù)集中3個數(shù)字提取至2維特征空間中,利用MATLAB畫圖工具進(jìn)行畫圖,同類數(shù)據(jù)點(diǎn)的顏色和形狀一樣,分別觀察5種不同的方法提取數(shù)據(jù)點(diǎn)的低維特征分布情況。手寫數(shù)字選取的是{5,6,8}每類500個點(diǎn)分別將標(biāo)記比例設(shè)為15%,參數(shù)設(shè)置為:k=8,d=2,

        圖4 手寫數(shù)字可視化Fig. 4 Visualization of Handwritten digital

        在圖4中手寫數(shù)字的5個可視化圖可以看到,無監(jiān)督的LLE中有2類數(shù)據(jù)重合部分較大區(qū)分度小,因而不利于數(shù)據(jù)的聚類分析。而基于標(biāo)記信息局部調(diào)整的SSLLE和SSLE的方法相對LLE的分離度明顯有所提升,不過依然存在重疊區(qū)域。而基于標(biāo)記信息全局調(diào)整的CCDR和本文方法SSCLLE明顯3類區(qū)分開了,SSCLLE相比CCDR的區(qū)分度更高重疊區(qū)域最小,可明顯區(qū)分出3類數(shù)據(jù)的分布。通過實驗可視化的分析,半監(jiān)督方法在數(shù)據(jù)可視化方面較無監(jiān)督方法優(yōu)勢明顯,而本文方法的可視化效果相對其他半監(jiān)督方法效果最好,證明了本文方法的優(yōu)勢。

        4 參數(shù)影響分析

        本方法中參數(shù)k、d、 α 、 β 和r對特征提取都有影響。k、d參數(shù)的選取很多學(xué)者都做過討論,這里不再贅述。本文主要討論參數(shù) α 、β 和r對特征提取的影響。 α 和r取 [ 0,1] 的實數(shù),α 用來權(quán)衡同類樣本項和異類樣本項對目標(biāo)函數(shù)的影響;β 取大于0的值,用于調(diào)節(jié)局部線性結(jié)構(gòu)對于目標(biāo)函數(shù)的影響;r的作用是為了調(diào)整標(biāo)記信息在局部所起到的影響。圖5展示了隨著 α,β 和r參數(shù)值變化,SSCLLE方法對于COIL_20中的{7,3,9}和UCI中WCBC數(shù)據(jù)集特征提取后聚類精度的結(jié)果。圖5中分別用a、b表示 α、 β。標(biāo)記比例為15%,參數(shù)設(shè)置為:在COIL_20數(shù)據(jù)中設(shè)定 α=1,b=10 ,r=0.8;在WCBC數(shù)據(jù)集中α=0.99,b=10 ,r=0.7。同時固定其中2個參數(shù)調(diào)整另一個參數(shù),記錄聚類精度的變化。

        從圖5可以看出,同類數(shù)據(jù)樣本項比異類樣本項對聚類精度起到的作用更大。標(biāo)記比例越高,異類標(biāo)記的作用會逐漸增加。在一定的標(biāo)記比例下,α 一般需要取一個較大的值。在COIL_20數(shù)據(jù)集中當(dāng) α 值為1時特征提取效果最好,而在WDBC中取值為0.99附近時效果最好。β 的取值在2個數(shù)據(jù)集中基本都為10時,得到的聚類精度最高、特征提取效果最好。作為局部調(diào)整參數(shù)的r,相對低于另2個參數(shù),對特征提取的效果也有很大的影響。在COIL_20數(shù)據(jù)集中r的取值為0.8時效果最好,在WDBC數(shù)據(jù)集中取0.9時效果最好。

        圖5 參數(shù) α、β 和 r 對聚類精度的影響Fig. 5 The influence of parametersα、β and ron clustering accuracy

        5t檢驗

        從手寫數(shù)字中選取30組不同的數(shù)據(jù),每組由3個不同的數(shù)字組成。對這30組數(shù)據(jù)分別用5種方法進(jìn)行特征提取得到相應(yīng)的聚類精度。

        為了對比SSCLLE與其他方法的優(yōu)劣,利用SPSS工具對SSCLLE方法得到的聚類精度與其他方法得到的聚類精度做成對t檢驗,得到以下結(jié)果如表6~8所示。

        表6 配對樣本統(tǒng)計Table 6 Paired sample statistics

        表7 配對樣本相關(guān)性Table 7 Correlation of paired samples

        通過表8可以看到SSCLLE與其他4種方法的顯著性均小于0.05,說明各對比組聚類精度有顯著差異。再對比均值,可見本文SSCLLE方法相對其他方法能夠有效地提高特征提取的效果。

        表8 配對樣本檢驗Table 8 Paired sample test

        6 結(jié)束語

        本文在LLE基礎(chǔ)上,提出了一種半監(jiān)督類保持局部線性嵌入方法(SSCLLE)。方法中不單考慮了利用近鄰偽標(biāo)簽賦予的標(biāo)記信息對局部近鄰做調(diào)整,還對樣本的全局距離做進(jìn)一步約束,使其達(dá)到既能保持?jǐn)?shù)據(jù)的局部線性結(jié)構(gòu)又能使類內(nèi)數(shù)據(jù)更緊密,類間數(shù)據(jù)進(jìn)行分離,得到很好的特征提取效果。在UCI數(shù)據(jù)集、實物數(shù)據(jù)集COIL_20和手寫數(shù)據(jù)集MNIST上對各方法進(jìn)行實驗對比,得到SSCLLE方法在聚類精度以及可視化上的結(jié)果均高于無監(jiān)督學(xué)習(xí)LLE方法和半監(jiān)督學(xué)習(xí)SSLLE、SSLE、CCDR方法。

        猜你喜歡
        特征提取監(jiān)督信息
        突出“四個注重” 預(yù)算監(jiān)督顯實效
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        監(jiān)督見成效 舊貌換新顏
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        夯實監(jiān)督之基
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        監(jiān)督宜“補(bǔ)”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        Walsh變換在滾動軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        亚洲综合偷自成人网第页色 | 91久久精品无码人妻系列 | 国产精品成人嫩妇| 精品国产乱来一区二区三区| 91麻豆精品国产91久久麻豆| 日本黄色特级一区二区三区| 91伦理片视频国产精品久久久| 天天躁日日躁狠狠久久| 日本免费人成视频播放| 精品中文字幕日本久久久| 三区中文字幕在线观看| 自愉自愉产区二十四区| 欧美一级特黄AAAAAA片在线看 | 日本饥渴人妻欲求不满| 夜夜躁狠狠躁2021| 精品亚洲欧美高清不卡高清| 国产激情视频高清在线免费观看| 性欧美丰满熟妇xxxx性久久久| 国产97在线 | 免费| 亚洲国产一区二区三区在线视频| 成人在线观看视频免费播放| 国产亚州精品女人久久久久久| 天堂影院一区二区三区四区| 天天插天天干天天操| 少妇人妻无一区二区三区 | 亚洲国产一区二区三区最新| 一道本加勒比在线观看| 午夜不卡无码中文字幕影院| 亚洲成在人线在线播放无码| 精品国产看高清国产毛片| 手机av在线观看视频| 国产一级内射视频在线观看 | 亚洲欧美国产日韩制服bt| 日韩精品一二区在线视频| 白白白在线视频免费播放| a级毛片100部免费看| 91精品啪在线看国产网站| 亚洲视频在线观看第一页| 极品嫩模高潮叫床| 亚洲aⅴ无码日韩av无码网站| 在线视频免费自拍亚洲|