陳俊芬,趙佳成,翟俊海,李 艷
(1.河北大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院河北省機(jī)器學(xué)習(xí)與計(jì)算智能重點(diǎn)實(shí)驗(yàn)室,保定 071002;2.北京師范大學(xué)珠海分校應(yīng)用數(shù)學(xué)學(xué)院,珠海 519087)
聚類是廣泛應(yīng)用于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的無監(jiān)督學(xué)習(xí)方法。聚類結(jié)果依賴于聚類算法,也依賴于數(shù)據(jù)的特征表示,尤其是高維復(fù)雜數(shù)據(jù)(圖像、語(yǔ)音和視頻等)的特征表示顯著影響著聚類性能。研究表明,在自動(dòng)學(xué)習(xí)圖像數(shù)據(jù)特征時(shí),深層神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)大的表達(dá)特征的能力[1]。2006年,Hinton 提出了深度(堆疊)自編碼器(Autoen?coder,AE),他們?cè)趯?duì)MNIST 數(shù)據(jù)集的分類研究中發(fā)現(xiàn),網(wǎng)絡(luò)權(quán)值的調(diào)整主要依賴圖像本身的信息量,而標(biāo)簽信息量只能微調(diào)網(wǎng)絡(luò)權(quán)值[2]。另外,對(duì)數(shù)據(jù)進(jìn)行標(biāo)注需要消耗大量的資源,例如2012 年Hinton 團(tuán)隊(duì)在ImageNet 圖像分類比賽中以極大的優(yōu)勢(shì)獲得了勝利[3],但是為ImageNet 標(biāo)注花費(fèi)了2年多的時(shí)間[4]。因此采用無監(jiān)督學(xué)習(xí)方法對(duì)無標(biāo)簽圖像自動(dòng)提取特征具有重要的理論與實(shí)際意義。提取特征常用的深度方法有受限玻爾茲曼機(jī)[5]、自編碼器[6]、卷積自編碼器[7]和生成式對(duì)抗網(wǎng)絡(luò)[8]等。自編碼器是一種非線性特征提取方法,它的對(duì)稱結(jié)構(gòu)可以進(jìn)行無監(jiān)督學(xué)習(xí),最終得到高維輸入的低維特征表示。
很多研究結(jié)合自編碼器對(duì)圖像數(shù)據(jù)進(jìn)行聚類,基于自編碼器的圖像聚類分析通常包括兩階段:(1)自編碼器對(duì)圖片進(jìn)行特征提?。唬?)聚類算法對(duì)特征進(jìn)行聚類。由文獻(xiàn)[9?10]所提的深度聚類方法的實(shí)驗(yàn)發(fā)現(xiàn),最終的聚類結(jié)果與自編碼器的參數(shù)學(xué)習(xí)結(jié)果有很大關(guān)系,因此提取適合聚類的特征表示是研究的重點(diǎn)。與主成分分析(Principal com?ponent analysis,PCA)的線性特征相比,AE 的非線性特征更具有辨識(shí)力,大大提高了聚類性能。盡管在人臉圖像數(shù)據(jù)上取得了較滿意的聚類結(jié)果,但由于AE 網(wǎng)絡(luò)的全連接導(dǎo)致網(wǎng)絡(luò)參數(shù)的計(jì)算代價(jià)很高,從而限制了AE 網(wǎng)絡(luò)的深度。實(shí)驗(yàn)在較小的數(shù)據(jù)集上進(jìn)行,例如在MNIST 數(shù)據(jù)集上隨機(jī)選取5 000 個(gè)圖片進(jìn)行實(shí)驗(yàn)。經(jīng)典自編碼器很難得到圖像的局部細(xì)節(jié)特征,其特征表示能力有限。為了克服這些不足,進(jìn)一步提高圖像數(shù)據(jù)的聚類效果,本文提出一種基于新型卷積編碼器(Convolutional auto ?encoder with an asymmetric structure,AS?CAE)的深度聚類方法,采用非對(duì)稱的卷積編碼器學(xué)習(xí)輸入圖片的特征表示,使用經(jīng)典K?means 算法對(duì)特征進(jìn)行聚類劃分。該算法的主要內(nèi)容包括:
(1)設(shè)計(jì)了一個(gè)非對(duì)稱卷積編碼器。采用3×3 小卷積核提取局部特征,且編碼器部分多一個(gè)全連接層。
(2)采用變步長(zhǎng)卷積層替代池化層。第1 個(gè)卷積層的卷積步長(zhǎng)等于卷積核寬度,隨后卷積層的卷積步長(zhǎng)逐步減少。
(3)采用端到端的策略訓(xùn)練網(wǎng)絡(luò),其中隨機(jī)初始化網(wǎng)絡(luò)權(quán)值替代貪婪的層層預(yù)訓(xùn)練。
(4)通過最小化網(wǎng)絡(luò)的重構(gòu)誤差和全連接的重構(gòu)誤差學(xué)習(xí)網(wǎng)絡(luò)權(quán)值。
無監(jiān)督學(xué)習(xí)出現(xiàn)在各種圖像處理任務(wù)中,例如:圖像聚類[9?14]、圖像分類[15?17]、圖像分割[18?19]及目標(biāo)檢測(cè)[20]等。近年來,無監(jiān)督圖像聚類研究取得了很好的成績(jī)。文獻(xiàn)[11]中采用生成對(duì)抗網(wǎng)絡(luò)為無監(jiān)督的圖像特征提取帶來新方向。其中,使用大步幅的卷積核替代池化層,刪除全連接層和使用批處理;生成網(wǎng)絡(luò)使用ReLU 作為激活函數(shù),而輸出層使用Tanh 函數(shù);判別網(wǎng)絡(luò)使用LeakyReLU 函數(shù);最后,使用判別網(wǎng)絡(luò)的各層特征進(jìn)行聚類分析,但其精度卻不及傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)。
相較于深度卷積生成對(duì)抗網(wǎng)絡(luò)而言,自編碼器和卷積神經(jīng)網(wǎng)絡(luò)在無監(jiān)督聚類學(xué)習(xí)中的應(yīng)用更為廣泛。文獻(xiàn)[12]找到一種解決特征空間學(xué)習(xí)與聚類判別的聯(lián)合方案?;舅悸肥牵旱谝浑A段訓(xùn)練自編碼器進(jìn)行特征空間的初步學(xué)習(xí),然后使用K?means 得到特征空間的K個(gè)聚類中心點(diǎn);第二階段計(jì)算所學(xué)特征與聚類中心點(diǎn)的相似性分布Q,并構(gòu)造輔助目標(biāo)分布P;最后通過最小化二者的KL(P||Q)散度調(diào)整網(wǎng)絡(luò)參數(shù)和改進(jìn)聚類結(jié)果。實(shí)驗(yàn)結(jié)果超越了以往的無監(jiān)督聚類算法。用于聚類分析的無監(jiān)督深度嵌入方法(Deep embedding method for clustering,DEC)框架如圖1 所示[12]。
圖1 用于聚類分析的無監(jiān)督深度嵌入方法[12]Fig.1 Unsupervised DEC analysis[12]
聯(lián)合特征空間學(xué)習(xí)與聚類進(jìn)行統(tǒng)一學(xué)習(xí),為無監(jiān)督聚類提供了新方向。例如,文獻(xiàn)[9]提出了聯(lián)合卷積自動(dòng)編碼器嵌入和相對(duì)熵進(jìn)行深度聚類的方法。文獻(xiàn)[10]提出了全卷積自編碼器的判別增強(qiáng)圖像聚類方法。這兩類方法分別做了不同方向的改進(jìn),獲得了比原方法更優(yōu)的結(jié)果。
文獻(xiàn)[14]中用于視覺特征的無監(jiān)督聚類方法的核心思路是:對(duì)卷積神經(jīng)網(wǎng)絡(luò)所學(xué)特征進(jìn)行聚類生成偽標(biāo)簽,網(wǎng)絡(luò)使用偽標(biāo)簽數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)并更新網(wǎng)絡(luò)參數(shù),二者交替執(zhí)行直至收斂。訓(xùn)練過程通過限制新簇的樣本數(shù)、重新選擇簇類中心以及根據(jù)偽標(biāo)簽進(jìn)行均勻采樣等措施避免聚類的平凡解。
文獻(xiàn)[21]在雜亂數(shù)據(jù)上使用無監(jiān)督圖像特征預(yù)訓(xùn)練方法,對(duì)聚類與深度相結(jié)合的思路進(jìn)行了優(yōu)化。在初步聚為m類的基礎(chǔ)上先進(jìn)行一次4m類別分類,再進(jìn)行多次k類別分類,這些分類器使用相同的特征提取網(wǎng)絡(luò)。循環(huán)往復(fù)訓(xùn)練,所訓(xùn)練出的特征質(zhì)量要優(yōu)于其他非監(jiān)督學(xué)習(xí)方法。不同于以往的深度聚類研究思路,文獻(xiàn)[22]中提出了另一類無監(jiān)督圖像分類和分割的不變信息聚類方法:根據(jù)圖像經(jīng)過平移、旋轉(zhuǎn)等變換所學(xué)特征的聚類軟分配結(jié)果應(yīng)保持不變的思路,對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)值更新。卷積神經(jīng)網(wǎng)絡(luò)上的小改動(dòng)使得聚類結(jié)果達(dá)到最優(yōu)。該方法為無監(jiān)督聚類學(xué)習(xí)學(xué)到更有表達(dá)能力的特征提供了新思路。
文獻(xiàn)[9?10,12]中的實(shí)驗(yàn)表明,深度聚類的最終結(jié)果很大程度上依賴于卷積自編碼器的初始生成特征的K?means 聚類結(jié)果。也就是說,聯(lián)合訓(xùn)練之前網(wǎng)絡(luò)生成的特征決定了最終聚類結(jié)果的好壞。本文對(duì)深度卷積自編碼器網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了改進(jìn),對(duì)卷積方式進(jìn)行了適當(dāng)調(diào)整,并在原L2 損失函數(shù)中添加關(guān)于全連接層的正則項(xiàng)。
本文所提深度聚類框架分開執(zhí)行特征提取和聚類分析,旨在通過改進(jìn)卷積自編碼器的結(jié)構(gòu)和目標(biāo)損失函數(shù)提升對(duì)圖像的特征提取能力,從而最大化聚類分析的收益。
為了得到辨識(shí)力更強(qiáng)的特征表示,本文提出了一種新穎的網(wǎng)絡(luò)結(jié)構(gòu),如圖2 所示。網(wǎng)絡(luò)細(xì)節(jié)描述如下:編碼器部分由4 個(gè)卷積層(CNN?C1~C4)和3個(gè)全連接層(Full?D1~D2)組成;解碼器部分包括2個(gè)全連接層(Full?D2~D3)和4 個(gè)反卷積層(DCNN?T4~T1)。由此,所設(shè)計(jì)的網(wǎng)絡(luò)又稱為“非對(duì)稱結(jié)構(gòu)的卷積編碼器”,即ASCAE 網(wǎng)絡(luò)。該網(wǎng)絡(luò)沒有池化層,C1和T1有25 個(gè)卷積核,其余層均為50 個(gè)。
圖2 非對(duì)稱(上)和對(duì)稱(下)的卷積自編碼網(wǎng)絡(luò)框架圖Fig.2 Framework of asymmteric(upper)/ symmetric(low?er)convolutional auto-encoder networks
受VGG16 網(wǎng)絡(luò)[23]的啟發(fā),除C4層外所有卷積層均采用3×3 的卷積核。C1層的卷積步長(zhǎng)S=3代表著滑動(dòng)窗之間沒有重疊,相當(dāng)于把輸入圖片分割成多個(gè)小片后分別提取特征。這種運(yùn)算加快了網(wǎng)絡(luò)的學(xué)習(xí)速度,在分辨率高的大數(shù)據(jù)集上有更明顯的優(yōu)勢(shì)。為了捕捉更豐富的特征信息,C2層上S=2 而C3和C4層上S=1。
考慮到灰度值的極大差異性有助于卷積核獲取關(guān)鍵特征,而歸一化會(huì)縮小這種差異從而影響最終的特征表示,所以本文不對(duì)灰度圖片進(jìn)行歸一化。另外,ASCAE 網(wǎng)絡(luò)采用ReLU 激活函數(shù)。
設(shè)圖像數(shù)據(jù)集為X={x1,x2,…,xN},圖片xi通過ASCAE 網(wǎng)絡(luò)重構(gòu)為x?i=fθ(xi),F(xiàn)層和D3層的輸出分別記為bi和gi(0 ≤i 式中θ={θe,θd}為網(wǎng)絡(luò)參數(shù)。 在最小化網(wǎng)絡(luò)的重構(gòu)誤差過程中,通過減少F層與D3層的差異性來降低ASCAE 網(wǎng)絡(luò)中全連接部分的誤差。目標(biāo)函數(shù)變?yōu)?/p> 式中:λ為平衡參數(shù),由于本文的圖像像素值范圍為[0,255]且未歸一化,后文實(shí)驗(yàn)中λ的取值范圍為[0,40]。 算法1 ASCAE 學(xué)習(xí)特征表示算法 輸入:數(shù)據(jù)集X={x1,x2,…,xN} 輸出:F層的特征B={b1,b2,…,bN} 初始化:用服從高斯分布G(0,0.12)的隨機(jī)數(shù)初始化網(wǎng)絡(luò)權(quán)值;將D2層的神經(jīng)元個(gè)數(shù)設(shè)置為k個(gè) 迭代過程:最小化目標(biāo)損失函數(shù)J(θ;X;λ)來訓(xùn)練非對(duì)稱卷積自編碼器 通過反向傳播算法迭代更新網(wǎng)絡(luò)參數(shù)值 停機(jī)條件:目標(biāo)損失不再下降或達(dá)到最大迭代次數(shù) 師資水平是職業(yè)院校通信專業(yè)人才培養(yǎng)的關(guān)鍵。一些職業(yè)院校通信專業(yè)的師資缺乏企業(yè)經(jīng)驗(yàn),對(duì)實(shí)際工作過程不熟悉,對(duì)行業(yè)標(biāo)準(zhǔn)把握不準(zhǔn)確,沒有足夠時(shí)間到企業(yè)工作崗位實(shí)踐,對(duì)學(xué)生以后的就業(yè)面向只能停留在理論層面;“雙師型”教師亟待培養(yǎng),如果無法將崗位群真正需要的技能素養(yǎng)帶進(jìn)課堂,就無法培養(yǎng)出符合行業(yè)、企業(yè)真正需要的技術(shù)技能型人才。 輸出特征:fθe(X) →B 為驗(yàn)證非對(duì)稱卷積自編碼網(wǎng)絡(luò)的特征表示能力,本文設(shè)計(jì)了一個(gè)對(duì)稱卷積自編碼網(wǎng)絡(luò)(Convo?lutional auto?encoder with a symmetric structure,SCAE),如圖2 所示。SCAE 網(wǎng)絡(luò)不同于ASCAE網(wǎng)絡(luò)之處在于前者少了D1層。二者的損失函數(shù)相同,都是通過最小化J(θ;X;λ)調(diào)整網(wǎng)絡(luò)權(quán)值直至收斂。 由圖2 可知,輸入層到F層組成一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來獲取輸入圖像的局部特征。低層的特征圖通常表示簡(jiǎn)單的特征,而高層則表示復(fù)雜的特征。隨著網(wǎng)絡(luò)層數(shù)的增加,特征圖上像素點(diǎn)的感受野變大,所以C4層上1×1 特征圖的感受野是整個(gè)圖片,如圖3 所示。C4的一個(gè)特征圖對(duì)應(yīng)F層的一個(gè)神經(jīng)元,且連接權(quán)值表示輸入的某個(gè)局部特征[24]。 圖3 不同層特征圖的感受野對(duì)應(yīng)關(guān)系圖Fig.3 Corresponding relation between receptive fields of feature maps in different layers 雖然全連接D2層能對(duì)F層的局部特征進(jìn)行組合,減少特征的位置對(duì)分類任務(wù)的影響,卻不適用于對(duì)位置敏感的圖像分割、聚類等模式任務(wù)。因此本文使用F層的特征而未使用D2層的特征完成聚類任務(wù)。下文的實(shí)驗(yàn)將驗(yàn)證F層特征優(yōu)于D2層。另外,2 個(gè)全連接層能更好地解決非線性問題,實(shí)驗(yàn)部分也將驗(yàn)證ASCAE 網(wǎng)絡(luò)的F層特征最優(yōu)。 本節(jié)通過K?means 算法對(duì)特征進(jìn)行聚類分析以驗(yàn)證ASCAE 網(wǎng)絡(luò)提取特征的能力。所有實(shí)驗(yàn)均在數(shù)據(jù)量較小的7 個(gè)圖像數(shù)據(jù)集(表1)上進(jìn)行。為了減少隨機(jī)初始化對(duì)K?means 算法的影響,每組實(shí)驗(yàn)都重復(fù)50 次,對(duì)最好的聚類性能進(jìn)行分析,并與文獻(xiàn)[10]提供的聚類性能進(jìn)行對(duì)比。評(píng)價(jià)聚類性能的數(shù)值指標(biāo)有聚類精度(Accuracy,ACC)和標(biāo)準(zhǔn)互信息(Normalized mutual information,NMI)。ACC 表示聚類結(jié)果的正確率。NMI 衡量了樣本標(biāo)簽的預(yù)測(cè)分布與真實(shí)分布的相關(guān)程度。兩個(gè)指標(biāo)值越接近1,說明聚類準(zhǔn)確度越高。 表1 7 個(gè)圖像數(shù)據(jù)集的信息描述Table 1 Information description of seven image datasets 實(shí)驗(yàn)環(huán)境:IntelCorei5 ? 6300HQ 處理器,NVIDIA 2.0 GB 顯存,8.0 GB 內(nèi)存;基于開源的Keras 庫(kù)搭建ASCAE 網(wǎng)絡(luò)。 第1 組對(duì)比實(shí)驗(yàn)驗(yàn)證最優(yōu)參數(shù)對(duì)SCAE 和ASCAE 網(wǎng)絡(luò)性能的影響。若設(shè)置D2層的激活函數(shù)為Softmax,通過最小化損失函數(shù)L(θ;X)得到特征表示,然后使用K?means 算法對(duì)F層特征進(jìn)行聚類,僅得到0.356 的聚類精度,且損失函數(shù)不易收斂。此F層特征的二維展示如圖4 所示??梢钥闯鯢層特征沒有類簇的形狀分布,依舊混亂交織在一起而無法辨識(shí)。 圖4 數(shù)據(jù)集COIL-20 上SCAE 網(wǎng)絡(luò)F 層特征的二維展示Fig.4 2-D visualization of F-layer features of SCAE net?work on dataset COIL-20 為了優(yōu)化該問題,設(shè)置D2層激活函數(shù)為Re?LU,最小化目標(biāo)函數(shù)J(θ;X;λ)來訓(xùn)練SCAE 網(wǎng)絡(luò),使用K?means 算法對(duì)F層特征進(jìn)行聚類,聚類精度達(dá)到0.749。此時(shí)算法的收斂速度快,損失函數(shù)的收斂值更低,圖片的重建度也更好,F(xiàn)層特征的聚類精度更高。 針對(duì)同樣的參數(shù)設(shè)置,通過最小化目標(biāo)函數(shù)J(θ;X;λ)訓(xùn)練ASCAE 網(wǎng)絡(luò),此時(shí)ASCAE 方法的聚類精度提高到0.754。另外,圖5 展示了參數(shù)λ的不同取值對(duì)聚類性能的影響,其具有先增加后減小的趨勢(shì),在λ=20 時(shí)ACC 和NMI 達(dá)到了最優(yōu)。后續(xù)實(shí)驗(yàn)中均設(shè)置λ=20。圖6 給出了F層特征的二維可視化圖。至此,ASCAE 網(wǎng)絡(luò)構(gòu)建完成。從圖6 可以看到,ASCAE 網(wǎng)絡(luò)學(xué)習(xí)到的特征有了類簇的形狀分布,使得K?means 算法提供了較高的聚類精度,但仍有少量類別的特征辨識(shí)力較低,因此混雜在其他類別中。圖7 展示了不同拍攝角度的敞篷跑車,可以發(fā)現(xiàn)各個(gè)角度的敞篷跑車在大小和外形上有很大的差異,不易聚合成一簇。 圖5 數(shù)據(jù)集COIL-20 上不同λ 值的ASCAE 聚類性能Fig.5 Clustering performance of ASCAE method with dif?ferent λ on dataset COIL-20 圖6 數(shù)據(jù)集COIL-20 上ASCAE 網(wǎng)絡(luò)的F 層特征的二維展示Fig.6 2-D visualization of F-layer features of ASCAE net?work on dataset COIL-20 圖7 不同拍攝角度的敞篷跑車Fig.7 Roadster with different poses 另外,類別不同、外形相似的數(shù)據(jù)也很容易發(fā)生錯(cuò)誤聚類,如圖8 所示。圖8(a)中的物體從某個(gè)角度看均為長(zhǎng)方形,即這些物體的全局特征差異性較小,這可能是導(dǎo)致這些數(shù)據(jù)的特征在二維平面內(nèi)相互纏繞的重要原因。圖8(b)中,重建圖片的很多細(xì)節(jié)未被還原,這種模糊性使得重建圖片間的相似性很大。 圖8 類別不同、外形相似的物品重建前后圖片F(xiàn)ig.8 Images before and after reconstruction of objects with similar shapes and different categories 表2 給出了本文兩種網(wǎng)絡(luò)對(duì)應(yīng)的聚類方法與文獻(xiàn)[10]中KMS 算法和DEN 算法在數(shù)據(jù)集COIL?20 上的聚類性能比較。對(duì)比發(fā)現(xiàn),本文的對(duì)稱網(wǎng)絡(luò)SCAE 提供了不錯(cuò)的特征表示,使得K?means 的聚類精度高于文獻(xiàn)[10]中的兩種算法,而基于非對(duì)稱網(wǎng)絡(luò)ASCAE 特征表示的聚類精度最高。由于DEN 算法的目標(biāo)函數(shù)包括局部結(jié)構(gòu)和稀疏性,能擴(kuò)大輸入圖像和特征表示的互信息,因而聚類結(jié)果的NMI 值超越了本文方法,但ACC 并不是很好。由此驗(yàn)證了本文所提方法的SCAE 和ASCAE 網(wǎng)絡(luò)在該數(shù)據(jù)集上有很好的特征表示能力。 表2 4 種算法在數(shù)據(jù)集COIL?20 上的聚類性能比較Table 2 Comparison of clustering performances of four algorithms on dataset COIL?20 本組實(shí)驗(yàn)在手寫數(shù)字集MNIST 和USPS 上進(jìn)行。在這2 個(gè)數(shù)據(jù)集上,SCAE 和ASCAE 方法均是通過最小化目標(biāo)函數(shù)J(θ;X;λ)更新網(wǎng)絡(luò)權(quán)值,然后使用K?means 算法進(jìn)行聚類,其與文獻(xiàn)[10]中4 種算法的聚類性能比較如表3 所示。 表3 6 種算法在數(shù)據(jù)集MNIST 及USPS 上的聚類性能比較Table 3 Comparison of clustering performances of six algorithms on datasets MNIST and USPS 由表3 可知,在MNIST 數(shù)據(jù)集上,聚類方法ASCAE 比SCAE 學(xué)習(xí)到了更利于聚類的特征表示,使得K?means 提供了0.918 的最高聚類精度。在USPS 數(shù)據(jù)集上,ASCAE 較SCAE 具有很大優(yōu)勢(shì),但均不及深度聚類算法IEC 和DEC,ASCAE落后1.4%~3.8%的聚類精度。 在USPS 數(shù)據(jù)集上,ASCAE 網(wǎng)絡(luò)的F層特征的聚類精度和單個(gè)數(shù)字的聚類精度如圖9 所示。數(shù)字0 和6 的聚類精度最高,達(dá)到0.907 和0.91;而數(shù)字2,3,5 和9 的聚類精度均小于全部數(shù)字的聚類精度0.729。 圖9 數(shù)據(jù)集USPS 上單個(gè)數(shù)字和全部數(shù)字的聚類精度Fig.9 Comparison of clustering accuracy of all digits and in?dividual digit on dataset USPS 為進(jìn)一步探究ASCAE 方法在USPS 數(shù)據(jù)集上聚類性能不高的原因,圖10 中給出了手寫數(shù)字2,5 和9 的部分圖片。觀察圖10 可以發(fā)現(xiàn),一些手寫數(shù)字本身具有類別不確定性,例如,有些手寫數(shù)字2 很像數(shù)字3 或5,有些手寫數(shù)字5 很像6 或3,有些手寫數(shù)字9 跟0 或7 的相似性很高。另外書寫順序的不確定性,例如,從左上到左下書寫的數(shù)字5對(duì)比從右上到左下書寫的數(shù)字5 有很大的形變。這些從根源上就有類別不確定性的圖像,使得學(xué)習(xí)到的特征很難聚合在一起,給聚類帶來了巨大的挑戰(zhàn)。 圖10 數(shù)據(jù)集USPS 中手寫數(shù)字2,5 和9 的部分圖片F(xiàn)ig.10 Some images of handwritten digits 2, 5 and 9 from dataset USPS 圖11,12 給出了ASCAE 網(wǎng)絡(luò)在數(shù)據(jù)集MNIST 和USPS 的F層特征的二維展示。圖11中區(qū)域之間有比較明顯的邊界,但是每個(gè)區(qū)域都有不同顏色的散點(diǎn)。而圖12 的下部分有2 個(gè)子區(qū)域的邊界不太明顯,辨識(shí)度下降。 圖11 數(shù)據(jù)集MNIST 上ASCAE 網(wǎng)絡(luò)的F 層特征的二維展示Fig.11 2-D visualization of F-layer features of ASCAE net?work on dataset MNIST 圖12 數(shù)據(jù)集USPS 上ASCAE 網(wǎng)絡(luò)的F 層特征的二維展示Fig.12 2-D visualization of F-layer features of ASCAE net?work on dataset USPS 本組實(shí)驗(yàn)在4 個(gè)人臉數(shù)據(jù)集(CAS?PEAL?R1,BIO?ID,IMM 和UMISTS)上進(jìn)行,部分圖片見圖13。 基于ASCAE 和SCAE 方法的聚類結(jié)果見表4。 圖13 4 個(gè)人臉數(shù)據(jù)集上的部分圖片F(xiàn)ig.13 Some images of four human face datasets 表4 ASCAE 和SCAE 方法在4 個(gè)人臉數(shù)據(jù)集上的聚類性能Table 4 Clustering performance of ASCAE 和 SCAE methods on four human face datasets 由表4 可知,在數(shù)據(jù)集CAS?PEAL?R1 和IMM上,聚類方法ASCAE 比SCAE 具有更優(yōu)的聚類性能。圖像背景簡(jiǎn)單,大部分為正臉且光線較亮,特征表示對(duì)眼睛、嘴巴和鼻子的形狀有較高的辨識(shí)度。在UMIST 上,這2 個(gè)方法的聚類性能遠(yuǎn)遠(yuǎn)小于其他3 個(gè)數(shù)據(jù)集。原因可能是人臉視圖有側(cè)面和正面,姿勢(shì)變化較大。但在BIO?ID 上,SCAE 方法帶來的的聚類結(jié)果優(yōu)于ASCAE。原因可能是圖像有較復(fù)雜的室內(nèi)背景,ASCAE 網(wǎng)絡(luò)的3 個(gè)全連接層整合局部特征后,使得特征表示的辨識(shí)力反而下降了。 ASCAE 網(wǎng)絡(luò)多一個(gè)全連接層,其網(wǎng)絡(luò)參數(shù)增加50×50+50=300 個(gè),即空間存儲(chǔ)量增加不大。以數(shù)據(jù)集MNIST 為例,訓(xùn)練次數(shù)設(shè)為200。兩個(gè)網(wǎng)絡(luò)學(xué)習(xí)特征的目標(biāo)損失和運(yùn)行時(shí)間如表5所示,可以看出ASCAE 的運(yùn)行時(shí)間較長(zhǎng),但目標(biāo)損失收斂值也較小。 表5 ASCAE 和SCAE 網(wǎng)絡(luò)在數(shù)據(jù)集MNIST 上迭代200次的計(jì)算代價(jià)Table 5 Computational cost of ASCAE and SCAE net?works iterating 200 times on dataset MNIST 由于經(jīng)典自編碼器的特征表示能力有限,使得基于自編碼器的深度聚類方法在復(fù)雜圖像數(shù)據(jù)集上的聚類性能不高。為此,本文提出了一種新的深度聚類方法ASCAE。本文的深度聚類方法通過改善網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)損失函數(shù),提取出更有辨識(shí)力的聚類特征來提高聚類性能。實(shí)驗(yàn)結(jié)果表明,在7個(gè)圖像數(shù)據(jù)集上尤其是圖片簡(jiǎn)單、易區(qū)分類別的數(shù)據(jù)集上,聚類方法ASCAE 更能提取到適合聚類的特征表示。但是對(duì)姿態(tài)形變較大或類別不確定性較大的數(shù)據(jù)集,其聚類效果仍有提升空間。2.3 對(duì)稱特征提取器
2.4 特征表示的聚類分析
3 實(shí)驗(yàn)與分析
3.1 COIL?20 數(shù)據(jù)集
3.2 手寫數(shù)字?jǐn)?shù)據(jù)集
3.3 人臉數(shù)據(jù)集
3.4 代價(jià)分析
4 結(jié)論