亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于全局不相關(guān)的多流形學(xué)習(xí)

2020-02-08 06:58:56彭永康

計算機工程與設(shè)計 2020年1期

關(guān)鍵詞：特征

彭永康，李波

(1.武漢科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院，湖北武漢 430065；2.武漢科技大學(xué)智能信息處理與實時工業(yè)系統(tǒng)湖北省重點實驗室，湖北武漢 430065)

0 引言

在人臉識別[1]任務(wù)中，特征提取是其中非常關(guān)鍵的一環(huán)，主要的目的是為了降維，提取出關(guān)鍵的特征信息。在過去幾十年中，很多針對高維數(shù)據(jù)降維的算法被相繼提出，維數(shù)約減算法可分為線性方法和非線性方法兩類[2]。典型的線性方法有無監(jiān)督的主成分分析(principal component analysis，PCA)和有監(jiān)督的線性判別分析(linear discriminant analytics，LDA)[3]。代表性的非線性算法如流形學(xué)習(xí)，有拉普拉斯特征映射[4](laplacian eigenmaps，LE)算法，但是LE算法在泛化能力上表現(xiàn)不是很好，換句話說，測試數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)得到的投影矩陣計算其低維空間映射時是不容易得到的，這個問題也叫作out-of-sample問題。針對這個問題，張量化[5]、核化[6]、線性化[7]等技術(shù)相繼出現(xiàn)來處理這個問題。相對于LE算法，局部保持投影[8](locally preserving projections，LPP)算法計算成本低并且在聚類能力上表現(xiàn)良好。但是以上的LPP算法和LE算法都是基于樣本的局部結(jié)構(gòu)而沒有考慮樣本的非局部結(jié)構(gòu)信息，之后Yang等提出了一個非監(jiān)督判別投影算法[9](unsupervised discriminant projection，UDP)，不僅注意了樣本的局部結(jié)構(gòu)信息，還將樣本的非局部結(jié)構(gòu)信息考慮進去。

以上的流形學(xué)習(xí)算法是基于點到點之間的距離，有以下缺陷，其一，使用點到點之間的距離學(xué)習(xí)樣本點的幾何結(jié)構(gòu)信息有限，其二，抗干擾能力不強，容易受到噪聲的干擾。針對以上問題，近鄰線性組合的方法包括近鄰特征線[10](nearest feature line，NFL)和近鄰特征場[11](nearest feature plane，NFP)相繼被提出。點到特征線的距離和點到特征空間的距離相較于點到點之間的距離，可以挖掘出更多的判別信息，加強算法的判別能力。但是基于點到特征空間的距離依然容易受到噪聲的干擾，無法充分學(xué)習(xí)樣本點的局部判別信息。為了解決以上算法的缺陷，提出特征空間到特征空間距離，可以更好學(xué)習(xí)樣本之間的結(jié)構(gòu)信息，同時提升算法的魯棒性，減少噪聲對算法判別能力的干擾。

通過特征抽取得到的判別信息很大程度上會存在一定的信息冗余，即判別特征向量是統(tǒng)計相關(guān)的。為了減少其冗余度，使判別特征是全局不相關(guān)的，將不相干約束應(yīng)用于特征空間到特征空間距離度量學(xué)習(xí)，可以減少判別信息的相關(guān)性，提高算法的判別能力。

本文提出一個基于全局不相關(guān)的多流形學(xué)習(xí)算法(UFDML)。①使用特征空間到特征空間的距離，并使異類特征空間距離最大。②提出一個不相關(guān)約束應(yīng)用于該算法之上，使得抽取的特征是全局不相關(guān)的。通過對LDA，LPP，UDP等算法的比較，本文提出的方法在ORL，Yale，AR人臉庫中的識別率是優(yōu)于其它算法的。

1 點到特征空間距離

根據(jù)參考文獻[12,13]，點到特征空間的距離則可以由如下定義為

(1)

(2)

(3)

2 基于不相關(guān)的多流形學(xué)習(xí)算法

2.1 特征空間距離

(4)

同樣的方式，樣本點xj在它的近鄰特征空間的投影點可以表示為

(5)

所以，空間到空間的距離(S2S distance)可以定義為如下所示

(6)

用矩陣的形式表達，則S2S距離矩陣可以表示為

(7)

這里T是一個索引矩陣，并且矩陣的元素滿足以下的公式

(8)

2.2 特征空間多流形度量

(9)

這里

(10)

這里Pij的取值為：當(dāng)xi，xj屬于異類最近鄰樣本點，則記作1，否則記作0。

本算法的目的是為了找到一個最優(yōu)的線性轉(zhuǎn)化，Y=WTX，通過該線性轉(zhuǎn)化可以使得異類之間的距離最大，所以尋求的投影點應(yīng)是樣本點在異類特征空間的投影點，即上式可以變化成如下所示

(11)

M=TTT

(12)

結(jié)合式(11)、式(12)，上式可以改寫成以下的形式

(13)

WXT(Dii-MI)XWT=WXTLXWT

(14)

這里L(fēng)是一個拉普拉斯矩陣L=D-M。

2.3 不相關(guān)分析

特征抽取算法在人臉識別中扮演著非常重要的角色，但是，通過特征抽取所得到的特征往往含有重疊的判別信息，而在特征抽取算法中加入統(tǒng)計不相關(guān)的這個特性可以很好消除判別信息的冗余。但是很多算法往往忽視了這個性質(zhì)，本文提出的算法在基于特征空間距離進行特征抽取的同時，加入了不相關(guān)約束，使得抽取的判別特征信息是統(tǒng)計不相關(guān)的。

由前文可得到，對于訓(xùn)練樣本，判別分析可以由如下的變化得到

(15)

但是由該式得到的特征分量是統(tǒng)計相關(guān)的，即

(16)

只有該等式等于0時，特征分量yi和yj是統(tǒng)計不相關(guān)的，但是式(15)并不能保證得到的特征分量是統(tǒng)計不相關(guān)，當(dāng)提取出的特征分量是統(tǒng)計相關(guān)的，存在著冗余信息，不利于信息的提取和最終的分類。

2.4 基于全局不相關(guān)的多流形學(xué)習(xí)框架

基于以上的問題，本文提出了一個基于全局不相關(guān)的多流形學(xué)習(xí)的框架，使得異類樣本之間距離盡可能的大，樣本點經(jīng)過線性轉(zhuǎn)化后得到的投影向量是全局不相關(guān)的。在式(15)的基礎(chǔ)上，添加一個不相關(guān)約束，使得到的判別特征是全局不相關(guān)的，并且異類樣本之間的距離盡可能的大。

提出的不相關(guān)約束要滿足抽取的特征Y=WTX，其中任意兩個特征向量yi，yj(i≠j)，是全局不相關(guān)的，這樣可以得到

(17)

這里Wi,Wj是代表矩陣W中不同的倆列，St則是代表訓(xùn)練樣本的全局散度矩陣，可以表示為

(18)

(19)

等式(17)和等式(19)整理得以下式子

WTStW=I

(20)

這里的N指訓(xùn)練樣本點個數(shù)。

將該不相關(guān)約束添加到等式中，則我們最終得到的優(yōu)化函數(shù)如下所示

(21)

對這個優(yōu)化函數(shù)進行求解，通過拉格朗日乘子法，即

(22)

對其求偏導(dǎo)數(shù)，則得到以下的形式

(23)

令其等于0，則得到

XLXTW=λStW

(24)

這樣，等式(24)求解可以等價于求解其廣義特征分解問題，則得到的特征向量組成的矩陣是所要求的最優(yōu)化的特征轉(zhuǎn)換矩陣W。

2.5 算法流程

在上述的理論基礎(chǔ)上，本文提出的UFDML算法步驟見表1。

表1 基于全局不相關(guān)的多流形學(xué)習(xí)算法步驟

3 實驗和分析

為了對本文提出的方法進行驗證，將本文提出的UFDML算法與相關(guān)的經(jīng)典算法進行實驗結(jié)果比較，比較的方法包括UDP，LPP，LDA算法。實驗的數(shù)據(jù)庫則選用AR，ORL，Yale這3個廣泛使用的標(biāo)準(zhǔn)人臉數(shù)據(jù)庫，以此對本文所提出算法的有效性和實用性進行評估。

3.1 數(shù)據(jù)集描述

Yale數(shù)據(jù)集中共計165張人臉圖片，分別為15個人在相似背景下的不同光照條件和表情的人臉圖片。實驗中，圖像樣本被處理成64×64的大小。

ORL數(shù)據(jù)集共計400幅灰度圖像，分別為40個人在不同時間下拍攝完成的，每個人的人臉圖像的表情變化豐富。實驗中，圖像樣本被處理成64×64的大小[14]。

AR數(shù)據(jù)集共計4000多幅圖像，分別為70名男性人臉圖像樣本和56名女性人臉圖像樣本。其中圖像的拍攝都是在不同的光照環(huán)境下拍攝完成的，表情也各不相同。

表2列出AR，ORL，Yale數(shù)據(jù)集的詳細信息。

表2 AR，ORL，Yale數(shù)據(jù)集信息

3.2 AR，ORL，Yale數(shù)據(jù)集上不同方法的效果比對

在AR，ORL，Yale數(shù)據(jù)集對比實驗中，我們用本文提出的UFDML算法跟其它算法進行比較，實驗結(jié)果驗證了算法的有效性。實驗過程中，先通過各算法對原始高維數(shù)據(jù)進行降維，最后使用KNN分類器得到識別結(jié)果。

對于每個數(shù)據(jù)集，選取每個算法10次中的最高識別準(zhǔn)確率作為最終識別結(jié)果。識別結(jié)果如下。

如表3所示，在這個實驗中，訓(xùn)練樣本n隨機的選中為每類6,7,8個，并且每種算法重復(fù)訓(xùn)練10次，得到每個算法最大識別率和與之對應(yīng)的最佳維度。從實驗結(jié)果可以看出，本文提出的算法在訓(xùn)練樣本選中6,7,8個時，得到的識別率都是優(yōu)于其它3種算法的。

表3 UDP,LPP,UFDML,LDA在AR數(shù)據(jù)集上的識別結(jié)果

如表4所示，每一類圖像中隨機選中4,5,6個作為訓(xùn)練樣本，其余的作為測試樣本，重復(fù)10次得到每個算法最大識別率和最佳維度。從實驗結(jié)果可以看出，本文提出的算法在訓(xùn)練樣本選中4,5,6個時，本文提出的算法的識別能力優(yōu)于其它算法。

表4 UDP,LPP,UFDML,LDA在ORL數(shù)據(jù)集上的識別結(jié)果

如表5所示，訓(xùn)練樣本n隨機的選中為每類6,7,8個并重復(fù)訓(xùn)練10次，得到每個算法最大識別率和對應(yīng)維度。從實驗結(jié)果可以看出，本文提出的算法在訓(xùn)練樣本選中6,7,8個時，得到的識別率都是優(yōu)于其它3種算法的，并且實驗得到的識別率在分別劃分為6,7,8個訓(xùn)練樣本時，算法的識別率是相對穩(wěn)定的。

4 結(jié)束語

為了解決傳統(tǒng)流形學(xué)習(xí)算法中判別特征信息不夠充足，易受到噪聲影響和判別特征冗余的問題，本文提出了一種基于全局不相關(guān)的多流形學(xué)習(xí)算法(UFDML)。該算法首先通過特征空間到特征空間距離來代替?zhèn)鹘y(tǒng)的點到點之間的距離，學(xué)習(xí)一個基于特征空間距離的判別矩陣，使得異類樣本點之間的距離盡可能的大，同時，加入了一個不相關(guān)的約束條件使判別特征統(tǒng)計不相關(guān)，最終得到最優(yōu)的投影矩陣。UFDML算法有以下優(yōu)點，其一，能夠更好地學(xué)習(xí)樣本點局部結(jié)構(gòu)信息和抗噪聲干擾能力強，二是經(jīng)過該算法抽取的特征向量是統(tǒng)計不相關(guān)的，這樣可以降低其冗余度，樣本點在低維空間的分類能力得到提高。在ORL，AR，Yale人臉數(shù)據(jù)庫上的實驗結(jié)果驗證了UFSDML算法的有效性和魯棒性。不足的是，與其它流形學(xué)習(xí)算法相比，本文提出的算法在計算時間上不如其它算法，因為計算投影點所造成的迭代花費時間過多，下一步的研究方向?qū)⒖紤]如何有效降低算法的時間復(fù)雜度。

表5 UDP,LPP,UFDML,LDA在Yale數(shù)據(jù)集上的識別結(jié)果