摘要:人臉圖像數(shù)據(jù)常常由幾千或幾萬個像素點組成,每個像素點都代表一個特征。在進行人臉識別、圖像分類等任務(wù)時,若使用全部像素點,會導致特征維度非常高,進而造成分析處理數(shù)據(jù)效率低下、儲存成本過高等問題,此時對數(shù)據(jù)進行降維就極為重要。等距特征映射(isometric feature mapping,Isomap)是流形學習中一個非線性降維方法。對于人臉這樣的高維流形結(jié)構(gòu),Isomap 可以找到最優(yōu)的低維表示,并保持原始數(shù)據(jù)之間的拓撲關(guān)系,從而更好地捕捉數(shù)據(jù)的局部結(jié)構(gòu)和流形特征,例如人臉的表情、姿態(tài)、光照等因素。利用Isomap方法對jaffe人臉數(shù)據(jù)集中的部分人臉灰度圖像進行降維處理,對高維數(shù)據(jù)進行可視化,得到該組數(shù)據(jù)的各個表情的位置分布,以此來展示Isomap對人臉圖像數(shù)據(jù)的降維效果。
關(guān) 鍵 詞:氧化鈷; 納米結(jié)構(gòu); 電容器; 電催化人臉圖像; 降維; 等距特征映射; 可視化
中圖分類號:O212
文獻標志碼:A
doi:10.3969/j.issn.1673-5862.2024.04.010
Isomap dimensionality reduction processing of face images
CUI Song1,2, LYU Yan1,2, CHEN Lanfeng1,2LIU Ruiyin, ZHANG Huiyang
(1. College of Physical Science and Technology, Shenyang Normal University, Shenyang 110034, China)(College of Mathematics and Systems Science, Shenyang Normal University, Shenyang 110034, China)
Abstract:Face image data is often made up of thousands or tens of thousands of pixels, each of which represents a feature. When performing tasks such as face recognition and image classification, if all pixels are used, the feature dimension will be very high, which will lead to problems such as low efficiency and high storage cost of data analysis and processing, so it is extremely important to reduce the dimensionality of data. Isometric feature mapping (Isomap) is a nonlinear dimensionality reduction method in manifold learning. For high-dimensional manifold structures such as human faces, Isomap can find the optimal low-dimensional representations and maintain the topological relationship between the original data, so as to better capture the local structure and manifold features of the data, such as facial expressions, postures, lighting, and other factors. In this paper, the Isomap method was used to reduce the dimensionality of some face grayscale images in the jaffe face dataset, and the high-dimensional data were visualized to obtain the position distribution of each expression in this group of data, so as to demonstrate the dimensionality reduction effect of Isomap on the face image data.
Key words:face images; dimensionality reduction; isometric feature mapping; visualization
人臉圖像是一個典型的高維流形數(shù)據(jù),假設(shè)一張人臉圖像的分辨率為64×64,那么它在計算機中需要用4096維的向量來表示,并且向量的維數(shù)會隨著分辨率的增大而增大。在處理彩色圖片時,還要考慮RGB通道,此時數(shù)據(jù)變得更加復雜,容易造成“維數(shù)災難”[1]。因此,針對人臉圖像相關(guān)的數(shù)據(jù)處理,降維就起到了極為重要的作用。人臉由于其復雜的變化特征和豐富的形狀變化,在高維空間中具有非線性的流形結(jié)構(gòu),如果使用傳統(tǒng)的線性降維方法,例如主成分分析法(principal components analysis, PCA)或多維尺度分析法(multidimensional scaling, MDS)[2-3],會使數(shù)據(jù)丟失本真結(jié)構(gòu),造成信息缺失,或忽略數(shù)據(jù)間的其他非線性關(guān)系的信息。本文利用等距特征映射法(isometric feature mapping,Isomap)[4]處理人臉圖像數(shù)據(jù),可以把人臉高維數(shù)據(jù)映射到低維空間并且盡可能地保證人臉原始流形的幾何結(jié)構(gòu)。相較于PCA和MDS,Isomap可以更好地捕捉數(shù)據(jù)間的非線性關(guān)聯(lián),不僅降低了數(shù)據(jù)的維度,減少了數(shù)據(jù)計算和儲存的成本,還保留了高維數(shù)據(jù)的全局特征[5-7]。
1 方法介紹
傳統(tǒng)的PCA和MDS方法應(yīng)用簡單,處理數(shù)據(jù)降維高效。通過PCA方法,可以把數(shù)據(jù)從n維降到k維,保留前k個方差最大的維度特征,即只保留方差最大的k個主成分,以此實現(xiàn)數(shù)據(jù)特征的降維。經(jīng)典的MDS方法可以使高維的數(shù)據(jù)在降維后仍然保持距離的相等或近似,能使數(shù)據(jù)在低維空間中仍保留在高維空間中的相似度,適用于用距離度量相似度的應(yīng)用。然而MDS和PCA方法是線性降維方法,都假設(shè)原始數(shù)據(jù)在高維空間中呈線性分布,這使得它們無法應(yīng)對非線性挑戰(zhàn),而實際問題中遇到的數(shù)據(jù)多數(shù)呈非線性的流形結(jié)構(gòu),在這種情況下,線性降維方法難以充分捕捉數(shù)據(jù)中的非線性關(guān)系。例如,圖1中的三維瑞士卷數(shù)據(jù)集,三維空間中的2個點之間的實際距離不再簡簡單單是2個點之間的連線形成的“線段”之間的距離。在測量這2個點的距離時,不能用直線歐氏距離測量,需要順著流形做測地線距離測量,這樣才能反映流形的真實結(jié)構(gòu)。試想一下,圖1中有一只螞蟻在這個流形體的表面上要從A點爬到B點,它想找到一個最短路徑,顯然要沿著實線爬行,無法按著虛線爬行,畢竟它不能穿過流形體的結(jié)構(gòu)從一邊爬到另一邊,即它要爬行的距離是測地線距離,不再是簡單的2個點之間的歐氏距離,因而線性降維方法存在一些局限性。本文采用Isomap方法來解決類似這種流形的降維。
圖1中A點到B點的距離是實線代表的測地線距離,不是虛線代表的線段的距離,虛線距離無法反映它們之間內(nèi)在的真實性。
Isomap算法建立在經(jīng)典的MDS算法之上,用測地線距離解決了MDS處理不了的流形問題,保留了數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)。對于圖1,如何計算A和B點間的測地線距離呢?首先找出A點和B點間的一系列近鄰點,先考慮近鄰點間的距離。對于近鄰點間距離的計算,可以應(yīng)用歐氏距離[8]。因為流形在局部與歐氏空間同胚,因而在局部仍然可以用歐氏距離作為距離度量方式進行計算。這樣,近鄰點之間都可以計算出距離,從而從A到B可以構(gòu)建一個近鄰連接圖。于是,這2個點之間的測地線距離近似等于2個點在近鄰連接圖上的最短路徑距離,可以以此構(gòu)建所有點之間的距離矩陣作為MDS算法距離矩陣的輸入,然后應(yīng)用MDS算法得到高維數(shù)據(jù)在低維空間中的映射結(jié)果。
圖2顯示出當把流形\"展開\"后,可以使用2個點之間的最短路徑距離去近似替代2個點之間的測地線距離,進而表示為這2個點在高維空間中的距離。
等距特征映射算法Isomap有3個步驟。
第1步: 在輸入空間X中,依據(jù)點對之間的歐氏距離確定哪些點是近鄰點。常用的第1種方法是以一個點為中心,固定鄰域半徑為e,那么落入鄰域范圍內(nèi)的點就是這個點的近鄰點。第2種方法是事先給定一個K,只保留距離該點最近的K個點為近鄰點。近鄰點對之間的距離為歐氏距離,非近鄰點之間不進行連接,從而構(gòu)成近鄰連接圖。
第2步:構(gòu)建近鄰連接圖后,用弗洛伊德算法計算點對之間的最短路徑即獲得該點對之間的測地線距離[9]。
第3步:在知道任意點對之間的測地線距離后,應(yīng)用MDS方法計算樣本點在低維空間中的坐標[10]。
具體算法如下:
1)輸入。樣本集X={X1,X2,…,Xm},近鄰參數(shù)為K,低維空間維數(shù)為d。
2)過程。確定每個Xi(i=1,2,…,m)的K近鄰,計算近鄰點之間的歐氏距離,非近鄰點之間的距離設(shè)為無窮大。調(diào)用弗洛伊德算法計算任意2個樣本點間的最短路徑以獲得任意2個樣本點間的距離dist(Xi,Xj),把dist(Xi,Xj)的值作為使用MDS算法的輸入。
3)結(jié)果。得到MDS算法的輸出,獲得樣本點在低維空間的坐標 。
2 數(shù)據(jù)分析
本文的人臉識別數(shù)據(jù)來自于jaffe人臉數(shù)據(jù)集。jaffe數(shù)據(jù)集由10位女性的面部表情照片組成,面部表情共有7種,分別為中性(neutral)、高興(happy)、悲傷(sad)、驚訝(surprise)、厭惡(disgust)、害怕(fear)、憤怒(angry),且所有的圖片均為灰度圖片。本文選擇數(shù)據(jù)集中的一位女性作為實驗對象,探討如何對其不同的表情狀態(tài)進行識別。該女性一共有23張臉部表情照片,各個表情圖片的示例如圖3所示。
首先對數(shù)據(jù)進行預處理,原圖片的分辨率較大,為256×256,為了方便數(shù)據(jù)處理,對原圖片進行壓縮,修改為30×30分辨率。
實驗數(shù)據(jù)集共包含23張圖片,把它們讀取到R語言程序中。在R語言程序中每一張圖片被讀取為一個30×30的像素矩陣G30×30,矩陣中的元素對應(yīng)于該圖片中相應(yīng)位置的像素值。然后把每一張圖片的數(shù)據(jù)向量化,向量化后的數(shù)據(jù)記為G=(g1,g2,…,g900)。這樣,這23張圖片就對應(yīng)23個900維的向量。再把這23個向量按行組合成一個23行900列的新矩陣M23×900,這就是需要處理的數(shù)據(jù)集。對矩陣M進行Isomap降維,設(shè)近鄰參數(shù)k=2,目標維數(shù)設(shè)為1∶10,通過殘差圖來確定降維的目標維數(shù)。殘差圖如圖4所示。
殘差圖的橫坐標代表降維后的目標維數(shù),縱坐標代表降維到該維數(shù)的殘差,其中該殘差表示最短路徑距離矩陣和使用Isomap降維后的低維坐標的歐氏距離矩陣之間的殘差。
通過殘差圖可以發(fā)現(xiàn),當目標維數(shù)降到3維時,殘差圖出現(xiàn)拐點,因而最佳目標維數(shù)為3維。為了便于觀察降維后數(shù)據(jù)點的分布,且降到2維時殘差也較小,本文把目標維數(shù)定為2維。
降維后的散點圖如圖5所示,害怕、惡心、生氣的表情分布在圖左側(cè),中性表情分布在中間,悲傷、高興、驚訝的面部表情依次向右,不同表情的圖片分布在不同的區(qū)域。總體上看,左側(cè)面部圖片的表情變化較大,中間面部圖片的表情沒什么變化,右側(cè)面部圖片的表情變化居中。整體上看,同種表情的圖片分布較近,不同表情的圖片分布較遠。面部變化較為相似的表情,例如悲傷和中性、高興和驚訝距離較近,面部變化區(qū)別較大的表情,如害怕和開心距離較遠。但也有特殊情形,比如一張面部表情為驚訝的圖片出現(xiàn)在了左上方。此數(shù)據(jù)集總體降維效果良好,數(shù)據(jù)映射到低維空間中的結(jié)果較為準確,可用于后續(xù)的分類識別。
3 結(jié) 語
本文通過Isomap方法對人臉圖像這樣的高維流形數(shù)據(jù)進行降維處理,使得數(shù)據(jù)可視化,并能夠觀察到各個高維數(shù)據(jù)點在低維空間中的分布和相對位置關(guān)系。相較于降維前的大維數(shù)據(jù),Isomap方法將測地線距離作為距離的度量方式,不僅考慮了全局的流形拓撲結(jié)構(gòu),還能更好地識別數(shù)據(jù)集中的非線性關(guān)系。本文方法在極大地減少了數(shù)據(jù)復雜度的同時,還使得降維后的數(shù)據(jù)具有良好的可視化效果,有利于深入理解數(shù)據(jù)的內(nèi)在特性,也有利于后續(xù)所需的特征提取、分類識別、機器學習等數(shù)據(jù)分析處理任務(wù),為進一步的工作提供了有力的數(shù)據(jù)支持。
3 結(jié)論
致謝 感謝沈陽師范大學博士科研啟動基金項目(BS202016)的支持。
參考文獻:
[1]PESTOV V.On the geometry of similarity search:Dimensionality curse and concentration of measure[J].Inform Process Lett,2000,73:47-51.
[2]MACKIEWICZ A,RATAJCZAK W.Principal components analysis(PCA)[J].Comput GeosciI-UK,1993,19(3):303-342.
[3]TORGERSON W S.Multidimensional scaling:I.theory and method[J].Psychometrika,1952,17(4):401-419.
[4]TENENBAUM J B,SILVA V,LANGFORD J C.A global geometric framework for nonlinear dimensionality reduction[J].Science,2000,290:2319-2323.
[5]MAHWISH Y.高維數(shù)據(jù)集的非線性Isomap降維方法研究[D].合肥:中國科學技術(shù)大學,2021.
[6]尹峻松.流形學習理論與方法研究及在人臉識別中的應(yīng)用[D].長沙:國防科學技術(shù)大學,2007.
[7]馮海亮.流形學習算法在人臉識別中的應(yīng)用研究[D].重慶:重慶大學,2008.
[8]徐蓉,姜峰,姚鴻勛.流形學習概述[J].智能系統(tǒng)學報,2006(1):44-51.
[9]HOFNER P,MOLLER B.Dijkstra,floyd and warshall meet kleene[J].Form Asp Comput,2012,24:459-476.
[10]周志華.機器學習[M].北京:清華大學出版社,2016:225-237.KRAJCINOVIC D,F(xiàn)ONSEKA G U.The continuous damage theory of brittle materials[J].J Appl Mech,1981,48(4):809-824.
【責任編輯:溫學兵】