史澤林,劉天賜,劉云鵬
(1.中國科學院沈陽自動化研究所·沈陽·110016; 2. 中國科學院機器人與智能制造創(chuàng)新研究院·沈陽·110169; 3. 中國科學院光電信息處理重點實驗室·沈陽·110016)
在計算機視覺中,基于黎曼幾何的流形方法已成為了一個重要的研究方向。其前提是數(shù)據(jù)滿足流形假設,即呈現(xiàn)在高維空間中的源自現(xiàn)實世界的真實數(shù)據(jù)往往分布在一個低維流形空間上,流形的維度與其所“嵌入”的高維歐氏空間的維度相比要低很多。這種先驗假設似乎特別適合于完成人工智能(Artificial Intelligence, AI)領域的相關任務,如涉及圖像、聲音或文本識別處理等的工作任務。因此,研究人員很自然地考慮到用流形來表示輸入空間的變化分布,從數(shù)據(jù)的流形觀點出發(fā),對數(shù)據(jù)潛在的流形結(jié)構進行建模。這一方法論充分利用了黎曼流形的幾何性質(zhì),因而又被稱作黎曼幾何流形方法,即黎曼流形方法。
在圖像分析領域中,有學者將特征協(xié)方差矩陣作為區(qū)域描述子[1]。此時,該描述子即為分布在正定對稱矩陣流形上的數(shù)據(jù)點。例如,對于圖像集合而言,用子空間來表示圖像集是一種常見的方法[2]。此時,用來表示圖像集合的子空間便可被視為分布在Grassmann流形[3]上的數(shù)據(jù)點。這樣,圖像集合也可被視為分布在Grassmann流形上的不同的數(shù)據(jù)點。
本文重點介紹了黎曼流形方法在計算機視覺領域中的研究現(xiàn)狀。首先,簡要介紹了黎曼流形的一些重要概念,并結(jié)合若干典型視覺任務,介紹了幾種常用的黎曼流形;隨后,就黎曼流形的視覺應用,總結(jié)了目前國內(nèi)外相關的研究現(xiàn)狀及具有代表性的工作,著重介紹了近幾年來黎曼流形與深度學習相結(jié)合的研究進展;最后,對在機器學習領域中引入黎曼流形的未來發(fā)展方向進行了討論。
拓撲流形,簡稱流形,是在局部與歐氏空間同胚的拓撲空間,而微分流形是具有全局可定義微分結(jié)構的拓撲流形。對于微分流形而言,流形上每個點都對應著切空間,該點的切空間是由經(jīng)過該點所有曲線的切向量組成的向量空間。
黎曼流形是一種特殊的微分流形,即一種具有黎曼度量的微分流形。具體而言,黎曼流形在其上的每個點的切空間中均賦予了相應內(nèi)積,而所有切空間上對應的內(nèi)積便被稱作黎曼度量。黎曼度量是黎曼流形最重要的性質(zhì),它使我們能夠在流形上定義各種幾何概念,例如兩條曲線之間的角度和曲線的長度。對于黎曼流形而言,將流形上兩點之間的最短距離定義為連接兩點間的最短曲線的長度,并將該最短距離稱為測地距離;相應地,連接此兩點的最短曲線則被稱作測地線,該最短曲線類似于歐氏空間中兩點間的直線段。由黎曼度量推導出的測地距離是度量黎曼流形上兩點之間距離的最本質(zhì)的幾何度量,在圖像處理和模式識別領域中有著重要應用。
定義1:設M是m維光滑流形,對于流形上的任一點x∈M,存在切空間TxM,其上切向量長度的定義為對M的每個切空間TxM賦予一個內(nèi)積g(x)=<,>x:TxM×TxM→R。任意的切向量U,V∈TxM,若滿足以下性質(zhì):
? 對稱性:g〈U,V〉x=g〈V,U〉x;
? 正定性:g〈U,U〉x>0,如果X≠0
則稱(M,g)為一個m維黎曼流形,g稱為黎曼度量。
在黎曼流形(M,g)上,曲線γ:[a,b]→M的長度為
(1)
而黎曼流形(M,g)上的任意兩點x,y∈M的黎曼距離為
(2)
式(2)中,Γ是M上連接點x和點y的所有曲線的集合。其中,黎曼距離滿足以下性質(zhì):
?正定性:dist(x,y)≥0。其中,當且僅當x=y時,有dist(x,y)=0;
?對稱性:dist(x,y)=dist(y,x);
?三角不等性:dist(x,z)+dist(z,y)≥dist(x,y)
測地線指的是連接任意兩點x,y∈M的所有連續(xù)可微曲線γ:[a,b]→M中長度最小的曲線,即
(3)
從圖像的幾何角度出發(fā),測地線距離為圖像集合的內(nèi)在關系在流形空間上的度量。
給定黎曼流形M上的任意兩點X,Y∈M,X和Y之間的最短路徑定義為連接這兩點的測地線γ(t),t∈[0,1]。切空間TXM是由所有切向量V∈TXM構成的。其中,切向量V的長度等于流形M上點X和點Y之間測地線的長度。黎曼對數(shù)映射RlogX:M→TXM通過映射RlogX(Y)=V將點X和點Y之間的測地線(如圖1中的虛線所示)從流形M映射到切空間TXM中,而黎曼指數(shù)映射RexpX:TXM→M通過映射RexpX(V)=Y,將切向量V映射回原始的流形空間。在黎曼流形中,通過這一方法,流形上測地線的長度等價于根據(jù)黎曼對數(shù)映射在切空間中獲得的對應切向量的長度。即對于流形上的任意兩點X,Y∈M,結(jié)合測地線和黎曼指數(shù)映射可知,黎曼流形上兩點間測地距離的計算公式為
(4)
圖1 黎曼流形上的指數(shù)映射和黎曼對數(shù)映射示意圖Fig.1 Schematic diagram of exponential mapping and Riemannian logarithmic mapping on Riemannian manifolds
對于計算機視覺而言,許多視覺數(shù)據(jù)與黎曼流形有著密不可分的聯(lián)系。例如:在目標跟蹤過程中,圖像的幾何變換構成SL(3)群;圖像序列和視頻可以依據(jù)特征子空間進行建模,從而具有Grassmann流形結(jié)構;在圖像處理與模式識別領域中,協(xié)方差矩陣作為圖像的特征表征,具有良好的正定對稱結(jié)構,進而可以利用正定對稱進行流形建模。總體而言,圖像與黎曼流形的關系主要體現(xiàn)在兩個方面,一方面是圖像中目標發(fā)生的幾何變換在流形空間中的分布;另一方面,是圖像特征空間構成了圖像在黎曼流形空間中的幾何分布。接下來,總結(jié)了在計算機視覺領域中被廣泛應用的幾種李群及黎曼流形,以此來具體介紹黎曼幾何與圖像的關系。
在計算機視覺中,在跟蹤和檢測目標時,目標不可避免地會經(jīng)歷幾何變換??紤]到圖像的幾何結(jié)構,可以通過某些具有群結(jié)構的運動變換群來描述視覺模式的特征[4-5]。對圖像中的幾何變換群進行分析,在包括目標跟蹤、目標檢測和圖像配準等[6-9]在內(nèi)的許多視覺任務中均有著廣泛應用。
在計算機視覺中,可以通過齊次坐標系下的線性方程來表示圖像的幾何變換,相應的幾何變換矩陣可以用一個3×3的非奇異矩陣表示,該矩陣被稱為單應矩陣。具體而言,給定任意的圖像I1,其灰度值可表示為I1(p),而I1經(jīng)過幾何變換后的圖像I2的灰度值可表示為I2(T(p;r))。相應地,兩幅圖像的灰度值關系可用下列線性方程表示
I2(T(p;r))=I1(p)
(5)
在這種情況下,經(jīng)過幾何變換后的圖像像素間的關系可表示為
(6)
式(5)表示的是變換后的圖像相對于原始圖像的幾何變換,且p=(x,y)T是圖像像素的位置坐標,r=(r1,r2,…,r8)T表示的是對應的參數(shù)向量。
因此,單應矩陣的定義如下
(7)
進而,歸一化后的單應矩陣具有了特殊線性群的流形結(jié)構,構成了具有以下結(jié)構的李群
SL(3,R)={X∈GL(3,R):det(X)=1}
(8)
式(8)中,GL(3,R)是由可逆的3 × 3實矩陣組成的一般線性群。
李群是具有黎曼流形可微分結(jié)構的矩陣李群, 可以將其理解為一種特殊的黎曼流形。同一目標在不同角度下獲得的圖像,其圖像間經(jīng)歷的幾何變換構成的幾何變換矩陣,分布在黎曼流形空間中。針對圖像幾何變換與黎曼流形的關系的研究,文獻[4]通過建立目標在圖像中經(jīng)歷的幾何變換矩陣的可視化模型,直觀驗證了圖像幾何變換在流形空間中的幾何分布,揭示了圖像與黎曼流形之間的內(nèi)在聯(lián)系,其目標的圖像幾何變換的可視化結(jié)果如圖2所示:(a)為體育場目標在不同距離下的拍攝圖像;(b)為在不同距離下成像的目標圖像間的幾何變換關系所對應的可視化結(jié)果。在圖2(b)中,其坐標軸對應三維空間中的虛擬坐標,其點間距離反映了圖像幾何變換的劇烈程度。
(a)
(b)圖2 圖像幾何變換的可視化結(jié)果Fig.2 Visualization results of image geometric transformation
近年來,利用特征協(xié)方差矩陣描述目標的目標建模方法受到日益廣泛的關注。如圖3所示,用目標的灰度、梯度、小波和空域信息等多種特征構建協(xié)方差矩陣以描述目標,特征協(xié)方差矩陣的集合構成了正定對稱流形。正定對稱(Symmetry Positive Definite,SPD)流形在計算機視覺領域中有著各種各樣的應用[10]。比如,特征協(xié)方差矩陣可被應用在目標檢測[11]、紋理分類[12-13]、動作識別[14-15]等領域,分散張量成像(Diffusion Tensor Imaging,DTI)是SPD流形的另一個主要應用方向[16]。關于正定對稱流形的幾何學論述可參見文獻[17-18],其給出了正定對稱流形上的黎曼指數(shù)映射及其逆映射的解析表達式。特別地,文獻[17]給出了正定對稱流形上的兩種不同的數(shù)學結(jié)構,即具有仿射不變黎曼度量的普通黎曼結(jié)構和具有雙不變黎曼度量的新的李群結(jié)構。需要特別指出的是,后者并不是普通意義上的矩陣李群,其上的雙不變黎曼度量的存在使得流形上的測地距離和黎曼均值的計算變得十分簡單。另外,文獻[19]研究了正定對稱流形上的多變量正態(tài)分布,分析了黎曼曲率對正態(tài)分布的影響,值得關注。
圖3 目標的特征協(xié)方差矩陣建模Fig.3 Target characteristic covariance matrix modeling
當所涉及數(shù)據(jù)集的單個數(shù)據(jù)均位于某個線性空間的子空間時,可用格拉斯曼(Grassmann)流形描述該數(shù)據(jù)集。Grassmann流形主要可用于對圖像集和視頻進行建模,圖像集合間的內(nèi)在關系可以表示在流形空間上,圖像在黎曼流形上的空間分布如圖4所示。利用Grassmann流形對圖像進行建模具有不受光照條件、拍攝角度影響等優(yōu)點,進而可被廣泛地應用在人臉識別[20-21]、動作識別[22]和運動群分析[23]等方向。在基于圖像集的人臉識別中,同一個人的人臉圖像集被表示為線性子空間。由于線性子空間具有嚴格的Grass-mann流形結(jié)構,可以將這些人臉圖像集表示為Grassmann流形上的數(shù)據(jù)點。比如,在寬松的假設下,同一目標(如人臉)在變化的光照條件下,所得到圖像的集合分布在一個多維子空間中[24],全部的子空間集合構成 Grassmann 流形。如圖5所示,假設每幅圖像的大小是n×n,每組圖像集有p幅圖像,則圖中的四組圖像集分別對應 Grassmann 流形G(n2,p)上的四個點。文獻[25]綜合核函數(shù)方法和稀疏編碼的優(yōu)點,拓展核稀疏子空間聚類模型至Grassmann流形,將稀疏子空間聚類方法與核函數(shù)方法相結(jié)合,學習Grassmann流形的核稀疏表示,提出了一種基于Grassmann流形的圖像集聚類方法,用于人臉聚類。在動作識別中,特征子空間則由包含特定動作的圖像序列計算獲得。文獻[26]從黎曼流形的幾何角度出發(fā),提出了一種從流形到流形的Grassmann幾何降維方法。該模型提出了一種具有正交約束的降維方法,進而將降維問題轉(zhuǎn)化為Grassmann流形上的優(yōu)化問題,在降維的同時提升了動作識別的識別效果。關于 Grassmann 流形的數(shù)學分析及幾何屬性,詳見文獻[27]和文獻[28] 。文獻,給出了關于 Grassmann 流形的不同理解和矩陣描述,以及 Grassmann 流形上的黎曼指數(shù)映射和對數(shù)映射,還特別分析了 Grassmann 流形上的各種優(yōu)化算法。許多計算機視覺領域的相關文獻(如文獻[29]和文獻[30])引用了 Grassmann 流形上的各種距離度量,有關這些距離度量的理論分析均源自關于 Grassmann 流形微分幾何學的文獻[31]。目前,針對Grassmann 流形方法的應用研究方興未艾,這些研究包括通信信道中的最優(yōu)預測和編碼問題,航天飛機外形設計中的流形插值運算,以及運動分割問題所涉及到的流形聚類問題等。
圖4 圖像在黎曼流形上的空間分布Fig.4 Spatial distribution of images on Riemannian Manifolds
圖5 變化光照條件下的圖像集構成Grassmann流形Fig.5 Grassmann manifolds constructed by image sets under varying illumination conditions
早期的流形方法經(jīng)歷了不同的發(fā)展階段。主成分分析(Principal Component Analysis,PCA)方法[32]可以看作是最初的流形幾何方法原型。PCA方法以線性流形為模型,其最初的設計目的是找出最接近數(shù)據(jù)點云的線性流形。主成分是指輸入數(shù)據(jù)映射在流形上的成分,它對應著流形上的內(nèi)蘊坐標。對于非線性流形而言,其學習模型主要基于構建鄰接圖來學習參數(shù)映射矩陣?;卩徑訄D的流形幾何方法主要將從訓練數(shù)據(jù)中學習到的參數(shù)映射矩陣應用到新的數(shù)據(jù)中,從而獲得新數(shù)據(jù)的流形映射。流形學習這一概念的提出可以追溯到2000年局部線性嵌入(Locally linear Embedding)方法[33]和等距映射(Isomap)方法[34]在國際著名期刊Science上的發(fā)表。局部線性嵌入方法是一種無監(jiān)督的流形學習方法,它認為數(shù)據(jù)在局部滿足線性關系,即每個數(shù)據(jù)均可由其鄰域中的幾個樣本線性表示,通過構建加權鄰接圖來獲得高維數(shù)據(jù)的低維表示,并在學習到的低維表示中保持原始數(shù)據(jù)間的局部線性關系;等距映射方法是一種全局模型,該方法通過構建數(shù)據(jù)的全局鄰接圖,將計算兩點間的測地線距離轉(zhuǎn)換為計算兩點間在鄰接圖上的最短路徑距離,通過測地線距離替代歐氏距離。拉普拉斯特征映射方法[35]通過構建無向加權圖來描述數(shù)據(jù)的流形結(jié)構,然后通過圖嵌入方法獲得數(shù)據(jù)的低維表示;半監(jiān)督嵌入方法[36]通過學習鄰接圖對流形結(jié)構進行直接編碼,該方法中的參數(shù)化神經(jīng)網(wǎng)絡結(jié)構可同時對流形嵌入映射和分類器進行學習。此類流形方法的主要目的是學習數(shù)據(jù)樣本中的潛在流形結(jié)構,而其潛在流形結(jié)構是未知的。這類方法常常假設數(shù)據(jù)樣本中的噪聲較少,不帶噪聲的樣本分布在流形上,而噪聲樣本的分布遠離流形,因此此類方法往往對噪聲敏感。
然而,現(xiàn)實數(shù)據(jù)中的復雜數(shù)據(jù)具有更為復雜的非線性流形結(jié)構。當構建的鄰接圖難以有效表達數(shù)據(jù)間的結(jié)構時,對于復雜數(shù)據(jù)的建模要借助局部線性切空間方法[37-42]。與早期基于構建鄰接圖的流形方法相比,此類方法的最大不同之處在于其所使用的流形種類是已知的,即可以清楚地知道數(shù)據(jù)中所蘊含的流形的種類。而在計算機視覺和機器學習領域,許多相關算法,包括支持向量機(Support Vector Machine,SVM)、PCA等經(jīng)典算法,均無法被直接應用于流形數(shù)據(jù)。如果忽略流形數(shù)據(jù)的幾何結(jié)構,直接把這些基于歐氏結(jié)構的方法應用在流形數(shù)據(jù)上,正如文獻[43]和文獻[44]所提及,通常會產(chǎn)生不理想的效果。當需要處理的流形數(shù)據(jù)具有黎曼結(jié)構時,一種常用的方法是通過將流形數(shù)據(jù)映射到流形上某一特定點的切空間來處理流形的非線性結(jié)構,這一特定點通常選取為數(shù)據(jù)的均值點。文獻[11]是基于切空間映射方法的最成功的算法之一,它提出了一種在黎曼流形上進行學習的行人檢測方法。該方法將協(xié)方差矩陣作為目標特征描述子,在靜態(tài)圖像中檢測行人。然而,將流形數(shù)據(jù)映射到切空間的方法僅僅是對流形非線性結(jié)構的一階近似。該方法的局限在于,當數(shù)據(jù)分布遠離切空間原點時,該框架下的近似結(jié)構易發(fā)生扭曲。除此之外,迭代地進行流形空間與切空間之間的映射操作具有極高的計算復雜度。對于基于切空間映射的方法而言,切空間原點(即參考點)的選擇至關重要。切空間原點選擇的質(zhì)量嚴重影響著近似方法的準確性,選擇幾何特性良好的切空間原點以達到出色的算法性能并不容易。
黎曼流形與向量空間(歐氏空間)的最大區(qū)別在于,歐氏空間具有簡單且容易理解的數(shù)學特性,如歐氏距離、范數(shù)、向量內(nèi)積等。在計算機視覺領域中的許多以歐氏空間為幾何基礎的算法中,對于核函數(shù)方法的使用也取得了不錯的效果[45-46]。因此,完全可以通過類似方法,將黎曼流形嵌入到高維的重構核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中。此高維空間可以看作是一個無窮維的線性空間,因此許多歐氏空間中的算法均可被直接應用到RKHS空間中,這是由于RKHS空間也具有向量空間的重要幾何特性——內(nèi)積。雖然RKHS空間具有良好的幾何結(jié)構,但如何將流形空間嵌入到RKHS空間是最重要的問題,即如何找到合適的、定義在黎曼流形上的映射核函數(shù),進而把流形空間的非線性結(jié)構映射到無窮高維的重構希爾伯特空間中,以將線性空間中的算法拓展至流形空間。
對于流形上的映射核函數(shù),文獻[47]使用了SPD流形上的核函數(shù),并將其與局部保留映射(Locality Preserving Projections)方法進行了結(jié)合,其使用的映射核函數(shù)是根據(jù)仿射不變距離推導的。文獻[48]提出了SPD流形上的核稀疏編碼方法,其使用的映射核函數(shù)為高斯映射核函數(shù);在文獻[49]中,映射距離核函數(shù)及其變型被應用于Grassmann流形的分類問題。根據(jù)Mercer定理,核函數(shù)必須是正定的。然而,盡管許多正定核函數(shù)在歐氏空間下具有很好的效果,但是當將同樣的正定核函數(shù)應用于流形數(shù)據(jù)時,效果卻并不理想。因此,對于流形上的核函數(shù)方法而言,關鍵點在于找到適合的映射核函數(shù)形式。
近幾年來,在計算機視覺和機器學習領域的各種任務中,深度神經(jīng)網(wǎng)絡的性能表現(xiàn)遠超傳統(tǒng)的淺層學習網(wǎng)絡。正是由于深度學習在計算機視覺、自然語言處理和人工智能等在內(nèi)的多個領域的廣泛應用中取得了空前的成功[50-56],最近幾年,研究者們將深度學習與黎曼流形進行了結(jié)合,以充分發(fā)揮深度神經(jīng)網(wǎng)絡在解決涉及幾何結(jié)構的相關任務中的潛力[57],并提出了一些新的代表性方法,包括測地線卷積[58]和矩陣反向傳播方法[59]?;谶@些工作,越來越多的新型神經(jīng)網(wǎng)絡建立在非歐空間中[60-65]。例如,文獻[60]通過圖傅里葉變換提出了一種面向圖數(shù)據(jù)的變形卷積網(wǎng)絡,并定義了一種圖拉普拉斯算子,進而將拉普拉斯算子推廣到了圖數(shù)據(jù)上。之后,文獻[64]在空域-時域圖上提出了一種深度學習方法。該方法將空域-時域圖看作是一個前向的遞歸混合網(wǎng)絡。文獻[65]在正定對稱流形上構建了深度網(wǎng)絡,同時將該網(wǎng)絡通過矩陣反向傳播方法進行了訓練。
流形上的深度學習網(wǎng)絡建立在矩陣反向傳播框架[59]的基礎上,進而將傳統(tǒng)的向量數(shù)據(jù)間的梯度計算推廣到了流形數(shù)據(jù)。在這一理論框架中,一些現(xiàn)代矩陣分析方法(包括矩陣鏈式法則及矩陣微分原理等)同樣是必不可少的工具。在這些理論基礎得以發(fā)展的前提下,文獻[66]提出了在正交限制條件下處理矩陣數(shù)據(jù),進而將數(shù)據(jù)空間轉(zhuǎn)換到Stiefel流形上。該方法在卷積神經(jīng)網(wǎng)絡框架下,為網(wǎng)絡后端的參數(shù)空間賦予了正交結(jié)構,進而達到了優(yōu)化參數(shù)空間的目的。在之后一系列的相關研究中,在傳統(tǒng)神經(jīng)網(wǎng)絡中基于向量結(jié)構的操作(如卷積、池化、標準化等操作層)也針對流形結(jié)構數(shù)據(jù)進行了重新設計。對于卷積操作而言,文獻[64]提出了測地線卷積這一概念。該方法能夠在諸如姿態(tài)識別任務中建立形狀對應性和恢復形狀時發(fā)揮優(yōu)勢。然而,僅僅經(jīng)過改進的神經(jīng)網(wǎng)絡層不能直接擴展到流形數(shù)據(jù)以支持流形上的深度學習方法,因為這其中的大多數(shù)操作(如線性或非線性變換等)均無法保留流形的幾何結(jié)構。為了在深度網(wǎng)絡的學習過程中保持流形幾何結(jié)構,目前現(xiàn)存的方法主要可歸為兩類:第一類是基于流形幾何結(jié)構的內(nèi)蘊方法,另一類是基于映射的嵌入方法。二者的主要區(qū)別在于是否需要將黎曼流形嵌入到一個更高維的歐氏空間中。對于不同的黎曼流形而言,相應的內(nèi)蘊方法也有所不同,這是因為不同類型的流形具有不同的幾何結(jié)構。對于第一類方法而言,文獻[65]以正定對稱流形作為輸入,根據(jù)正定對稱流形的幾何特性,設計了正定對稱流形上的映射層、特征分解層、對數(shù)映射層等,進而實現(xiàn)了正定對稱流形上的深度學習。文獻[61]以Grassmann流形作為輸入,通過轉(zhuǎn)換層、正交化層、映射層等學習了分類能力更強的流形數(shù)據(jù),之后再將流形數(shù)據(jù)嵌入到歐氏空間,最后接入softmax層進行識別,進而實現(xiàn)了Grassmann流形上的圖像集識別網(wǎng)絡。第二類方法基于外部空間映射的思想,通過將黎曼流形上的數(shù)據(jù)映射到切空間中,從而把流形空間中的深度學習問題轉(zhuǎn)換為向量空間中的深度學習問題。由于流形上某點的切空間是向量空間,傳統(tǒng)深度網(wǎng)絡中的各種常規(guī)線性操作層則可在切空間中進行計算。換言之,可以訓練常規(guī)的深度神經(jīng)網(wǎng)絡來學習從數(shù)據(jù)的輸入空間(即歐幾里得空間)到黎曼流形切空間的映射,之后再通過黎曼對數(shù)映射將數(shù)據(jù)從切空間拉回到流形空間??傮w而言,基于流形的深度學習網(wǎng)絡在視頻/圖像集分類、表情分類、動作識別、精細圖像分類等領域中都取得了出色的表現(xiàn)。
近幾年來,隨著深度學習方法的火速發(fā)展,現(xiàn)階段對于黎曼流形學習方法而言,既是機遇,又是挑戰(zhàn)。黎曼流形學習方法在計算機視覺中的發(fā)展,趨于如下幾個方向:
(1)將黎曼幾何嵌入深度網(wǎng)絡:近年來,人們對基于黎曼幾何的深度神經(jīng)網(wǎng)絡越來越感興趣,并且認為該方向有可能成為提高深度學習準確性和魯棒性的主流方法。在這個方向上,黎曼流形學習技術將起到關鍵作用,因為通過該方法,數(shù)據(jù)的結(jié)構信息可被嵌入到網(wǎng)絡中。盡管取得了一些初步進展[67-68],但基于幾何的深度神經(jīng)網(wǎng)絡意味著網(wǎng)絡幾何結(jié)構上的轉(zhuǎn)換,其中仍然存在許多挑戰(zhàn),例如通過對黎曼流形進行正則化來克服過度擬合問題,為非歐結(jié)構層設計更為有效的優(yōu)化方法,以及如何從真實世界數(shù)據(jù)集中獲取幾何特征等。
(2)幾何深度學習:即對具有幾何結(jié)構的數(shù)據(jù)進行深度學習的方法的研究,該領域代表了深度學習領域的新趨勢之一。這些具有幾何結(jié)構的數(shù)據(jù)不僅包括圖像/視頻,還包括其他類型的數(shù)據(jù),如黎曼結(jié)構數(shù)據(jù)、三維立體目標數(shù)據(jù)、圖結(jié)構數(shù)據(jù)和社交網(wǎng)絡數(shù)據(jù)等[67]。
(3)魯棒機器學習:機器學習方法模型的一個最顯著的弱點是其容易受到惡意對抗性干擾的影響,對抗性攻擊對諸如深度神經(jīng)網(wǎng)絡之類靈活性較強的模型而言更是如此。這些對抗干擾會誤導模型做出錯誤決策[69-70]。研究表明,Grassmann流形學習方法對于小擾動表現(xiàn)出了一定程度的魯棒性[71],最直觀的原因是小擾動很難將一個子空間更改為另一個子空間。 因此,如何利用Grassmann流形及其他黎曼流形設計出魯棒性更強的機器學習模型,具有重要的研究價值。
數(shù)據(jù)幾何結(jié)構的重要性是不容忽視的,即便如此,傳統(tǒng)方法仍然通常將數(shù)據(jù)在向量空間中進行處理。然而,黎曼流形方法可充分利用數(shù)據(jù)的幾何結(jié)構,從非歐幾何角度入手設計和優(yōu)化學習模型,在計算機視覺領域的諸多任務中往往能獲得更好的學習效果。除了從學習模型的優(yōu)化角度考慮,視覺任務中數(shù)據(jù)的黎曼結(jié)構特性也使得黎曼學習方法成為了解決相應任務的關鍵手段。對于近年來備受矚目的深度學習技術而言,如何巧妙地將黎曼流形方法與深度學習方法相結(jié)合,進而為解決深度學習方法在模型訓練、模型設計及模型可解釋性等環(huán)節(jié)存在的相關問題,提供了一個強有力的工具。