張敬尊,張睿哲,徐光美,王金華,何 寧
(北京聯(lián)合大學 智慧城市學院,北京 100101)
稀疏表示作為一種新型的數(shù)據(jù)挖掘技術,具有嚴謹?shù)睦碚撝魏投囝I域的應用驗證,近年來成為機器學習、模式識別、圖像處理等領域的研究熱點。相較于傳統(tǒng)算法,稀疏表示類算法更善于發(fā)現(xiàn)隱藏在數(shù)據(jù)背后的知識,具有優(yōu)秀的特征發(fā)現(xiàn)和保持能力,同時對于圖像中的噪聲具有魯棒性,受噪聲干擾小。該理論認為自然信號可以表示為原子信號的稀疏線性組合,基于特定的基元(Basis)或字典(Dictionary),信號(X)可以通過少量系數(shù)進行緊致表示。由于多學科的研究背景,不同領域?qū)ο∈璞硎镜难芯扛饔袀?cè)重,由此引申出的模型表征也各不相同,自成體系,不利于多領域的應用拓展。遙感領域具有數(shù)據(jù)密集、計算密集的特點,其應用需求與稀疏模型優(yōu)勢相吻合,但由于上述局限,稀疏模型在遙感領域的引入不足,應用受限。
鑒于上述分析,該文對統(tǒng)計學、信號處理、計算機視覺和機器學習等領域中對稀疏表示的研究進行了調(diào)研,以遙感應用需求為導向,提出了遙感適用的稀疏表示框架,基于遙感領域應用不足的現(xiàn)狀,著眼于高光譜圖稀疏處理,歸納了現(xiàn)有的研究基礎及面臨的問題,以期為稀疏模型遙感應用的進一步深入提供參考。
稀疏表示起源于生物視覺領域,1959年Hubel和Wiesel兩位生物學家在研究貓的視覺條紋皮層上細胞的感受野時首次提出了“稀疏”概念,二人在論文中指出“初級視覺皮層(即V1區(qū))上的細胞的感受野能夠?qū)σ曈X感知信息產(chǎn)生一種稀疏的響應,即大部分神經(jīng)元處于靜息狀態(tài),只有少數(shù)的神經(jīng)元處于刺激狀態(tài)”[1]。之后,Barlow等人于1972年給出了“稀疏性和自然環(huán)境的統(tǒng)計特性之間存在著某種相關性聯(lián)系”的推論[2]。利用該推論,Olshausen和Field于1996年提出了稀疏編碼,驗證了自然圖像經(jīng)過稀疏編碼后,學習得到的基函數(shù)可以近似描述V1區(qū)上簡單細胞的感受野的響應特性[3]。兩位科學家于1997年又引入了過完備基(又稱為字典),并提出了基于過完備基的稀疏編碼算法[4]。
在數(shù)學領域尤其是統(tǒng)計學領域,法國數(shù)學家Mallat于1993年基于小波分析提出“信號可以用一個過完備的字典進行表示”,繼而開創(chuàng)了該領域稀疏表示的先河[5]。隨后,Rudin[6]、Tibshirani[7]等人圍繞l1范數(shù)對稀疏性應用進行了理論深入研究。Donoho和Elad于2003年證明只要稀疏界限得到滿足,基于通用字典的稀疏表示唯一解可以通過l1范數(shù)最小化方法獲取[8]。Candes就信號的稀疏性和l1范數(shù)的關系給出了明確的定理[9],隨后,Donoho[10]及Baraniuk[11]等提出了壓縮感知(Compressive Sensing)的概念,從信號表達的角度證明了稀疏表達是高維信號(如音頻、視頻等)在特定基向量(如傅里葉基、小波基等)或者字典(Dictionary)上的一種自然表達,由此發(fā)展的約束化優(yōu)化求解策略為信號的稀疏表達提供了近似最優(yōu)的可計算模型。針對轉(zhuǎn)換后的l1范數(shù)優(yōu)化問題,斯坦福大學的Tibshirani教授提出了經(jīng)典了最小絕對收縮和選擇算法LASSO(Least Absolute Shrinkage and Selection Operator)[12],此后,很多學者又在此基礎上進行了深入研究,并提出了Adaptive Lasso[13],F(xiàn)used Lasso[14]等基于LASSO算法的變體。
機器學習領域優(yōu)化理論的發(fā)展為稀疏問題求解提供了強有力的技術支撐,稀疏表示轉(zhuǎn)化為基于不同范數(shù)約束的目標函數(shù)最優(yōu)化問題,在自然圖像處理、人臉識別等子領域中均有非常成功的應用。就稀疏編碼問題,發(fā)展出了匹配追蹤算法(Matching Pursuit,MP)[5]和正交匹配追蹤算法(Orthogonal Matching Pursuit,OMP)[15]兩個經(jīng)典求解算法;針對字典學習問題,Engan等人提出了MOD算法(Method of Directions)[16],Aharon等人提出了經(jīng)典的K-SVD算法[17],Mairal等人提出了線上字典學習算法[18]。
伴隨統(tǒng)計學領域理論研究的深入,稀疏表示模型在信號處理、計算機視覺、圖像處理等多個領域取得了很多成功的應用,總結(jié)各領域的研究分支如表1所示。
表1 稀疏表示模型領域應用總結(jié)
由于多學科的研究背景,稀疏表示在不同的領域各有研究側(cè)重,由此引申出的關鍵詞/術語描述也略有不同,主要包括:稀疏表示(Sparse Representation)、稀疏表達建模(Sparse Representation Modeling)、稀疏建模(Sparse Modeling)、稀疏機器學習(Sparse Machine Learning)、稀疏啟發(fā)模型(Sparse-inspired Model)、稀疏優(yōu)化(Sparse Optimization)、稀疏估計(Sparse Approximation)、字典學習(Dictionary Learning)、稀疏編碼(Sparse Coding)、稀疏分解(Sparse Decomposition)。綜合各關鍵詞的表達側(cè)重,基于該文的研究背景和遙感應用領域,采用關鍵詞稀疏表示(Sparse Representation)用以描述挖掘數(shù)據(jù)稀疏性的整體框架,字典學習(Dictionary Learning)和稀疏編碼(Sparse Coding)是其中的兩個主要任務。
稀疏表示的核心是信號擬合問題,對于復雜的多維信號來說,將每個信號看作為由多個基函數(shù)(基變換)的線性組合,且其中大部分基函數(shù)對應的系數(shù)為零,每個基函數(shù)被稱為基元(Basis),所有基元的組合為字典(Dictionary),信號基于字典的系數(shù)是稀疏的。已知字典,求解信號的最優(yōu)稀疏分解系數(shù)或稀疏逼近過程稱為稀疏編碼(Sparse Coding),基于信號尋求其低維最優(yōu)字典的過程稱為字典學習(Dictionary Learning)。
已知信號集X=[x1,x2,…,xn]∈Rm×n,基于字典D=[d1,d2,…,dk]∈Rm×k,稀疏編碼的目標是從字典中找到最小的基元子集對每個信號xi∈Rm進行無噪聲數(shù)據(jù)的精確表示。
(1)
或含噪聲數(shù)據(jù)的近似表達:
(2)
上式等價于:
(3)
(1)l0范數(shù),非零元素的個數(shù),‖α‖0={i:αi≠0}。
(4)lr,p范數(shù),‖A‖r,p=‖(‖A1‖r,…,‖Am‖r)‖p,A∈Rm×n。
其中,(1)~(3)三種誘導函數(shù)適用于各信號間相互獨立的情況,(4)用以刻畫信號間的結(jié)構關系,即信號間彼此不獨立,如圖像分類問題中通常假設相鄰像元屬于同一類別,即相鄰元素的稀疏表達關聯(lián)相同組合的字典基元,由此,相鄰像元的多個系數(shù)向量可構成行稀疏矩陣。有學者[19]在特征選擇的具體應用中將其稱為Vector-based和Matrix-based。實際應用領域的降維、分類、去噪、目標識別等子問題均可看作是上述模型的具體體現(xiàn),不同應用背景及領域先驗知識前提下,損失函數(shù)有其針對性體現(xiàn)和擴展,通過不同的稀疏誘導函數(shù)以獲得問題的最優(yōu)解。針對由不同稀疏誘導函數(shù)構建的稀疏編碼模型,統(tǒng)計學、信號處理、機器學習等領域的學者提出了諸多優(yōu)化求解算法[20]。依據(jù)稀疏誘導函數(shù)類型,對應的稀疏模型和經(jīng)典求解算法如下:
基于l0范數(shù)對應的數(shù)學模型為:
(4)
或
(5)
基于l0范數(shù)的稀疏編碼模型是對數(shù)據(jù)稀疏性的簡單而直觀的描述,實際應用中,由于其非凸性使得目標函數(shù)的求解為NP難題,其求解多采用貪婪類算法,即首先確定解向量的支持集,然后直接利用最小二乘優(yōu)化在支持集上求解稀疏系數(shù)α。典型代表算法包括匹配追蹤算法MP[5]和正交匹配追蹤算法OMP[15]。
字典是稀疏表示模型性能的制約因素,通常,根據(jù)字典基元的構建方式一般可將字典分為預定義字典、自適應字典和學習字典三類。
預定義字典是稀疏表示中最初的字典形式,通常稱為過完備字典,即字典中基元的個數(shù)超過信號的維數(shù),在過完備字典前提下,任一信號在不同的基元組下都有不同的稀疏表示。過完備字典通過已知的變換基進行選取,如傅里葉、離散余弦或小波等[21],一旦完成構建則字典保持固定不變且將用于表示所有的信號。這種方法相對簡單易實施,對特定類型的信號非常有效,而對于其他類型的信號表示效果則可能非常不好。
自適應字典在預定義字典的基礎上通過在特定參數(shù)(連續(xù)或者離散的)控制下生成字典基元[22],其應用的泛化能力具有明顯的局限性。
無論是預定義字典還是自適應字典通常都具有較快的變換速度,但兩種字典都不能處理稀疏信號,且其僅適用于特定類型的圖像和信號,無法用于新數(shù)據(jù)。針對上述缺點,Olshausen和Field兩位生物學家摒棄傳統(tǒng)的基于理論的字典構建方式[3],從訓練樣本中發(fā)掘數(shù)據(jù)中隱藏的知識,并抽取為字典基元,繼多次開拓性實驗后,二人證明了這種方式獲取的字典可以很容易地發(fā)現(xiàn)自然圖像中的底層結(jié)構,該研究可以看作是學習字典的起源,之后,在此基礎上逐漸展開了更為深入的研究。
學習字典引入了學習機制,其字典基元通過訓練和學習大量的與目標信號相似的數(shù)據(jù)來獲得,其構建過程是動態(tài)的,學習所得字典能夠適用于符合稀疏定義的任何類型的信號?;谝阎盘枠嬙熳值涞倪^程稱為字典學習,構造的字典可以對指定信號進行稀疏表示是基本前提,因此,信號的最優(yōu)稀疏表示是字典學習的目標。從待表示的數(shù)據(jù)出發(fā),字典學習算法尋求與待表示數(shù)據(jù)相關且完備的字典基元,該類方法通過學習樣本可以保持與實際應用的高相關性[23],具有靈活性大,表示性能好等優(yōu)點,但同時該類方法計算量大,需要根據(jù)具體的任務進行學習[20]。
字典學習問題數(shù)學模型如下,已知訓練樣本X=[x1,x2,…,xn]∈Rm×n,基于一定的先驗知識約束,尋求最優(yōu)字典D,以使得樣本集中每個信號在D上具有最優(yōu)稀疏表達。
(6)
其中,A=[α1,α2,…,αn]∈Rk×n包含了訓練樣本的稀疏系數(shù)X=[x1,x2,…,xn],φ:Rk→R是稀疏誘導函數(shù),用以控制系數(shù)稀疏度,實際應用中有各種體現(xiàn)形式,λ為調(diào)節(jié)參數(shù),平衡系數(shù)稀疏性和模型擬合度,通常情況下,λ值越大,則系數(shù)中非零元素越少,但二者之間并非單調(diào)遞減關系,相關研究有待深入。C包含了對字典的限制,通常采用如下形式:C={D∈Rm×k|?j‖dj‖2≤1},即將字典D各列元素的值限制在一個l2-ball范圍內(nèi),以防止其過大或過小而導致系數(shù)向量αi各元素值波動劇烈。
與稀疏編碼問題類似,從其他描述角度模型式(6)還有如下三種形式:
(1)約束形式變體形式:
s.t.φ(αi)≤μ
(7)
等價于,
(8)
(2)矩陣分解角度變體形式:
(9)
(3)經(jīng)驗風險最小化變體形式:
(10)
其中,L:Rm←Rm×n為如下形式損失函數(shù):
(11)
此時,字典學習問題轉(zhuǎn)換為經(jīng)驗風險最小求解問題。部分實際應用中,人們并不關心經(jīng)驗函數(shù)fn(D)的準確最小值,而是更以其期望最小f(D)為目標,以此來衡量學習到的字典在新數(shù)據(jù)上的有效性。
(12)
字典學習算法通常給字典設定初值,然后基于稀疏表示的結(jié)果對字典基元進行更新,算法包括基于字典的樣本表示、字典基元更新兩個主要階段,其中樣本表示階段與上節(jié)的稀疏編碼相對應,文中總結(jié)的算法均可以用于該階段的問題求解,字典構建階段以訓練樣本為輸入,學習字典為輸出。以應用背景為前提的數(shù)學模型構建、編碼策略選擇、字典構造方案設計是字典學習的三個關鍵問題。經(jīng)典的字典學習算法包括最優(yōu)方向算法MOD[16]、K-SVD算法[17],兩種算法在許多領域中得到了應用,特別是在圖像和音頻處理方面。
Elad等人證明了圖像的稀疏性[24],自此,稀疏模型成為圖像處理領域的研究熱點。遙感圖像由于成像機理復雜、數(shù)據(jù)量大等特點,稀疏模型的應用相對較少。高光譜遙感圖像作為一種典型的超高維數(shù)據(jù),具有譜間高相關性以及地物空間分布排列的稀疏性特點,面臨如何從海量高維數(shù)據(jù)中挖掘出感興趣地物診斷性信息的瓶頸。稀疏表示則恰好可以針對上述高相關所致的高冗余與感興趣信號的稀疏性進行地物信息的有效分析,突破瓶頸,因此,在高光譜圖像的降維[25]、去噪[26]、解混[27]、分類[28]以及目標探測[29]等任務中均有稀疏模型的應用研究。該文重點對稀疏降維和稀疏分類展開分析。
有學者研究發(fā)現(xiàn),在不影響解譯精度的前提下,90%的光譜波段是冗余的[30],在保證解譯性能的前提下發(fā)現(xiàn)更具判別性的特征是高光譜降維任務的目標,不僅可以提高地物分類和探測的效果,同時也可以降低數(shù)據(jù)處理的復雜度,提高計算效率。特征選擇類降維方法從原始波段空間選擇更具表征性的子集,相對于原始冗余的光譜波段信息而言,目標波段子集是稀疏的,設定合理的目標函數(shù)以便于盡量多地保留原始數(shù)據(jù)的主要光譜特征,算法本質(zhì)上是組合優(yōu)化問題。該類方法可以有效保證光譜波段的物理意義,但盡量“多”的特征與盡量“少”的冗余兩個目標之間是相互制約的,目前國內(nèi)外研究較少[31]。特征提取類算法首先將原始的高光譜特征進行映射,之后在映射后的特征中進行分量選擇。有學者研究了組稀疏逐層變換進行高光譜降維[32],此外稀疏保持投影算法SPP(Sparse Preservation Projection)在高光譜降維中研究也較集中[33],但上述方法均需利用已知的樣本信息作為先驗,利用稀疏模型尋求高維信號在低維子空間的映射,算法屬于監(jiān)督降維,樣本標記代價高。近期,有學者開展半監(jiān)督稀疏降維[25],削弱了模型對訓練樣本的依賴。利用稀疏性驅(qū)動進行高光譜圖像維數(shù)約簡研究,已經(jīng)成為業(yè)內(nèi)的研究熱點問題,非監(jiān)督類稀疏降維以及算法時空復雜度的進一步降低亦有待開拓性研究。
另一方面,基于稀疏表達的高光譜圖像分類也越來越受到關注,針對高光譜數(shù)據(jù)冗余性,將高維信息表達為稀疏字典與其系數(shù)的線性組合,采用稀疏表達對高光譜圖像進行處理,能夠簡化分類模型中參數(shù)估計的病態(tài)問題[34],可以看作稀疏模型用于高光譜圖像分類任務的開創(chuàng)性研究,論文中選取所有的訓練集作為字典并基于該字典對所有待分類像元進行稀疏表達,同時通過鄰域空間拉普拉斯算子對相鄰像元間的空間關系進行刻畫并對稀疏表達的結(jié)果作后驗修正。其實驗結(jié)果表明,基于稀疏表達的算法相較于其他傳統(tǒng)算法性能有明顯提升,不足之處在于存在過平滑現(xiàn)象,同時,算法中使用的字典為預設的固定字典,未對訓練集數(shù)據(jù)的特征保持度、訓練集數(shù)量敏感度作針對性學習。此后,為緩解過平滑現(xiàn)象,有學者將非局部空間相關性[35],結(jié)構形狀先驗[36]對稀疏表示模型進行擴展,此外,還有學者將核化算法引入到稀疏表示模型中用以求解高光譜信號的非線性可分問題[37]?;谙∈璞硎镜母吖庾V圖像分類成為高光譜領域的另一研究熱點,受制于高光譜圖像中同物異譜、異物同譜現(xiàn)象嚴重,地物分布復雜,空間尺度差異大,有標記樣本少,噪聲類型復雜多樣等情況,當前的圖像分類研究僅能同時應對其中的部分問題,還難以自動化完成大面積地物識別的任務[38]。同時,為充分發(fā)揮稀疏表示模型的優(yōu)勢,相較于上述研究中所使用的固定字典而言,基于訓練集的字典學習研究也成為必然需求。
綜上,作為一種典型的超高維數(shù)據(jù),高光譜信號處理面臨如何從海量高維數(shù)據(jù)中挖掘出感興趣地物診斷性信息的瓶頸。傳統(tǒng)圖像處理平臺和信息提取方式在面對體量巨大的高維原始數(shù)據(jù)時難以滿足目標信息快速獲取的需求。稀疏學習可以利用海量高維數(shù)據(jù)的高冗余性與感興趣信號的稀疏性,能夠有效提取出高光譜地物信息,該技術在高光譜圖像的恢復、重建以及分析等任務中的應用研究逐漸開展,但相對于機器學習、計算機視覺等領域而言,高光譜領域的應用在深度上有待進一步深入,仍存在較大的研究難點和潛力[39],具體如下:
(1)最優(yōu)稀疏學習方法或模式的選擇非常困難,解決問題的角度選取以及恰當?shù)南∈枵T導函數(shù)選擇都沒有標準可以參照。
(2)學習字典相對于固定字典的優(yōu)勢明顯,但盡管各領域?qū)τ谧值鋵W習已有較為詳細的研究及成果,但在具體應用時需要結(jié)合應用背景進行針對性模型構建,模型中先驗知識的刻畫以及字典基元數(shù)量與學習過程中的數(shù)值計算,內(nèi)存消耗以及與信號表達的有效性之間的關系均需作針對性的分析。
(3)結(jié)合高光譜遙感圖像獨有的特性,對圖像的上下文、形態(tài)特征等先驗知識進行合理刻畫并與稀疏表示框架結(jié)合,將稠密數(shù)據(jù)轉(zhuǎn)為稀疏數(shù)據(jù),從而提升算法性能仍有很多問題需要解決。
(4)海量數(shù)據(jù)下,樣本標記代價非常高,亟需無監(jiān)督類稀疏模型的開拓性研究。
(5)當處理高維遙感數(shù)據(jù)時,所需的訓練樣本量和相應的計算負荷增加,同時兼顧算法的性能和速度面臨挑戰(zhàn),亟需高性能解決方案。
稀疏表示的本質(zhì)是用盡可能少的資源表示盡可能多的知識,這種表示方法的有利之處在于既可以節(jié)約數(shù)據(jù)的存儲空間,又能提高計算速度。伴隨稀疏表示在高光譜圖像處理領域應用的逐漸深入,稀疏表示框架的優(yōu)勢逐漸被認知和推崇,除高光譜外其他類遙感圖像處理任務中對該框架的引入以及適用性亦有待進一步探究。同時,在大數(shù)據(jù)量背景下,在保證圖像處理算法性能的同時,進一步降低算法的空間占用和計算復雜度,基于高性能的遙感數(shù)字圖像處理亦成為當前及未來遙感應用的迫切需求。