摘要:低秩表示(Low-Rank Representation,LRR) 能夠?qū)⒚總€數(shù)據(jù)點表示為若干個基的線性組合,是一種獲取樣本底層低維結(jié)構(gòu)的方法。然而,大多數(shù)LRR 方法使用原始數(shù)據(jù)集作為字典,這不能揭示數(shù)據(jù)的真實分割。本文提出了基于子空間字典低秩表示的流形投影學習:該方法學習最優(yōu)子空間作為LRR 問題的字典,而不是使用原始數(shù)據(jù)集;利用基數(shù)最少的方案,低秩表示矩陣能很好地恢復(fù)原始數(shù)據(jù);通過對投影矩陣施加行稀疏約束,該方法不僅可以選擇鑒別性特征并忽略冗余特征,而且使子空間學習具有很好的解釋性。此外,通過引入流形結(jié)構(gòu)保持約束,使得樣本的原始表示和距離信息在投影下保持不變。在多個真實世界數(shù)據(jù)集上的實驗結(jié)果表明,該方法優(yōu)于最近提出的一些相關(guān)方法。
關(guān)鍵詞:低秩表示;無監(jiān)督投影;子空間學習;特征提?。涣餍螌W習
中圖分類號:TP391.4 文獻標志碼:A
低秩表示(Low-Rank Representation, LRR) 是機器學習中的一類重要表示學習方法,其主要思想是學習數(shù)據(jù)的低秩表示來發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的低維結(jié)構(gòu)[1]。觀測數(shù)據(jù)可能取自多個不相交的子空間的并集,根據(jù)這個假設(shè),LRR 學習方法具有最低秩的數(shù)據(jù)的表示。由于數(shù)據(jù)點可以表示為基的線性組合,因此LRR 方法通過選擇特定的字典來捕獲數(shù)據(jù)的底層結(jié)構(gòu)。LRR 方法還可以有效地執(zhí)行子空間聚類和糾錯[2]。這意味著, 如果數(shù)據(jù)受到噪聲或離群點的污染,LRR 方法可以準確地恢復(fù)行空間和離群點,這些行空間和離群點是由多個線性或仿射子空間[3-4] 用低秩表示得到。
LRR 和投影學習都能發(fā)現(xiàn)數(shù)據(jù)的潛在低維結(jié)構(gòu),有很多研究[5-8] 將二者有機結(jié)合,利用投影矩陣約束LRR 的學習過程。在過去的幾十年中,諸如數(shù)據(jù)挖掘[9]、計算機視覺[10-11] 等問題涉及低秩表示和特征提取,因為矩陣的秩是挖掘嵌入在樣本特征中的局部或全局信息的潛在度量,盡管這些低秩投影或低秩嵌入方法具有健壯性,但研究人員在探索高維原始數(shù)據(jù)中的低維嵌入時存在性能不足的問題。為了解決這個問題,Wong 等[5] 提出了一種稱為低秩嵌入的穩(wěn)健線性降維方法,該方法在特征提取方面具有一定的優(yōu)勢。為了在特征提取中同時保持全局和局部結(jié)構(gòu),Wen 等[6] 提出了一種基于LRR的投影方法,該方法在學習低秩表示的同時對數(shù)據(jù)重建誤差施加圖約束。Lu 等[7] 提出了一種基于重構(gòu)誤差最小化的子空間學習和自適應(yīng)概率鄰域圖嵌入的方法,該方法利用自適應(yīng)圖的內(nèi)在關(guān)系來獲取數(shù)據(jù)點之間的相似性。Lu 等[12] 提出一種對稱圖學習模型,它在集成學習框架中探索數(shù)據(jù)點的距離信息和數(shù)據(jù)的表示信息。
雖然上述研究在低秩表示方面取得了一定的成果,但仍有一些問題需要解決。首先,大多數(shù)LRR 相關(guān)方法利用原始數(shù)據(jù)集本身作為低秩表示的字典,但這并不是最佳選擇[1]。由于原始數(shù)據(jù)集可能包含噪聲和離群點,使用該數(shù)據(jù)集作為糾錯字典將導(dǎo)致低秩矩陣不能反映真實的分割結(jié)果。作為線性張成數(shù)據(jù)空間的基本向量,字典必須能夠通過簡單的線性組合來表示原始數(shù)據(jù)集[2]。其次,低秩投影算法不限制投影本身,因此無法提取用于識別的關(guān)鍵特征[13],在投影中考慮區(qū)分特征是特征提取或選擇的關(guān)鍵[14]。最后,低秩圖嵌入方法不能有效地保留非線性高維數(shù)據(jù)中固有的低維結(jié)構(gòu),限制了它們的應(yīng)用。在投影過程中應(yīng)該保持原始數(shù)據(jù)的流形結(jié)構(gòu),這使得投影學習具有更好的可解釋性[15]。