王麗娟,李可愛,郝志峰,蔡瑞初,尹 明
(廣東工業(yè)大學(xué) a.計算機學(xué)院; b.自動化學(xué)院,廣州 510006)
線性回歸模型通過擬合一個線性映射模擬自變量和因變量之間的關(guān)系,是機器學(xué)習(xí)中的重要技術(shù)之一[1],然而其對噪聲數(shù)據(jù)缺乏魯棒性并且在處理高維數(shù)據(jù)時存在維度災(zāi)難問題。為此,研究者通常假設(shè)數(shù)據(jù)中的噪聲是高斯分布的,以提升模型的魯棒性,通過維度約減方法如PCA算法,選擇最相關(guān)的特征,刪除冗余特征,以解決維度災(zāi)難問題。但是,現(xiàn)實中的訓(xùn)練數(shù)據(jù)經(jīng)常會遭到一些任意、無限制甚至來自非特定分布的噪聲破壞,從而使這些模型的評估結(jié)果嚴(yán)重偏離期望值,導(dǎo)致模型不能正確地反映數(shù)據(jù)與目標(biāo)之間的映射關(guān)系[2]。
為了解決噪聲或異常值的影響,研究者提出魯棒回歸模型,例如基于最小平方和魯棒性模型[3-4]以及統(tǒng)計領(lǐng)域中使用最小平方中值[5]模型。但在處理高維數(shù)據(jù)(如人臉圖像)時,上述模型的計算復(fù)雜度高,導(dǎo)致實際應(yīng)用非常耗時。此外,基于特征之間相關(guān)性的線性回歸,等價于學(xué)習(xí)LDA投影子空間中的正則化回歸,可以減少正態(tài)分布噪聲和異常值[6]。然而,這些模型不能有效處理主子空間之外的大量噪聲或異常值。研究者發(fā)現(xiàn)基于低秩正則化的優(yōu)化算法對數(shù)據(jù)的噪聲或異常值具有較好的魯棒性,這些算法通常假設(shè)高維數(shù)據(jù)位于多個低維子空間的并集中[7-9],通過求解整個數(shù)據(jù)矩陣的最小秩問題,可以有效地恢復(fù)位于幾個低維子空間的干凈數(shù)據(jù)[10-12]。這些子空間學(xué)習(xí)的方法被成功地應(yīng)用在人臉圖像數(shù)據(jù)集上[13-14],然而其通常以無監(jiān)督的方式去除變量中的噪聲和異常值,缺乏與標(biāo)簽信息的相關(guān)性。
本文構(gòu)建一個基于低秩表示的魯棒回歸模型(Low Rank Representation-based Robust Regression Model,LR-RRM),通過求解原始數(shù)據(jù)的自表達系數(shù)矩陣的秩最小化問題和干凈數(shù)據(jù)回歸模型的學(xué)習(xí)問題,去除噪聲或異常值,獲得魯棒的回歸性能。LR-RRM模型以監(jiān)督學(xué)習(xí)的方式從高維數(shù)據(jù)中恢復(fù)潛在的子空間結(jié)構(gòu),同時在重構(gòu)的干凈數(shù)據(jù)中學(xué)習(xí)有效的回歸模型參數(shù)。
s.t.X=XZ+E
(1)
由于低秩約束和l0范數(shù)都是非凸的,因此直接求解式(1)最優(yōu)解比較困難[16]。根據(jù)凸優(yōu)化理論,將低秩約束和l0范數(shù)分別凸松弛為核范數(shù)和l1范數(shù),則式(1)可改寫為:
s.t.X=XZ+E
(2)
其中,‖·‖1是l1范數(shù),表示非零元素之和,‖·‖*是核范數(shù),矩陣的核范數(shù)表示該矩陣的奇異值之和。
值得注意的是,LR-RRM模型不是通過LRR得到干凈數(shù)據(jù),然后再將該干凈數(shù)據(jù)應(yīng)用于線性回歸分類,而是以有監(jiān)督的方式進行干凈數(shù)據(jù)與噪聲數(shù)據(jù)分離,使得重構(gòu)的干凈數(shù)據(jù)XZ可以保留與標(biāo)簽Y有最大相關(guān)性的X的子空間。因此,噪聲或異常值部分E能夠有效地對數(shù)據(jù)X內(nèi)的誤差建模,與標(biāo)簽Y沒有直接的相關(guān)性。而且,恢復(fù)的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都對噪聲或異常值具有魯棒性,有利于區(qū)分不同類別的數(shù)據(jù)點。
s.t.X=XZ+E,Z=W,Z=R
(3)
則增廣拉格朗日函數(shù)定義如式(4)所示。
β‖E‖1+
(4)
(5)
對于矩陣Z、T、E、W、R的求解,通過固定4個變量,更新另一個,以保證子問題的求解是凸函數(shù)。即式(5)通過下面的子問題進行迭代求解:
1)固定Z、E、W、R,更新T的子問題如式(6)所示。
(6)
可以得到封閉解為:
T*=(YWΤXΤ)(XWWΤXΤ)-1
(7)
2)固定Z、T、E、R,更新W的子問題如式(8)所示。
(8)
可以得到封閉解為:
W*=[(TX)ΤTX+μI]-1((TX)ΤY+μZ+J2)
(9)
3)固定Z、T、E、W,更新R的子問題如式(10)所示。
(10)
可以通過奇異值分解[18]得到封閉解如式(11)所示。
(11)
其中,奇異值閾值D定義為:
4)固定Z、T、W、R,更新E的子問題如式(12)所示。
(12)
使用軟閾值進行求解,得到封閉解為:
(13)
5)固定T、E、W、R,更新Z的子問題如式(14)所示。
(14)
可以得到封閉解為:
Z*=(XΤX+2I)-1·
(15)
6)更新拉格朗日乘子J1、J2、J3和懲罰因子μ如式(16)所示。
(16)
輸入數(shù)據(jù)矩陣X,one-hot標(biāo)簽矩陣Y,參數(shù)α、β
輸出Z,T
初始化Z,W,R,T,t=0,ε=10-8
while not converged or t t=t+1 固定其他變量,使用式(7)更新T 固定其他變量,使用式(9)更新W 固定其他變量,使用式(11)更新R 固定其他變量,使用式(13)更新E 固定其他變量,使用式(15)更新Z 固定其他變量,使用式(16)更新J1,J2,J3和μ 收斂條件: ‖X-XZ-E‖<ε ‖Z-W‖<ε ‖Z-R‖<ε end while return Z,T s.t.Xte=Xclean-trZte+Ete (17) 輸入Xte,干凈的訓(xùn)練數(shù)據(jù)Xclean-tr和參數(shù)γ 輸出Zte 初始化Zte,Ete,P,t=0,ε=10-8 while not converged or t t = t + 1 固定Zte,Ete,更新P: 固定Ete,P,更新Zte: 固定Zte,P,更新Ete: 更新拉格朗日乘子J4,J5和懲罰因子μ: 收斂條件: ‖Xte-Xclean-trZte-Ete‖<ε ‖Zte-P‖<ε end while return Zte 求解式(17)后,使用Yte=TXclean-trZte計算測試數(shù)據(jù)Xte的分類輸出。 為了驗證LR-RRM模型的有效性和準(zhǔn)確性,本文在4個公開的高維人臉數(shù)據(jù)集上進行了3組對比實驗,對比模型分別為標(biāo)準(zhǔn)線性回歸(LR)、魯棒主成分分析+線性回歸(RPCA-LR)以及低秩表示+線性回歸(LRR-LR)。使用分類準(zhǔn)確率衡量所有模型的泛化能力,其中:標(biāo)準(zhǔn)LR模型直接從原始含有噪聲的數(shù)據(jù)X中學(xué)習(xí)回歸矩陣T;RPCA-LR和LRR-LR模型分別對原始數(shù)據(jù)進行RPCA和LRR處理,分離出原始數(shù)據(jù)的干凈部分和噪聲部分,然后使用標(biāo)準(zhǔn)LR學(xué)習(xí)干凈數(shù)據(jù)的回歸模型。為保證實驗結(jié)果的公平性,本文使用五折交叉驗證,將每個數(shù)據(jù)集平均分成5份,依次選取其中一份數(shù)據(jù)樣本作為測試集,剩余部分作為訓(xùn)練集,最后取5次實驗結(jié)果的平均值作為最終結(jié)果。 為了比較LR-RRM模型和其他對比模型的魯棒性,分別在Extend YaleB、AR、ORL和PIE數(shù)據(jù)集的每個樣本上人工添加隨機的椒鹽噪聲,其概率密度分別設(shè)定為5%、10%、15%和20%。 Extend YaleB數(shù)據(jù)集包含38個人不同程度陰影破壞的正面對齊人臉圖像,每個人有64張圖像,且都被裁剪為192像素×168像素[19]。本文實驗使用了前10個人的人臉圖像,并將圖像下采樣為48像素×42像素。該數(shù)據(jù)集部分的原始人臉圖像、隨機添加噪聲的人臉圖像以及LR-RRM模型恢復(fù)的結(jié)果如圖1所示??梢钥闯?隨著噪聲密度的增大,恢復(fù)干凈數(shù)據(jù)更加困難。但當(dāng)人臉圖像含有20%的噪聲時,LR-RRM算法依然可以恢復(fù)出人臉圖像。 圖1 LR-RRM模型在Extend YaleB數(shù)據(jù)集上恢復(fù)的人臉圖像 Fig.1 Face image restored by LR-RRM model on Extend YaleB dataset AR人臉數(shù)據(jù)集包含超過4 000張彩色的人臉圖像,包括70名男性和56名女性[20]。這些圖像由不同光照變化、表情和面部偽裝的正面圖像組成。本文實驗從50名男性和50名女性中隨機選擇每個人具有光照變化和表情變化的14張圖像,并轉(zhuǎn)換為灰度圖像下采樣到55像素×40像素。與Extend YaleB數(shù)據(jù)集相比,AR數(shù)據(jù)集有更豐富的面部表情變化,如圖2所示,面部表情笑或者不笑、閉眼或者睜眼等。ORL數(shù)據(jù)集由劍橋大學(xué)AT&T實驗室收集,包括40個人的400張正面和側(cè)面的人臉圖像[14]。如圖3所示,不同的人臉圖像之間存在姿勢、光照和面部表情的差異,本文實驗將每個圖像下采樣到32像素×32像素。PIE數(shù)據(jù)集由美國卡內(nèi)基梅隆大學(xué)創(chuàng)建,包括41 368張圖像,其中有不同姿勢、光照和表情變化的差異,部分人臉圖像如圖4所示。本文實驗選用每人30張圖像,并將其下采樣到64像素×64像素。 圖2 AR數(shù)據(jù)集人臉圖像 圖3 ORL數(shù)據(jù)集人臉圖像 圖4 PIE數(shù)據(jù)集人臉圖像 在參數(shù)選擇過程中,對原始的4個公開數(shù)據(jù)集,測試不同參數(shù)對模型的影響。本文LR-RRM模型含有α和β2個參數(shù),其在4個標(biāo)準(zhǔn)數(shù)據(jù)集上對LR-RRM分類準(zhǔn)確率的影響如圖5所示。當(dāng)保持β值不變時,α在一定的范圍內(nèi)變化,LR-RRM模型具有一定的穩(wěn)定性。表1給出使用五折交叉驗證得到實驗中4個數(shù)據(jù)集的LR-RRM最佳參數(shù)。 圖5 不同數(shù)據(jù)集中的參數(shù)選擇 表1 4個公開數(shù)據(jù)集中參數(shù)的取值 Table 1 Values of parameters in 4 public datasets 數(shù)據(jù)集αβExtended YaleB0.102.5AR0.044.0ORL3.000.3PIE0.104.2 表2~表5給出了在4個數(shù)據(jù)集中對比實驗結(jié)果。 表2 在Extend YaleB數(shù)據(jù)集上的分類準(zhǔn)確率 Table 2Classification accuracy on the Extend YaleB dataset% 圖片LRRPCA-LRLRR-LRLR-RRM原始圖片96.1297.4382.5498.95圖片+5%隨機噪聲92.4393.6778.7395.83圖片+10%隨機噪聲86.5587.7162.3689.56圖片+15%隨機噪聲80.3082.4252.2583.87圖片+20%隨機噪聲73.1074.1326.8476.31 表3 在AR數(shù)據(jù)集上的分類準(zhǔn)確率 Table 3 Classification accuracy on the AR dataset% 圖片LRRPCA-LRLRR-LRLR-RRM原始圖片93.3797.1795.4898.72圖片+5%隨機噪聲82.6487.7491.2392.56圖片+10%隨機噪聲62.4565.3677.8278.33圖片+15%隨機噪聲45.3247.1053.9361.20圖片+20%隨機噪聲36.2535.5133.8156.11 表4 在ORL數(shù)據(jù)集上的分類準(zhǔn)確率 Table 4 Classification accuracy on the ORL dataset% 算法LRRPCA-LRLRR-LRLR-RRM原始圖片90.7485.4692.7294.51圖片+5%隨機噪聲81.3578.3584.1386.72圖片+10%隨機噪聲63.5369.1662.9770.43圖片+15%隨機噪聲50.7448.5238.6459.34圖片+20%隨機噪聲36.3833.7122.3341.36 表5 在PIE數(shù)據(jù)集上的分類準(zhǔn)確率Table 5 Classification accuracy on the PIE dataset % 當(dāng)在原始數(shù)據(jù)集上存在較少的噪聲時,4種模型均可獲得相對較好的性能。隨著在原始數(shù)據(jù)集上添加不同密度的隨機噪聲,對比模型在不同的數(shù)據(jù)集上的分類準(zhǔn)確率下降較快,而LR-RRM模型仍然可以保持相對較好的分類準(zhǔn)確率。因此,LR-RRM模型對噪聲的魯棒性更好。AR數(shù)據(jù)集中的圖片擁有更豐富的面部表情變化,在該數(shù)據(jù)集上進行測試時,LR-RRM分類準(zhǔn)確率優(yōu)于其他對比模型。在表3中,特別是對于含有20%噪聲的AR圖片,其他3種模型分類準(zhǔn)確率只有35%左右,而LR-RRM模型的分類準(zhǔn)確率為56.11%,顯示其對噪聲和異常值的高維數(shù)據(jù)更魯棒。從表2~表5可以得出以下結(jié)論: 1)與LR、RPCA-LR和LRR-LR模型相比,LR-RRM在4種原始數(shù)據(jù)集以及添加隨機噪聲后的數(shù)據(jù)集上更具有魯棒性。這主要是由于LR-RRM模型以監(jiān)督學(xué)習(xí)的方式從高維數(shù)據(jù)中恢復(fù)潛在的子空間結(jié)構(gòu),同時在重構(gòu)的干凈數(shù)據(jù)中學(xué)習(xí)有效的回歸模型參數(shù),獲得魯棒的回歸性能。 2)LR-RRM對于高維噪聲和異常數(shù)據(jù)集更魯棒。這是由于LR-RRM模型是以有監(jiān)督的方式進行干凈數(shù)據(jù)與噪聲數(shù)據(jù)的分離,使得重構(gòu)的干凈數(shù)據(jù)可以保留與標(biāo)簽信息有最大相關(guān)性的低維子空間,去除無關(guān)的噪聲和異常值。 從大量實驗結(jié)果可以得出,LR-RRM模型可以更好地處理含有隨機光照變化和像素損壞的高維人臉圖像。 本文構(gòu)建一個LR-RRM模型,以監(jiān)督學(xué)習(xí)的方式解決高維數(shù)據(jù)的低秩子空間表示問題。LR-RRM通過求解秩最小化問題和學(xué)習(xí)回歸模型,去除噪聲或異常值。在低秩的約束下,該模型能夠從含有噪聲或異常值的高維數(shù)據(jù)中恢復(fù)干凈的數(shù)據(jù),并能有效地學(xué)習(xí)回歸模型參數(shù)。實驗結(jié)果表明,LR-RRM模型可以較好地處理含有隨機光照變化和像素損壞的高維人臉圖像。但是,該模型的算法時間復(fù)雜度較高,下一步將重點研究如何快速優(yōu)化模型性能。2 分類器
3 實驗與結(jié)果分析
3.1 實驗數(shù)據(jù)
3.2 參數(shù)選擇
3.3 算法復(fù)雜度分析
3.4 實驗結(jié)果與分析
4 結(jié)束語