孫 俊 靳海濤 武小紅 陸 虎 沈繼鋒 戴春霞
(1.江蘇大學(xué)電氣信息工程學(xué)院, 鎮(zhèn)江 212013; 2.江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院, 鎮(zhèn)江 212013)
茶葉以其清熱、解毒等功效深受廣大消費(fèi)者喜愛(ài)[1-2],但目前茶葉市場(chǎng)存在以次充好的現(xiàn)象,嚴(yán)重?fù)p害消費(fèi)者權(quán)益,也影響經(jīng)營(yíng)者的管理,因此,有效、準(zhǔn)確的茶葉品種鑒別是十分有必要的[3]。傳統(tǒng)的鑒別方法主要是感官判別法和化學(xué)試驗(yàn)分析法,這些方法主觀性較強(qiáng)、破壞性大、不易推廣[4]。視覺(jué)圖像技術(shù)[5]可以通過(guò)外部特征進(jìn)行茶葉品種鑒別,但該方法無(wú)法獲取茶葉內(nèi)部的特征信息[6];光譜技術(shù)[7]因能檢測(cè)樣品內(nèi)部特征信息,且具有速度快、成本低等優(yōu)點(diǎn)在農(nóng)副產(chǎn)品品種鑒別領(lǐng)域得到廣泛關(guān)注,但光譜技術(shù)在處理數(shù)據(jù)時(shí)缺少樣本的空間信息,這兩種技術(shù)的側(cè)重點(diǎn)不同,所帶來(lái)的局限性必然會(huì)影響最終的鑒別效果。因此,如何結(jié)合各種鑒別手段,提高茶葉品種鑒別的精度是一個(gè)新的研究方向。
高光譜圖像技術(shù)作為一種快速無(wú)損檢測(cè)的方法,將圖像技術(shù)和光譜技術(shù)結(jié)合,融合兩種技術(shù)的優(yōu)勢(shì),對(duì)研究對(duì)象的內(nèi)外部特征同時(shí)進(jìn)行檢測(cè),近些年已被廣泛應(yīng)用于農(nóng)副產(chǎn)品的定性分析中[8-11]。然而,因?yàn)楦吖庾V數(shù)據(jù)量龐大,波段繁多,且相鄰波段間相關(guān)性強(qiáng)[12],所以對(duì)數(shù)據(jù)進(jìn)行降維處理顯得極其重要。隨著深度學(xué)習(xí)技術(shù)的發(fā)展[13-15],自動(dòng)編碼器(Stacked auto-encoder,SAE)通過(guò)輸出對(duì)輸入的重構(gòu)從而對(duì)高維數(shù)據(jù)進(jìn)行特征學(xué)習(xí),該技術(shù)已被推廣到圖像處理、數(shù)據(jù)分類的應(yīng)用場(chǎng)合中[16-17],與高光譜圖像技術(shù)的結(jié)合也越來(lái)越受到關(guān)注。
圖1 茶葉樣本 Fig.1 Tea samples
但是,高光譜圖像在獲取過(guò)程中不可避免地受到各種干擾,例如高斯白噪聲、稀疏的沖擊噪聲、壞死的線條等[18-19]。這不僅使圖像的視覺(jué)效果變差,更對(duì)高光譜圖像的實(shí)際應(yīng)用造成很大的影響。因此對(duì)高光譜圖像進(jìn)行去噪處理[20-21]至關(guān)重要。傳統(tǒng)的自動(dòng)編碼器也常被應(yīng)用于降噪處理,降噪自動(dòng)編碼器(DAE)[22-23]假設(shè)訓(xùn)練數(shù)據(jù)是干凈的,它所針對(duì)的噪聲是人為添加來(lái)訓(xùn)練的。然而,受噪聲影響的真實(shí)數(shù)據(jù)是不符合上述假設(shè)的。因此,從實(shí)際的已被破壞的數(shù)據(jù)中學(xué)習(xí)深層特征,對(duì)于構(gòu)建魯棒的特征提取器來(lái)說(shuō)是非常關(guān)鍵的。就目前所知,這種基于自動(dòng)編碼器的深度學(xué)習(xí)方案以前并沒(méi)有被討論過(guò)。
近幾年來(lái),低秩矩陣恢復(fù)(Low-rank matrix recovery,LRMR)的方法被引入到高光譜圖像恢復(fù)領(lǐng)域中,取得較好的效果。LU等[24]采用低秩矩陣恢復(fù)的方法去除高光譜圖像中的壞死線噪聲,考慮局部的幾何結(jié)構(gòu)并添加了圖的正則化;ZHANG等[25]基于低秩矩陣恢復(fù)的方法較為成功地去除了高光譜圖像的混合噪聲,其正是得益于無(wú)噪的高光譜圖像數(shù)據(jù)低秩的特性。由于這些技術(shù)的優(yōu)點(diǎn),低秩矩陣恢復(fù)已經(jīng)成功地應(yīng)用于不同的場(chǎng)景,例如多視點(diǎn)學(xué)習(xí)、轉(zhuǎn)移學(xué)習(xí)和字典學(xué)習(xí)[26-27]。 然而,并沒(méi)有相關(guān)文獻(xiàn)將低秩矩陣恢復(fù)與深度學(xué)習(xí)框架聯(lián)系起來(lái)。
為更加有效地進(jìn)行茶葉高光譜圖像品種鑒別,本文聯(lián)合優(yōu)化自動(dòng)編碼器和低秩矩陣恢復(fù),構(gòu)建低秩自動(dòng)編碼器(LR-SAE),在自動(dòng)編碼器的降維基礎(chǔ)上加入去噪處理,提取高光譜數(shù)據(jù)魯棒判別特征,建立茶葉品種的鑒別模型。
試驗(yàn)前于鎮(zhèn)江某大型超市購(gòu)買5個(gè)不同品種的綠茶:炒青茶(安徽黃山)、龍井茶(浙江)、毛峰(江蘇宜興)、云霧綠茶(浙江)、碧螺春(江蘇蘇州),樣本如圖1所示。每種茶葉取80個(gè)樣本,分別放入廣口試劑瓶中,并貼上標(biāo)簽,共計(jì)400個(gè)樣本。將其密封保存立即送往高光譜實(shí)驗(yàn)室進(jìn)行高光譜圖像采集。
圖2 高光譜成像系統(tǒng)結(jié)構(gòu)圖 Fig.2 Configuration diagram of hyperspectral imaging system 1.移動(dòng)平臺(tái)控制器 2.高光譜圖像攝影儀 3.光纖 4.鹵素?zé)艄庠?5.處理器 6.樣本 7.移動(dòng)平臺(tái)
本試驗(yàn)所采用的高光譜成像系統(tǒng)結(jié)構(gòu)如圖2所示,主要包括光纖、2個(gè)光纖鹵素?zé)?2900型,Illumination Technologies, USA)、高光譜圖像攝影儀(ImSpector V10E, Spectral Imaging Ltd., Oulu, Finland)、移動(dòng)平臺(tái)控制器(北京光學(xué)儀器廠,中國(guó))和處理器等部分。高光譜圖像攝影儀中的攝像機(jī)為CCD相機(jī),光譜儀為可見(jiàn)-近紅外光譜儀,光譜范圍為431~962 nm,光譜分辨率為2.9 nm,圖像分辨率為1 628像素×1 125像素。
采用直徑6.4 cm、高0.7 cm的塑料圓形器皿均勻放置茶葉樣品,將圓形器皿放置在移動(dòng)速度為2.1 mm/s的移動(dòng)平臺(tái)上進(jìn)行數(shù)據(jù)采集,將光源與樣本距離設(shè)置為6 cm,相機(jī)鏡頭距樣本12 cm。
感興趣區(qū)域(ROI)是樣本圖像中選取分析的重點(diǎn)區(qū)域,感興趣區(qū)域的選取對(duì)后續(xù)的試驗(yàn)質(zhì)量至關(guān)重要。如圖3a所示,為系統(tǒng)掃描得到的茶葉樣品高光譜圖像,本文統(tǒng)一提取高光譜圖像中心區(qū)域100像素×100像素部分為感興趣區(qū)域。圖3b為茶葉樣本高光譜數(shù)據(jù)。
圖3 感興趣區(qū)域提取與分析 Fig.3 Extraction and analysis of region of interest
高光譜圖像數(shù)據(jù)的采集使用Spectral cube軟件平臺(tái)(Spectral Imaging Ltd., Finland);ROI提取采用ENVI. 5.1(Research System, Inc., USA);最終試驗(yàn)?zāi)P陀?xùn)練是在CPU為Intel Core i5 3230M 2.60 GHz、內(nèi)存為8 GB的Windows 10系統(tǒng)下,利用Matlab R2014b軟件完成的。
1.3.1SAE深度模型
自動(dòng)編碼器(AE)自RUMELHART等[28]初次使用之后,就廣泛應(yīng)用于特征學(xué)習(xí)。自動(dòng)編碼器主要由編碼器和解碼器兩部分構(gòu)成,在對(duì)輸入數(shù)據(jù)進(jìn)行學(xué)習(xí)時(shí),其目的是通過(guò)編碼和解碼將輸入數(shù)據(jù)在輸出中重構(gòu)出來(lái)。從某種程度而言,AE是一個(gè)小型的深度學(xué)習(xí)模型,該模型主要包括輸入層、隱含層和輸出層3部分。
假設(shè)無(wú)標(biāo)簽訓(xùn)練樣本x,自動(dòng)編碼器的編碼任務(wù)是將輸入的訓(xùn)練樣本通過(guò)非線性映射函數(shù)映射到隱含層,其數(shù)學(xué)表達(dá)式為
h=f(x)=sf(Wx+bh)
(1)
式中h——隱含層激活值
sf——編碼激活函數(shù)
W——輸入層與隱藏層之間的權(quán)值矩陣
bh——輸入層與隱藏層之間的偏移向量
自動(dòng)編碼器的解碼任務(wù)是將激活值h逆向轉(zhuǎn)換成對(duì)輸入x的重構(gòu)y,其數(shù)學(xué)表達(dá)式為
y=g(h)=sg(W′h+by)
(2)
式中y——激活值反向變換成對(duì)原始輸入的重構(gòu)
sg——解碼激活函數(shù)
W′——隱含層與輸出層之間的權(quán)值矩陣
by——隱含層與輸出層之間的偏移向量
平均重構(gòu)函數(shù)為
L=‖x-y‖2
(3)
通過(guò)不斷修改參數(shù)來(lái)最小化平均重構(gòu)函數(shù)L。對(duì)于最小平均重構(gòu)L,y就可以被認(rèn)為保留了原始數(shù)據(jù)的大部分信息[29]。
實(shí)際應(yīng)用中,多采用包含多個(gè)隱含層的自動(dòng)編碼器網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)處理,即堆疊自動(dòng)編碼器(SAE)。通過(guò)引入神經(jīng)網(wǎng)絡(luò)天然的非線性,SAE更適用于高光譜數(shù)據(jù)處理等非線性任務(wù)。
1.3.2低秩矩陣恢復(fù)
當(dāng)高光譜圖像受到高斯白噪聲的微小擾動(dòng)時(shí),含噪的高光譜數(shù)據(jù)Y∈Rn×b可以分解成一個(gè)低秩的矩陣X和一個(gè)微小擾動(dòng)的矩陣E,低秩矩陣恢復(fù)的目的就是以一種最優(yōu)手段將Y分解出含盡量少噪聲的X和噪聲矩陣E。
當(dāng)矩陣E服從獨(dú)立同分布的高斯分布時(shí),可用經(jīng)典主成分分析通過(guò)奇異值分解來(lái)完成數(shù)據(jù)降維[25],即求解優(yōu)化問(wèn)題
(4)
式中Emin——矩陣E的最小范數(shù)
‖·‖F(xiàn)——矩陣范數(shù)r(·)——矩陣的秩
然而,當(dāng)數(shù)據(jù)中存在比較大的噪聲或異常時(shí),E的元素為任意大小,此時(shí)主成分分析的效果不夠準(zhǔn)確。針對(duì)這種情況,恢復(fù)低秩矩陣X成為一個(gè)雙目標(biāo)優(yōu)化問(wèn)題。
(5)
式中 ‖·‖0——矩陣0范數(shù),為矩陣中非零元素的個(gè)數(shù)
E0min——矩陣E的最小0范數(shù)
通過(guò)引入折中因子λ,并對(duì)目標(biāo)函數(shù)進(jìn)行松弛,將雙目標(biāo)優(yōu)化問(wèn)題轉(zhuǎn)換為單目標(biāo)問(wèn)題
(6)
式中E1min——矩陣E的最小1范數(shù)
‖·‖*——矩陣核范數(shù),為矩陣奇異值之和
‖·‖1——矩陣1范數(shù),為矩陣元素絕對(duì)值之和
式(6)也稱魯棒主成分分析法[30],使用增廣的拉格朗日乘子法[31](Augmented Lagrange multipliers,ALM)解決上述優(yōu)化問(wèn)題,先將其轉(zhuǎn)換為等價(jià)問(wèn)題
(7)
式中L(·)——拉格朗日函數(shù)
D——拉格朗日算子
μ——懲罰因子
1.3.3低秩自動(dòng)編碼器模型
本文結(jié)合低秩矩陣恢復(fù)的去噪優(yōu)勢(shì)和自動(dòng)編碼器的降維優(yōu)勢(shì),構(gòu)建了低秩自動(dòng)編碼器模型,在自動(dòng)編碼器的降維基礎(chǔ)上,添加了去噪處理。該模型的訓(xùn)練步驟如下:
(1)采用低秩矩陣恢復(fù)的方法,對(duì)提取出的ROI中的高光譜數(shù)據(jù)進(jìn)行LR分解,得到一個(gè)低秩矩陣X和一個(gè)稀疏矩陣E,X是進(jìn)行去噪處理后的目標(biāo)矩陣,E是噪聲矩陣。
(2)初始化自動(dòng)編碼器網(wǎng)絡(luò)中權(quán)值矩陣W、偏移量b、動(dòng)量m等模型參數(shù),將低秩矩陣X作為輸入進(jìn)行降維訓(xùn)練,降低到一個(gè)較低維度。
(3)用5折交叉驗(yàn)證的方法將降維后的數(shù)據(jù)以4∶1的比例分成訓(xùn)練集和預(yù)測(cè)集輸入到分類器中,進(jìn)行品種鑒別。
(4)以最終的預(yù)測(cè)集準(zhǔn)確率為依據(jù),對(duì)自動(dòng)編碼器網(wǎng)絡(luò)中W、b等參數(shù)尋優(yōu),尋找自動(dòng)編碼器最優(yōu)參數(shù)。
整個(gè)算法模型構(gòu)建算法流程圖如圖4所示。
圖4 算法流程圖 Fig.4 Flow chart of algorithm
支持向量機(jī)(SVM)算法[32]作為一種經(jīng)典的分類算法,被廣泛應(yīng)用在高光譜圖像的分類中,其主要思想是作一個(gè)非線性映射F(x),將輸入數(shù)據(jù)空間映射到高維空間,通過(guò)尋找一個(gè)最優(yōu)分離曲面,使得兩類數(shù)據(jù)的間隔盡可能大,以完成分類任務(wù)。在進(jìn)行訓(xùn)練時(shí),要挑選合適的核函數(shù)K(x,y)=(F(x),F(y)),同時(shí),對(duì)于樣本集(X,Y),設(shè)置合適的懲罰系數(shù)c和徑向量函數(shù)g,可以獲得優(yōu)化問(wèn)題的最優(yōu)解。
本文結(jié)合SVM算法和低秩自動(dòng)編碼器算法,將低秩自動(dòng)編碼器處理后的低維高光譜數(shù)據(jù)采用5折交叉驗(yàn)證方法進(jìn)行交叉驗(yàn)證,以4∶1的比例分為訓(xùn)練集和預(yù)測(cè)集,然后和5個(gè)茶葉樣本的標(biāo)簽集構(gòu)建分類模型進(jìn)行分類試驗(yàn)。由于本試驗(yàn)樣本較少,基于線性核函數(shù)的SVM模型效果更優(yōu),采用灰狼優(yōu)化算法對(duì)SVM分類器效果影響較大的參數(shù)c和g的設(shè)置進(jìn)行優(yōu)化,以期得到最優(yōu)SVM分類模型。
Softmax回歸是邏輯回歸的推廣,邏輯回歸是處理二分類問(wèn)題的,而Softmax回歸是用來(lái)處理多分類問(wèn)題的[33]。它是一種監(jiān)督模型,表示為邏輯回歸函數(shù)的形式[34]為
(8)
式中H——激活函數(shù)
z——用自動(dòng)編碼器模型提取出的特征表示
經(jīng)低秩自動(dòng)編碼器提取的特征輸入Softmax模型。利用有監(jiān)督學(xué)習(xí)獲取參數(shù),完成模型的構(gòu)建,通過(guò)分類試驗(yàn)對(duì)模型的參數(shù)進(jìn)行微調(diào),得到較優(yōu)模型。
通過(guò)軟件ENVI 5.1計(jì)算ROI內(nèi)各個(gè)像素點(diǎn)的反射率,并求其平均值作為每個(gè)樣本的反射率,據(jù)此繪得5種茶葉樣本的原始光譜曲線,如圖5所示。不同品種的茶葉樣本內(nèi)部的有效成分(如氨基酸、多酚類和植物堿等)的含量與比例存在差異[35],這些有效成分大多存在含氫基團(tuán)(C—H、O—H和N—H等),能在某些特定波長(zhǎng)下產(chǎn)生倍頻和合頻吸收,表現(xiàn)為對(duì)光的吸收強(qiáng)度不同,即表現(xiàn)為不同的反射率[10],在波長(zhǎng)為600 nm左右和760 nm左右處的波峰來(lái)看,這種差異尤其明顯。
圖5 5種茶葉樣本原始光譜曲線 Fig.5 Raw spectral curves of five kinds of tea samples
圖6 5種茶葉樣本平均光譜曲線 Fig.6 Average spectral curves of five kinds of tea samples
對(duì)每種茶葉樣品的反射率求平均值,得到5種茶葉樣本的平均光譜曲線如圖6所示,在2個(gè)波峰處光譜曲線有明顯的可分辨性,為茶葉品種鑒別提供了依據(jù)。
在茶葉樣本高光譜數(shù)據(jù)分類之前,要對(duì)其進(jìn)行去噪和降維處理。本文采用改進(jìn)后的低秩自動(dòng)編碼器對(duì)高光譜數(shù)據(jù)進(jìn)行特征學(xué)習(xí),提取低維特征,試驗(yàn)中發(fā)現(xiàn),SAE的深度、規(guī)模等參數(shù)都會(huì)對(duì)其最終的特征學(xué)習(xí)結(jié)果產(chǎn)生影響。本次試驗(yàn)以分類準(zhǔn)確率為標(biāo)準(zhǔn),選取SAE網(wǎng)絡(luò)層數(shù)和規(guī)模2個(gè)影響較大的因子進(jìn)行對(duì)比,通過(guò)結(jié)果的分析來(lái)確定最佳參數(shù)的設(shè)置。本試驗(yàn)中自動(dòng)編碼器的激活函數(shù)為sigmoid函數(shù),學(xué)習(xí)率設(shè)置為0.2,由于SAE需將輸入數(shù)據(jù)降低到一個(gè)較低維度,所以將SAE第1個(gè)隱含層神經(jīng)元個(gè)數(shù)設(shè)置為300,第2個(gè)隱含層神經(jīng)元個(gè)數(shù)從1取到300,得出最終的訓(xùn)練集和預(yù)測(cè)集準(zhǔn)確率如圖7a所示,結(jié)果顯示,當(dāng)?shù)?個(gè)隱含層神經(jīng)元個(gè)數(shù)為193時(shí),預(yù)測(cè)集準(zhǔn)確率最高為98.59%。增加SAE隱含層數(shù)量,用同樣的方法在后續(xù)增加SAE隱含層訓(xùn)練,以最終預(yù)測(cè)集準(zhǔn)確率為標(biāo)準(zhǔn)尋找最優(yōu)的隱含層神經(jīng)元個(gè)數(shù),結(jié)果如圖7b~7d所示。
每次增加SAE隱含層數(shù)量,訓(xùn)練獲得最優(yōu)隱含層神經(jīng)元個(gè)數(shù),其對(duì)應(yīng)的訓(xùn)練集準(zhǔn)確率和預(yù)測(cè)集準(zhǔn)確率如表1所示。
由此可見(jiàn),預(yù)測(cè)集準(zhǔn)確率并未隨著網(wǎng)絡(luò)層數(shù)的增加而提高,當(dāng)SAE隱含層個(gè)數(shù)為3,網(wǎng)絡(luò)規(guī)模為[618-300-193-56]時(shí),同時(shí),原始高光譜波段數(shù)為618,經(jīng)過(guò)SAE特征提取,特征數(shù)為56,SAE-SVM模型最終預(yù)測(cè)集準(zhǔn)確率達(dá)到最大98.82%,降維效果明顯。繼續(xù)增加隱含層個(gè)數(shù),提高了網(wǎng)絡(luò)復(fù)雜度,加大了訓(xùn)練成本,然而最終提取輸出的特征數(shù)差別并不大,且最終預(yù)測(cè)集準(zhǔn)確率有減小的趨勢(shì),故本文選擇4個(gè)自動(dòng)編碼器進(jìn)行堆疊級(jí)聯(lián)為SAE,應(yīng)用于最終模型。
根據(jù)SAE、LR-SAE、SAE-LR(對(duì)SAE輸出層進(jìn)行低秩矩陣恢復(fù)處理)降維模型處理之后的低維特征高光譜數(shù)據(jù),采用5折交叉驗(yàn)證的方法,分別采用SVM分類器和Softmax回歸模型進(jìn)行分類建模,得出訓(xùn)練集和預(yù)測(cè)集的準(zhǔn)確率如表2所示。
首先采用SAE對(duì)高光譜數(shù)據(jù)進(jìn)行降維,對(duì)得到的低維特征數(shù)據(jù)分別應(yīng)用SVM和Softmax分類器建模,經(jīng)過(guò)灰狼優(yōu)化算法,最優(yōu)c=33.86,最優(yōu)g=0.86,SAE-SVM模型預(yù)測(cè)集分類準(zhǔn)確率最高為98.82%,同時(shí),SAE-Softmax模型預(yù)測(cè)集分類準(zhǔn)確率為97.99%,較高的分類效果說(shuō)明了采用深度學(xué)習(xí)自動(dòng)編碼器模型對(duì)于高光譜數(shù)據(jù)的高效特征提取能力。
圖7 低秩自動(dòng)編碼器降維結(jié)果 Fig.7 Results of dimension reduction with LR-SAE
隱含層個(gè)數(shù)神經(jīng)元最優(yōu)個(gè)數(shù)模型規(guī)模訓(xùn)練集準(zhǔn)確率/%預(yù)測(cè)集準(zhǔn)確率/%2193[618-300-193]99.2398.59356[618-300-193-56]99.8898.82437[618-300-193-56-37]99.8298.33527[618-300-193-56-37-27]99.5696.87
注:模型規(guī)模表示SAE各層神經(jīng)元個(gè)數(shù),如[618-300-193]表示輸入層有618個(gè)神經(jīng)元,該網(wǎng)絡(luò)包含的2個(gè)隱含層神經(jīng)元個(gè)數(shù)分別是300、193,并以最后一個(gè)隱含層作為整個(gè)網(wǎng)絡(luò)的輸出。
表2 各模型分類結(jié)果 Tab.2 Results of each model classification
從2個(gè)分類器角度分析,對(duì)于SVM分類器來(lái)說(shuō),經(jīng)過(guò)SAE降維處理之后,高光譜數(shù)據(jù)由618維降到56維,最終訓(xùn)練集準(zhǔn)確率為99.30%,預(yù)測(cè)集準(zhǔn)確率為98.82%,而經(jīng)過(guò)LR-SAE降維之后,高光譜數(shù)據(jù)由618維降到31維,維度更低,最終訓(xùn)練集準(zhǔn)確率高達(dá)99.75%,預(yù)測(cè)集準(zhǔn)確率高達(dá)99.37%,與SAE降維后的數(shù)據(jù)分類準(zhǔn)確率相比,LR-SAE處理過(guò)后的數(shù)據(jù)的分類準(zhǔn)確率有一定的提升,驗(yàn)證了去噪處理的有效性,通過(guò)低秩矩陣恢復(fù)的處理,提取了原始高光譜數(shù)據(jù)的低秩少噪聲甚至無(wú)噪聲的魯棒特征。
對(duì)于Softmax回歸模型而言,SAE降維之后的預(yù)測(cè)集準(zhǔn)確率為97.99%,而應(yīng)用改進(jìn)之后的LR-SAE降維之后的預(yù)測(cè)集準(zhǔn)確率高達(dá)99.04%,從另一個(gè)角度驗(yàn)證了LR-SAE降維模型去噪處理的有效性。
同時(shí),無(wú)論是SVM分類器,還是Softmax回歸模型,與對(duì)SAE輸入層進(jìn)行低秩矩陣恢復(fù)處理的效果相比,對(duì)SAE輸出層進(jìn)行低秩矩陣恢復(fù)處理的效果略差,這是由于經(jīng)過(guò)SAE降維后的數(shù)據(jù)中,數(shù)據(jù)的物理意義弱化,信號(hào)與噪聲的界限沒(méi)有原始數(shù)據(jù)那么明顯。
以茶葉品種鑒別為研究背景,針對(duì)高光譜數(shù)據(jù)信息量大、維度高的問(wèn)題,本文提出了一種新的高光譜數(shù)據(jù)降維方法,該方法應(yīng)用深度學(xué)習(xí)中的自動(dòng)編碼器模型,將其處理非線性數(shù)據(jù)的優(yōu)勢(shì)應(yīng)用于高光譜數(shù)據(jù)的降維中,結(jié)合低秩矩陣恢復(fù),建立了低秩自動(dòng)編碼器(LR-SAE)降維模型。首先采用SAE、LR-SAE和SAE-LR模型分別對(duì)茶葉高光譜數(shù)據(jù)進(jìn)行降維,在得到的低維特征的基礎(chǔ)上分別建立SVM和Softmax分類模型,對(duì)5個(gè)茶葉品種進(jìn)行分類。試驗(yàn)結(jié)果顯示,低秩自動(dòng)編碼器處理高光譜數(shù)據(jù),將最初的618維數(shù)據(jù)降低到較低維度,并將獲得的低維特征用于分類建模, LR-SAE-SVM預(yù)測(cè)集分類準(zhǔn)確率高達(dá)99.37%,LR-SAE-Softmax預(yù)測(cè)集分類準(zhǔn)確率達(dá)99.04%,效果優(yōu)于改進(jìn)前的SAE算法。改進(jìn)之后的低秩自動(dòng)編碼器為高光譜數(shù)據(jù)的降維提供了一種更加高效的方法,尤其是對(duì)于含噪聲較大的高光譜數(shù)據(jù),對(duì)高光譜圖像分類來(lái)說(shuō)具有重要的實(shí)際意義。