陳淑一,趙全明,董大明
1. 河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300401 2. 北京農(nóng)業(yè)智能裝備技術(shù)研究中心,北京市農(nóng)林科學(xué)院, 北京 100097
近紅外光譜測量中高維數(shù)據(jù)集的無關(guān)因素干擾給光譜數(shù)據(jù)的分析帶來了許多困難,數(shù)據(jù)降維[1]和特征提取是解決這一問題的重要手段。比較常見的數(shù)據(jù)降維方式包括:線性降維方式中的主成分分析[2-3](PCA)和線性判別分析[4](LDA);非線性降維方式中的局部線性嵌入算法[5](LLE)和T分布隨機近鄰算法[6](t-SNE)等。其中,主成分分析(PCA)是使用最為廣泛的數(shù)據(jù)降維方式。然而,這些常見的數(shù)據(jù)降維方式都是針對于一個數(shù)據(jù)集,當我們要研究的信息涉及到兩個數(shù)據(jù)集或者一個數(shù)據(jù)集存在研究者不感興趣的干擾信息時,傳統(tǒng)的數(shù)據(jù)降維方法就不再準確,而對比主成分分析算法[7-8](cPCA)就有效地解決了這一問題。
對比主成分分析(cPCA)算法是Abubakar Abid等2018年提出的一種新的算法,是我們所熟知的主成分分析算法的改進,屬于無監(jiān)督學(xué)習(xí)。cPCA通過引入背景數(shù)據(jù)集(background dataset)有效的將我們研究的目標數(shù)據(jù)集(target dataset)中不感興趣的干擾信息消除,從而更好的實現(xiàn)數(shù)據(jù)的降維和分類。cPCA算法主要應(yīng)用于基因組的數(shù)據(jù)降維,并且已經(jīng)在不同類型的正常小鼠和白化病小鼠的分類、不同白血病人細胞移植前后的分類中得到了成功的實驗。我們將cPCA算法應(yīng)用到不同類型水果表面農(nóng)藥殘留分析[9]中,對測量的近紅外光譜進行數(shù)據(jù)降維,實現(xiàn)了該算法在近紅外光譜模型建立中的首次應(yīng)用。
所用的水果包括新鮮的紅富士蘋果30個,皇冠梨30個,總計60個兩種不同類型的水果,均購買于北京市果香四溢水果超市。首先將水果清洗干凈,沿著水果的赤道部分均勻采樣,間隔角度約為70°左右,一個水果樣本共計5個采樣點。配置好1∶1 500毒死蜱農(nóng)藥,取10個富士蘋果,均勻涂抹到蘋果表面后晾干。再取另外10個富士蘋果表面均勻涂抹上水,晾干后進行采樣,梨的采樣方法類似。剩余的10個富士蘋果和10個皇冠梨洗凈后不做任何處理進行采樣。共采得涂抹毒死蜱的蘋果和梨的樣本100個;涂抹水的蘋果和梨的樣本100個,不做處理的蘋果和梨的樣本100個,共計300個樣本。
實驗用的DLP NIRscan Nano(v2.1.0)近紅外光譜儀,光譜的測量范圍為950~1 700 nm,每條光譜共計228個數(shù)據(jù)點,每個樣本測量前都使用標準白板為背景進行背景光譜采集。Unscrambler 9.7(CASMO公司)光譜分析軟件,主要用于光譜數(shù)據(jù)的預(yù)處理和分析。
將上述的300個樣本使用DLP儀器進行近紅外光譜掃描,為了區(qū)分的更加清楚,分別選取四種不同類型樣本中的一條原始光譜圖,如圖1所示。
圖1 4種不同樣本的原始光譜圖
由圖1可以看出,四種不同樣本的原始光譜圖略有差異,但是大致特征相似。分別在950~1 250 nm處和1 400~1 600 nm處光譜吸光度較強,并且有明顯變化,說明這一部分包含的信息量較多。同時,原始光譜圖中存在噪聲,需要對光譜數(shù)據(jù)進行預(yù)處理。
為了保證該算法的有效性,更加有效地利用光譜信息,首先要對300個樣本光譜數(shù)據(jù)進行預(yù)處理。主要使用的光譜預(yù)處理手段包括均值中心化(mean centering)、基線校正(baseline)、一階求導(dǎo)(S-G)和標準正態(tài)變換(SNV),目的是消除光譜數(shù)據(jù)中的基線漂移和無關(guān)噪聲信息,如樣品背景和雜散光等。經(jīng)過預(yù)處理后的光譜重復(fù)性更好。
將處理過后的光譜數(shù)據(jù)進行cPCA算法分析,具體流程圖如圖2所示。
圖2 cPCA算法流程分析圖
具體算法數(shù)學(xué)過程描述如下:
(1)使用DLP近紅外光譜儀進行光譜數(shù)據(jù)采集,并對光譜數(shù)據(jù)進行預(yù)處理。
(2)確定d維目標數(shù)據(jù)集{xi∈Rd}和d維背景數(shù)據(jù)集{yi∈Rd},分別計算兩者的協(xié)方差矩陣CX,CY;
(3)將目標數(shù)據(jù)集和背景數(shù)據(jù)集的方差分別用單位向量表示為
Target dataset variance
λX(v)=vTCXv
Background dataset variance
λY(v)=vTCYv
(4)設(shè)對比強度為?,表示背景數(shù)據(jù)集在目標數(shù)據(jù)集中的對比消除強度,計算后的單位化向量C表示為
C=vT(CX-?CY)v
(5)計算協(xié)方差矩陣C并進行矩陣分解,求出相應(yīng)的特征值和特征向量
(6)將得到的特征值和特征向量v*進行由高到低排序,保留貢獻率較高的對比主成分,分別命名為cPC1,cPC2,…,cPCn;
由基本原理可以看出,使用cPCA算法的關(guān)鍵是背景數(shù)據(jù)集的選擇和對比參數(shù)?的選擇。
實驗的主要目的是為了在不同水果類型中區(qū)分出噴灑農(nóng)藥的水果和未噴灑農(nóng)藥的水果。將200個噴灑農(nóng)藥的蘋果、未噴灑農(nóng)藥的蘋果、噴灑農(nóng)藥的梨和未噴灑農(nóng)藥的梨進行混合后使用PCA方法進行降維分類,結(jié)果發(fā)現(xiàn)PCA只能大致區(qū)分出不同水果類型(蘋果和梨)這一我們不感興趣的無關(guān)信息,如圖3所示。其中,黑色和紅色的點集分別代表沒有噴灑農(nóng)藥的蘋果和噴灑農(nóng)藥的蘋果(fruit 0和fruit 1);藍色和綠色的點集分別代表沒有噴灑農(nóng)藥的梨和噴灑農(nóng)藥的梨(fruit 2和fruit 3),并且散點圖的區(qū)分度也不是很好,總體效果較差。
圖3 PCA得分結(jié)果圖
為了更加清晰的分析出影響PCA得分結(jié)果的影響因素,我們對PCA模型的主成分進行分析,如圖4所示。PCA中前兩個主成分得分分別為79%和6%,其方差的累計貢獻率達到85%,表明PCA分析結(jié)果對原始光譜有比較好的代表性。
圖4 PCA模型的主成分載荷圖
PC1和PC2僅在1 350~1 500 nm波段處有明顯的特征峰,經(jīng)分析可知,該波段主要是區(qū)分不同水果類型的特征波段。而在其他波段處沒有明顯的特征峰且載荷值較低,其特征載荷向量代表的主要是其他干擾信息和噪聲。所以PCA模型僅僅能夠區(qū)分不同的水果類型,而不能夠給出水果表面有無噴農(nóng)藥這一特征信息。
上述結(jié)果的原因是由于不同水果類型背景信息所占有的方差比例較大,我們通過優(yōu)化模型算法來解決這一問題。根據(jù)cPCA的核心思想,引入背景數(shù)據(jù)集消除目標數(shù)據(jù)集中占有較大方差的干擾信息。將剩余的100個健康蘋果和健康梨作為背景約束,設(shè)置最佳對比參數(shù)?(最佳對比參數(shù)為?=8.89),運行cPCA,并和PCA結(jié)果進行比較以說明該算法的優(yōu)越性。
運行結(jié)果如圖5所示,cPCA算法能夠清晰的將噴灑農(nóng)藥的水果和未噴灑農(nóng)藥的水果區(qū)分開。其中,黑色點集和藍色點集聚成一類,分別代表沒有噴灑農(nóng)藥的蘋果和梨(fruit 0和fruit 2);而紅色點集和綠色點集聚成一類,分別代表噴灑農(nóng)藥的蘋果和梨(fruit 1和fruit 3)。紅色點集和綠色點集樣本間距離略小于黑色點集和藍色點集的樣本間距離,這是由于噴灑農(nóng)藥后的蘋果和梨的表面光譜特征比沒有噴灑農(nóng)藥的蘋果和梨的表面光譜特征更為相似造成的。交界處的個別點存在偏差,可能是由于在實驗過程中存在測量誤差造成的。
圖5 cPCA得分結(jié)果圖
圖6顯示的是cPCA模型的對比主成分載荷圖,cPCA中前兩個對比主成分cPC1和cPC2的得分分別為85%和5%,其方差的累計貢獻率達到90%,說明對比主成分的分析結(jié)果能夠很好的代表原始光譜信息。從圖中可以看出,cPC1和cPC2的有效特征峰集中在兩個波段,分別為1 000~1 150和1 400~1 550 nm處。這兩個波段主要反映的是不同水果類型和水果表面有無噴農(nóng)藥的差異。并且,相比于PCA來說,在其他波段處的干擾信息較少。所以,cPCA模型能夠?qū)颖具M行正確的分類,優(yōu)于PCA模型結(jié)果。
cPCA算法中最重要的參數(shù)就是對比強度?,它表示背景數(shù)據(jù)集于目標數(shù)據(jù)集中的消除強度,?值越大代表背景數(shù)據(jù)集在目標數(shù)據(jù)集中的消除強度越強。選取了不同?值下cPCA算法運行結(jié)果,如圖7(a)和(b)所示。
圖6 cPCA模型的主成分載荷圖
圖7(a)顯示的是當對比強度?的值過小時(?=2.03)cPCA得分結(jié)果圖。從該得分圖我們可以看出,樣本之間的區(qū)分度更加明顯,并且噴灑農(nóng)藥的水果(fruit 0和fruit 2)和未噴灑農(nóng)藥的水果(fruit 1和fruit 3)也有聚成一類的趨勢。這說明了,cPCA引入的背景數(shù)據(jù)集起到了作用,消除了目標數(shù)據(jù)集中的一部分方差,但由于對比強度?過小,約束條件不足,并沒有達到理想的分類效果。
圖7(b)顯示的是當對比強度?的值過大時(?=228.5)cPCA得分結(jié)果圖。可以明顯的看出,得分散點圖中丟失了大部分有用信息,并且在第一對比主成分中的得分為零。當對比強度?過大時,背景數(shù)據(jù)集于目標數(shù)據(jù)集中的約束條件過強,在目標數(shù)據(jù)集中的消除方差過大,導(dǎo)致一部分有用信息的丟失。所以,對比強度?不是越大越好,而是要根據(jù)具體的實驗結(jié)果來選擇。
對比主成分分析算法(cPCA)是一種新興的數(shù)據(jù)降維方式,通過引入背景數(shù)據(jù)集作為約束,消除背景干擾信息,從而得到數(shù)據(jù)集中的關(guān)鍵信息。在對兩種不同類型水果(蘋果和梨)進行農(nóng)藥殘留分析時,使用PCA算法只能區(qū)分出不同的水果類型這一背景信息,而使用cPCA算法能夠?qū)⒉煌愋退砻媸欠駠姙⑥r(nóng)藥的信息特征正確的展示出來,說明cPCA算法能夠有效地建立數(shù)據(jù)降維模型,在近紅外光譜分析中有著廣闊的應(yīng)用前景。
圖7 (a) ?=2.03時cPCA得分結(jié)果圖;(b) ?=228.5時cPCA得分結(jié)果圖