陳文麗,王其濱,路皓翔,楊輝華,3*,劉 彤,許定舟,杜文川
(1.桂林電子科技大學(xué) 計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 電子工程 與自動(dòng)化學(xué)院,廣西 桂林 541004;3.北京郵電大學(xué) 自動(dòng)化學(xué)院,北京 100876; 4.廣州迅動(dòng)網(wǎng)絡(luò)科技有限公司,廣東 廣州 510700)
近紅外光譜分析技術(shù)的檢測(cè)準(zhǔn)確度高且在檢測(cè)過程中不會(huì)產(chǎn)生化學(xué)以及廢棄物等污染,在食品、藥品監(jiān)督以及植物疾病預(yù)防等領(lǐng)域得到了廣泛的應(yīng)用[1-4]。柑橘黃龍病菌拉丁學(xué)名為Candidatus liberobacter asiaticus,屬韌皮部桿菌屬,可感染當(dāng)前所有種類的柑橘。黃龍病又稱為柑橘“不死的癌癥”,是由黃龍病菌引起的細(xì)菌性疾病[5-6]。
我國(guó)最早發(fā)現(xiàn)柑橘黃龍病是在20世紀(jì)初,當(dāng)時(shí)華南地區(qū)的一些柑橘種植地發(fā)生了這種奇怪的病癥,之后在我國(guó)的廣西、江南等柑橘主產(chǎn)地也逐漸出現(xiàn)。由于柑橘黃龍病的傳播性極強(qiáng)且無法徹底根治,所以園區(qū)內(nèi)一旦有果樹被感染,就必須砍伐掉園區(qū)全部的果樹,這種不得已的做法讓人民群眾背負(fù)了沉重的經(jīng)濟(jì)負(fù)擔(dān)[7]。因此,對(duì)柑橘黃龍病進(jìn)行早期篩查是一項(xiàng)極為必要的工作。當(dāng)前,國(guó)內(nèi)外的研究學(xué)者嘗試將機(jī)器學(xué)習(xí)的方法用于光譜分析技術(shù)對(duì)柑橘黃龍病進(jìn)行早期篩查。Wetterich等[8]利用支持向量機(jī)(Support vector machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)算法結(jié)合熒光成像技術(shù)完成了柑橘黃龍病的鑒別以及缺鋅癥狀的檢測(cè),其檢測(cè)準(zhǔn)確度分別為92.8%和92.2%。Garcia等[9]首先采用航空成像技術(shù)獲取柑橘樹的光譜圖像,然后利用SVM(Liner)對(duì)柑橘樹的光譜圖像進(jìn)行分析進(jìn)而實(shí)現(xiàn)黃龍病的檢測(cè),然而該方法成本極高不宜廣泛應(yīng)用。Sankaran等[10]分析研究了近紅外和熱成像技術(shù)在柑桔黃龍病檢測(cè)中的應(yīng)用價(jià)值,通過SVM等分類模型實(shí)現(xiàn)了黃龍病的檢測(cè),但是平均整體分類準(zhǔn)確度僅為85%。李修華等[11]通過分析不同條件下的患有柑橘黃龍病果樹的近紅外光譜特征,快速檢測(cè)了柑橘黃龍病且無損傷。Xu等[12]采用激光誘導(dǎo)擊穿光譜法(LIBS)聯(lián)合近紅外光譜法對(duì)黃龍病進(jìn)行鑒定,訓(xùn)練集和測(cè)試集的鑒別準(zhǔn)確度分別為89.5%和95.7%,揭示了光學(xué)傳感器在柑橘黃龍病檢測(cè)中的潛力。劉燕德等[13]采用無信息變量消除(Uninformative variable elimination,UVE)組合連續(xù)投影算法(Successive projections algorithm,SPA)對(duì)柑橘葉片的高光譜數(shù)據(jù)降維,結(jié)合偏最小二乘支持向量機(jī)(Partial least squares support vector machine,LSSVM)檢測(cè)柑橘黃龍病,其模型較為復(fù)雜,且對(duì)全譜的鑒別誤差達(dá)11.9%。劉燕德等[14]將可見與近紅外光譜拼接,結(jié)合偏最小二乘判別分析(Partial least squares discriminant analysis,PLS-DA)方法,提高了柑橘黃龍病的檢測(cè)準(zhǔn)確度。雖然國(guó)內(nèi)外的學(xué)者針對(duì)柑橘黃龍病的檢測(cè)做了相當(dāng)多的研究工作,但是近紅外光譜技術(shù)在黃龍病檢測(cè)方面的應(yīng)用研究還處于起始階段,檢測(cè)準(zhǔn)確度不高。
本文嘗試將機(jī)器學(xué)習(xí)算法用于近紅外光譜分析技術(shù)實(shí)現(xiàn)柑橘黃龍病的鑒別,并針對(duì)柑橘黃龍病檢測(cè)準(zhǔn)確度較低的問題,采用最小角回歸(LAR)算法融合核極限學(xué)習(xí)機(jī)(KELM(RBF))實(shí)現(xiàn)了柑橘黃龍病的檢測(cè)。為了驗(yàn)證LAR-KELM(RBF)模型的有效性,使用傅里葉變換近紅外光譜儀對(duì)廣州訊動(dòng)網(wǎng)絡(luò)科技有限公司提供的柑橘葉片進(jìn)行測(cè)定,將測(cè)得的漫反射光譜數(shù)據(jù)進(jìn)行分類實(shí)驗(yàn),通過準(zhǔn)確度、穩(wěn)定性及訓(xùn)練時(shí)間3個(gè)方面分析該算法的性能,并與極限學(xué)習(xí)機(jī)(ELM)、波形疊加極限學(xué)習(xí)機(jī)(SWELM)、反向傳播神經(jīng)網(wǎng)絡(luò)(BP(2層))、KELM(RBF)和SVM模型作對(duì)比,實(shí)驗(yàn)結(jié)果表明所建立的方法能夠有效鑒別柑橘黃龍病。
近紅外光譜特征波長(zhǎng)的數(shù)量較多,其中部分波長(zhǎng)與預(yù)測(cè)結(jié)果的相關(guān)性較低,影響預(yù)測(cè)結(jié)果的準(zhǔn)確性。針對(duì)該問題,采用LAR算法對(duì)特征波長(zhǎng)進(jìn)行篩選,然后采用KELM(RBF)實(shí)現(xiàn)柑橘黃龍病的分類。通過引入核函數(shù),避免了ELM因隨機(jī)賦值對(duì)輸出結(jié)果產(chǎn)生的隨機(jī)波動(dòng),使ELM算法的穩(wěn)定性和學(xué)習(xí)能力更強(qiáng),分類準(zhǔn)確度更高[15]。
LAR-KELM(RBF)的訓(xùn)練過程分為L(zhǎng)AR特征波長(zhǎng)篩選和KELM(RBF)分類鑒別兩個(gè)階段。具體過程如下:
(1)第一階段:LAR特征篩選階段
最小角回歸算法構(gòu)造了一個(gè)一階懲罰函數(shù),通過懲罰函數(shù)可將不相關(guān)或者相關(guān)性較小的變量系數(shù)置為零并刪除,從而實(shí)現(xiàn)變量的篩選。其線性回歸模型表示如下:
(1)
(2)
利用公式(1)求解出每個(gè)自變量對(duì)應(yīng)的回歸系數(shù)βj。其中,用0代替回歸系數(shù)中相關(guān)性較低的回歸系數(shù),用1代替相關(guān)性較高的回歸系數(shù)。基于求解的回歸系數(shù)β根據(jù)公式(1)實(shí)現(xiàn)訓(xùn)練集樣品特征變量的篩選:
X′=Xiβ,i=1,2,L,m
(3)
其中,Xi=[xi1,xi2,L,xil],β=[β1,β2,L,βl]T。
(2)第二階段:KELM分類鑒別階段
KELM算法主要實(shí)現(xiàn)波長(zhǎng)篩選后樣品的分類鑒別。對(duì)于m個(gè)訓(xùn)練樣本矩陣(xj,pj),j=1,2,L,m,假設(shè)隱含層神經(jīng)元的數(shù)目為L(zhǎng),則極限學(xué)習(xí)機(jī)的輸出函數(shù)f(x)為:
(4)
Wk=[ωk1,ωk2,…,ωkn]T,βk=[βk1,βk2,…,βkm]T
將隱含層的輸出矩陣定義為H,期望輸出為T,那么該問題最終轉(zhuǎn)換為:
Hβ=T
(5)
其中T=[T1,T2,…,Tn]T,H表示為:
(6)
在式(5)中,β通常取其最小二乘解,計(jì)算公式如下:
β=H+T
(7)
其中,H+為隱含層的輸出矩陣H的廣義逆矩陣。
根據(jù)Karush-Kuhn-Tucker(KKT)理論,通過求解對(duì)偶優(yōu)化問題可得ELM為:
(8)
其中,C為正則化參數(shù)。
應(yīng)用Mercer條件定義核矩陣,則:
KELM=HHT
(9)
KELM(k,p)=h(xk)·h(xp)=K(xk)·(xp)
(10)
KELM的輸出可以表示為:
(11)
本實(shí)驗(yàn)所用材料由廣州訊動(dòng)網(wǎng)絡(luò)科技有限公司提供的1 245枚柑橘葉片。使用實(shí)時(shí)熒光定量PCR技術(shù)確定柑橘葉片是否染病。按照PCR國(guó)家標(biāo)準(zhǔn)[16],循環(huán)閾值(Cycle threshold,CT)大于35為健康,小于30為患病,在30~35之間時(shí)需要復(fù)測(cè)來確定是否患病。最終測(cè)得患有黃龍病的葉片406片和未患黃龍病的葉片839片。使用傅里葉變換近紅外光譜儀采集葉片漫反射光譜,采樣間隔為1 nm,測(cè)定范圍為12 500~4 000 cm-1(780~2 500 nm);每個(gè)樣本的測(cè)量點(diǎn)為直徑5 mm的圓形區(qū)域,為減小誤差,最終選取測(cè)量32次的平均值;每條光譜有701個(gè)光譜點(diǎn),光譜波數(shù)范圍為10 526~6 061 cm-1。
由于傅里葉變換近紅外光譜儀測(cè)得的光譜存在噪聲和基線漂移,因此有必要通過OPUS軟件對(duì)光譜進(jìn)行緊湊預(yù)處理,從而得到柑橘葉片的一致性光譜,光譜的波長(zhǎng)范圍為960~1 650 nm,如圖1A所示。
從圖1A可以看出,未經(jīng)預(yù)處理的柑橘葉片光譜之間存在嚴(yán)重的信息重疊且相似度較高,此外還包含一些與待測(cè)樣品性質(zhì)無關(guān)的因素帶來的干擾,因此必須對(duì)原始光譜進(jìn)行預(yù)處理。本實(shí)驗(yàn)首先按列L2范數(shù)對(duì)光譜數(shù)據(jù)單位化;然后采用小波變換對(duì)光譜數(shù)據(jù)預(yù)處理。預(yù)處理后的光譜數(shù)據(jù)如圖1B所示。
圖2 不同隱含層神經(jīng)元比例下不同訓(xùn)練集 的分類準(zhǔn)確度Fig.2 Classification accuracy of different training sets under different hidden layer neuron ratios
合適的隱含層神經(jīng)元數(shù)目對(duì)KELM(RBF)算法有至關(guān)重要的作用,而隱含層的選擇過程會(huì)耗費(fèi)大量時(shí)間,因此需要謹(jǐn)慎選取隱含層個(gè)數(shù)。在KELM(RBF)算法中,將t表示為訓(xùn)練集的數(shù)目,r表示比例參數(shù),N為隱含層神經(jīng)元的個(gè)數(shù),那么:
N=t×r
(12)
通過上述采集到的數(shù)據(jù),將訓(xùn)練集個(gè)數(shù)依次遞增進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖2所示。
從圖2可以看出,隨著訓(xùn)練集的大小遞增,當(dāng)r在0.2~0.5之間時(shí),分類準(zhǔn)確度較高,當(dāng)r=0.3時(shí),準(zhǔn)確度基本達(dá)到最高。
本次實(shí)驗(yàn)的硬件環(huán)境為Inter(R) Core(TM) i7-6700 CPU,采用MATLAB2014a作為編碼工具,操作系統(tǒng)版本為Window 10 專業(yè)版。LAR-KELM(RBF)鑒別模型中,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為:400-t*r-2(t)為訓(xùn)練集樣本個(gè)數(shù),r為隱含層神經(jīng)元比例,通過網(wǎng)格尋優(yōu)獲取最優(yōu)C=1,γ=1,迭代次數(shù)設(shè)置為1,隱含層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為t*0.3。
對(duì)比實(shí)驗(yàn)采用的方法有:SVM、BP(2層)、SWELM、ELM、KELM(RBF)模型,其中SVM選取的參數(shù)C為1.0,ε為0.3;BP算法采用兩層網(wǎng)絡(luò)結(jié)構(gòu),具體為701-300-100-2,dropout值為50,學(xué)習(xí)率均設(shè)置為0.05;ELM和SWELM的網(wǎng)絡(luò)結(jié)構(gòu)均為701-t*0.4-2,dropout值為100,隱含層神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)均為t*0.3,ELM激活函數(shù)采用sigmoid。
表1 柑橘葉片近紅外光譜數(shù)據(jù)集劃分Table 1 Near infrared spectral data sets of citrus leaves
采用柑橘葉片近紅外光譜數(shù)據(jù)進(jìn)行相應(yīng)的分類實(shí)驗(yàn)。為了驗(yàn)證不同規(guī)模訓(xùn)練集對(duì)LAR-KELM(RBF)模型鑒別能力的影響,將訓(xùn)練集依次遞增120,如表1所示。
實(shí)驗(yàn)采用相同的光譜預(yù)處理方法,取10次實(shí)驗(yàn)結(jié)果的均值評(píng)估各個(gè)鑒別模型分類準(zhǔn)確度、訓(xùn)練時(shí)間以及算法穩(wěn)定性3個(gè)方面的性能。
3.2.1 分類準(zhǔn)確度分類準(zhǔn)確度是LAR-KELM(RBF)模型性能的重要衡量指標(biāo),較高的分類準(zhǔn)確度說明該模型對(duì)柑橘黃龍病的鑒別更為可靠。采用如表1所示不同規(guī)模的訓(xùn)練集,以BP(2層)、SVM、SWELM、ELM、KELM(RBF)及其與LAR算法的融合模型進(jìn)行相應(yīng)的分類實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
表2 在不同規(guī)模樣品數(shù)據(jù)集下不同分類模型的分類準(zhǔn)確度Table 2 Classification accuracy of different classification models under different scale sample data sets (%)
從表中可以看出,在不同規(guī)模的訓(xùn)練集下,KELM(RBF)均能保持較高的分類準(zhǔn)確度,這是因?yàn)镵ELM(RBF)在ELM模型中引入了徑向基(RBF)核函數(shù),增強(qiáng)了ELM的非線性建模能力,提高了模型的分類準(zhǔn)確度。通過采用LAR特征波長(zhǎng)篩選,LAR-KELM(RBF)分類準(zhǔn)確度比KELM(RBF)高,且在訓(xùn)練集增加到960時(shí)達(dá)到99.91%。通過表2可以看出,LAR-BP(2層)、LAR-SVM、LAR-SWELM、LAR-ELM和LAR-KELM(RBF)的分類準(zhǔn)確度均得到了一定的提升,這是由于波長(zhǎng)選擇能夠簡(jiǎn)化模型并剔除不相關(guān)的變量,進(jìn)一步說明變量篩選能夠提升近紅外光譜鑒別模型的性能。無論數(shù)據(jù)集規(guī)模大小,SWELM和ELM的分類準(zhǔn)確度均極為相似,說明激活函數(shù)對(duì)模型性能影響不大。BP(2層)的效果不太理想,可能是由于其在本實(shí)驗(yàn)中提取高維度光譜數(shù)據(jù)特征方面的能力有限。
3.2.2 訓(xùn)練時(shí)間在訓(xùn)練時(shí)間方面,BP(2層)、SVM、SWELM、ELM、KELM(RBF)和LAR-KELM(RBF)模型針對(duì)表1中不同規(guī)模柑橘葉片光譜數(shù)據(jù)的訓(xùn)練時(shí)間如表3所示。
表3 在不同規(guī)模樣品數(shù)據(jù)集下不同分類模型的訓(xùn)練時(shí)間Table 3 Training time of different classification models under different scale sample data sets
從表中可以看出,SVM、SWELM、ELM和KELM(RBF)在訓(xùn)練時(shí)間方面具有明顯優(yōu)勢(shì),這是因?yàn)檫@4個(gè)模型在預(yù)訓(xùn)練階段不需要進(jìn)行多次循環(huán)迭代和反向微調(diào)模型參數(shù)。由于模型的預(yù)訓(xùn)練階段需采用LAR算法進(jìn)行特征波長(zhǎng)的篩選,增加了模型的時(shí)間消耗,因此LAR-KELM(RBF)的時(shí)間消耗較SVM、SWELM、ELM和KELM(RBF)大。相比其它幾種模型,BP神經(jīng)網(wǎng)絡(luò)的時(shí)間消耗較大,這是因?yàn)樵谀P瓦\(yùn)行過程中需要不斷反向微調(diào)參數(shù),實(shí)現(xiàn)網(wǎng)絡(luò)的優(yōu)化。
圖3 在不同規(guī)模樣品數(shù)據(jù)集下不同分類模型 準(zhǔn)確度的標(biāo)準(zhǔn)偏差Fig.3 Standard deviation(STD)of accuracy of different classification models under different scale sample data sets
3.2.3 算法穩(wěn)定性模型的穩(wěn)定性決定了模型的推廣能力和實(shí)際的應(yīng)用能力,本實(shí)驗(yàn)以標(biāo)準(zhǔn)偏差為模型穩(wěn)定性評(píng)價(jià)指標(biāo),各模型在不同規(guī)模數(shù)據(jù)集下的標(biāo)準(zhǔn)偏差結(jié)果見圖3。
從圖3可以看出,相對(duì)于其它幾種算法,當(dāng)訓(xùn)練集增加到720后,LAR-KELM(RBF)模型的標(biāo)準(zhǔn)偏差僅為0.091,且一直保持較低值,表現(xiàn)出最優(yōu)的穩(wěn)定性,表明LAR-KELM(RBF)模型具有較好的實(shí)際應(yīng)用能力。
近年來近紅外光譜分析技術(shù)在黃龍病檢測(cè)行業(yè)有著廣泛的應(yīng)用。本文提出的LAR-KELM(RBF)模型實(shí)現(xiàn)了柑橘黃龍病的鑒別。利用LAR對(duì)柑橘葉片的近紅外光譜數(shù)據(jù)進(jìn)行特征波長(zhǎng)點(diǎn)篩選,使樣品的光譜矩陣維度降低,然后采用KELM(RBF)模型進(jìn)行篩選后光譜數(shù)據(jù)的分類鑒別。最后,使用傅里葉變換近紅外光譜儀測(cè)得近紅外漫反射光譜數(shù)據(jù),并對(duì)LAR-KELM(RBF)模型的性能進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明LAR-KELM(RBF)模型較其他模型具有分類準(zhǔn)確度高、算法穩(wěn)定性強(qiáng)等優(yōu)點(diǎn),能夠?qū)崿F(xiàn)柑橘黃龍病的早期篩查。