劉翠玲 李佳琮 孫曉榮 殷鶯倩 張善哲 吳靜珠
(1.北京工商大學(xué)人工智能學(xué)院, 北京 100048;2.北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100048)
實(shí)際農(nóng)作物生產(chǎn)中對(duì)農(nóng)藥的過(guò)分依賴及不合理使用,會(huì)導(dǎo)致農(nóng)藥殘留,危害人類的身體健康[1]。隨著生活水平的逐漸提高,人們也越發(fā)重視食品安全、健康、環(huán)保等問(wèn)題。因此,對(duì)常食蔬菜中的農(nóng)藥殘留量進(jìn)行檢測(cè)十分重要。目前,國(guó)內(nèi)外常用的農(nóng)藥殘留檢測(cè)主要采用氣相色譜法、高效液相色譜法等[2-3]。這些方法適應(yīng)范圍廣,但操作的過(guò)程相對(duì)復(fù)雜、效率低, 無(wú)法實(shí)現(xiàn)現(xiàn)場(chǎng)快捷、有效檢驗(yàn)。
近年來(lái),相關(guān)學(xué)者利用典型的光譜技術(shù)對(duì)農(nóng)產(chǎn)品中農(nóng)藥殘留進(jìn)行了研究。張瑛等[4]采用太赫茲光譜檢測(cè)大米中沙蠶毒素類農(nóng)藥殘留,相關(guān)系數(shù)達(dá)0.959 9。然而,太赫茲等紅外光譜對(duì)極性化學(xué)鍵的信號(hào)比較強(qiáng),不適宜對(duì)含水樣本進(jìn)行檢測(cè)。CHEN等[5]將偏最小二乘法(Partial least squares regression, PLSR)應(yīng)用于表面增強(qiáng)拉曼光譜技術(shù)定量檢測(cè)烏龍茶中多菌靈含量,決定系數(shù)達(dá)0.964。LIU等[6]采用PLSR成功構(gòu)建了茶葉中苯醚甲環(huán)唑的表面增強(qiáng)拉曼光譜測(cè)定模型,相關(guān)系數(shù)達(dá)0.97。但常見(jiàn)的拉曼光譜由于散射強(qiáng)度較小,需要利用繁瑣的前處理才能對(duì)農(nóng)藥殘留等痕量精準(zhǔn)檢測(cè)。
熒光光譜技術(shù)具有靈敏度高、選擇性好、價(jià)格低廉等優(yōu)勢(shì),目前在農(nóng)藥含量檢測(cè)領(lǐng)域飛速發(fā)展。GUO等[7]利用熒光光譜檢測(cè)水中的西維因和百菌清濃度。JI等[8]采用PLSR構(gòu)建了水中生霉素、多效唑、博斯卡利等多種農(nóng)藥含量檢測(cè)模型,決定系數(shù)達(dá)0.98。然而,熒光技術(shù)現(xiàn)有研究集中于檢測(cè)水溶液中的農(nóng)藥,對(duì)蔬菜中農(nóng)藥殘留量的檢測(cè)較少。寬度學(xué)習(xí)系統(tǒng)(Broad learning system, BLS)是CHEN等[9]近年來(lái)提出的一種有效解決小樣本訓(xùn)練問(wèn)題的新型算法。MA等[10]應(yīng)用BLS對(duì)高光譜遙感圖像進(jìn)行分類;喬繼紅等[11]利用BLS與近紅外光譜,構(gòu)建了國(guó)外奶粉的判別模型。然而,現(xiàn)有研究局限于應(yīng)用BLS進(jìn)行分類,且鮮有研究將該模型遷移至其它光譜檢測(cè)領(lǐng)域。該算法呈扁平結(jié)構(gòu),橫向擴(kuò)展,具有迭代收斂速度快、泛化能力強(qiáng)等優(yōu)勢(shì)。在經(jīng)過(guò)大量調(diào)研與理論研究后,嘗試在熒光光譜技術(shù)檢測(cè)白菜中吡蟲啉殘留的定量研究中,引入寬度學(xué)習(xí)系統(tǒng)。
吡蟲啉是一種新煙堿類殺蟲劑,因其高效、低廉等優(yōu)點(diǎn),被廣泛應(yīng)用于農(nóng)作物生產(chǎn)種植中。本文以白菜中吡蟲啉殘留為研究對(duì)象,利用熒光光譜技術(shù)結(jié)合不同數(shù)據(jù)處理方法測(cè)定吡蟲啉農(nóng)藥殘留量。將BLS引入熒光光譜的數(shù)據(jù)建模,并與線性模型PLSR、非線性模型支持向量機(jī)(Support vector machine, SVM)以及深度極限學(xué)習(xí)機(jī)(Deep extreme learning machines, DELM) 進(jìn)行對(duì)比分析,驗(yàn)證BLS在熒光光譜數(shù)據(jù)分析的可行性,并獲得吡蟲啉含量的最優(yōu)檢測(cè)模型,擬為開(kāi)發(fā)在線檢測(cè)蔬菜中農(nóng)藥殘留量系統(tǒng)提供理論依據(jù)。
選用20%的可溶性農(nóng)藥吡蟲啉(市售,深圳諾普信農(nóng)化股份有限公司)。將市購(gòu)的普通大白菜用去離子水洗凈晾干后粉碎,通過(guò)砂芯過(guò)濾獲取蔬菜汁液為背景溶劑,將農(nóng)藥與蔬菜汁經(jīng)渦旋混合器充分混勻。配制出吡蟲啉(國(guó)標(biāo)要求最大殘留量0.2 mg/kg)質(zhì)量比為0~5 mg/kg的13個(gè)梯度樣本總計(jì)130個(gè)。該質(zhì)量比范圍分布在國(guó)標(biāo)規(guī)定最大殘留量附近,具有實(shí)際意義。
使用愛(ài)丁堡FS5型熒光光譜儀(英國(guó)),采集130個(gè)樣品的熒光光譜。熒光光譜的激發(fā)光源選用脈沖氙燈,光電檢測(cè)器選用PMT-900型光電倍增管。三維熒光光譜采集,設(shè)置激發(fā)波長(zhǎng)間隔為10 nm,發(fā)射波長(zhǎng)間隔為2 nm,激發(fā)波長(zhǎng)λEx為350~550 nm,發(fā)射波長(zhǎng)λEm為400~600 nm。熒光發(fā)射光譜采集,設(shè)置采集步長(zhǎng)為3 nm,采集范圍為430~610 nm。
1.3.1樣本劃分
在模型校準(zhǔn)中,樣本被分為校準(zhǔn)集和預(yù)測(cè)集,使用基于聯(lián)合x-y距離(SPXY)的樣本集分區(qū)的樣本分配方法,該方法考慮樣本光譜和樣本參考值的差異[12]。將樣本按照比例3∶1劃分校正集和預(yù)測(cè)集。其中,校正集與預(yù)測(cè)集分別包含97個(gè)和33個(gè)樣本用于構(gòu)建白菜中吡蟲啉含量預(yù)測(cè)模型。數(shù)據(jù)劃分具體情況如表1所示,校正集的吡蟲啉含量涵蓋預(yù)測(cè)集的范圍,說(shuō)明校正集可以建立穩(wěn)健的校正模型,且預(yù)測(cè)集可以有效對(duì)模型進(jìn)行預(yù)測(cè)。
1.3.2光譜預(yù)處理
由于使用熒光光譜儀所獲取的數(shù)據(jù)信號(hào)除了含被測(cè)樣本待測(cè)成分信息外,還包括各種儀器的噪聲,如高頻隨機(jī)噪聲、基線漂移、雜散信息、樣本背景等無(wú)關(guān)信息[13]。因此,采用合適的光譜預(yù)處理方法可以提取有效的光譜信息,提升光譜質(zhì)量。在全光譜范圍內(nèi)使用一階導(dǎo)數(shù)(First-order derivative, D1)、二階導(dǎo)數(shù)(Second-order derivatives, D2)、標(biāo)準(zhǔn)正態(tài)變換(Standard normal variable, SNV)、S-G卷積平滑(Savitzky-Golay, S-G)、多元散射校正(Multiple scattering calibration, MSC)以及連續(xù)小波變換(Continuous wavelet transforms, CWT)6種方法對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。D1和D2是光譜分析中常用的基線校正和光譜分辨預(yù)處理方法,倒數(shù)光譜可以有效地消除其他背景的干擾,提高分辨率和靈敏度[14]。SNV通過(guò)單獨(dú)對(duì)每個(gè)樣本的光譜進(jìn)行校正,使其每個(gè)波段的吸光度均符合正態(tài)分布[15]。S-G卷積平滑法通過(guò)多項(xiàng)式來(lái)對(duì)移動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行多項(xiàng)式最小二乘擬合,其實(shí)質(zhì)是一種加權(quán)平均法[16]。MSC通過(guò)減少樣本間的基線偏移,使其能夠充分保留樣本中與白菜吡蟲啉相關(guān)的光譜吸收信息[17]。CWT是一種時(shí)頻變換方法,較適用于分析非平穩(wěn)信號(hào)[18]。
1.3.3光譜特征提取
核主成分分析(Kernel principal component analysis, KPCA)是對(duì)主成分分析(Principal components analysis,PCA)算法的非線性擴(kuò)展。PCA降維原理是基于線性分析理論,而KPCA是在PCA的理論基礎(chǔ)上采用非線性核函數(shù)Kernel參與數(shù)據(jù)分析,因此能夠挖掘到數(shù)據(jù)集中蘊(yùn)含的非線性關(guān)系[19]。無(wú)信息變量消除(Uninformative variable elimination, UVE)可以避免過(guò)度擬合,提高模型的預(yù)測(cè)能力。在這種方法中,通過(guò)向原始變量添加人工隨機(jī)變量來(lái)獲得一個(gè)新的數(shù)據(jù)集。模型通過(guò)留一交叉驗(yàn)證進(jìn)行優(yōu)化。因此,重要性低于人工隨機(jī)變量的譜系變量被刪除[20]。
1.3.4BLS模型
寬度學(xué)習(xí)系統(tǒng)(BLS)是基于隨機(jī)向量函數(shù)鏈接網(wǎng)絡(luò)(RVFLNN)的一種具有通用逼近能力的新型建模方法[21],具體結(jié)構(gòu)如圖1所示。
圖1 寬度學(xué)習(xí)系統(tǒng)結(jié)構(gòu)圖Fig.1 Broad learning system structure diagram
BLS隱藏層的輸入矩陣是由映射節(jié)點(diǎn)層(Mapped feature)和增強(qiáng)節(jié)點(diǎn)層(Enhancement nodes)組成,系統(tǒng)第i組映射特征及其構(gòu)成的集合Zi可表示為
Zi=φi(WeiX+βei) (i=1,2,…,n)
(1)
Zn=[Z1Z2…Zn]
(2)
式中φi(·)——特征映射函數(shù)
Wei——第i個(gè)最佳權(quán)值向量
βei——對(duì)應(yīng)于Wei的偏置向量
Zn——特征節(jié)點(diǎn)
X——BLS模型的輸入矩陣
增強(qiáng)節(jié)點(diǎn)是映射節(jié)點(diǎn)通過(guò)相同映射與非線性激活得到的,其中系統(tǒng)第j個(gè)增強(qiáng)節(jié)點(diǎn)及其構(gòu)成的集合Hj可表示為
Hj=δj(WhjZn+βhj) (j=1,2,…,d)
(3)
Hd=[H1H2…Hd]
(4)
式中δj——映射激活函數(shù)
Hd——增強(qiáng)節(jié)點(diǎn)
Whj、βhj——特征映射至增強(qiáng)節(jié)點(diǎn)的權(quán)值向量和偏置向量
白菜中吡蟲啉含量的預(yù)測(cè)值是將輸出權(quán)值矩陣通過(guò)回歸廣義逆計(jì)算得到的,計(jì)算過(guò)程可表示為
Y=[Zn|Hd]W
(5)
式中 [Zn|Hd]——寬度學(xué)習(xí)系統(tǒng)輸入
W——從特征節(jié)點(diǎn)到增強(qiáng)節(jié)點(diǎn)再到系統(tǒng)輸出的權(quán)值矩陣
Y——吡蟲啉含量預(yù)測(cè)值
1.3.5模型評(píng)價(jià)
選擇決定系數(shù)(Coefficient of determination,R2)和均方根誤差(Root mean square error,RMSE)作為白菜中吡蟲啉農(nóng)藥殘留含量檢測(cè)模型的評(píng)價(jià)參數(shù)。R2越接近1,表明熒光光譜信息與白菜中吡蟲啉的相關(guān)性越好,RMSE越小,表明預(yù)測(cè)中產(chǎn)生的誤差越小,即光譜建模效果越好[22]。
為了獲得吡蟲啉農(nóng)藥的最佳激發(fā)波長(zhǎng),吸取5 mL純農(nóng)藥并掃描其三維熒光光譜。圖2為吡蟲啉溶液三維熒光光譜圖和對(duì)應(yīng)的等高線圖,可以看出,在λEx、λEm為400、480 nm存在一個(gè)熒光峰,所以吡蟲啉溶液的最佳激發(fā)波長(zhǎng)為400 nm,最佳發(fā)射波長(zhǎng)為480 nm。
圖2 尋找吡蟲啉最佳激發(fā)波長(zhǎng)的三維熒光光譜圖Fig.2 Three-dimensional fluorescence spectra for finding optimal excitation wavelength of imidacloprid
選用吡蟲啉溶液的最佳激發(fā)波長(zhǎng)400 nm,掃描白菜中農(nóng)殘溶液的熒光發(fā)射光譜,共得到波段數(shù)為61維的光譜數(shù)據(jù)。為了更清晰地分析不同濃度農(nóng)殘樣本的光譜差異,將各質(zhì)量比下的10組數(shù)據(jù)取平均,并繪制圖3中的質(zhì)量比變化對(duì)比曲線??梢钥闯?隨著白菜汁中吡蟲啉質(zhì)量比的增加,對(duì)應(yīng)的熒光強(qiáng)度也隨之增長(zhǎng)。在波長(zhǎng)490 nm和580 nm處分別存在2個(gè)尖峰,對(duì)應(yīng)表示為青光和黃光。通過(guò)分析發(fā)現(xiàn)熒光光譜信息與樣本中農(nóng)藥含量存在規(guī)律變化,因此理論上可以通過(guò)熒光數(shù)據(jù)表征白菜汁中吡蟲啉的含量。
圖3 不同吡蟲啉質(zhì)量比的平均發(fā)射熒光光譜Fig.3 Mean emission fluorescence spectra of different imidacloprid mass ratios
表2 不同預(yù)處理的建模結(jié)果Tab.2 Modeling results with different pre-processing
農(nóng)藥殘留樣品的成分復(fù)雜,光譜信息量大,通過(guò)特征降維可以簡(jiǎn)化模型,提高預(yù)測(cè)的穩(wěn)定性。圖4a為KPCA的降維過(guò)程圖,成分?jǐn)?shù)累計(jì)到第17維時(shí)累計(jì)貢獻(xiàn)率增長(zhǎng)趨于平穩(wěn),此時(shí)累計(jì)貢獻(xiàn)率為95.65%。說(shuō)明前17維數(shù)據(jù)已包含了大部分有效信息,故選擇前17維主成分量當(dāng)作預(yù)測(cè)模型輸入維主成分量。
圖4 光譜特征降維過(guò)程圖Fig.4 Diagrams of spectral feature downscaling process
在添加噪聲后,UVE根據(jù)光譜變量和噪聲組成的自變量矩陣,對(duì)目標(biāo)矩陣回歸系數(shù)的統(tǒng)計(jì)分布進(jìn)行變量判斷。圖4b為UVE的變量選擇過(guò)程中的加噪篩選過(guò)程曲線圖,圖中左側(cè)曲線為農(nóng)藥殘留樣品的光譜變量矩陣,右側(cè)為添加與光譜變量數(shù)目相同的隨機(jī)噪聲矩陣,2條水平虛線表示隨機(jī)噪聲的最大和最小閾值,兩線之間為剔除的無(wú)關(guān)變量。最終通過(guò)UVE選擇出9個(gè)特征波長(zhǎng)。
白菜中吡蟲啉殘留樣本的光譜數(shù)據(jù)采用最佳預(yù)處理方法MSC,然后分別進(jìn)行KPCA和UVE特征降維,依次將降維后的17維與9維光譜數(shù)據(jù)送入BLS模型。BLS模型的參數(shù)為特征窗口數(shù)量n、窗口內(nèi)的特征數(shù)量k以及增強(qiáng)節(jié)點(diǎn)數(shù)目m。實(shí)驗(yàn)選用Leaky ReLU為BLS的激活函數(shù),參數(shù)設(shè)置n=10,k=30,m=300。表3為基于全波段、KPCA特征和UVE特征的BLS模型的建模結(jié)果。可以看出,2種降維方式均能有效提升模型精度,說(shuō)明全波段光譜存在冗余信息,數(shù)據(jù)集的壓縮能夠精煉出與農(nóng)藥殘留量相關(guān)性的光譜信息。其中,基于UVE-BLS組合模型的預(yù)測(cè)結(jié)果最佳,圖5a顯示了該模型真實(shí)值與預(yù)測(cè)值的線性擬合結(jié)果,校正集與測(cè)試集決定系數(shù)分別為0.970和0.949。此外,UVE-BLS組合模型相比全波段建模的測(cè)試集決定系數(shù)增加0.07,均方根誤差降低0.185 mg/kg,說(shuō)明UVE所提取的特征波段最能表征白菜中吡蟲啉的含量,這種通過(guò)添加噪聲來(lái)消除不提供信息變量的方式適用于熒光光譜檢測(cè)農(nóng)藥殘留量。圖5b更加清晰地展示了預(yù)測(cè)集的樣本分布以及吡蟲啉含量真實(shí)值和預(yù)測(cè)值的偏差,可以看出當(dāng)農(nóng)藥質(zhì)量比低于1 mg/kg時(shí),預(yù)測(cè)偏差較小,預(yù)測(cè)值均分布在真實(shí)值附近。當(dāng)質(zhì)量比遠(yuǎn)超國(guó)家標(biāo)準(zhǔn)0.2 mg/kg時(shí),模型穩(wěn)定性有所下降,預(yù)測(cè)結(jié)果雖然出現(xiàn)明顯浮動(dòng),但也始終保持了正確判別農(nóng)藥殘留量超標(biāo)的基礎(chǔ)。綜上所述,熒光光譜法結(jié)合BLS模型監(jiān)測(cè)白菜中吡蟲啉含量是可行的,UVE所選擇的特征波長(zhǎng)可作為表征農(nóng)藥殘留量的光譜特征。
圖5 UVE-BLS建模結(jié)果Fig.5 Diagrams of UVE-BLS modeling results
表3 不同降維方法的BLS模型結(jié)果Tab.3 Results of BLS models with different dimensionality reduction methods
為了評(píng)估BLS算法建立熒光光譜預(yù)測(cè)白菜中吡蟲啉含量的性能,將基于最優(yōu)特征波長(zhǎng)UVE建模的BLS模型與經(jīng)典線性機(jī)器學(xué)習(xí)模型(PLSR)、經(jīng)典非線性模型(SVM)以及基于深度學(xué)習(xí)的改進(jìn)非線性模型(DELM)進(jìn)行對(duì)比分析。本研究中PLSR的可調(diào)參數(shù)為主成分?jǐn)?shù),決定了建模分析的變量個(gè)數(shù),該參數(shù)的最優(yōu)取值均采用二十折交叉驗(yàn)證獲得[23];SVM采用RBF核函數(shù),通過(guò)設(shè)置懲罰因子c和核函數(shù)參數(shù)g調(diào)節(jié)模型精度[24];DELM模型設(shè)置sigmoid為激活函數(shù),可調(diào)參數(shù)為3個(gè)隱含層的節(jié)點(diǎn)數(shù)[25]。由表4可以看出,非線性模型的預(yù)測(cè)精度均優(yōu)于PLSR,說(shuō)明光譜信息與農(nóng)藥濃度之間的關(guān)系較復(fù)雜,并不能通過(guò)線性關(guān)系表征二者的聯(lián)系。其次,實(shí)驗(yàn)表明BLS模型的準(zhǔn)確度最高,能夠針對(duì)數(shù)據(jù)特征不多的小樣本進(jìn)行較為精準(zhǔn)預(yù)測(cè),證實(shí)了BLS模型在光譜檢測(cè)食品含量領(lǐng)域的可行性。分析BLS模型優(yōu)于其他模型的原因,可能是因?yàn)锽LS模型是一種新型的不依賴深度結(jié)構(gòu)的寬度神經(jīng)網(wǎng)絡(luò),該算法提升網(wǎng)絡(luò)精度的方式就是通過(guò)橫向增加“寬度”,與深度學(xué)習(xí)模型的增加層數(shù)相比,BLS能有效避免過(guò)度學(xué)習(xí)[26-27]。與線性模型相比,它又能很好地?cái)M合非線性數(shù)據(jù)。實(shí)際預(yù)測(cè)中BLS能通過(guò)逐漸逼近的方式,不斷提升預(yù)測(cè)精度,使其正確性滿足精度要求[28]。
表4 不同建模算法的結(jié)果Tab.4 Results of different modeling algorithms
(1)利用三維熒光光譜測(cè)定吡蟲啉,在波長(zhǎng)400 nm激發(fā)和波長(zhǎng)480 nm發(fā)射處呈現(xiàn)熒光特征峰。
(2)結(jié)合D1、D2、SNV、S-G、MSC、CWT共6種算法分別對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。相較而言,基于MSC的預(yù)處理效果最佳。
(3)基于KPCA和UVE分別得到了17、9個(gè)特征變量,2種降維方法均有效剔除了與建模相關(guān)度低的光譜波段,提高了信噪比與后期建模的精度。其中,UVE算法消除冗余變量的性能最佳。
(5)研究結(jié)果表明熒光光譜技術(shù)檢測(cè)白菜中吡蟲啉含量是可行的,驗(yàn)證了BLS模型在光譜檢測(cè)領(lǐng)域的適應(yīng)性。該方法可為在線檢測(cè)農(nóng)藥殘留量系統(tǒng)的開(kāi)發(fā)提供理論依據(jù)。
農(nóng)業(yè)機(jī)械學(xué)報(bào)2023年10期