黃 華,南夢(mèng)迪,李政浩,陳秋穎,李廷杰,郭俊先
1.新疆農(nóng)業(yè)大學(xué)數(shù)理學(xué)院,新疆 烏魯木齊 830052 2.新疆農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,新疆 烏魯木齊 830052
我國(guó)是世界上最大的蘋果栽培國(guó)家,也是產(chǎn)量最多的國(guó)家。據(jù)《2021年中國(guó)蘋果行業(yè)分析報(bào)告》顯示,2019年—2020年度,我國(guó)蘋果產(chǎn)量約4 266萬噸。在眾多蘋果品種中,紅富士具有體積大,遍體通紅,形狀圓,果肉緊密,口感甜美、清脆等主要特點(diǎn),備受消費(fèi)者的廣泛喜愛。紅富士蘋果多產(chǎn)于山東、甘肅、陜西、山西、河北、遼寧、河南、新疆等地,因受到環(huán)境、氣候等眾多外界因素影響,不同產(chǎn)地的紅富士蘋果主要成分含量存在差異,蘋果的口感、水分、糖分等也存在明顯的差別[1],市場(chǎng)價(jià)格也隨之不同。因此,從市場(chǎng)和消費(fèi)者的需求出發(fā),探索一種簡(jiǎn)單、快捷、無損的識(shí)別算法實(shí)現(xiàn)蘋果產(chǎn)地溯源具有重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義。
近紅外光譜技術(shù)作為一種高效、快速的現(xiàn)代分析技術(shù),隨著計(jì)算機(jī)技術(shù)、光譜技術(shù)和化學(xué)計(jì)量學(xué)的不斷發(fā)展,其以獨(dú)特的優(yōu)勢(shì)在農(nóng)業(yè)、化工、制藥、石油等領(lǐng)域得到日益廣泛的應(yīng)用[2-5]。Zhang等運(yùn)用近紅外光譜及偏最小二乘回歸對(duì)8個(gè)蘋果品種的可溶性固形物和果實(shí)干物質(zhì)含量進(jìn)行無損預(yù)測(cè)[6];馬永杰等基于深度學(xué)習(xí)數(shù)據(jù)降維方法,結(jié)合近紅外透射光譜研究了蘋果產(chǎn)地溯源問題[7]。然而,在近紅外光譜的實(shí)際應(yīng)用中,采集的近紅外光譜原始數(shù)據(jù)往往是高維的、復(fù)雜的,并且存在大量冗余信息和噪聲,通常會(huì)面臨光譜數(shù)據(jù)預(yù)處理、光譜數(shù)據(jù)的特征提取和特征選擇、高精度的回歸或判別模型建立等關(guān)鍵核心問題[8-9]?;诖?,許多學(xué)者進(jìn)行了廣泛的研究。趙啟東等將分?jǐn)?shù)階微分(fractional differential,F(xiàn)D)技術(shù)分別與極限學(xué)習(xí)機(jī)、隨機(jī)森林、多元自適應(yīng)回歸樣條函數(shù)、彈性網(wǎng)絡(luò)回歸和梯度提升回歸樹相結(jié)合,實(shí)現(xiàn)土壤有機(jī)碳含量的估算。結(jié)果表明,F(xiàn)D的預(yù)處理效果優(yōu)于整數(shù)階微分[10]。通常情況下,F(xiàn)D預(yù)處理除了能消除干擾、突出譜線的差別、增強(qiáng)信息量外,還可以挖掘光譜數(shù)據(jù)的FD層面信息,有助于提高模型精度。楊璐等利用紅外光譜結(jié)合主成分分析(principal component analysis,PCA)-線性判別分析(linear discriminant analysis,LDA),構(gòu)建膠料種類判別模型,并對(duì)嘉峪關(guān)戲臺(tái)文物膠料種類進(jìn)行判別,其模型穩(wěn)定有效[11];Wu等利用PCA和核fisher判別分析結(jié)合近紅外光譜分析對(duì)蘋果進(jìn)行分級(jí)[12];Lv等提出一種基于近紅外光譜和PLS-DA鑒別阿克蘇紅富士蘋果品種[13]。PCA作為一種無監(jiān)督算法,在實(shí)現(xiàn)降維的過程中能盡可能多的保留方差信息,原始數(shù)據(jù)信息損失較少。LDA作為一種有監(jiān)督算法,也可用于數(shù)據(jù)降維,但是會(huì)面臨復(fù)雜的廣義特征分解問題,特別是當(dāng)樣本量和變量指標(biāo)過大時(shí),LDA算法的計(jì)算量和內(nèi)存占用較大。Gui在LDA算法的基礎(chǔ)上,基于譜圖分析理論和回歸模型提出了譜回歸判別分析(spectral regression discriminant analysis,SRDA)算法,極大地簡(jiǎn)化了計(jì)算過程[14]。在光譜數(shù)據(jù)建模過程中,除了研究預(yù)處理技術(shù)、特征提取和特征選擇算法外,基于模型融合、集成學(xué)習(xí)思路建立高精度的回歸或判別模型也是建模研究的重點(diǎn)。已有研究預(yù)示利用近紅外光譜,結(jié)合分?jǐn)?shù)階微分技術(shù)及PCA,LDA和SRDA算法可應(yīng)用于蘋果產(chǎn)地溯源,但是利用近紅外透射光譜,基于分?jǐn)?shù)階微分技術(shù)及PCA-SRDA進(jìn)行多模型融合構(gòu)建集成學(xué)習(xí)模型,實(shí)現(xiàn)紅富士蘋果產(chǎn)地溯源的研究還未有相關(guān)報(bào)道。
因此,以紅富士品種為研究對(duì)象,以新疆阿克蘇、山東煙臺(tái)、陜西洛川三個(gè)產(chǎn)地的紅富士蘋果為試驗(yàn)對(duì)象,利用近紅外透射光譜,基于分?jǐn)?shù)階微分技術(shù)及PCA-SRDA進(jìn)行多模型融合,構(gòu)建紅富士蘋果產(chǎn)地溯源的集成學(xué)習(xí)模型,以期為蘋果產(chǎn)地溯源的實(shí)際應(yīng)用提供新思路。
本試驗(yàn)選取三個(gè)產(chǎn)地的紅富士蘋果,包括新疆阿克蘇(產(chǎn)地經(jīng)緯度:80°29′E,41°15′N)、山東煙臺(tái)(產(chǎn)地經(jīng)緯度:121°20′E,37°33′N)、陜西洛川(產(chǎn)地經(jīng)緯度:109°42′E,35°76′N)。蘋果試材于2019年1月6日和10日分兩批購(gòu)買于新疆烏魯木齊市北園春水果批發(fā)市場(chǎng)。由經(jīng)驗(yàn)豐富的果商對(duì)同批次同品牌蘋果拆箱挑選大小適中、尺寸均勻、無明顯損傷的蘋果,套網(wǎng)套并打包裝箱轉(zhuǎn)運(yùn)回?zé)o損檢測(cè)實(shí)驗(yàn)室,然后開箱平鋪、室溫20 ℃靜置 24 h,擦凈蘋果表面浮土并逐個(gè)編號(hào),共671個(gè),其中,新疆阿克蘇紅富士蘋果241個(gè),山東煙臺(tái)紅富士蘋果215個(gè),陜西洛川紅富士蘋果215個(gè)。
近紅外透射光譜采集系統(tǒng)由蘋果托架、配備小型風(fēng)扇的光源套件(JCR12V 100 W 鹵鎢燈)、近紅外光譜儀(美國(guó)海洋光學(xué)公司,USB 2000+型)、大芯徑雙包層石英光纖(SMA905接口)、鋁合金機(jī)架、暗箱與計(jì)算機(jī)等組成。光纖探頭一端連接光譜儀,另一端固定在蘋果托架圓心正下方,實(shí)現(xiàn)對(duì)近紅外透射光譜的高效采集。數(shù)據(jù)分析用MATLAB 2019b軟件。
1.3.1 光譜采集及校正
近紅外透射光譜數(shù)據(jù)采集由配套軟件美國(guó)海洋光學(xué)公司USB 2000+型近紅外光譜儀實(shí)現(xiàn),使用前開機(jī)預(yù)熱1 h,之后通過測(cè)試采樣設(shè)置 SpectraSuite 軟件界面參數(shù),最后確定樣本光譜采集參數(shù)為:平均次數(shù)3;平滑度5;積分時(shí)間 120 ms;波段數(shù)512(波長(zhǎng)范圍:590~1 250 nm)。采集光譜時(shí),將蘋果置于光譜采集儀器的果托上,蘋果與果托之間不留光縫,確保光纖接收光信號(hào)的點(diǎn)完全屏蔽光源,使其只能接收到透過蘋果的光。待軟件界面顯示的光譜穩(wěn)定后,保存光譜;然后將蘋果分別順時(shí)針旋轉(zhuǎn)120°兩次,并分別采集光譜,最后將其平均光譜作為該樣本的原始光譜。共采集671個(gè)蘋果的近紅外透射光譜信息。同時(shí),為了消除因USB2000+光纖光譜儀預(yù)熱不充分,導(dǎo)致暗光譜發(fā)生微小變化所產(chǎn)生的試驗(yàn)誤差,每測(cè)量10個(gè)樣本就需保存一次該時(shí)刻的暗光譜,用于后續(xù)光譜校正。
因蘋果形狀差異、攝像頭中的暗電流噪聲等會(huì)對(duì)蘋果近紅外透射光譜數(shù)據(jù)產(chǎn)生噪聲影響,因此,采集原始光譜后,對(duì)獲得的近紅外透射光譜進(jìn)行校正[7]。
1.3.2 分?jǐn)?shù)階微分技術(shù)
分?jǐn)?shù)階微分是由整數(shù)階微分直接擴(kuò)展而來的,它的定義包括Cauchy積分公式、Grünwald-Letnikov分?jǐn)?shù)階微積分定義、Riemann-Liouville分?jǐn)?shù)階微積分定義和Capotu定義等。本研究采用的是Grünwald-Letnikov分?jǐn)?shù)階微積分定義。根據(jù)該定義,可利用分?jǐn)?shù)階微分的數(shù)值近似求解公式進(jìn)行計(jì)算,實(shí)現(xiàn)光譜數(shù)據(jù)的分?jǐn)?shù)階微分預(yù)處理[14]。
1.3.3 譜回歸判別分析
SRDA是在LDA算法的基礎(chǔ)上,基于譜圖分析理論和回歸模型提出的,可用于有監(jiān)督、半監(jiān)督和無監(jiān)督學(xué)習(xí)。其主要思想是通過類別標(biāo)簽或無類別標(biāo)簽的數(shù)據(jù)點(diǎn)來構(gòu)建連接圖,基于連接圖可表征數(shù)據(jù)集內(nèi)部的判別式結(jié)構(gòu),還可獲得類別標(biāo)簽或無類別標(biāo)簽的數(shù)據(jù)點(diǎn)的學(xué)習(xí)響應(yīng),根據(jù)學(xué)習(xí)響應(yīng),利用回歸模型可得嵌入函數(shù),而通過向嵌入函數(shù)投影,則可以實(shí)現(xiàn)數(shù)據(jù)的降維。相比LDA算法,SRDA算法在計(jì)算量和內(nèi)存占用方面更具優(yōu)勢(shì)。
1.3.4 多模型融合
結(jié)合不同階次的分?jǐn)?shù)階微分預(yù)處理及PCA-SRDA進(jìn)行多模型融合,構(gòu)建一種集成學(xué)習(xí)算法。多模型融合的具體流程如圖1所示?;舅悸窞椋?1)采用不同階次(取0~2階,步長(zhǎng)為0.1)的分?jǐn)?shù)階微分預(yù)處理訓(xùn)練集原始光譜;(2)基于不同階次的分?jǐn)?shù)階微分預(yù)處理及PCA-SRDA算法構(gòu)建基學(xué)習(xí)器,并輸出相應(yīng)的預(yù)測(cè)結(jié)果;(3)將基學(xué)習(xí)器的預(yù)測(cè)結(jié)果組成一個(gè)新訓(xùn)練集,并采用決策樹算法完成模型融合,得到最終的分類預(yù)測(cè)模型;(4)采用對(duì)應(yīng)階次的分?jǐn)?shù)階微分技術(shù)預(yù)處理測(cè)試集原始光譜,然后基于已建立的基學(xué)習(xí)器,輸出相應(yīng)的預(yù)測(cè)結(jié)果;(5)將測(cè)試集的基學(xué)習(xí)器預(yù)測(cè)結(jié)果構(gòu)成一個(gè)新測(cè)試集,并基于已建立的分類預(yù)測(cè)模型,輸出最終的預(yù)測(cè)結(jié)果。
圖1 多模型融合流程圖
對(duì)三個(gè)產(chǎn)地紅富士蘋果的重量、物理特性(橫徑、縱徑)和可溶性固形物含量進(jìn)行常規(guī)統(tǒng)計(jì)(見表1)。
從表1,可以得出,三個(gè)產(chǎn)地蘋果重量的均值排序?yàn)樾陆⒖颂K>陜西洛川>山東煙臺(tái);三個(gè)產(chǎn)地蘋果橫徑的均值排序?yàn)樾陆⒖颂K>陜西洛川>山東煙臺(tái);三個(gè)產(chǎn)地蘋果縱徑的均值排序?yàn)樾陆⒖颂K>山東煙臺(tái)>陜西洛川;三個(gè)產(chǎn)地蘋果可溶性固形物含量的均值排序?yàn)樾陆⒖颂K>山東煙臺(tái)>陜西洛川,且三個(gè)產(chǎn)地的蘋果可溶性固形物含量具有極其顯著的差異。由此可知,新疆阿克蘇紅富士蘋果的糖分明顯高于其他兩個(gè)產(chǎn)地的蘋果,市場(chǎng)上也更受消費(fèi)者喜愛,但僅從蘋果重量、外形、物理特性等難以準(zhǔn)確判斷蘋果產(chǎn)地。
表1 三個(gè)產(chǎn)地紅富士蘋果的常規(guī)數(shù)據(jù)統(tǒng)計(jì)
將采集的671個(gè)蘋果的近紅外透射光譜,經(jīng)過光譜校正后,計(jì)算每個(gè)產(chǎn)地的蘋果平均透射光譜曲線,如圖2(a)所示。可見,三條平均光譜曲線的形狀、趨勢(shì)非常一致,但是新疆阿克蘇蘋果在600~900 nm波長(zhǎng)范圍與其他兩個(gè)產(chǎn)地的蘋果光譜存在差異性分離,山東煙臺(tái)與陜西洛川蘋果之間的光譜吸光度差異較小而難以區(qū)分。
進(jìn)一步,利用Grünwald-Letnikov分?jǐn)?shù)階微積分定義,計(jì)算三條平均光譜曲線的分?jǐn)?shù)階微分,如圖2(b)—(f)所示(僅列出0.6階、0.9階、1.2階、1.5階、2階微分曲線)。可見,平均光譜曲線基于不同階次的分?jǐn)?shù)階微分計(jì)算,不同產(chǎn)地的蘋果光譜曲線呈現(xiàn)不同的變化。據(jù)此,可以從不同分?jǐn)?shù)階微分層面獲取更多光譜數(shù)據(jù)的深層信息,比如光譜曲線的幾何信息,所以利用分?jǐn)?shù)階微分技術(shù),可挖掘光譜數(shù)據(jù)的分?jǐn)?shù)階微分層面的更多數(shù)據(jù)信息,這勢(shì)必有助于提高蘋果產(chǎn)地溯源模型的精確性和穩(wěn)健性。
圖2 不同產(chǎn)地紅富士蘋果的不同分?jǐn)?shù)階次的近紅外透射光譜
光譜數(shù)據(jù)通過分?jǐn)?shù)階微分預(yù)處理,除了能挖掘分?jǐn)?shù)階微分層面的光譜曲線信息外,還可以消除干擾、突出譜線的差別、增強(qiáng)信息量。因此,按照多模型融合流程,對(duì)原始光譜的訓(xùn)練集和測(cè)試集分別進(jìn)行分?jǐn)?shù)階微分預(yù)處理。如圖3所示,為訓(xùn)練集和測(cè)試集的(0.6階)分?jǐn)?shù)階微分預(yù)處理結(jié)果。
圖3 訓(xùn)練集(a)和測(cè)試集(b)的(0.6階)分?jǐn)?shù)階微分預(yù)處理結(jié)果
在獲取的分?jǐn)?shù)階微分光譜基礎(chǔ)上,需要進(jìn)一步降維和特征提取。利用PCA-SRDA進(jìn)行特征提取。如圖4所示,為訓(xùn)練集和測(cè)試集經(jīng)過(0.6階)分?jǐn)?shù)階微分預(yù)處理的PCA降維結(jié)果(主成分個(gè)數(shù)取16)。從圖4可以看出,通過PCA降維處理后,新疆阿克蘇蘋果與山東煙臺(tái)、陜西洛川紅富士蘋果具有較好的區(qū)分度,但是山東煙臺(tái)與陜西洛川蘋果之間仍有較多重疊,較為混淆。
圖4 PCA降維結(jié)果的可視化圖
如圖5所示,為訓(xùn)練集和測(cè)試集經(jīng)PCA降維后的SRDA特征提取結(jié)果。從圖5可以看出,經(jīng)過PCA-SRDA特征提取后,新疆阿克蘇、山東煙臺(tái)、陜西洛川蘋果彼此之間的區(qū)分度顯著提高。由此獲悉,采用PCA-SRDA算法對(duì)本試驗(yàn)的蘋果光譜數(shù)據(jù)進(jìn)行特征提取是一種切實(shí)有效的技術(shù)。
圖5 PCA-SRDA特征提取結(jié)果的可視化圖
將樣本數(shù)據(jù)按7∶3比例隨機(jī)劃分訓(xùn)練集和測(cè)試集,然后根據(jù)多模型融合步驟予以實(shí)現(xiàn)。為比較多模型融合集成學(xué)習(xí)算法的優(yōu)劣,同時(shí)給出基于LDA,SRDA和PCA-LDA的預(yù)測(cè)結(jié)果。如表2所示,為200次重復(fù)實(shí)驗(yàn)的結(jié)果,如圖6為對(duì)應(yīng)的箱圖。
表2 多模型融合集成學(xué)習(xí)模型的蘋果產(chǎn)地溯源結(jié)果(200次重復(fù)實(shí)驗(yàn))
圖6 蘋果產(chǎn)地溯源結(jié)果的箱圖(200次重復(fù)實(shí)驗(yàn))
從表3和圖6的結(jié)果可得,結(jié)合不同階次的分?jǐn)?shù)階微分預(yù)處理及LDA,SRDA,PCA-LDA和PCA-SRDA算法建立多模型融合集成學(xué)習(xí)模型,具有較好的鑒別效果和較強(qiáng)的魯棒性,其中,F(xiàn)D-PCA-SRDA多模型融合集成學(xué)習(xí)模型為最優(yōu),其訓(xùn)練集的平均精度為97.33%,標(biāo)準(zhǔn)差為0.49%,測(cè)試集的平均精度為94.84%,標(biāo)準(zhǔn)差為1.48%。此外,F(xiàn)D-PCA-SRDA多模型融合集成學(xué)習(xí)模型與FD-PCA-LDA多模型融合集成學(xué)習(xí)模型在精度上沒有顯著差異,但在模型的運(yùn)行時(shí)間上具有一定差異,單次實(shí)驗(yàn)的運(yùn)行時(shí)間平均減少約3.2 s。綜上說明,分?jǐn)?shù)階微分技術(shù)及PCA-SRDA多模型融合結(jié)合近紅外透射光譜技術(shù)對(duì)蘋果產(chǎn)地溯源具有可行性。
結(jié)合近紅外透射光譜,基于分?jǐn)?shù)階微分預(yù)處理技術(shù)及PCA-SRDA進(jìn)行多模型融合構(gòu)建集成學(xué)習(xí)模型,實(shí)現(xiàn)紅富士蘋果的產(chǎn)地溯源,得到如下主要結(jié)論:
(1)利用分?jǐn)?shù)階微分預(yù)處理光譜數(shù)據(jù),除了能消除干擾、突出譜線的差別、增強(qiáng)信息量外,還可以通過計(jì)算光譜曲線不同階次的分?jǐn)?shù)階微分,挖掘出分?jǐn)?shù)階微分層面的更多深層數(shù)據(jù)信息,比如光譜曲線的幾何信息,這有助于提高模型的識(shí)別精度。
(2)利用PCA-SRDA算法對(duì)光譜數(shù)據(jù)進(jìn)行特征提取,可以很好地將新疆阿克蘇、山東煙臺(tái)、陜西洛川蘋果彼此分離開,區(qū)分度很好,說明PCA-SRDA算法是一種切實(shí)有效的特征提取技術(shù)。
(3)結(jié)合近紅外透射光譜,基于分?jǐn)?shù)階微分技術(shù)及PCA-SRDA進(jìn)行多模型融合,構(gòu)建的蘋果識(shí)別集成學(xué)習(xí)模型,取得了預(yù)期的識(shí)別效果,可成功、有效地實(shí)現(xiàn)蘋果產(chǎn)地溯源。200次重復(fù)實(shí)驗(yàn)結(jié)果表明,提出的多模型融合集成學(xué)習(xí)模型具有較好的鑒別效果和較強(qiáng)的魯棒性,其中,F(xiàn)D-PCA-SRDA多模型融合集成學(xué)習(xí)模型為最優(yōu),其訓(xùn)練集的平均精度為97.33%,標(biāo)準(zhǔn)差為0.49%,測(cè)試集的平均精度為94.84%,標(biāo)準(zhǔn)差為1.48%。
(4)本方法具有較強(qiáng)的適用性、較高的識(shí)別精度和泛化能力,可為紅富士蘋果產(chǎn)地溯源提供技術(shù)支持和科學(xué)支撐,還可以拓展到近紅外光譜技術(shù)的其他應(yīng)用領(lǐng)域。