范振岐,張含笑,王彥群,2*
(1塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300)
(2華中農(nóng)業(yè)大學(xué)信息學(xué)院,湖北 武漢 430070)
庫爾勒香梨是新疆特色水果,也是中國最優(yōu)質(zhì)的地方梨品種之一,香梨果皮薄、質(zhì)脆,果肉白色、多汁味甜、近果心處略酸、香味濃郁,是國家地理標(biāo)志產(chǎn)品[1],以其優(yōu)異的品質(zhì)在國內(nèi)外享有盛譽,是當(dāng)?shù)毓r(nóng)創(chuàng)匯增收的主要來源,已成為當(dāng)?shù)刂еa(chǎn)業(yè)之一[2]。庫爾勒香梨品質(zhì)的好壞,一個重要的指標(biāo)就是糖度(Brix),也常常作為香梨等級評判的重要標(biāo)準(zhǔn)。根據(jù)庫爾勒香梨標(biāo)準(zhǔn) NY/T 585—2002[3],香梨糖度大于或等于12.5為特級,大于或等于12而小于12.5為一級,大于或等于11而小于12為二級。所以,糖度的測定是香梨等級評判的關(guān)鍵。糖度中大部分的成分是可溶性固形物,常用可溶性固形物含量反映糖度。傳統(tǒng)的檢測糖度方法是采用數(shù)字式糖度計或阿貝折射儀測量果汁的可溶性固形物含量[4-5],以此作為果肉的糖度,但此方法是有損檢測,很難用于果品品質(zhì)無損檢測儀以及基于內(nèi)部品質(zhì)的果品工業(yè)化分級設(shè)備的研發(fā)中。因此,急需尋找一種簡單、快速、無損的檢測方法來檢測香梨糖度從而進行分級,而近紅外光譜分析技術(shù)正好滿足這些要求。
近紅外光譜分析技術(shù)可以測試物質(zhì)對光的吸收、透射和反射的能力以確定特定成分含量,是一種快速、高效、低成本的檢測技術(shù),已廣泛用于農(nóng)產(chǎn)品品質(zhì)無損檢測。在蜜柑、蘋果、芒果的糖度[6-8],甜瓜、蜜瓜、土豆、洋蔥、臍橙、獼猴桃等可溶性固形物含量及干物質(zhì)含量[9-11],草莓維生素C[12]和鳳梨的水、纖維素[13]的檢測方面得到了較好應(yīng)用。關(guān)于梨的品質(zhì)研究方面,已經(jīng)有對梨表面色澤[14]、梨酸度[15]、砂梨的糖度[16]、南果梨的可溶性固形物[17]、翠冠梨可溶性固形物含量[18]和梨堅實度[19]等方面的研究。庫爾勒香梨皮薄多汁的屬性為無損檢測技術(shù)應(yīng)用提供了很好的條件。將振動頻譜技術(shù)[2]、介電譜技術(shù)[4,20]、可見/近紅外光譜技術(shù)[5]、高光譜技術(shù)[21]分別用于無損檢測庫爾勒香梨的可溶性固形物含量,已經(jīng)取得了較好的預(yù)測效果。當(dāng)前,庫爾勒香梨果實品質(zhì)成為人們研究的熱點,但是利用近紅外光譜技術(shù)進行庫爾勒香梨等級判別的研究很少見??紤]到水果品種的差異性,糖分在不同水果中的光譜響應(yīng)也不盡相同,因此需要綜合系統(tǒng)地比較各種近紅外光譜變量篩選方法和建模理論在庫爾勒香梨含糖量預(yù)測中的性能,從而獲取適用于庫爾勒香梨等級評判的近紅外光譜的最佳建模理論。
本試驗以香梨糖度作為檢測指標(biāo),使用近紅外光譜儀采集波段范圍在900~1 700 nm內(nèi)的數(shù)百個香梨樣本光譜數(shù)據(jù),對原始光譜選擇合適的預(yù)處理方法,篩選特征波段,以糖度特征光譜數(shù)據(jù)作為參數(shù),利用最近鄰域法、支持向量機、隨機森林方法建立庫爾勒香梨等級判別模型,并針對模型的優(yōu)劣進行比較,從而建立適用于庫爾勒香梨的基于近紅外光譜的等級判別模型。
選購大小均勻、無損傷的庫爾勒香梨350個作為樣本集。對樣本清洗以去除表面灰塵并進行依次編號后,放在室溫中24 h以消除溫度對所構(gòu)建模型性能的影響。在采集光譜數(shù)據(jù)前,對樣本沿赤道部位每隔120°進行采樣區(qū)域標(biāo)記,每個樣本共標(biāo)記3個采樣區(qū)。
采用Micro NIR 1700便攜式光譜儀,掃描獲得樣本吸光度原始光譜,對每個樣本采集3次光譜數(shù)據(jù),取平均值作為最終的試驗數(shù)據(jù),進行進一步分析。待采集完光譜數(shù)據(jù)后,將樣品按原編號放回儲存,以便后期進行糖度的測定。重復(fù)此步驟,直到采集完350份樣品的光譜圖像,掃描的光譜數(shù)據(jù)以Excel表格的形式導(dǎo)出。
光譜數(shù)據(jù)采集后,在樣品的3個標(biāo)記區(qū)域各切取一塊帶皮的果肉,分別人工壓汁并過濾,用手持糖度計進行測量,記錄3個糖度值,并對3個值取平均作為該樣本糖度最終參考值。依次獲取350個樣本的糖度。
本試驗通過4種方法對原始光譜數(shù)據(jù)進行預(yù)處理與分析,分別為一階差分、二階差分、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)方法。
從復(fù)雜的信息中有效地提取具有代表性的信息建立模型,需要對樣本進行選擇,最常用的方法是基于歐式距離和濃度的樣本選擇方法(sample set partitioning based on joint x-y distance,SPXY)。將每個香梨的光譜數(shù)據(jù)建模為數(shù)據(jù)向量,近紅外光譜吸光度作為特征值。使用SPXY算法將近紅外光譜建模樣本集按4∶1進行劃分,80%樣本組成訓(xùn)練集,20%樣本組成預(yù)測集。從訓(xùn)練集提取光譜特征,作為預(yù)測階段的特征集合。
由于原始光譜數(shù)據(jù)中包含了大量的噪聲及冗余信息,如果將原始光譜都用于分析建模,會導(dǎo)致建模時間長且計算量大,所建預(yù)測模型復(fù)雜且穩(wěn)定性較差。因此,要從原始光譜數(shù)據(jù)中選取具有一定代表性的特征波長,使模型簡化、消除非線性或無關(guān)變量,從而使模型具有更強的預(yù)測能力和更好的穩(wěn)健性。本研究采用相關(guān)系數(shù)法對近紅外光譜數(shù)據(jù)進行降維,篩選出相關(guān)性異常顯著的特征波長用于建模。
以糖度特征光譜數(shù)據(jù)作為參數(shù),利用最近鄰域法(k-nearest neighbors,KNN)、支持向量機(support vector machine,SVM)、隨機森林(random forest,RF)方法建立庫爾勒香梨等級判別模型,采用正確率來評價模型的優(yōu)劣。其中,正確率越接近1,則說明所建模型的分類結(jié)果越好。
綜上所述,基于近紅外光譜的香梨等級判別模型的主要流程如圖1所示。
圖1 基于近紅外光譜的香梨等級判別模型主要流程
香梨樣本糖度分布如圖2所示。由香梨糖度測定統(tǒng)計結(jié)果可得,糖度最大值為16.58,最小值為11.02,平均值為13.60,標(biāo)準(zhǔn)偏差為1.14。香梨樣品根據(jù)SPXY算法按照4∶1的比例分為訓(xùn)練集和預(yù)測集。訓(xùn)練集與預(yù)測集的指標(biāo)如表1所示。
表1 訓(xùn)練集與預(yù)測集的指標(biāo)
圖2 香梨樣本糖度分布
圖3a為香梨原始光譜??梢钥闯觯汗庾V采集波段在900~1 700 nm之間,存在噪聲和大量散射基線漂移,因此需要對原始光譜數(shù)據(jù)進行預(yù)處理。利用一階差分、二階差分、SNV、MSC四種處理方法處理,并進行比較分析,得出最優(yōu)處理方法。四種處理方法處理效果如圖3b、3c、3d、3e所示,可以看出,經(jīng)過MSC預(yù)處理后的光譜有效地去除了噪聲、散射、基線漂移影響,光譜特征增強,優(yōu)于另外3種方法,有利于特征波長的選擇。
圖3 樣品原始光譜及處理后光譜
糖類物質(zhì)主要含O—H、C—H鍵,游離O—H鍵對應(yīng)的近紅外光譜吸收波段為960~980 nm、1 360~1 390 nm和1 400~1 420 nm;結(jié)合O—H鍵的近紅外光譜吸收波段為1 000~1 130 nm;C—H鍵對應(yīng)的近紅外光譜吸收波段為1 150~1 200 nm和1 410~1 450 nm。利用相關(guān)系數(shù)法結(jié)合農(nóng)產(chǎn)品各成分近紅外光譜吸收波長對光譜數(shù)據(jù)進行降維,根據(jù)圖4所示的波峰及波谷,選取出糖分含量的十二個特征波長分別為914 nm、933 nm、951 nm、970 nm、976 nm、1 001 nm、1 131 nm、1 150 nm、1 397 nm、1 404 nm、1 416 nm和1 540 nm,這些特征波長幾乎都與糖類物質(zhì)近紅外光譜敏感基團對應(yīng),可用于后續(xù)模型的建立。
圖4 相關(guān)系數(shù)法進行特征波長選擇
香梨樣品已經(jīng)根據(jù)SPXY算法按照4∶1比例分為訓(xùn)練集和預(yù)測集?;谟?xùn)練集,采用3種方法對特征譜段進行建模。在Anaconda開發(fā)環(huán)境中,利用python中sklearn軟件包進行數(shù)據(jù)建模。KNN模型中KNeighborsClassifier函數(shù)使用默認(rèn)參數(shù),RF模型中RandomForestClassifier函數(shù)的參數(shù)max_depth設(shè)為2,random_state為0,SVM模型kernel參數(shù)設(shè)為線性核函數(shù)。糖度大于或等于12.5為特級,定義為0;大于或等于12而小于12.5為一級,定義為1;大于或等于11而小于12為二級,定義為2。然后利用建好的模型對36個預(yù)測集樣本進行分類。三種模型的分類結(jié)果如表2所示,不同等級香梨的預(yù)測正確率如表3所示。
表2 不同模型下的分類結(jié)果
表3 不同等級香梨的預(yù)測正確率 %
三種模型分類結(jié)果與真實值的比較如圖5所示。結(jié)合表2、表3及圖5可以看出,KNN模型的準(zhǔn)確率為100%。再比較模型的運行時間,KNN模型運行時間較短,介于另兩種模型之間。接著,比較不同等級香梨的預(yù)測能力,三種模型對特級、二級香梨的預(yù)測正確率較高;對于一級香梨,SVM模型的預(yù)測正確率最低,RF模型稍高,KNN模型的正確率最高。其中,SVM模型將一級樣本(樣本27)判定為特級、一級樣本(樣本35、36)判定為二級,RF模型將一級樣本(樣本35、36)判定為二級,都是誤判。
圖5 三種模型分類結(jié)果與真實值的比較
綜上所述,KNN模型在分類結(jié)果和運行時間方面較優(yōu),可用于構(gòu)建香梨等級評判模型。
對于原始光譜的預(yù)處理方法,多元散射校正方法有效地去除了原始光譜的噪聲、散射、基線漂移影響,光譜特征增強,明顯優(yōu)于一階差分、二階差分、標(biāo)準(zhǔn)正態(tài)變量變換等方法,這符合預(yù)期。對于特征波長的選擇,研究中使用了相關(guān)系數(shù)法,以后可以嘗試用連續(xù)投影算法或遺傳算法來進行特征波長的選擇,進行對比,找出最優(yōu)方法。
在構(gòu)建庫爾勒香梨等級判別模型方面,KNN模型準(zhǔn)確率高于RF模型和SVM模型,運行時間也較為理想。在不同等級香梨的預(yù)測能力方面,三種模型均對特級、二級的預(yù)測準(zhǔn)確率高;KNN模型對于一級的預(yù)測準(zhǔn)確率優(yōu)于另外兩種模型。綜合考慮這些因素,KNN模型是較理想的庫爾勒香梨等級判別模型。
后期的研究方向?qū)⒗没旌现悄軆?yōu)化算法,如遺傳算法改進SVM方法或基于遺傳算法優(yōu)化RF方法建立香梨等級判別模型,再與KNN模型比較,來驗證KNN模型是否仍有較高的準(zhǔn)確率。
通過一階差分、二階差分、SNV、MSC預(yù)處理方法對香梨原始光譜進行預(yù)處理分析,結(jié)果表明,MSC方法更適合于香梨近紅外光譜數(shù)據(jù)的預(yù)處理。
研究香梨糖分的近紅外光譜響應(yīng),并使用相關(guān)系數(shù)法提取12個特征波長變量,根據(jù)庫爾勒香梨標(biāo)準(zhǔn)NY/T 585—2002,以糖度特征光譜數(shù)據(jù)作為參數(shù),利用KNN、SVM、RF方法建立庫爾勒香梨等級判別模型,并比較模型性能。結(jié)果表明,KNN模型在分類結(jié)果和運行時間方面較好,可用于構(gòu)建基于糖度的庫爾勒香梨近紅外光譜等級評判模型。MSC+KNN處理方法可用于構(gòu)建庫爾勒香梨等級評判模型,這可為進一步研究庫爾勒香梨等級評判的便攜式檢測裝置提供理論參考。