金誠謙,郭 榛,張 靜,馬成業(yè),唐小涵,趙 男,印 祥
1.山東理工大學(xué)農(nóng)業(yè)工程與食品科學(xué)學(xué)院,山東 淄博 255000 2.農(nóng)業(yè)農(nóng)村部南京農(nóng)業(yè)機械化研究所,江蘇 南京 210000
大豆是我國重要的糧食作物和經(jīng)濟作物,其品質(zhì)檢測一直是研究的焦點。大豆籽粒種皮薄,發(fā)芽孔大,吸濕返潮后,體積膨脹,極易生霉,含水量直接影響大豆的貯藏期。因此入庫時要嚴格控制水分,長期貯藏水分不能超過12%。此外,在育種過程中,水分含量影響大豆種子活力,控制和檢測大豆水分含量是保證種子質(zhì)量的重要環(huán)節(jié)[1]。常用的水分檢測方法有105 ℃恒重法、真空干燥法、定溫定時烘干法和化學(xué)法等,這些方法檢測精度和準確度較高,但其操作過程繁瑣且費時,破壞樣品,浪費優(yōu)質(zhì)種質(zhì)資源,不適用于大規(guī)模無損檢測。
高光譜成像技術(shù)結(jié)合了光譜技術(shù)和成像技術(shù)的優(yōu)點,可以對多個目標同時進行無損檢測,實現(xiàn)物質(zhì)成分含量可視化,有著連續(xù)波段多、光譜分辨率高、“圖譜合一”的優(yōu)點,滿足了快速無損檢測的需求。近年來廣泛應(yīng)用于茶葉病害侵染和水分含量等品質(zhì)檢測[2-4]、魚類和肉類品質(zhì)指標的檢測[5-6]、小麥籽粒蛋白質(zhì)含量檢測[7]等。Nicola等[8]使用高光譜成像技術(shù)檢測單??Х榷顾趾椭|(zhì)含量,并使水分和脂質(zhì)含量分布可視化。Xu等[9]采集單粒黃瓜種子在400~1 000和1 050~2 500 nm范圍內(nèi)的高光譜圖像,分別基于兩個波段預(yù)測單粒黃瓜種子水分含量并進行可視化分析,發(fā)現(xiàn)在1 000~2 500 nm范圍內(nèi)對水分含量預(yù)測效果較好。Jennyfer等[10]在900~1 700 nm波段實現(xiàn)單?;ㄉ实乃趾繖z測及可視化研究,但只采用了加權(quán)回歸系數(shù)法提取特征波長。Wang等[11]采集單個玉米籽粒胚和胚乳兩側(cè)的高光譜圖像,建立的CARS-SPA-LS_SVM模型Rpre值為0.931 1,表明高光譜成像技術(shù)可以快速無損檢測玉米籽粒中的水分含量。朱潔等[12]預(yù)測單粒小麥水分含量,并將單粒小麥水分含量可視化。相關(guān)研究表明,高光譜成像技術(shù)可以實現(xiàn)作物種子水分含量檢測及可視化,目前未見高光譜成像技術(shù)檢測大豆水分含量的相關(guān)報道。
本工作以96個品種的大豆為研究對象,利用高光譜成像技術(shù)結(jié)合化學(xué)計量學(xué)方法建立并尋找最優(yōu)預(yù)測模型,在900~2 500 nm 范圍檢測大豆水分含量并進行可視化研究,為大豆收獲、貯藏加工過程中水分含量檢測提供新的方法。
試驗所用的大豆來自黑龍江龍科種業(yè)公司、遼寧東亞種業(yè)公司和臨沂河?xùn)|區(qū)試驗農(nóng)場等,包括黑農(nóng)84、綏農(nóng)88、沈農(nóng)8、東豆1133、中黃37、徐豆20等96個不同品種。每個品種取100g樣品分別放置在培養(yǎng)皿中,在實驗室靜置72h后采集高光譜圖像,隨后按照GB 5009.3—2016《食品安全國家標準食品中水分的測定》中的直接干燥法測量每個品種大豆樣品的水分含量。每個品種測量三次,取平均值作為該品種大豆的水分含量。
光譜采集儀器為近紅外高光譜成像系統(tǒng)(中國臺灣五鈴光學(xué),HSI-eSWIR-900~2 500 nm),101-0E型電熱鼓風(fēng)干燥箱。
近紅外高光譜成像系統(tǒng)由900~2 500 nm線掃式近紅外光譜儀(芬蘭Specim,N25E-SWIR)、900~2 500 nm CCD相機鏡頭(品牌:芬蘭Specim,OLES30)、900~2 500 nm雙分支鹵素?zé)艄庠?中國臺灣五鈴光學(xué),IRCP0078-1COMB)、暗箱、計算機等構(gòu)成。
為了減小暗電流以及光源強度不均勻?qū)Ω吖庾V圖像的影響,需要對高光譜圖像進行黑白校正[13]。將與樣品等高且反射率為0.99的白板(芬蘭Specim公司)置于樣品采集區(qū)域,采集的圖像作為白板標定圖像,記為Iw;蓋上CCD相機鏡頭蓋,采集的圖像作為黑板標定圖像,記為Id。大豆高光譜圖像黑白校正公式如式(1)所示
(1)
式(1)中,RT為校正后的樣品圖像,I為原始樣品圖像。
樣本掃描時,曝光時間為2.9 ms,位移平臺移動速度為15.34 mm·s-1,焦距為30.7 mm,相機分辨率為384×288,光源入射角度為45°。
采用高光譜成像系統(tǒng)自帶的HSI Analyzer光譜分析軟件提取高光譜圖像感興趣區(qū)域(region of interest,ROI),選取半徑為200像素的圓形區(qū)域為ROI,提取ROI平均光譜作為樣本光譜信息。
采用SPXY(sample set partitioning based on joint X-Y distance)算法將樣本按照3∶1的比例劃分為校正集和預(yù)測集[14]。樣本水分含量如表1所示,校正集樣品水分含量范圍涵蓋了預(yù)測集范圍,說明樣本集劃分合理。
表1 大豆樣品水分含量
圖1是大豆樣品光譜反射率曲線,1 210 nm附近明顯的反射率波谷是有機物中C—H鍵的二級倍頻振動帶;1 450 nm處反射率波谷與O—H鍵倍頻振動有關(guān),1 940 nm表現(xiàn)O—H鍵的合頻特性,都是水分含量的特征譜帶。原始光譜包含背景信息和噪聲,在938 nm之前和2 215 nm之后的光譜數(shù)據(jù)無法提供有效的樣本信息[15]。故保留938~2 215 nm共216個光譜帶作為建模數(shù)據(jù),帶間距為5.6 nm。
圖1 光譜反射曲線
表2 不同預(yù)處理方法PLSR模型
保留的216個光譜帶中仍然包含大量冗余信息,為了提高建模速度和模型魯棒性,需要對光譜數(shù)據(jù)進行壓縮,提取特征波長[17]。應(yīng)用連續(xù)投影算法[18](successive projections algorithm,SPA)、競爭性自適應(yīng)加權(quán)算法[19](competitive adaptive reweighted sampling,CARS)、無信息消除變量法(uniformative variable elimination,UVE)分別提取特征波長。
2.3.1 連續(xù)投影算法(SPA)
SPA篩選出14個特征波長,占總波長的6.5%,這14個波長分別為1 001,1 296,1 377,1 452,1 575,1 726,1 867,1 896,1 930,1 952,1 986,2 052,2 127和2 185 nm。圖2為SPA篩選出的14個波長。
圖2 SPA篩選特征波長
2.3.2 競爭性自適應(yīng)加權(quán)算法(CARS)
圖3(a)顯示隨著采樣次數(shù)增加,CARS篩選得到的變量數(shù)逐漸減少,且變量數(shù)變化的趨勢為迅速減小到趨于平緩;圖3(b)顯示篩選過程中交互驗證錯誤率的變化趨勢:交互驗證錯誤率平穩(wěn)下降到最低點后曲折上升,并在采樣次數(shù)為28次時,交互驗證的RMSECV值最小,模型的穩(wěn)定性最好;圖3(c)為各變量在采樣過程中回歸系數(shù)的變化路徑。經(jīng)CARS篩選得到16個特征波長,分別為:1 308,1 358,1 390,1 483,1 672,1 678,1 962,1 779,1 832,1 861,1 941,2 019,2 025,2 122,2 133和2 138 nm,占總波長的7.4%。
圖3 CARS篩選過程
(a): Variation trend of the number of variables with the number of samples;(b): RMSECV;(c): The change process of regression coefficient of each variable with sampling times(The blue line represents the position with the lowest RMSECV)
2.3.3 無信息消除變量法(UVE)
UVE篩選特征波長,當潛在變量設(shè)為13時,PLSR模型的RMSECV值最小,為0.327。圖4中,豎虛線左右分別有216個波長變量,左側(cè)為216個輸入變量穩(wěn)定性C分布曲線,右側(cè)為UVE產(chǎn)生的216個隨機變量穩(wěn)定性C分布曲線;兩條水平虛線為變量選擇閾值的上下限,虛線外對應(yīng)變量為篩選出的29個特征波長:976,982,988,994,1 001,1 096,1 076,1 082,1 089,1 227,1 233,1 239,1 246,1 346,1 352,1 358,1 365,1 371,1 377,1 396,1 402,1 408,1 415,1 421,1 427,1 433,1 439,1 446和1 452 nm,占總波長的13.4%。
圖4 UVE-PLSR模型的穩(wěn)定性分布曲線
對938~2 215 nm波段光譜建立PLSR,PCP和SVMR模型。將預(yù)測集均方根誤差RMSEP值作為評價模型預(yù)測效果的指標,RMSEP值越低說明預(yù)測效果越好。其中,PCR模型RMSEP和RMSECV值較低,說明基于938~2 215 nm波段光譜建立的PCR模型預(yù)測效果和穩(wěn)定性較好。
為了提高建模速度和模型魯棒性。分別對SPA,CARS和UVE三種算法篩選出來的14,16和29個特征波長建立PLSR,PCR和SVMR模型。如表3所示,SPA算法篩選出的特征波長建立的PLSR,PCR和SVMR模型較938~2 215 nm波段光譜建立的三種模型,RMSEP值均有所降低,而CARS和UVE算法對模型預(yù)測效果提升并不明顯甚至?xí)档皖A(yù)測效果,但也有效降低了光譜維度?;谔卣鞑ㄩL建立的模型中,SPA-PLSR和SPA-PCR模型RMSEP值較低,均為0.262,說明SPA算法篩選的特征波長建模預(yù)測效果較好,這可能是由于SPA算法能有效降低光譜共線性。
表3 基于不同預(yù)處理方法及特征波長篩選方法建立的模型效果
將Normalize方法與SPA-PLSR和SPA-PCR模型結(jié)合,發(fā)現(xiàn)模型的RMSEP值降低,經(jīng)預(yù)處理后模型的預(yù)測效果進一步提升。兩種模型相比較,RMSEP值相同,但Normalize-SPA-PCR模型的RMSECV值較低,說明Normalize-SPA-PCR模型比Normalize-SPA-PLSR模型更穩(wěn)定。將Normalize-SPA-PCR模型更適合用于大豆水分含量可視化預(yù)測。
在大豆收獲和加工儲藏過程中無法用肉眼直接判斷水分含量,而利用預(yù)測模型可以計算出高光譜圖像上的每一個像素點的水分含量預(yù)測值,得到灰度圖像,然后對灰度圖像進行偽彩色變換,得到大豆水分含量可視化圖。
圖5是Normalize-SPA-PCR模型預(yù)測得到的大豆水分含量可視化圖,顏色梯度條由下向上代表大豆水分含量由低變高,范圍為0~12%。圖5為從預(yù)測集挑選的4個品種大豆水分含量可視化圖,4個大豆品種按照平均水分含量高低進行排列,其中,(a)為華豆2號的水分含量可視化圖,水分含量為10.40%;(b)為墾豆40的水分含量可視化圖,水分含量為9.39%;(c)為皖豆701的水分含量可視化圖,水分含量為7.13%;(d)為皖豆34的水分含量可視化圖,水分含量為6.46%。由圖5可知,不同品種大豆對應(yīng)的水分含量可視化圖顏色不同,4幅圖像顏色差異十分明顯;同一圖像內(nèi)不同大豆的顏色也有差異,但顏色差異較小。對預(yù)測集24個品種的大豆高光譜圖像進行可視化處理,結(jié)果表明大豆水分含量不同對應(yīng)圖像顏色不同,水分含量變化對應(yīng)圖像顏色變化較為明顯,通過圖像顏色變化可以判斷大豆水分含量范圍。
圖5 大豆水分含量可視化圖
實驗表明高光譜成像技術(shù)可以有效實現(xiàn)大豆水分含量可視化檢測,與傳統(tǒng)的水分測量方法相比,有著無損、快捷、準確的優(yōu)點,并且可以得到大豆水分含量可視化圖,為大豆的收獲、儲藏和加工提供了技術(shù)支持。
(2)采用SPA,CARS和UVE三種方法提取特征波長特征波長個數(shù)分別為14,16和29個,占光譜數(shù)據(jù)的6.5%,7.4%和13.4%,有效的降低了光譜維度。
(4)對預(yù)測集24個高光譜圖像進行可視化處理,不同水分含量大豆的可視化圖像顏色不同,水分含量變化對應(yīng)的顏色變化也較為明顯,通過圖像顏色變化判斷大豆水分含量范圍。