呂 都
唐健波1
姜太玲2
陳中愛1
潘 牧1
(1. 貴州省農業(yè)科學院生物技術研究所,貴州 貴陽 550006;2. 云南省農業(yè)科學院熱帶亞熱帶經濟作物研究所,云南 保山 678000)
稻谷是水稻的籽實,是中國三大糧食作物之一,在中國有超過60%的人口以稻谷脫殼加工獲得的大米為主食[1-3]。中國是目前已知的栽培稻起源地,種植歷史悠久,可以追溯到1.4萬年之前。2020年,國家統(tǒng)計局發(fā)布的《中國統(tǒng)計年鑒》顯示,中國稻谷總產量約為2.1億t[4],占全球稻谷產量的32.5%左右[5]。稻谷具有完整的稻殼可以保護穎果,使其在貯藏過程中保持品質穩(wěn)定,稻殼對防止蟲霉危害與緩解稻米吸濕有一定的作用,因此,大米多以稻谷的形式來進行貯藏。
目前,稻谷水分含量的測定方法主要有GB 5009.3—2016《食品安全國家標準 食品中水分的測定》中的第一法105 ℃直接干燥法和GB/T 20264—2006《糧食、油料水分兩次烘干測定法》中推薦的方法。這兩種方法檢測精度高,但是存在對樣品破壞度大、試驗操作繁瑣、試驗條件要求高、檢測結果時間長等問題。
近紅外光譜快速檢測技術因具有不用破壞樣品、樣品無需前處理、操作簡單、檢測時間短、檢測速度快等優(yōu)點[6]9-10,近年來被廣泛應用于農業(yè)領域,如谷物(稻谷、小麥和大豆等)營養(yǎng)成分分析[7]、水果品質分析[8]和產地鑒別[9]、肉制品摻假鑒別[10-11]等。鞠興榮等[12]采用近紅外光譜技術建立稻谷水分預測模型,但效果不佳,模型決定系數(shù)為0.968 9,模型的標準偏差為0.343 4%,可能是其收集的樣品主要集中在1個地區(qū),時間跨度僅有2年。楊學文[13]采用近紅外光譜技術建立稻谷水分含量預測模型,模型決定系數(shù)為0.990 3,模型的標準偏差為0.372 8%,較鞠興榮等[12]的研究結果,其預測模型的能力有所提升,可能是其收集的樣品來自南方4個不同地區(qū),但是其并未關注樣品收集的時間跨度。稻谷水分預測模型的預測精準度與參與建立預測模型的樣品地域數(shù)量和時間跨度相關,即收集的樣品地區(qū)越多越好,時間跨度越久越好。研究收集了2019—2021年中國北方和南方5個不同省份的稻谷樣品,擬采用近紅外光譜結合化學計量學方法,建立稻谷水分含量快速預測模型,以期進一步提高稻谷水分預測模型的預測精準度,并為稻谷收儲提供一種快速準確的檢測方法。
稻谷(2019年,貴州省21份、遼寧省6份、黑龍江省11份、云南省15份和四川省19份;2020年,貴州省17份、遼寧省8份、黑龍江省6份、云南省12份和四川省21份,2021年,貴州省9份、遼寧省4份、黑龍江省5份、云南省3份和四川省4份):貴州省湄潭縣茅壩御膳米業(yè)有限公司;
傅里葉變換近紅外光譜儀:MPA型,德國Bruker公司;
高速萬能粉碎機:FW-100型,天津市泰斯特儀器有限公司;
電熱鼓風干燥箱:WGL-125B型,天津市泰斯特儀器有限公司。
1.2.1 稻谷樣品水分含量測定和近紅外光譜的采集 按照GB/T 20264—2006推薦方法測定稻谷樣品中的水分含量。使用傅里葉變換近紅外光譜儀,調用積分球旋轉程序,在室溫條件下對稻谷樣品進行近紅外光譜的采集。將鍍金漫反射體作為參比,每隔1 h掃描一次背景光譜。同一人操作,稻谷樣品裝入樣品杯中,以保證裝樣的緊密程度基本一致。光譜掃描范圍12 790.3~3 594.9 cm-1,分辨率16 cm-1,掃描次數(shù)64次,每個樣品重復3次,并求每個樣品的平均光譜。
1.2.2 稻谷異常近紅外光譜的剔除和訓練集與驗證集的劃分 采用主成分分析結合馬氏距離的方法[14](PCA-MD),來識別稻谷樣品中的異常樣品光譜。使用基于聯(lián)合x-y距離的樣本集劃分方法[15](SPXY),按照訓練集與驗證集樣品數(shù)量之比3∶1,將剔除異常樣品后的全部樣品光譜劃分為訓練集和驗證集。
(1)
式中:
yi,actual——訓練集中樣品的水分含量實測值,%;
yi,predicted——訓練集中樣品的水分含量預測值,%;
(2)
式中:
RMSEC——模型標準偏差,%;
yi,actual——訓練集中樣品的水分含量實測值,%;
yi,predicted——訓練集中樣品的水分含量預測值,%;
n——訓練集中樣品數(shù)量。
(3)
式中:
yi,actual——訓練集中交叉驗證樣品的水分含量實測值,%;
yi,predicted——訓練集中交叉驗證樣品的水分含量預測值,%;
(4)
式中:
RMSECV——模型交叉驗證標準偏差,%;
yi,actual——訓練集中交叉驗證樣品的水分含量實測值,%;
yi,predicted——訓練集中交叉驗證樣品的水分含量預測值,%;
n——訓練集中樣品數(shù)量。
(5)
式中:
yi,actual——驗證集中樣品的水分含量實測值,%;
yi,predicted——驗證集中樣品的水分含量預測值,%;
(6)
式中:
RMSEP——模型驗證集驗證標準偏差,%;
yi,actual——驗證集中樣品的水分含量實測值,%;
yi,predicted——驗證集中樣品的水分含量預測值,%;
m——驗證集中樣品數(shù)量。
(7)
式中:
RPD——相對分析誤差;
SD,VAL——驗證集樣品水分含量標準差,%;
RMSEP——模型驗證集驗證標準偏差,%。
161份稻谷樣品的水分含量結果見表1,水分含量頻率分布直方圖和正態(tài)分布曲線圖見圖1。由表1和圖1可知,稻谷樣品中水分含量在8.95%~25.01%,稻谷樣品的水分含量主要分布于12%~15%,水分含量在9%以上和18%以上的樣品量較少,表明收集的稻谷樣品能夠很好地代表實際生產中稻谷水分含量的情況。
表1 161份稻谷樣品水分含量的測定結果Table 1 The determination results of 161 samples of rice moisture content
圖1 161份樣品水分含量頻率分布直方圖和正態(tài)分布曲線圖
近紅外光譜吸收譜帶重疊嚴重,譜圖解析只能判斷樣品中存在的化學基團,并不能直接獲取更多的有效信息。161份稻谷樣品的近紅外光譜圖見圖2。由圖2可知,不同水分含量稻谷樣品的近紅外光譜圖,在12 000~4 000 cm-1內譜圖趨勢相似,但是樣品譜圖不重合,表明不同含水量稻谷的近紅外光譜圖重現(xiàn)性好,且樣品存在差異。樣品間的差異可能來源于樣品本身,也有可能來自于操作者和圖像噪聲,因此,需要對161個樣品的近紅外光譜進行剔除異常光譜和光譜預處理。
圖2 161份稻谷樣品的近紅外光譜圖Figure 2 The near infrared spectra of the 161 sample
異常樣本會對近紅外模型產生很大的影響,不僅會誤導近紅外光譜變量的選擇,而且還會對近紅外模型的參數(shù)估計產生偏離影響,嚴重影響了近紅外模型的預測準確性和穩(wěn)健性[6]120。采用馬氏距離剔除異常光譜,從161份樣品光譜中剔除了15個樣品光譜,結果見圖3。采用SPXY樣品劃分方法,將剩余的146個樣品,按照3∶1的比例劃分獲得訓練集111個樣品,驗證集35個樣品。訓練集和驗證集樣品水分含量結果見表2,訓練集和驗證集樣品水分含量頻率分布直方圖和正態(tài)分布曲線圖見圖4。
圖3 樣品中異常光譜的剔除結果Figure 3 The elimination results of abnormalspectra in samples
由表2可知,參與建立預測模型的訓練集樣品水分含量范圍為8.95%~25.01%,驗證集樣品水分含量范圍為8.98%~22.01%。訓練集模型可預測的水分范圍包含驗證集樣品水分含量范圍,表明訓練集和驗證集的劃分合理。由圖4可知,訓練集和驗證集樣品的水分含量主要分布于12%~15%,9%以下和18%以上的樣品較少,表明訓練集樣品和驗證集樣品都具有很好的代表性。
表2 訓練集和驗證集樣品水分含量結果Table 2 The moisture content results of training set and validation set sample
圖4 訓練集和驗證集樣品水分含量頻率分布直方圖和正態(tài)分布曲線圖Figure 4 The frequency sample moisture content distribution histogram and the normal distributioncurve of training set and validation set
表3 訓練集預測模型的建立與優(yōu)化結果對比Table 3 The results of forecast model on the training set and optimization
圖5 訓練集樣品實測值與預測值結果對比
驗證集樣品不參與預測模型的建立,即相對于預測模型來說,驗證集樣品屬于未知水分含量樣品。驗證集樣品用于訓練集建立預測模型的檢驗,以考察預測模型的泛化預測能力。驗證集樣品實測值與預測值結果的線性關系,以及樣品預測值與實測值誤差結果見圖6。對驗證集樣品實測值與預測值結果進行T檢驗,結果見表4。
表4 驗證集樣品實測值與預測值結果進行T檢驗結果Table 4 The T test results of validation set between measured and predicted
圖6 驗證集樣品實測值與預測值結果對比
研究收集了2019—2021年5個不同地區(qū)(貴州省、遼寧省、黑龍江省、云南省和四川省)的稻谷樣品,合計161份,通過采集樣品的近紅外光譜圖,建立并優(yōu)化稻谷水分含量預測模型。稻谷水分預測模型對驗證集樣品,預測能力強,90%以上的驗證集樣品其預測值與實測值的誤差都在±0.5%以內,相對分析誤差為7.14,且驗證集樣品實測值與預測值之間差異不顯著,表明稻谷水分含量預測模型能夠很好地快速預測稻谷樣品的水分含量。水分含量是稻谷收儲期間的一個重要指標,近紅外無損檢測技術,操作簡單、檢測時間短、檢測效率高,可以為稻谷收儲期間水分測定進行快速準確的檢測。近紅外預測模型的應用具有一定的局限性,預測模型應用共享程度不高,未來可以建立“互聯(lián)網+近紅外預測模型”,實現(xiàn)近紅外預測模型的應用共享,提高近紅外預測模型的應用程度。