曹錫磊 陳琦 杜湘婷
摘? 要:基于光譜儀、可見(jiàn)光以及數(shù)據(jù)回歸分析,設(shè)計(jì)了實(shí)驗(yàn)光路進(jìn)行了蘋果的糖度分析。光譜儀選用海洋光學(xué)的光譜儀,采用了200 nm至1 000 nm的白光光源進(jìn)行實(shí)驗(yàn),數(shù)據(jù)采用了PLSR算法進(jìn)行回歸分析,采用紅富士進(jìn)行實(shí)驗(yàn),通過(guò)標(biāo)準(zhǔn)光譜儀預(yù)實(shí)驗(yàn)獲取對(duì)糖度較為敏感的波長(zhǎng),發(fā)現(xiàn)在570 nm、682 nm出現(xiàn)了吸收峰,并使用PLSR算法進(jìn)行回歸分析,實(shí)驗(yàn)結(jié)果顯示相關(guān)系數(shù)r達(dá)到了0.721,可以證明其有預(yù)測(cè)效果。
關(guān)鍵詞:可見(jiàn)光;蘋果糖度;回歸分析
中圖分類號(hào):TS255.7? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2021)20-0131-04
Experiment of Apple Sugar Content Detection Based on Visible Light Regression Analysis
CAO Xilei, CHEN Qi, DU Xiangting
(Fujian Normal University, Fuzhou 350117, China)
Abstract: Based on spectrometer, visible light and data regression analysis, an experimental light path is designed to analyze the sugar content of apple. The spectrometer is a Marine Optics spectrometer, and the white light source from 200 nm to 1 000 nm is used for the experiment, data are regressed and analyzed by PLSR algorithm, Red Fuji apple is used for the experiment, the wavelength sensitive to sugar is obtained through the pre experiment of standard spectrometer. It is found that there are absorption peaks at 570 nm and 682 nm, and the regression analysis is carried out by PLSR algorithm. The experimental results show that the correlation coefficient r reaches 0.721, which can prove it has reached prediction effect.
Keywords: visible light; apple sugar content; regression analysis
0? 引? 言
農(nóng)產(chǎn)品作為副食,已經(jīng)成為人類補(bǔ)充營(yíng)養(yǎng)的重要來(lái)源之一,在這些農(nóng)產(chǎn)品中,諸如蘋果、香蕉等水果含有著極其豐富的營(yíng)養(yǎng)。隨著經(jīng)濟(jì)的發(fā)展,人們的生活水平在不斷地提高,與此同時(shí),人們對(duì)副食的需求量及其質(zhì)量要求也在不斷提高,目前我國(guó)水果行業(yè)不斷地發(fā)展,規(guī)模在不斷的擴(kuò)大,已經(jīng)成為產(chǎn)值達(dá)萬(wàn)億級(jí)的產(chǎn)業(yè)。相較于全球而言,我國(guó)水果消費(fèi)量極高,目前已經(jīng)是水果消費(fèi)大國(guó),行業(yè)規(guī)模極大,水果產(chǎn)業(yè)對(duì)我國(guó)GDP有著巨大貢獻(xiàn),截至2018年,水果行業(yè)的市場(chǎng)規(guī)模達(dá)到了約兩萬(wàn)億元。在產(chǎn)量上,2018年我國(guó)水果產(chǎn)量就已接近3億噸,穩(wěn)居世界第一[1]。因此對(duì)于農(nóng)產(chǎn)品的質(zhì)量檢測(cè)就成為一個(gè)十分值得探究的課題。
隨著我國(guó)人民生活質(zhì)量的提高,對(duì)于食品質(zhì)量的檢測(cè)要求也隨之增高,據(jù)調(diào)查,目前市場(chǎng)主流糖度檢測(cè)為有損檢測(cè),對(duì)于需要無(wú)損檢測(cè)的應(yīng)用場(chǎng)景有著致命缺陷,有損檢測(cè)技術(shù)逐漸無(wú)法滿足于當(dāng)代人們對(duì)于食品質(zhì)量檢測(cè)的需求,在不破壞水果的前提下,依靠人的主觀判斷水果品質(zhì)顯然不夠穩(wěn)定,且費(fèi)時(shí)費(fèi)力。
國(guó)內(nèi)外主流的無(wú)損檢測(cè)多研究的是近紅外光譜,由于智能手機(jī)的攝像頭無(wú)法獲取此波段的光譜,這使得主流無(wú)損檢測(cè)技術(shù)難以運(yùn)用于智能手機(jī),在農(nóng)產(chǎn)品的無(wú)損檢測(cè)中對(duì)于可見(jiàn)光方面的研究十分不足。
相較于近紅外光譜,可見(jiàn)光對(duì)光柵的要求較低,比較容易獲得光譜,且使用可見(jiàn)光作為光源可以節(jié)約成本,功率較低,節(jié)能環(huán)保。實(shí)驗(yàn)采用了蘋果進(jìn)行糖度檢測(cè),由于蘋果內(nèi)部不同成分對(duì)不同波長(zhǎng)的光吸收程度的不同,通過(guò)分析蘋果表面反射的光線可以在保證蘋果不受損傷的前提下對(duì)蘋果的糖度進(jìn)行預(yù)測(cè)。
1? 理論部分
1.1? PLSR算法
PLSR算法(Partial least squares regression),其全稱為偏最小二乘回歸算法,是一種基于多因變量Y對(duì)多自變量X回歸建模方法,其中,將糖度與吸光度進(jìn)行回歸分析,PLSR算法在回歸分析的過(guò)程中,不僅僅對(duì)單一變量進(jìn)行分析,而是綜合考慮了自變量與因變量主成分之間的相關(guān)性[2]。
PLSR算法的原理為設(shè)多個(gè)因變量yi以及多個(gè)自變量xb,通過(guò)觀測(cè)n個(gè)樣本點(diǎn)來(lái)研究自變量以及因變量的統(tǒng)計(jì)關(guān)系,即波長(zhǎng)對(duì)應(yīng)的強(qiáng)度與糖度有關(guān)成分的相關(guān)程度,以此建立自變量與因變量的統(tǒng)計(jì)數(shù)據(jù)列表{x1…xi}、{y1…yb},令t1為自變量數(shù)據(jù)表線性組合中的成分,對(duì)應(yīng)u1為因變量數(shù)據(jù)表線性組合的成分,在為回歸分析提取成分時(shí)需滿足兩個(gè)條件:
(1)自變量與因變量中所提取的成分應(yīng)攜帶其數(shù)據(jù)表中的變異信息。
(2)自變量與因變量中所提取的成分應(yīng)盡可能相關(guān)。
提取出自變量和因變量的成分之后,PLSR算法實(shí)施對(duì)自變量提取成分的回歸分析,同時(shí)進(jìn)行因變量提取成分的回歸。若得到的回歸分析方程即吸光度和糖度之間可以達(dá)到一個(gè)滿意的擬合度,則算法運(yùn)算將被終止,否則,算法將獲取X對(duì)自變量提取成分解釋后的剩余信息,同時(shí)取Y對(duì)因變量提取成分解釋后的剩余信息進(jìn)行第二輪的成分提取。這個(gè)過(guò)程將會(huì)一直持續(xù)到能達(dá)到一個(gè)較滿意的精度,之后運(yùn)算終止。若最終對(duì)自變量共提取m個(gè)成分,偏最小二乘回歸將通過(guò)實(shí)施對(duì)應(yīng)的提取m個(gè)因變量成分,然后再表達(dá)成yk關(guān)于原變量x1,x2,…,xi的回歸方程。在對(duì)吸光度與糖度的回歸分析中可以得到一整套每個(gè)波長(zhǎng)對(duì)應(yīng)糖度相關(guān)程度的回歸分析模型。
1.2? 剔除離群點(diǎn)
在建立可見(jiàn)光譜模型時(shí),將實(shí)驗(yàn)所取得的樣品集分為兩個(gè)部分,分別為訓(xùn)練用的校正集以及驗(yàn)證用的預(yù)測(cè)集兩部分,用校正集的樣本進(jìn)行回歸分析模型的構(gòu)建,當(dāng)能找到一套回歸模型后使用其來(lái)預(yù)測(cè)預(yù)測(cè)集的樣本,通過(guò)比較通過(guò)模型擬合出的預(yù)測(cè)值與使用標(biāo)準(zhǔn)量具記錄的真實(shí)值之間的差異,來(lái)判斷模型預(yù)測(cè)性能的好壞。RMSEC和RMSEP是預(yù)測(cè)值與其真實(shí)值之間的誤差平方和和均方根值。RMSEC和RMSEP由以下公式計(jì)算:
2? 實(shí)驗(yàn)部分
2.1? 儀器設(shè)備
光譜儀采用了海洋光學(xué)的光譜儀(USB 4000,Ocean Optics Inc.U.S.)、波長(zhǎng)范圍為200 nm ~ 1 045 nm的白光光源、抬升裝置以及傳輸用光纖探頭。使用配套的SpectraSuite軟件連接光譜儀收集數(shù)據(jù),標(biāo)準(zhǔn)糖度儀采用速為(SWEVY)手持式折光儀糖分測(cè)量?jī)x。算法方面采用The Unscrambler X軟件中內(nèi)置的PLSR算法進(jìn)行回歸分析。
2.2? 實(shí)驗(yàn)方法與步驟
實(shí)驗(yàn)場(chǎng)地使用遮光布進(jìn)行暗環(huán)境的搭建,讓光纖探頭以固定距離傾斜對(duì)準(zhǔn)蘋果赤道,電腦連接海洋光學(xué)的光譜儀準(zhǔn)備隨時(shí)獲取光譜數(shù)據(jù)并進(jìn)行記錄保存,控制探頭與蘋果距離,盡量選擇光滑處進(jìn)行實(shí)驗(yàn),如圖1所示,以排除因表面凹凸不平導(dǎo)致的錯(cuò)誤數(shù)據(jù),對(duì)每個(gè)照射點(diǎn)進(jìn)行標(biāo)記并使用標(biāo)準(zhǔn)量具進(jìn)行真實(shí)值獲取[4]。
具體步驟如下:
(1)選用蘋果種類為紅富士,光源、光譜儀通過(guò)光纖相互連接,連接運(yùn)行時(shí)注意保持光纖順暢以避免傳輸過(guò)程中受到影響,光纖探頭放置于蘋果正上方約2 cm的距離然后固定。
(2)取下蘋果并將白板置于探頭下2 cm處,拉上遮光布避免環(huán)境光影響,通過(guò)電腦記錄基準(zhǔn)白板的光譜數(shù)據(jù)。實(shí)驗(yàn)每更換一種蘋果將進(jìn)行一次環(huán)境數(shù)據(jù)的記錄,并且在處理時(shí)分開(kāi)進(jìn)行處理;且此后每次測(cè)量都不可拉開(kāi)遮光布。
(3)將探頭偏移一個(gè)角度,使其與蘋果正面形成一個(gè)小角度傾角,以避免鏡面反射的干擾。
(4)對(duì)共計(jì)60個(gè)蘋果進(jìn)行繞赤道取樣,得到了300組漫反射光譜數(shù)據(jù)。在獲取光譜數(shù)據(jù)同時(shí)對(duì)測(cè)量點(diǎn)進(jìn)行標(biāo)記,挖取果肉榨汁使用速為手持糖度儀對(duì)標(biāo)記點(diǎn)的糖度進(jìn)行測(cè)量記錄。挖取果肉速度要快,避免氧化對(duì)測(cè)量造成影響。
(5)使用SpectraSuite軟件進(jìn)行數(shù)據(jù)的導(dǎo)出,導(dǎo)出格式為txt,使其可以導(dǎo)入MATLAB進(jìn)行初步處理。
(6)將整理好的數(shù)據(jù)轉(zhuǎn)化為吸光度,將暗背景與基準(zhǔn)白板同時(shí)導(dǎo)入以消除環(huán)境以及光源產(chǎn)生的誤差,最后使用吸光度公式進(jìn)行轉(zhuǎn)化。
2.3? 實(shí)驗(yàn)數(shù)據(jù)處理及結(jié)論
實(shí)驗(yàn)一共收集了幾種算法進(jìn)行最佳算法組合選擇,分別為連續(xù)投影算法(successive projections algorithm, SPA)、Kennard–Stone(KS)、交叉驗(yàn)證法、偏最小二乘回歸(Partial least squares regression, PLSR)[5]。SPA算法用于選擇特征波長(zhǎng),KS算法和交叉驗(yàn)證法用于選擇出訓(xùn)練集和預(yù)測(cè)集,PLSR用于建立回歸模型。根據(jù)R2、校正均方根誤差和預(yù)測(cè)均方根誤差這三個(gè)指標(biāo),在全光譜+KS+PLSR和全光譜+交叉驗(yàn)證+PLSR的比較中我們選擇了交叉驗(yàn)證法,在全光譜+交叉驗(yàn)證+PLSR和SPA+交叉驗(yàn)證+PLSR的比較中我們選擇了全光譜。
實(shí)驗(yàn)將SpectraSuite軟件的數(shù)據(jù)進(jìn)行導(dǎo)出,相關(guān)儀器參數(shù)設(shè)置為:
(1)數(shù)據(jù):Sun Jun 13 10:39:54 CST 2021
(2)暗光譜:否
(3)參考光譜:否
(4)光譜儀:QEB1452
(5)積分時(shí)間(微秒):100 000 (QEB1452)
(6)去除暗噪聲:否(QEB1452)
(7)使用脈沖信號(hào)/燈:否(QEB1452)
(8)光譜像素值:1 044,其中初始數(shù)據(jù)波長(zhǎng)范圍為247.25 nm~1 045.27 nm。
部分初始數(shù)據(jù)如表1所示。
將光強(qiáng)轉(zhuǎn)換為吸光度,將初步獲得的吸光度數(shù)據(jù)進(jìn)行歸一化處理,并進(jìn)行吸光度曲線的繪制。通過(guò)觀察曲線可以發(fā)現(xiàn)3種蘋果均在570 nm、682 nm存在吸收峰,如圖2所示。記錄這兩個(gè)吸收峰,并將差距較大的曲線剔除。
將吸光度數(shù)據(jù)導(dǎo)入The Unscrambler X軟件,使用PLSR算法進(jìn)行回歸分析,在剔除了誤差較大的點(diǎn)后,取存在吸收峰的570 nm、682 nm進(jìn)行篩選后,在其他具有較小關(guān)系系數(shù)的波長(zhǎng)輔助預(yù)測(cè)下,預(yù)測(cè)集相關(guān)系數(shù)r方值達(dá)到了0.721,如圖3、4所示。
由此得到最優(yōu)算法為全光譜+交叉驗(yàn)證+PLSR算法。此外在對(duì)數(shù)據(jù)進(jìn)行處理時(shí)還發(fā)現(xiàn),用PLSR算法進(jìn)行離群點(diǎn)的剔除能夠大大增加預(yù)測(cè)的精度和穩(wěn)定度。實(shí)驗(yàn)數(shù)據(jù)證明了570 nm、682 nm這兩個(gè)吸收峰與糖度之間在回歸模型中分別存在著相對(duì)于其他波長(zhǎng)而言較大負(fù)相關(guān)系數(shù)以及正相關(guān)系數(shù)。
通過(guò)算法以及回歸模型對(duì)采集的部分樣本進(jìn)行了預(yù)測(cè),得到如表2所示的數(shù)據(jù)。
3? 結(jié)? 論
實(shí)驗(yàn)找到了兩個(gè)與糖度分別具有較大相關(guān)系數(shù)的波長(zhǎng),但是存在著容易受到蘋果本身具有的不規(guī)則斑點(diǎn)的影響,并且損傷部分也會(huì)對(duì)預(yù)測(cè)結(jié)果造成不同程度的影響,建議可以在研究糖度的同時(shí)對(duì)不同的斑點(diǎn)、損傷部分進(jìn)行特征波長(zhǎng)的提取,并在回歸分析時(shí)剔除掉相應(yīng)的波長(zhǎng)相關(guān)系數(shù)。其次,此次所尋找的波長(zhǎng)是針對(duì)三類蘋果的共同特征波長(zhǎng),建議可以嘗試將單種蘋果拿出進(jìn)行進(jìn)一步的分析研究,進(jìn)一步優(yōu)化單種蘋果的預(yù)測(cè)模型。
實(shí)驗(yàn)所使用的光源波段為可見(jiàn)光波段,這意味著該研究的成果更加有利于向商業(yè)化的便攜式糖度檢測(cè)儀與智能手機(jī)結(jié)合,但是使用現(xiàn)成光譜儀不方便進(jìn)行小型化開(kāi)發(fā),建議可以通過(guò)采集光源照射蘋果后周圍產(chǎn)生的圖像進(jìn)行特殊的圖像處理獲得理想的分析圖像,并采用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行進(jìn)一步分析建模。
參考文獻(xiàn):
[1] 何琳純.中國(guó)水果市場(chǎng)發(fā)展分析研究 [J].中國(guó)管理信息化,2020,23(19):149-150.
[2] 羅批,郭繼昌,李鏘,等.基于偏最小二乘回歸建模的探討 [J].天津大學(xué)學(xué)報(bào),2002(6):783-786.
[3] 畢榮道,趙旻.基于PCA及霍特林T2分布的在線近紅外建模研究 [J].電子技術(shù)與軟件工程,2021(13):189-191.
[4] ZHANG Y Q,CHEN Y,WU Y,et al. Accurate and nondestructive detection of apple brix and acidity based on visible and near-infrared spectroscopy [J].Applied optics,2021,60(13):4021-4028.
[5] 高升,王巧華,付丹丹,等.紅提糖度和硬度的高光譜成像無(wú)損檢測(cè) [J].光學(xué)學(xué)報(bào),2019,39(10):355-364.
作者簡(jiǎn)介:曹錫磊(2001.05—),男,漢族,廣東廉江人,本科在讀,研究方向:工程光學(xué)。