殷 勇 王光輝
(河南科技大學(xué)食品與生物工程學(xué)院,河南 洛陽 471023)
玉米(Zea maysL.)作為我國重要的糧食作物,其安全問題關(guān)系國計民生。新鮮玉米由于含水量高、所帶菌量較多,極易在高溫高濕條件下霉變,其中黃曲霉毒素B1是玉米霉變過程中產(chǎn)生的代表性毒素,被誤食則會在機(jī)體內(nèi)過氧化酶的代謝作用下導(dǎo)致肝臟細(xì)胞病變、膽囊增生以及出血性壞死等癥狀,更嚴(yán)重的可能會導(dǎo)致肝癌甚至死亡[1]。因此,霉變玉米的快速檢測十分必要,而目前常規(guī)的霉變玉米檢測方法操作復(fù)雜且需要破壞玉米樣本,難以達(dá)到快速、無損檢測的目的。
高光譜技術(shù)融合了圖像信息與光譜信息,使之成為了無損檢測技術(shù)領(lǐng)域的研究熱點(diǎn)之一[1-3]。由于光譜信息能檢測農(nóng)產(chǎn)品物理結(jié)構(gòu)、化學(xué)組成,而圖像信息能反映農(nóng)產(chǎn)品的物理特征及表面缺陷、污染情況,所以高光譜技術(shù)在農(nóng)副產(chǎn)品品質(zhì)檢測中的應(yīng)用研究倍受關(guān)注。但高光譜數(shù)據(jù)中波段數(shù)多,信息量大,信息冗余度高,使之在農(nóng)副產(chǎn)品的分類、識別應(yīng)用中存在較大的困難[4-7]。因此,減少數(shù)據(jù)量,提取待檢對象的特征波長尤為必要。目前,特征波長提取方法有相關(guān)系數(shù)法、載荷值法、回歸系數(shù)法等[8],但這些方法通常根據(jù)主觀經(jīng)驗(yàn)選取閾值,缺乏有效的閾值選擇標(biāo)準(zhǔn)[9-10]。此外,特征波長主要利用光譜信息進(jìn)行選擇,這樣可能使所獲得的特征波長不能真正表征待測對象,所構(gòu)建的鑒別模型穩(wěn)健性也不高。農(nóng)產(chǎn)品檢測中針對高光譜有關(guān)特征波長的選擇方法主要為統(tǒng)計分析法。褚璇等[11]利用高光譜技術(shù)檢測玉米顆粒表面黃曲霉毒素,引入Fisher 判別最小誤判率的方法從原始波段中選取4 個波段,構(gòu)建的判別模型訓(xùn)練集和驗(yàn)證集準(zhǔn)確率分別為87.4%和80.9%,模型準(zhǔn)確率并不理想;袁瑩等[12]利用高光譜成像技術(shù)中的光譜信息檢測玉米籽粒表面的黃曲霉毒素,用主成分分析法(principal component analysis,PCA)對玉米籽粒進(jìn)行光譜數(shù)據(jù)降維,從原始波段中提取14 個波段作為玉米籽粒的光譜特征波段,借助Fisher 因子判別分析(fisher discriminant analysis,FDA)對樣品進(jìn)行分類,但準(zhǔn)確率不高;Huang 等[13]運(yùn)用高光譜成像技術(shù)采用回歸系數(shù)法從扇貝的平均光譜值中選取8 個波長,將全波段和選定波長的光譜作為獨(dú)立變量進(jìn)行建模,結(jié)果顯示,基于8 個特征波長下構(gòu)建的偏最小二乘回歸模型效果最佳。Rajkumar 等[14]采用偏最小二乘法提取高光譜特征波長,實(shí)現(xiàn)了對香蕉品種和成熟期較好的預(yù)測。綜合國內(nèi)外研究,高光譜在農(nóng)產(chǎn)品檢測中有關(guān)特征波長的選擇方法較多,但結(jié)果均不理想,且融合圖像和光譜信息來選擇特征波長的研究尚鮮見報道。因此,針對6 種不同霉變等級的玉米,為獲取有利于霉變等級鑒別的高光譜特征波長,基于光譜信息和圖像信息,本研究提出了一種連續(xù)投影算法(successive projections algorithm,SPA)融合信息熵理論的特征波長選擇方法,以期為霉變玉米快速無損分級提供一種新方法。
新鮮玉米(中單909)購自洛陽市中原農(nóng)貿(mào)城,不同霉變等級的玉米樣品由農(nóng)產(chǎn)品加工實(shí)驗(yàn)室培育得到。新鮮玉米含水量較高,在自然條件下玉米本身會攜帶多種真菌和細(xì)菌,當(dāng)濕度大于85%、溫度高于25℃時,霉菌就會迅速生長并產(chǎn)生有毒代謝產(chǎn)物。因此,可創(chuàng)造溫、濕度條件用培養(yǎng)箱制備出霉變玉米。參考文獻(xiàn)[15]制備霉變玉米樣本,設(shè)定培養(yǎng)箱溫度30℃、相對濕度85%作為制備霉變玉米樣本的培養(yǎng)條件,并選取經(jīng)過培養(yǎng)0、2、4、6、8、10 d 的樣本作為6 個霉變等級樣本,分別標(biāo)記為A1、A2、A3、A4、A5 和A6。為了驗(yàn)證霉變玉米等級劃分的合理性,按照GB 5009.22-2016[16]的方法檢測新鮮玉米和霉變玉米樣本中黃曲霉毒素B1含量。每個等級的樣品作3 次平行,取平均值。由表1 可知,隨著培養(yǎng)時間的延長,黃曲霉毒素B1含量逐漸增多,充分說明用培養(yǎng)時間來表征玉米霉變等級是合適的。每個霉變等級玉米制備50 個樣本,共制備試驗(yàn)樣本50×6=300 個,每個樣本含量50±0.5 g。
表1 不同等級霉變玉米黃曲霉毒素B1 含量Table 1 Aflatoxin B1 concent in different grades of moldy maize
高光譜數(shù)據(jù)采集系統(tǒng)主要由IST50-3810 高光譜成像儀(Inno-Spec,德國)、計算機(jī)、4 個500 W 的光纖鹵素?zé)?ESYLUX 90000420108,德國)和傳送裝置組成。圖1 為高光譜采集系統(tǒng)示意圖:高光譜成像儀通過USB 2.0 接口數(shù)據(jù)線連接計算機(jī),由SICap-STVR V1.0.x 軟件平臺驅(qū)動控制成像儀,并及時記錄和存貯高光譜數(shù)據(jù)。高光譜儀的光譜范圍為371.05 ~1 023.82 nm,光譜分辨率為2.8 nm。
圖1 高光譜數(shù)據(jù)采集系統(tǒng)Fig.1 Hyperspectral image acquisition system
霉變玉米高光譜信息采集時,取1 個待測霉變玉米樣本均勻平鋪在規(guī)格為?10 cm×1 cm 的培養(yǎng)皿中,然后將培養(yǎng)皿放置在傳送帶上,傳送帶速度為2 mm·s-1,采樣波長間隔設(shè)為0.51 nm,高光譜攝像頭的圖像分辨率定為760×1 032,共采集1 288 個波段下的光譜反射值和對應(yīng)的圖像信息。圖2 為6 個等級的霉變玉米在720 nm 波長下的高光譜圖像。數(shù)據(jù)處理在ENVI4.7 和MatlabR2014a 平臺上完成。由圖2 可知,A1、A2、A3、A4 等級玉米樣品霉變程度不明顯,A5 和A6 等級玉米樣品霉變程度變化明顯。
高光譜圖像采集過程中,采樣背景和相機(jī)暗電流的存在會影響高光譜圖像的質(zhì)量,進(jìn)而影響高光譜圖像定性或定量分析模型的精度和穩(wěn)定性[17],因此,需要對所獲得的高光譜圖像進(jìn)行黑白標(biāo)定。在與樣品相同的采集條件下,掃描標(biāo)準(zhǔn)白色矯正板得到全白的標(biāo)定圖像,關(guān)閉高光譜相機(jī)光圈進(jìn)行圖像采集得到全黑標(biāo)定圖像,將采集得到的樣本圖像進(jìn)行標(biāo)定,得到標(biāo)定后的高光譜圖像和光譜信息。標(biāo)定公式如下:
式中,W 表示全白標(biāo)定圖像;K 表示全黑標(biāo)定圖像;L 表示采集得到的樣本圖像。
圖像采集時,樣品表面凹凸不平,以及采集時的雜散光等無用信息產(chǎn)生的散射會干擾原始光譜數(shù)據(jù),因此,需要對原始光譜進(jìn)行預(yù)處理,以盡可能減少這些無用信息對光譜數(shù)據(jù)的影響,提高圖譜信息與樣品內(nèi)部化學(xué)成分之間的相關(guān)性,進(jìn)而提高模型準(zhǔn)確度[18]。本研究采用多元散射校正(multiplicative scatter correction,MSC)[19]對原始光譜進(jìn)行預(yù)處理。
圖2 720 nm 波長下不同等級霉變玉米的高光譜圖像Fig.2 Hyperspectral image of different grades of moldy maize at 720 nm wavelength
SPA 不僅能夠?qū)⒉ㄩL變量間的共線性消除,還能夠有效地避免信息重疊,用較少的信息量代表多數(shù)樣本的光譜信息,已被廣泛應(yīng)用于提取特征波長[20-23]。SPA 的具體運(yùn)算步驟參考文獻(xiàn)[24],最小交互驗(yàn)證均方根誤差(root mean square error,RMSE)對應(yīng)的波長變量個數(shù)即為最終的選擇結(jié)果。
信息熵是一個信源所包含信息量多少的度量,包括自信息熵和互信息熵。樣本在某一波長下的自信息熵越大,說明該波長越能刻畫樣本[25];而某2 個波長下的互信息熵越小,說明它們之間的關(guān)聯(lián)性小,越有利于區(qū)分它們所表征的樣本?;谶@一思想,將自信息熵和互信息熵概念引入到不同等級霉變玉米高光譜的判別中。對灰度圖像來說,具有不同灰度值的像素在圖像中隨機(jī)出現(xiàn)的概率是相互獨(dú)立的,因此,可將圖像灰度看作是一個隨機(jī)變量,進(jìn)而計算出樣本圖像中每級灰度的概率分布密度:
式中,hi為一個圖像中灰度值為i的像素點(diǎn)的總數(shù);n為一個圖像中的像素總和。
在式(2)基礎(chǔ)上,圖像M的自信息熵H(M)可表示為:
式中,灰度值i從0~255 共256 個等級。
對任意兩幅圖像M和N,其聯(lián)合熵H(M,N)可表示為:
式中,PMN(i,j)為圖像M和N灰度的聯(lián)合概率分布。
圖像M和圖像N的互信息熵I(M,N)為:
進(jìn)而可提出任意2 個霉變等級下玉米樣本間的可分性判據(jù)A,其計算公式為:
當(dāng)2 個等級霉變玉米樣本高光譜圖像之間的互信息熵越小、自信息熵越大時,則A值越小,越有利于樣本的分級;反之則不利于分級。由此,在式(6)計算的基礎(chǔ)上,可進(jìn)行最佳特征波長的選擇:
第1 步:運(yùn)用SPA 進(jìn)行特征波長初選,獲得若干個初選波長;
第2 步:根據(jù)公式(3)計算所有初選波長下每個霉變等級玉米樣本(50 個樣本)高光譜圖像的平均自信息熵;
第3 步:任選2 個霉變等級組合(6 個等級共15個組合),根據(jù)公式(4)和(5)分別計算每個組合在初選波長下對應(yīng)2 個等級樣本之間的互信息熵,并計算其平均值;
第4 步:根據(jù)公式(6)計算所有初選波長下所有組合(15 個組合)霉變玉米高光譜圖像的A值及其均值;
第5 步:選擇最小A值所對應(yīng)的波長即為最佳波長。
將經(jīng)黑白標(biāo)定后的光譜進(jìn)行MSC 預(yù)處理,由圖3、圖4 可知,經(jīng)MSC 校正后得到的光譜數(shù)據(jù),可有效消除散射影響所導(dǎo)致的基線偏移現(xiàn)象,使樣本之間的反射比差異減小,提高信噪比。
圖3 原始光譜數(shù)據(jù)Fig.3 The original spectral data
2.2.1 特征波長初選 由于在成像光譜區(qū)間的兩端噪聲較多[26-28],因此,在數(shù)據(jù)分析中只采用第300 ~第1 000 波段(524~880 nm)間的數(shù)據(jù)。將預(yù)處理過的光譜數(shù)據(jù)運(yùn)用SPA 初選特征波長,按照交互驗(yàn)證均方根誤差最小時對應(yīng)的波長變量個數(shù)即為選擇結(jié)果這一思想,采用SPA 篩選霉變玉米特征波長及特征波長的個數(shù)。由圖5、圖6 可知,當(dāng)選擇出的特征變量為8 個時,交互驗(yàn)證的均方根誤差最小且逐漸趨于穩(wěn)定,此時所選出的8 個特征變量對應(yīng)的特征波長即為初選的特征波長。
圖4 經(jīng)多元散射校正處理后的光譜數(shù)據(jù)Fig.4 The spectral data after multiple scatter correction
2.2.2 特征波長細(xì)選 在初選的8 個特征波長的基礎(chǔ)上,根據(jù)特征波長細(xì)選步驟,可得在8 個初選特征波長下15 個組合霉變玉米樣本間的高光譜圖像的A值及其均值。由表2 可知,不同等級霉變玉米樣本在8個波長下的A值的平均值大小按降序排列為A622nm>A598nm>A650nm>A688nm>A699nm>A824nm>A709nm>A819nm。因A值越小,越有利于不同樣本之間的分級,從而確定霉變玉米最佳特征波長為819 nm。
表2 不同波長下霉變玉米15 個組別高光譜圖像的A 值及其均值Table 2 A values of hyperspectral images of 15 groups of moldy maize under different wavelengths and its mean values
圖5 連續(xù)投影算法提取特征波長Fig.5 Continuous projection algorithm for feature wavelength extraction
圖6 選擇特征波長個數(shù)Fig.6 Number of characteristic wavelengths selected
為檢驗(yàn)上述特征波長選擇方法的有效性,采用FDA 方法進(jìn)行驗(yàn)證。提取初選特征波長下圖像的7個不變矩紋理特征和6 個小波紋理特征[29-31],將13個特征參量作為FDA 輸入?yún)⒘?得到8 個初選波段下霉變玉米的分級正確率。由表3 可知,819 nm 波長下FDA 的判別正確率達(dá)到最高,證明了基于SPA 和信息熵相結(jié)合的高光譜特征波長選擇方法的有效性。圖7為622 nm 和819 nm 波長下的FDA 直觀圖,對比可知,622 nm 波長下霉變玉米分級正確率達(dá)到93.2%,但A1、A2 和A3 三個等級的樣本仍有部分未分開,而在819 nm 波長下基本上實(shí)現(xiàn)了不同等級霉變玉米間的分級。
表3 不同波長下FDA 判別正確率Table 3 FDA discrimination accuracy at different wavelengths
玉米中毒素的產(chǎn)生主要是由于其自身帶有孢子和芽孢,芽孢是細(xì)菌的休眠體,孢子由霉菌產(chǎn)生,它們在適宜的生長環(huán)境下可使玉米產(chǎn)生霉變[32]。而有關(guān)玉米霉變的分析,前人主要是通過理化試驗(yàn)對其進(jìn)行分類鑒別,其過程比較繁瑣。高光譜圖像技術(shù)具有諸多優(yōu)點(diǎn),但由于它是將多信息融合的技術(shù),獲得的數(shù)據(jù)量大、相關(guān)性高,導(dǎo)致數(shù)據(jù)不易保存,且信息處理的效率相對較低,影響計算速度。所以用最少、最恰當(dāng)?shù)奶卣鱽肀碚髯畲?、最有效的信息量是目前高光譜圖像技術(shù)的研究重點(diǎn)。本研究提出一種高光譜特征選擇方法,以不同霉變等級的玉米為研究對象,利用霉變玉米高光譜圖像和光譜信息,達(dá)到了霉變玉米無損快速分類鑒別。
本試驗(yàn)中高光譜鑒別不同等級霉變玉米結(jié)果影響因素主要為特征波長的選取。研究表明,基于SPA 和信息熵相結(jié)合的方法篩選特征波長,并利用該波長下的圖像信息進(jìn)行FDA 驗(yàn)證,結(jié)果顯示該波長下的鑒別正確率最高(圖7),說明該方法選擇出的特征波長是有效的,將特征波長作為不同霉變等級的分類依據(jù),發(fā)現(xiàn)分類正確率明顯提高,這與薛建新等[33]采用高光譜技術(shù)并結(jié)合特征波長的提取判斷沙金杏成熟度的結(jié)論一致。借鑒李金夢等[34]特征選擇方法和文獻(xiàn)[35-37]中特征波長選擇思路,基于目前特征選擇單純利用光譜信息的特點(diǎn),本研究在SPA 選擇特征波長的基礎(chǔ)上,引入信息熵的概念,綜合光譜信息和圖像信息進(jìn)行特征波長的選擇,最終的分類結(jié)果比單純利用光譜信息正確率有所提高。本研究提取特征波長時雖然去除了冗余信息,但特征波長的選擇方法可能并非最佳,所以針對高光譜特征波長的選擇仍需進(jìn)一步研究,此外,該特征選擇方法是否能夠提高霉變玉米黃曲霉毒素B1預(yù)測模型的正確率也有待研究。
圖7 622、819 nm 波長下霉變玉米高光譜分級圖Fig.7 Hyperspectral image classification of moldy maize under 622 nm and 819 nm
高光譜成像技術(shù)在霉變玉米無損檢測中仍存在一定的局限性,還需要進(jìn)一步完善,同時本研究所用的實(shí)驗(yàn)樣本的數(shù)量及種類可能還不夠多,地域、品種覆蓋范圍還不夠廣,霉變天數(shù)的選擇也可能不是鑒別霉變玉米中黃曲霉毒素B1的最佳等級,且霉變玉米的鑒別方法比較單一,因此,后續(xù)工作還有待進(jìn)一步研究。
本研究根據(jù)和信息熵原理提出了一種霉變玉米高光譜鑒別中特征波長的選擇方法,即利用SPA 處理光譜信息初選出8 個特征波長(598、622、650、688、699、709、819、824 nm),再通過信息熵原理處理圖像信息對初選的8 個特征波長細(xì)選,最終確定了適于霉變玉米等級鑒別的最佳分級波長為819 nm。在提取特征波長下霉變玉米圖像的紋理特征基礎(chǔ)上,借助FDA 方法,基本實(shí)現(xiàn)了霉變玉米等級的鑒別,819 nm 波長下霉變玉米分級正確率為98.6%。FDA 結(jié)果證明了所提出的高光譜特征波長選擇方法的有效性。本研究結(jié)果為構(gòu)建霉變玉米的高光譜檢測模型奠定了基礎(chǔ),也為高光譜技術(shù)應(yīng)用于其他物品檢測提供了一種特征波長選擇的新思路。