陳杰,姚娜,武寧,呂海芳
(塔里木大學信息工程學院,新疆 阿拉爾 843300)
新疆阿克蘇地區(qū)紅旗坡農場地處天山托木爾峰南麓和塔里木盆地北緣,氣候干燥少雨,日照強且冷暖變化劇烈。這里盛產的‘冰糖心’蘋果果核部分呈現如蜂蜜般的結晶體,果皮色澤光亮平滑,果肉質地較密、味甜汁多,含糖量是所有蘋果中最高的[1]。糖度作為蘋果的品質參數之一,是果品無損檢測中常用的指標。高光譜成像技術是把二維圖像和光譜融為一體,圖像反映蘋果的大小、形狀以及缺陷等外部品質特征,樣本成分的不同造成了對光譜吸收的不同,因而提取的光譜曲線不同。因此,根據光譜信息可以預測樣品內部化學成分[2-4]。近年來國內外一些學者廣泛將高光譜成像技術應用于蘋果糖度的無損檢測研究中,取得了一定進展。郭志明等[5]研究感興趣區(qū)域的平均光譜并采用最小二乘法建立蘋果的糖度預測模型,預測均方根誤差RMSEP為0.456 8;馮迪等[6]使用高光譜圖像的洛倫茲參數建立了蘋果的硬度和糖度含量的預測模型,相關系數r達到0.828;CHEN J等[7]采集高光譜蘋果圖像,采用連續(xù)投影算法和GA提取特征波長建立模型對蘋果糖度進行檢測,取得了較好的效果。但上述均采用全局變量和特征波長結合的方式來進行無損檢測,會存在一定的非線性響應,從而給模型造成一系列影響。而局部回歸方法(local regression method)是根據一定的相似性來選取訓練集中與測試集性質相近的部分作為訓練子集建立模型,以此來解決由于樣本間差異過大而引起的非線性響應[8]。
在局部建模中,性質相近常采用“距離”進行衡量。常用的距離有歐氏距離和馬氏距離等。歐氏距離是空間中兩個點之間的真實距離,是向量的自然長度;馬氏距離是一種有效的計算兩個未知樣本集相似度的方法,與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系,這兩個距離常被用來降低模型的相似度[9]。
特征變量的數量會影響數據規(guī)律的查找和建立,因此需要找到一個合理的方法,在減少需要分析的變量的同時,盡量減少原變量所包含信息的損失,以達到對所收集的數據進行全面分析的目的。主成分分析算法(principal components analysis,PCA)是最常用的線性降維方法,它是通過某種線性投影,將高維的數據映射到低維的空間中,使得在所投影的維度上數據的信息量最大,以此保留住較多原數據的信息[10]。
反向傳播(back propagation,BP)神經網絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是目前應用最廣泛的神經網絡模型之一。它在一定程度上可以模擬人大腦神經系統(tǒng)的活動過程,具有自學習、自組織、自適應能力及高度非線性表達能力,這是其它建模方法所不具備的[11]。目前很多學者將BP神經網絡應用于農產品無損檢測上,劉思伽等[12]使用BP神經網絡結合高光譜(全局)對蘋果的病害程度進行了預測,訓練集檢測率達100%,驗證集檢測率達100%;徐永浩等[13]對蘋果的近紅外光譜(全局)和糖度應用PSO結合BP神經網絡建立的蘋果糖度預測模型,具有更高的預測精度,預測相關系數r和均方根誤差分別為0.991 1和0.150 2;田瓊等[14]通過近紅外光譜技術結合主成分分析和BP神經網絡研究不同國家大豆內含特征,建立進口大豆產地識別模型,總體測試集準確率為95.65%。因此,神經網絡應用于蘋果品質參數的預測是可行的。
針對以上問題和研究現狀,本研究采用主成分空間的歐氏距離(Euclidean distance,ED)和馬氏距離(Mahalanobis distance,MD)作為相似標準來篩選訓練子集,減少因樣本差異過大給模型造成的非線性影響,并與全局建模參數進行比較,結合BP神經網絡建立局部回歸模型,并應用于對實測蘋果糖度的樣品分析,以期對基于高光譜的蘋果糖度無損檢測的研究提供參考依據。
局部建模方法與全局建模方法的區(qū)別在于對每一個測試樣本選擇與其相似的訓練集樣本作為訓練集子集進行建模,可以更好的對預測樣本進行參數預測。
馬氏距離和歐式距離的定義分別為[15]:
其中,xi和yj分別是第i個訓練樣本光譜和第j個測試樣本光譜在主成分空間的投影;X(M)為所有訓練集的協(xié)方差矩陣,M表示主成分空間的維數,即主成分的數目,T表示矩陣的轉置,+表示對協(xié)方差矩陣X(M)取廣義逆[16]。
BP神經網絡是一種具有輸入層、隱含層和輸出層的典型多層前向型神經網絡,可以實現輸入和輸出間的任意非線性映射,具有較好的非線性映射逼近能力和預測能力[17]。圖1是一個多層的神經網絡結構,第1層是輸入層(3個神經元),第2層是隱含層(3個神經元),第3層是輸出層。從數學角度看,神經網絡是一個多元復合函數,如果增加神經網絡的層數和神經單元,就會有更多的函數表達式[18]。
圖1 多層神經網絡的表示
多層神經網絡的數學表達式為:
式(3)~式(6)中x是輸入數值,w是相鄰神經元之間的權重,是神經網絡在訓練中需要學習的參數,神經網絡的學習需要一個損失函數來計算訓練過程中的輸出值與真實值之間的差別,訓練的目標是通過調整每個權重值w使得損失函數最小。最后得到的w值為模型訓練得到的參數,從而可以進行模型的測試[19]。
在計算輸出值時按照前向傳播算法進行計算,隱藏層的輸出值定義如下[20]:
其中Xi是當前節(jié)點的輸入值,是連接到此節(jié)點的權重,是輸出值,f是當前階段的激活函數,是當前節(jié)點的輸入值經過計算后被激活的值[17]。BP神經網絡就是逐層將最終誤差進行分解,即每一層只與下一層連接。假設每一層均為輸出層的前一個層級,通過計算前一個層級與輸出層的誤差得到權重的更新。首先求得輸出層與真實值之間的差距,然后反向傳播到上一個節(jié)點,并計算出該節(jié)點的誤差值,計算誤差的目的是更新權重,可以用類似梯度下降法的方法進行權重的更新。后向傳播計算公式為[21-22]:
其中δk為輸出層的誤差項,Y是計算值,T是真實值,是隱藏層誤差。隱藏層的誤差根據鏈式求導法則,可推出如下公式:
當前一層輸出值對誤差的梯度可以通過下一層的誤差與權重和輸入值的梯度乘積獲得。
權重更新的公式為:
其中ji表示為反向傳播時對應的節(jié)點系數,通過對的計算可以更新對應的權重值[20]。
均方根誤差(root mean square error,RMSE)是觀測值與真實值偏差的平方和與觀測次數n比值的平方根,是用來衡量觀測值同真實值之間的偏差,其表達式如式(11)所示[23]。
其中,yi表示實測值,i表示預測值。
RMSE越小,表明測量精度越高。
相關系數一般用r表示,它是量化相關性分析中兩個變量之間線性關系強度的特定參數,其表達式如式(12)所示[24]。
其中,xi和yi是兩組數據,和分別是兩組數據的均值。
r的絕對值越接近1相關性越好。
本研究中,首先把所有的樣本隨機分成三部分,分別為訓練集、驗證集和測試集,訓練集用于訓練模型,驗證集用于優(yōu)化模型,測試集用于模型的測試,它們的比例為6∶2∶2;然后對訓練集光譜進行主成分分析,根據主成分圖,構建訓練集和驗證集在主成分特征空間的投影;之后根據訓練集和驗證集的歐氏距離和馬氏距離選定訓練子集,并使用BP神經網絡進行建模和預測,并根據驗證集RMSE確定模型的最優(yōu)參數,即訓練子集的數目和偏最小二乘法選取主成分的因子;最后以優(yōu)化的參數對測試集進行預測。
本試驗以大小、形狀一致,顏色分布均勻,表面光滑無損傷的阿克蘇紅旗坡糖心蘋果為測試對象,蘋果采摘后置于0℃冷藏室存儲,為了減少溫度對蘋果的影響,在試驗前取出并置于室溫下24 h后再開始編號,然后進行高光譜圖像和糖度的采集。
使用HySpexSWIR-384采集蘋果高光譜圖像,采集時為避免高光譜圖像采集時環(huán)境和散光干擾成像,將整個高光譜數據采集系統(tǒng)置于定制的黑箱內,首先將編好號碼的糖心蘋果以三個為一組,擺放在移動平臺上,擺放時第一個蘋果和白板之間、蘋果與蘋果之間要留有一定的距離,以免影響第一個蘋果高光譜圖像的校正處理,避免蘋果之間的高光譜數據互相干擾,每次放完樣本即可關閉閘門,并通過電腦軟件進行圖像采集。
使用ENVI4.7軟件打開采集的糖心蘋果高光譜圖像的RAW格式文件,首先使用“ROI Tool”界面選擇矩形框移動到圖像的白板區(qū)域對圖像進行校正,以此降低在高光譜圖像采集過程中的噪聲干擾;隨后在每個蘋果偏離光點的赤道區(qū)畫出矩形框,并點擊右鍵把所選矩形框標紅,運行出它的光譜圖像并將對應的光譜數據平均值以ASCLL的形式保存在Excel文檔中備用。剔除異常數據以后,保存有效光譜數據200組。
圖2 原始高光譜圖曲線
糖度數據使用糖度、鹽度兩用儀(MASTER-BX/S28M)來測量。在蘋果上采集光譜數據的位置處使用糖度儀對蘋果進行糖度測量,每個位置采集糖度5次,最后取平均值作為樣本的糖度值。
將200組數據按比例6∶2∶2隨機分成訓練集、驗證集和測試集,即120個樣本作為訓練集,40個樣本作為驗證集,其余40個樣本作為測試集。參數優(yōu)化的過程以驗證集的RMSEP作為評價依據。
建立BP神經網絡的步驟如下:分別對訓練集和驗證集數據進行讀取;對輸入層和輸出層的神經元進行歸一化處理,這一步可以加快訓練網絡的收斂性;使用newff創(chuàng)建網絡,對模型多次測試后設置隱藏節(jié)點的個數為8,此時均方根誤差最小;設置網絡的訓練參數,最大學習迭代數為1 000、學習速率為0.01,收斂誤差設置為0.000 1;采用最佳隱含層神經元數對模型進行訓練;基于sim函數對訓練好的BP神經網絡進行仿真預測;將得出的數據反歸一化并進行誤差計算。
為了確定主成分的數目,即主成分特征空間的維數,對光譜中各主成分進行考察,結果如圖3所示。第一和第二主成分的貢獻率共達到98%以上,因此可以采用前兩個主成分進行樣本主成分的計算,即把所有的高光譜數據投影到二維主成分空間,計算歐氏距離和馬氏距離來選擇訓練子集。但在使用最小二乘法建模時,考慮到蘋果成分的復雜性以及其它各成分的貢獻率,主成分因子采用13來建模,從圖4可以看出,主成分因子采用13完全可以把所有的影響元素囊括進來。
圖3 主成分貢獻率
圖4 不同方式選取主因子對均方根誤差的影響
根據式(1)、(2)計算主成分空間內每個驗證集樣本與訓練集樣本之間的歐氏距離和馬氏距離,然后以距分布中心的3個標準偏差為閾值來選擇訓練子集進行建模和預測。
圖5~圖7分別為全光譜、馬氏距離選取之后和歐氏距離選取之后訓練集和驗證集在二維主成分中的分布情況。歐氏距離衡量的是兩樣品在主成分空間中的相對距離,因此所選擇的訓練子集分布在近似圓形的區(qū)域,而馬氏距離在計算兩樣品的距離時考慮了方向上的影響因素,因此選擇的訓練子集分布類似橢圓形,這與理論分析結果一致。
圖5 全光譜訓練集和驗證集在主成分空間的分布
圖6 馬氏距離選取之后訓練集和驗證集在主成分空間的分布
圖7 歐氏距離選取之后訓練集和驗證集在主成分空間的分布
表1是全光譜、馬氏距離選取之后訓練集糖度、歐氏距離選取之后訓練集糖度和被剔除的糖度數據的統(tǒng)計表格。從表1可以看出,歐式距離和馬氏距離選擇樣本后,樣本間差異減小。
表1 糖度統(tǒng)計表格
對訓練集和驗證集進行三種主成分分析后,全光譜(全局)的數量為160,其中120組為訓練集,40組為驗證集;馬氏距離選取后訓練子集的光譜數量為80組,歐氏距離選取后訓練子集的光譜數量也為80組。
基于全光譜(全局)使用神經網絡建立模型,建模主成分因子選取13,訓練子集的數目就是全部的訓練集,對驗證集進行預測,得到RMSEP為0.173 7,r為0.820 94。由于訓練集和驗證集是隨機從數據中進行無重復選擇的,因此為了結果的穩(wěn)定性,表1中所有的RMSEP和r均為運行100次的結果均值;表2是使用不同的方法建模預測時驗證集各參數的比較。
表2 驗證集各參數比較
全光譜+PCA+BP對全光譜進行主成分分析之后,訓練子集的數量不變,因為主成分降低光譜維數,對訓練集的數量并不產生影響,通過BP神經網絡建模之后驗證集的RMSEP為0.166 4,r為0.857 28。相對全光譜的預測,預測速度有很大的提升,RMSEP和r也有改進。
ED+PCA+BP是對訓練集通過主成分空間內的歐氏距離選出訓練子集后,進行主成分分析和BP神經網絡建模,由于訓練集中距離較遠的被淘汰,驗證集的RMSEP和r有很大程度的提高。
MD+PCA+BP是對訓練集通過主成分空間內的馬氏距離選出訓練子集后,進行主成分分析和BP神經網絡建模,與歐氏距離得到的結果相比較,測試集的RMSEP為0.106 1,r為0.954 76,RMSEP有很大程度的改善,但是r卻有所降低。
綜合考慮預測速度和RMSEP以及r后,使用MD+PCA+BP對測試集進行預測,BP神經網絡回歸參數如圖8所示。所建立模型對訓練集的預測r為0.951 43,對驗證集的預測r為0.820 94,對測試集的預測r為0.808 29,對全部數據進行預測時,r為0.912 83,預測效果比較理想。測試集預測值與真實值之間對比的情況如圖9所示。分析可知馬氏距離選出的訓練子集進行的局部建模方法對測試集糖度的預測結果是最好的,這也說明,對于蘋果的研究,光譜響應與糖度含量之間存在很明顯的非線性關系,使用局部建模方法可以改進預測精度。
圖8 MD+PCA+BP神經網絡對測試集的預測情況
圖9 測試集預測值與真實值的對比
本研究在把樣本分為訓練集、驗證集和測試集的基礎上,實現了一種基于主成分空間的局部建模方法,并將這種方法與BP神經網絡結合用于蘋果糖度高光譜圖像技術的定量分析。結果表明,與全光譜相比,局部變量建模相關系數r提高,RMSEP降低,提高了檢測效果,因此能減少樣本間非線性響應;而兩種局部建模方法中,采用主成分空間中的馬氏距離所選擇的訓練子集更能代表樣本之間的相似性,歐氏距離次之;基于馬氏距離和BP神經網絡的局部建模方法對測試集的預測均方根誤差RMSEP達到0.106 61,相關系數r為0.808 29,可以較好的實現蘋果中糖度含量的高光譜定量分析。研究表明,針對研究對象選擇合適局部建模方法,對提高模型精度具有重要意義。