李鴻強(qiáng), 孫 紅, 李民贊*
1. 河北建筑工程學(xué)院理學(xué)院, 河北 張家口 075000
2. 中國農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083
馬鈴薯是世界第四糧食作物。 商品馬鈴薯貯藏期間, 易發(fā)生干腐病和瘡痂病。 在國標(biāo)《馬鈴薯商品薯分級與檢測規(guī)程》[1]中, 干腐病和瘡痂病是規(guī)定檢測項(xiàng)目, 是商品薯重要定級依據(jù)。 目前, 干腐病和瘡痂病的檢測通過目測完成, 仿照人的檢測過程, 機(jī)器視覺技術(shù)和光譜分析技術(shù)廣泛用于馬鈴薯病害檢測[2-3]。
王鑫野[4]等基于特征波段反射率和主成分圖像灰度值建立K最近鄰分類算法、 BP神經(jīng)網(wǎng)絡(luò)、 決策樹算法3種識別模型對不同時期馬鈴薯晚疫病進(jìn)行識別, 基于二次主成分圖像的灰度值結(jié)合BP神經(jīng)網(wǎng)絡(luò)建立的模型, 識別率達(dá)96.6%。 趙明富等[5]將主成分圖像的平滑度、 三階矩、 均值、 標(biāo)準(zhǔn)差、 一致性、 熵作為輸入值, 建立了改進(jìn)的貝葉斯分類器, 判別發(fā)芽、 腐爛、 表面碰傷、 機(jī)械損傷、 黑心以及合格馬鈴薯, 預(yù)測集的識別率為95%以上。
Liang等[6]試驗(yàn)表明近紅外光譜是一種快速檢測馬鈴薯斑紋病的方法, 分類準(zhǔn)確率為96.7%。 Zhou等[7]研究了利用513~850nm可見光-近紅外透射光譜技術(shù)結(jié)合偏最小二乘線性判別分析方法對黑心病馬鈴薯進(jìn)行分類的可行性, 校準(zhǔn)集的分類準(zhǔn)確率可以達(dá)到96.82%, 驗(yàn)證集的分類準(zhǔn)確率可以達(dá)到96.53%。 王麗艷等[8]選出7個特征波段, 建立全波段、 特征波段的SVM和BP人工神經(jīng)網(wǎng)絡(luò)模型, 紫色、 紅色、 黃色馬鈴薯鑒別準(zhǔn)確率達(dá)到100%。
實(shí)驗(yàn)證明, 機(jī)器視覺和光譜分析技術(shù)都是有效無損檢測方法, 機(jī)器視覺技術(shù)相較光譜分析技術(shù)更加直觀, 但是在面對同源(馬鈴薯)但不同種類疾病(干腐病, 瘡痂病)的同時檢測問題, 干腐病和瘡痂病外觀顏色相似, 病變區(qū)的物質(zhì)成分不一樣, 利用機(jī)器視覺技術(shù), 難以確定缺陷的性質(zhì), 光譜分析技術(shù)的分析基礎(chǔ)是物質(zhì)成分或濃度的差異, 在無損檢測馬鈴薯中更具優(yōu)勢。
利用近紅外高光譜技術(shù)獲取860~1 745 nm正常、 干腐和瘡痂馬鈴薯樣本光譜, 對正常、 干腐病和瘡痂病馬鈴薯分類檢測進(jìn)行研究, 為高光譜分析技術(shù)用于馬鈴薯特定外部缺陷檢測提供參考。
實(shí)驗(yàn)樣本購于本地超市(正常46個, 干腐病42個, 瘡痂病28個), 隨機(jī)挑選樣本的2/3構(gòu)成建模集, 1/3構(gòu)成驗(yàn)證集。 3類樣本的樣例分別如圖1(a,b,c)所示。
圖1 正常(a)、 干腐(b)、 瘡痂病(c)馬鈴薯樣本
常溫下, 將馬鈴薯清理干凈并靜置24 h。 使用“蓋亞(Gaia Sorter)”高光譜分選儀采集光譜數(shù)據(jù), 光譜范圍890~1 650 nm。
通過ENVI5.1軟件提取感興趣區(qū)域(region of interest, ROI), ROI大小為10×10像素, 同區(qū)域獲取5~6個ROI, 計(jì)算平均光譜作為原始反射光譜數(shù)據(jù)。
在反射光譜曲線上, 極大值點(diǎn)反映了該處光譜對物質(zhì)的強(qiáng)反射, 極小限值點(diǎn)反映了該處光譜對物質(zhì)的深度吸收, 相鄰兩個極值點(diǎn)間的中點(diǎn)限定了光譜曲線的變化趨勢, 相鄰極值點(diǎn)間連線的斜率反映了光譜對物質(zhì)反射(吸收)的變化率。 極值點(diǎn)、 相鄰極值點(diǎn)間的中點(diǎn)和斜率, 是反射光譜的“指紋”特征。
利用極值點(diǎn)和中點(diǎn)對應(yīng)的反射率, 相鄰極值點(diǎn)間光譜的斜率可以組成模式特征向量。 3類樣本極值點(diǎn)和中點(diǎn)處的平均光譜形成標(biāo)準(zhǔn)模式特征向量, 通過計(jì)算待測樣本的模式特征向量與各標(biāo)準(zhǔn)模式特征向量的馬氏距離, 以最小馬氏距離判定待測樣本的類別。
對去噪后的光譜數(shù)據(jù)進(jìn)行主成分分析(principal component analysis, PCA), 利用主成分得分作為輸入變量, 采用貝葉斯分類器[5](Bayesian classifier, BC)和線性判別識別分析[9-10](linear discriminant analysis, LDA)方法進(jìn)行分類識別。
使用錯誤識別率評判模型識別性能差異, 數(shù)值越小表示模型性能越好, 計(jì)算方法見式(1)。
(1)
所用距離為馬氏距離, 計(jì)算方法見式(2)。
(2)
式(2)中,x為待測樣本,G為樣本總體,μ為樣本均值,Σ為樣本集協(xié)方差矩陣,d為馬氏距離。
瘡痂病, 干腐病和正常馬鈴薯樣本的平均光譜如圖2所示。
圖2 三類樣本平均光譜
在970和1 450 nm波段, 3類樣本反射光譜均表現(xiàn)深吸收特性, 反射光譜出現(xiàn)極小值, 正常樣本相較兩類病變樣本吸收強(qiáng)度更大, 970和1 450 nm波段是水O—H鍵第2倍頻和水O—H鍵第1倍頻吸收, 干腐和瘡痂病的病變區(qū)域均表現(xiàn)為缺水變黑、 變干, 病變性質(zhì)和反射光譜特征一致。 970 nm處, 瘡痂病樣本的反射光譜低于瘡痂病樣本, 1 450 nm處, 瘡痂病樣本的反射光譜高于干腐病樣本, 兩種病變存在區(qū)別。
瘡痂病, 干腐病和正常馬鈴薯的反射光譜曲線, 起及轉(zhuǎn)折走向相似, 可以理解為3類樣本種源相似。 在相同波長處吸收程度不同, 由樣本內(nèi)在物質(zhì)差異引起。
分別利用1階導(dǎo)數(shù)[11], 多元散射[12]和標(biāo)準(zhǔn)正態(tài)變量變換[13]進(jìn)行光譜預(yù)處理[14]。
經(jīng)過1階導(dǎo)數(shù)處理的光譜, 經(jīng)主成分分析后, 前兩個主成分的累積貢獻(xiàn)率為84.9%。 基于前2個主成分得分的樣本散點(diǎn)圖如圖3所示, 3類樣本可以通過第1, 2主成分得分線性分開, 1階導(dǎo)數(shù)去噪處理效果優(yōu)于多元散射和標(biāo)準(zhǔn)正態(tài)變量變換。
圖3 前2個主成分樣本散點(diǎn)圖
2.3.1 基于光譜曲線結(jié)構(gòu)特征的識別分析
圖4光譜曲線上圓圈標(biāo)出的是三類樣本的極值點(diǎn), 3類樣本的極值點(diǎn)波長位置相同, 只是物質(zhì)濃度不同引起的反射(吸收)程度不一樣。 同時, 極值點(diǎn)間, 3類樣本的光譜變化趨勢一致, 但是起伏程度不一樣, 表現(xiàn)為極值點(diǎn)間的連線斜率不同, 從圖上看到: 類似一條曲線, 沿著反射率坐標(biāo)軸上下平移旋轉(zhuǎn)得到另外2條曲線, 圖中顯示出一簇曲線中的3條。 “一簇曲線”說明3類樣本同種同源, “平移旋轉(zhuǎn)”是病變引起的物質(zhì)含量變化。 極值點(diǎn), 中點(diǎn)處的反射率, 極值點(diǎn)間連線的斜率是物質(zhì)反射譜典型“指紋”特征, 符合同物同譜規(guī)律。 干腐病, 瘡痂病, 正常馬鈴薯光譜曲線上的極值點(diǎn), 中點(diǎn)統(tǒng)計(jì)結(jié)果見表1。
圖4 光譜曲線上的極值點(diǎn)
2.3.1.1 基于關(guān)鍵點(diǎn)光譜形成模式特征向量的識別方法
利用3種樣本平均光譜關(guān)鍵點(diǎn)處的反射率, 形成3類樣品的標(biāo)準(zhǔn)模式特征向量, 正常樣本的向量長度為13, 干腐樣本的向量長度為12, 瘡痂樣本的向量長度為15。 獲取待測樣本相應(yīng)波長處的反射率, 計(jì)算待測樣本與各模式向量之間的馬氏距離, 以距離最小識別待測樣本的所屬類別。 3類樣本的錯誤識別率均為0。 從識別正確率來看, 關(guān)鍵點(diǎn)處的反射率可以代表不同樣本的特征。
表1 極值點(diǎn)、 中點(diǎn)對應(yīng)波長統(tǒng)計(jì)結(jié)果
將3種樣本的平均光譜關(guān)鍵點(diǎn)處的反射率, 組合形成1個標(biāo)準(zhǔn)模式向量, 向量長度為31。 獲取待測樣本相應(yīng)波長處的反射率, 計(jì)算待測樣本與該標(biāo)準(zhǔn)模式向量之間的馬氏距離, 以距離最小識別待測樣本的所屬類別。 正常樣本的錯誤識別率均為0, 干腐樣本的錯誤識別率是14.3%, 均被錯誤識別為瘡痂樣本, 瘡痂樣本的錯誤識別率為0。 向量長度為31的模式, 存在冗余數(shù)據(jù), 由于數(shù)據(jù)點(diǎn)的增多, 增加了異類樣本之間的貼合度, 縮小了兩類病害樣本之間的距離, 降低了兩類病害樣本之間的區(qū)分度。
設(shè)置從向量長度為31的模式中, 選定1到30個波長形成組合, 作為新模式向量, 統(tǒng)計(jì)結(jié)果見表2。 當(dāng)向量長度小于5時, 沒有相關(guān)組合能使3類樣本的錯誤識別率達(dá)到0。 5個波長的組合中, 有2 269種組合使3類樣本的錯誤識別率達(dá)到0。 5個波長組合, 各波長的被選情況見表2。 波長組合(911, 955, 962, 973), 以上波段包含有蛋白質(zhì)C—H鍵第3倍頻伸縮振動吸收、 水O—H鍵第2倍頻伸縮振動吸收, 被選中百分比占到32.9%。 波長組合(1 068, 1 081, 1 108, 1 185, 1 199, 1 275, 1 282), 以上波長包含有機(jī)物質(zhì)C—H鍵第2倍頻伸縮振動吸收, 被選中百分比占到43.0%。 波長(1 452, 1 455, 1 500, 1 647)包含有淀粉、 水O—H鍵第1倍頻伸縮振動吸收, 蛋白質(zhì)N—H鍵第1倍頻伸縮振動吸收, 被選中百分比占到24.1%, 曲線起始波段等其他16個波段沒有被選擇, 被選建模波長與樣本蛋白質(zhì)、 淀粉物質(zhì)成分直接相關(guān)。
表2 5個波長選擇統(tǒng)計(jì)結(jié)果
2.3.1.2 基于關(guān)鍵點(diǎn)間斜率組成模式特征向量的識別方法
3類樣本的平均光譜, 其相同極值點(diǎn)對應(yīng)波長為: 911, 962, 1 081, 1 199, 1 269和1 455 nm, 共計(jì)6處。 如圖4中極值點(diǎn)連線(圖中黑色細(xì)線)所示, 各類樣本極值點(diǎn)間曲線的走向基本一致, 但是起伏程度不同。 計(jì)算相鄰兩點(diǎn)間連線的斜率(計(jì)算時將波長進(jìn)行歸一化, 消除量綱影響), 由斜率組成模式向量, 獲取待測樣本相應(yīng)的斜率, 計(jì)算待測樣本與各標(biāo)準(zhǔn)模式向量之間的馬氏距離, 以距離最小識別待測樣本的所屬類別。 從6個波長中可以分別選擇其中2, 3, 4, 5, 6個點(diǎn)組合, 分別有15, 20, 15, 6, 1種組合方式, 共有57種組合。
經(jīng)統(tǒng)計(jì), 3個波長的組合: 911, 1 269和1 455 nm, 是所有組合情況中識別錯誤率最低的組合, 正常樣本的錯誤識別率為0, 干腐樣本的錯誤識別率為2.4%, 有1個樣本被識別為正常樣本, 原因可能是病區(qū)較小或者病情較輕, 在選取感興趣區(qū)域時, 圈入正常區(qū)域面積所占比例較大, 使得平均光譜更接近正常樣本, 瘡痂樣本的錯誤識別率為0。 波長911 nm附近包含蛋白質(zhì)C—H鍵的第3倍頻伸縮振動吸收, 波長1 269 nm附近包含C—H鍵的第2倍頻伸縮振動吸收, 波長1 455 nm附近包含淀粉和水的O—H鍵的第1倍頻伸縮振動吸收。 如圖5所示, 各類樣本波形起伏程度不同, 反映的是內(nèi)部物質(zhì)的差異, 以上3點(diǎn)之間連線的斜率正好能反映出正常樣本和病害樣本, 以及兩種病害樣本之間的成分區(qū)別。
圖5 波段911, 1 269和1 455 nm間光譜連線變化趨勢
2.3.2 基于主成分的識別結(jié)果
利用前2個主成分作為輸入變量, 識別結(jié)果如表3所示, 用LDA和BC識別方式錯誤識別率均為0%。
表3 基于主成分識別結(jié)果
通過采集正常、 干腐、 瘡痂馬鈴薯高光譜, 利用光譜前兩個主成分得分, 進(jìn)行線性判別分析, 貝葉斯分類器進(jìn)行分類識別。 利用表征光譜曲線形狀的模式特征向量作為參數(shù), 采用馬氏距離對3種馬鈴薯識別建模。 獲得以下主要結(jié)論:
(1)光譜曲線上的極值點(diǎn)和極值點(diǎn)間的中點(diǎn), 這些關(guān)鍵點(diǎn)最能體現(xiàn)反射光譜的“指紋”效應(yīng)。 尋找3類樣本平均光譜的關(guān)鍵點(diǎn), 以平均光譜關(guān)鍵點(diǎn)對映的反射率形成標(biāo)準(zhǔn)模式向量, 通過計(jì)算待測樣本對應(yīng)向量與3個標(biāo)準(zhǔn)向量的馬氏距離, 以最小距離判定待測樣本的歸屬, 3類樣本的錯誤識別率均為0。 統(tǒng)一3個標(biāo)準(zhǔn)向量的對應(yīng)波長, 以最小馬氏距離判定待測樣本的歸屬, 由于數(shù)據(jù)整合, 不利于兩類病害樣本的識別, 干腐樣本的錯誤識別率14.3%, 均被錯誤識別為瘡痂樣本。 對統(tǒng)一標(biāo)準(zhǔn)向量所含波段, 進(jìn)行重新組合, 可以利用其中5個波段形成的模式向量, 對樣本進(jìn)行分類識別, 3類樣本的錯誤識別率均能達(dá)到0。
(2)三類樣本光譜曲線共有6個相同極值點(diǎn), 極值點(diǎn)間曲線的走向基本一致, 但是不同樣本起伏程度不同, 波形的起伏反映的是內(nèi)部物質(zhì)的變化, 相鄰兩點(diǎn)間連線的斜率可以體現(xiàn)這種變化。 可以利用波長(911, 1 269, 1 455 nm)處兩點(diǎn)間的斜率形成的模式特征向量, 同樣以最小馬氏距離判定待測樣本的歸屬, 正常和瘡痂樣本的錯誤識別率為0, 干腐樣本的錯誤識別率為2.4%。
(3)利用表征光譜結(jié)構(gòu)的模式特征進(jìn)行識別, 使用較少數(shù)據(jù), 即能降低識別模型的復(fù)雜度, 同時識別精度也有保障。