于仁師 孫華麗 韓仲志
摘要:為了比較玉米品種圖像識別中各種神經(jīng)網(wǎng)絡(luò)識別模型的性能,搭建了一套基于統(tǒng)計特征提取和模式識別分類算法的玉米品種識別系統(tǒng)。采用掃描儀獲得了11個玉米品種每個品種50粒子粒圖像,基于圖像的統(tǒng)計特征,分別研究了7種人工神經(jīng)網(wǎng)絡(luò)(ANN)模型(BP、rbf、pnn、pnn、compet、sofnl、ELM)的識別性能,進(jìn)一步考察了極限學(xué)習(xí)機(jī)(ELM)、支持向量機(jī)(SVM)模式分類過程性能。結(jié)果表明,在同樣的情況下SVM模型較ANN模型的特征識別率高,另外神經(jīng)網(wǎng)絡(luò)模型grnn和ELM識別效果較好,其他識別模型性能較差。對11個玉米品種種子的最高檢出率為91.73%,另外,所采用的特征降維方法、特征維數(shù)、初始權(quán)值的隨機(jī)性選擇等因素都會影響模型的識別效果,這對玉米種子純度和品種真實(shí)性檢驗中人工神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建具有指導(dǎo)意義。
關(guān)鍵詞:玉米種子;品種識別;人工神經(jīng)網(wǎng)絡(luò);支持向量機(jī)
中圖分類號:S513;S326 文獻(xiàn)標(biāo)識碼:A 文章編號:0439-8114(2016)09-2366-04
近年來,假種子事件頻發(fā),給農(nóng)業(yè)造成巨大損失,農(nóng)民由于缺乏識別種子的能力和設(shè)備,往往不能有效區(qū)分各個品種,迫切需要一種快速的種子識別方法。數(shù)字圖像識別作為一種快速識別技術(shù)而被廣泛應(yīng)用,在水稻、小麥和花生等作物種子識別上都有成功應(yīng)用的報道。
現(xiàn)代玉米種植和水稻一樣,廣泛雜交育種,不能自留種,增大了不法商家販賣假種子的空間。為了有效鑒別玉米種子的真?zhèn)魏皖悇e,郝建平等、楊錦忠等通過數(shù)十個外觀特征,采用圖像處理的方法識別種子:韓仲志等研究了對種子識別起關(guān)鍵作用的特征提取方法,如子粒的胚部特征和果穗DUS測試特征的提取方法:另外楊錦忠等針對玉米果穗形態(tài)研究了品種識別問題,對關(guān)鍵特征進(jìn)行了選擇優(yōu)化。
在玉米識別相關(guān)算法和系統(tǒng)工程應(yīng)用之前,需要對品種識別過程中的關(guān)鍵因素進(jìn)行有效的性能與效率測試。由于人工神經(jīng)網(wǎng)絡(luò)方法廣泛應(yīng)用于識別問題,本研究擬針對不同的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較研究,進(jìn)而考察各種模型的效能,為將來品種識別軟件的開發(fā)與工程應(yīng)用提供算法支持。
1 材料與方法
1,1 試驗材料
供試玉米品種共11個,均是北方黃玉米品種,種質(zhì)來源為青島農(nóng)業(yè)大學(xué)種質(zhì)資源庫,每個品種50粒種子。采用平板掃描儀采集圖像(圖1)?;贛atalb2010b編程,采用子粒區(qū)域標(biāo)記的方法將圖像中各個子粒的子圖(SubImage)提取出來。然后進(jìn)行特征提取。
1.2 特征提取
提取的特征包括顏色、形態(tài)和紋理3大類,見表1,相關(guān)定義參見文獻(xiàn)。從二值圖上提取形態(tài)特征,從RGB和HSV彩色圖獲取顏色特征,依據(jù)灰度圖像獲取紋理特征。
1.3 特征優(yōu)化
隨著統(tǒng)計指標(biāo)的增加,統(tǒng)計特征的維數(shù)相應(yīng)增加,因此也需要進(jìn)行必要的降維和特征優(yōu)化。傳統(tǒng)的特征降維與優(yōu)化是基于二階統(tǒng)計量進(jìn)行的主分量分析(PCA)方法。PCA是統(tǒng)計學(xué)中分析數(shù)據(jù)的一種有效的方法,其目的是在數(shù)據(jù)空間中找一組向量以盡可能地解釋數(shù)據(jù)的方差,將數(shù)據(jù)從原來的R維空間降維投影到M維空間(R>M)。降維后保存了數(shù)據(jù)中的主要信息,從而使數(shù)據(jù)更易于處理。PCA方法是沿數(shù)據(jù)集方差最大方向?qū)ふ乙恍┫嗷フ坏妮S,主成分分析方法是一種最小均方誤差下的最優(yōu)維數(shù)壓縮方法,特征提取和優(yōu)化后,特征維數(shù)將進(jìn)一步減少。
1.4 品種識別
基于表1中的特征可實(shí)時進(jìn)行品種識別。人工神經(jīng)網(wǎng)絡(luò)是模擬人的神經(jīng)感知結(jié)構(gòu),尋找非線性情況下的一種最優(yōu)映射,由于所提取的特征與玉米類別之間存在著非常復(fù)雜的非線性映射關(guān)系,所以特別適合采用此方法進(jìn)行品種識別。由于神經(jīng)網(wǎng)絡(luò)的初始權(quán)值由系統(tǒng)隨機(jī)給出,所以往往帶來結(jié)果的不穩(wěn)定,通常的做法是多次測試取最優(yōu)實(shí)現(xiàn)。基于提取的特征數(shù)據(jù)即可進(jìn)行種子檢驗和品種識別,本研究涉及的神經(jīng)網(wǎng)絡(luò)模型包括7種,即BP、rbf、grnn、pnn、compet、sofm,以及一個BP(backpropagation)神經(jīng)網(wǎng)絡(luò)的改進(jìn)型,即極限學(xué)習(xí)機(jī)ELM。其中神經(jīng)網(wǎng)絡(luò)BP算法是最典型的神經(jīng)網(wǎng)絡(luò)分類方法。支持向量機(jī)(SVM)模型是近幾年發(fā)展起來的優(yōu)秀的識別模型,在農(nóng)作物種子識別領(lǐng)域已經(jīng)被證明比神經(jīng)網(wǎng)絡(luò)識別模型具有更為穩(wěn)健的性能。
2 結(jié)果與分析
圖2是6種神經(jīng)網(wǎng)絡(luò)識別模型的識別結(jié)果,圖3是BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)型極限學(xué)習(xí)機(jī)(ELM)與支持向量機(jī)(SVM)模型識別結(jié)果。表2為上述8種識別模型在不同主分量及不同特征下的識別效果。
2.1 不同模型的識別性能
比較6種神經(jīng)網(wǎng)絡(luò)識別模型可以發(fā)現(xiàn)(圖2、表2),首先從識別率上,基于60個原始統(tǒng)計特征,6種神經(jīng)網(wǎng)絡(luò)識別模型和1種改進(jìn)型識別模型的識別性能從高到低為grnn>ELM>pnn>rbf>BP>compet>sofm,決定系數(shù)R2從大到小為grnn>rbf>ELM>BP>pnn>compet>sofm,所耗時間上從少到多為ELM 鑒于極限學(xué)習(xí)機(jī)ELM是廣泛應(yīng)用的BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)型,且其識別效果優(yōu)越,將其作為神經(jīng)網(wǎng)絡(luò)模型的代表與支持向量機(jī)模型進(jìn)行比較。圖3列出了兩種模型的識別效果,部分?jǐn)?shù)據(jù)在表2中有所體現(xiàn),可以看出支持向量機(jī)(SVM)模型的識別效果較好,且效果更為穩(wěn)定。 2.2 特征優(yōu)化對模型的影響 由于分類性能嚴(yán)重依賴特征的選取,這就表明某種特征的組合可能具有更優(yōu)秀的分類能力,此時主分量是一個很好的選擇,它不僅可以進(jìn)行數(shù)據(jù)降維,還可以尋找對所有類都盡量適應(yīng)的優(yōu)化特征組合。表3列出了不同數(shù)目PCA情況下8種識別模型的識別性能。從表3可以看出,從識別率看,神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)極其不穩(wěn)定,識別率并不是隨著PCA數(shù)目的增加而增加,但總體上還是呈增加趨勢,這種不穩(wěn)定性與神經(jīng)網(wǎng)絡(luò)初始權(quán)值的隨機(jī)賦值有關(guān),同時由于神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元數(shù)目到目前為止缺乏理論指導(dǎo),所以只能通過經(jīng)驗給出,故要得到較為穩(wěn)定的結(jié)果可通過多次訓(xùn)練得到較為穩(wěn)定的識別模型為止:但比較來看,支持向量機(jī)模型表現(xiàn)出更為穩(wěn)定的識別效果,且隨著PCA數(shù)目的增加。識別模型的總體識別率呈上升趨勢。另外從模型的決定系數(shù)和識別模型的時間上來看,支持向量機(jī)模型都是較為優(yōu)秀的模型。其中決定系數(shù)R2越接近于1,識別的時間越短,說明模型越優(yōu)秀。在這些模型中compet表現(xiàn)的效果最差,不僅識別的效果最差。且識別的時間最長。 3 小結(jié)與討論 從本研究的識別結(jié)果看。識別結(jié)果非常不穩(wěn)定,這種不穩(wěn)定的結(jié)果與兩個因素有關(guān),一是神經(jīng)網(wǎng)絡(luò)的不穩(wěn)定,與確定神經(jīng)網(wǎng)絡(luò)初始權(quán)值時隨機(jī)給出有關(guān),二是采用的交叉驗證法是隨機(jī)給出,隨機(jī)將訓(xùn)練和測試樣本進(jìn)行分組,每次試驗選用了不同的訓(xùn)練集和測試集。 PCA是一種優(yōu)秀的特征優(yōu)化和數(shù)據(jù)降維方法,通過PCA降維可以在很大程度上提高運(yùn)算速度,減少計算量,特別適合在線監(jiān)測。另外從比較結(jié)果可以看出,支持向量機(jī)是一種優(yōu)秀的分類模型,特別適合于對小樣本進(jìn)行分類,其效果要優(yōu)于神經(jīng)網(wǎng)絡(luò)模型,且結(jié)果穩(wěn)定。支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)雖然都用來進(jìn)行品種識別,但所依據(jù)的理論基礎(chǔ)和識別機(jī)理均不相同。支持向量機(jī)普遍認(rèn)為其泛化能力要比人工神經(jīng)網(wǎng)絡(luò)強(qiáng):支持向量機(jī)模型理論基礎(chǔ)是結(jié)構(gòu)風(fēng)險最小化理論。也涉及模型參數(shù)優(yōu)化問題:另外支持向量機(jī)可以得到識別決策函數(shù)的解析表達(dá)式,而神經(jīng)網(wǎng)絡(luò)不能明確地得到一個解析解。 識別準(zhǔn)確率與執(zhí)行效率之間尋找一個平衡點(diǎn)是模型優(yōu)化的基本原則,執(zhí)行效率高、識別率高、泛化能力強(qiáng)的識別算法是將來工程應(yīng)用的基礎(chǔ),未來基于此類算法開發(fā)的品種識別App軟件可以安裝在智能手機(jī)上,農(nóng)民朋友在購買種子時,只需要給種子拍照片,就可以快速鑒別出所購買種子的類別與真?zhèn)?,這將有效避免假種子害農(nóng)事件的發(fā)生,對推進(jìn)種業(yè)及現(xiàn)代農(nóng)業(yè)發(fā)展具有積極意義。 種子的真實(shí)性是種子質(zhì)量檢驗的重要指標(biāo),基于實(shí)驗室采集的11個品種的玉米子粒圖像研究了6種神經(jīng)網(wǎng)絡(luò)模型、1種改進(jìn)模型與SVM共8種模型的識別性能,從識別率、決定系數(shù)和系統(tǒng)運(yùn)行時間3個角度對模型進(jìn)行了比較,研究發(fā)現(xiàn)SVM的識別性能優(yōu)于ANN,神經(jīng)網(wǎng)絡(luò)模型中g(shù)rnn及ELM表現(xiàn)出的性能優(yōu)異。另外還研究了基于PCA的特征優(yōu)化問題,特征的優(yōu)化在一定程度上能夠提高識別器的性能。本文的結(jié)論對玉米種子檢驗?zāi)P偷倪x擇具有借鑒意義。