楊冬風(fēng), 李愛傳, 劉金明, 陳爭光, 時(shí) 闖, 胡 軍
1.黑龍江八一農(nóng)墾大學(xué)信息與電氣工程學(xué)院, 黑龍江 大慶 163319 2.黑龍江八一農(nóng)墾大學(xué)工程學(xué)院, 黑龍江 大慶 163319
種子活力是指種子的潛在發(fā)芽能力或者種胚所具有的生命力,是預(yù)期種子具有長成正常幼苗的潛在能力。種子活力水平測定在育種、種子生產(chǎn)、種子加工、種子收購、種子貯藏、種子檢驗(yàn)及種子調(diào)運(yùn)等環(huán)節(jié)中是不可缺少的重要方法[1]。國際種子檢驗(yàn)協(xié)會(huì)規(guī)定的常規(guī)種子活力測定方法主要有標(biāo)準(zhǔn)發(fā)芽試驗(yàn)、四唑染色試驗(yàn)、離體胚測定法、電導(dǎo)率測定法等。上述方法不僅檢測周期長、操作步驟復(fù)雜,而且都是有損檢測。
近紅外光譜(near infrared spectroscopy,NIRS)涵蓋了有機(jī)分子的倍頻與合頻的吸收光譜,能夠反映分子的結(jié)構(gòu)、組成和狀態(tài)信息。隨著NIRS技術(shù)在農(nóng)業(yè)領(lǐng)域研究的不斷深入,NIRS技術(shù)也開始在種子活力無損檢測中嶄露頭角。Maythem等[2]采用偏最小二乘(partial least squares,PLS)建立大豆種子活力的等級(jí)預(yù)測模型,對(duì)于兩種等級(jí)(高、低)活力的預(yù)測準(zhǔn)確率在85.7%~89.7%之間,對(duì)三種等級(jí)(高、中、低)活力預(yù)測時(shí),不能正確區(qū)分高活力和中等活力種子。He等[3]采用極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)模型對(duì)三種不同年份的水稻種子進(jìn)行鑒別,鑒別精度較高;采用連續(xù)投影算法(successive projection algorithm, SPA)結(jié)合支持向量機(jī)(support vector machine,SVM)從不同年份的可存活種子中鑒定出不可存活的種子,其分類準(zhǔn)確率達(dá)94.38%。李武等[4]利用前向間隔偏最小二乘(forward interval partial least squares,F(xiàn)iPLS)、競爭自適應(yīng)重加權(quán)(competitive adaptive reweighted sampling,CARS)、無信息變量消除(uninformative variable elimination,UVE)等變量篩選方法對(duì)甜玉米種子的近紅外光譜進(jìn)行特征波長區(qū)域選擇,采用PLS建立發(fā)芽率、發(fā)芽指數(shù)和活力指數(shù)的預(yù)測模型,取得了較好的預(yù)測效果。金文玲等[5]利用主成分分析(principal component analysis,PCA)結(jié)合PLS建立帶稃殼水稻種子的近紅外超連續(xù)激光光譜的預(yù)測模型,對(duì)3種不同年份的水稻種子進(jìn)行分類,訓(xùn)練集和預(yù)測集的準(zhǔn)確率分別為94.44%和95.92%。
從以上研究中可以看出,NIRS技術(shù)在種子活力檢測方面是有效的,可以對(duì)3種活力等級(jí)的種子進(jìn)行較為準(zhǔn)確的區(qū)分。采用的建模方法主要是適合于線性預(yù)測的PLS和適合于小樣本分類的SVM,而適合于非線性大樣本建模的BP神經(jīng)網(wǎng)絡(luò)用的不多。從目前的文獻(xiàn)來看,種子活力檢測所采用的特征波長優(yōu)選方法只有少數(shù)的幾種常規(guī)算法,譬如SPA,CARS以及UVE等,或幾種方法的簡單組合。以上兩點(diǎn)使得目前的種子活力檢測陷于等級(jí)少(3個(gè)等級(jí)以下)、檢測精度不夠高的狀況。
在NIRS分析領(lǐng)域,特征波長優(yōu)選和預(yù)測方法的確定始終是決定模型優(yōu)劣的關(guān)鍵。針對(duì)不同研究對(duì)象,學(xué)者們采用不同的波長選擇方法[6-8]、多種選擇方法組合[9-11]、改進(jìn)的選擇方法[12-13]以及不同的預(yù)測方法[14-17]以增強(qiáng)模型的魯棒性和準(zhǔn)確性。為了構(gòu)建多等級(jí)、高精度的種子活力檢測模型,首先對(duì)SPA算法加以改進(jìn)得到自適應(yīng)SPA(SPAsa),然后對(duì)在BP神經(jīng)網(wǎng)絡(luò)中評(píng)價(jià)輸入變量對(duì)結(jié)果影響較為有效的指標(biāo)—平均影響值(mean impact value, MIV)加以優(yōu)化得到MIVopt方法,將MIVopt與SPAsa算法進(jìn)行耦合,建立既適合線性模型又適合非線性模型的特征波長提取方法MIVopt-SPAsa。然后建立全譜、MIV、SPAsa、MIVopt-SPAsa和CARS的BP預(yù)測模型并比較模型的預(yù)測精度和效率,以證明MIVopt-SPAsa算法優(yōu)化近紅外種子活力檢測模型的有效性。
SPA算法[18]是一種基于變量信息的變量降維技術(shù),它利用向量的投影分析來尋找含有最低冗余信息的變量組合,能夠有效地消除光譜波長共線性、奇異性和不穩(wěn)定性的影響,使向量間的共線性達(dá)到最小,減少建模所用變量的個(gè)數(shù),降低模型復(fù)雜度。對(duì)于光譜矩陣Xn×m(n為樣本數(shù),m為光譜變量數(shù)),首先設(shè)定待選特征變量個(gè)數(shù)H,然后執(zhí)行以下步驟:
(1)初始迭代t=1時(shí),在光譜矩陣中任選一列向量xj,記為xk(0),k(0)為所選變量的最初位置(j=k(0),1≤j≤m),則其他剩余變量位置的集合定義為s
s={j,1≤j≤m,j?{k(0),…,k(H-1)}}
(1)
(2)計(jì)算剩余列向量xj(j∈s)在所選向量xk(t-1)構(gòu)成的正交向量空間中的投影
(2)
xj=Pxj
(3)
其中,I為單位矩陣;P為投影算子。
(3)提取最大投影值變量arg[max(‖Pxj‖)],j∈s,加入所選變量集。
(4)t=t+1,如果t 當(dāng)循環(huán)終止時(shí),得到的變量集合{xk(0),xk(1),…,xk(H)}就是選取的特征波長集合。因?yàn)榈牡谝粋€(gè)變量xk(0)是隨機(jī)選取的,因此令光譜中的每個(gè)波長都作一次初始變量,進(jìn)行上述迭代,每次迭代選取H個(gè)變量,即可得到n×H維矩陣X={X1,X2,…,Xn}T,此矩陣為基于n個(gè)初始變量的迭代所選取的n個(gè)候選變量集。然后對(duì)每個(gè)變量集進(jìn)行PLS交叉驗(yàn)證,得到交叉驗(yàn)證均方根誤差RMSECVj(1≤j≤n),取最小的RMSECV所對(duì)應(yīng)的k(0)和所選出的變量組合,即為最終篩選出的最優(yōu)組合。 SPA方法在特征波長選擇方面具有一定的優(yōu)勢,但存在兩方面的不足:一是候選變量個(gè)數(shù)的確定沒有標(biāo)準(zhǔn),H過小會(huì)造成所選變量不能包含光譜中的大部分關(guān)鍵信息,而由于變量之間的共線性,H又不能設(shè)置過大以至于超過獨(dú)立變量的個(gè)數(shù),因此需要尋找取得最優(yōu)H值的方法;二是將每一個(gè)光譜變量都作為初始變量進(jìn)行迭代,得到備選變量組合,之后要對(duì)每組變量進(jìn)行PLS交叉驗(yàn)證,當(dāng)光譜變量較多時(shí),算法的效率不高,需要尋找合適的降維方法,在SPA之前對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)降維。針對(duì)H確定的問題,采取的改進(jìn)方法如下: (1)令H在某個(gè)合理的范圍[M,N]內(nèi)變化,得到N-M組最小RMSECVi(1≤i≤N-M)和對(duì)應(yīng)的變量組合。 (2)從中選取最小RMSECVi所對(duì)應(yīng)的H以及變量組合。 這樣獲取的H值具有區(qū)域范圍的最優(yōu)性,稱之為自適應(yīng)(Self Adaption)SPA,簡稱SPAsa。 針對(duì)SPA預(yù)降維的問題,提出一種改進(jìn)的平均影響值(MIV)方法。MIV方法[19]最初由Dombi提出,用于表示神經(jīng)網(wǎng)絡(luò)中權(quán)重矩陣的變化,且可用于評(píng)估輸入變量對(duì)神經(jīng)網(wǎng)絡(luò)模型性能的影響,通常應(yīng)用于質(zhì)譜分析、生物醫(yī)學(xué)中[20-21]。本研究中的最終建模方法采用BP神經(jīng)網(wǎng)絡(luò),使用MIV方法可以精確給出波長變量對(duì)種子活力等級(jí)影響程度的排序,然后使用SPA方法從排序靠前的波長中進(jìn)一步進(jìn)行優(yōu)選,達(dá)到提高算法效率的目的。MIV的具體步驟如下,對(duì)于光譜矩陣Xn×m(n為樣本數(shù),m為光譜變量數(shù))有: (1)首先采用全譜BP建模,訓(xùn)練出預(yù)測準(zhǔn)確率超過90%的模型。 (4) (5) (5)對(duì)得到的平均影響值進(jìn)行排序。 MIV方法可以得到波長變量的平均影響值排序,但如何確定序列前多少個(gè)波長作為有效波長不同文獻(xiàn)的方法不一。李大虎等[22]采用相對(duì)貢獻(xiàn)率來表征某個(gè)因素的MIV值對(duì)于全部因素MIV總和的百分比。在其研究中,全部因素只有9個(gè),以相對(duì)貢獻(xiàn)率超過10%作為特征篩選的依據(jù)可以有效地實(shí)現(xiàn)BP神經(jīng)網(wǎng)絡(luò)輸入特征的篩選。但對(duì)于數(shù)目眾多的近紅外全譜數(shù)據(jù)來說,每個(gè)波長的相對(duì)貢獻(xiàn)率很小且相互之間的差異不大,以相對(duì)貢獻(xiàn)率作為篩選指標(biāo)不夠妥當(dāng)。因此,提出相對(duì)距離比δj作為選擇標(biāo)準(zhǔn) (6) 將優(yōu)化的MIV算法MIVopt對(duì)全譜BP模型進(jìn)行平均影響值排序及選擇,得到的光譜變量作為SPAsa算法的輸入,由此降低SPA算法的循環(huán)次數(shù),提高波長選擇的效率。耦合MIVopt-SPAsa算法是一種基于變量信息的波長選擇方法,在MIVopt階段,將非線性的BP模型預(yù)測用于平均影響值排序,剔除了非線性模型無關(guān)的波長變量;在SPAsa階段,使用相對(duì)全譜變量較少的波長變量,并采用線性的PLS作為交叉驗(yàn)證,剔除了與線性模型無關(guān)的波長變量,并進(jìn)行自適應(yīng)的篩選,得到最優(yōu)的波長變量組合。 實(shí)驗(yàn)用種子樣本購自大慶市薩爾圖薩中種子公司,為黑龍江省農(nóng)墾科學(xué)院作物所玉米育種研究室雜交培育的墾粘一號(hào)玉米品種。實(shí)驗(yàn)用儀器如圖1所示。(a)是近紅外光譜采集儀器,為德國Bruker公司Tango近紅外光譜儀,采用積分球漫反射測量方式,分辨率為8 cm-1,樣品和背景的掃描時(shí)間均為32 s,譜區(qū)范圍11 550~3 950 cm-1,每條光譜采集的數(shù)據(jù)點(diǎn)數(shù)為1 845個(gè);(b)是科文KW-TH型種子老化(恒溫恒濕)實(shí)驗(yàn)箱;(c)是上海菁華公司JA2003N高精度電子天平,精確到1 mg;(d)是近紅外光譜儀配套的IN312-SHD0型量杯。光譜分析及建模采用的軟件主要使用挪威CAMO公司的UnscrambX10.3和美國MathWorks公司的Matlab R2020。 圖1 近紅外光譜儀(a),老化實(shí)驗(yàn)箱(b),電子秤(c)和IN312-SHD0量杯(d) 種子在自然條件下的貯藏時(shí)間越長,種子的活力和生活力下降的越快。研究表明,人工加速老化與自然老化對(duì)種子內(nèi)部物質(zhì)含量及結(jié)構(gòu)的影響差異不大,且發(fā)芽情況相近。將種子置于干燥(濕度低于10%)、低溫(溫度10~20℃)的環(huán)境中保存?zhèn)溆?,?shí)驗(yàn)前對(duì)種子進(jìn)行篩選,清除干癟、瘦小、損傷以及腐壞的種子,選出健康、飽滿的種子總計(jì)5 000 g。Tango采集顆粒狀樣本時(shí),要求樣本的容量要達(dá)到量杯容量的2/3以上,以此確定每個(gè)樣本的種子質(zhì)量為(37.0±0.3)g,用高精度電子秤量出。將種子共分為5組(D0,D2,D4,D6,D8),D0組樣本15個(gè),不進(jìn)行老化處理;其余各組每組樣本13個(gè),進(jìn)行不同程度的老化處理,將樣本裝入尼龍袋中并編號(hào)。根據(jù)《國際種子檢驗(yàn)規(guī)程》中對(duì)玉米種子人工加速老化測定的規(guī)定,將樣本放入高溫高濕老化箱中,薄層平鋪于老化箱的網(wǎng)架上進(jìn)行老化,溫度設(shè)為41 ℃,相對(duì)濕度設(shè)為99%,5組樣本的老化時(shí)間分別為0,48,96,144和192 h。 使用積分球漫反射測量方式采集光譜數(shù)據(jù),為了擴(kuò)大樣本數(shù)目,將每個(gè)樣本重復(fù)裝樣3次(每次裝樣都要將樣本翻動(dòng)搖勻)測3條光譜取平均。所有樣本光譜采集的環(huán)境條件相同:溫度22 ℃,相對(duì)濕度30%。采樣點(diǎn)數(shù)為1 845個(gè),開始波數(shù)為11 542.16 cm-1,結(jié)束波數(shù)為3 926.249 cm-1,采樣間距為4.119 cm-1。 采集共得到402條光譜數(shù)據(jù),如圖2所示。可以看出,不同老化時(shí)間的樣本光譜的整體趨勢、波峰位置高度相似,屬于高相似度樣本分類問題。 圖2 402個(gè)玉米種子樣本光譜圖 測量的樣品光譜中除了包含樣品的真實(shí)信息還包括與儀器響應(yīng)、測試條件和光的散射等有關(guān)的背景信息[23],這些信息導(dǎo)致了光譜噪聲和基線漂移。因此,在建立種子活力檢測模型之前,進(jìn)行光譜預(yù)處理以削弱各種背景信息對(duì)真實(shí)光譜的影響、降低模型的復(fù)雜度并提高模型的穩(wěn)健性是十分必要的。在進(jìn)行預(yù)處理方法選擇時(shí),首先使用高斯濾波(guassian filter,GS)、卷積平滑(Savitzky-Golay,SG)平滑、多元散射校正(multiplicative scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate,SNV)方法及其組合對(duì)原始光譜進(jìn)行預(yù)處理,然后使用Kennard-Stone(KS)法將預(yù)處理后的光譜按3∶1劃分為訓(xùn)練集和預(yù)測集,最后建立全譜BP預(yù)測模型并根據(jù)模型性能確定種子活力分級(jí)所采用的預(yù)處理方法。 由表1可知,在光譜平滑處理時(shí),SG平滑消除隨機(jī)噪聲的效果較GS好,SNV消除樣品顆粒大小和表面散射光的影響優(yōu)于MSC,組合預(yù)處理方法SG-SNV的模型表現(xiàn)最優(yōu),訓(xùn)練集的準(zhǔn)確率達(dá)到92.53%,預(yù)測集的準(zhǔn)確率達(dá)到90.18%。組合預(yù)處理之后的光譜如圖3所示,與原始光譜相比減弱了噪聲干擾和光譜散射問題,吸收峰的位置更加清晰。在波長8 210,6 846,5 182,4 737和4 366 cm-1處有5個(gè)顯著的吸收峰。吸收峰在光譜的低頻部分更為頻繁,吸光度隨著波數(shù)的減少而增加。 表1 不同預(yù)處理方法的BP全譜模型建模結(jié)果 圖3 SG-SNV預(yù)處理之后的光譜曲線 首先利用經(jīng)典SPA對(duì)全譜數(shù)據(jù)進(jìn)行特征選擇,設(shè)置選擇變量數(shù)20個(gè),采用PLS交叉驗(yàn)證擇優(yōu),其中校正集樣本282個(gè),預(yù)測集樣本120個(gè)。 圖4顯示了SPA根據(jù)交叉驗(yàn)證均方根誤差(RMSECV)從1 845個(gè)變量中選出的20個(gè)波長變量的位置。從圖中可以看出,選中的波長集中在光譜第一個(gè)波峰附近,只有幾個(gè)波長分布在其他幾個(gè)吸收峰附近,這些特征波長所攜帶的信息量明顯缺失,此時(shí)的交叉驗(yàn)證誤差RMSECV為0.714 7,SPA波長選擇的時(shí)間為12.125 3 s。當(dāng)設(shè)置選擇變量數(shù)為26時(shí)的交叉驗(yàn)證誤差RMSECV為0.685 0,SPA波長選擇的時(shí)間為14.417 5 s;當(dāng)設(shè)置選擇變量數(shù)為35時(shí)的交叉驗(yàn)證誤差RMSECV為0.669 1,SPA波長選擇的時(shí)間為16.824 3 s。由此可見,設(shè)置不同的變量數(shù)得到的最小RMSECV是變化的,總的趨勢是隨著選擇變量數(shù)的增加而減小,但什么時(shí)候RMSECV達(dá)到最小,很難通過不系統(tǒng)的抽樣式的SPA選擇來確定。 圖4 設(shè)置20個(gè)選擇變量的SPA所選擇的變量 下面采用SPAsa進(jìn)行波長變量選擇,設(shè)定H的變化范圍為[1, 80],校正集和預(yù)測集樣本的設(shè)定保持不變,變量的選擇結(jié)果如圖5(a)所示,此時(shí)選中波長在各個(gè)吸收峰的附近都有分布,提取的信息比較均衡。在H變化過程中,以選擇的變量數(shù)為橫坐標(biāo),以RMSECV為縱坐標(biāo),繪制RMSECV隨變量數(shù)變化的趨勢圖,如圖5(b)所示。當(dāng)選擇變量數(shù)增加時(shí),RMSECV最小值是逐漸減小的,當(dāng)變量數(shù)達(dá)到47時(shí),RMSECV值達(dá)到最小0.6217;當(dāng)變量數(shù)繼續(xù)增加時(shí),RMSECV趨向于穩(wěn)定。當(dāng)變量數(shù)增加到接近80,繼續(xù)增加會(huì)引入與預(yù)測值無關(guān)的波長變量或具有較大噪聲的變量,此時(shí)RMSECV會(huì)急劇增加。 圖5 SPAsa特征波長選擇結(jié)果(a)和SPAsa波長選擇中RMSECV隨設(shè)定變量的個(gè)數(shù)的變化(b) 由于SPAsa需要在H的一定范圍內(nèi)反復(fù)進(jìn)行SPA操作,因此其運(yùn)算時(shí)間相當(dāng)于多次SPA的時(shí)間累加。當(dāng)光譜數(shù)據(jù)量較大時(shí),算法的運(yùn)行時(shí)間較長,因此對(duì)其進(jìn)行預(yù)降維十分必要。下面首先對(duì)11 542.16~3 926.249 cm-1范圍的光譜數(shù)據(jù)進(jìn)行MIV平均影響值計(jì)算,MIV影響值隨波長的分布如圖6所示。 由圖6可見,不同波長變量的MIV數(shù)值差異較大,為了去除與種子活力信息無關(guān)或相關(guān)性較小的波長,根據(jù)式(6)計(jì)算各個(gè)波長對(duì)應(yīng)的相對(duì)距離比,選取的波長變量作為SPAsa的備選光譜數(shù)據(jù)。為了找到最佳的D,建立選取的波長數(shù)、BP模型預(yù)測的準(zhǔn)確率隨D變化的關(guān)系,如圖7所示。 圖6 全譜數(shù)據(jù)的MIV值分布 圖7 MIVopt預(yù)降維 從圖7可以看出,D值的范圍從0.05開始逐漸增加,隨著D值增加,選擇的波長數(shù)逐漸減少,BP模型的預(yù)測準(zhǔn)確率開始時(shí)逐漸增大,而后逐步降低。當(dāng)D值在0.35附近時(shí),預(yù)測準(zhǔn)確率達(dá)到94.31%,當(dāng)D值取0.40時(shí),預(yù)測準(zhǔn)確率變?yōu)?4.28%。讓D值在[0.35,0.40]范圍內(nèi)以步長0.01變化,求得對(duì)應(yīng)的預(yù)測準(zhǔn)確率。當(dāng)D為0.37時(shí)達(dá)到預(yù)測準(zhǔn)確率最大值94.79%,此時(shí)選擇的變量數(shù)目為644個(gè)。以這644個(gè)變量作為SPAsa的備選光譜數(shù)據(jù),設(shè)定SPAsa的優(yōu)選變量個(gè)數(shù)小于75個(gè),校正集和預(yù)測集樣本數(shù)目保持282和120個(gè)不變,經(jīng)過SPAsa共篩選出變量37個(gè),此時(shí)PLS模型的RMSECV為0.504 9,運(yùn)算時(shí)間為14.357 s。 如圖8所示,篩選出的特征波長主要集中在7個(gè)波峰附近。在4 000~4 500 cm-1波段,以4 235為中心,左右分布著4 165和4 358等幾個(gè)特征波長,此波段為玉米脂肪C—H基團(tuán)的吸收峰。在4 600~5 500 cm-1波段,以5 000為中心,兩側(cè)各有一個(gè)波峰,分布著4 787,4 844,4 976,5 182和5 285等特征波長,此波段為玉米蛋白質(zhì)N—H基團(tuán)及淀粉O—H基團(tuán)的合頻吸收峰區(qū)。在5 500~7 500 cm-1波段,有兩個(gè)波峰,一個(gè)以5 620為中心,兩邊分布著5 615和5 903等特征波長;一個(gè)以6 719為中心,兩側(cè)分布著6 397,6 546,6 854和6 941等特征波長,此吸收峰是水份的倍頻吸收區(qū)。在8 000~9 000 cm-1波段,以8 333為中心,分布著7 971,8 045和8 910等特征波長,此波段為玉米淀粉甲基C—H基團(tuán)二級(jí)倍頻的吸收譜帶。在9 000~11 000 cm-1波段有一個(gè)波峰,以10 030為中心,兩側(cè)分布著9 437,9 787,10 200,10 360和10 510等特征波長,此波段是淀粉甲基C—H基團(tuán)三級(jí)倍頻及組合頻的吸收譜帶。 圖8 MIVopt-SPAsa篩選出的特征波長分布 由上述分析可知,MIVopt-SPAsa優(yōu)選得到的特征波長分布與玉米種子生化物質(zhì)構(gòu)成有著高度的一致性,具有明顯的物理意義,可以體現(xiàn)玉米老化過程中種子內(nèi)部物質(zhì)組成的變化;實(shí)現(xiàn)光譜數(shù)據(jù)的大幅度降維,是一種有效的基于變量信息的特征提取方法。 BP神經(jīng)網(wǎng)絡(luò)能學(xué)習(xí)和存貯大量的輸入-輸出模式映射關(guān)系,而無需揭示描述這種映射關(guān)系的數(shù)學(xué)方程。其學(xué)習(xí)規(guī)則為梯度下降法,通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小[24]。本研究采用三層的BP網(wǎng)絡(luò),隱層采用sigmoid激活函數(shù),輸出層采用softmax損失函數(shù),訓(xùn)練算法采用比例共軛梯度反向傳播算法。樣本集劃分方法采用KS法,訓(xùn)練集和預(yù)測集的比例為3∶1,將402個(gè)樣本數(shù)據(jù)劃分為訓(xùn)練集(282)、預(yù)測集(120),最大迭代次數(shù)設(shè)為1 000。 為了對(duì)比全譜、MIV、SPAsa、耦合MIVopt-SPAsa以及目前為許多學(xué)者青睞的CARS波長提取方法對(duì)模型性能的影響,建立了5個(gè)BP模型,F(xiàn)ull-BP、MIV-BP、SPAsa-BP和MIVopt-SPAsa-BP以及CARS-BP。待輸入的光譜數(shù)據(jù)均經(jīng)過SG-SNV預(yù)處理,模型的最佳隱層節(jié)點(diǎn)數(shù)根據(jù)經(jīng)驗(yàn)公式和數(shù)據(jù)實(shí)測綜合確定。所依據(jù)的經(jīng)驗(yàn)公式為 (7) 式(7)中,m為隱層節(jié)點(diǎn)數(shù);n為輸入層節(jié)點(diǎn)數(shù);l為輸出層節(jié)點(diǎn)數(shù),α為1~10之間的常數(shù)。 表征模型效率的評(píng)價(jià)指標(biāo)是運(yùn)算時(shí)間;表征模型精度的指標(biāo)有準(zhǔn)確率和交叉熵(cross-entropy, CE),每個(gè)模型都經(jīng)過50次訓(xùn)練,各個(gè)指標(biāo)取平均來表征模型最終性能,5種模型的性能對(duì)比如表2所示。 表2 5種模型的性能對(duì)比 從表2可以看出,全譜模型的總的運(yùn)算時(shí)間最少,其次是MIVopt-SPAsa-BP,效率最低的是SPAsa-BP。這是因?yàn)榫哂邢嗤斎胱兞康腟PAsa算法與BP的運(yùn)算時(shí)間相比要大得多,對(duì)于具有1 845個(gè)輸入的BP來說,其運(yùn)算時(shí)間一般是幾十毫秒,而SPAsa-BP一般要達(dá)到100 s左右,而具有1 845個(gè)輸入的MIVopt-SPAsa-BP的運(yùn)算時(shí)間一般是十幾秒。從模型的準(zhǔn)確性和穩(wěn)健性來看,MIVopt-SPAsa-BP模型的準(zhǔn)確率可達(dá)99%以上,最佳交叉熵為0.007 892遠(yuǎn)遠(yuǎn)小于另外4個(gè)模型。 以提高玉米種子活力等級(jí)預(yù)測模型性能為目標(biāo),從優(yōu)化特征波長提取的角度改進(jìn)BP模型,提出了耦合MIVopt-SPAsa特征波長提取算法。該算法綜合了MIV算法和SPA算法的優(yōu)點(diǎn),在MIV算法中引入相對(duì)距離比這個(gè)評(píng)價(jià)指標(biāo)為數(shù)據(jù)降維提供了有效的衡量標(biāo)準(zhǔn);在SPA算法中設(shè)定提取波長數(shù)量的范圍,在此范圍內(nèi)優(yōu)中選優(yōu),有效地解決了SPA算法特征波長數(shù)量確定的問題。由于在本質(zhì)上SPA算法是一種基于偏最小二乘模型的特征提取方法,而MIV算法是一種評(píng)估輸入變量對(duì)BP模型影響的算法,因此,耦合的MIVopt-SPAsa算法融入了線性和非線性預(yù)測模型的內(nèi)核,該算法對(duì)適合于線性模型和非線性模型預(yù)測的基于信息的特征波長提取兼收并蓄,提取出與玉米種子生化物質(zhì)NIRS吸收特性一致的特征波長分布,極大地提高了BP預(yù)測模型的精度和穩(wěn)健性,為基于信息的光譜數(shù)據(jù)特征波長提取提供了新思路。該算法需要進(jìn)一步改進(jìn)的地方是SPAsa的運(yùn)算效率不夠高,在建立算法數(shù)據(jù)結(jié)構(gòu)以及存取數(shù)據(jù)時(shí)進(jìn)一步優(yōu)化代碼量并降低運(yùn)算次數(shù)是解決該問題的關(guān)鍵。1.2 改進(jìn)的SPA算法(SPAsa)
1.3 優(yōu)化的MIV方法(MIVopt)
1.4 耦合MIVopt-SPAsa算法
2 實(shí)驗(yàn)部分
2.1 材料與儀器
2.2 玉米種子老化實(shí)驗(yàn)
2.3 光譜數(shù)據(jù)采集
3 結(jié)果與討論
3.1 光譜數(shù)據(jù)預(yù)處理
3.2 SPA特征波長選擇
3.3 SPAsa波長變量選擇
3.4 耦合MIVopt-SPAsa特征波長優(yōu)選
3.5 模型對(duì)比
4 結(jié) 論