高榮華,馮 璐*,張 月,原繼東,吳華瑞,顧靜秋
1.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心,北京 100097 2.國家農(nóng)業(yè)信息化工程技術(shù)研究中心,北京 100097 3.北京交通大學(xué)計算機與信息技術(shù)學(xué)院, 北京 100044
番茄灰霉病是一種低溫、高濕病害,是棚室番茄栽培的常見病害。該病繁殖速度快、遺傳變異大且適應(yīng)性強,在患病早期無法通過肉眼發(fā)現(xiàn),一旦進入發(fā)病期將擴散迅速,對保護地番茄生產(chǎn)威脅極大,已成為番茄設(shè)施栽培的主要限制因素。2020年5月,國務(wù)院頒布施行《農(nóng)作物病蟲害防治條例》,條例中指出監(jiān)測預(yù)警是做好農(nóng)作物病蟲害防控的前提和基礎(chǔ)[1]。雖然國內(nèi)外對番茄灰霉病的防治研究已取得了一定進展,但目前生產(chǎn)上仍缺乏該病害早期發(fā)現(xiàn)的有效途徑。實現(xiàn)對番茄灰霉病的早期檢測對我國作物病害防治具有十分重要意義。
隨著高光譜成像技術(shù)在作物病害識別中的深入應(yīng)用,對黃瓜[2]、小麥[3]、水稻[4]、馬鈴薯[5]和蘋果[6]等作物病害檢測獲得較高檢出率。高光譜具有唯一性特點,不同作物中葉綠素等生物量含量不同導(dǎo)致其光反射率不同,因此不同物質(zhì)中光譜曲線走勢和波峰波谷差異較大,該種特異性使得基于光譜特征作物病害識別成為可能。秦立峰[2]等提出融合病害差異信息改進的競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)和連續(xù)投影算法(successive projections algorithms, SPA),并運用二次降維尋優(yōu)得到的特征波段建立了黃瓜霜霉病早期檢測模型。針對番茄病害檢測,Sun[7]等利用基于小波變換和最小二乘支持向量機回歸(least square support vector machine regression, WT-LSSVR)的方法篩選最佳波長并建立檢測模型,證明了高光譜成像技術(shù)在不同鎘脅迫下測定番茄葉片重金屬含量的可靠性和有效性。賈方方[8]等利用去包絡(luò)線法(continuum removal)篩選對葉霉病發(fā)病程度識別的敏感波段,構(gòu)建基于光譜特征吸收參量的發(fā)病程度估測模型。上述研究基本思路均是首先對所獲取作物葉片高光譜圖像進行病斑或葉片分割并計算平均光譜曲線,后利用降維工具或相關(guān)光譜植被指數(shù)(spectral vegetation indices, SVI)對光譜特征波段篩選和提取[9],過濾不做分類貢獻的波段信息,最后基于提取的特征波段建立作物病害識別分類器。Xie[10]等對比了基于全波段和使用特征排序(feature ranking, FR)算法篩選的敏感波段分別建立的K-最近鄰(K nearest neighbor, KNN)模型對5級患病程度番茄灰霉病葉片的分類準確率,在測試集中,基于全波段KNN的總體分類結(jié)果為61.11%,F(xiàn)R-KNN模型為45.83%。由此可見,僅用個別波段光譜信息作為分類依據(jù),忽略了光譜曲線整體變化趨勢,篩選出不合格波段更易導(dǎo)致曲線信息片面化,尤其患病早期葉片與健康葉片光譜曲線差異不顯著,容易導(dǎo)致識別失誤,錯過病害早期最佳防治時間。
借鑒多維時間序列分類算法(multivariate time series classification, MTSC),以番茄灰霉病患病早期葉片光譜曲線為基礎(chǔ),從接病第3天(染病第1天)至完全發(fā)病連續(xù)采集圖像,根據(jù)圖像不同波段上反射率隨時間推移而產(chǎn)生的變化來監(jiān)測作物病害的發(fā)病情況,完整描述患病區(qū)域在不同波段下、不同發(fā)病時期光譜反射率變化趨勢,建立基于多維光譜序列(multi-dimensional spectral series, MDSS)的作物病害分類器,以實現(xiàn)對番茄灰霉病的早期檢測。
實驗采用盆栽培育番茄幼苗30株。儀器采用四川雙利合譜科技有限公司的GaiaField-V10內(nèi)置推掃式的便攜式高光譜成像儀,成像儀光譜范圍為400~1 000 nm,光譜分辨率為4 nm,選取360個光譜通道,單幅拍攝速度15 s,全幅圖像像素分辨率為960×1 101。為了確保采集的圖像清晰且不失真,經(jīng)預(yù)備實驗,確定曝光時間為7.5 ms,物距為50 cm,圖像采集速度為16 mm·s-1。
圖像采集方式如圖1所示,用支架固定高光譜相機,設(shè)置高光譜鏡頭背對太陽且斜向下30°與葉片垂直架設(shè),避免在采集過程中光譜儀吸收太陽光導(dǎo)致成像不準確。圖像采集時將番茄盆栽置于純色背景板前,以去除復(fù)雜背景的影響,同時在地面標定鏡頭與盆栽的相對位置以保證采集距離不變。從30盆番茄中選出生長狀態(tài)良好、葉片平展寬大的180片葉片作為序列采集對象,其中90片作為接病實驗組,90片為正常生長健康對照組。為了探究侵染灰霉病番茄葉片光譜信息隨時間推移而產(chǎn)生的變化,以接種灰霉病菌第3天(染病第1天)作為番茄高光譜序列圖像采集的開端,對選定的葉片以固定姿勢和角度連續(xù)采集7 d。
圖1 番茄葉片高光譜圖像采集示意圖
由于每天需采集180張葉片,拍攝過程持續(xù)時間較長,為消除光照強度對高光譜圖像成像影響,盡量選取上下午光照強度相同時間段采集。此外,在光照強度較弱時間段的采集過程中采用補光燈對番茄盆栽進行補光,并根據(jù)環(huán)境條件變化,對應(yīng)采集全白與全黑標定圖像,用作計算不同光照情況下番茄葉片的光譜反射率值。經(jīng)過對30盆番茄盆栽連續(xù)采集,共采集了180片葉片360個光譜波段上的7天連續(xù)數(shù)據(jù)。經(jīng)過預(yù)處理剔除模糊、過曝等不合格實例后,剩余171個葉片(實驗組86個,對照組85個)進行光譜信息分析試驗。
首先對番茄葉片圖像進行鏡頭積分球矯正,消減光照影響,再分別提取葉片病斑部分、健康部分和整片葉子感興趣區(qū)域,獲得對比光譜反射率曲線如圖2所示。圖2(a)展示了染病第6天番茄葉片狀態(tài),可明顯看出染病區(qū)域呈深褐色,圖2(b)表示三個不同感興趣區(qū)域選取,橙色為整片葉片,綠色為健康區(qū)域,紅色為病斑區(qū)域,對三個區(qū)域光譜反射率做平均處理得到圖2(c)??芍疾^(qū)域平均光譜與健康區(qū)域有較大差別,整片葉片光譜曲線受病斑區(qū)域影響與健康葉片曲線有輕微差異,隨著時間延長,該差異逐漸增大,如圖2(d)所示,由此可從整片葉片光譜曲線隨時間延長而產(chǎn)生的變化來判斷該葉片患病情況。
圖2 接病不同感興趣區(qū)域平均光譜反射率比較
作物在染病初期,如圖3所示,由于無法用肉眼識別患病區(qū)域,對171片葉片進行整片光譜信息提取。其中部分葉片在不同觀察日存在葉片卷曲、脫落等問題,為保證多維序列樣本完整性,刪除數(shù)據(jù)維度小于7 d的樣本,共得到156個可供實驗樣本數(shù)據(jù),其中(83×7)組患病實驗組葉片,(73×7)組對照組葉片,全部接病葉片與健康葉片在連續(xù)7天的觀測下得到的光譜信息如圖4所示。可以看出,隨著接病天數(shù)的增加,葉片的平穩(wěn)反射率在波長750~1 000 nm區(qū)間內(nèi)越來越接近1,該變化為病葉判斷提供可能。以番茄葉片高光譜圖像的360個通道波長作為序列長度,將156組試驗樣本按照近似65∶35比例劃分為100組訓(xùn)練數(shù)據(jù)和56組測試數(shù)據(jù)進行光譜圖像分析。
圖3 番茄灰霉病染病第1天葉片的RGB圖像
圖4 連續(xù)7天觀測下的全部樣本光譜反射率變化情況
在探究作物病害的高光譜數(shù)據(jù)中,光譜序列指一個目標區(qū)域在相同波長間隔上連續(xù)取反射率值生成的一組數(shù)據(jù)。以一維光譜序列為基礎(chǔ),多維光譜序列涵蓋多個觀測時間維度,在執(zhí)行分類任務(wù)時,不僅需要考慮每個維度內(nèi)部的時序特征,也需要考慮多個維度之間的關(guān)聯(lián)特征。多維光譜序列與病害分類的數(shù)學(xué)形式表達如下
1.3.1 一維光譜序列
由n個有序的觀測值ri|1≤i≤n組成的序列R={r1,r2, …,rn}被稱為長度為n的一維光譜序列,n=360。
1.3.2 多維光譜序列
由d個一維光譜序列組成的序列集合M={R1,R2, …,Rd}被稱為維度為d的多維光譜序列,每個維度序列的長度均為n,d∈{2, 3, 4, 5, 6, 7}。多維光譜序列M中第i維序列的第j個觀測值用ri, j表示。
1.3.3 基于多維光譜序列病害分類
給定包含m個實例的訓(xùn)練集S={M1,M2, …,Mm},其中每個實例M都是一個長度為n維度為d的多維光譜序列,m=100。訓(xùn)練集中的實例都屬于C個類別之一,C∈{患病,健康}。多維光譜序列分類的目標是在訓(xùn)練集S中學(xué)習(xí)多維光譜序列觀測值到所屬類別的映射,即葉片是否患病。
1.3.4 光譜子序列
給定一個長度為n的光譜序列T,從第i個觀測值起,截取w個連續(xù)觀測值組成的新序列{ti,ti+1, …,ti+w-1}被稱為光譜序列T的子序列,其中1≤i≤n-w+1。
本試驗數(shù)據(jù)共有7個特征維度,分別對應(yīng)番茄葉片染病灰霉病菌的第1天至第7天,為了實現(xiàn)番茄灰霉病病害的早期檢測,分別制作包含2~7個特征維度的光譜序列數(shù)據(jù)。例如特征維度為3時,156組實驗樣本只包含實驗葉片染病第1天至染病第3天和相同觀測日期的對照葉片數(shù)據(jù),其他維度同理。
1.3.5 多維關(guān)聯(lián)光譜序列
維度隨機選擇,即在構(gòu)建每棵決策樹時隨機選擇D維光譜序列中的d個維度,D=7,生成初始光譜序列,從而降低計算復(fù)雜度,同時增加決策樹之間的差異性。
為了提取初始光譜序列中各個維度之間的關(guān)聯(lián)特征,計算初始序列中任意兩條序列之間對應(yīng)屬性點的差值,生成與初始序列長度相同的關(guān)聯(lián)光譜序列,初始序列TA與TB之間的關(guān)聯(lián)序列TI的計算公式如式(1)
TI[i]=TA[i]-TB[i], 0≤i (1) 初始序列維度為d時,轉(zhuǎn)換后的關(guān)聯(lián)序列維度為d′=d(d-1)/2。圖5(a,b)分別展示了d=3時初始序列轉(zhuǎn)換為關(guān)聯(lián)序列的過程。建模時,在平衡樣本維度與計算開銷情況下,序列維度d取值為4,即樣本維度≥4時,隨機選取其中4維參與決策樹的構(gòu)建,樣本維度<4時則用原維度。 圖5 初始序列(a)與關(guān)聯(lián)序列(b) 建立分類器時,直接采用光譜序列整體的相似性進行分類的方法時間復(fù)雜度較高,因此為減小模型復(fù)雜度,提取代表光譜序列局部辨別性的特征進行分類以縮減模型運算規(guī)模。SAX-VSM算法(the symbolic aggregate approximation-vector space model)采用符號聚合近似估計(symbolic aggregate approximation, SAX)技術(shù)將時間序列轉(zhuǎn)換到時域空間,生成單詞特征;BOSS(the bag of SFA symbols)算法采用符號傅里葉近似(symbolic Fourier approximation, SFA)技術(shù)將時間序列轉(zhuǎn)換為頻域空間的單詞特征集合。該兩種符號化方法允許在離散后的符號表示上定義距離,運行機器學(xué)習(xí)算法,同時產(chǎn)生與對原始數(shù)據(jù)進行操作的算法相同的結(jié)果。該性質(zhì)使得該兩種方法在降維的同時還能夠保留原始序列的大體形狀,因此在各類時間序列任務(wù)中被廣泛應(yīng)用。 1.4.1 光譜序列符號化 給定一個長度為n的光譜序列T,利用光譜序列符號化技術(shù)將序列T或其子序列轉(zhuǎn)換為離散符號組成的字符串,這個過程被稱為光譜序列符號化。 1.4.2 SAX方法符號化光譜序列 給定長度為w的光譜序列或其子序列T、字母表大小a、單詞長度l,將序列分為等長的l個子序列,分別計算每個子序列中各個點的平均值,基于高斯分布將平均值劃分為a個區(qū)域,每個區(qū)域?qū)?yīng)一個字符,將平均值序列離散化為對應(yīng)字符,得到序列T對應(yīng)的字符串,這個過程就是SAX方法。圖6展示了采用SAX方法將長度為112的序列轉(zhuǎn)換為長度為7的字符串的過程。 1.4.3 SFA方法符號化光譜序列 SFA方法與SAX方法類似,區(qū)別在于SFA方法不計算序列的平均值,而是對序列進行傅里葉變換后將傅里葉系數(shù)離散處理,為每個系數(shù)計算合適的離散化分割點。圖7展示了采用SFA方法將長度為64的序列轉(zhuǎn)換為長度為4的字符串的過程。 圖7 符號傅里葉近似(SFA)方法 隨機森林能較好地學(xué)習(xí)多個特征維度之間的潛在關(guān)系,且復(fù)雜度較低、抗干擾能力強,因此常被用來處理高維度數(shù)據(jù)。例如時間序列森林(time series forest, TSF)算法采用時間序列的間隔特征作為決策樹的節(jié)點,構(gòu)建隨機森林進行分類。但這類算法只能提取到一條時間序列上的辨別性特征,未考慮到多個維度之間相關(guān)性。因此結(jié)合作物光譜曲線連續(xù)性,本工作選擇使用一種用于多維時間序列分類的隨機森林算法作為識別作物病害的分類器。在構(gòu)建隨機森林中的每棵決策樹時,首先隨機選擇多維光譜序列中的d條維度作為初始序列,以增加決策樹之間的差異性并降低時間復(fù)雜度;然后將初始序列轉(zhuǎn)換為與原序列長度相等的關(guān)聯(lián)光譜序列,從而提取光譜序列中多個維度之間的關(guān)聯(lián)特征。通過SAX方法和SFA方法,提取初始序列與關(guān)聯(lián)序列的時域與頻域特征。將轉(zhuǎn)換后的光譜序列特征集合作為決策樹的輸入。在每個結(jié)點為每個類別選擇代表特征,以待預(yù)測光譜序列特征與代表特征之間的相似性作為決策樹的分支依據(jù)。在獨立構(gòu)造每棵樹之后,計算每棵樹的權(quán)重以進行加權(quán)分類,實現(xiàn)番茄灰霉病識別的目標。 1.5.1 隨機森林模型構(gòu)建 借鑒鄰近森林[11]的思想,按照待分類實例與每個結(jié)點的代表實例之間的相似度進行結(jié)點分割。首先在決策樹的每個結(jié)點中隨機選擇多個代表不同類別的光譜序列字典特征實例,然后計算當前結(jié)點的數(shù)據(jù)集中各個實例與各個代表實例的余弦相似度,將與某一代表實例最相似的實例劃分到該代表實例所屬的結(jié)點分支。不斷重復(fù)這個劃分過程,直到某一結(jié)點中的全部實例都屬于同一個類標,則將這一結(jié)點作為葉子結(jié)點。算法1展現(xiàn)了決策樹的具體構(gòu)建過程,重復(fù)這一過程構(gòu)建多顆決策樹生成隨機森林。 算法1 決策樹構(gòu)建算法buildMTSTree(S) 輸入:符號化的多維光譜序列數(shù)據(jù)集S 輸出:決策樹根結(jié)點T 01.IF S中的實例都屬于同一個類 02.將該結(jié)點設(shè)為葉子結(jié)點,結(jié)點類標為S中任一實例的類標 03.END IF 04.創(chuàng)建結(jié)點T與實例集合數(shù)組E[] 05.FOR 0≤i 06.E[i]=Random(Si),Si為數(shù)據(jù)集S中類標為i的實例集合 07.END FOR 08.FORe∈E 09.將與實例e距離最近的實例放入集合Se中 10.t=buildMTSTree(Se) 11.Se={s∈S|argmindist(s,e)}在當前樹結(jié)點T中添加分支(e,t) 12.END FOR 13.RETURN T 1.5.2 加權(quán)分類過程 傳統(tǒng)的隨機森林算法采用多數(shù)投票法決定分類結(jié)果,這種方法操作簡單,但在一定程度上忽略了決策樹之間的差異。所采用的加權(quán)方式,根據(jù)每棵決策樹的結(jié)構(gòu),計算其權(quán)重,可以反映出當前決策樹隨機選擇的維度、特征提取等是否適合當前數(shù)據(jù)集,從而提高分類準確率。 決策樹的原理可以理解為通過某些特征選擇方式,將訓(xùn)練數(shù)據(jù)集劃分為幾個部分,使得劃分后的數(shù)據(jù)子集相比與劃分之前,具有更高的純度,即劃分后的數(shù)據(jù)子集中各示例所屬的類別不確定性更小。因此在度量決策樹的權(quán)重時,可以通過度量決策樹中每個結(jié)點劃分前后數(shù)據(jù)集的純度來實現(xiàn)。本文選擇了計算方式較為簡單的基尼指數(shù)?;嶂笖?shù)也被稱為基尼不純度,表示在實例集合中任意一個實例在分類時被分到錯誤類標的概率,基尼指數(shù)的數(shù)值越小說明實例集合中實例分類錯誤的概率越小,即實例集合的純度越高。其計算公式如式(2) (2) 式(2)中,pk表示任意一個實例的類標為k的概率,K為實例集合中所有存在的類標數(shù)。 每個決策樹的結(jié)點包含多個分支,因此計算結(jié)點權(quán)重時需要分別計算每個分支的基尼指數(shù)。然后將每個分支的基尼指數(shù)乘以每個分支的數(shù)據(jù)子集占結(jié)點總數(shù)據(jù)集的比例[式(3)],累加起來得到結(jié)點的權(quán)重[式(4)]。將決策樹中所有結(jié)點的權(quán)重加起來,作為整棵決策樹的權(quán)重。這時決策樹的權(quán)重數(shù)值越小,說明這棵決策樹的總體劃分效果越好,在隨機森林中占的投票權(quán)重應(yīng)該越高,因此采用歸一化指數(shù)函數(shù)[式(5)]處理得到的權(quán)重值。權(quán)重的計算公式如式(3)—式(5) (3) (4) (5) 式中,wt為最終得到的決策樹權(quán)重,p為決策樹的結(jié)點數(shù),n為當前結(jié)點的分支數(shù)。 在分類階段,對于單棵決策樹,待分類實例首先按照當前決策樹的符號化方式將多維光譜序列轉(zhuǎn)換為局部辨別性字典特征,然后從決策樹的根結(jié)點開始,選擇與待分類實例最接近的代表實例所屬的分支,重復(fù)此過程直到到達葉子結(jié)點,將葉子結(jié)點類別作為待分類實例的類別。最后,通過加權(quán)投票得到最后的分類結(jié)果,實現(xiàn)基于光譜序列的番茄灰霉病識別。 未接種番茄灰霉病毒的植株在整個試驗期間保持健康,接種后的植株沒有癥狀的情況下,經(jīng)過一段潛伏期后出現(xiàn)典型癥狀?;颐共〉陌l(fā)病癥狀隨著接種后病菌培育時間延長逐漸顯著,染病4 d后,葉片染病從葉尖或葉緣開始,發(fā)生不定形的濕潤狀、灰褐色病斑。染病6 d后,小病斑逐漸發(fā)展成濕腐,并長出一層鼠灰色茸毛狀的霉層,此為病菌的分生孢子梗和分生孢子。按照可見光條件下的病程發(fā)展,染病1~4 d劃分為肉眼不可見,染病5~7 d分別劃分為肉眼可見顏色變化、肉眼可見小病斑、肉眼可見明顯病斑。 對比健康葉片與染病葉片的光譜曲線(圖8),染病葉片的光譜曲線在550~700和800~1 000 nm兩個區(qū)間內(nèi)均與健康葉片呈現(xiàn)不同特點與差異,該差異不僅體現(xiàn)在單一波段上,更體現(xiàn)在曲線整體的變化趨勢上。在550~700 nm波段區(qū)間內(nèi),染病葉片的光譜反射率之間不密集[如圖8(a,b)],呈現(xiàn)分散的特點,而健康葉片的較為緊湊,如圖8(c,d)。在800~1 000 nm波段區(qū)間內(nèi),染病葉片光譜曲線趨勢形成帶有正斜率向上延伸的曲線,健康葉片呈水平波動或略有抬升的走向特點。該差異特點為基于光譜曲線整體變化趨勢特征的早期灰霉病識別提供了基本條件。 圖8 染病葉片與健康葉片連續(xù)7天觀測下光譜曲線變化 為驗證模型從樣本中識別出染病葉片的能力,將健康葉片樣本作為正例,7個不同染病階段的樣本葉片分別作為反例,建立基于單維光譜原始序列的早期番茄灰霉病檢測模型。模型的參數(shù)選擇如表1所示。根據(jù)預(yù)實驗結(jié)果,在符號化算法SAX和SFA的字典特征提取中,字母表大小a的取值范圍為3~5,單詞長度l的取值范圍為3~6,滑動窗口大小w的取值范圍為光譜序列長度的20%~60%,且以減少隨機波動干擾增強魯棒性為目的,以上3個參數(shù)的數(shù)值隨機選擇參與序列符號化的構(gòu)建。 表1 符號化方法與隨機森林模型構(gòu)建的參數(shù) 圖9 基于單維光譜序列模型的識別結(jié)果 基于單維原始光譜序列的番茄灰霉病檢測模型的分類準確率隨著疾病嚴重程度的增加先增加后降低。在肉眼可見染病葉片明顯顏色變化前(染病1~4 d),分類準確率在三種符號化方法中均先呈上升趨勢,并且在染病第4天達到頂峰,識別準確率最高97%。然而隨著染病程度加深,基于單維原始光譜序列的模型識別效果出現(xiàn)回落,染病第5天和第7天落回到90%附近,染病第6天的識別率降到最低,僅有83.8%。分析此現(xiàn)象的原因是染病5~7 d的葉片光譜曲線產(chǎn)生隨機波動[1],模型識別準確率受到影響,因此基于單維光譜序列的分類器無法作為番茄灰霉病害的早期檢測模型。 為解決染病嚴重時模型識別準確率偏低的問題,從染病第1天開始,將單維光譜序列依照染病進程順序,分別組合成1~7個特征序列的多維度數(shù)據(jù),離散成局部辨別特征后,基于該特征建立分類模型,以此實現(xiàn)番茄灰霉病早期檢測,模型參數(shù)與表1設(shè)置相同。結(jié)果如圖10(a,b,c)所示,基于多維光譜序列模型在測試集上的識別準確率逐步上升,對染病2天到染病7天后發(fā)病嚴重等6個階段的識別均超過90%,相較于基于單維光譜原始序列的模型均有提高。在5維序列時達到最高識別率99%,并且在維度6和7中未發(fā)生過度回落,準確率依然保持在98%左右,表明基于多維光譜序列特征能有效避免光譜干擾性波動造成的識別效果不穩(wěn)定的情況。 圖10 基于多維光譜序列模型的識別結(jié)果 對模型的三種符號化方法進一步分析,基于原始光譜序列的分類器檢出率整體優(yōu)于基于關(guān)聯(lián)序列和組合序列的分類器;基于關(guān)聯(lián)光譜序列的模型檢測效果在三種序列表達中的表現(xiàn)最差,整體準確率不高于80%;基于組合光譜序列的模型識別準確率介于其他兩種序列表達方法之間,分布于86.5%~94.9%。隨著序列維度的增加,基于關(guān)聯(lián)序列的識別模型識別效果隨時間維度增加提升較大,最大增幅37.7%,并均在維度為7時達到最高點。說明維度特征對關(guān)聯(lián)序列表達尤為重要,葉片光譜特征信息越豐富,關(guān)聯(lián)光譜信息越能表達番茄灰霉病的健康信息與患病信息。然而,在低維度光譜序列中,原始序列則能最大程度保留番茄灰霉病的光譜特征并有效表達,在穩(wěn)定性和識別準確率中均優(yōu)于其他兩種序列表達方式。 對比基于多維光譜序列和單維光譜序列在最優(yōu)符號化方式下模型的準確率(圖11),在光譜維度為2~3時,SDSS-SAX-SFA-WRF模型檢測效果略優(yōu)于MDSS-SAX-SFA-WRF模型,差異基本控制在1.5%以內(nèi)。然而,在光譜維度為4(染病第4天)后,MDSS-SAX-SFA-WRF番茄灰霉病早期檢測模型則相較SDSS-SAX-SFA-WRF模型一直保持優(yōu)勢,維持不低于98%的識別準確率,走勢較平穩(wěn)。即使在染病第1天,MDSS-SAX-SFA-WRF模型同樣達到87.4%的檢測準確率,將作物病害的檢測時間大大提前。隨著觀測維度增加,MDSS-SAX-SFA-WRF模型的識別準確率每日增幅3%,直至染病第5天(肉眼可見顏色變化)達到最高。然而即使在該階段和維度6~7 d時,植保人員依然無法僅憑肉眼通過病葉表面顏色的變化對植株所患疾病確診,仍需待病情進一步發(fā)展或從植株中摘取葉片進行化學(xué)鑒定,因此在該階段,作物病害檢測模型的準確識別依然發(fā)揮重要作用。 圖11 基于多維與單維原始光譜序列識別準確率對比 借鑒多維時間序列的思想,將多個觀測日的光譜曲線累積形成多維光譜序列,為減小模型計算量,采用符號化方法提取光譜序列的局部辨別特征,并且依據(jù)該累積局部辨別特征建立加權(quán)隨機森林模型MDSS-SAX-SFA-WRF,學(xué)習(xí)健康葉片與染病葉片在不同觀測維度間的差異信息表達,實現(xiàn)番茄灰霉病的早期檢測,同時在數(shù)據(jù)維度逐漸增加情況下,能夠在吸收新維度特征的同時最大化保存之前觀測維度的辨別特征,并將新舊特征有效結(jié)合形成累積辨別特征,將所觀測到多維度的光譜曲線特征融合確保模型識別的精準度。1.4 光譜序列符號化表達
1.5 加權(quán)隨機森林模型構(gòu)建
2 結(jié)果與討論
2.1 番茄灰霉病病程發(fā)展
2.2 基于單維光譜原始序列的早期檢測模型(SDSS-SAX-SFA-WRF)
2.3 基于多維光譜序列的早期檢測模型(MDSS-SAX-SFA-WRF)
2.4 MDSS-SAX-SFA-WRF與SDSS-SAX-SFA-WRF模型檢測效果比較
3 結(jié) 論