桂江生, 何 杰, 傅霞萍
1. 浙江理工大學(xué)信息學(xué)院, 浙江 杭州 310018 2. 浙江理工大學(xué)機(jī)械與自動控制學(xué)院, 浙江 杭州 310018
大豆食心蟲成蟲的蟲卵會附著于大豆表面, 孵化的幼蟲會啃食大豆, 對大豆產(chǎn)量和品質(zhì)造成嚴(yán)重影響。 這種現(xiàn)象在我國各大豆產(chǎn)區(qū)普遍發(fā)生, 如發(fā)現(xiàn)和預(yù)防得不及時會使得大豆產(chǎn)量嚴(yán)重下降。
在大豆病害的檢測上, 人工可視化調(diào)查作為實(shí)踐中最基本的直接方法, 至今仍在使用。 然而, 這種方法需要相關(guān)植物表型和植物病理學(xué)的專業(yè)知識; 另一種常見的植物病害檢測技術(shù)可以稱為生物分子法, 但生物分子技術(shù)需要詳細(xì)的取樣和復(fù)雜的處理方法, 與人工調(diào)查方法相比, 這些方法更具專業(yè)性和周期性。 這兩種技術(shù)具有基本性、 有效性, 但總是需要手動去檢測, 導(dǎo)致復(fù)雜的工作和較大的勞動量[1]。
近年來, 深度學(xué)習(xí)技術(shù)在植物病害分類中的成功應(yīng)用, 為大豆病害的研究提供了新思路, 該技術(shù)通過將卷積網(wǎng)絡(luò)與高光譜結(jié)合, 能夠?qū)δ繕?biāo)進(jìn)行有效分類。 高光譜技術(shù)可視為光譜學(xué)的一部分, 它可以從多個光譜帶中獲取光譜信息, 一些有效波段對病害引起的大豆細(xì)微變化具有很高的敏感性, 從而可以區(qū)分不同的病害類型。 卷積網(wǎng)絡(luò)是一種特殊的深度學(xué)習(xí)技術(shù), 在圖像處理和提取特征方面具有突出的能力。
Ma等[2]對玫瑰蟲害進(jìn)行檢測, 在對光譜信息進(jìn)行分析后, 利用CNN模型提取特征, 達(dá)到了99%的準(zhǔn)確率。 Nguyen等[3]構(gòu)建了小型的健康葡萄樹和感染葡萄樹的數(shù)據(jù)集, 使用CNN進(jìn)行分類, 使用2DCNN 模型的準(zhǔn)確率為71%, 而使用3DCNN 模型的準(zhǔn)確率為75%; 在改進(jìn)之后, 準(zhǔn)確率達(dá)到了90%以上。 Yan等[4]使用高光譜成像系統(tǒng)(376~1 044 nm)采集感染的葉片樣本, 得到光譜圖像, 利用3DCNN識別棉花葉片中的蚜蟲感染, 達(dá)到了90%以上的準(zhǔn)確率。
深度學(xué)習(xí)的效果很好, 但是通常需要大量訓(xùn)練樣本, 在ImageNet上預(yù)訓(xùn)練的CNN被用于各種計(jì)算機(jī)視覺任務(wù), 并取得了巨大成功; 使用預(yù)訓(xùn)練的CNN模型, 大大減少了訓(xùn)練數(shù)據(jù)不足帶來的問題, 從中受到啟發(fā), 我們采用視頻檢索場景中的預(yù)訓(xùn)練模型3D-Resnet18進(jìn)行特征提取, 在視頻檢索中, 同一個視頻中的不同幀之間是存在聯(lián)系的, 這和高光譜圖像由不同波段組成是相似的, 它們之間的特征可以互補(bǔ)從而豐富這個視頻整體的特征[5]。
在使用3D CNN分類的過程中, 首先是利用網(wǎng)絡(luò)提取特征, 這種特征包含了分類所需的所有信息。 檢索的過程也是先對樣本進(jìn)行特征提取, 然后利用特征之間的距離關(guān)系進(jìn)行相似度排序。 不同的是, 為了獲得好的效果, 直接分類需要相對大量訓(xùn)練的樣本, 并且不能對新的類別進(jìn)行分類, 而檢索則可以有效利用訓(xùn)練樣本間的相似度, 使得新類別的測試圖像也能夠被分類。 利用相似關(guān)系進(jìn)行分類的還有小樣本學(xué)習(xí)分類, 但這種方法的效果較容易受到樣本的影響。
提出了一種新穎的基于圖像檢索的分類方法, 該方法利用樣本之間的相關(guān)性進(jìn)行檢索, 能夠?qū)π碌奈粗悇e進(jìn)行分類。 在對大豆高光譜圖像有效分類的同時, 解決了訓(xùn)練樣本少的問題, 為其他的分類研究提供了思路。
本實(shí)驗(yàn)是在文獻(xiàn)[6]的基礎(chǔ)上進(jìn)行改進(jìn), 除了方法以外, 采用的數(shù)據(jù), 成像系統(tǒng), 預(yù)處理方法與其相似。
測試集中所需要食心蟲大豆樣本由專業(yè)農(nóng)業(yè)機(jī)構(gòu)提供, 將20只成蟲放入大豆中使其于大豆上產(chǎn)卵, 5 d后采集附著蟲卵的大豆, 10 d后采集附著食心蟲幼蟲的大豆, 30 d后采集被啃食的大豆。 分別對正常的大豆以及上述三種大豆拍攝高光譜圖像, 每類樣本數(shù)量為20。
由SpectraVIEW軟件進(jìn)行圖像采集, 高光譜成像系統(tǒng)的組成部分有電控平移臺, 型號為Imperx IPX-2M30的高光譜成像儀, 4盞功率為150 W的鹵素?zé)簦?CCD相機(jī), 一臺計(jì)算機(jī)五個部分, 采集的圖像包含256個光譜波段。 它們的光譜范圍為383.70~1 032.70 nm, 整個采集過程在暗箱中完成, 避免了環(huán)境光的影響, 如圖1所示。
圖1 系統(tǒng)結(jié)構(gòu)圖
采集圖像時, 曝光時間為18 ms, 平臺的移動速度設(shè)置為1.50 cm·s-1, 鹵素?zé)襞c平臺之間的夾角設(shè)置為50°。 先采集白板圖像W和暗背景圖像B, 然后對大豆樣本進(jìn)行圖像采集, 得到256個波段的高光譜圖像。 采集到的大豆樣本合成的RGB圖如圖2所示。
圖2 大豆樣本高光譜圖像
采集圖像過程中為了緩解可能出現(xiàn)的漫反射, 樣本不均勻, 基線漂移等問題, 對采集圖像進(jìn)行了Savitzky-Golay濾波處理, 針對光照不均勻的問題, 使用了黑白校正的預(yù)處理方法。
高光譜圖像的波段數(shù)量太多, 許多波段的數(shù)據(jù)是冗余的; 為了避免這些冗余數(shù)據(jù)造成的影響, 使用了主成分分析法進(jìn)行降維處理, 選取前30個高光譜波段作為特征波段。 以樣本為中心截取了50×50像素的正方形區(qū)域, 使得單個高光譜樣本數(shù)據(jù)的大小為50×50×30。
3D-R-D模型的內(nèi)容主要包括一個用于提取特征的3D卷積網(wǎng)絡(luò), 一個用于幫助網(wǎng)絡(luò)產(chǎn)生有效特征的DCH[6]損失函數(shù)。 其中網(wǎng)絡(luò)模型為3D-Resnet18, 該預(yù)訓(xùn)練模型的原始數(shù)據(jù)集包括Kinetics-700(K)和Moments in Time(M)兩個數(shù)據(jù)集, 前者一共700個類, 每個類包括超過600個來自YouTube的人類動作視頻, 后者是包括100萬個視頻的數(shù)據(jù)集, 使用這樣的預(yù)訓(xùn)練模型, 可以得到較好的初始化參數(shù)。
預(yù)訓(xùn)練模型并不能直接使用, 在網(wǎng)絡(luò)結(jié)構(gòu)的改變上, 本工作僅僅去除最后的分類層, 并添加一個從高維映射到低維的hash層, 這樣不僅使用了模型中的初始化參數(shù), 還能利用網(wǎng)絡(luò)訓(xùn)練來進(jìn)行降維。
在損失函數(shù)的設(shè)計(jì)上, 為得到效果優(yōu)良的相似度特征, 文獻(xiàn)中經(jīng)常使用成對損失函數(shù)來更新這些特征提取算法的可學(xué)習(xí)參數(shù)。 Zhang等[7]通過設(shè)計(jì)合理的損失函數(shù), 使得每一對輸入樣本如果相似就讓它們的特征相互靠近, 不相似的樣本對特征距離相互遠(yuǎn)離, 充分利用了樣本標(biāo)簽之間的相似性; 和Zhang等不同, Liu等[8]對輸入圖像的監(jiān)督信息進(jìn)行編碼, 對輸出特征進(jìn)行正則化, 以逼近所需的離散值, 該方法設(shè)計(jì)了一個閾值m, 當(dāng)不相似對的特征距離大于m時不提供損失貢獻(xiàn)。 Cao等[9]設(shè)計(jì)了一個基于柯西分布的成對損失, 它對漢明距離大于給定漢明半徑閾值的相似圖像對造成了顯著的懲罰, 也充分利用了標(biāo)簽信息。 Wu等[10]將DSH中的損失函數(shù)與交叉熵函數(shù)進(jìn)行結(jié)合, 使得最后的特征信息包含分類損失和標(biāo)簽之間的相似度信息。 Yuan等[11]通過引入一個哈達(dá)碼矩陣, 改進(jìn)交叉熵?fù)p失, 通過添加分類中心, 增強(qiáng)了分類損失的特征信息。
在特征距離的計(jì)算上, 由于最后的特征都是低維的二進(jìn)制碼, 所以使用漢明距離進(jìn)行衡量, 并且由于維度較低, 不同樣本之間特征距離的計(jì)算速度極快。
如上所述。 本工作使用預(yù)訓(xùn)練模型, 并將分類層改為hash層, 損失函數(shù)使用的是DCH, 訓(xùn)練集為CAVE, iCVL和NUS, 測試集為采集的大豆樣本, 訓(xùn)練時用于微調(diào)以適應(yīng)應(yīng)用場景的訓(xùn)練集則和文獻(xiàn)[6]中描述的一樣, 就是使用光譜數(shù)據(jù)集CAVE, iCVL和NUS作為數(shù)據(jù)集。 CAVE是一個包含32個場景的數(shù)據(jù)集, iCVL高光譜數(shù)據(jù)集由計(jì)算機(jī)視覺會議收集, 包含農(nóng)村, 城市, 植物, 公園, 室內(nèi)這些場景, NUS數(shù)據(jù)集則包含了一些普通場景和水果, 而上述的四種類別的大豆數(shù)據(jù)則作為分類實(shí)驗(yàn)中的測試集和檢索集。 利用圖像檢索進(jìn)行分類的步驟如下所示:
(1) 利用訓(xùn)練集訓(xùn)練得到一個網(wǎng)絡(luò)模型, 這個模型能夠?qū)斎氲耐活惛吖庾V樣本輸出相似的二進(jìn)制特征。
(2) 從大豆樣本的每一類中隨機(jī)取出10個樣本組成檢索集, 對檢索集提取特征并儲存到文件A中, 剩下的大豆樣本作為測試集。
(3) 模擬新采集樣本的分類: 將測試集中每一個樣本依次提取特征, 并用漢明距離與文件A中的數(shù)據(jù)進(jìn)行相似度匹配排序, 從檢索集取出的排名前5個樣本中相同標(biāo)簽最多的即為這個測試樣本的類別。
(4) 實(shí)驗(yàn)得到的準(zhǔn)確率即為正確的測試個數(shù)占總測試樣本數(shù)量的比重, 重復(fù)上述步驟, 反復(fù)實(shí)驗(yàn)取平均值。
在最近的大豆食心蟲分類研究中, 文獻(xiàn)[6]使用了小樣本分類, 采用了MN[12], MAML[13], 3D-RN[14]的方法, 也解決了高光譜圖像數(shù)據(jù)樣本不足的問題, 它的實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同分類模型在4-way 5-shot情況下的檢測結(jié)果
由此發(fā)現(xiàn), 使用Resnet18的網(wǎng)絡(luò)結(jié)構(gòu), 具有良好的效果, 為了研究圖像檢索進(jìn)行分類的有效性, 也為了能和文獻(xiàn)[6]進(jìn)行對比, 通過使用不同的預(yù)模型, 結(jié)合不同損失函數(shù), 設(shè)計(jì)了如表2實(shí)驗(yàn)。
表2 不同損失函數(shù)下的檢索性能
在表2中, Resnet18-K表示使用了Kinetics-700(K)為數(shù)據(jù)集的預(yù)訓(xùn)練模型, Resnet18-KM, 表示該預(yù)訓(xùn)練模型還使用了Moments in Time(M)數(shù)據(jù)集, 從實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn), 盡管使用了更多的數(shù)據(jù), 本實(shí)驗(yàn)在性能上, 有所提升但是比較細(xì)微; 和原來的交叉熵?fù)p失函數(shù)相比, DH使用成對損失提高了5%的分類準(zhǔn)確率, 在使用M閾值之后, DSH又有所提高, DSHSD盡管結(jié)合分類損失和成對損失, 但是性能和DSH幾乎沒有區(qū)別, 由此可見, 單純的分類損失并不適用于本次實(shí)驗(yàn), CSQ引入了中心損失, 在改善交叉熵后, 確實(shí)提高了5%左右的準(zhǔn)確率, 和DSH差不多, 而DCH在使用柯西分布后, 達(dá)到了86%的準(zhǔn)確率, 相比于之前效果最好的3D-RN實(shí)驗(yàn), 提高3.5%的準(zhǔn)確率。
近年來, 使用高光譜成像對農(nóng)業(yè)病蟲害檢測已經(jīng)應(yīng)用地十分廣泛, 但是樣本數(shù)量少的問題仍然需要解決, 本文通過采集不同時期的樣本, 利用樣本之間的相似度信息, 構(gòu)建了一種基于圖像檢索的分類方法, 在模型上, 從視頻檢索中得到啟發(fā), 利用大量數(shù)據(jù)訓(xùn)練的3D預(yù)訓(xùn)練網(wǎng)絡(luò), 獲得了較好的初始化參數(shù), 利用3D CNN, 使得不同波段間數(shù)據(jù)的相似性能夠被利用起來, 通過對不同損失函數(shù)的比較, DCH利用柯西分布, 能較好地提取到樣本之間地相似信息, 它的準(zhǔn)確率達(dá)到了86.0±1.00, 從而解決了實(shí)際問題, 這是一種新穎的高光譜檢測方法, 為高光譜檢測的相關(guān)研究提供了一種新的思路。