李沖王光輝陸志恒王德成郭子文蔡晨林靜
(中國農(nóng)業(yè)大學(xué) 工學(xué)院,北京 100083)
2019年,我國林業(yè)產(chǎn)業(yè)總產(chǎn)值達(dá)7.56萬億元,已成為林產(chǎn)品生產(chǎn)、貿(mào)易和消費大國。黨的十九大提出,到2035年全國森林覆蓋率力爭達(dá)到26%。為此,每年須完成造林任務(wù)733萬hm2[1]。在林木種植過程中,為保證其進(jìn)入成熟期后的高效利用,需準(zhǔn)確掌握種植樹木種類[2-3]。同時采集林木種類信息也是利用和保護(hù)林木資源的基礎(chǔ),是林業(yè)資源可持續(xù)利用的有力保障[4-5]。
在樹木樹種識別任務(wù)中,主要采用經(jīng)驗觀察法,該方法存在著經(jīng)濟(jì)性差和誤差較大等問題,無法高效、準(zhǔn)確完成林木識別任務(wù)[6]。機器學(xué)習(xí)的發(fā)展使得人工進(jìn)行林木特征提取并建立樹種識別模型成為可能,但大多還需要依靠工作人員對樹葉、樹皮和果實的外觀特征進(jìn)行選擇,此方式所構(gòu)建的模型精準(zhǔn)度與泛化性能不強[7],效率也已經(jīng)難以滿足林業(yè)發(fā)展的需要。一些學(xué)者通過無須人工篩選特征的深度學(xué)習(xí)方法自動提取目標(biāo)特征,有效提升了目標(biāo)檢測任務(wù)的準(zhǔn)確率和速度[8]。Yang等[9]通過掃描獲取3個肉桂物種的葉片圖像,使用葉片圖像和深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)來進(jìn)行分類識別,測試精度高達(dá)96.7%,比SVM+Gabor分類器高22.1%;Verly等[10]通過使用Inception-V4構(gòu)建了北美10種硬木樹種分類模型,較高提升了樹種宏觀圖像上分類的準(zhǔn)確率,其準(zhǔn)確率達(dá)92.60%; Yang等[11]參考SqueezeNet網(wǎng)絡(luò)模型,提出一種輕量化模型,能夠快速、高效地進(jìn)行不同產(chǎn)品紋理的區(qū)分,其分類任務(wù)準(zhǔn)確率達(dá)到95.58%;何拓等[12]基于Res-Net-50網(wǎng)絡(luò)模型構(gòu)建了木材自動識別系統(tǒng),該系統(tǒng)在“屬”和“種”的識別精度可達(dá)91.8%和77.3%,通過深度學(xué)習(xí)技術(shù)有效實現(xiàn)了木材“種”特征的自動提取識別。因此,基于深度學(xué)習(xí)構(gòu)建網(wǎng)絡(luò)模型分類器能夠減少人工特征提取成本,并提升識別準(zhǔn)確率[13]。
為了提升樹種識別任務(wù)的效率和準(zhǔn)確率,降低樹種識別工作強度,本研究以華北地區(qū)常見的6種行道樹種為研究對象,建立樹種圖像數(shù)據(jù)集,比較不同卷積神經(jīng)網(wǎng)絡(luò)的樹種識別能力,構(gòu)建最佳樹種識別模型,并完成林木樹種識別系統(tǒng)的設(shè)計,為城市園林建設(shè)、林木業(yè)高效科學(xué)管理提供新思路和新方法。
林木樹種識別系統(tǒng)由硬件設(shè)備部分與軟件算法模型部分構(gòu)成。其中硬件設(shè)備可作為圖像智能采集平臺單獨工作,由紅外傳感器(WWEIGUO, 30~700 cm檢測距離, DC6~36 V)、雙目相機(Stereolabs, ZED 2, USB3.0端口, 60幀/s)、工控機(CIBOU, 酷睿i7 10510U,8 G內(nèi)存,12 V 5 A)、蓄電池(品晟, P-701, 200 000 M, DC5~19 V)、顯示屏(ZGYNK, HDMI USB 2.0 Type-C, 15.6英寸)以及開發(fā)板(Arduino, MEGA 2 560 R3, USB3.0, 9 V)組成。圖像智能采集平臺程序邏輯如圖1所示。
紅外傳感器與雙目相機通過設(shè)定程序與Arduino開發(fā)板連接。程序邏輯為當(dāng)紅外傳感器1受到遮攔感知到林木被觸發(fā),經(jīng)由串口傳遞信號給工控機,工控機獲取信號后啟動雙目相機,雙目相機開啟拍照并且編號儲存,隨后紅外傳感器2被觸發(fā)或圖像數(shù)據(jù)采集量滿足要求后,雙目相機結(jié)束拍照,如此往復(fù)循環(huán)至程序關(guān)閉或電源關(guān)閉,并且拍照數(shù)量與時間間隔可以通過程序進(jìn)行設(shè)置。
圖1 圖像采集程序邏輯圖Fig.1 The program logic diagram of image acquisition
平臺分為采集端和處理端,可由人為手持或搭載移動裝置上進(jìn)行工作。
平臺采集端由紅外傳感器、雙目相機和支架組成。因?qū)嶋H拍攝圖像時邏輯程序為紅外傳感器1觸發(fā)相機拍照,紅外傳感器2觸發(fā)相機結(jié)束拍照,因此放置紅外傳感器1于靠近行駛路線一側(cè),相機放置于2個傳感器中間。并且所拍攝林木胸徑均約20 cm,拍攝位置與林木樹干直線距離約80 cm,經(jīng)過實地測試,支架長度50 cm能夠滿足實際圖像采集速度。圖2是采集端安裝于拖拉機駕駛室外側(cè)擋泥板實例圖。
圖2 平臺采集端結(jié)構(gòu)Fig.2 Platform acquisition end structure
平臺處理端由工控機、蓄電池、顯示屏以及開發(fā)板組成。利用蓄電池可以為圖像采集相應(yīng)設(shè)備穩(wěn)定供電,借助工控機能夠滿足實際較為惡劣的作業(yè)條件,通過顯示屏實現(xiàn)采集作業(yè)的可視化,便于操作人員及時對作業(yè)進(jìn)行調(diào)整。采集好的圖像儲存像素為2 560×720,以bmp文件格式儲存。平臺處理端具體結(jié)構(gòu)形式如圖3所示。
圖3 平臺處理端結(jié)構(gòu)Fig.3 Platform processing end structure
林木圖像數(shù)據(jù)采集時間是2021年7月28日至2021年7月30日的每日14時至16時,地點位于北京市大興區(qū)安定鎮(zhèn)平原造林地區(qū),坐標(biāo)116.5 °E, 39.6 °N。圖像數(shù)據(jù)集包含有6種華北地區(qū)常見行道樹種,分別為法國梧桐、楓樹、欒樹、柳樹、國槐和榆樹。具體信息見表1。
表1 林木圖像數(shù)據(jù)相關(guān)信息Tab.1 Information of tree images data
圖像數(shù)據(jù)由圖像智能采集平臺拍攝獲取。刪去圖像數(shù)據(jù)中較為模糊的圖像后,6種樹木各選擇500張圖像。由于所得圖像為雙目相機拍攝所得的左右目圖像,尺寸為2 560×720,因此需要進(jìn)行圖像裁剪操作,將原圖像劃分為左圖像和右圖像,均為
通過目標(biāo)檢測算法完成樹種分類任務(wù)。目標(biāo)檢測目的就是尋找出圖片中實例的位置進(jìn)行定位,并對定位實例進(jìn)行分類,最終得到定位框與分類得分[14]。需要提取出有效的感興趣區(qū)域,即圖像中主體林木的部分,并且排除背景等其他干擾[15]。因此在進(jìn)行深度學(xué)習(xí)前,對分割處理后的圖像進(jìn)行標(biāo)注。以MVTec Deep Learning Tool為標(biāo)注工具,完成了對圖像數(shù)據(jù)集的軸平行矩形標(biāo)注,此方法能夠在模型訓(xùn)練過程中充分計算反向損失并對模型進(jìn)行優(yōu)化調(diào)整。標(biāo)記過程中,對主要樹干區(qū)域進(jìn)行框選,其他區(qū)域部分默認(rèn)為背景。林木標(biāo)注實例如圖4所示。
圖4 林木圖像標(biāo)注實例Fig.4 The annotation example for tree images
標(biāo)注工作完成后,按照7∶1.5∶1.5的比例將林木圖像數(shù)據(jù)集隨機劃分為訓(xùn)練集、驗證集和測試集,完成數(shù)據(jù)集的構(gòu)建。
通過生成特征圖、合并特征圖和輸入特征圖完成檢測的3個步驟,利用目標(biāo)檢測實現(xiàn)樹種識別任務(wù)[16]。首先,由預(yù)先訓(xùn)練好的分類網(wǎng)絡(luò)組成的主干生成不同特征圖,隨后移除分類層,此時生成的特征圖會在各個尺度編碼不同種類的信息;然后,通過指定不同層次的主干為對接層,將特征圖合并,獲得較低和較高2個層次信息的特征圖,即特征金字塔;最后,輸出相應(yīng)的特征圖,并學(xué)習(xí)分類和定位目標(biāo),完成目標(biāo)檢測任務(wù)。圖5為目標(biāo)檢測原理示意圖。
圖5 目標(biāo)檢測原理圖Fig.5 Schematic diagram of target detection
在實現(xiàn)樹種識別任務(wù)過程中,需要充分讀取圖像信息、穩(wěn)定提升參數(shù)效率和有效避免網(wǎng)絡(luò)過擬合。深度學(xué)習(xí)的提出,使得目標(biāo)檢測任務(wù)中興起了YOLO、Faster R-CNN和SSD等較為有效的模型網(wǎng)絡(luò)結(jié)構(gòu)以解決上述問題[17]。為了提高檢測速度與質(zhì)量,各種研究更是不斷推出獨特的網(wǎng)絡(luò)設(shè)計,如SqueezeNet、Inception-V3和ResNet-50等網(wǎng)絡(luò)結(jié)構(gòu)[18],這些網(wǎng)絡(luò)結(jié)構(gòu)在樹種識別中也有較好的表現(xiàn)。其中,SqueezeNet網(wǎng)絡(luò)在保證精度不損失的同時,將原始AlexNet模型大小壓縮至原來的1/50,其參數(shù)比AlexNet少50倍,能夠更加高效、快速實現(xiàn)任務(wù)[19];Inception-V3則根據(jù)初始Inception模塊結(jié)構(gòu),通過將原有5×5卷積核改進(jìn)為2個3×3卷積核來降低計算參數(shù)量以提升計算速度,從而提升模型處理復(fù)雜數(shù)據(jù)的能力[20];而ResNet-50在VGG19網(wǎng)絡(luò)基礎(chǔ)上加入殘差模塊,模型具有更高的穩(wěn)定性和魯棒性,被廣泛運用于各種復(fù)雜特征提取應(yīng)用[21-22]。
為了減小時間成本、提升模型訓(xùn)練效果,運用HALCON軟件中所提供的預(yù)先訓(xùn)練好的分類模型,這些模型在使用前已經(jīng)經(jīng)過較為豐富的圖像數(shù)據(jù)庫訓(xùn)練,在此基礎(chǔ)上訓(xùn)練出的網(wǎng)絡(luò)能更好地進(jìn)行本研究中的樹種識別任務(wù)。網(wǎng)絡(luò)結(jié)構(gòu)則選擇在目標(biāo)檢測任務(wù)中表現(xiàn)效果較好的SqueezeNet、Inception V3和ResNet-50 3種網(wǎng)絡(luò),在HALCON軟件中對應(yīng)的算子見表2。為簡潔表達(dá),下文分別用SqueezeNet、Inception-V3和ResNet-50表示3種網(wǎng)絡(luò)模型。
表2 模型網(wǎng)絡(luò)算子Tab.2 Network model operator
為更好貼合實現(xiàn)形式與實際運用,并且考慮綜合成本,采用臺式工作站計算機進(jìn)行系統(tǒng)部署與模型訓(xùn)練,并將訓(xùn)練好的最優(yōu)模型設(shè)置于圖像采集平臺工控機內(nèi)以完成林木樹種識別系統(tǒng)的軟件部署。臺式工作站軟硬件配套見表3。
表3 工作站環(huán)境配置Tab.3 The configuration of the workstation
數(shù)據(jù)集訓(xùn)練過程中,設(shè)置訓(xùn)練參數(shù)十分重要。其中最主要的為batch-size(批處理量)、iterations(迭代次數(shù))和learning_rate (學(xué)習(xí)率)3個參數(shù)。由于數(shù)據(jù)集數(shù)量及尺寸較大,為配合工作站運算能力與硬件條件,在訓(xùn)練中batch_size 設(shè)定為2,iterations設(shè)定為400,learning_rate設(shè)定為0.000 5。
對于目標(biāo)檢測而言,需要制定一定的規(guī)則評價網(wǎng)絡(luò)性能,從而選擇合適的分類器。為了對網(wǎng)絡(luò)模型性能給出更加全面、客觀的評價,采用平均精度均值(mAP,公式中用mAP表示)、準(zhǔn)確率(Accuracy,公式中用Accuracy表示)和召回率(Recall,公式中用Recall表示)3個指標(biāo)來評價模型網(wǎng)絡(luò)性能,計算公式如下[15,23]
式中:QR為驗證集個數(shù);q為單個驗證集;AP為平均精度;TP為實際正類預(yù)測為正類的數(shù)量;FP為實際負(fù)類預(yù)測為正類的數(shù)量;FN為實際正類預(yù)測為負(fù)類的數(shù)量。
設(shè)定相應(yīng)算子程序,使用3種不同訓(xùn)練模型對標(biāo)注、劃分后的自制6 000張圖像數(shù)據(jù)集進(jìn)行400次迭代訓(xùn)練,并且在過程中利用驗證集對網(wǎng)絡(luò)模型進(jìn)行較完善的實時評價顯示,顯示參數(shù)包含mAP、損失值以及訓(xùn)練時長。mAP是目標(biāo)檢測算法很重要的性能度量標(biāo)準(zhǔn),其能夠充分反映預(yù)測圖像類別及每個目標(biāo)的真實邊界框;損失則通常用來優(yōu)化訓(xùn)練數(shù)據(jù)的模型,損失函數(shù)值越小,說明該模型擬合度越好[17]。
在評估和推測過程中,利用測試集在確定的交并比(IoU)下可以得到Accuracy和Recall。對于IoU而言,通常會選取一個閾值,如0.5,來確定預(yù)測框是正確的還是錯誤的。當(dāng)2個框的IoU大于0.5時,認(rèn)為是一個有效的檢測,否則為無效的匹配[23]。研究中將IoU閾值設(shè)定為0.5。
表4為3種網(wǎng)絡(luò)模型訓(xùn)練結(jié)果。由表4可以看出,SqueezeNet在3種網(wǎng)絡(luò)模型中訓(xùn)練結(jié)果均為最優(yōu),mAP達(dá)0.735。Inception-V3模型效果在3者中表現(xiàn)一般。相比于SqueezeNet網(wǎng)絡(luò),Inception-V3在網(wǎng)絡(luò)深度上進(jìn)行改進(jìn),計算網(wǎng)絡(luò)模型更復(fù)雜,需要更多內(nèi)存資源才能達(dá)到理想效果[24]。在損失值方面 SqueezeNet、Inception-V3和ResNet-50相差不大,最終訓(xùn)練損失均下降至0.025附近并趨于穩(wěn)定,能夠符合目標(biāo)檢測任務(wù)要求[24]。在訓(xùn)練時長方面SqueezeNet網(wǎng)絡(luò)模型耗時最短,ResNet-50在3者中耗時最長。這主要是ResNet采用網(wǎng)絡(luò)中增加殘差網(wǎng)絡(luò)的方法,允許網(wǎng)絡(luò)盡可能地加深,所以需要更長的訓(xùn)練時間[22]。
表4 不同預(yù)訓(xùn)練模型訓(xùn)練結(jié)果Tab.4 Training results by different pre-training models
3種訓(xùn)練模型評估結(jié)果的Accuracy和Recall相關(guān)數(shù)據(jù)如圖6所示。由圖6可以看出,SqueezeNet的Accuracy和Recall分別為99.6%和100%,高于Inception-V3的99.1%、99.6%和ResNet-50的99.3%、99.8%。結(jié)果顯示,3種網(wǎng)絡(luò)模型的Accuracy和Recall都較高,達(dá)到99%以上,其中SqueezeNet表現(xiàn)最為優(yōu)秀。主要原因是SqueezeNet相較于Inception-V3和ResNet-50參數(shù)數(shù)量較少,并且使用了deep compression使得模型充分壓縮,通過squeeze層和expand層構(gòu)成fire model多分支結(jié)構(gòu),從而最大程度保證精度的同時使用最少的參數(shù),更適合復(fù)雜度較低的目標(biāo)檢測分類模型任務(wù)[19]。
通過mAP、Accuracy和Recall的比較,結(jié)果表明,在測試的3種目標(biāo)檢測網(wǎng)絡(luò)模型中,SqueezeNet網(wǎng)絡(luò)模型識別效果最佳。
為分析SqueezeNet網(wǎng)絡(luò)模型在不同環(huán)境和生長狀況下對樹種的適應(yīng)性,選擇不同光照條件、不同胸徑和不同林木直立程度的非數(shù)據(jù)集內(nèi)圖像進(jìn)行分類推測。從測試結(jié)果表5可以看出,當(dāng)圖像為細(xì)小的迎光直立林木時,檢測效果最好,識別準(zhǔn)確率可達(dá)100%,即使林木處于粗壯的彎折背光情況,平均識別準(zhǔn)確率也可達(dá)97.51%,部分圖像檢測效果如圖7所示。通過圖7能夠看出,目標(biāo)檢測的定位框與分類2項任務(wù)皆能較好完成,并且在光照極好和極差、樹木彎折程度較強條件下也有較好的樹種檢測效果。
不同于訓(xùn)練和推測的非實時性檢測,林間的現(xiàn)場環(huán)境復(fù)雜多變。模型訓(xùn)練、評估完成后,為進(jìn)一步檢測模型的穩(wěn)定性,判斷設(shè)計系統(tǒng)的真實環(huán)境適應(yīng)性,在工控機內(nèi)進(jìn)行部署,搭建完成林木樹種識別系統(tǒng)。在北京市大興區(qū)安定鎮(zhèn)平原造林園區(qū)內(nèi)開展田間試驗,試驗林區(qū)樹種包含所訓(xùn)練采用的6種林木種類。為增強現(xiàn)場場景,試驗過程中,將平臺搭載在正常工作時速前行的園林除草機上,進(jìn)行動態(tài)檢測。檢測過程中,除草機以正常工作速度前進(jìn),約3.6 km/h,系統(tǒng)采集端安裝于牽引拖拉機擋泥板上,距離地面約1.3 m。為防止出現(xiàn)樹木圖像重復(fù)處理,設(shè)定“S”形行駛的路線,并在轉(zhuǎn)彎時間隔2列樹木。
圖6 訓(xùn)練模型評估結(jié)果Fig.6 Training model evaluation results
圖7 部分圖像分類結(jié)果Fig.7 Partial image classification results
表5 不同環(huán)境和生長狀況下識別結(jié)果Tab.5 Identification results under different environments and growth conditions
試驗隨機選取6種林木各一排共計178棵,圖8顯示了林間實時檢測效果。由圖8可以明顯看出,系統(tǒng)檢測效果良好,能夠很好地完成不同環(huán)境下的實時樹種正確分類。并且除草機在行走過程中雖然受環(huán)境影響有一定的顫抖、傾斜,但由于雙目相機60 幀/s的較高幀率,圖像質(zhì)量受影響較小,識別效果并無影響,表6為實時檢測試驗結(jié)果,由表6可以看出,相比而言,柳樹識別準(zhǔn)確率偏低,這主要是由于柳樹彎曲程度普遍較大。但這并沒有影響總體樣本在林木識別的準(zhǔn)確率,設(shè)計系統(tǒng)檢測識別準(zhǔn)確率達(dá)到93%以上,樹木檢測實時識別時間為0.19 s,模型處理速度能夠很好地滿足園林除草機3.6 km/h的運行速度,較人工而言測試效率顯著提高,可以滿足林木樹種高效識別、準(zhǔn)確檢測的需求。
圖8 林間實時測試Fig.8 Forest real-time test
表6 實時檢測結(jié)果Tab.6 Real time detection results
(1)設(shè)計出一套林木識別系統(tǒng),構(gòu)建了懸鈴木、楓樹、欒樹、柳樹、國槐和榆樹的林木數(shù)據(jù)集,訓(xùn)練比較結(jié)果顯示,以SqueezeNet構(gòu)建的樹種分類器表現(xiàn)最優(yōu),平均精度、準(zhǔn)確率和召回率 分別為0.735、99.6%和100%。
(2)利用該林木識別系統(tǒng)進(jìn)行動態(tài)實時田間試驗,在自然環(huán)境下,樹種識別準(zhǔn)確率均達(dá)93%以上。
研究表明,本文構(gòu)建的林木樹種識別系統(tǒng)能夠穩(wěn)定、精確和高效地完成樹種識別,可為林木資源智能化管理提供技術(shù)支持。