侯永宏,呂曉冬+,陳艷芳,趙 健,李器宇,陳 浩
1.天津大學(xué) 電氣自動(dòng)化與信息工程學(xué)院,天津 300072
2.天津航天中為數(shù)據(jù)系統(tǒng)科技有限公司,天津 300458
無(wú)人機(jī)以其體積小、成本低、適應(yīng)性強(qiáng)、機(jī)動(dòng)性好等特點(diǎn)在軍用和民用領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力,在搜索救援、森林監(jiān)測(cè)、地貌重建等[1-3]方面具有廣闊的應(yīng)用前景。然而,傳統(tǒng)無(wú)人機(jī)的飛行需要全球定位系統(tǒng)(global positioning system,GPS)或人為操控,無(wú)法在復(fù)雜環(huán)境下自主完成任務(wù)。近年來(lái),學(xué)術(shù)界和工業(yè)界研究重點(diǎn)逐漸轉(zhuǎn)向無(wú)人機(jī)自主導(dǎo)航技術(shù),無(wú)人機(jī)代替人類在野外環(huán)境下執(zhí)行任務(wù)成為可能[4]。無(wú)人機(jī)在森林環(huán)境下的自主導(dǎo)航具有廣泛的應(yīng)用前景,主要體現(xiàn)在搜索救援方面:無(wú)人機(jī)的大量部署是對(duì)救援人員的有效補(bǔ)充,能夠有效減少救援的反應(yīng)時(shí)間以及失蹤人員的受傷風(fēng)險(xiǎn)。但由于森林環(huán)境的復(fù)雜性和多樣性,無(wú)人機(jī)在森林環(huán)境下的自主導(dǎo)航仍是一個(gè)亟待解決的問(wèn)題。
自主導(dǎo)航的關(guān)鍵在于環(huán)境感知,無(wú)人機(jī)需要在森林環(huán)境中探索可飛行路徑。森林步道是人們?yōu)榱舜┻^(guò)森林而走出來(lái)的林中小路,因此,無(wú)人機(jī)沿著森林步道飛行是相對(duì)安全有效的行進(jìn)方式。然而,相比于規(guī)范、邊界明顯的人行道,森林步道多樣且邊界模糊,形狀和寬度不受限制,沒(méi)有可用于導(dǎo)航跟蹤的規(guī)律性,因此,森林環(huán)境下的路徑識(shí)別更具有挑戰(zhàn)性[5-6]。過(guò)去的幾十年中,路徑識(shí)別的相關(guān)算法得到廣泛研究,在該領(lǐng)域有了長(zhǎng)足的發(fā)展?,F(xiàn)有的道路識(shí)別算法主要可分為三類:基于特征的、基于參數(shù)模型的以及基于機(jī)器學(xué)習(xí)的方法。基于特征的算法通常提取圖像中重要且穩(wěn)定的特征,如強(qiáng)度[7]、顏色[8-9]或紋理特征[10-11]將道路從背景中分割出來(lái)。然而,基于單個(gè)特征的分割方法魯棒性和兼容性差,容易受到天氣、光照變化以及陰影的影響,并且對(duì)道路形狀不敏感,不適用于森林步道這類的復(fù)雜場(chǎng)景。因此,后續(xù)提出的算法通常將圖像分割處理與其他方法相結(jié)合,以獲得適當(dāng)?shù)奶卣?。Alon等人[12]將基于Adaboost算法的區(qū)域分割與基于幾何投影的邊界檢測(cè)相結(jié)合,來(lái)尋找自然地貌下的可行駛區(qū)域。然而該算法計(jì)算量過(guò)大,實(shí)用性不高。文獻(xiàn)[13-14]采用了圖像顯著性檢測(cè)算法,利用顏色、亮度和方向?qū)Ρ葋?lái)尋找視覺(jué)焦點(diǎn),通過(guò)視覺(jué)差異來(lái)突出路徑。但當(dāng)路徑與周圍環(huán)境對(duì)比度小時(shí),很難根據(jù)強(qiáng)度變化進(jìn)行區(qū)分。文獻(xiàn)[15]提出了一種基于自頂向下的混合算法,將圖像的區(qū)域和邊緣信息相結(jié)合,通過(guò)離線分類器學(xué)習(xí)低階和高階圖像信號(hào)以檢測(cè)道路區(qū)域。Zhang等人[16]提出修改特征編碼器并增加特征選擇的過(guò)程,使用樹(shù)形結(jié)構(gòu)來(lái)表示分割區(qū)域多閾值的層次關(guān)系,再結(jié)合K-means進(jìn)行無(wú)監(jiān)督特征學(xué)習(xí),從而提高路徑識(shí)別的魯棒性。Santos等人[17]利用邊緣密度估計(jì)進(jìn)行超像素檢測(cè),從灰度、紋理、交通等特征中提取先驗(yàn)信息,結(jié)合支持向量機(jī)對(duì)圖像中的路徑進(jìn)行分割。這類基于特征的方法需要根據(jù)具體的環(huán)境選擇合適的分割算法,因此有著一定的局限性和應(yīng)用范圍。基于參數(shù)模型的方法需要根據(jù)少量先驗(yàn)信息匹配數(shù)學(xué)模型,如道路邊緣、形狀、分布等,從而估計(jì)模型參數(shù)完成道路檢測(cè)。Hu等人[18]提出一種多模態(tài)道路檢測(cè)與分割系統(tǒng),利用單目圖像和高清多層激光雷達(dá)獲取反映環(huán)境結(jié)構(gòu)的三維點(diǎn)云數(shù)據(jù)進(jìn)行高斯模型的參數(shù)估計(jì),從而確定道路的中心線區(qū)域。文獻(xiàn)[19]基于隨機(jī)抽樣一致性(random sample consensus,RANSAC)算法,利用頂視圖圖像匹配曲線道路模型,不易受圖像中物體遮擋或覆蓋等情況影響。但這類算法的有效性取決于模型的精確度,因此對(duì)道路形狀有著嚴(yán)格要求,適應(yīng)性較差。
隨著人工智能的發(fā)展,路徑感知逐漸向機(jī)器學(xué)習(xí)過(guò)渡,基于機(jī)器學(xué)習(xí)的相關(guān)算法相繼提出[20-21]。文獻(xiàn)[22]從輸入圖像中提取每個(gè)像素的特征向量,利用支持向量機(jī)在線進(jìn)行自監(jiān)督學(xué)習(xí),通過(guò)訓(xùn)練后的分類器進(jìn)行道路/非道路分類。文獻(xiàn)[23]通過(guò)距離歸一化和水平圖像金字塔泛化遠(yuǎn)近場(chǎng)的限制,利用深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練分類器將道路與其他背景區(qū)別開(kāi),具有良好的自適應(yīng)效果。Laddha等人[24]提出一種基于單目圖像的道路識(shí)別算法,利用車輛姿態(tài)估計(jì)傳感器(GPS和慣性測(cè)量單元)對(duì)訓(xùn)練道路圖像進(jìn)行自動(dòng)標(biāo)注,再利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)其訓(xùn)練完成路徑識(shí)別。這些算法雖然能夠達(dá)到較高精度,但預(yù)處理手段復(fù)雜,需要大量的前期工作和計(jì)算。蘇黎世大學(xué)Scaramuzza教授帶領(lǐng)學(xué)生Giusti等在文獻(xiàn)[25]中首次提出將無(wú)人機(jī)的路徑導(dǎo)航問(wèn)題轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)分類問(wèn)題的思想,即根據(jù)識(shí)別路徑位置來(lái)調(diào)整無(wú)人機(jī)航向。研究員使用三個(gè)不同朝向的頭戴式相機(jī)收集在森林中行走時(shí)的數(shù)據(jù),組成數(shù)據(jù)集IDSIA。利用神經(jīng)網(wǎng)絡(luò)判斷圖像中的路徑位置(右側(cè)/中間/左側(cè)),進(jìn)而完成飛行方向(右轉(zhuǎn)/直行/左轉(zhuǎn))修正。這是第一個(gè)利用深度神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)無(wú)人機(jī)在森林中自主飛行的文獻(xiàn),但當(dāng)無(wú)人機(jī)在飛行中遇到樹(shù)木稀疏的低密度場(chǎng)景時(shí),往往會(huì)導(dǎo)致飛行方向的誤判,從而偏離正確的森林路徑。NVIDIA作為全球領(lǐng)先的視覺(jué)計(jì)算公司,在自動(dòng)駕駛汽車、醫(yī)療影像分析和機(jī)器人自主學(xué)習(xí)等方面成果斐然,引領(lǐng)人工智能計(jì)算領(lǐng)域的前進(jìn)與發(fā)展。由Smolyanskiy[26]領(lǐng)導(dǎo)的NVIDIA公司研究團(tuán)隊(duì)在IDSIA數(shù)據(jù)集的基礎(chǔ)上利用安裝了三個(gè)攝像頭的寬基線裝置來(lái)增加水平邊路的數(shù)據(jù),從而估計(jì)無(wú)人機(jī)的飛行方向(右轉(zhuǎn)/直行/左轉(zhuǎn))和橫向偏移(左偏/中間/右偏)。該方法雖然一定程度上提高了準(zhǔn)確率,但依舊忽略了低密度場(chǎng)景下的誤判情況,準(zhǔn)確率仍有一定的提升空間。
以往的相關(guān)工作大都集中在城市道路、高速公路等場(chǎng)景,主要應(yīng)用于地面車輛的自動(dòng)駕駛領(lǐng)域。用于無(wú)人機(jī)復(fù)雜環(huán)境下搜救應(yīng)用場(chǎng)景的路徑識(shí)別技術(shù)研究較為少見(jiàn)。基于神經(jīng)網(wǎng)絡(luò)的路徑識(shí)別算法[25-26]是少有的針對(duì)該應(yīng)用場(chǎng)景下的技術(shù)研究,能夠通過(guò)簡(jiǎn)單的端對(duì)端網(wǎng)絡(luò)實(shí)現(xiàn)路徑跟蹤,并且相較于傳統(tǒng)方法具有魯棒性高,適用范圍廣的優(yōu)點(diǎn)。但在森林環(huán)境中,路徑邊緣模糊,樹(shù)木分布不勻,不可避免地會(huì)出現(xiàn)低密度的森林場(chǎng)景。上述兩種方法在此類場(chǎng)景下會(huì)出現(xiàn)嚴(yán)重誤判,大大降低無(wú)人機(jī)路徑跟蹤的安全性和穩(wěn)定性。針對(duì)這個(gè)問(wèn)題,本文提出一種基于多列深度神經(jīng)網(wǎng)絡(luò)的方法,該方法通過(guò)建立一個(gè)雙列深度神經(jīng)網(wǎng)絡(luò)模型(two-column deep neural networks,2CDNN),將相機(jī)獲取的RGB圖及其邊緣與紋理特征作為輸入,利用網(wǎng)絡(luò)自主學(xué)習(xí)預(yù)測(cè)三種飛行方向(左轉(zhuǎn)/直行/右轉(zhuǎn))的概率,在保證高密度場(chǎng)景中路徑識(shí)別準(zhǔn)確率的前提下,大大提高在低密度場(chǎng)景下的識(shí)別準(zhǔn)確率,從而提高無(wú)人機(jī)在森林環(huán)境下進(jìn)行搜索救援的安全性和可靠性。實(shí)驗(yàn)表明在IDSIA數(shù)據(jù)集中取得了良好的效果,準(zhǔn)確率高達(dá)91.31%,比現(xiàn)有的方法提高了4.41%。
目前,針對(duì)森林環(huán)境的路徑感知技術(shù)研究,業(yè)界普遍采用蘇黎世大學(xué)Scaramuzza教授發(fā)布的數(shù)據(jù)集IDSIA。該數(shù)據(jù)集采集方法如下:徒步者配備三個(gè)頭戴式相機(jī),沿著森林路徑迅速行走并始終直視前方。三個(gè)相機(jī)并行排列但朝向不同:中間相機(jī)指向正前方,與徒步者視角一致;兩邊相機(jī)分別朝左、朝右偏轉(zhuǎn)30°,如圖1所示。IDSIA數(shù)據(jù)集由這三個(gè)相機(jī)采集到的圖像序列組成。圖像的標(biāo)簽為無(wú)人機(jī)的三類飛行轉(zhuǎn)向指令:左轉(zhuǎn)、右轉(zhuǎn)和直行,由獲取圖像的相機(jī)位置決定。左側(cè)相機(jī)采集的圖像中路徑在右側(cè),則圖像標(biāo)簽為右轉(zhuǎn)。同理,右側(cè)相機(jī)的圖像標(biāo)簽為左轉(zhuǎn),中間相機(jī)的圖像標(biāo)簽為直行,如圖2所示。
文獻(xiàn)[25]采用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)作為圖像分類器,網(wǎng)絡(luò)包含4個(gè)卷積層、4個(gè)池化層以及1個(gè)全連接層。網(wǎng)絡(luò)輸入為裁剪成101×101大小的RGB圖,對(duì)于給定的輸入圖像,深度神經(jīng)網(wǎng)絡(luò)給出3個(gè)值,分別表示輸入標(biāo)簽為左轉(zhuǎn)、直行和右轉(zhuǎn)的概率。該方法在IDSIA數(shù)據(jù)集上取得了85.2%的準(zhǔn)確率。
Fig.1 Top view of acquisition setup圖1 頭戴式相機(jī)配備俯視圖
Fig.2 Images taken by cameras facing different view directions圖2 不同朝向相機(jī)獲取的圖像
本文針對(duì)該方法在數(shù)據(jù)集下發(fā)生誤判的概率做出統(tǒng)計(jì),具體情況如圖3所示。
Fig.3 Confusion matrix for DNN on IDSIAdataset圖3 DNN在IDSIA數(shù)據(jù)集上的混淆矩陣
圖3中縱坐標(biāo)為標(biāo)簽,橫坐標(biāo)為網(wǎng)絡(luò)判斷結(jié)果,表格內(nèi)容為統(tǒng)計(jì)概率。統(tǒng)計(jì)結(jié)果顯示,網(wǎng)絡(luò)將左轉(zhuǎn)誤判為右轉(zhuǎn)以及右轉(zhuǎn)誤判為直行的概率很高。結(jié)合圖像分析,網(wǎng)絡(luò)在樹(shù)木稀疏的低密度場(chǎng)景下的誤判概率要遠(yuǎn)遠(yuǎn)高于樹(shù)林茂密的高密度場(chǎng)景。高密度場(chǎng)景下,高大的樹(shù)木與平坦的小路界限較為分明;而低密度場(chǎng)景的路徑周圍多為平坦的草叢,兩者的分界線較為模糊,如圖4(a)和圖4(b)所示。
Fig.4 High-density and low-density scenes in forests圖4 高密度場(chǎng)景圖與低密度場(chǎng)景圖
解決此類問(wèn)題的關(guān)鍵在于如何在低密度場(chǎng)景下將森林路徑與其周圍環(huán)境很好地區(qū)分開(kāi)。低密度場(chǎng)景的路徑周圍由于存在堆積的枝條和草葉,故含有更多的紋理特征;而路徑除兩旁輪廓線外基本沒(méi)有多余線條,紋理更少。因此,本文提出2CDNN網(wǎng)絡(luò)模型,一列網(wǎng)絡(luò)輸入為經(jīng)過(guò)預(yù)處理的特征圖來(lái)突出輸入圖像的邊緣紋理特征,另一列網(wǎng)絡(luò)輸入RGB圖突出輸入圖像的顏色特征,最終將兩個(gè)網(wǎng)絡(luò)結(jié)果融合進(jìn)一步提高路徑識(shí)別性能。
2CDNN模型本質(zhì)上是基于多列深度神經(jīng)網(wǎng)絡(luò)[27]的網(wǎng)絡(luò)模型。多列深度神經(jīng)網(wǎng)絡(luò)是一個(gè)簡(jiǎn)單的集成模型,由多個(gè)神經(jīng)網(wǎng)絡(luò)并行組成。各網(wǎng)絡(luò)輸入為不同方法預(yù)處理后的圖像,通過(guò)將各網(wǎng)絡(luò)的輸出向量融合作為最終判斷結(jié)果。本文提出的2CDNN模型主要由三部分組成:圖像預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)以及結(jié)果融合,如圖5所示。
(1)圖像預(yù)處理:首先將相機(jī)獲得的RGB圖進(jìn)行直方圖均衡結(jié)合邊緣提取的方法獲得特征圖,并將原RGB圖和特征圖分別作為兩列網(wǎng)絡(luò)的輸入。
(2)網(wǎng)絡(luò)結(jié)構(gòu):采用兩列深度殘差網(wǎng)絡(luò)分別對(duì)輸入進(jìn)行監(jiān)督訓(xùn)練,預(yù)測(cè)三個(gè)飛行方向的概率。
(3)結(jié)果融合:將兩個(gè)網(wǎng)絡(luò)的概率向量進(jìn)行點(diǎn)乘融合,最大概率值的標(biāo)簽即為識(shí)別結(jié)果。
針對(duì)上文對(duì)低密度場(chǎng)景下的誤判分析,紋理信息是區(qū)分路徑與周圍環(huán)境的重要特征,因此為了更好地提取圖像中的紋理信息,本文采用了直方圖均衡和邊緣提取的方法對(duì)圖像進(jìn)行預(yù)處理,從而獲得突出局部細(xì)節(jié)和結(jié)構(gòu)紋理信息的特征圖。
Fig.5 2CDNN model圖5 2 CDNN模型
直方圖均衡化處理是一種簡(jiǎn)單有效的圖像增強(qiáng)算法,常常用來(lái)壓縮圖像的動(dòng)態(tài)范圍使得高動(dòng)態(tài)范圍的場(chǎng)景呈現(xiàn)出更多的細(xì)節(jié),提高整體對(duì)比度。因此,在進(jìn)行邊緣提取前采用直方圖均衡處理可以有效地提取出圖像的局部紋理細(xì)節(jié)[28-29]。為了達(dá)到均衡化的效果,算法需要利用累積分布函數(shù)將原圖的直方圖映射為均勻分布的直方圖。設(shè)一幅圖像像素總數(shù)為n,灰度級(jí)為L(zhǎng),nk為灰度級(jí)為rk的像素個(gè)數(shù),則映射函數(shù)T(r)公式如下:
式中,rk為歸一化后的灰度級(jí),Pr(rk)為rk灰度級(jí)出現(xiàn)的概率。
邊緣檢測(cè)采用經(jīng)典的Laplacian算子,它是一個(gè)二階微分算子,具有各向同性的特點(diǎn),可有效提取圖像的邊緣紋理等細(xì)節(jié)信息,定位精度高。但因其對(duì)噪音較為敏感,因此檢測(cè)前需進(jìn)行低通濾波。Laplacian算子及其變體已經(jīng)成為提高各種應(yīng)用性能的有效方法[30-32]。本文主要通過(guò)該方法來(lái)突出圖像中的紋理和結(jié)構(gòu)特征。假設(shè)圖像像素點(diǎn)為f(x,y),Laplacian算子可以定義為下式:
圖6(a)、圖6(b)分別為圖4(a)和圖4(b)經(jīng)過(guò)直方圖均衡和邊緣提取預(yù)處理后的特征圖,由圖可知,高密度場(chǎng)景特征圖和低密度場(chǎng)景特征圖都能很好地突出局部細(xì)節(jié),并且森林路徑相較于周邊環(huán)境的紋理信息更少。因此,該預(yù)處理方法適用于這兩類場(chǎng)景中。
Fig.6 Feature maps of Fig.4(a)and Fig.4(b)圖6 圖4(a)和圖4(b)對(duì)應(yīng)特征圖
大多數(shù)現(xiàn)有的深度學(xué)習(xí)算法只考慮顏色或深度特征,無(wú)法從多角度學(xué)習(xí)和分辨目標(biāo)。因此,本文應(yīng)用深度學(xué)習(xí)模型從兩方面——顏色和紋理特征發(fā)現(xiàn)和學(xué)習(xí)有意義的圖像信息,這有助于提高復(fù)雜森林環(huán)境下路徑識(shí)別的準(zhǔn)確性。如圖5所示,RGB圖和特征圖分別為2CDNN模型中兩個(gè)網(wǎng)絡(luò)通道的輸入。
傳統(tǒng)的卷積層在信息傳遞中或多或少會(huì)存在信息的丟失和損耗,而深度殘差網(wǎng)絡(luò)的越層連接可以直接將輸入信息跨越中間層傳輸?shù)胶髮?,一定程度上保證了信息的完整性。深度殘差網(wǎng)絡(luò)的另一個(gè)特點(diǎn)是能夠解決網(wǎng)絡(luò)變深后的性能退化問(wèn)題。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)由兩列相同的深度殘差網(wǎng)絡(luò)構(gòu)成,如圖5所示。單個(gè)網(wǎng)絡(luò)主要基于深度殘差網(wǎng)絡(luò)TrailNet[26],并在TrailNet的每個(gè)卷積層后額外添批歸一化操作(batch normalization,BN)。批歸一化操作使輸入數(shù)據(jù)服從均值為0、方差為1的分布,公式如下:
其中,x(k)為輸入數(shù)據(jù)的第k維,E[x(k)]、分別表示該維的均值和標(biāo)準(zhǔn)差,表示批歸一化變換后的值。之后利用式(4)對(duì)上式結(jié)果施加一個(gè)反變換,還原出上層需要學(xué)習(xí)的數(shù)據(jù)分布:
式中,γ和β為可學(xué)習(xí)變量,y(k)為批歸一化最終值。批歸一化操作保證每層的輸入數(shù)據(jù)分布穩(wěn)定,從而達(dá)到加速訓(xùn)練的目的。
以一列通道為例,其具體結(jié)構(gòu)如圖7所示。網(wǎng)絡(luò)輸入為裁剪成320×180大小的RGB圖像。網(wǎng)絡(luò)由4個(gè)殘差模塊組成,每個(gè)殘差模塊包括兩個(gè)卷積層和一個(gè)恒等映射。整個(gè)網(wǎng)絡(luò)加權(quán)層總數(shù)為18。除了第一個(gè)卷積核為7×7,其余均為3×3大小。部分層利用步長(zhǎng)為2的卷積層進(jìn)行下采樣,卷積核數(shù)量增加一倍但特征映射大小減半,從而能保持時(shí)間的復(fù)雜度不變。每個(gè)卷積層后都進(jìn)行批歸一化操作,使數(shù)據(jù)分布穩(wěn)定。池化層選用平均操作,最后輸出通道為3,分別表示無(wú)人機(jī)飛行方向?yàn)樽筠D(zhuǎn)、直走和右轉(zhuǎn)三類的概率。
為了進(jìn)一步提高模型的判斷準(zhǔn)確率,本文嘗試了多種方法,最終采用點(diǎn)乘方式將兩路網(wǎng)絡(luò)結(jié)果進(jìn)行融合。模型中兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果都是一個(gè)概率向量,里面包含三個(gè)概率值,分別表示飛行方向?yàn)橛肄D(zhuǎn)、直行和左轉(zhuǎn)的概率。點(diǎn)乘融合是將兩個(gè)網(wǎng)絡(luò)輸出的概率向量逐個(gè)元素相乘,結(jié)果向量中的最大值為該測(cè)試圖像的識(shí)別結(jié)果,其索引對(duì)應(yīng)的標(biāo)簽即為最終預(yù)測(cè)的飛行方向。表達(dá)式如下所示:
其中,label表示圖像標(biāo)簽,v1、v2代表概率向量,°為點(diǎn)乘運(yùn)算,F(xiàn)in()表示為尋找最大值索引的函數(shù)。若兩個(gè)網(wǎng)絡(luò)的輸出向量分別為[0.012 3,0.152 6,0.835 1]和[0.002 5,0.341 8,0.655 7],三個(gè)概率值從左到右的標(biāo)簽為右轉(zhuǎn)、直行和左轉(zhuǎn),因此兩個(gè)網(wǎng)絡(luò)判斷的飛行方向均為左轉(zhuǎn)。將兩個(gè)向量進(jìn)行點(diǎn)乘得到最終輸出向量為[3.075E-05,0.052 2,0.547 6],取其最大值對(duì)應(yīng)的標(biāo)簽,則網(wǎng)絡(luò)判斷飛行為左轉(zhuǎn)。這是兩個(gè)網(wǎng)絡(luò)輸出標(biāo)簽一致的情況。當(dāng)圖像中路徑定位較難判斷時(shí),往往會(huì)導(dǎo)致兩個(gè)網(wǎng)絡(luò)輸出標(biāo)簽不一致。如向量[0.458 3,0.431 2,0.110 5]和[0.263 5,0.701 4,0.035 1],前一個(gè)向量中右轉(zhuǎn)和直行概率接近,而另一個(gè)向量中直行概率明顯高于左轉(zhuǎn)。利用點(diǎn)乘融合可以得到的向量為[0.120 8,0.302 4,0.003 9],即直行。因此,點(diǎn)乘融合可以糾正大部分因路徑定位模糊導(dǎo)致的單個(gè)網(wǎng)絡(luò)誤判。
為了驗(yàn)證提出的2CDNN模型性能,本文實(shí)驗(yàn)主要從以下兩方面進(jìn)行:
Fig.7 Network architecture used in 2CDNN圖7 2 CDNN中的網(wǎng)絡(luò)結(jié)構(gòu)
(1)比較不同的預(yù)處理方法、融合方法,前期融合與后期融合的差異以及該模型與其他網(wǎng)絡(luò)架構(gòu)的對(duì)比。所有對(duì)比實(shí)驗(yàn)均在IDSIA數(shù)據(jù)集上進(jìn)行。
(2)在仿真環(huán)境AirSim下的森林場(chǎng)景利用該模型判斷無(wú)人機(jī)的飛行方向,畫(huà)出其飛行軌跡。
4.1.1 數(shù)據(jù)集處理
本文采用針對(duì)森林環(huán)境下路徑跟蹤的數(shù)據(jù)集IDSIA作為網(wǎng)絡(luò)的訓(xùn)練和測(cè)試數(shù)據(jù)集。該數(shù)據(jù)集在多樣的道路類型和環(huán)境下從3種不同角度(朝左30°、正面以及朝右30°)拍攝森林路徑,道路類型包括從傾斜狹窄的高山小路到寬闊的森林小路,環(huán)境有晴天、陰天和下雪等。根據(jù)文獻(xiàn)[26]進(jìn)行訓(xùn)練和測(cè)試數(shù)據(jù)集的劃分,路徑001、002、004、007和009為訓(xùn)練集,005、006為驗(yàn)證集,003、008和010為測(cè)試集。此外,本文采用多種經(jīng)典方法進(jìn)行數(shù)據(jù)增強(qiáng),包括輕度的仿射變形、隨機(jī)翻轉(zhuǎn)和旋轉(zhuǎn)等,從而進(jìn)一步增加樣本數(shù)量,提高識(shí)別率和網(wǎng)絡(luò)泛性能力。
4.1.2 實(shí)驗(yàn)平臺(tái)
(1)所有的實(shí)驗(yàn)均在一臺(tái)工作站上完成,工作站配置了主頻3.6 GHz的Intel?CoreTMi7-4790 CPU,8 GB內(nèi)存。該工作站還配置了英偉達(dá)的TITAN X顯卡,用于完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。軟件平臺(tái)為業(yè)界廣泛采用的深度學(xué)習(xí)框架Caffe(convolutional architecture for fast feature embedding)。
(2)該模型的仿真實(shí)驗(yàn)主要在AirSim環(huán)境下進(jìn)行。該環(huán)境是微軟推出的用于模擬無(wú)人機(jī)飛行的開(kāi)源工具,通過(guò)人工智能(artificial intelligence,AI)技術(shù)提供詳細(xì)的三維街景,包括交通燈、公園、湖泊等。本文采用該環(huán)境提供的森林場(chǎng)景,利用2CDNN模型判斷無(wú)人機(jī)的飛行路線。
本文針對(duì)2CDNN模型在IDSIA數(shù)據(jù)集下的訓(xùn)練和測(cè)試進(jìn)行了多種對(duì)比實(shí)驗(yàn)。網(wǎng)絡(luò)訓(xùn)練采用Xavier初始化權(quán)重,一次迭代128張訓(xùn)練圖片(batch size),一共訓(xùn)練了20個(gè)循環(huán)(epoch)。網(wǎng)絡(luò)采用牛頓加速梯度(Nesterov accelerated gradient,NAG)優(yōu)化器,初始學(xué)習(xí)率(base learning rate)設(shè)置為0.001,該學(xué)習(xí)率經(jīng)過(guò)20個(gè)循環(huán)后下降為0.000 01。實(shí)驗(yàn)主要步驟如下:
(1)利用訓(xùn)練集中的RGB圖對(duì)單網(wǎng)絡(luò)(如圖7)進(jìn)行訓(xùn)練,訓(xùn)練后的網(wǎng)絡(luò)在測(cè)試集上測(cè)試,獲得飛行方向的識(shí)別正確率。
(2)對(duì)數(shù)據(jù)集中的圖像利用4種預(yù)處理方法獲取特征圖,分別為邊緣提取、直方圖均衡、CIELab色彩域轉(zhuǎn)換結(jié)合邊緣提取以及直方圖均衡結(jié)合邊緣提取。訓(xùn)練和測(cè)試按照(1)中步驟進(jìn)行,獲得測(cè)試集的正確率。
(3)分別采用平均融合和點(diǎn)乘融合的方法將(2)中4種預(yù)處理方法獲取的識(shí)別正確率與(1)中RGB圖的識(shí)別結(jié)果相融合。
(4)將RGB圖與文中3.1節(jié)預(yù)處理方法得到的特征圖進(jìn)行疊加,獲得與前期融合相同效果的疊加圖,訓(xùn)練和測(cè)試按照(1)中步驟進(jìn)行,獲得測(cè)試集正確率。
(5)選取幾個(gè)目前較為主流的網(wǎng)絡(luò)架構(gòu)在數(shù)據(jù)集上按照(1)中步驟進(jìn)行訓(xùn)練與測(cè)試。
表1給出了各預(yù)處理方法在單網(wǎng)絡(luò)通道以及與RGB圖測(cè)試結(jié)果平均融合、點(diǎn)乘融合下的識(shí)別率。由表可得出以下結(jié)論:(1)相較于其他三種方法,直方圖均衡結(jié)合邊緣提取的方法在單網(wǎng)絡(luò)通道下的識(shí)別率最高,達(dá)到87.94%。這表明,增強(qiáng)局部細(xì)節(jié)并突出邊緣紋理信息能更好地提高路徑感知性能。(2)雙網(wǎng)絡(luò)通道結(jié)果融合明顯提高了識(shí)別率。這是由于結(jié)果融合能夠很好地綜合兩路信息優(yōu)點(diǎn),達(dá)到信息互補(bǔ)的目的。(3)點(diǎn)乘融合方法明顯優(yōu)于文獻(xiàn)[27]中的平均融合,能夠進(jìn)一步提高識(shí)別準(zhǔn)確率。
Table 1 Comparison of various preprocessing methods表1 預(yù)處理方法比較
1)該部分只用RGB圖作為網(wǎng)絡(luò)輸入,為了與有預(yù)處理方法的網(wǎng)絡(luò)結(jié)果進(jìn)行比較,因此沒(méi)有融合的結(jié)果。
此外,輸入為直方圖均衡結(jié)合邊緣提取的特征圖比輸入為RGB圖在單網(wǎng)絡(luò)通道下的判斷準(zhǔn)確率有所提升,主要體現(xiàn)在對(duì)低密度場(chǎng)景中路徑位置的正確判斷,如圖8所示。其中,圖8(a)為網(wǎng)絡(luò)誤判的RGB圖,圖8(b)中為其判斷正確的對(duì)應(yīng)特征圖。圖8(a)中兩張圖的標(biāo)簽分別為直行和左轉(zhuǎn),但由于該場(chǎng)景下樹(shù)木稀疏,路徑周圍較為空曠,導(dǎo)致網(wǎng)絡(luò)在這兩張RGB圖下誤判飛行方向?yàn)樽筠D(zhuǎn)和右轉(zhuǎn)。而通過(guò)本文方法獲得圖8(a)的特征圖,如圖8(b)所示,能夠很好地顯示圖中的局部細(xì)節(jié)??梢钥闯?,圖中路徑部分的紋理細(xì)節(jié)明顯少于周邊環(huán)境,因此可以很清楚地表示出路徑位置。網(wǎng)絡(luò)對(duì)特征圖的正確判斷使2CDNN模型在結(jié)果融合時(shí)能夠大概率地糾正網(wǎng)絡(luò)對(duì)RGB圖的誤判,從而提高測(cè)試集的整體識(shí)別率。此外,圖9顯示了網(wǎng)絡(luò)判斷正確的RGB圖及其誤判的特征圖,此情況多出現(xiàn)于光照對(duì)比強(qiáng)烈的場(chǎng)景中。這類兩路網(wǎng)絡(luò)判斷有偏差的情況絕大部分在融合后得到解決,兩個(gè)結(jié)果向量通過(guò)點(diǎn)乘融合能夠獲得正確的判斷結(jié)果。由此可見(jiàn),采用兩路網(wǎng)絡(luò)融合的2CDNN模型才能達(dá)到信息相互彌補(bǔ)的目的,取得更優(yōu)效果。
Fig.8 Success cases fusing results of RGB images(detected wrong)and their feature maps(detected right)圖8 融合RGB圖(誤判)和其特征圖(判斷正確)結(jié)果后判斷正確的場(chǎng)景
為了展示2CDNN模型在提高識(shí)別率上的出色表現(xiàn),本文對(duì)單路網(wǎng)絡(luò)通道和2CDNN模型進(jìn)行了對(duì)比。單路網(wǎng)絡(luò)通道輸入為RGB圖與特征圖相加獲得的疊加圖,等同于圖像信息的前期融合;2CDNN模型的兩路輸入分別為RGB圖和特征圖,測(cè)試結(jié)果如表2所示??梢钥闯?,2CDNN的識(shí)別率比單路網(wǎng)絡(luò)對(duì)于疊加圖測(cè)試識(shí)別率要高出3.48%。這表明信息的后期融合在識(shí)別性能上的效果要優(yōu)于前期融合。
Fig.9 Success cases fusing results of RGB images(detected right)and their feature maps(detected wrong)圖9 融合RGB圖(判斷正確)和其特征圖(誤判)結(jié)果后判斷正確的場(chǎng)景
Table 2 Accuracy comparison between DNN and 2CDNN表2 單路網(wǎng)絡(luò)通道和2CDNN準(zhǔn)確率對(duì)比
圖10給出了單網(wǎng)絡(luò)通道輸入分別為RGB圖、特征圖的混淆矩陣以及2CDNN模型的混淆矩陣。圖中縱坐標(biāo)為標(biāo)簽,橫坐標(biāo)為網(wǎng)絡(luò)判斷結(jié)果,表格內(nèi)容為統(tǒng)計(jì)概率。從圖中可以看出,2CDNN顯著提高了標(biāo)簽為左轉(zhuǎn)和右轉(zhuǎn)的準(zhǔn)確率,特別是右轉(zhuǎn)方向提升到了95%。此外,相比于文獻(xiàn)[25]方法,2CDNN不僅提高了整體的判斷準(zhǔn)確率,而且針對(duì)上文提到的左轉(zhuǎn)誤判為右轉(zhuǎn)以及右轉(zhuǎn)誤判為直行的問(wèn)題也得到了較大的改善,誤判率分別從10%、10%降低到5%和2%。
另外,本文使用不同網(wǎng)絡(luò)架構(gòu)在IDSIA數(shù)據(jù)集上進(jìn)行測(cè)試,將其識(shí)別結(jié)果與2CDNN模型進(jìn)行比較。本文選用了 DNN[25]、Trailnet[26]、VGGNet-16[33]和 Resnet-18[34]與本文方法進(jìn)行對(duì)比,結(jié)果如表3所示。DNN、Trailnet、VGGNet-16和Resnet-18網(wǎng)絡(luò)輸入同為RGB圖。表3結(jié)果顯示,2CDNN網(wǎng)絡(luò)顯著提高了識(shí)別性能,這說(shuō)明了殘差網(wǎng)絡(luò)的越層學(xué)習(xí)結(jié)合直方圖均衡和邊緣提取的預(yù)處理有助于提取路徑更本質(zhì)和抽象的特征,有效提高路徑位置判斷準(zhǔn)確性。
Fig.10 Confusion matrices for DNN and 2CDNN on IDSIAdataset圖10 DNN和2CDNN在IDSIA數(shù)據(jù)集上的混淆矩陣
Table 3 Comparison of proposed method with different network architectures on IDSIAdataset表3 不同網(wǎng)絡(luò)架構(gòu)在IDSIA數(shù)據(jù)集的識(shí)別率
為了體現(xiàn)2CDNN模型在無(wú)人機(jī)自主飛行應(yīng)用中的可行性,本文利用AirSim下的3D森林場(chǎng)景對(duì)2CDNN模型進(jìn)行測(cè)試。
4.3.1 仿真實(shí)驗(yàn)方案
森林環(huán)境中囊括多種不同情況,例如光照角度不同、森林密度不同、路徑彎曲程度不同等。本文選取一段環(huán)境較為復(fù)雜的森林步道,這段步道俯視圖如圖11所示,紅色曲線為正確的森林步道,起點(diǎn)為坐標(biāo)軸位置。利用遙控器人為控制場(chǎng)景中的模擬無(wú)人機(jī)沿著森林步道飛行,通過(guò)無(wú)人機(jī)上搭載的一個(gè)正面朝前的相機(jī)來(lái)收集飛行過(guò)程中的圖像,形成一個(gè)數(shù)據(jù)集做2CDNN模型在該森林步道下的飛行測(cè)試集。通過(guò)2CDNN模型對(duì)飛行測(cè)試集中的圖像進(jìn)行方向判斷,根據(jù)判斷結(jié)果按照采集圖像的順序在圖11中畫(huà)出該模型判斷的飛行軌跡,由圖中紫色虛線表示。
4.3.2 仿真實(shí)驗(yàn)結(jié)果及分析
從圖11中可以看出,飛行軌跡基本上與人為控制的選擇結(jié)果相符,表明所提出的2CDNN模型能夠識(shí)別路徑位置并判斷正確的飛行方向,從而安全穿過(guò)森林。此外,飛行軌跡有幾處偏離正確路徑,大多為岔路口或光線太暗導(dǎo)致的失誤,之后在飛行過(guò)程中會(huì)逐漸回歸正確步道,具體情況如圖12。圖12(a)中為判斷正確的場(chǎng)景圖,可以看出,光照造成的部分陰影對(duì)模型的判斷沒(méi)有影響,在彎曲步道處也適應(yīng)良好。而圖12(b)中誤判的場(chǎng)景顯示,由于樹(shù)冠過(guò)于茂密導(dǎo)致整個(gè)路面處于黑暗中,使得模型無(wú)法判斷路徑位置。另外,在多條道路交叉的路口處飛行方向的判斷具有隨機(jī)性。
Fig.11 Top view of flight trajectory in forest圖11 森林場(chǎng)景下無(wú)人機(jī)的飛行軌跡俯視圖
Fig.12 Success and failure cases inAirSim圖12 AirSim環(huán)境下判斷正確和錯(cuò)誤的場(chǎng)景
本文提出了一種深度學(xué)習(xí)模型——2CDNN,使得無(wú)人機(jī)能夠根據(jù)一張圖像判斷在森林環(huán)境下沿著森林路徑的飛行方向。2CDNN利用兩個(gè)相同的殘差網(wǎng)絡(luò)構(gòu)建一個(gè)簡(jiǎn)單的融合模型,殘差網(wǎng)絡(luò)利用越層連接實(shí)現(xiàn)較深網(wǎng)絡(luò)的訓(xùn)練,提高識(shí)別準(zhǔn)確率的同時(shí)能夠加快網(wǎng)絡(luò)收斂速度。模型包括兩個(gè)輸入通道,在獲取RGB圖突出顏色信息的同時(shí),采用直方圖均衡結(jié)合邊緣提取獲得特征圖以突出路徑局部細(xì)節(jié)和邊緣紋理信息。最終將兩個(gè)結(jié)果向量通過(guò)點(diǎn)乘方法進(jìn)行融合,以提高2CDNN的識(shí)別性能。在IDSIA數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的網(wǎng)絡(luò)模型在準(zhǔn)確性方面優(yōu)于現(xiàn)有模型,提高了無(wú)人機(jī)在森林環(huán)境中路徑感知和方向判斷的準(zhǔn)確率。因此,本文方法在無(wú)人機(jī)自主導(dǎo)航方面具有較高的實(shí)際應(yīng)用價(jià)值。