王 蓉,呂祖盛,孫 嘉,江子岍,肖 建
(南京郵電大學(xué) 電子與光學(xué)工程學(xué)院,江蘇 南京 210023)
近年來,許多“驢友”喜歡近距離探索自然。但是有些時(shí)候“驢友”會(huì)在野外步入險(xiǎn)境,需要外界的救援。傳統(tǒng)的搜救方式由于耗資大、范圍不精確、巡查時(shí)間長,導(dǎo)致搜救效率低下。例如,2017年8月8日九寨溝地震中就暴露了現(xiàn)有搜救系統(tǒng)存在的巨大缺陷。由于九寨溝地形復(fù)雜多樣,傳統(tǒng)的人力搜救不僅高成本低精度,還可能會(huì)因?yàn)闉?zāi)區(qū)的天氣和通信等條件過于惡劣而給搜救人員帶來巨大的阻礙和危險(xiǎn)。于是,方便靈活且精度較高的搜救方法成了野外救援的一個(gè)研究課題。傳統(tǒng)的人力搜救暴露出的成本高、搜索速度慢等問題也促進(jìn)了無人機(jī)智能搜救系統(tǒng)在野外救援方面的應(yīng)用[1]。無人機(jī)作為飛行機(jī)器人,具備小巧便捷、活動(dòng)范圍廣、自由度高等特點(diǎn),因此近年來被廣泛應(yīng)用于軍事、農(nóng)業(yè)等領(lǐng)域。文中設(shè)計(jì)了一款基于人像分割技術(shù)的搜救系統(tǒng)。無人機(jī)通過攝像頭在空中實(shí)時(shí)采集圖像并進(jìn)行圖像回傳和GPS定位,便于搜救人員確定當(dāng)前受困人員的位置、狀態(tài)以及環(huán)境。以最快的速度規(guī)劃最優(yōu)路線并進(jìn)行搜救。通過在公園、學(xué)校操場(chǎng)和山地等多種戶外場(chǎng)景中的測(cè)試,證明該系統(tǒng)有效可行,能適用多種復(fù)雜的野外場(chǎng)景并滿足實(shí)際使用需求。
當(dāng)搜救人員收到有人員遇險(xiǎn)的消息后,會(huì)給無人機(jī)下達(dá)救援指令。當(dāng)無人機(jī)飛至事故區(qū)域上方時(shí)先進(jìn)行自檢,以確保能正常飛行,然后根據(jù)地面站傳來的事故區(qū)域的兩個(gè)對(duì)角坐標(biāo)制定蛇形路徑進(jìn)行巡檢。在巡檢時(shí),無人機(jī)回傳當(dāng)前視野圖像并進(jìn)行GPS定位。地面站將接收到的圖像進(jìn)行整合分析: 采用人像分割技術(shù)進(jìn)行人體目標(biāo)檢測(cè)[2-3]來確定遇險(xiǎn)人員,并通過ORB特征提取合成大型高清航拍影像,結(jié)合遇難者GPS位置坐標(biāo)幫助搜救人員確定救援路線。
使用Pixhawk作為飛行控制器,能更好地實(shí)現(xiàn)姿態(tài)調(diào)整和GPS巡航。使用STM32F1控制Pixhawk各通道油門,通過MAVLink協(xié)議進(jìn)行飛行器自檢和任務(wù)下達(dá)。無人機(jī)搭載樹莓派作為圖像采集和通信單元,用于圖像獲取、視頻編碼和遠(yuǎn)程圖像傳輸。同時(shí),樹莓派也用于連接STM32F1和地面站,進(jìn)行遠(yuǎn)程的數(shù)據(jù)傳輸和任務(wù)下達(dá)。本系統(tǒng)巡檢設(shè)備安裝在云臺(tái)上,使用8 mm焦距的鏡頭,搭載大功率WIFI模塊,保證無人機(jī)和地面站進(jìn)行穩(wěn)定的數(shù)據(jù)交互和圖像傳輸。無人機(jī)飛行高度17 m,速度20 m/s,每秒采集3張圖像,完成一平方公里巡檢任務(wù)需要8分鐘。
在傳統(tǒng)的行人檢測(cè)等人像檢測(cè)任務(wù)中,多用物體檢測(cè)的神經(jīng)網(wǎng)絡(luò)框架進(jìn)行檢測(cè),例如Faster-RCNN[4]、SSD[5]、YOLO[6]等,都能達(dá)到較好的識(shí)別精度和速度。但是在野外搜救中,由于環(huán)境較為復(fù)雜,有時(shí)候會(huì)出現(xiàn)人像被遮擋的情況,而且因?yàn)閼?yīng)用環(huán)境的特殊性,每一張圖像都十分珍貴,不能容忍物體檢測(cè)出現(xiàn)識(shí)別不到的情況,并且在識(shí)別過程中對(duì)預(yù)測(cè)區(qū)域與真實(shí)區(qū)域的交疊率要求也不太嚴(yán)格。因此,選用由谷歌開發(fā)的DeepLab V3+[7]圖像分割神經(jīng)網(wǎng)絡(luò)來進(jìn)行人像檢測(cè)任務(wù),使用Xception[8]神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。DeepLab V3+結(jié)合了空間金字塔模塊[9-10]在輸入feature上應(yīng)用多采樣率擴(kuò)張卷積、多感受野卷積或池化,探索多尺度上下文信息和編解碼器結(jié)構(gòu)通過逐漸恢復(fù)空間信息來捕捉清晰的目標(biāo)邊界的優(yōu)點(diǎn)。DeepLab V3+在PASCAL VOC 2012上驗(yàn)證了模型的有效性,在沒有添加任何后端處理的情況下達(dá)到了89% mIoU。
使用的DeepLab V3+神經(jīng)網(wǎng)絡(luò)框架如圖1所示。編碼器由Xception神經(jīng)網(wǎng)絡(luò)、ASPP和一個(gè)1×1的卷積組成[10]。DeepLab使用了深度可分離卷積和帶孔卷積以提升網(wǎng)絡(luò)的性能。下面著重介紹ASPP(帶孔空間金字塔池化)的特點(diǎn)以及在文中的應(yīng)用。
圖1 DeepLab V3+神經(jīng)網(wǎng)絡(luò)框架
ASPP(atrous spatial pyramid pooling,帶孔空間金字塔池化),就是對(duì)同一特征圖用不同大小的卷積核進(jìn)行卷積操作,以實(shí)現(xiàn)對(duì)不同大小特征的感知。使用帶孔卷積來調(diào)整感受野的大小,同時(shí)使用深度可分離卷積來減少參數(shù)和提高運(yùn)行效率。文中使用1 024×1 024×3的圖像作為Xception神經(jīng)網(wǎng)絡(luò)的輸入,輸出為1 024×1 024×1的圖像蒙版。ASPP使用了1×1卷積,3×3 rate=6、12、8的帶孔卷積和傳統(tǒng)的pooling疊加。圖像在經(jīng)過神經(jīng)網(wǎng)絡(luò)運(yùn)算后得到的蒙版,需要再經(jīng)過膨脹運(yùn)算以消除蒙版中的一些因識(shí)別不全而產(chǎn)生的空洞。在本次項(xiàng)目中測(cè)試使用的GTX1060 GPU,DeepLab V3+神經(jīng)網(wǎng)絡(luò)框架總參數(shù)為41.25 M,訓(xùn)練使用10萬張航拍圖像,測(cè)試mIoU可達(dá)72%,運(yùn)行速度可達(dá)3.2 FPS。
圖像分析系統(tǒng)運(yùn)行流程如圖2所示,主要分為人像分割模塊和圖像拼接模塊。圖像由無人機(jī)攝像頭采集,使用WIFI模塊實(shí)時(shí)地將圖像信息與當(dāng)前GPS坐標(biāo)信息反饋給地面站,地面站同時(shí)將圖像傳入人像分割模塊和圖像拼接模塊進(jìn)行處理。
圖2 圖像分析系統(tǒng)流程
其中,圖像分割模塊負(fù)責(zé)人像搜索的任務(wù),將圖像經(jīng)過Xception特征提取、ASPP多尺度特征提取以及上采樣等一系列處理后得到人像分割蒙版。在本項(xiàng)目中,設(shè)定人像分割蒙版閾值為0.5,若蒙版中存在置信度大于0.5的像素點(diǎn),則認(rèn)為是人像檢測(cè)成功,隨即在地面站上生成一條包含該圖像、蒙版、無人機(jī)拍攝該圖像時(shí)的GPS坐標(biāo)和人像區(qū)域大小信息的記錄,供搜救人員查看。
圖像拼接模塊負(fù)責(zé)將圖像進(jìn)行拼接,生成一張覆蓋整個(gè)航拍區(qū)域的超高清全景影像。該模塊對(duì)輸入的圖像進(jìn)行尺度不變特征提取、特征點(diǎn)匹配、計(jì)算變換矩陣和拼接去縫操作,將輸入的圖像依次進(jìn)行拼接。當(dāng)無人機(jī)完成一列巡檢任務(wù)掉頭進(jìn)行第二列巡檢時(shí)回傳掉頭信號(hào),圖像拼接模塊完成當(dāng)前列圖像拼接任務(wù),并保存圖像。當(dāng)無人機(jī)完成下一列巡檢任務(wù)時(shí),將列圖像進(jìn)行拼接,得到兩列圖像的拼接結(jié)果圖,依次進(jìn)行該過程直到無人機(jī)完成本次搜救任務(wù)。
系統(tǒng)中使用ORB(ORientedBrief)算法進(jìn)行特征提取[11-13]。ORB特征提取的優(yōu)點(diǎn)在于效率高,約為SIFT運(yùn)行速度的100倍,SURF運(yùn)行速度的10倍。提取特征的準(zhǔn)確度相較于FAST算法也要好得多,綜合性能較強(qiáng)。經(jīng)多次測(cè)試,該算法對(duì)兩張500×500的圖像進(jìn)行特征點(diǎn)提取僅耗時(shí)200 ms。其不足之處在于提取的特征不具備尺度不變性。但是由于文中無人機(jī)始終與地面保持著一定高度飛行,所以幾乎不存在尺度變化,因而該缺點(diǎn)影響可以忽略。
對(duì)圖像做特征點(diǎn)匹配,即使是用SIFT算法效果也是非常糟糕的,為了減少特殊原因產(chǎn)生的誤匹配關(guān)鍵點(diǎn),可利用式(1)求得比例系數(shù)R。在本系統(tǒng)中,設(shè)定閾值T=0.5,將圖像A與圖像B中求得R (1) 其中,D1為圖像A中某一特征點(diǎn)與圖像B所有特征點(diǎn)歐氏距離的最小值,D2為圖像A中某一特征點(diǎn)與圖像B所有特征點(diǎn)歐氏距離的次小值。 獲得了匹配特征點(diǎn)后,用RANSAC方法[14-15]計(jì)算多個(gè)二維點(diǎn)對(duì)之間的最優(yōu)單映射變換矩陣,使用投射變換將圖像A變換至圖像B的坐標(biāo)空間,并拷貝至圖像C中。在拷貝的過程中由于光照等環(huán)境因素,直接拷貝拼接會(huì)使得接縫過于明顯,文中使用加權(quán)相加的方式來進(jìn)行圖像融合。圖像融合公式為: (2) 其中,PX為結(jié)果圖像C在X位置處的像素值,PAX為圖像A在X位置處的像素值,PBX為圖像B在X位置處的像素值,Xbegin為拼接圖像相交起點(diǎn),Xend為拼接圖像相交終點(diǎn)。圖C為圖A和圖B拼接后的結(jié)果(見圖3),實(shí)驗(yàn)證明ORB算法能夠快速準(zhǔn)確地匹配到有效特征點(diǎn)并進(jìn)行圖像拼接。 圖3 圖像拼接效果 文中開發(fā)了一款配套的用戶界面(見圖4),使用戶能以更加便捷的方式操作本系統(tǒng)。系統(tǒng)由兩大選項(xiàng)卡組成:控制臺(tái)和系統(tǒng)檢查??刂婆_(tái)負(fù)責(zé)用戶在使用時(shí)的所有操作,系統(tǒng)檢查負(fù)責(zé)用戶在使用前進(jìn)行無人機(jī)圖像回傳情況、人像分割運(yùn)行情況等的檢查??刂婆_(tái)界面由4大部分組成,分別是地圖界面、無人機(jī)實(shí)時(shí)航拍圖像界面、消息記錄界面和控制按鈕。地圖界面可供用戶定制巡檢區(qū)域;實(shí)時(shí)航拍界面可供用戶實(shí)時(shí)地觀察到無人機(jī)的航拍影像;消息記錄界面會(huì)在每次人像分割成功后生成一條記錄,雙擊記錄可打開人像分割查看界面,結(jié)束一次巡檢即可點(diǎn)擊全景地圖按鈕打開查看拼接界面;控制按鈕進(jìn)行無人機(jī)的自檢、執(zhí)行、停留、返回和急停。 (a)控制臺(tái)操作界面 (b)人像檢測(cè)記錄 (c)全景拼接 (d)系統(tǒng)檢查 交并比(intersection-over-union,IoU),是預(yù)測(cè)區(qū)域(candidate bound)與真實(shí)區(qū)域(ground truth bound)的交疊率,即它們的交集與并集的比值。IoU在最理想情況下是完全重疊的,即比值為1。IoU的平面示意圖如圖5(a)所示,由圖5(a)可推導(dǎo)出IoU的計(jì)算公式為: (3) mIoU值是一個(gè)衡量圖像分割精度的重要指標(biāo)。mIoU可解釋為平均交并比,即多張測(cè)試圖像的IoU的均值。為了驗(yàn)證該無人機(jī)搜救系統(tǒng)在野外巡檢時(shí)的人像檢測(cè)精度,從3 m~23 m拍攝高度的航拍圖像中每隔5 m選取250張圖像,共計(jì)1 000張圖像進(jìn)行IoU值和人像識(shí)別率測(cè)試(見表1)。 (a)IoU平面示意圖 (b)IoU-航拍高度關(guān)系 圖5 測(cè)試結(jié)果分析 準(zhǔn)確率計(jì)算公式為: (4) 其中,對(duì)于單個(gè)高度段的測(cè)量結(jié)果,Acc表示識(shí)別準(zhǔn)確率,RS表示識(shí)別成功的圖片數(shù)量,Sum表示測(cè)試集總數(shù),實(shí)驗(yàn)中Sum默認(rèn)取值為250。整合四個(gè)高度段的測(cè)試結(jié)果并計(jì)算其平均準(zhǔn)確率mAcc,計(jì)算公式為: (5) 測(cè)試結(jié)果顯示,系統(tǒng)的視覺分析功能在無人機(jī)飛行高度為18 m以下時(shí)都有非常好的識(shí)別效果,識(shí)別準(zhǔn)確率大多都能達(dá)到90%以上。但其中仍存在人像無法識(shí)別的情況,原因主要有兩個(gè)方面:一方面,隨著無人機(jī)飛行高度的不斷增加,人像在圖像中的占比越來越小,導(dǎo)致IoU在持續(xù)減小,具體變化情況如圖5(b)所示;另一方面,在不同的遇險(xiǎn)環(huán)境下,遇難者可能會(huì)被樹木、草叢等物體遮擋,導(dǎo)致人像在圖像中的占比大小不一致。這兩種情況都會(huì)不同程度地對(duì)識(shí)別的準(zhǔn)確率造成負(fù)面影響。實(shí)驗(yàn)表明,該系統(tǒng)測(cè)試穩(wěn)定,識(shí)別準(zhǔn)確率高,正常情況下能滿足當(dāng)前對(duì)野外遇險(xiǎn)人員的搜救需求。 主要從目標(biāo)檢測(cè)、圖像拼接、上位機(jī)系統(tǒng)等方面對(duì)智能搜救無人機(jī)進(jìn)行了設(shè)計(jì)。設(shè)計(jì)的無人機(jī)搜救系統(tǒng)功能完善,操作簡便,實(shí)時(shí)性好,能較大地減少野外救援的工作量。實(shí)驗(yàn)表明:該搜救系統(tǒng)穩(wěn)定性好,能實(shí)現(xiàn)多方位巡檢。目標(biāo)檢測(cè)及圖像拼接的效率和精度也較高,可以滿足多種復(fù)雜環(huán)境下的搜救需求。4.3 圖像拼接與去縫
5 上位機(jī)系統(tǒng)設(shè)計(jì)
6 實(shí)驗(yàn)與結(jié)果分析
7 結(jié)束語