岳成海,王 旭,宮俊玲,曾俊寶,徐高朋
(1.中國科學(xué)院沈陽自動化研究所 機器人學(xué)國家重點實驗室,遼寧 沈陽 110016;2.中國科學(xué)院機器人與智能制造創(chuàng)新研究院,遼寧 沈陽 110169;3.中國科學(xué)院光電信息處理重點實驗室,遼寧 沈陽 110169;4.遼寧省水下機器人重點實驗室,遼寧 沈陽 110169)
隨著聲學(xué)傳感技術(shù)的不斷發(fā)展,聲吶設(shè)備的不斷先進,基于聲學(xué)圖像的水下目標(biāo)識別已經(jīng)成為越來越重要的一個課題,世界上各國的軍事專家,學(xué)者,研究人員等都對其極為關(guān)注。傳統(tǒng)的聲學(xué)圖像目標(biāo)識別系統(tǒng)中,主要以圖像分割、輪廓提取等人工特征為主。近年來,隨著深度學(xué)習(xí)在圖像識別技術(shù)領(lǐng)域的不斷發(fā)展,將深度特征應(yīng)用到聲學(xué)圖像目標(biāo)識別中來[1-4],與人工特征進行結(jié)合,以此提高目標(biāo)識別準(zhǔn)確率成為可能。
聲吶成像是獲取水下信息的重要方式,其設(shè)備包括前視聲吶系統(tǒng)、側(cè)掃聲吶系統(tǒng)、合成孔徑聲吶系統(tǒng)等。側(cè)掃聲吶成像分辨率高、成像覆蓋完整,被廣泛應(yīng)用于目標(biāo)探測與搜索,水下地形勘探等[5-6]。
側(cè)掃聲吶回波數(shù)據(jù)受作用原理[7-8]、復(fù)雜水下環(huán)境等因素影響,存在干擾與衰減,一般而言聲波頻率越高、距離越遠衰減的越嚴(yán)重,同時噪聲干擾也越明顯。因此需要對側(cè)掃聲吶數(shù)據(jù)進行必要的預(yù)處理,包括衰減補償及噪聲抑制等。側(cè)掃描聲吶以盡可能高的采樣頻率對回波數(shù)據(jù)進行采集,通過結(jié)合AUV運動參數(shù)與聲吶參數(shù)建立時空模型,對聲吶換能器接收到的回波數(shù)據(jù)進行解析,定位每次回波的首尾位置(包含水底、水面等信息)。聲吶換能器接收到的第1個回波信號一般來自載體正下方,其強度較大,之后接收到的回波在強度上具有較好的連續(xù)性,根據(jù)聲吶量程設(shè)置完成一次測量,一次測量得到的回波序列稱為1 Ping。如圖1,圖 1(a)為側(cè)掃聲吶工作模型,圖 1(b)為單側(cè)聲吶回波數(shù)據(jù),根據(jù)AUV采集到的水深、高度、姿態(tài)等信息可知,圖1(b)中“1”為AUV端、“2”為水底、“3”為水面、“4”為最遠端。
圖1 回波信號Fig.1 Sonar signals
對換能器采集的回波數(shù)據(jù)進行定位解析后,進行一定的濾波處理與補償,量化編碼后映射為圖像中的灰度信息,得到一行圖像數(shù)據(jù)。聲吶在前進過程中,結(jié)合載體的運動參數(shù)以特定的頻率不斷發(fā)射、接收處理回波信號,形成回波圖像序列,將左右舷的回波圖像序列進行拼接,形成側(cè)掃聲吶瀑布圖像。拼接后的圖像為灰度圖像,為便于分析與觀測,一般按照一定的色表進行像素映射,從而得到較為直觀的彩色圖像。
由于各類干擾源的存在,側(cè)掃描聲納的原始圖像存在一定的條紋干擾與像素空洞,一般為采樣數(shù)據(jù)丟失或回波數(shù)據(jù)丟失造成的。本文采用二步濾波法去除噪聲:首先采用垂直方向的中值濾波去除條紋噪聲,然后采用水平方向的均值濾波填充空洞噪聲如圖3。
圖2 側(cè)掃聲吶圖像Fig.2 Side-scan sonar image
圖3 圖像去噪Fig.3 Image denoised
本文基于Darknet框架設(shè)計輕量化卷積神經(jīng)網(wǎng)絡(luò)模型,該深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)由 C語言實現(xiàn),沒有任何依賴項,支持CPU與GPU,可裁剪性強,便于嵌入式部署。本文充分考慮到側(cè)掃聲吶成像特點,針對目標(biāo)聲學(xué)圖像尺寸變化大等問題,設(shè)計有效的網(wǎng)絡(luò)模型。本文設(shè)計的單類別目標(biāo)識別網(wǎng)絡(luò)結(jié)構(gòu)如下。
1)網(wǎng)絡(luò)輸入。
側(cè)掃聲吶圖像合成瀑布圖后,包含左右聲吶數(shù)據(jù)的圖像較寬,本文按照一定高度截取圖像后,將左右聲吶圖像按照上下方式拼接。拼接后的圖像同樣滿足寬度大于高度。卷積神經(jīng)網(wǎng)絡(luò)模型輸入尺寸設(shè)置為608×416(W×H),如圖4。
圖4 圖像拼接Fig.4 Image merged
2)骨干網(wǎng)絡(luò)。
骨干網(wǎng)絡(luò)參考YOLO-v3結(jié)構(gòu)[2-3],設(shè)計層數(shù)為12層,如圖5。第1層利用24個3×3/1的卷積核對原始圖像進行卷積計算,提取淺層特征,對卷積結(jié)果采用leaky進行激活輸出,得到608×416*24大小的特征圖;第2層采用最大值池化處理,窗口大小為2×2,移動步長為2,得到304×208*24的特征圖,實現(xiàn)對輸入淺層特征的降維處理,以減少計算量;第3層利用32個3×3/1的卷積核對上層輸出的特征子圖進行卷積運算,使用leaky進行激活輸出;第4層為窗口大小2×2,步長為2的最大值池化層;第5~12層分別進行5次卷積運算與3次最大值池化處理,依次得到不同深度的網(wǎng)絡(luò)特征。
圖5 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 Network structure
3)特征選擇。
被識別目標(biāo)尺寸變化范圍較大,本文分別選擇淺層、中層、深層3個網(wǎng)絡(luò)層特征,以適應(yīng)不同尺度的目標(biāo)識別。特征層1選擇第12層輸出,維度為 19×13*512;特征層 2由第 11層輸出進行 1次1×1/1*128的卷積運算后與第9層特征合并,再分別經(jīng)過 3×3/1*256、1×1/1*128、3×3/1*256 的卷積運算得到,維度為38×26*256;特征層3合并特征層2的部分輸出與第7層卷積輸出結(jié)果,經(jīng)過1次3×3/1*256卷積運算得到,維度為76×52*256。
4)結(jié)果輸出。
本文采用 yolo網(wǎng)絡(luò)結(jié)構(gòu)[10-11]思想,直接輸出目標(biāo)的位置與置信信息(x、y、w、h、confidence)5個基本參數(shù),由于本文只做單類別目標(biāo)識別,每個特征層可預(yù)測3個不同尺度的輸出,因此對上述特征輸出采用1×1/1*18的卷積運算。
本文訓(xùn)練數(shù)據(jù)由AUV采集的水下金屬球體聲吶數(shù)據(jù)經(jīng)過圖像合成得到,通過不同角度、不同水深與航行參數(shù)得到。數(shù)據(jù)集劃分為2類,一類是標(biāo)注好的帶有目標(biāo)的圖像,一類是沒有目標(biāo)的背景圖像,數(shù)據(jù)量以一比一設(shè)置,以便于網(wǎng)絡(luò)正確收斂。
使用K-means統(tǒng)計anchor(尺度參數(shù)):本文的網(wǎng)絡(luò)結(jié)構(gòu)需要首先根據(jù)標(biāo)注數(shù)據(jù)計算anchor值,由于采用的是3特征層結(jié)構(gòu),需要統(tǒng)計9個anchor值,K-means聚類算法,采用距離作為相似性的評價指標(biāo),即認為2個對象的距離越近,其相似度就越大,該算法可比較準(zhǔn)確的統(tǒng)計出代表框大小。
損失函數(shù)與YOLO-v3相同,包含3部分:第1部分是目標(biāo)位置x,y,w,h(左上角和長寬)帶來的誤差,也即是box帶來的loss,box帶來的loss分為x,y帶來的BCE Loss以及w,h帶來的MSE Loss;第2部分是目標(biāo)置信度帶來的誤差,也就是obj帶來的loss(BCE Loss);第3部分是類別帶來的誤差,也就是class帶來的loss(類別數(shù)個BCE Loss)。
模型訓(xùn)練采用AlexeyAB開源庫實現(xiàn),訓(xùn)練數(shù)據(jù)為1 900個,測試數(shù)據(jù)為200個,從下圖訓(xùn)練過程可見,經(jīng)過8 400次迭代后,loss小于0.1,平均檢測精度達99.1%,模型達到收斂狀態(tài)。最終得到的模型大小為11 MB,單次目標(biāo)檢測時間為105 ms(Intel I7處理器)。
基于卷積神經(jīng)網(wǎng)絡(luò)完成目標(biāo)識別后,還需要對目標(biāo)進行進一步的特征分析[9,12]。特定聲學(xué)成像場景下,目標(biāo)聲圖灰度等級較低,特征單一,需采用有效的圖像增強、目標(biāo)分割、人工特征提取來鑒別真實目標(biāo)。圖 7(a)為包含目標(biāo)的聲學(xué)圖像(經(jīng)過去噪處理后轉(zhuǎn)為灰度圖像),對比度較低,不利于目標(biāo)提取與分割。本文首先采用去均值處理得到圖7(b),圖7(b)中目標(biāo)附近依然存在灰度干擾,對圖7(b)采用Gamma增強處理,γ取值1.5,效果如圖7(c),可見目標(biāo)區(qū)域有效凸顯,非常利于后續(xù)目標(biāo)分割。
圖6 訓(xùn)練過程Fig.6 Training result
圖7 處理效果Fig.7 Image processed
本文所述人工特征包含:尺度、亮度值、外形、高亮區(qū)域數(shù)量、灰度值分布等。對聲學(xué)圖像分析可知,空心金屬球與實心金屬球展現(xiàn)的聲圖具有較為明顯的不同:空心球體呈現(xiàn)多亮斑特點、實心球亮斑較大且比較圓,該特征可作為金屬球的類別判定。圖8(a)為空心球體,圖8(b)為實心球體。
圖8 處理效果Fig.8 Image processed
如圖9,側(cè)掃聲吶圖像中像素點的位置實際上是換能器與水底表面回波點之間的聲波往返時間與水中聲速相乘獲得的傾斜距離,并不是載體與水底成像點之間的水平距離,這是導(dǎo)致聲學(xué)圖像幾何畸變的主要原因。此外,載體的運動參數(shù)與姿態(tài)也對成像造成幾何畸變。本文基于聲圖定位目標(biāo)后,引入修正機制得到目標(biāo)的真實位置。根據(jù)側(cè)掃聲吶成像方式可知,目標(biāo)物在側(cè)掃聲吶圖像中存在橫向壓縮,目標(biāo)與載體距離越大,壓縮率越大。所以為了準(zhǔn)確獲取聲圖中目標(biāo)物的實際位置,有必要對目標(biāo)的坐標(biāo)位置進行斜距校正。
圖9 幾何模型Fig.9 Geometric model
假設(shè)海底表面是水平面,海底回波點的平距就可以用下式來計算:
式中:D為平距;S為斜距;H為載體距離水底高度。得到平距后,已知AUV的空間位置信息,即可計算出目標(biāo)實際所處的位置。
本文針對待識別目標(biāo)的聲吶圖像特點,設(shè)計了輕量化卷積神經(jīng)網(wǎng)絡(luò)模型,達到了99.1%以上的目標(biāo)檢測精度,模型大小11 MB,適于低功耗嵌入式平臺部署。融合了人工特征進行目標(biāo)特性分析,針對聲圖灰度等級較低的情形,采用的目標(biāo)提取與圖像增強方法簡單有效。