胡夢琪
(廣東南方海岸科技服務有限公司,廣東 廣州 510000)
在復雜的海洋氣象環(huán)境下,各種船舶特征受天氣原因、拍攝角度以及載貨情況等因素的影響,傳統(tǒng)視頻提取技術與方法難以完成相關任務。在海域視頻監(jiān)控場景中,船舶圖像、視頻經(jīng)常存在運動模糊和對焦不準等情況,從而導致錯誤分類的問題。由于拍攝角度、光照變化等因素的影響,在不同數(shù)據(jù)集內(nèi)即使是同一種類的特征,也并不具有同一分布。這就使在一個數(shù)據(jù)集上訓練的深度神經(jīng)網(wǎng)絡沒辦法直接在其他數(shù)據(jù)集上獲得較高的準確率。
該方法采用深度學習的技術手段,在岸邊水面比較復雜的環(huán)境下,通過神經(jīng)網(wǎng)絡對前端設備采集的視覺圖像進行處理,具備精準識別目標、目標分類以及目標文字檢測等多種檢測和識別能力。
基于遷移學習的思路,該文用分類網(wǎng)絡結合對抗生成網(wǎng)絡解決遷移學習的問題。通過分類網(wǎng)絡與判別器進行對抗,通過訓練使判別器不能區(qū)分原數(shù)據(jù)集與遷移數(shù)據(jù)集,借此學習遷移數(shù)據(jù)集提取優(yōu)秀特征的能力;同時,通過原數(shù)據(jù)集標簽訓練檢測網(wǎng)絡,使特征提取網(wǎng)絡提取特有特征的能力不被退化,準確識別船舶特征。該技術的船舶深度學習框架如圖1所示。
圖1 船舶深度學習框架
在針對船舶特征的數(shù)據(jù)集中,強標簽需要對圖像中船舶的各種特征進行標注,包括船舶類型、船名、裝載情況和吃水線等。半監(jiān)督使用的標簽指部分數(shù)據(jù)樣本有標注,同時存在部分數(shù)據(jù)樣本是無標注的情況。為深度學習算法在不同環(huán)境、不同光照條件下的實際應用提供了可能。
采用圖像特征分類的深度殘差網(wǎng)絡是卷積神經(jīng)網(wǎng)絡的先進架構,深度殘差網(wǎng)絡通過引入殘差模塊,能夠自適應地調(diào)整學習能力,降低過擬合的風險。同時,殘差模塊使反向傳播的信號更容易傳播,因此使訓練比以往更深、更強大的卷積神經(jīng)網(wǎng)絡成為可能[1]。
由于拍攝角度、光照變化等因素的影響,在不同數(shù)據(jù)集內(nèi)即使是同一種類的特征也并不具有同一分布,這就使在一個數(shù)據(jù)集上訓練的深度神經(jīng)網(wǎng)絡不能直接在其他數(shù)據(jù)集上獲得較高的準確率。因此,先把數(shù)據(jù)映射到特征空間,獲得特征向量,然后在這個新的特征空間下加入約束,減少2個域特征之間的分布差異。結合分類網(wǎng)絡與判別器設計半監(jiān)督分類框架,通過對抗訓練降低判別器對原數(shù)據(jù)集與遷移數(shù)據(jù)集的分辨力,從而獲得遷移數(shù)據(jù)集提取優(yōu)秀特征的能力;同時,通過原數(shù)據(jù)集標簽訓練檢測網(wǎng)絡,使特征提取網(wǎng)絡提取特有特征的能力不被退化。半監(jiān)督分類框架圖如圖2所示。
圖2 結合分類網(wǎng)絡與判別器的半監(jiān)督分類框架圖
該方法結合了半監(jiān)督與弱監(jiān)督算法,主要通過多實例算法應用弱標簽數(shù)據(jù)樣本對網(wǎng)絡進行訓練,再用強標簽數(shù)據(jù)樣本對深度神經(jīng)網(wǎng)絡進行調(diào)優(yōu)。這種做法可以通過少量強標簽數(shù)據(jù)樣本訓練得到深度神經(jīng)網(wǎng)絡,具有一定的特征提取能力與分類能力。同時,結合聚類算法、弱標注數(shù)據(jù)以及無標注數(shù)據(jù)有效地對深度網(wǎng)絡進行訓練,進一步強化深度神經(jīng)網(wǎng)絡的表達能力,使其具有較高的準確率。
將YOLO網(wǎng)絡與遞歸神經(jīng)網(wǎng)絡或3D卷積神經(jīng)網(wǎng)絡結合起來,同時改進相關網(wǎng)絡結構,加入更有利于訓練的損失函數(shù)與監(jiān)督策略,提高在小尺度多目標、嚴重遮擋目標等復雜場景下的檢測精度,減少遞歸神經(jīng)網(wǎng)絡和3D卷積神經(jīng)網(wǎng)絡的計算復雜度。
卷積神經(jīng)網(wǎng)絡能很好地提取圖像特征,但當處理序列信息時,需要帶有記憶能力的神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡(RRecurrent Neutral Networks,RNN)能循環(huán)使用過去的序列信息,形成一種記憶效果。長短期記憶網(wǎng)絡(Long Short Term Memory Networks,LSTM)是一種特殊結構的RNN,能選擇性地記憶或遺忘過去的序列信息,解決RNN的“長依賴”問題。圖3是3個重復連接的LSTM單元,每個LSTM單元包括遺忘門、輸入門和輸出門3個門控和1個cell細胞單元。細胞單元用來儲存信息狀態(tài),門控單元用來控制細胞狀態(tài)的更新。Ft作為t時刻的采集輸入圖片。
圖3 結合YOLO和LSTM網(wǎng)絡的時空關聯(lián)檢測框架
遺忘門接受前一個時間序列的隱藏層信息ht-1和當前序列的輸入信息Xt,通過Sigmoid函數(shù)輸出1個值在0~1的向量ft,從而選擇性地記憶前一個序列的細胞狀態(tài)信息Ct-1(0表示全部遺忘,1表示全部記憶),遺忘門如公式(1)所示。
式中:σ為Sigmoid 函數(shù);Wf為遺忘門的權重矩陣;bf為遺忘門的偏置項。
輸入門也接受隱藏層信息ht-1和當前序列輸入信息Xt,通過sigmoid函數(shù)輸出1個值在0~1的向量it,選擇性記憶當前序列的信息,并和Ct-1共同更新當前細胞狀態(tài)Ct,如公式(2)~公式(4)所示。
式中:Ct為輸出向量。
輸出門接受隱藏層信息ht-1和當前序列輸入信息Xt,通過Sigmoid函數(shù)輸出1個值在0~1的向量Ot,選擇性地輸出當前細胞狀態(tài)信息。輸出門如公式(2)、公式(3)所示。
式中:WO為權重矩陣;b0為偏置項;ht為輸出向量;tanh(·)為雙曲正切函數(shù)。
基于時空關聯(lián)的船舶特征識別技術,針對這一特定場景,該技術從時間和空間2個維度有效地提取船舶的特征。
強光的反射也會造成難以識別船舶的圖片。因此,系統(tǒng)提出了一種去反射的方法來消除強烈光照所帶來的影響。將帶反射的圖像分解為背景圖像和反射圖像,結合用戶交互標注和邊緣信息,通過引入一個級聯(lián)的可以進行圖像修補的增強網(wǎng)絡,構建了一個能夠快速處理圖像的用戶引導的單圖反射去除網(wǎng)絡,輸入帶有不期望反射的圖像,經(jīng)過用戶交互程序、背景-反射分解和背景細節(jié)修補后,輸出不帶反射的背景圖片,實現(xiàn)了最優(yōu)的反射去除效果。
基于空洞卷積(Dilated Convolution)能夠在增大特征感受的同時不損失特征的空間分辨率的特性,系統(tǒng)提出了一種融合注意力多尺度空洞卷積特征的顯著性目標檢測算法(AADF-Net),該算法能夠從背景復雜的照片中提取目標船舶的有效特征,如圖4所示。
圖4 融合注意力多尺度空洞卷積特征的顯著性目標檢測算法網(wǎng)絡框架
普通卷積產(chǎn)生的特征層Dm是經(jīng)過空洞卷積以及非局部化產(chǎn)出的特征層,分別將特征層經(jīng)過多分支并行空洞卷積結構及非局部化結構,得到新的特征層AG和AL。新的特征層經(jīng)過過濾,與原始特征圖DK進行合并與卷積,獲得目標特征DK,實現(xiàn)目標檢測。
此外,系統(tǒng)還設計了另外一種基于雙金字塔網(wǎng)絡的顯著性目標檢測算法[2]。通過在空間和通道維度將自注意力機制融入局部區(qū)域的上下文中,集成不同空間局部區(qū)域上下文和通道局部區(qū)域上下文,能夠在增強全局上下文信息的同時,不損失特征的空間分辨率,從而增強顯著性物體檢測的效果[3]。
在不同場景下對大量標注船舶數(shù)據(jù)的依賴制約了深度學習模型的應用,因此將無監(jiān)督領域自適應海量已標注源域數(shù)據(jù)集學習到的知識遷移到未標注的目標域是十分重要的。因此,該文提出了一種基于異常樣本篩選的無監(jiān)督領域自適應圖像分類方法,根據(jù)每個樣本的重要程度來衡量樣本對領域自適應對齊的貢獻。使用網(wǎng)絡的特征范數(shù)和預測熵來對主流樣本和異常樣本進行建模,通過特征的重要度引導特征空間和預測空間中樣本訓練梯度的調(diào)控。通過這種方式減輕異常噪聲樣本對域的數(shù)據(jù)統(tǒng)計分布估計的影響,同時在領域?qū)R期間增強了相應的重要樣本,從而顯著地增強了無監(jiān)督圖像分類的效果。
該文提出了一種基于定位優(yōu)化的無監(jiān)督域適應目標檢測框架,框架中采用了基于殘差二分支結構的域適應特征提取網(wǎng)絡,以增強網(wǎng)絡的域適應能力。此外,框架也采用了偽標簽訓練策略來解決無監(jiān)督域適應檢測方法在物體定位上表現(xiàn)能力不足的問題,提高了檢測精度、網(wǎng)絡域適應能力以及域適應檢測網(wǎng)絡定位的準確性。
基于上下文感知和尺度不敏感的時序重復動作計數(shù)算法(如圖5所示),實現(xiàn)了從粗糙到細致的重復模式循環(huán)長度修正,該算法減少了由于重復模式循環(huán)長度多變而帶來的計數(shù)誤差,在時域重復模式計數(shù)任務上的表現(xiàn)更優(yōu)且魯棒性更強。該算法將視頻的上下文信息和循環(huán)長度改善信息作為樣本引入上下文網(wǎng)絡感知回歸網(wǎng)絡中學習,強化其判別能力,通過圖像幀差均值評估目標狀態(tài)并自適應調(diào)節(jié)模型更新的學習率。
圖5 基于上下文感知和尺度不敏感的時序重復動作計數(shù)算法流程圖
該文采用深度學習的技術手段,實現(xiàn)采用人工智能方式對船舶進行監(jiān)測的目標,通過不斷地學習,系統(tǒng)的識別率也逐漸提高,從而精準地對船舶進行識別。通過深度學習提高船舶識別率,實現(xiàn)精準的船舶識別,船舶檢測率大于95%。
智能化檢測船舶的船牌位置,船牌一般分為2種,印刷類船牌和懸掛在駕駛室的船牌,通過深度學習的技術手段能對2種船牌進行檢測。初始船牌識別率大于80%,經(jīng)過在當前卡口樣本的學習與訓練后,長期船牌識別率大于90%。