明道睿,張 鴻
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.武漢科技大學(xué) 智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)
航運(yùn)監(jiān)控是智能視頻監(jiān)控[1]系統(tǒng)的一個(gè)重要應(yīng)用,即是將船只上安裝的攝像頭所拍攝到的視頻流實(shí)時(shí)傳回到后臺控制系統(tǒng)的識別模型當(dāng)中,經(jīng)過視頻數(shù)據(jù)的預(yù)處理提取出連續(xù)的視頻幀輸入到識別模型當(dāng)中,從而得到該視頻流所對應(yīng)的事件內(nèi)容。智能視頻監(jiān)控從根本上解決了人力監(jiān)控工作所可能導(dǎo)致的疏漏,實(shí)現(xiàn)了全天候?qū)ΡO(jiān)控區(qū)域的實(shí)時(shí)監(jiān)控,能夠?qū)σ曨l內(nèi)容進(jìn)行及時(shí)準(zhǔn)確的分析并且報(bào)告異常事件,這極大地提升了視頻監(jiān)控的安全級別的同時(shí)也降低了人力成本,從而成為當(dāng)前的一個(gè)極具挑戰(zhàn)性的前沿課題[2]。智能視頻監(jiān)控的核心就是能夠?qū)σ曨l內(nèi)容進(jìn)行準(zhǔn)確識別,所設(shè)計(jì)的模型需要從視頻資源中提取數(shù)據(jù)的時(shí)空特征,并且還會因?yàn)榇箫L(fēng)、大霧、攝像頭抖動(dòng)等意外因素影響數(shù)據(jù)質(zhì)量,這使得智能視頻監(jiān)控成為一項(xiàng)具有相當(dāng)挑戰(zhàn)性的工作。
近幾年深度學(xué)習(xí)[3-5]技術(shù)獲得了長足發(fā)展,計(jì)算機(jī)視覺的各個(gè)領(lǐng)域均開始引入深度學(xué)習(xí)的方法,尤其對于一些結(jié)構(gòu)復(fù)雜、訓(xùn)練量巨大的神經(jīng)網(wǎng)絡(luò)模型,有著傳統(tǒng)算法無法相比的優(yōu)勢。目前的圖像分類、識別以及目標(biāo)檢測等領(lǐng)域已經(jīng)獲得了長足的技術(shù)發(fā)展,但它們只能用來識別靜態(tài)性質(zhì)的圖片數(shù)據(jù)集,相同類別的圖片之間也無法挖掘出時(shí)空序列的相關(guān)性,而近年來熱門的AlexNet[6]、VGG[7]、GoogleNet[8]都無法解決此類問題,它們并不能用于處理視頻數(shù)據(jù),因?yàn)橐曨l幀的預(yù)測需要提取視頻幀數(shù)據(jù)的時(shí)空特征,二維的卷積神經(jīng)網(wǎng)絡(luò)無法做到,視頻數(shù)據(jù)的識別問題因此成為計(jì)算機(jī)視覺領(lǐng)域多年來的一個(gè)技術(shù)難題。如今視頻識別領(lǐng)域的研究學(xué)者們以深度學(xué)習(xí)思想為核心開始設(shè)計(jì)出一些契合視頻數(shù)據(jù)特點(diǎn)的新模型,比較有代表性的有三維卷積神經(jīng)網(wǎng)絡(luò)[9]以及雙通道網(wǎng)絡(luò)[10]等。本文充分調(diào)研了該領(lǐng)域最新技術(shù)成果的架構(gòu)思想,依據(jù)視頻數(shù)據(jù)時(shí)空特征的特殊性設(shè)計(jì)一種端到端神經(jīng)網(wǎng)絡(luò)模型,在實(shí)際的航運(yùn)視頻數(shù)據(jù)集中得到了理想的效果。
隨著近年來深度學(xué)習(xí)技術(shù)的推廣,眾多學(xué)者們在視頻識別的領(lǐng)域提出一系列新的算法或者較之以前有所改進(jìn)的算法,推動(dòng)了視頻識別技術(shù)的高速發(fā)展,它們以是否將深度學(xué)習(xí)作為核心策略被區(qū)分開來。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要經(jīng)歷數(shù)據(jù)的預(yù)處理、特征提取、特征選擇等過程,最后使用機(jī)器學(xué)習(xí)領(lǐng)域的相關(guān)分類方法對事件內(nèi)容進(jìn)行分類得到最終的結(jié)果。此類方法對于解決視頻問題通常的切入點(diǎn)是檢測數(shù)據(jù)的時(shí)空興趣點(diǎn)(STIP)[11-13],常用的算法比如DT[14]算法,它是通過構(gòu)建視頻數(shù)據(jù)的光流場來獲取運(yùn)動(dòng)目標(biāo)的軌跡序列,接著使用Fisher Vector[15]算法以矢量量化的策略構(gòu)建視覺詞典,將之前提取到的視頻數(shù)據(jù)的HOF等4種特征進(jìn)行編碼,最后使用SVM[16]分類器輸出最終結(jié)果。IDT[17]算法是對DT算法的一個(gè)優(yōu)化策略,主要是通過消除相機(jī)運(yùn)動(dòng)對于算法過程的負(fù)面影響來提升算法效率。
深度學(xué)習(xí)的基本思想在于對目標(biāo)對象能夠構(gòu)建出不同的契合于原理、特征或相關(guān)概念的表達(dá)層次,層次本身有著較高和較低的區(qū)別,較低層次可以作為基礎(chǔ)架構(gòu)推導(dǎo)出較高層次的定義,相對地,較高層次也能夠分解為不同的較低層次概念。深度學(xué)習(xí)最關(guān)鍵的兩個(gè)方面:①由多層或多個(gè)階段的非線性信息處理組成的模型;②擁有更高更抽象層次表達(dá)的特征能夠更好地應(yīng)用于自適應(yīng)類型的學(xué)習(xí)方式。由于深度學(xué)習(xí)能夠直接利用原始數(shù)據(jù),可以為識別行為提供更高效的特征表達(dá),因而在視頻識別領(lǐng)域,基于深度學(xué)習(xí)的方法也取得了一定的進(jìn)步,例如基于單幀識別的方法以及構(gòu)建三維卷積的識別方法?;趩螏R別的方法采用直接對從視頻流中截取的單幀圖像進(jìn)行特征學(xué)習(xí)的策略,但這種方法完全無法利用視頻幀的時(shí)序信息,因而效率較低。該方法可以做進(jìn)一步的優(yōu)化,比如采用間隔取幀的策略,每跳過一定數(shù)量的視頻幀再進(jìn)行取幀,最后將所有學(xué)習(xí)到的圖像特征送往全連接層進(jìn)行特征融合[18]。為了解決二維卷積無法有效提取視頻數(shù)據(jù)的時(shí)序信息的問題,提高訓(xùn)練效率,Heskes將二維卷積擴(kuò)展到三維,利用高維去表示低維的計(jì)算特征,采用第三個(gè)維度去表達(dá)視頻數(shù)據(jù)的時(shí)序特征,有著非常不錯(cuò)的識別能力。
Clark提出了一種時(shí)空雙流神經(jīng)網(wǎng)絡(luò)(two-stream neural network,TSNN),該模型由兩組并列的卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,兩組網(wǎng)絡(luò)分別以視頻數(shù)據(jù)的光流圖片和等間隔抽樣視頻幀作為輸入,提取視頻數(shù)據(jù)的時(shí)空特征信息,最后將時(shí)序特征和空間特征進(jìn)行融合。雖然該模型分離了時(shí)序特征和空間特征的識別,但特征提取的充分性仍然不夠,準(zhǔn)確率并未達(dá)到理想的程度。
為了解決上述問題,本文設(shè)計(jì)一種組約束深度神經(jīng)網(wǎng)絡(luò)模型(group-constrained deep neural network,GCDNN)進(jìn)行時(shí)空特征的提取,首先是采用與Inception模型相結(jié)合的VGG-16模型提取視頻幀序列的空間特征,之后采用優(yōu)化LSTM單元的深層雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(DBO-LSTM)提取視頻幀序列的時(shí)序特征,以端到端的方式將兩個(gè)模型連接,并利用稀疏組套索算法(sparse group lasso,SGL)[19]實(shí)現(xiàn)網(wǎng)絡(luò)中變量組級的稀疏化達(dá)到網(wǎng)絡(luò)的修剪效果,充分訓(xùn)練之后使用隨機(jī)森林算法[20]實(shí)現(xiàn)分類輸出。本文的GCDNN模型基于時(shí)空特征的特殊性采取對應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行提取,取得了對比模型中最高的識別精度,驗(yàn)證了所提模型的有效性。
本文基于實(shí)際的航運(yùn)監(jiān)控項(xiàng)目撰寫,是針對航運(yùn)過程中船舶的各類事件進(jìn)行識別,基于項(xiàng)目的推進(jìn)不斷地優(yōu)化模型。由于船舶體積較為龐大,攝像頭所拍攝的短時(shí)間內(nèi)的連續(xù)視頻幀無法提取到有效的反映船舶運(yùn)動(dòng)軌跡的時(shí)序信息,因而本文將提取間隔設(shè)置為5 min,以連續(xù)的6幀視頻幀作為模型輸入數(shù)據(jù),實(shí)現(xiàn)監(jiān)控事件的識別過程。
本文所設(shè)計(jì)的GCDNN模型包括以端到端的方式連接的處理視頻數(shù)據(jù)空間類型特征的經(jīng)過改進(jìn)的VGG-16、處理視頻數(shù)據(jù)時(shí)序特征的優(yōu)化LSTM單元的深層雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(DBO-LSTM),以及最后的網(wǎng)絡(luò)修剪層和輸出層。模型的整體架構(gòu)如圖1所示。
圖1 GCDNN整體架構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)對于提取數(shù)據(jù)的空間特征有著最好的效果,因此本文的GCDNN模型將其作為第一部分,結(jié)合第二部分的DBO-LSTM共同提取視頻幀數(shù)據(jù)的時(shí)空特征。圖2展示了航運(yùn)中船舶卸貨過程的特征提取過程。
圖2 GCDNN的時(shí)空特征提取建模
VGG模型為了加深增寬模型的架構(gòu),并減輕計(jì)算壓力,采用小規(guī)格的池化核和卷積核,分別用以減小模型的寬高尺度以及增加網(wǎng)絡(luò)的通道數(shù)量,但因此限制了網(wǎng)絡(luò)的整體深度。為了提高網(wǎng)絡(luò)的特征提取能力,同時(shí)避免網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,提升訓(xùn)練速度,本文將InceptionV4中的第3個(gè)模塊Inception-C加入到VGG-16的卷積層之后。Inception是Google在2014年的ILSVRC比賽中取得優(yōu)異表現(xiàn)的CNN模型,從InceptionV1發(fā)展到InceptionV4。Inception模塊是做一個(gè)卷積分解,采用兩個(gè)結(jié)構(gòu)簡單的一維卷積構(gòu)成原有的多維卷積,例如一個(gè)5*5的卷積塊可以由5*1和1*5兩部分構(gòu)成。這種拆分方式可以通過拓展模型非線性的表達(dá)能力來降低過擬合現(xiàn)象的發(fā)生幾率,并且可以較大程度地減少網(wǎng)絡(luò)參數(shù),提升模型效率。因此這種非對稱的卷積拆分策略可以取得更加優(yōu)秀的性能。但為了避免網(wǎng)絡(luò)結(jié)構(gòu)過深出現(xiàn)梯度彌散而導(dǎo)致模型性能下降,本文將V4模型中表現(xiàn)最佳的一個(gè)模塊Inception-C添加到VGG模型中。
本文所拓展的VGG模型包括5個(gè)卷積層(convolution)、5個(gè)最大池化層(max pooling)、ELU(exponential linear unit)激活層、LRN(local response normalization)以及Inception-C等結(jié)構(gòu),由于高維特征在經(jīng)過池化操作之后會產(chǎn)生特征的分離,原有的時(shí)序類信息將會丟失而只留存下數(shù)據(jù)的空間特征,因此模型去掉最后的全連接層以及分類層以避免這種現(xiàn)象的發(fā)生,卷積層的輸出將作為DBO-LSTM的輸入。前兩層卷積層均連續(xù)進(jìn)行2次卷積,后三層則均連續(xù)進(jìn)行3次卷積,卷積層之后都會跟上相應(yīng)的最大池化層。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 拓展的VGG-16網(wǎng)絡(luò)模型
模型的輸入是VGG的標(biāo)準(zhǔn)輸入224×224,模型中每個(gè)卷積塊均進(jìn)行3×3的卷積操作,前3個(gè)卷積層的卷積核分別設(shè)置為64、128、256個(gè),后兩個(gè)均設(shè)置為512個(gè),頂層的移動(dòng)步長設(shè)為4個(gè)像素,后4個(gè)卷積層的移動(dòng)步長均設(shè)置為1個(gè)像素,模型的激活層采用ELU(指數(shù)線性單元)激活函數(shù),該函數(shù)左右兩側(cè)具備不同的飽和性,左側(cè)的軟飽和特性可以讓函數(shù)的抗干擾能力得到較大提高,并且可以促使經(jīng)過函數(shù)之后的輸出均值接近零,因而具有更快的收斂速度。在前4個(gè)池化層的每一層后面均增加局部響應(yīng)歸一化(local response normalization,LRN)[21]層,提升模型的泛化能力,最后的Inception-C模塊則用于增加網(wǎng)絡(luò)深度和寬度,提升網(wǎng)絡(luò)的性能,卷積的結(jié)果將輸入到DBO-LSTM中進(jìn)行下一部分的訓(xùn)練。
序列數(shù)據(jù)通常是指沿著時(shí)間軌跡所提取的數(shù)據(jù),而用以操作序列數(shù)據(jù)的模型則是RNN(recurrent neural network),此類數(shù)據(jù)反映了某些現(xiàn)象、事物等隨時(shí)間的變化程度或狀態(tài),RNN的網(wǎng)絡(luò)架構(gòu)通過模塊的循環(huán)完成信息從上到下的逐層傳輸,信息流從輸入單元依次流向隱藏單元以及輸出單元,網(wǎng)絡(luò)模塊的隱含層每個(gè)時(shí)刻的輸出都依賴于以往時(shí)刻的信息,在提取數(shù)據(jù)時(shí)序特征方面,RNN有著比卷積神經(jīng)網(wǎng)絡(luò)更好的效果,因此本文設(shè)計(jì)一種優(yōu)化LSTM單元的深層雙向RNN來提取數(shù)據(jù)的時(shí)序特征。
本文的DBO-LSTM是一個(gè)深層雙向的RNN,將每一步的輸出與后續(xù)的序列聯(lián)系起來,每個(gè)序列向前和向后呈現(xiàn)到兩個(gè)單獨(dú)的LSTM,最后的輸出結(jié)果將為正向反向過程輸出的串聯(lián)向量。由于實(shí)際航運(yùn)視頻監(jiān)控項(xiàng)目的數(shù)據(jù)量較大,需要網(wǎng)絡(luò)有更強(qiáng)大的表達(dá)與學(xué)習(xí)能力,因此DBO-LSTM將每一個(gè)RNN的隱含層增加至三層,加深網(wǎng)絡(luò)結(jié)構(gòu),使其能夠在高層更抽象地表達(dá)特征,較好提升網(wǎng)絡(luò)性能。DBO-LSTM的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 DBO-LSTM網(wǎng)絡(luò)結(jié)構(gòu)
LSTM是RNN模型的一種特殊結(jié)構(gòu)形式,對于具有長期依賴特征的問題具備較好的解決能力,針對連續(xù)時(shí)間軌跡點(diǎn)之間的延遲和間隔都較長的事件類型,LSTM使用軟門這一獨(dú)特結(jié)構(gòu)來處理,軟門本身通過激活RNN來建模,共分為輸入門、忘記門、輸出門3種,軟門通常被用來調(diào)整模型中的細(xì)胞狀態(tài),通過其相應(yīng)的門激活與相應(yīng)動(dòng)作有關(guān)的激活之間的乘積來進(jìn)行狀態(tài)的調(diào)節(jié)。
本文對LSTM單元做出優(yōu)化,將LSTM單元的忘記門和輸入門進(jìn)行耦合。模型在任一時(shí)刻狀態(tài)中需要丟棄的信息由忘記門決定,會讀取ht-1和xt,ht-1表示上一個(gè)細(xì)胞的輸出,xt表示的是當(dāng)前細(xì)胞的輸入,忘記門通過輸出一個(gè)0到1之間的數(shù)值給每個(gè)在細(xì)胞狀態(tài)Ct-1中的數(shù)字來決定信息的取舍,其中,1和0分別代表著保留數(shù)據(jù)和舍棄數(shù)據(jù)的含義,具體輸入到細(xì)胞狀態(tài)中的信息數(shù)量由輸入門決定,常規(guī)的單元結(jié)構(gòu)是分開確定丟棄和添加信息的時(shí)刻,將兩種軟門耦合之后,新單元將會統(tǒng)一決定信息的流通,優(yōu)化后的LSTM單元僅會當(dāng)將要輸入在當(dāng)前位置時(shí)忘記,實(shí)時(shí)更新細(xì)胞中信息的存在狀態(tài),對于時(shí)序類信息的處理會更加高效。優(yōu)化后的LSTM單元結(jié)構(gòu)如圖5所示。
圖5 優(yōu)化的LSTM單元結(jié)構(gòu)
ft=σ(Wf[ht-1,xt]+bf)
(1)
it=σ(Wi[ht-1,xt]+bi)
(2)
(3)
(4)
(5)
(6)
(7)
在處理高維數(shù)據(jù)時(shí),需要構(gòu)建出輸入數(shù)據(jù)當(dāng)中擁有最多有效信息的最小子集,以此完成特征選取這一關(guān)鍵步驟。而網(wǎng)絡(luò)中不斷輸入的特征數(shù)據(jù)通常需要增加隱層神經(jīng)元數(shù)量支撐,這就需要進(jìn)行網(wǎng)絡(luò)的修剪,在這方面目前常見的是l1和l2正則化,但在應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)中時(shí),移除神經(jīng)元必須當(dāng)它的所有輸入和輸出權(quán)值一致為零時(shí)才可以辦到,因而網(wǎng)絡(luò)的修剪效果并不太理想。本文利用稀疏組套索(SGL)正則化算法, 將一個(gè)神經(jīng)元的所有輸出權(quán)值視為一組,在組套索項(xiàng)的約束下同組的變量同時(shí)為零或同時(shí)不為零,進(jìn)而可以將它們同時(shí)移除,不同位置的神經(jīng)元被移除將會有著不同的作用:輸入層神經(jīng)元被移除相當(dāng)于一次特征選擇過程,隱層神經(jīng)元被移除可以起到簡化網(wǎng)絡(luò)的作用。
SGL的核心策略是采取組級稀疏的思想將每一個(gè)神經(jīng)元的全部輸出交互統(tǒng)一置為零或非零,詳細(xì)來說就是,SGL中不同的組級稀疏效果分別由3個(gè)不同的變量組實(shí)現(xiàn):
(1)輸入組Gin:組中一個(gè)元素gi∈Gin,i=1,…,d,它是網(wǎng)絡(luò)中第i個(gè)輸入神經(jīng)元所有輸出連接構(gòu)成的向量,即矩陣W1轉(zhuǎn)置的第一行;
定義所有的組為
G=Gin∪Gh∪Gb
(8)
組稀疏正則化可被寫為
(9)
RSGL(w)Rl2,1(w)+Rl1(w)
(10)
利用此SGL公式的任意一項(xiàng)就能獲得最優(yōu)解,達(dá)到最佳的修剪效果可以使GCDNN獲得最高的組稀疏性,并得到一個(gè)非常緊湊和高效的神經(jīng)網(wǎng)絡(luò)。
網(wǎng)絡(luò)的最后輸出層,采用隨機(jī)森林(random forest)算法完成輸出過程。隨機(jī)森林算法由LeoBreiman提出,利用隨機(jī)策略構(gòu)建出一個(gè)由眾多決策樹[22]組成的森林結(jié)構(gòu),決策樹(decision tree)也是樹結(jié)構(gòu),它的葉子結(jié)點(diǎn)和非葉子節(jié)點(diǎn)分別存儲目標(biāo)數(shù)據(jù)的類別屬性和相應(yīng)屬性測試的結(jié)果,而對于該屬性在所屬范圍內(nèi)的輸出存儲則是由決策樹的分支來完成。決策樹之間不會有任何相關(guān)性,每當(dāng)森林中進(jìn)來了一個(gè)輸入樣本,所有的決策樹都會對其類別進(jìn)行判斷,每一個(gè)判斷過程都是獨(dú)立的。最終被選擇最多的類別,就被預(yù)測為樣本的分類結(jié)果。本文采用隨機(jī)森林算法的原因在于,RF在處理高維數(shù)據(jù)方面有著優(yōu)秀的表現(xiàn),它不用做特征選擇,對數(shù)據(jù)集的適應(yīng)能力很強(qiáng),并且由于隨機(jī)性的引入,使用RF作為分類器不容易發(fā)生過擬合現(xiàn)象,抗噪聲能力優(yōu)秀。
本文實(shí)驗(yàn)所采用的數(shù)據(jù)集是在整個(gè)項(xiàng)目進(jìn)程中所積累下來的數(shù)據(jù),船只上安裝的攝像頭將所拍攝的監(jiān)控視頻上傳到服務(wù)器,對視頻進(jìn)行截幀處理后完成數(shù)據(jù)集的分類下載。視頻數(shù)據(jù)本身是全天時(shí)段的,因此需要從中刪除掉夜晚時(shí)段的數(shù)據(jù)。由于監(jiān)控視頻的拍攝可能會受到各種干擾因素的影響,比如攝像頭晃動(dòng)、硬件設(shè)施故障等因素,所以在數(shù)據(jù)集的篩選過程當(dāng)中,需要去除掉那些質(zhì)量不佳的圖像,對數(shù)據(jù)進(jìn)行統(tǒng)一的歸類收集,其中對于受到比如大霧天氣影響的模糊數(shù)據(jù)則保存下來并統(tǒng)一收集,用于進(jìn)行相關(guān)的測試。
截止到本文撰寫階段,所采集的數(shù)據(jù)包含25 500個(gè)視頻片段,截幀處理后相當(dāng)于153 000張圖像,一共分為8個(gè)事件類別,分別為裝船、卸船、空倉、正常行駛、雨布吹飛、停泊、未蓋布行駛、攝像頭遮擋,按照9∶1的比例建立訓(xùn)練集與測試集。圖6為數(shù)據(jù)集事件樣例展示。
圖6 數(shù)據(jù)集樣例展示
數(shù)據(jù)集中的8個(gè)類別是應(yīng)項(xiàng)目需求所劃分,需要模型實(shí)時(shí)準(zhǔn)確地給出每一個(gè)事件的識別結(jié)果并由識別系統(tǒng)的前臺將事件類型劃分,對于其中的異常事件將發(fā)出預(yù)警交由管理人員給出解決方案。其中雨布吹飛、空倉、未蓋布行駛等事件容易互相識別錯(cuò)誤,它們的識別準(zhǔn)確率彼此之間也有著不小的差距,原因在于不同事件中時(shí)間軌跡特征的區(qū)分難度不同,這些事件當(dāng)中,雨布吹飛和未蓋布行駛屬于識別事件當(dāng)中的異常事件,因此非常需要模型擁有更高更全面的特征提取能力,根據(jù)視頻幀的背景移動(dòng)狀況以及船面的空間特征變化來準(zhǔn)確地做出識別。
本文實(shí)驗(yàn)的硬件平臺為:Intel(R)Core(TM)i7-8700k CPU,NVIDIA GeForce GTX 1070GPU,在此平臺上將GCDNN模型與其它用于視頻識別的主流模型作相關(guān)對比。首先是雙流神經(jīng)網(wǎng)絡(luò)模型(TSNN),該模型輸入數(shù)據(jù)的標(biāo)準(zhǔn)格式為256*256,由于模型是基于雙通道識別思想的,所以需要先提取數(shù)據(jù)的空間類型特征,之后利用另一個(gè)相同規(guī)格的卷積神經(jīng)網(wǎng)絡(luò)提取時(shí)序特征,需要以光流信息作為輸入,所以首先用OpenCV獲取每兩幀之間提取的所有點(diǎn)的光流信息輸入到第二個(gè)卷積神經(jīng)網(wǎng)絡(luò)中,得出識別結(jié)果,最后使用SVM融合兩者的結(jié)果得到最終結(jié)果。實(shí)驗(yàn)中的學(xué)習(xí)率設(shè)置為0.001,丟失率設(shè)為0.9,batch_size設(shè)為32,訓(xùn)練10 000次。之后本文將TSNN的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)更換成更深的VGG-11,訓(xùn)練次數(shù)設(shè)置為10 000次進(jìn)行相同的對比實(shí)驗(yàn)。
對于3D卷積神經(jīng)網(wǎng)絡(luò),由于基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)較為簡單識別率不甚理想,難以達(dá)到實(shí)際需求的標(biāo)準(zhǔn),因此本文首先對基于VGG-11網(wǎng)絡(luò)結(jié)構(gòu)的三維卷積模型進(jìn)行訓(xùn)練,由于輸入數(shù)據(jù)的格式不匹配,所以需要將輸入的連續(xù)視頻幀數(shù)據(jù)縮放為224*224以契合VGG-11的輸入數(shù)據(jù)標(biāo)準(zhǔn)格式[23],實(shí)驗(yàn)中的學(xué)習(xí)率設(shè)置為0.0001,丟失率設(shè)為0.8,batch_size設(shè)為8,訓(xùn)練10 000次,接著將VGG-11網(wǎng)絡(luò)替換為VGG-16網(wǎng)絡(luò),訓(xùn)練次數(shù)設(shè)置為12 000次。實(shí)驗(yàn)部分將統(tǒng)一展示每一個(gè)對比模型在8個(gè)事件類別上的識別準(zhǔn)確率,并且添加了平均準(zhǔn)確率作為參考,并添加了每個(gè)類別單張圖片的識別速度作為比對參考。
對于本文的GCDNN模型,實(shí)驗(yàn)將會對兩部分網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化效果進(jìn)行測試,分別將卷積神經(jīng)網(wǎng)絡(luò)部分的VGG-16拓展前后的識別能力做出對比,以及循環(huán)神經(jīng)網(wǎng)絡(luò)部分,采用LSTM與優(yōu)化后的DBO-LSTM做出對比,丟失率設(shè)置為0.8,batch_size為8,學(xué)習(xí)率設(shè)置為0.0001,訓(xùn)練次數(shù)為10 000次。而對于網(wǎng)絡(luò)的修剪以及分類輸出性能,實(shí)驗(yàn)將本文所用稀疏組套索正則化(SGL)與L1和L2正則化之間的訓(xùn)練效果進(jìn)行對比,設(shè)置相同的正則項(xiàng)參數(shù),利用softmax和RF進(jìn)行分類輸出,并對于不同的正則化算法和分類算法的組合進(jìn)行了對比。表1為各模型在各事件上的測試結(jié)果匯總。
從表1中可以看出,采用TSNN模型在應(yīng)對大數(shù)據(jù)量的識別任務(wù)時(shí)效果并不理想,識別的平均準(zhǔn)確率在所有對比模型中最低,并且識別速度也相對較慢,將TSNN的卷積模型更換成VGG-11之后,各個(gè)類別的識別準(zhǔn)確率均有了明顯的提高,平均準(zhǔn)確率從0.839提高到0.875,提高了3.6%,但仍未達(dá)到實(shí)際項(xiàng)目需求的標(biāo)準(zhǔn),且處理速度更慢,因此需要尋找更有效的模型。
3D卷積神經(jīng)網(wǎng)絡(luò)在測試中擁有著較好的表現(xiàn),基于VGG-11的3D卷積模型在每個(gè)類別的識別準(zhǔn)確率上均有了較大幅度的提升,平均識別準(zhǔn)確率較之TSNN提高了5.2%,比TSNN(VGG-11)提高了1.6%,初步達(dá)到了項(xiàng)目需求的準(zhǔn)確率水平,且處理速度只有很短的0.411 s,主要是因?yàn)?D卷積神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度大大減小,且能較好地在卷積操作之后保存時(shí)序特征,因而整個(gè)網(wǎng)絡(luò)的性能得到了較大提升。在將VGG-11更換為VGG-16之后,3D卷積神經(jīng)網(wǎng)絡(luò)的識別準(zhǔn)確率得到了進(jìn)一步提升,從0.891提升到了0.913,且處理速度只增加了0.037 s,取得了不錯(cuò)的效果。
表1 不同模型在不同類別數(shù)據(jù)集上的測試結(jié)果
表1的數(shù)據(jù)顯示,未改動(dòng)VGG的GCDNN識別準(zhǔn)確率已經(jīng)達(dá)到0.920,相比VGG-16的3D卷積神經(jīng)網(wǎng)絡(luò)提高了0.7%,但處理速度由于模型的復(fù)雜性降低了0.678 s。而循環(huán)神經(jīng)網(wǎng)絡(luò)部分則是將常規(guī)的LSTM網(wǎng)絡(luò)改進(jìn)為DBO-LSTM,網(wǎng)絡(luò)的性能得到了較大提高,平均識別準(zhǔn)確率從0.911提高到0.940,取得了對比模型中最好的效果,滿足了項(xiàng)目的實(shí)際業(yè)務(wù)需求,但處理速度不可避免地降低到1.472 s,相當(dāng)于以識別速度的犧牲換取更高的識別精度,在實(shí)際業(yè)務(wù)中,可以根據(jù)不同的需求來對模型做出調(diào)整,在識別速度和識別精度兩方面做出權(quán)衡。
本文對于常用的L1和L2正則化進(jìn)行了測試實(shí)驗(yàn),并與本文的SGL進(jìn)行了比對,圖7展示了3種稀疏算法的稀疏性對比,橫軸為正則項(xiàng)參數(shù),縱軸為稀疏度,稀疏度通過零權(quán)重相對于連接總數(shù)的百分比來計(jì)算??梢钥闯鯨2正則化的效果非常的差,無法滿足復(fù)雜網(wǎng)絡(luò)的稀疏要求,而L1和SGL則達(dá)到了不錯(cuò)的效果,SGL更優(yōu)。
圖7 稀疏性比較
表2展示了對于GCDNN模型,3種正則化算法和分類算法即softmax與RF的識別效率對比,不同的正則化算法和分類算法的組合有著顯著的網(wǎng)絡(luò)修剪性能差異。
表2 修剪輸出能力對比
從表2中可以看出,SGL在3種算法中有著最優(yōu)的輸出性能,以softmax為分類器時(shí),平均準(zhǔn)確率已經(jīng)達(dá)到0.935,相比L1和L2分別提升了1.3%和2.1%,處理速度也較快,而與RF的組合則是達(dá)到了最優(yōu)結(jié)果。
本文在進(jìn)行模型訓(xùn)練以及對比實(shí)驗(yàn)時(shí),去除掉了一些嚴(yán)重受到天氣影響的數(shù)據(jù),是為了最大程度保證訓(xùn)練效果,但在實(shí)際應(yīng)用中,除開硬件設(shè)備出現(xiàn)問題導(dǎo)致的圖像質(zhì)量差之外,天氣原因也是一個(gè)不可避免的因素,但它具有一定的研究價(jià)值,本文實(shí)驗(yàn)收集了一部分受到大霧天氣影響導(dǎo)致的停泊事件類別圖像模糊數(shù)據(jù)集,樣例如圖8所示。
圖8 停泊事件模糊數(shù)據(jù)樣例
模糊數(shù)據(jù)更考驗(yàn)?zāi)P蛯τ趫D像特征的提取能力,本文實(shí)驗(yàn)將GCDNN與其它實(shí)驗(yàn)相關(guān)模型在此事件數(shù)據(jù)集上進(jìn)行了比對實(shí)驗(yàn),結(jié)果見表3。
表3 模糊數(shù)據(jù)集上的模型識別結(jié)果
項(xiàng)目的實(shí)際運(yùn)作中,遇到特殊天氣時(shí)會增加人力因素的投入,以保證航行的順利進(jìn)行,但仍需要智能識別系統(tǒng)的數(shù)據(jù)作為參考,實(shí)驗(yàn)部分的對比模型在特殊數(shù)據(jù)集下識別率均有了較大程度的下滑,但本文的GCDNN模型仍取得了最高的識別率,達(dá)到了0.795,且處理速度未有較大變化,可以作為航運(yùn)監(jiān)控?cái)?shù)據(jù)的有效參考。
本文針對現(xiàn)有深度學(xué)習(xí)模型面對大數(shù)據(jù)量的航運(yùn)監(jiān)控視頻數(shù)據(jù)時(shí)識別準(zhǔn)確率不高的問題,提出一種組約束深度神經(jīng)網(wǎng)絡(luò)模型,利用拓展的VGG-16模型和DBO-LSTM分別提取視頻幀數(shù)據(jù)的空間特征和時(shí)序特征,最后利用稀疏組套索算法進(jìn)行網(wǎng)絡(luò)修剪并采用隨機(jī)森林算法實(shí)現(xiàn)分類輸出。在實(shí)際的航運(yùn)監(jiān)控?cái)?shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果表明,本文所提模型取得了最佳的識別準(zhǔn)確率,驗(yàn)證了模型的有效性。但在識別速度上,由于模型的復(fù)雜性,識別速度較低,有較大的提升空間,并且模型本身的網(wǎng)絡(luò)結(jié)構(gòu)也有得到更佳優(yōu)化的可能性。視頻識別是深度學(xué)習(xí)的一個(gè)前端領(lǐng)域,有著廣闊的應(yīng)用前景,未來將在現(xiàn)有工作的基礎(chǔ)上,進(jìn)一步調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合領(lǐng)域前沿的網(wǎng)絡(luò)模型取得更強(qiáng)的識別能力。