李志明
摘? 要:港區(qū)機(jī)械活動(dòng)的監(jiān)管對(duì)港口生產(chǎn)活動(dòng)的管理十分重要,對(duì)機(jī)械活動(dòng)的自動(dòng)識(shí)別感知能夠提高管理效率。將計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)技術(shù)應(yīng)用于港口機(jī)械的活動(dòng)識(shí)別中,旨在以一種便捷快速的方式緩解人工監(jiān)管的不足,因此本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)的港口機(jī)械活動(dòng)識(shí)別方法并建立了包含6類(lèi)常見(jiàn)的機(jī)械活動(dòng)的視頻數(shù)據(jù)集。對(duì)算法模型進(jìn)行訓(xùn)練與測(cè)試實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果的平均識(shí)別準(zhǔn)確率達(dá)到89%,表明該方法實(shí)現(xiàn)了對(duì)不同港口場(chǎng)景下機(jī)械活動(dòng)的有效識(shí)別,這將有助于提升管理者對(duì)港口目標(biāo)活動(dòng)的智能化感知水平。
關(guān)鍵詞:港口機(jī)械活動(dòng);深度學(xué)習(xí);智慧港口
引言
在港口行業(yè)中,智慧港口的目的是推進(jìn)現(xiàn)代港口發(fā)展進(jìn)程,其中對(duì)港口運(yùn)輸要素的感知是實(shí)現(xiàn)港口業(yè)務(wù)與智能技術(shù)融合的重要組成部分。港口機(jī)械作為主要的港口裝卸運(yùn)輸載體,管理人員需要在變化的作業(yè)環(huán)境中實(shí)現(xiàn)對(duì)機(jī)械活動(dòng)的監(jiān)管,因此對(duì)于其活動(dòng)的感知是必要的。
港口機(jī)械活動(dòng)仍然在圖像連續(xù)序列中包含了時(shí)空特征,本文首先開(kāi)發(fā)了港口中6類(lèi)常見(jiàn)的包含841段活動(dòng)視頻的機(jī)械活動(dòng)數(shù)據(jù)集,然后基于深度學(xué)習(xí)的動(dòng)作識(shí)別混合網(wǎng)絡(luò)方法構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合的識(shí)別模型對(duì)機(jī)械活動(dòng)數(shù)據(jù)進(jìn)行時(shí)空建模,實(shí)驗(yàn)結(jié)果顯示平均的識(shí)別準(zhǔn)確率達(dá)到89%,表明該方法在不同港口場(chǎng)景下對(duì)于機(jī)械活動(dòng)識(shí)別任務(wù)中表現(xiàn)良好。
1 基于深度學(xué)習(xí)的港口機(jī)械活動(dòng)識(shí)別
1.1港口機(jī)械活動(dòng)視頻數(shù)據(jù)集
基于深度學(xué)習(xí)的機(jī)械活動(dòng)識(shí)別需要建立視頻的活動(dòng)數(shù)據(jù)集,本文建立了集裝箱港口的裝卸運(yùn)輸活動(dòng)常見(jiàn)的6類(lèi)機(jī)械活動(dòng)的814段活動(dòng)視頻,包括:1.起重機(jī)裝卸活動(dòng)(138)、2.正面吊裝卸活動(dòng)(140)、3.正面吊吊裝運(yùn)輸(137)、4.正面吊空載行駛(130)、5.卡車(chē)滿載運(yùn)輸(133)、6.卡車(chē)空載行駛(136)。由于網(wǎng)絡(luò)對(duì)整個(gè)視頻進(jìn)行特征提取,所以數(shù)據(jù)標(biāo)簽在文件命名記錄標(biāo)簽,在數(shù)據(jù)形式上,首先收集了不同集裝箱港口中港口前沿活集裝箱堆場(chǎng)的不同場(chǎng)景及拍攝視角的活動(dòng)視頻,然后根據(jù)機(jī)械活動(dòng)的起始與結(jié)束的周期過(guò)程將整個(gè)長(zhǎng)視頻機(jī)械活動(dòng)過(guò)程剪成視頻樣本片段。
1.2 基于CNN-LSTM的港口機(jī)械活動(dòng)識(shí)別算法
參考人體活動(dòng)分析常用的三維卷積法、雙流法和CNN-LSTM方法,本文從計(jì)算效率和精度的平衡上選擇了CNN-LSTM方法。對(duì)于空間特征使用擅長(zhǎng)提取空間特征的卷積神經(jīng)網(wǎng)絡(luò)提取每一視頻幀的空間信息,輸入圖像經(jīng)過(guò)卷積層和最大池化層,然后使用Resnet50架構(gòu)的3,4,6,3個(gè)卷積塊組成的4組殘差網(wǎng)絡(luò)構(gòu)型的卷積網(wǎng)絡(luò)由淺到深地提取視頻幀提取局部位置信息和整體語(yǔ)義信息,然后通過(guò)歸一層、dropout層和全連接層輸出形狀為批次數(shù)量、視頻幀數(shù)和特征向量維度的向量,實(shí)現(xiàn)視頻幀序列數(shù)據(jù)的空間特征編碼。
在解碼部分,本文使用循環(huán)神經(jīng)網(wǎng)絡(luò)的LSTM網(wǎng)絡(luò)處理卷積網(wǎng)絡(luò)輸出的特征向量。LSTM包括遺忘門(mén)f,輸入門(mén)i和g,輸出門(mén)o,通過(guò)這四個(gè)門(mén)單元完成對(duì)時(shí)間序列進(jìn)行正向編碼并建立時(shí)間依賴(lài)關(guān)系。具體計(jì)算如式所示,門(mén)結(jié)構(gòu)模型由激活函數(shù)σ或tanh、權(quán)重w、偏置量b組成,對(duì)于卷積網(wǎng)絡(luò)輸出的當(dāng)前時(shí)刻的特征向量x,與上一時(shí)刻隱藏狀態(tài)h連接經(jīng)過(guò)遺忘門(mén)過(guò)濾后得到上一時(shí)刻記憶信息,然后也經(jīng)過(guò)輸入門(mén)得到更新的當(dāng)前記憶信息,這里兩項(xiàng)記憶信息相加得到本時(shí)刻的輸出記憶信息,然后再將激活的記憶信息和輸出門(mén)相乘得到該時(shí)刻隱藏狀態(tài),然后所有時(shí)刻一次進(jìn)行單元的遞歸計(jì)算與更新,將最后時(shí)刻的高度凝聚的機(jī)械活動(dòng)時(shí)空信息向量的隱層狀態(tài)量通過(guò)激活層、dropout層和全連接層處理后完成機(jī)械活動(dòng)的分類(lèi)。
2.模型的訓(xùn)練和測(cè)試
2.1實(shí)驗(yàn)參數(shù)及測(cè)試指標(biāo)
本文實(shí)驗(yàn)采用的計(jì)算機(jī)配置為Intel(R) Xeon(R) CPU E5,顯卡型號(hào)為NVIDIA RTX 2080Ti,操作系統(tǒng)為Ubantu18.04,卷積和LSTM網(wǎng)絡(luò)模型均基于Pytorch框架搭建。視頻數(shù)據(jù)集的訓(xùn)練集和測(cè)試集按8:2劃分,視頻幀率為25,輸入視頻的采樣間隔為4幀,圖像大小為224×224像素,LSTM網(wǎng)絡(luò)輸入層大小為1024,隱藏層大小為768,輸出層大小為512。模型初始學(xué)習(xí)率為1e-5,批次大小為30,訓(xùn)練輪數(shù)為100。本文使用分類(lèi)模型常用的查準(zhǔn)率(Precision)、查全率(Recall)指標(biāo)、F1(Accuracy)指標(biāo)
2.2實(shí)驗(yàn)結(jié)果
模型在訓(xùn)練過(guò)程中訓(xùn)練集和測(cè)試集的損失函數(shù)曲線不斷下降,測(cè)試集精度不斷提高且在120輪次附近時(shí)穩(wěn)定,模型最終分類(lèi)損失為0.02,訓(xùn)練結(jié)果理想。表1分別列出了6種活動(dòng)的識(shí)別準(zhǔn)確率和召回率結(jié)果和F1分?jǐn)?shù)指標(biāo),平均的識(shí)別精度為0.89,表明該算法可以實(shí)現(xiàn)對(duì)港口機(jī)械活動(dòng)的準(zhǔn)確識(shí)別,其中起重機(jī)裝卸、正面吊吊裝運(yùn)輸、正面吊空載行駛3類(lèi)活動(dòng)測(cè)試準(zhǔn)確率不高,分別只有88%、77%和88%。
3.結(jié)語(yǔ)
為了通過(guò)計(jì)算機(jī)視覺(jué)方法自動(dòng)識(shí)別港口機(jī)械的活動(dòng),本文采用基于深度學(xué)習(xí)的CNN-LSTM算法對(duì)港口機(jī)械活動(dòng)數(shù)據(jù)集進(jìn)行了訓(xùn)練和測(cè)試,經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,該算法可以有效的識(shí)別機(jī)械行為,在不同的港口場(chǎng)景下的識(shí)別平均準(zhǔn)確率達(dá)到89%,初步證明了基于深度學(xué)習(xí)的識(shí)別方法對(duì)港口機(jī)械的行為感知具有用于現(xiàn)場(chǎng)應(yīng)用的潛力。
參考文獻(xiàn)
[1]蔡銀怡,蔡文學(xué),鄭冀川.智慧港口的構(gòu)成與建設(shè)內(nèi)容探討[J].物流工程與管理,2020,42(05):21-23.
[2]程紫來(lái),孫婷,張姝慧.港口信息感知系統(tǒng)在海鐵聯(lián)運(yùn)物聯(lián)網(wǎng)示范工程中的應(yīng)用[J].中國(guó)港口,2014(05):49-50.
[3]劉燕欣,張志良,唐波,高仕博.面向集裝箱港口的機(jī)器視覺(jué)智能感知系統(tǒng)[J].軍民兩用技術(shù)與產(chǎn)品,2020(01):24-28.DOI:10.19385/j.cnki.1009-8119.2020.01.023.
[4]錢(qián)慧芳,易劍平,付云虎.基于深度學(xué)習(xí)的人體動(dòng)作識(shí)別綜述[J].計(jì)算機(jī)科學(xué)與探索,2021,15(03):438-455.