衛(wèi)星 樂越 韓江洪 陸陽
摘 要:高級輔助駕駛裝置采用機器視覺技術(shù)實時處理攝錄的行車前方車輛視頻,動態(tài)識別并預估其姿態(tài)和行為。針對該類識別算法精度低、延遲大的問題,提出一種基于長短期記憶(LSTM)的車輛行為動態(tài)識別深度學習算法。首先,提取車輛行為視頻中的關(guān)鍵幀;其次,引入雙卷積網(wǎng)絡并行對關(guān)鍵幀的特征信息進行分析,再利用LSTM網(wǎng)絡對提取出的特性信息進行序列建模;最后,通過輸出的預測得分判斷出車輛行為類別。實驗結(jié)果表明,所提算法識別準確率可達95.6%,對于單個視頻的識別時間只要1.72s;基于自建數(shù)據(jù)集,改進的雙卷積算法相比普通卷積網(wǎng)絡在準確率上提高8.02%,與傳統(tǒng)車輛行為識別算法相比準確率提高6.36%。
其中改進的雙卷積網(wǎng)絡算法相比普通卷積網(wǎng)絡在準確率上提高8.02%,基于本文摘要中不能出現(xiàn)“本文”字樣,請調(diào)整語句描述。英文摘要處作相應修改。請參照現(xiàn)在的改過的PDF文檔英文摘要進行修改,而不是原修改稿數(shù)據(jù)集,與傳統(tǒng)車輛行為識別算法相比準確率提高6.36%。
同基于本文數(shù)據(jù)集的傳統(tǒng)車輛行為識別算法相比準確率提高6.36%
關(guān)鍵詞:車輛行為;長短期記憶網(wǎng)絡;高級輔助駕駛;深度學習;卷積神經(jīng)網(wǎng)絡
Abstract:In the advanced assisted driving device, machine vision technology was used to process the video of vehicles in front in real time to dynamically recognize and predict the posture and behavior of vehicle. Concerning low precision and large delay of this kind of recognition algorithm, a deep learning algorithm for vehicle behavior dynamic recognition based on Long Short-Term Memory (LSTM) was proposed. Firstly, the key frames in vehicle behavior video were extracted. Secondly, a dual convolutional network was introduced to analyze the feature information of key frames in parallel, and then LSTM network was used to sequence the extracted characteristic information. Finally, the output predicted score was used to determine the behavior type of vehicle. The experimental results show that the proposed algorithm has an accuracy of 95.6%, and the recognition time of a single video is only 1.72s. The improved dual convolutional network algorithm improves the accuracy by 8.02% compared with ordinary convolutional network and increases by 6.36% compared with traditional vehicle behavior recognition algorithm based on a self-built dataset.
Key words: vehicle behavior; Long Short-Term Memory (LSTM) network; advanced assisted driving; deep learning; Convolutional Neural Network (CNN)
0 引言
隨著智能汽車行業(yè)的蓬勃發(fā)展,無人駕駛技術(shù)的運用在各個領(lǐng)域中所占的比重也越來越大。其中,高級輔助駕駛系統(tǒng)(Advanced Driving Assistant System, ADAS)是以與未來科技互連的無人駕駛技術(shù)為基礎(chǔ),通過應用感知技術(shù)探測車輛周圍行駛環(huán)境,依據(jù)獲得的車輛行為信息執(zhí)行相應操作從而保障駕駛員的人身安全[1]。對前方行駛車輛的行為姿態(tài)分析是ADAS技術(shù)的重要手段之一,功能的主要實現(xiàn)是通過安裝在車輛內(nèi)的前置攝像頭對前方車輛進行拍攝,對其直行、左轉(zhuǎn)、右轉(zhuǎn)、變道、掉頭等動態(tài)姿態(tài)行為進行識別,從而對駕駛員進行預警和提示(如圖1)。
目前,在車輛行為識別領(lǐng)域,已經(jīng)有許多基于傳統(tǒng)機器視覺算法的研究。如:2012年,Kasper等[2]使用貝葉斯網(wǎng)絡對高速公路場景中車輛典型行為進行分類;2014年Gadepally等[3]等使用隱馬爾可夫模型(Hidden Markov Model, HMM)對車輛行為進行分析;2018年,黃鑫等[4]使用視覺背景提?。╒isual Background extractor, ViBe)算法得到車輛的前景圖像,利用金字塔光流法(Lucas-Kanada, L-K)和均值漂移算法,再通過運動特征熵和運動特征標量到聚類中心的歐氏距離這兩種方法判斷車輛有無異常行為;黃慧玲等[5]提出一種基于車輛行為識別的汽車前方碰撞預警方法,通過梯度方向直方圖(Histograms of Oriented Gradients, HOG)和支持向量機(Support Vector Machine, SVM)來訓練檢索前方車輛,再結(jié)合卡爾曼濾波對車輛跟蹤,最后使用HMM算法對車輛行為進行建模,識別前方車輛行為。但是,很多傳統(tǒng)算法的視頻都是在路口高位定點拍攝,更加適合對背景相對固定的車輛行為進行識別,并且傳統(tǒng)算法的檢測和識別精度無法達到實際需求。近些年,深度學習已經(jīng)在各個領(lǐng)域取得重大進展,解決了許多傳統(tǒng)技術(shù)無法解決的難題。在視頻識別和分類這一任務上,Donahue等[6]在2015年提出了采用長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡來解決視頻流時序分類這一難題。LSTM由Hochreiter等[7]在1997年提出,是一種時間遞歸神經(jīng)網(wǎng)絡。由于存在梯度消失和梯度爆炸等問題,標準的循環(huán)網(wǎng)絡在長序列上的學習效果不佳。相比之下,LSTM使用記憶單元來訪問、修改、存儲內(nèi)部狀態(tài),能夠更好地探尋長序列之間的聯(lián)系,因此在自然語言、語音、動作姿態(tài)等序列領(lǐng)域有驚人的表現(xiàn)[8-9]。Graves[10]于2013年對LSTM進行了改良和推廣,使其能更好地學習序列特征。2017年,曹晉其等[11]采用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)和LSTM相結(jié)合的方式對人體行為進行識別,利用圖像中的RGB數(shù)據(jù)識別視頻人體動作,使用現(xiàn)有的CNN模型從圖像中提取特征,并采用長短記憶遞歸神經(jīng)網(wǎng)絡進行訓練分類;同時,采用雙卷積和關(guān)鍵幀選取的方法,可以大幅度提高人體行為分類的正確率[12-14]。目前,尚未有利用LSTM網(wǎng)絡解決類似于車輛行為動態(tài)識別方面的研究。
綜上所述,針對傳統(tǒng)車輛行為識別算法準確率較低和實用性差等問題,為了有效檢測前方車輛并對其運動狀態(tài)進行理解和識別,本文提出了一種基于長短期記憶的車輛行為動態(tài)識別網(wǎng)絡,該模型對于車輛行為的動態(tài)識別非常有效,且模型收斂的速度很快。
1 網(wǎng)絡結(jié)構(gòu)
本文網(wǎng)絡模型如圖2所示,主要訓練過程如下:
第一步 對輸入的解幀后的視頻流進行關(guān)鍵幀提取,并依據(jù)關(guān)鍵幀數(shù)量和關(guān)鍵幀所在子視頻中的位置因素等進行對比實驗。
第二步 使用雙CNN模型提取出關(guān)鍵幀中的車輛特征,其中雙CNN模型參數(shù)是由ImageNet數(shù)據(jù)集[15]訓練得到。根據(jù)分類結(jié)果與車輛和環(huán)境特征的多元性及特殊性,提出的雙網(wǎng)絡結(jié)構(gòu)將分別專注于常規(guī)特征以及細微特征變化。雙CNN模型的選擇對最終的動態(tài)行為分類結(jié)果起著至關(guān)重要的作用,本文會在稍后的實驗中進行討論。
第三步 將雙CNN模型提取出的車輛行為特征融合后輸入到LSTM網(wǎng)絡框架中,進而分析序列間特征得到各類車輛行為預判得分,最終得到視頻車輛的行為分類。
2 視頻幀提取
3 雙卷積特征提取
3.1 ResNet基本原理
根據(jù)萬能近似定理(Universal Approximation Theorem,UAT),當單層的前饋網(wǎng)絡有足夠大的容量的時候,它可以表示任何函數(shù);但是,由于單層網(wǎng)絡在結(jié)構(gòu)上過于龐大,容易造成過擬合等現(xiàn)象。在卷積神經(jīng)網(wǎng)絡中,隨著層數(shù)的增多,可以提取不同level的特征,從而使得整個網(wǎng)絡表達的特征更加豐富,并且,越深的神經(jīng)網(wǎng)絡提取出的特征會越抽象,更加具有語義信息,但是,神經(jīng)網(wǎng)絡深度的提升不能單單通過層與層的簡單堆疊來實現(xiàn),并且由于存在梯度消失等問題,深層神經(jīng)網(wǎng)絡往往難以訓練,因此需要構(gòu)建結(jié)構(gòu)合理的多層網(wǎng)絡來更好地提取圖像的信息特征。
深度殘差網(wǎng)絡(deep Residual Network, ResNet)在2015年被提出[16],在ImageNet分類任務上獲得比賽第一名,因為它獨有的特性,可以允許網(wǎng)絡盡可能地深。ResNet中引入了殘差網(wǎng)絡結(jié)構(gòu)(圖3(a)所示),相比其他卷積網(wǎng)絡增加了網(wǎng)絡層數(shù)和深度,不僅能有效避免梯度彌散或梯度爆炸,同時也能很好地解決網(wǎng)絡的退化問題。其核心思想是引入一個恒等快捷連接,將原始所需要學習的函數(shù)H(x)轉(zhuǎn)換成F(x)+x(如式(2)),這兩種表達的效果相同,但是優(yōu)化的難度卻并不相同,假設F(x)的優(yōu)化會比H(x)簡單得多。為了方便計算,達到更好優(yōu)化訓練的效果,可以把式(1)轉(zhuǎn)換為學習一個殘差函數(shù),如式(3)所示:
當F(x)=0,構(gòu)成了一個恒等映射H(x)=x,同時可以更方便擬合殘差。用σ表示非線性函數(shù)ReLU(Rectified Linear Unit請補充ReLU的英文全稱),W1,W2,Wa,Wb表示權(quán)重,F(xiàn)(x)和H(x)分別表示為:
當輸入輸出兩者維度不同,需要給x執(zhí)行一個線性映射來匹配維度:
ResNet使用兩種殘差單元,如圖3(b)、(c)所示,圖3(b)對應的是淺層網(wǎng)絡,而圖3(c)對應的是深層網(wǎng)絡。對于短路連接這種方式,當輸入和輸出的維度相同時,可以直接將輸入加到輸出上。當維度不一致時(通常是維度會增加一倍)就不能直接相加。第一種方法是使用補零法來增加維度,進行下采樣,使用步長為2的池化層,這種方式不會增加額外的參數(shù)。第二種方法是采用新的映射,通過1×1的卷積來增加維度,較為方便穩(wěn)定。本文使用的是第二種方法。
3.2 雙提取機制
本文對于視頻的特征提取,設計雙深度卷積網(wǎng)絡來對視頻幀中的車輛特征進行學習和提取。圖2中的CNN1和CNN2分別使用ResNet-50和改進的ResNet-34網(wǎng)絡模型,網(wǎng)絡結(jié)構(gòu)如表1所示。為了保持精度同時減少相應的計算量,本文的CNN1網(wǎng)絡(ResNet-50)采用圖2(c)所示的殘差結(jié)構(gòu),結(jié)構(gòu)中的中間3×3的卷積層首先在一個降維1×1卷積層下減少了計算,然后在另一個1×1的卷積層下做了還原。由于在車輛行為檢測過程中,視頻幀中的轉(zhuǎn)向燈、紅綠燈等特征(車輛變道轉(zhuǎn)向等行為)不明顯,因此,考慮對ResNet-34網(wǎng)絡模型進行相應改進來作為本實驗的CNN2網(wǎng)絡模型。實驗中,針對圖像中相對較小的特征,本文采用擴大卷積核的方式來增大感受野從而獲取更多的細節(jié)特征,具體做法是將ResNet-34前5層卷積核大小由原始的7×7與3×3的組合改為7×7,6到15層卷積核將原來的3×3改為5×5。
請補充這個的名稱,是統(tǒng)計項嗎?也請補充名稱,沒有數(shù)值或空白,也需說明一下,否則無法理解。表格的規(guī)范是按照列名來補充相關(guān)數(shù)據(jù)項
這是何意?需明確。
回復:可以看清每列,但是排版需要把線去掉。建議把這一行刪除,因為這個表描述網(wǎng)絡參數(shù),核心內(nèi)容已經(jīng)表達。
此外,在兩個CNN訓練完成后,用1×1×512的卷積網(wǎng)絡來代替CNN1和CNN2中的全連接層及之后softmax層,用卷積提取的方式使兩個卷積網(wǎng)絡輸出為1×1×512維度特征;然后再使用首尾相接的融合方法對CNN1和CNN2的輸出進行融合,作為LSTM神經(jīng)網(wǎng)絡的輸入。
4 基于LSTM序列
車輛行為視頻的連續(xù)關(guān)鍵幀是隨著時間進行演變的過程,針對這一特性本文選擇LSTM網(wǎng)絡框架對車輛行為進行建模。LSTM相比循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN),其算法中加入了一個判斷信息篩選的“處理器”記憶單元,如圖4所示。每個單元中設置了三扇門,分別為輸入門It、輸出門QtOt是Q,還是O,公式中是O,請明確。和遺忘門Ft,它們分別對應著車輛運動姿態(tài)數(shù)據(jù)序列的寫入、讀取和先前狀態(tài)的重置操作。假設xt表示在時間t下的輸入,Wi,Wf,Wo,Wc表示權(quán)重矩陣;bi,bf,bo,bc是偏置向量,σ表示為logistic sigmoid函數(shù),Ht為單元t時刻的輸出。Ct表示記憶單元在t時刻的狀態(tài),則LSTM單元在t時刻的更新過程如下:
為了抓取車輛動態(tài)行為的語義信息,提高結(jié)果的分類準確率,決定采用一種雙層深度LSTM表示模型,可以挖掘更深層的序列之間的特征。網(wǎng)絡模型如圖5所示,把本文第3章介紹的雙卷積網(wǎng)絡所提取出m個特征值按序輸入雙層結(jié)構(gòu)的LSTM序列模型中,每個記憶單元學習當時輸入的車輛特征,并通過單元的遺忘門以及其前后狀態(tài)對車輛行為狀態(tài)進行分析。采用many to one(即多對一)的輸入輸出方式,每個輸入都是1×1×1024的向量,在經(jīng)過雙層的LSTM網(wǎng)絡后,輸出為1×1×6(6對應著直行、左轉(zhuǎn)、右轉(zhuǎn)、左變道、右變道、掉頭)的分類向量并將其通過softmax函數(shù),最后得出車輛行為類別的預測得分。
5 實驗及結(jié)果分析
5.1 數(shù)據(jù)集
本文用于特征提取的雙卷積網(wǎng)絡使用ImageNet數(shù)據(jù)集進行訓練,ImageNet數(shù)據(jù)集有1400多萬幅圖片,涵蓋2萬多個類別。本文把數(shù)據(jù)集中的卡車、轎車標簽統(tǒng)一換成了車輛標簽。本文使用合作項目中的大量視頻數(shù)據(jù)以及自行搭建的車載實驗平臺所采集的視頻數(shù)據(jù)來訓練LSTM網(wǎng)絡模型。車輛視頻數(shù)據(jù)歸分為6個類,分別為直行、左變道、右變道、調(diào)頭、左轉(zhuǎn)、右轉(zhuǎn),每個類中有300多個視頻,視頻集中包含白天、傍晚、陰天、雨天等多種不同天氣環(huán)境及不同路況下拍攝的數(shù)據(jù)。視頻拍攝過程中將攝像頭固定于車輛前玻璃正前方,對車輛正前方目標車輛的行駛行為進行拍攝,數(shù)據(jù)采集真實可靠。在本文實驗中,車輛數(shù)據(jù)如圖6所示,將數(shù)據(jù)集中的2218個視頻隨機分為訓練集、驗證集和測試集,其中訓練集視頻數(shù)量為1330,驗證集視頻數(shù)量為443,測試集視頻數(shù)量為445。
5.2 網(wǎng)絡環(huán)境配置及訓練
實驗使用的服務器基于Ubuntu 16.04,64位操作系統(tǒng),使用的深度學習框架是tensorflow,GPU為GeForce GTX 1080Ti。首先用ImageNet數(shù)據(jù)集對雙卷積網(wǎng)絡進行訓練,然后在用訓練好的雙卷積網(wǎng)絡對關(guān)鍵幀進行特征提取以便于訓練LSTM神經(jīng)網(wǎng)絡。每個關(guān)鍵幀都降采樣到224×224大小,LSTM網(wǎng)絡隱含層的維度為1024。在訓練LSTM神經(jīng)網(wǎng)絡中,本文使用Adam優(yōu)化器中的隨機梯度下降算法來學習參數(shù),學習率設置為10-5,訓練的批處理大小Batch為12,權(quán)重衰減(decay)為0.0001,數(shù)據(jù)集迭代次數(shù)為50。
5.3 結(jié)果分析
5.3.1 m取值不同關(guān)鍵幀的實驗結(jié)果
由圖7可知,在車右轉(zhuǎn)這一類車輛行為中,在提取數(shù)據(jù)幀方式相同的情況下,m值由6到10之間,識別正確率迅速上升并達到峰值,之后開始趨于穩(wěn)定,當m取值大于12時,準確率開始略微下降;針對3種不同的子序列取幀方式,識別的正確率隨著m值變化的總體趨勢相同,差距較小。綜合而言,選取子視頻的中間幀,識別效果最優(yōu),整體識別最好。
5.3.2 行為識別結(jié)果
本實驗將拆分出來的訓練集用于訓練模型,驗證集用于評估模型,預測車輛行為識別結(jié)果的好壞,并驗證模型選擇的合理性及模型參數(shù)的最優(yōu)性。最后采用已經(jīng)訓練好的網(wǎng)絡模型及權(quán)重參數(shù),預測測試集中的視頻數(shù)據(jù)最后采用已經(jīng)訓練好的網(wǎng)絡模型來預測測試集中的視頻數(shù)據(jù),得出測試車輛不同行為的準確率,不同車輛行為類別在數(shù)據(jù)測試集上的準確率如表2所示。
由表2可知,在各種天氣環(huán)境及不同路況,當車輛行為是直行、左轉(zhuǎn)、右轉(zhuǎn)以及調(diào)頭的準確率較高,可以達到95%以上;而左變道、右變道準確率略低,僅有93%左右。
實驗將數(shù)據(jù)集按比例隨機抽取,進行多次交叉驗證,行為識別準確率結(jié)果如圖8(a),損失函數(shù)趨勢曲線如圖8(b)。
由圖8(a)可見,在整個訓練過程中,訓練集和驗證集準確率一直處于上升的趨勢,數(shù)據(jù)經(jīng)過10次迭代后,驗證集與訓練集準確率相差較大,經(jīng)過20次迭代后基本趨于穩(wěn)定。由此說明,前期10次迭代過程存在一定的過擬合,但在后期的迭代中進行了一定的修正,從而致使識別率逐步提高。由圖8(b)可知,損失值在迭代到10次之前,驗證集的損失值下降幅度比訓練集大,之后訓練集損失值繼續(xù)緩慢下降,驗證集損失值趨于穩(wěn)定。
方案序號特征提取序列建模準確率/%識別時間此處原為識別速度,單位是s,是否應該為識別時間,這樣更恰當些,請明確。正文中的其他處是否也可以這樣修改
從表3中可以看出,檢測車輛行為的準確率在各種模型方案下顯示不同。通過對比方案1和方案2,可以看出多一個卷積網(wǎng)絡進行特征提取,準確率提高了4.3個百分點,但是對于單個視頻行為識別速度相近。再對ResNet-34網(wǎng)絡進行2.2節(jié)中所述的改進后,準確率又在原來基礎(chǔ)上提高了2.8個百分點。實驗過程中發(fā)現(xiàn),對ResNet-34網(wǎng)絡進行改進后,直行、左變道、右變道的識別準確率上升更為明顯,說明采用雙卷積網(wǎng)絡泛化能力強,性能更高,能提取更為細微的特征。方案3、方案4和方案5,都保持了特征提取部分網(wǎng)絡不變,但是方案3不使用LSTM網(wǎng)絡的,這種情況下準確率明顯降低很多,但是識別速度提高了一倍單個視頻的識別時間減少了一半若改為識別時間,此處應為識別時間減少了一半,請確認。方案4使用了單層的LSTM網(wǎng)絡來做序列間的特征學習,準確率比方案5使用雙層深度LSTM網(wǎng)絡的低2個百分點,但是網(wǎng)絡權(quán)重也小了20%左右。
為了證明本文網(wǎng)絡模型在車輛行為識別上的優(yōu)勢,基于本文視頻流數(shù)據(jù)集,與現(xiàn)有的一些車輛行為識別的算法進行對比實驗。
從表4中可以看出,針對視頻中車輛特征檢測這一角度,本文提出的車輛特征檢測方法可以有效地解決傳統(tǒng)方法的某些問題,比傳統(tǒng)的方法更加滿足實際中的需求,且雙卷積網(wǎng)絡結(jié)構(gòu)檢測性能更強,更能發(fā)現(xiàn)細小的特征。
本文算法雙卷積網(wǎng)絡不同條件很強
由表5所示,在直行、右轉(zhuǎn)、左轉(zhuǎn)、掉頭這幾個車輛行為識別中,相比傳統(tǒng)車輛行為識別算法,本文提出的識別網(wǎng)絡在各個類別中準確率均是最高,且平均準確率相比次好的文獻[4]中的模型提高了6.36%,獲得了更好的分類效果。
6 結(jié)語
針對視頻中前方的車輛行為研究這一問題,提出了基于長短期記憶的車輛行為動態(tài)識別網(wǎng)絡算法。在車輛行為識別網(wǎng)絡設計中,采用雙卷積網(wǎng)絡模型對視頻中車輛特征進行檢測和提取。針對車輛運動狀態(tài)這一時序問題,使用LSTM網(wǎng)絡進行序列特征深度挖掘,最終得到行為分類結(jié)果。通過對比傳統(tǒng)機器視覺的車輛行為分析研究,本文提出的算法不需要基于先驗知識建立車輛姿態(tài)模型,同時可以自適應地學習姿態(tài)特征,并且不受外界因素影響,對于車輛后方拍攝視角準確率更能滿足實際需求,但是,本文的研究不能實時有效地識別前方多臺車輛的行為,所以下一步的研究重點主要是在保證準確率的情況下同時識別前方多輛車的動態(tài)行為。
參考文獻 (References)
[1] 陳放.高級駕駛輔助系統(tǒng)ADAS淺談[J].各界,2018(1):188-191.(CHEN F. A dissertation on advanced driver assistance system[J].All Circles, 2018(1): 188-191.)
[2] KASPER D, WEIDL G, DANG T, et al. Object-oriented Bayesian networks for detection of lane change maneuvers[J]. IEEE Intelligent Transportation Systems Magazine, 2012, 4(3): 19-31.
[3] GADEPALLY V, KRISHNAMURTHY A, OZGUNER U. A framework for estimating driver decisions near intersections [J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(2): 637-646.
[4] 黃鑫,肖世德,宋波.監(jiān)控視頻中的車輛異常行為檢測[J].計算機系統(tǒng)應用,2018,27(2):125-131.(HUANG X, XIAO S D, SONG B. Detection of vehicles abnormal behaviors in surveillance video[J]. Computer Systems and Applications, 2018, 27(2): 125-131.)
[5] 黃慧玲,楊明,王春香,等.基于前方車輛行為識別的碰撞預警系統(tǒng)[J].華中科技大學學報(自然科學版),2015,43(s1):117-121.(HUANG H L, YANG M, WANG C X, et al. Collision warning system based on forward vehicle behavior recognition[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2015, 43(s1): 117-121.)
[6] DONAHUE J, HENDRICKS L A, ROHRBACH M, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 2625-2634.
[7] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[8] 殷昊,李壽山,貢正仙,等.基于多通道LSTM的不平衡情緒分類方法[J].中文信息學報,2018,32(1):139-145.(YIN H, LI S S, GONG Z X, et al. Imbalanced emotion classification based on multi-channel LSTM[J]. Journal of Chinese Information Processing, 2018,32(1):139-145.)
[9] 鄭毅,李鳳,張麗,等.基于長短時記憶網(wǎng)絡的人體姿態(tài)檢測方法[J].計算機應用,2018,38(6):1568-1574.(ZHENG Y, LI F, ZHANG L, et al. Pose detection and classification with LSTM network[J]. Journal of Computer Applications, 2018, 38(6): 1568-1574.)
[10] GRAVES A. Supervised Sequence Labelling with Recurrent Neural Networks[M]. Berlin: Springer, 2012:385.
[11] 曹晉其,蔣興浩,孫錟鋒.基于訓練圖CNN特征的視頻人體動作識別算法[J].計算機工程,2017,43(11):234-238.(CAO J Q, JIANG X H, SUN T F. Video human action recognition algorithm based on trained image CNN features[J]. Computer Engineering, 2017, 43(11): 234-238.)
[12] SIMONYAN K, ZISSERMAN A. Two-stream convolutional net-works for action recognition in videos[C]// Proceedings of the 2014 International Conference on Neural Information Processing Systems. Montréal: [s.n.], 2014: 568-576.
[13] NG J.Y, MATTHEW H, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]// Proceedings of the 2015 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4694-4702.
[14] CHEN H F, CHEN J, HU R M, et al. Action recognition with temporal scale-invariant deep learning framework[J]. China Communications, 2017, 14(2): 163-172.
[15] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the 2009 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 248-255.
[16] HE K M, ZHANG X Y, REN S Q, et. al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.