李 燕,何 敏
(甘肅政法大學,蘭州 730070)
近年來,隨著我國安防領域的不斷發(fā)展,安防相關技術也越來越成熟,例如人臉識別技術、大數據技術、合成作戰(zhàn)系統(tǒng)以及視頻監(jiān)控系統(tǒng)等,其中視頻監(jiān)控系統(tǒng)作為安防工作的核心,在城市安全以及案件偵破等方面起著至關重要的作用。不僅如此,在雪亮工程、天網工程、平安城市等城市建設工程中也都強調了視頻監(jiān)控在安防工作中的重要性[1]。目前,我國大部分城市已經實現監(jiān)控全覆蓋,所產生的大量監(jiān)控視頻是重要的社會治安資源,卻也造成了查閱的負擔,因此對監(jiān)控視頻進行分類,可以在解決視頻數據冗余以及查閱困難等問題的同時,大大提高公安部門的辦案效率,做到對重大事件的事前預防、事中響應和事后追查[2],從而保障城市的安全運行與發(fā)展。
早在2006年美國麻省理工學院召開的場景理解研討會上,圖像場景分類技術第一次被明確定義為分類的一個關鍵課題,這表明場景分類技術在計算機視覺領域的重要地位[3]。目前,從分類過程中涉及的特征來看,針對視頻及圖像的場景分類方法可大致分為兩種:第一種是基于傳統(tǒng)手工設計特征的分類算法,第二種是基于深度學習的分類算法。
基于傳統(tǒng)手工設計特征的分類算法主要是提取視頻及圖像的顏色、紋理、整體、局部、顯著區(qū)域等特征,然后再進行場景分類。2001年Oliva等[4]率先對場景快速識別與分類展開研究,提出使用傅里葉變換對分割后的圖像區(qū)域進行特征提取,再用PCA/ICA技術對特征進行降維,最后通過神經網絡進行分類,文中在提出分類方法的同時還闡述了場景快速識別與分類的流程。Itti等[5]提出先使用Gabor濾波法對提前劃分好的圖像在顏色、方向和密度三個通道上提取特征,然后使用PCA/ICA技術對特征進行降維,最后通過神經網絡進行分類。Theriault等[6]提出利用無監(jiān)督學習對視頻進行分類。劉揚等[7]針對球場顏色的非均一問題提出自適應高斯混合模型(GMM)對球場進行檢測,首先從視頻中隨機抽取圖像,找到圖像中主顏色的大致分布,然后利用GMM擬合主要顏色的分布,不斷更新模型參數來提高模型的適應能力,最后,利用球場區(qū)域在圖像中的分布,對足球賽場景進行分類。劉林等[8]提出利用多顏色空間和累計直方圖對場景進行分類。彭太樂等[9]提出利用關鍵幀之間的時序關系結合詞袋模型,對視頻進行分類。賈澎濤等[10]提出多特征的視頻場景分類,首先提取視頻的平均關鍵幀,再將關鍵幀劃分成感興趣區(qū)域與不感興趣區(qū)域,之后再分別提取場景特征,最后將特征進行融合并利用特征閾值對場景進行分類。
基于深度學習的分類算法主要是通過構建深度學習模型,利用端到端的訓練方法,提取圖像或視頻的高級語義特征,以此對圖像或視頻進行分類。Li等[11]提出利用預先訓練好的卷積神經網絡提取不同層的深度特征,再利用多尺度的改進Fisher核編碼對中層特征進行編碼,最后,用主成分分析或者譜回歸判別分析方法將提取的各層特征融合進行分類。Zhu等[12]提出了FASTER視頻分類框架,先利用深層神經網絡提取動作細節(jié)特征,再利用淺層神經網絡提取背景特征,以此來避免冗余,再使用論文中新設計的FAST-GRU來聚合來自不同剪輯模型的表示問題,最后對視頻進行分類。Bird等[13]提出將圖像特征和音頻特征進行融合對視頻進行分類,首先利用微調的VGG16提取圖像特征,再利用優(yōu)化過的深度神經網絡提取音頻特征,然后再將提取的特征進行融合,最后得出視頻分類結果。程萍等[14]提出利用幀間差分法和徽標檢測法對分割鏡頭進行監(jiān)測,然后提取分割鏡頭的語義特征,最后通過C3D對視頻進行分類。
目前,大多數分類算法都是針對自然場景、城市場景以及室內場景設計的,很少有對事件場景進行分類的。本文針對城市安全問題,提出一種基于深度學習的犯罪事件分類方法,旨在更快更高效地對監(jiān)控視頻進行分類,以協助平安城市安防系統(tǒng)的建成。該方法有效結合了C3D和CBAM-ConvLSTM,通過提取監(jiān)控視頻的時間和空間特征,實現了對監(jiān)控視頻犯罪事件的有效分類。
3維卷積神經網絡(3D convolutional neural network,C3D)是2015年由Tran等[15]提出的,主要是為了解決2D卷積缺乏運動建模問題。C3D可以理解為三個通道上的卷積,比2D卷積多了時間通道。3D與2D卷積核對比如圖1所示。
2D卷積核其大小為C×h×w,其中C表示卷積核的通道數,h和w表示卷積核的高和寬。3D卷積核的大小為t×C×h×w,其中t表示3D卷積核的時間長度,其他與2D卷積核相同。由2D卷積核的形狀可知其僅對圖片的寬和高進行操作,所以不管輸入一張圖片還是多張圖片,最后提取的也只是圖片的空間特征。而3D卷積不僅會對圖片的寬和高進行操作,還會對時間軸操作,能同時提取空間和時間特征。正因為3D卷積能同時提取空間和時間特征,故論文使用預訓練的C3D模型作為特征提取網絡,在使用時只使用特征提取部分。C3D模型如圖2所示。
圖1 2D(a)與3D(b)卷積核對比Fig. 1 Comparison of 2D (a) and 3D (b) convolution kernels
圖2 C3D模型圖[15]Fig. 2 C3D model [15]
注意力機制作為一種資源分配方案,將有限的計算資源用來處理更重要的信息,是解決信息超載問題的主要手段。卷積注意力模塊 (convolutional block attention module,CBAM)是2018年由Woo等[16]提出的一種輕量級通用的注意力模塊,可以在通道和空間兩個維度上關注重要信息。
CBAM的結構如圖3所示,CBAM包含兩個獨立的子塊,通道注意力模塊(channel attention module)和 空 間 注 意 力 模 塊(spatial attention module),兩個模塊分別凸出通道維度和空間維度上的重要特征。
ConvLSTM網 絡 是2015年 由Shi等[17]提 出,用于解決降水預報問題。ConvLSTM網絡是將原LSTM網絡的全連接權重改為了卷積權重,這種改進使LSTM網絡能夠同時掌握時間和空間信息,克服了只能建模序列的問題。為了更好地了解輸入和狀態(tài),可以把它們想象成站在空間網格上的向量,ConvLSTM通過輸入和其他本地鄰居過去狀態(tài)來確定網格中某個網格的未來狀態(tài)。這可以很容易地通過在狀態(tài)到狀態(tài)和輸入到狀態(tài)的轉換中使用卷積運算符來實現,其實現狀態(tài)如圖4所示。
圖3 CBAM結構圖[16]Fig. 3 CBAM structure [16]
圖4 ConvLSTM內部結構[17]Fig. 4 Inner structure of ConvLSTM[17]
本文設計了一種基于C3D和CBAM-ConvLSTM的犯罪事件視頻場景分類模型,旨在準確高效地對監(jiān)控視頻中的犯罪事件進行分類?;贑3D和CBAM- ConvLSTM的犯罪事件視頻場景分類主要包括兩部分:視頻特征提取部分和視頻事件分類部分。
視頻特征提取部分由C3D網絡提取局部時空特征,然后結合3維時空注意力和3維通道注意力,凸出比較重要的局部時空特征;視頻事件分類部分由CBAM-ConvLSTM提取視頻的全局時空特征,然后由全連接層映射出最終結果。論文提出的模型架構如圖5所示。
模型的特征提取部分(圖5中紅線的上半部分),先用預訓練的C3D網絡提取監(jiān)控視頻的局部時空特征,然后將提取的視頻特征序列放入3維時空注意力和3維通道注意力模塊中,用于凸顯分類相關特征或削弱無關特征。模型的視頻分類部分(圖5中紅線的下半部分)把上半部分提取的局部特征序列作為輸入,利用CBAM-ConvLSTM網絡提取局部特征序列的全局時序特征和全局空間特征。
因為本文提出的CBAM-ConvLSTM是ConvLSTM 與注意力結合,使得網絡在提取時序特征的同時也加強了對空間特征的提取。最后使用全連接層對全局特征進行分類。
在模型的特征提取部分,文中對其空間注意力機制和通道注意力機制作出改進,將本為2維的注意力機制中加入時間維度,轉變?yōu)?維注意力機制,使得模型不僅能在空間維度和通道維度上凸顯出重要特征,也能在時間維度上凸顯出重要特征,改進后的注意力機制將在本文2.2節(jié)中詳細介紹。
在模型的視頻事件分類部分,文中對ConvLSTM 網絡作出改進,旨在提取更有利于提高分類準確性的全局特征。改進后的網絡將在本文2.3節(jié)中詳細介紹。
圖5 模型架構圖Fig. 5 Model architecture adopted with this paper
2.2.1 3維通道注意力模塊
在卷積中,一個卷積核代表了一個通道,不同的卷積核對特征的影響也不同,使用通道注意力的目的是在不同的時間上將注意力集中在對最終結果影響較大的通道上。通道注意力模塊由兩個池化層、多層感知機、激活函數組成。3維通道注意力的網絡模型架構如圖6所示。
圖6 3維通道注意力模型圖[16]Fig. 6 3D channel attention model [16]
其中表示按位相加,表示sigmoid的激活函數。具體實現過程為:首先分別利用3維平均值池化和3維最大值池化來聚合輸入特征的空間信息,生成兩種不同的時空上下文描述符;再將兩個時空上下文描述符分別送入一個共享權重的多層感知機中,得到兩個特征圖;最后將得到的兩個特征圖進行逐元素求和并用sigmoid函數激活得到最后的通道注意力權重。通道注意力的計算公式為:
其中MLP代表兩層神經網絡,σ代表sigmoid激活函數。由于本文輸入的是視頻序列,包含時序信息,所以將通道注意力模塊中的平均池化、最大池化由2維擴展為3維,即輸入由(batchsize, channel, height, width)改為(batchsize, channel, time_sequential, height, width)。
2.2.2 3維時空注意力模塊
3維時空注意力主要是為了集中注意力在對分類有利的時間和空間特征區(qū)域上,是對3維通道注意力的補充。時空注意力模塊由兩個池化層、一個卷積層、一個激活函數組成。時空注意力模塊的具體模型架構如圖7所示:
圖7 3維時空注意力模型圖[16]Fig. 7 3D spatio-temporal attention model [16]
時空注意力的具體過程為:首先分別利用平均池化和最大池化來聚合輸入特征的通道信息,生成兩種不同的通道上下文描述符;再將兩個通道上下文描述符拼接在一起,并經過一個卷積核為7×7×7的卷積層進行信息的聚合;最后用sigmoid函數激活得到時空注意力權重。時空注意力的計算公式為:
其中?7×7×7代表卷積核為7×7×7的卷積運算,σ代表sigmoid激活函數。與通道注意力相似,本文對空間注意力機制也做出了修改,不但將空間注意力中的平均池化、最大池化由2維擴展為3維,還將2維卷積換成了3維卷積,改進之后的空間注意力機制變?yōu)闀r空注意力機制,因為改進后的注意力機制不僅可以聚焦重要的局部空間信息,還能聚焦重要的局部時間信息,能夠在時間和空間兩個維度上突出重要特征。
為了使模型能夠提取出更具代表性的全局時空特征,文中對ConvLSTM網絡作出了改進。ConvLSTM網絡由多個cell組成,文中在每個cell中加入注意力機制,增強了網絡提取全局時空特征的能力,同時能更準確地提取出代表性特征。文中將改進后的ConvLSTM簡記為CBAM-ConvLSTM,結構圖如圖8所示。
圖8 CBAM-ConvLSTM結構圖Fig. 8 CBAM-ConvLSTM structure
由上圖可知,CBAM-ConvLSTM網絡的計算過程可分為三個步驟:首先將上一時刻的外部狀態(tài)ht-1和當前時刻的輸入xt按通道維度拼接在一起,并進行卷積,再將卷積提取的特征作為CBAM的輸入,最后通過對CBAM的輸出進行切分操作得到遺忘門?t、輸入門it、輸出門ot和當前時刻的內部狀態(tài)ct。遺忘門?t決定上一時刻的內部狀態(tài)ct-1需要遺忘多少信息,當?t=0時表示完全忘記,當?t=1時表示完全保留;輸入門it決定當前時刻的內部狀態(tài)需要保留多少信息,當it=0時表示所有的信息都不保留,當it=1時表示保留全部的信息;輸出門ot決定當前時刻的內部狀態(tài)ct有多少信息需要輸出,當ot=0時表示不輸出,當ot=1時表示全部輸出。遺忘門、輸入門、輸出門和當前時刻的內部狀態(tài)的計算 公式為:
其中Wxf、Wxi、Wxo和Wxc分別為遺忘門、輸入門、輸出門和當前時刻的內部狀態(tài)的狀態(tài)-輸出權重矩陣;Uhf、Uhi、Uho和Uhc分別為遺忘門、輸入門、輸出門和當前時刻的內部狀態(tài)的狀態(tài)-狀態(tài)權重矩陣;bf、bi、bo和bc分別為遺忘門、輸入門、輸出門和當前時刻的內部狀態(tài)的偏置向量;*表示卷積操作;C表示CBAM操作;σ表示sigmoid的激活函數;tanh表示tanh激活函數。
然后,由上一時刻的狀態(tài)、輸入門、遺忘門和當前時刻的內部狀態(tài)計算出當前時刻的狀態(tài),當前時刻的內部狀態(tài)的計算公式為:
其中⊙為矩陣的Hadamard乘積。
最后,用輸出門和當前狀態(tài)相乘得到當前時刻的外部狀態(tài),當前時刻的外部狀態(tài)的計算公式為:
本文模型較為復雜,其中特征提取部分的C3D網絡由8層3維卷積和5層池化組成,卷積核大小均為3×3×3;事件分類部分由2層CBAMConvLSTM網絡和2層全連接層組成,CBAMConvLSTM中的卷積核大小3×3,全連接層的神經元個數分別為512、3。由于特征提取部分的C3D網絡不但層數較多,而且參數量龐大,所以利用遷移學習的方法,使用Sports-1M體育視頻數據集對C3D網絡進行預訓練。
在訓練模型時,為了使模型快速收斂,得到局部最優(yōu)解,使用交叉熵計算模型的損失,并使用Adam優(yōu)化器更新模型的參數。
UCF-Crimes數據集是Sultani等[18]在2018年提出的監(jiān)控視頻下的異常檢測數據集。該數據集分為14類,共有1 900段監(jiān)控視頻。雖然UCF-Crimes數據集種類多,數量大,但是數據集中存在一些嚴重的問題,比如,監(jiān)控視頻的畫質差;部分監(jiān)控視頻中存在鏡頭切換、重復、尺寸不一;類別界定不清晰(比如,縱火和爆炸、虐待和斗毆等)。
所以本文通過對UCF-Crimes數據集進行裁剪、去重、歸整等一系列操作,自建了一個包含打架斗毆、交通事故以及故意破壞3類監(jiān)控視頻的數據集Crimes-mini。打架斗毆類包含兩人互毆和多人群架,這類視頻共包含74個;交通事故類包含汽車之間、汽車與行人之間、汽車與自行車之間發(fā)生的碰撞,這類視頻共包含87個;故意破壞類包含故意破壞或損壞公共或私人財產的行為,這類視頻共包含90個。數據集中的部分視頻如圖9所示。
本文在使用Crimes-mini數據集時,采用定長抽幀的方法在視頻中抽取64幀,由于視頻長度不同,所以抽幀的間隔幀數也不同。最后將每幀圖像的大小統(tǒng)一調整為240×320。
Hockey數據集為常用的暴恐檢測數據集,曲棍球比賽中的打斗視頻,一共有1 000個視頻片段,其中500個為曲棍球比賽中的暴力視頻片段,另外500個為正常曲棍球比賽視頻。每個視頻片段的分辨率為360×288,數據集中部分樣本如圖10所示。
圖9 Crimes-mini數據集樣本圖像(a:打架斗毆;b:交通事故;c:故意破壞)Fig. 9 Sampling images with Crimes-mini dataset (a: fighting; b: road accident; c: vandalism)
圖10 Hockey數據集樣本圖像(a:暴力視頻;b:正常比賽)Fig. 10 Sampling images with Hockey dataset (a: violence in video; b: normal match)
3.2.1 卷積核的設置
本文選用CBAM-ConvLSTM網絡作為監(jiān)控視頻犯罪事件場景分類的全局特征提取網絡,CBAM- ConvLSTM網絡由LSTM、卷積層和注意力機制組成,其中卷積層用于提取全局空間特征,LSTM用于提取全局時序特征,注意力機制用于凸顯對分類貢獻最大的時空區(qū)域。由于卷積層提取的全局空間特征是注意力機制和LSTM的輸入,因此卷積層提取全局空間特征的能力至關重要。而卷積層提取全局特征的能力由卷積核決定,所以本節(jié)將CBAMConvLSTM網絡中卷積核分別設置成1×1、3×3、5×5、7×7,在Crimes-mini數據集上通過實驗分析不同卷積核提取全局特征的能力,及模型對犯罪事件視頻場景分類結果的影響。不同卷積核的實驗結果如圖11所示。
圖11 不同卷積核對準確率的影響Fig. 11 Effect of different convolution kernels on accuracy
圖11中的acc1、acc2、acc3、acc4分別表示卷積核為1×1、3×3、5×5、7×7時準確率的變化曲線。當卷積核為1×1時,感受野為1,無法獲取和聚集當前區(qū)域與鄰域之間的聯系,相當于不同通道間的信息做線性變換,不能達到提取全局特征的效果。隨著卷積核的增大,感受野也會增大,但是因為CBAM-ConvLSTM網絡每個時間步輸入和輸出的特征圖大小相同,所以在卷積時需要根據卷積核的大小對輸入進行填充,因為填充的數值是0,相當于在輸入中加入了噪聲,這對特征提取會造成很大的影響,且這種影響會隨著時間步的疊加不斷累積。當卷積核為5×5、7×7時,填充后的特征中一半以上的數值為0,不利于全局特征的提取。只有當卷積核為3×3時,既能同時彌補以上缺陷,又能提取出最有利于分類的全局特征,所以本文選用3×3的卷積核。
3.2.2 學習率的設置
學習率是神經網絡優(yōu)化時的重要超參數,在梯度下降法中,學習率的取值非常關鍵,如果過大就會不收斂,如果過小則收斂太慢,在不同的學習率下F1值變化如圖12所示。
圖12 不同學習率對F1值的影響Fig. 12 Effect of different learning rates on F1 value
圖12中的F1-1、F1-2、F1-3、F1-4分別表示卷積核為1×1、3×3、5×5、7×7時F1值的變化曲線,由圖可知,當卷積核為3×3時,F1值普遍大于其他三種情況,再一次驗證了上一節(jié)的說法。由圖11、12可知,當卷積核為3×3,學習率為0.000 8時準確率和F1值達到最大。
本文設計的基于深度學習的監(jiān)控視頻犯罪事件分類算法,在自建的監(jiān)控視頻Crimes-mini數據集和公開的暴力行為Hockey數據集上進行實驗。在實驗過程中,數據集的80%作為訓練集,20%作為測試集。使用訓練集進行模型訓練,通過迭代更新參數,以獲得局部最優(yōu)解;用測試集評價模型,并用準確率及F1值作為評價指標。
由于目前學界對監(jiān)控視頻犯罪事件的研究較少,且本文是在自建的Crimes-mini數據集上進行實驗,所以利用消融實驗的方法,驗證所提模型的有效性。實驗結果如表1所示。
對比模型1和3,可知LSTM提取全局時序特征的能力比C3D更好;對比模型2和3,可知先使用C3D聚合局部時空特征比直接使用ResNet2d網絡提取空間特征對分類更有益;對比模型3和4,可知加入注意力機制后更能凸顯有利于分類的時空特征;對比模型4和5,可知ConvLSTM比LSTM提取出的全局時空特征更好;對比模型5和7,可知在ConvLSTM中加入CBAM之后,模型提取全局時空特征的能力更強,分類效果更好;對比模型6和7,可知在加入3維通道注意力和3維時空注意力后,模型局部特征提取能力更強,更能體現出視頻中對分類有益的局部特征。
綜上所述,本文提出的模型7能更好地對監(jiān)控視頻犯罪事件進行分類。為了進一步驗證本文模型的有效性,本文在公開暴恐數據集Hockey數據集上進行消融實驗,表2展示了消融實驗結果。為了綜合評估本文所提模型的性能,將本文所提模型與其他幾種先進算法進行比較,對比數據如表3所示。
表3中ViF+OViF是利用光流信息提取出視頻的ViF特征(描述觀測到的運動幅度的變化)和OViF特征(描述了運動幅度和運動方向的信息),再將兩種特征結合在一起,最后使用AdaBoost+Linear-SVM進行暴力視頻的檢測[19];3D-CNN將2維卷積擴展為3維卷積,可以同時提取時間和空間上的特征,最后再對提取的特征進行暴力檢測[20];Three streams+ LSTM提出將雙流網絡擴展為三流網絡,每個分支分別使用2D-CNN和LSTM提取特征,三條分支分別為空間特征提取分支、時間特征提取分支和動態(tài)信息特征提取分支,最后采用分數級融合策略進行檢測,這種方法是針對人-人暴力檢測提出的[21]; MoSIFT+ KDE+Sparse Coding首先采用MoSIFT算法提取查詢視頻的低層描述,為了消除特征噪聲,利用基于核密度估計(KDE)的特征選擇方法對MoSIFT描述子進行特征選擇,選擇最具代表性的特征,然后采用稀疏編碼(sparse coding)將簡化的低級描述符轉換為緊湊的中層特征,最后使用SVM分類器進行分類,得出結果是否為暴力視頻[22];C3D+SVM使用3D-CNN網絡提取視頻的時空特征,再使用SVM分類器進行分類[23];MoIWLD先使用高斯濾波器提取MoIWLD描述符,然后使用核密度估計(KDE)特征選擇方法,從所提描述中去除冗余和無關特征,然后再使用文中提出的稀疏模型(SRC)得到最后的分類結果[24];FightNet將視頻幀特征、光流特征和圖像加速度特征作為網絡的輸入,得到檢測分數,最后將三種分數進行融合得到最后檢測結果[25];ConvLSTM使用兩幀之差作為輸入,使用預訓練的AlexNet網絡提取視頻幀的空間特征,再使用ConvLSTM網絡提取時序特征,最后再對視頻進行分類[26];3DCNN+ConvLSTM使用3D-CNN網絡提取視頻的短時特征,然后使用ConvLSTM網絡提取視頻的高層時序特征,最后,利用sigmoid函數進行分類[27]。
表1 Crimes-mini數據集消融實驗結果對比Table 1 Comparison of ablation tests into the Crimes-mini dataset
表2 Hockey數據集消融實驗結果對比Table 2 Comparison of ablation experiments into the Hockey dataset
表3 Hockey數據集上與其他暴力行為檢測算法比較Table 3 Comparison among the violent behavior detection algorithms with the Hockey dataset
本文所提模型在Hockey數據集上的識別精度達到了99.50%,優(yōu)于大多數的暴力檢測算法。與傳統(tǒng)的暴力檢測算法MoIWLD相比識別精度提高了2.70個百分點,目前大多數的傳統(tǒng)方法會使用光流信息,計算光流信息會大大增加模型的計算量,無法做到端到端的訓練和識別。與深度學習的算法相比,比目前識別精度最高的3DCNN+ConvLSTM網絡識別精度提升了0.54個百分點。
本文方法具有先進的識別精度,有兩方面原因:1)模型采用3DCNN網絡和注意力機制提取視頻的局部時空特征,加入注意力機制使得網絡在提取局部特征時能夠更加準確地定位到視頻中行為動作和場景,是一種高效的視頻描述符。2)利用CBAMConvLSTM網絡對局部時空特征進行建模,提取視頻的全局時空特征,進一步挖掘出視頻的前后聯系和視頻中的空間信息。
本文針對監(jiān)控視頻提出了一種基于深度學習的犯罪事件場景分類模型。通過C3D網絡和注意力機制提取監(jiān)控視頻的局部空間特征和局部時序特征,再利用CBAM-ConvLSTM網絡進一步提取監(jiān)控視頻的全局空間特征和全局時序特征,以提高事件分類的準確率。但是由于視頻數量有限,視頻的質量參差不齊,且視頻類別界定不清晰,導致網絡準確率不高。以后工作將從以下方面做出改進,以達到更高的準確率:1)對UCF-Crimes數據集做進一步的修改,提高數據集質量;2)用自監(jiān)督的方式進行模型的訓練,以達到更高的準確率。