亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)注意力機(jī)制與VGG?BiLSTM的暴力行為檢測(cè)

        2024-11-02 00:00:00李金成閆睿驁代雪晶
        現(xiàn)代電子技術(shù) 2024年21期
        關(guān)鍵詞:注意力機(jī)制特征提取

        摘 "要: 為解決單一深度卷積神經(jīng)網(wǎng)絡(luò)VGG特征提取的局限性,以及單一循環(huán)神經(jīng)網(wǎng)絡(luò)RNN在記憶歷史信息方面的困難,提出改進(jìn)注意力機(jī)制與深度時(shí)空網(wǎng)絡(luò)的深度學(xué)習(xí)模型VBA?net的暴力行為檢測(cè)方法。首先,通過(guò)VGG的深層神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵局部特征;其次,運(yùn)用改進(jìn)后的注意力機(jī)制捕捉和優(yōu)化最顯著的特征;最后,利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)處理過(guò)去和未來(lái)的時(shí)序數(shù)據(jù)。仿真實(shí)驗(yàn)結(jié)果表明,VBA?net在規(guī)模較小的HockeyFight和Movies數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了97.42%和98.06%,在具有多樣化內(nèi)容和復(fù)雜環(huán)境數(shù)據(jù)集RWF?2000和RLVS上準(zhǔn)確率分別達(dá)到89.00%和95.50%,因此其在復(fù)雜環(huán)境的綜合魯棒性?xún)?yōu)于同類(lèi)算法,可有效提升暴力行為檢測(cè)任務(wù)中的準(zhǔn)確率。

        關(guān)鍵詞: 暴力行為檢測(cè); 深度卷積神經(jīng)網(wǎng)絡(luò); 雙向長(zhǎng)短期記憶網(wǎng)絡(luò); 注意力機(jī)制; VBA?net; 特征提取

        中圖分類(lèi)號(hào): TN919?34; TP391.41 " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A " " " " " " " " " "文章編號(hào): 1004?373X(2024)21?0131?08

        Violence behavior detection based on improved attention mechanism and VGG?BiLSTM

        LI Jincheng, YAN Ruiao, DAI Xuejing

        (College of Public Security Information Technology and Intelligence, Criminal Investigation Police University of China, Shenyang 110854, China)

        Abstract: In view of the limitations of feature extraction in a single deep convolutional neural network VGG (visual geometry group) and the challenges of historical memory in a single recurrent neural network (RNN), an improved deep learning model for violence behavior detection, known as the visual geometry group network?bidirectional long short?term memory network?improved attention mechanism (VBA?net), has been proposed. This model is based on improved attention mechanism and deep spatio?temporal network. The approach begins by extracting key local features with the deep neural network (DNN) of the VGG. Subsequently, an improved attention mechanism is employed to capture and optimize the most significant features. Finally, the bidirectional long short?term memory network (Bi?LSTM) is used to process temporal data of both past and future contexts. Simulation results demonstrate that the VBA?net achieves accuracy rates of 97.42% and 98.06% on the smaller HockeyFight and Movies datasets, respectively, and accuracy rates of 89.00% and 95.50% on the more diverse and complex RWF?2000 and RLVS datasets, respectively. Thus, it exhibits superior comprehensive robustness in complex environment in comparison with the similar algorithms. To sum up, it can improve the accuracy of the tasks of violent behavior detection effectively.

        Keywords: violence behavior detection; DCNN; Bi?LSTM; attention mechanism; VBA?net; feature extraction

        0 "引 "言

        近年來(lái),隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的快速發(fā)展,暴力行為識(shí)別已成為研究熱點(diǎn)之一,并且在校園安全管理、城市監(jiān)控系統(tǒng)以及家庭安全等方面具有應(yīng)用價(jià)值。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,這一領(lǐng)域的研究方法呈現(xiàn)快速發(fā)展的趨勢(shì)。與傳統(tǒng)技術(shù)相比,深度學(xué)習(xí)能夠自動(dòng)地提取低層次到高層次的抽象特征,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)成為處理此類(lèi)問(wèn)題的主流技術(shù),吸引眾多學(xué)者構(gòu)建新的模型。文獻(xiàn)[1]采用3D SE?Densenet模型提取視頻中的時(shí)空特征信息,但未充分考慮暴力行為的時(shí)序性。文獻(xiàn)[2]將前景圖輸入到網(wǎng)絡(luò)模型中提取視頻特征。首先利用輕量化EfficientNet提取前景圖中的幀級(jí)空間暴力特征;然后利用卷積長(zhǎng)短時(shí)記憶(ConvLSTM)網(wǎng)絡(luò)進(jìn)一步提取視頻序列的全局時(shí)空特征。文獻(xiàn)[3]提出一種改進(jìn)R?C3D網(wǎng)絡(luò)的暴力行為時(shí)序定位方法,將殘差模塊的直接映射分支結(jié)構(gòu)進(jìn)行優(yōu)化,減少時(shí)空特征丟失,同時(shí)將殘差分支進(jìn)行時(shí)空特征密集拼接,減少梯度彌散。文獻(xiàn)[4]使用卷積長(zhǎng)短期記憶網(wǎng)絡(luò)來(lái)學(xué)習(xí)檢測(cè)暴力視頻的方法,通過(guò)使用ConvLSTM網(wǎng)絡(luò)結(jié)構(gòu),利用視頻序列的時(shí)空信息進(jìn)行暴力行為檢測(cè),但缺乏數(shù)據(jù)處理的靈活性和泛化能力。

        注意力機(jī)制已經(jīng)被證實(shí)是一種有效的策略,通過(guò)對(duì)不同模塊的自動(dòng)加權(quán),關(guān)注輸入序列中的特定部分。文獻(xiàn)[5]提出一種基于注意力機(jī)制的BiLSTM模型,該模型通過(guò)注意力機(jī)制對(duì)行為序列中的重要部分進(jìn)行自動(dòng)加權(quán),有效地分析行為前后關(guān)系,從而實(shí)現(xiàn)高精度的行為識(shí)別。

        綜上所述,我國(guó)在計(jì)算機(jī)科學(xué)領(lǐng)域已取得一系列重要成就,但在模型分類(lèi)和仿真技術(shù)方面仍存在一定的缺陷。因此,本文提出一種改進(jìn)注意力機(jī)制與深度時(shí)空神經(jīng)網(wǎng)絡(luò)的暴力行為檢測(cè)模型——VBA?net(Visual Geometry Group Network?Bidirectional Long Short?Term Memory Network?Improving Attention Mechanism)。該模型結(jié)合VGG網(wǎng)絡(luò)(Visual Geometry Group Network)和雙向長(zhǎng)短期記憶(BiLSTM)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)來(lái)提取視頻序列中的時(shí)空特征。在VGG網(wǎng)絡(luò)中引入一種基于格拉姆矩陣運(yùn)算的殘差自注意力機(jī)制,進(jìn)一步增強(qiáng)模型對(duì)于關(guān)鍵特征的識(shí)別能力,從而提升模型在暴力行為檢測(cè)任務(wù)中的準(zhǔn)確率和魯棒性。

        1 "方法及原理

        1.1 "VGG?19網(wǎng)絡(luò)

        VGG?19網(wǎng)絡(luò)主要由卷積層、池化層和全連接層構(gòu)成。卷積層通過(guò)卷積運(yùn)算來(lái)處理輸入數(shù)據(jù),捕捉局部特征;池化層則對(duì)卷積層的輸出進(jìn)行下采樣,降低特征維度,增強(qiáng)模型的泛化能力;全連接層在網(wǎng)絡(luò)末端將前面提取和篩選過(guò)程中的特征進(jìn)行加權(quán)組合。這種結(jié)構(gòu)安排使得VGG網(wǎng)絡(luò)在視頻識(shí)別任務(wù)中表現(xiàn)出卓越的性能。VBA?net對(duì)于每個(gè)視頻幀,提取“FC2”層的輸出作為幀的特征表示。VGG?19網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        卷積核與輸入數(shù)據(jù)先相乘再對(duì)應(yīng)求和的過(guò)程稱(chēng)之為卷積運(yùn)算,具體運(yùn)算過(guò)程為:

        [G×ω=k=1Cj=1Wi=1H[Gk(i,j)ωk(i,j)]] (1)

        式中:[G]為卷積層的輸入數(shù)據(jù);[ω]為卷積核的權(quán)重參數(shù);[C]、[W]、[H]分別為卷積核的通道數(shù)、寬、高。

        在VGG模型卷積層中改變激活函數(shù),完成非線性運(yùn)算,選用PReLU(Parametric Rectified Linear Unit)函數(shù)作為激活函數(shù),解決ReLU在[x]lt;0部分導(dǎo)致神經(jīng)元死亡的問(wèn)題,其公式為:

        [PReLU(x)=x,x≥0ax,xlt;0] (2)

        PReLU函數(shù)旨在解決傳統(tǒng)激活函數(shù)的零梯度問(wèn)題,通過(guò)給負(fù)值輸入引入一個(gè)微小的線性成分,即應(yīng)用[ax](其中[a]是一個(gè)較小的正系數(shù))來(lái)調(diào)整,從而保持網(wǎng)絡(luò)在負(fù)值區(qū)域的學(xué)習(xí)能力。

        1.2 "BiLSTM網(wǎng)絡(luò)

        BiLSTM是長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)的一個(gè)變體,通過(guò)將兩個(gè)LSTM層并行排列實(shí)現(xiàn),其中一個(gè)LSTM層負(fù)責(zé)處理正向的序列信息(從開(kāi)始到結(jié)束),另一個(gè)LSTM層則處理反向的序列信息(從結(jié)束到開(kāi)始)。這種結(jié)構(gòu)允許BiLSTM同時(shí)捕獲序列中的前向和后向的上下文信息,使其能夠在某一點(diǎn)上同時(shí)考慮前面和后面的數(shù)據(jù),最終,這兩個(gè)方向上的信息被組合在一起,以做出更加全面和準(zhǔn)確的預(yù)測(cè)[6]。

        BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        在時(shí)間步[t]的網(wǎng)絡(luò)輸出預(yù)測(cè)值為:

        [ylt;tgt;=g(Wy[alt;tgt;;alt;tgt;]+by)] (3)

        式中:[alt;tgt;]、[alt;tgt;]分別為時(shí)間步[t]的正向LSTM隱藏狀態(tài)和反向LSTM隱藏狀態(tài);[t]代表時(shí)間;[Wy]代表輸出層的權(quán)值向量,用于將BiLSTM網(wǎng)絡(luò)的隱藏狀態(tài)轉(zhuǎn)換為輸出;[by]代表輸出層的偏置向量,用于激活函數(shù)之前的線性變換;[g]代表激活函數(shù)sigmoid,值域?yàn)閇0,1]。

        1.3 "基于格拉姆矩陣運(yùn)算的殘差自注意力機(jī)制

        自注意力機(jī)制(Self?Attention)常用于建模序列數(shù)據(jù)、圖像或空間數(shù)據(jù)中的內(nèi)部關(guān)系。自注意力機(jī)制能夠?qū)W習(xí)到輸入序列內(nèi)部元素之間的依賴(lài)關(guān)系,并動(dòng)態(tài)地分配不同的注意力權(quán)重。自注意力機(jī)制的核心思想是通過(guò)將輸入序列映射到查詢(xún)(query)、鍵(key)和值(value)的特征表示,然后計(jì)算查詢(xún)與鍵之間的相似度,得到注意力分?jǐn)?shù)。注意力分?jǐn)?shù)可以通過(guò)歸一化處理轉(zhuǎn)化為注意力權(quán)重,用于加權(quán)聚合值。最終,自注意力機(jī)制將加權(quán)聚合的結(jié)果與原始輸入進(jìn)行線性組合,得到自注意力機(jī)制的輸出[7],運(yùn)算流程如圖3所示。

        通過(guò)將特征表示矩陣(已通過(guò)注意力得分進(jìn)行加權(quán))與值相乘,得到格拉姆矩陣,其表達(dá)式為:

        [Gram_matrix=value×attentionT] (4)

        該過(guò)程實(shí)際上是計(jì)算一個(gè)加權(quán)特征表示,并不是傳統(tǒng)意義上的格拉姆矩陣。加權(quán)特征表示捕獲了輸入特征內(nèi)部的全局依賴(lài)性,提高了模型對(duì)數(shù)據(jù)結(jié)構(gòu)的理解能力。

        [γ]參數(shù)是一個(gè)可學(xué)習(xí)的縮放因子,通過(guò)對(duì)自注意力層的輸出進(jìn)行縮放,[γ]參數(shù)為模型提供了靈活性,使其能夠在訓(xùn)練過(guò)程中學(xué)習(xí)到何時(shí)依賴(lài)原始特征,何時(shí)依賴(lài)經(jīng)注意力機(jī)制加工后的特征。該機(jī)制有利于模型動(dòng)態(tài)地調(diào)整自身對(duì)注意力信息的依賴(lài)程度,提升模型處理復(fù)雜數(shù)據(jù)時(shí)的準(zhǔn)確性和泛化能力。

        殘差連接是深度學(xué)習(xí)中一種常見(jiàn)的技術(shù),用于緩解深層網(wǎng)絡(luò)訓(xùn)練過(guò)程中可能出現(xiàn)的梯度消失或梯度爆炸問(wèn)題。殘差連接將自注意力機(jī)制的輸出與原始的輸入特征圖相加,有助于維持信息流的順暢,同時(shí)允許模型在必要時(shí)利用原始特征,確保深層網(wǎng)絡(luò)模型也能有效學(xué)習(xí)。[γ]參數(shù)和殘差連接的數(shù)學(xué)公式為:

        [out=γ×out+x] (5)

        在這三個(gè)元素共同作用下,能夠提升模型對(duì)數(shù)據(jù)的理解和表達(dá)能力。格拉姆矩陣提供了一種加權(quán)特征表示機(jī)制,通過(guò)這種機(jī)制模型能夠捕捉和利用輸入數(shù)據(jù)的內(nèi)部依賴(lài)性;[γ]參數(shù)提供調(diào)節(jié)注意力機(jī)制影響程度的手段;殘差連接確保深層網(wǎng)絡(luò)中能保持信息的流動(dòng)和梯度的傳播。這種設(shè)計(jì)使得自注意力機(jī)制能夠有效地集成到深度學(xué)習(xí)模型中,增強(qiáng)其性能和泛化能力。帶有改進(jìn)注意力機(jī)制(Gram?based Weighted Self?attention Mechanism, G?WSA)與層規(guī)范化(Layer Normalization, LN)的卷積模塊如圖4所示。

        1.4 "VBA?net網(wǎng)絡(luò)

        深度神經(jīng)網(wǎng)絡(luò)VGG?19在圖像空間特征提取方面具有優(yōu)勢(shì),而B(niǎo)iLSTM神經(jīng)網(wǎng)絡(luò)在處理時(shí)間序列數(shù)據(jù)方面具有優(yōu)勢(shì)。因此,本文結(jié)合基于格拉姆矩陣運(yùn)算的殘差自注意力機(jī)制和時(shí)空網(wǎng)絡(luò)(VGG?BiLSTM),提出一種新型的暴力行為識(shí)別方法,有效分類(lèi)識(shí)別人體某些部位在三維空間中的加速度、角速度和角度等時(shí)空特征。VBA?net模型主要由四個(gè)部分組成:離散小波變換(Discrete Wavelet Transform, DWT)預(yù)處理、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、雙向長(zhǎng)短期記憶(BiLSTM)網(wǎng)絡(luò)和改進(jìn)注意力機(jī)制。該模型的整體架構(gòu)如圖5所示。VBA?net設(shè)置的網(wǎng)絡(luò)參數(shù)結(jié)構(gòu)如表1所示。

        該模型首先利用DWT預(yù)處理技術(shù)對(duì)輸入的視頻幀進(jìn)行處理,以增強(qiáng)其表現(xiàn)力并減少冗余信息,從而為深度學(xué)習(xí)模型提供更加清晰和有區(qū)分力的特征[8];然后采用VGG?19網(wǎng)絡(luò)作為特征提取器,從每個(gè)預(yù)處理后的視頻幀中提取潛在特征,提升模型對(duì)視頻幀中重要特征的關(guān)注度。在VGG?19網(wǎng)絡(luò)的每個(gè)池化層后引入改進(jìn)后的注意力機(jī)制(G?WSA),使模型能夠自動(dòng)識(shí)別并聚焦分類(lèi)任務(wù)中的重要部分。

        從VGG?19網(wǎng)絡(luò)的“[FC2]”層中提取每個(gè)視頻幀的關(guān)鍵特征,其輸出的高維特征向量包含了視頻幀中的關(guān)鍵信息。然后,這些特征向量被送入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)中,處理時(shí)間序列數(shù)據(jù)。BiLSTM網(wǎng)絡(luò)能夠有效捕捉視頻序列的時(shí)間動(dòng)態(tài)信息,通過(guò)學(xué)習(xí)視頻幀之間的前向和后向依賴(lài)關(guān)系,從而提供視頻內(nèi)容隨時(shí)間變化的深層信息。

        2 "實(shí)驗(yàn)設(shè)置

        2.1 "軟硬件平臺(tái)配置

        基于Ubuntu 22.04.4 LTS操作系統(tǒng)的計(jì)算機(jī)硬件進(jìn)行深度學(xué)習(xí)模型訓(xùn)練。具體配置包括Intel[?] CoreTM i7?13700H處理器、16 GB內(nèi)存以及兩塊RTX 3090顯卡。

        2.2 "實(shí)驗(yàn)數(shù)據(jù)集介紹

        深度學(xué)習(xí)技術(shù)的發(fā)展依賴(lài)于大規(guī)模數(shù)據(jù)集的支撐,缺乏足夠的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,將無(wú)法進(jìn)行深度學(xué)習(xí)算法的性能比較。表2為常用的4個(gè)數(shù)據(jù)集參數(shù)對(duì)比情況。

        2.3 "實(shí)驗(yàn)相關(guān)參數(shù)

        由上文可知,VBA?net卷積核個(gè)數(shù)分別為64、128、256、512、512,BiLSTM隱藏單元的個(gè)數(shù)為1 024。添加Flatten層將多維輸入展平為一維向量,并且防止過(guò)擬合使用dropout正則化技術(shù),每次訓(xùn)練迭代中概率[p]設(shè)置為0.5。另外,卷積核大小為(3,3),步長(zhǎng)(stride)為1,填充(Padding)為“same”,且在每個(gè)池化層后添加注意力機(jī)制,設(shè)置最大池化層的窗口長(zhǎng)度為(2,2),池化步長(zhǎng)為(2,2)。在神經(jīng)網(wǎng)絡(luò)正向傳播的過(guò)程中,采用二元交叉熵作為模型的損失函數(shù)。神經(jīng)網(wǎng)絡(luò)反向傳播時(shí),使用Adam優(yōu)化方法更新神經(jīng)網(wǎng)絡(luò)的權(quán)重與偏置,學(xué)習(xí)率的初值為0.001,迭代次數(shù)為200次,設(shè)置模型訓(xùn)練的批次大小為64。其中二元交叉熵的計(jì)算公式為:

        [Binary Cross?Entropy=-1Ni=1N[yilog(yi)+ " " " " " " " " " " " " " " " " " " " " " " "(1-yi)log(1-yi)]] (6)

        3 "實(shí)驗(yàn)結(jié)果與分析

        3.1 "評(píng)價(jià)標(biāo)準(zhǔn)

        實(shí)驗(yàn)結(jié)果的評(píng)價(jià)主要采用準(zhǔn)確率(Accuracy)和[F1]兩個(gè)指標(biāo)。[F1]是精確率(Precision)與召回率(Recall)的調(diào)和平均值。

        為了關(guān)注所有類(lèi)別中正確分類(lèi)的樣本比例,引入微平均指標(biāo)(Micro [F1])以及加權(quán)平均指標(biāo)(Weighted [F1]),具體的計(jì)算公式為:

        [Micro F1=2×Micro Precision×Micro RecallMicro Precision+Micro Recall] (7)

        [Weighted F1=Num SamplesiTotal Samples×F1] (8)

        3.2 "VBA?net模型實(shí)驗(yàn)結(jié)果

        表3為本文提出的VBA?net模型在四種數(shù)據(jù)集中測(cè)試的各項(xiàng)參數(shù)指標(biāo)。RLVS數(shù)據(jù)集準(zhǔn)確率為95.50%,Micro [F1]為95.49%,Weighted [F1]為95.50%,其識(shí)別結(jié)果表現(xiàn)出較高的準(zhǔn)確率和[F1],顯示出相對(duì)穩(wěn)定的整體性能;RWF?2000數(shù)據(jù)集準(zhǔn)確率為89.00%,Micro [F1]為88.80%,Weighted [F1]為88.90%,其識(shí)別結(jié)果表現(xiàn)出較高的精確率和[F1]得分,顯示出準(zhǔn)確率和召回率之間存在一種權(quán)衡,模型表現(xiàn)出良好的魯棒性。雖然RWF?2000數(shù)據(jù)集模型可能存在一定的誤分類(lèi),但能有效捕捉感興趣的實(shí)例。

        3.3 "消融實(shí)驗(yàn)

        為詳細(xì)研究本文算法各個(gè)模塊產(chǎn)生的性能增益,以VGG?net模型為基礎(chǔ)網(wǎng)絡(luò),選擇添加DWT預(yù)處理、LSTM、BiLSTM、卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)、G?WSA,評(píng)估算法在RLVS復(fù)雜環(huán)境數(shù)據(jù)集的性能指標(biāo),結(jié)果如表4所示。

        1) 在視頻預(yù)處理方面,采用常規(guī)圖像增廣的方式來(lái)增加數(shù)據(jù)集數(shù)量的同時(shí),還對(duì)圖像視頻進(jìn)行離散小波變化(DWT)預(yù)處理,選擇感興趣的小波系數(shù)進(jìn)行處理,可以實(shí)現(xiàn)數(shù)據(jù)的壓縮以及減小存儲(chǔ)空間和傳輸帶寬的需求。由實(shí)驗(yàn)數(shù)據(jù)可知,進(jìn)行圖像預(yù)處理是必要的,可以提高訓(xùn)練結(jié)果的準(zhǔn)確率。

        2) 如表4所示,模型對(duì)“[FC2]”層輸出數(shù)據(jù)的處理,表現(xiàn)出BiLSTM的耦合性相較于LSTM更優(yōu)異。BiLSTM通過(guò)充分利用序列數(shù)據(jù)中的雙向上下文信息,既包括從序列起點(diǎn)至當(dāng)前時(shí)刻的歷史信息,也涵蓋從序列終點(diǎn)回溯至當(dāng)前時(shí)刻的未來(lái)信息。BiLSTM依托于兩個(gè)獨(dú)立運(yùn)作的LSTM單元,分別對(duì)數(shù)據(jù)序列的正向和反向進(jìn)行處理,并在之后將這兩個(gè)方向的信息有效融合,此過(guò)程增強(qiáng)模型對(duì)于時(shí)間序列數(shù)據(jù)的深度理解。LSTM僅能處理當(dāng)前時(shí)刻的歷史信息,而無(wú)法獲取及利用未來(lái)時(shí)刻的信息,從而限制其在處理具有強(qiáng)時(shí)序依賴(lài)特性的效能。因此,BiLSTM的設(shè)計(jì)架構(gòu)對(duì)于需要深度時(shí)序分析的應(yīng)用場(chǎng)景而言,顯示出更加卓越的性能表現(xiàn)。

        3) 基于格拉姆矩陣運(yùn)算的殘差自注意力機(jī)制(G?WSA)的添加,對(duì)整個(gè)模型的整體效能提升顯著,相比CBAM注意力機(jī)制效果較好。基于格拉姆矩陣計(jì)算注意力得分,可以判斷模型在做出決策時(shí)哪些輸入元素起了關(guān)鍵作用,從而提高模型的可解釋性。[γ]參數(shù)和殘差連接的引入使得自注意力層可以更加有效地集成到深度網(wǎng)絡(luò)中,有助于加速訓(xùn)練過(guò)程,其中[γ]參數(shù)是一個(gè)可學(xué)習(xí)的縮放因子,允許模型在訓(xùn)練過(guò)程中逐漸評(píng)判注意力機(jī)制的重要程度。模型在學(xué)習(xí)期間可以自適應(yīng)地調(diào)整自注意力機(jī)制的影響程度,決定將多少注意力特征融合到最終的輸出中。

        3.4 "在復(fù)雜數(shù)據(jù)集中與其他檢測(cè)方法的比較

        為了說(shuō)明VBA?net模型的魯棒性和有效性,全面評(píng)估其識(shí)別能力,分別選擇了6種前沿的暴力檢測(cè)模型與VBA?net模型在2個(gè)復(fù)雜環(huán)境數(shù)據(jù)集(RWF?2000、RLVS)下進(jìn)行識(shí)別率對(duì)比,結(jié)果如表5所示。由表中數(shù)據(jù)可知,本文所提出的VBA?net模型對(duì)復(fù)雜環(huán)境下暴力行為識(shí)別綜合準(zhǔn)確率最高。

        圖6和圖7為VBA?net模型在RLVS和RWF?2000數(shù)據(jù)集上的訓(xùn)練與驗(yàn)證過(guò)程中的準(zhǔn)確率變化以及損失函數(shù)的迭代過(guò)程。各模型在RLVS數(shù)據(jù)集上的準(zhǔn)確率隨著訓(xùn)練迭代次數(shù)的增加逐漸提高,并最終趨于穩(wěn)定。RWF?2000數(shù)據(jù)集上的準(zhǔn)確率整體表現(xiàn)良好,但在后期的部分迭代過(guò)程中出現(xiàn)劇烈下跌,但隨后迅速恢復(fù)到穩(wěn)定狀態(tài),這種現(xiàn)象反映了模型在處理復(fù)雜數(shù)據(jù)集時(shí)部分組件的耦合性不足。本文提出的VBA?net網(wǎng)絡(luò)模型在訓(xùn)練集上表現(xiàn)出較快的收斂速度,并在達(dá)到穩(wěn)定后表現(xiàn)出較高的準(zhǔn)確率,證明了VBA?net在處理動(dòng)態(tài)和復(fù)雜視覺(jué)數(shù)據(jù)方面的優(yōu)越性和魯棒性。

        圖8a)和圖8b)分別為RLVS和RWF?2000數(shù)據(jù)集上的混淆矩陣?;煜仃囎髠?cè)的分類(lèi)代表樣本的實(shí)際類(lèi)別,底側(cè)的分類(lèi)代表模型的預(yù)測(cè)類(lèi)別。矩陣中每個(gè)單元格的數(shù)值反映了對(duì)應(yīng)類(lèi)別的樣本數(shù)量,主對(duì)角線上的數(shù)值表示模型正確分類(lèi)的樣本數(shù)量,其余單元格的數(shù)值則表示分類(lèi)錯(cuò)誤的樣本數(shù)量。

        在RLVS數(shù)據(jù)集中,模型將5個(gè)非暴力行為樣本誤分類(lèi)成暴力行為,以及4個(gè)暴力行為樣本誤分類(lèi)成非暴力行為,在非暴力行為檢測(cè)上存在一定程度的誤分類(lèi),但模型整體表現(xiàn)良好。在RWF?2000數(shù)據(jù)集上,模型將35個(gè)非暴力行為樣本誤分類(lèi)成暴力行為,9個(gè)暴力行為樣本誤分類(lèi)成非暴力行為。非暴力行為的誤報(bào)數(shù)量(186個(gè)樣本中的35個(gè))表明模型可能在標(biāo)記非暴力行為時(shí)過(guò)于保守;暴力行為的較低漏報(bào)率(214個(gè)樣本中的9個(gè))表現(xiàn)出模型在識(shí)別暴力行為方面的高準(zhǔn)確率。

        4 "結(jié) "語(yǔ)

        本文提出一種VBA?net模型,其引入了基于格拉姆矩陣運(yùn)算的殘差自注意力機(jī)制(G?WSA),從而能動(dòng)態(tài)地聚焦于更具信息量的特征,同時(shí)抑制次要信息,這一特征加權(quán)機(jī)制使得該模型極大地增強(qiáng)了特征表示能力。VBA?net在HockeyFight、Movies、RWF?2000和RLVS等數(shù)據(jù)集上進(jìn)行了廣泛的訓(xùn)練和驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,VBA?net對(duì)于復(fù)雜環(huán)境下的數(shù)據(jù)集,特別是RWF?2000和RLVS,相較于其他模型具有更高的綜合識(shí)別精度,證明VBA?net在不同場(chǎng)景下暴力行為識(shí)別的有效性。盡管VBA?net在復(fù)雜環(huán)境中表現(xiàn)突出,但對(duì)于簡(jiǎn)易環(huán)境數(shù)據(jù)集的識(shí)別精度略顯不足。因此,未來(lái)的研究將著重探索能在各類(lèi)數(shù)據(jù)集上表現(xiàn)均優(yōu)異的模型算法,研究出更具有魯棒性和泛用性的暴力行為檢測(cè)模型。

        注:本文通訊作者為代雪晶。

        參考文獻(xiàn)

        [1] 陳杰,李展,顏普,等.基于3D SE?Densenet網(wǎng)絡(luò)的視頻暴力行為識(shí)別改進(jìn)算法[J].安徽建筑大學(xué)學(xué)報(bào),2023,31(1):56?63.

        [2] 蔡興泉,封丁惟,王通,等.基于時(shí)間注意力機(jī)制和EfficientNet的視頻暴力行為檢測(cè)[J].計(jì)算機(jī)應(yīng)用,2022,42(11):3564?3572.

        [3] 靳偉昭.基于深度學(xué)習(xí)的暴力行為檢測(cè)方法研究[D].西安:西安電子科技大學(xué),2021.

        [4] SUDHAKARAN S, LANZ O. Learning to detect violent videos using convolutional long short?term memory [C]// Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. New York: IEEE, 2017: 1?6.

        [5] 朱銘康,盧先領(lǐng).基于Bi?LSTM?Attention模型的人體行為識(shí)別算法[J].激光與光電子學(xué)進(jìn)展,2019,56(15):153?161.

        [6] CHATTERJEE R, HALDER R. Discrete wavelet transform for CNN?BiLSTM?based violence detection [C]// International Conference on Emerging Trends and Advances in Electrical Engineering and Renewable Energy. Heidelberg: Springer, 2020: 41?52.

        [7] YANG B S, WANG L Y, WONG D F, et al. Convolutional self?attention networks [EB/OL]. [2019?04?24]. http://arxiv.org/abs/1904.03107.

        [8] 張帥濤,蔣品群,宋樹(shù)祥,等.基于注意力機(jī)制和CNN?LSTM融合模型的鋰電池SOC預(yù)測(cè)[J].電源學(xué)報(bào),2024,22(5):269?277.

        [9] JAIN A, VISHWAKARMA D K. Deep NeuralNet for violence detection using motion features from dynamic images [C]// 2020 3rd International Conference on Smart Systems and Inventive Technology (ICSSIT). New York: IEEE, 2020: 826?831.

        [10] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 4489?4497.

        [11] QIU Z F, YAO T, MEI T. Learning spatio?temporal representation with pseudo?3D residual networks [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 5534?5542.

        [12] SANTOS F A O, DURAES D, MARCONDES F S, et al. Efficient violence detection using transfer learning [C]// Procee?dings of the Practical Applications of Agents and Multi?agent Systems. Heidelberg: Springer, 2021: 65?75.

        [13] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6450?6459.

        [14] RENDON?SEGADOR F J, ALVAREZ?GARCIA J A, ENRIQUEZ F, et al. ViolenceNet: Dense multi?head self?attention with bidirectional convolutional LSTM for detecting violence [J]. Electronics, 2021, 10: 1601.

        [15] ALDAHOUL N, KARIM H A, DATTA R, et al. Convolutional neural network?long short term memory based IoT node for violence detection [C]// 2021 IEEE International Conference on Artificial Intelligence in Engineering and Technology (IICAIET). New York: IEEE, 2021: 1?6.

        [16] ULLAH F U M, MUHAMMAD K, HAQ I U, et al. AI?assisted edge vision for violence detection in IoT?based industrial surveillance networks [J]. IEEE transactions on industrial informatics, 2022, 18(8): 5359?5370.

        [17] SU Y K, LIN G S, ZHU J H, et al. Human interaction learning on 3D skeleton point clouds for video violence recognition [C]// Proceedings of 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 74?90.

        [18] CHENG M, CAI K J, LI M. RWF?2000: An open large scale video database for violence detection [C]// 2020 25th International Conference on Pattern Recognition (ICPR). New York: IEEE, 2020: 4183?4190.

        [19] VIJEIKIS R, RAUDONIS V, DERVINIS G. Efficient violence detection in surveillance [J]. Sensors, 2022, 22(6): 2216.

        [20] HUSZáR V D, ADHIKARLA V K, NEGYESI I, et al. Toward fast and accurate violence detection for automated video surveillance applications [J]. IEEE access, 2023, 11: 18772?18793.

        [21] 朱光輝,繆君,胡宏利,等.基于自增強(qiáng)注意力機(jī)制的室內(nèi)單圖像分段平面三維重建[J].圖學(xué)學(xué)報(bào),2024,45(3):464?471.

        作者簡(jiǎn)介:李金成(2001—),男,湖北宜昌人,碩士研究生,研究方向?yàn)椴綉B(tài)識(shí)別技術(shù)。

        閆睿驁(2000—),男,內(nèi)蒙古赤峰人,碩士研究生,研究方向?yàn)椴綉B(tài)識(shí)別技術(shù)。

        代雪晶(1970—),女,遼寧鳳城人,博士研究生,教授,碩士生導(dǎo)師,研究方向?yàn)槁曄褓Y料技術(shù)。

        猜你喜歡
        注意力機(jī)制特征提取
        基于深度學(xué)習(xí)的問(wèn)題回答技術(shù)研究
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
        基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類(lèi)中的研究
        軟件工程(2017年11期)2018-01-05 08:06:09
        InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
        軸承(2010年2期)2010-07-28 02:26:12
        国产亚洲精品aaaaaaa片| 97人人超碰国产精品最新o| 99久热re在线精品99 6热视频| 久久精品国产丝袜| 国产欧美曰韩一区二区三区| 91久久精品一二三区蜜桃| 五十路在线中文字幕在线中文字幕| 免费在线av一区二区| 日产国产亚洲精品系列| 中文字幕乱码亚洲无限码| 挺进邻居丰满少妇的身体| 国产97在线 | 中文| 久久久国产精品ⅤA麻豆| 国产在线一区二区三区av| 亚洲一区二区三区在线| 色中文字幕视频在线观看| 综合人妻久久一区二区精品| 国产一区二区三区亚洲| 狠狠躁日日躁夜夜躁2022麻豆| 欧美一区二区三区视频在线观看| 影视先锋av资源噜噜| 亚洲国产精品国自产电影| 国产激情一区二区三区在线蜜臀| 国产熟女露脸大叫高潮| 午夜一区二区三区观看| 国精品人妻无码一区二区三区性色| 麻豆精品传媒一二三区| 欧美精品中文字幕亚洲专区| 久久一区二区三区不卡| 国产av精品一区二区三区不卡 | 国产国拍亚洲精品福利| 中文字幕人妻一区色偷久久| 日本一区二区三区熟女俱乐部| 亚洲精品乱码久久久久蜜桃| 99国产精品无码| 91精品福利观看| 久久精品视频按摩| 国产少妇高潮在线视频| 亚洲精品无码久久久久y| 少妇下面好紧好多水真爽播放| 欧美老妇与禽交|