亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ST-SlowFast的電力生產(chǎn)環(huán)境違規(guī)行為檢測

        2023-07-17 07:20:52黎亦凡司恒斌任曉龍林平遠(yuǎn)張志宏
        智慧電力 2023年6期
        關(guān)鍵詞:雙流雙通道注意力

        楊 樂,黎亦凡,陳 曦,司恒斌,任曉龍,林平遠(yuǎn),張志宏

        (1.國網(wǎng)陜西省電力公司信息通信公司,陜西西安 710065;2.廈門大學(xué)信息學(xué)院,福建廈門 361005)

        0 引言

        隨著國家電網(wǎng)基礎(chǔ)設(shè)施的快速發(fā)展,電力生產(chǎn)中如何保證施工人員的安全性成為電力事業(yè)建設(shè)的關(guān)注重點(diǎn)之一。由于電力作業(yè)的特殊性,再小的安全隱患都會導(dǎo)致很嚴(yán)重的后果[1]。因此,除了施工人員需嚴(yán)格按照操作手冊進(jìn)行操作外,還專門設(shè)立了安監(jiān)部門及現(xiàn)場安全員以提供安全保障。采用安全員在場監(jiān)督的管理方法,雖然在一定程度上能夠督促施工人員遵守安全性防護(hù)規(guī)則,但其不僅耗時耗力,也無法保證24 h 全天候安全監(jiān)管。

        近年來,由于高清監(jiān)控的全面化普及以及深度學(xué)習(xí)技術(shù)的快速發(fā)展,以高清攝像頭作為媒介的計算機(jī)視覺技術(shù)為電力作業(yè)場景下的實(shí)時檢測應(yīng)用提供了廣泛的解決方案[2-13]。

        電力作業(yè)環(huán)境下的違規(guī)行為檢測一直是實(shí)現(xiàn)智能化安全監(jiān)管的重大難題之一,雖然其本質(zhì)上同屬于行為檢測,但與傳統(tǒng)行為檢測的不同在于,電力生產(chǎn)環(huán)境中的違規(guī)行為檢測存在著一定的數(shù)據(jù)瓶頸且多屬于長時動作,有別于拍手、擊掌等原子動作以及跳躍等短時動作,長時動作往往需要更多的上下文信息及時空間信息間的交互。目前基于深度學(xué)習(xí)的行為檢測方法主要分為2 種:(1)基于雙流卷積的方式[14-15],將空間信息和時間信息分別進(jìn)行建模,雖然針對一些簡單的原子動作能夠取得較好的結(jié)果,但在短時和長時動作的檢測中準(zhǔn)確率較低;(2)利用三維卷積直接進(jìn)行特征提取,可直接在2 個維度上進(jìn)行特征的提取從而加強(qiáng)特征之間的關(guān)聯(lián)性,但提取特征粒度較粗,難以達(dá)到令人滿意的準(zhǔn)確率。這2 種方法雖然能夠?qū)崿F(xiàn)行為識別,但難以應(yīng)用于電力生產(chǎn)環(huán)境下的違規(guī)行為檢測。

        本文針對目前電力生產(chǎn)場景中存在的違規(guī)行為進(jìn)行調(diào)研,以跨越圍欄場景作為應(yīng)用背景制作相關(guān)數(shù)據(jù)集用于實(shí)驗(yàn)結(jié)果的驗(yàn)證,并提出了一種新穎的行為識別模型ST-SlowFast(Spatio-Temporal SlowFast)。該模型同時結(jié)合時間及空間維度信息以增強(qiáng)視頻行為識別魯棒性。

        本文的主要貢獻(xiàn)如下:(1)以跨越圍欄作為典型樣例并制作了用于驗(yàn)證模型性能的數(shù)據(jù)集;(2)在雙流模型的基礎(chǔ)上構(gòu)建了基于注意力機(jī)制的第三條特征融合通道,同時補(bǔ)足了時空間信息以及長上下文信息之間的交互。

        1 行為檢測概述

        1.1 雙流行為檢測

        Simonyan 提出的雙流卷積網(wǎng)絡(luò)(Two-stream Convolution Neural Network,Two-stream CNN)[16]首次利用密集光流信息捕捉時間上的運(yùn)動特征,并設(shè)計了雙流卷積網(wǎng)絡(luò)架構(gòu),通過對不同維度的信息建模完成最后的行為分類。時間分段網(wǎng)絡(luò)(Temporal Segment Network,TSN)[17]針對雙特征提取網(wǎng)絡(luò)的龐大計算量做出優(yōu)化,采用隨機(jī)時間片分割的方式對視頻信息進(jìn)行輸入處理,在降低了計算量的同時,補(bǔ)全了雙流網(wǎng)絡(luò)對長時間建模能力不足的問題。時間關(guān)系網(wǎng)絡(luò)(Temporal Relation Network,TRN)[18]則致力于探索時間信息的關(guān)系,它使用ResNet[19]網(wǎng)絡(luò)對特征進(jìn)行提取,并設(shè)計了新的時間片融合方式獲取長時信息,利用多尺度特征融合提高模型的魯棒性。文獻(xiàn)[16-18]的方法雖然在一定程度上解決了二維卷積無法處理時間維度的問題,但其模型的復(fù)雜性以及僅沿著單一維度特征提取的局限性導(dǎo)致其難以廣泛應(yīng)用,雙流行為檢測通過最直接方式對不同維度的信息進(jìn)行建模,但在提取特征時兩者的關(guān)聯(lián)性較低,因此在短時和長時行為檢測中難以達(dá)到令人滿意的性能。

        1.2 基于三維卷積的行為檢測

        對于視頻流數(shù)據(jù)而言,二維卷積網(wǎng)絡(luò)通常只能夠?qū)ζ渲械囊粠瑘D像進(jìn)行處理,通過雙流卷積網(wǎng)絡(luò)雖然能夠完成視頻流行為檢測,但模型參數(shù)量以及實(shí)時性仍然難以令人滿意。三維卷積由Ji 等[20]提出,作為二維卷積的延申,三維卷積處理視頻特征時可很好地保留時間維度信息,所取得的特征也具有更強(qiáng)的關(guān)聯(lián)性。三維卷積雖然在特征提取上契合視頻流數(shù)據(jù),但在檢測結(jié)果上相較于雙流卷積提升不夠明顯。因此在結(jié)合了雙流結(jié)構(gòu)以及三維卷積的基礎(chǔ)上,He 等人提出了SlowFast[15],它通過模擬生物視覺機(jī)制構(gòu)建不同幀率的通道以提取視頻數(shù)據(jù)特征,并且與此前傳統(tǒng)的僅采用雙流結(jié)構(gòu)或是三維卷積的方法相比在精確率上有了較大的提升??紤]到當(dāng)前行為檢測模型的性能主要依賴于幀級檢測以及三維卷積的長時建模,為了更好地區(qū)分相似的對象,Sun 等人提出了一種融合環(huán)境特征的行為檢測模型(Actor-centric Relation Network,ACRN)[21],提高了模型的判別性,通過三維卷積直接進(jìn)行特征抽取的方式涵蓋了過多的背景噪聲,容易對長時動作檢測產(chǎn)生影響。

        2 基于時空間信息注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)

        2.1 SlowFast概述

        SlowFast 提出了一種不同于雙流行為檢測的雙通道架構(gòu),其靈感來自靈長類視覺系統(tǒng)中2 種不同視網(wǎng)膜神經(jīng)節(jié)細(xì)胞的功能,文中分別將他們稱為慢速(Slow)和快速(Fast)通道;這2 條通道通過簡單的拼接完成時空特征之間的交互,最后由一個全連接層來完成分類。

        Slow 通道和Fast 通道作為特征提取網(wǎng)絡(luò),可以采用如ResNet,MobileNet[22]等結(jié)構(gòu),他們之間主要區(qū)別在于輸入的幀采樣率。相較于Fast 通道而言,Slow 通道是一個低幀率輸入通道,對于輸入的視頻數(shù)據(jù),它用一個大的時間步長(一般設(shè)置為16 來進(jìn)行采樣),這意味著每秒30 幀視頻經(jīng)過采樣后只有2 個關(guān)鍵幀,其目的在于獲取時間片內(nèi)的語義信息;Fast 通道通常選用和Slow 通道一樣的網(wǎng)絡(luò)結(jié)構(gòu),其主要差別在于參數(shù)量大小,為了獲得連貫的動作細(xì)節(jié)特征,F(xiàn)ast 通路以高采樣率對輸入視頻進(jìn)行采樣(時間步長表示為t/a,t 代表原始視頻的幀率,a 表示下采樣大小,通常設(shè)置為4)。由于采樣率較高,F(xiàn)ast 路徑相對于Slow 路徑將通道維度的值設(shè)置得較低,以減少浮點(diǎn)計算量。

        SlowFast 通過巧妙的方式提出了一種雙通道的結(jié)構(gòu)以同時捕捉語義特征及動作特征,但在SlowFast 論文中實(shí)驗(yàn)部分在針對Fast 通道進(jìn)行消融時發(fā)現(xiàn)僅保留Slow 通道的結(jié)果與雙通道結(jié)果差異不大。這是因?yàn)殡p通道之間的信息融合機(jī)制過于簡單(主要采用三維卷積對時間維度進(jìn)行下采樣以達(dá)到相同的維度),這種形式雖然簡單有效,但是并沒有充分利用Fast 通道當(dāng)中的連續(xù)動作特征。本文針對SlowFast 的雙通道融合機(jī)制進(jìn)行優(yōu)化,額外設(shè)計了一條時空間注意力機(jī)制通道用于重分配不同尺度下語義及動作特征權(quán)重,以更好地對雙通道特征進(jìn)行融合,并整合不同感受野下的上下文特征,從而增強(qiáng)了時空間以及長上下文信息的交互,提升長時行為檢測的準(zhǔn)確性。

        2.2 ST-SlowFast

        ST-SlowFast 的網(wǎng)絡(luò)細(xì)節(jié)結(jié)構(gòu)及模型框架結(jié)構(gòu)分別如圖1、圖2 所示。

        圖1 ST-SlowFast模型細(xì)節(jié)結(jié)構(gòu)圖Fig.1 Detail structure of ST-SlowFast model

        圖2 ST-SlowFast框架結(jié)構(gòu)圖Fig.2 Framework structure of ST-SlowFast

        網(wǎng)絡(luò)模塊的輸入包括5 個維度分別為B,C,T,W,H,分別代表訓(xùn)練批量數(shù)、通道維度數(shù)、采樣幀數(shù)、圖像寬度值和圖像高度值。圖2 中第1 條低幀率圖片輸入通道為Slow 通道,第3 條高幀率圖片輸入通道為Fast 通道,其中b和a為超參數(shù),b用于調(diào)整Fast 通道中像素通道維度數(shù),文中設(shè)置為0.125;a用于調(diào)整采樣幀率,文中設(shè)置為4,中間進(jìn)行特征融合的通道為本文所添加的ST-Pathway(Spatio-Temporal Pathway),圖1 中展示了圖2 各個模塊的實(shí)現(xiàn)細(xì)節(jié)。

        由圖1 可知,ST-SlowFast 中Slow,F(xiàn)ast 及ST 通道采用的網(wǎng)絡(luò)結(jié)構(gòu)均為ResNet-101[19],包含輸入層、輸出層及33 個ResNet 模塊,其中的m和n分別表示中間特征層的數(shù)量以及每一個特征層對應(yīng)的殘差連接模塊數(shù),時空間注意力模塊被用于每一個中間特征輸出層。

        2.3 時空間注意力模塊

        Transformer[23]是一個端到端的注意力機(jī)制模塊,最早應(yīng)用于自然語言處理(Natural Language Processing,NLP)領(lǐng)域中,以解決RNN 網(wǎng)絡(luò)的長時依賴局限性以及推理速度慢等問題[24-25],其通過全局注意力機(jī)制計算的方式為細(xì)粒度特征分配權(quán)重,從而解決了長時依賴問題。在圖像分類領(lǐng)域中,視覺Transformer(Vision Transformer,VIT)[26]首 次 以Transformer 完全替代卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模塊,將輸入圖片劃分為塊的方式減少注意力計算復(fù)雜度,并且通過添加可學(xué)習(xí)參數(shù)保證塊與塊之間的相對位置。本文基于此,針對視頻流的三維輸入提出了2 個處理時空間特征的Transformer 結(jié)構(gòu):空間注意力模塊(Spatio Transformer)和時間注意力模塊(Temporal Transformer),并將兩者融入ST-SlowFast 以解決SlowFast 語義動作特征間的自適應(yīng)融合。

        Spatio Transformer 的結(jié)構(gòu)如圖3 所示,Slow 和Fast 通道此時的輸入維度分別為(B,C,T,W,H)及(B,b?C,a?T,W,H)。從結(jié)構(gòu)組成來看,Spatio Transformer 包含多頭交叉注意力層(Multi-head Cross Attention,MCA)、標(biāo) 準(zhǔn) 化 層(Layer Norm,LN)、多層感知機(jī)層(Multi-Layer Perceptron,MLP)及殘差連接層,同時在訓(xùn)練時加入隨機(jī)失活層(Dropout)以防止過擬合。

        圖3 Spatio Transformer模塊Fig.3 Module of Spatio Transformer.

        對于輸入的不同維度特征,Spatio Transformer首先通過三維卷積對通道維度和時間維度進(jìn)行變換,使兩者統(tǒng)一;然后為了對階段輸出特征與雙通道模塊間的注意力分布圖進(jìn)行計算,采用維度變換方式把時間維度整合到通道維度中,同時將像素點(diǎn)整合成一維向量的形式。同時為了保證模型推理的速度,采用了分塊計算(文中塊大小設(shè)置為14×14),并加入線性層(Linear Layer)學(xué)習(xí)1 組參數(shù)用于記錄像素塊的位置信息,整體過程如下所示:

        式中:Ofast為快通道的階段輸出特征;RS 為維度變換操作,變換形式如式(3);Oslow為慢通道的階段輸出特征;out為局部網(wǎng)絡(luò)模塊的輸出;outmlp為經(jīng)過MLP 層的輸出;MCA 為Transformer 中的關(guān)鍵模塊,其計算過程如下:

        式中:Wq,Wk,Wv為對Oslow和Ofast進(jìn)行線性變換的權(quán)重參數(shù),Q,K,V分別為注意力機(jī)制計算時的Query,Key 及Value;d為特征向量嵌入維度,1/縮放操作用于解決點(diǎn)乘操作可能導(dǎo)致的梯度消失。

        式(7)—式(10)說明了注意力圖的運(yùn)算過程,多頭注意力機(jī)制通過多個參數(shù)矩陣對輸入特征進(jìn)行注意力計算,其中每一個注意力頭headi可表示為:

        式中:headi為第i個注意力頭的輸出結(jié)果。

        由多個注意力頭進(jìn)行聚合的結(jié)果OMCA表示如下:

        式中:⊕為連接操作;Wo為輸出層的權(quán)重;l為注意力頭的總數(shù)。

        Spatio Transformer 通過注意力機(jī)制對Slow 和Fast 通道所生成的語義特征和空間特征在像素區(qū)域進(jìn)行聚合,從而捕捉Slow 通道中的重點(diǎn)動作變化區(qū)域。

        Temporal Transformer 的結(jié)構(gòu)如圖4 所示,從結(jié)構(gòu)組成上Temporal Transformer 與Spatio Transformer相近,但為了從時間維度上捕捉Fast 通道幀序列中的重點(diǎn)幀,在進(jìn)行MCA 前需要重新對維度變化進(jìn)行設(shè)計。Temporal Transformer 并不對時間維度進(jìn)行變化以保留時間特征,而是將圖像像素點(diǎn)轉(zhuǎn)化為一維向量,同時以注意力機(jī)制捕捉像素點(diǎn)變換劇烈的時間幀;其整體過程類似于Spatio Transformer,但是在RS 操作上有所變換,變換細(xì)節(jié)如式(13)所示:

        圖4 Temporal Transformer模塊Fig.4 Module of Temporal Transformer

        Spatio-temporal Transformer 結(jié)構(gòu)在雙通道特征間搭建了一個基于注意力機(jī)制的橋梁,在保留了CNN歸納偏置特性的同時增加了全局注意力權(quán)重分配。

        3 實(shí)驗(yàn)驗(yàn)證

        3.1 數(shù)據(jù)集

        本文制作了一個基于AVA[27]格式的跨欄違規(guī)行為檢測數(shù)據(jù)集,共包含132 個視頻剪輯片段。根據(jù)原子動作進(jìn)行分解,數(shù)據(jù)集中的標(biāo)簽包含站立、行走和跨越3 個類別。數(shù)據(jù)預(yù)處理過程如下:(1)將視頻以每秒30 幀的形式進(jìn)行分割;(2)從每秒中挑選1 幀作為關(guān)鍵幀并進(jìn)行數(shù)據(jù)標(biāo)注;(3)使用目標(biāo)跟蹤方法為關(guān)鍵幀添加身份標(biāo)簽。經(jīng)過數(shù)據(jù)預(yù)處理,共有11 513 幀圖像,其中397 幀為進(jìn)行動作標(biāo)注的關(guān)鍵幀。將數(shù)據(jù)集中的80%作為訓(xùn)練集,其余部分作為測試集。

        3.2 實(shí)驗(yàn)設(shè)置

        實(shí)現(xiàn)ST-SlowFast 所采用的pytorch 版本為1.12.1,并且在NVIDIA TITAN XP 上完成訓(xùn)練。模型在訓(xùn)練的過程中使用Adam 優(yōu)化器進(jìn)行梯度更新,學(xué)習(xí)率設(shè)置為0.000 2,β1和β2分別設(shè)置為0.9和0.999,權(quán)重衰減系數(shù)設(shè)置為0.000 1,迭代輪次為500;使用ResNet-101 作為特征提取主干模型,選取在Kinetics-400 上進(jìn)行訓(xùn)練的預(yù)訓(xùn)練的權(quán)重作為快慢通道的初始權(quán)重,對ST 通道的權(quán)重進(jìn)行訓(xùn)練。

        3.3 評估指標(biāo)

        本文采用平均精確度均值(mean Average Precision,mAP)作為實(shí)驗(yàn)指標(biāo)。該值需要對數(shù)據(jù)集中的每一個類計算精確度均值(Average Precision,AP)值,該值同時與精確率Vpre和召回率Vrec這2 項(xiàng)指標(biāo)相關(guān):

        式中:TP,F(xiàn)P,F(xiàn)N分別為真陽、真陰及假陰的樣本個數(shù)。

        由于Vpre和Vrec是一對矛盾的值,因此采用AP來對結(jié)果進(jìn)行評估更加直觀,其計算方式為統(tǒng)計不同Vpre和Vrec值曲線下的面積VAP:

        式中:P和R分別為準(zhǔn)確率和召回率。

        真實(shí)場景應(yīng)用中通常涉及到多個類別下的模型性能評估,因此mAP 的使用頻次更高,其是多個類別AP 的均值,可采用OmAP表示為:

        式中:OAPj為第j個類別的值;N為類別總數(shù)。

        3.4 對比實(shí)驗(yàn)

        為了更好地評估ST-SlowFast 在跨欄行為檢測上的性能,本文選取SlowFast,SlowOnly 及ACRN[21]作為對比方法。實(shí)驗(yàn)結(jié)果如表1 所示,其中OmAP在計算時所采用的重疊面積閾值設(shè)置為0.5。由表1 可知,本文所提出的ST-SlowFast 相較于其他方法在mAP 值上都有較大的提升。對比基線模型SlowFast,本文所提出的模型在性能上提高了約22%。由此可知,第3 條特征通道添加讓模型能夠捕捉到抬腳等細(xì)微動作的變化。STSlowFast 可視化結(jié)果如圖5 所示,其中綠色檢測框表示檢測所得結(jié)果。從圖5 可以看出,在室內(nèi)外環(huán)境中ST-SlowFast 對跨欄違規(guī)行為均有較好的檢測結(jié)果。

        表1 跨欄檢測數(shù)據(jù)集上不同物體檢測器的比較Table 1 Comparison of different object detectors on hurdle detection dataset

        圖5 可視化結(jié)果Fig.5 Visualization results

        3.5 消融實(shí)驗(yàn)

        消融實(shí)驗(yàn)將分別僅保留Spatio Transformer 和Temporal Transformer 模塊,以驗(yàn)證每個模塊的作用。消融實(shí)驗(yàn)結(jié)果如表2 所示,其中√代表使用該模塊,×代表不使用該模塊。

        表2 消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results

        由表2 可知,融合兩個模塊的ST-SlowFast 的實(shí)驗(yàn)結(jié)果相較于單獨(dú)加入Spatio 模塊及Temporal模塊所得到的結(jié)果獲得了更高的mAP 值,說明本文所提出的2 個模塊均能夠有效地提升模型的性能。

        4 結(jié)語

        本文針對傳統(tǒng)行為檢測方法存在的缺陷提出了一種時空間信息融合網(wǎng)絡(luò)ST-SlowFast,利用時空間注意力通道將不同尺度的雙通道特征進(jìn)行細(xì)粒度融合,能在低幀率空間語義和高幀率時間語義間捕獲更多細(xì)節(jié)信息。在跨越圍欄違規(guī)行為檢測背景下,ST-SlowFast 在檢測準(zhǔn)確率上有著顯著提升,能夠有效地降低安全監(jiān)管的人力成本。

        猜你喜歡
        雙流雙通道注意力
        四川省成都市雙流區(qū)東升迎春小學(xué)
        讓注意力“飛”回來
        近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
        雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
        雙流機(jī)場一次低能見度天氣過程分析
        四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
        分類高考能否打通“雙通道”
        国产乱人视频在线播放| 国产亚洲成人精品久久久| 少妇高潮惨叫久久久久电影69| 国产精品无圣光一区二区| 国产精品乱一区二区三区| 国产精品久久中文字幕亚洲| 日本免费在线不卡一区二区| 性裸交a片一区二区三区| 国产精品久久国产精品99gif| 亚洲精品熟女乱色一区| 国产三级视频不卡在线观看| s级爆乳玩具酱国产vip皮裤| 成年人黄视频大全| av最新版天堂在资源在线| 国产主播一区二区三区蜜桃| 午夜福利院电影| 女性自慰网站免费看ww| 中文字幕日韩精品亚洲精品| av无码精品一区二区三区| 国产午夜精品久久久久免费视| 97精品国产高清自在线看超| 男女视频网站在线观看| 鲁丝片一区二区三区免费| 热の国产AV| 一区二区三区在线观看视频免费 | 国产日本精品一区二区免费| 精品乱人伦一区二区三区| 国产亚洲精品久久久久秋霞| 国产精品国产三级国产在线观| 国产精品国产自产自拍高清av| 中文亚洲av片在线观看| 伊人精品无码AV一区二区三区| 综合久久加勒比天然素人| 亚洲av无码一区二区三区鸳鸯影院| 国产在线不卡一区二区三区| 无码专区亚洲avl| 日本一区二区免费在线看| 国产亚洲欧美精品久久久| 女女同性黄网在线观看| 亚洲av成人永久网站一区| 樱桃视频影院在线播放|