亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于條件變分自編碼器的井下配電室巡檢行為檢測

        2022-01-19 00:27:16黨偉超史云龍白尚旺高改梅劉春霞
        工礦自動化 2021年12期
        關鍵詞:配電室集上注意力

        黨偉超, 史云龍, 白尚旺, 高改梅, 劉春霞

        (太原科技大學 計算機科學與技術學院, 山西 太原 030024)

        0 引言

        目前,采煤機械化程度越來越高,為了保障井下生產(chǎn)工作的正常運轉和用電安全,煤礦通常都會制定井下配電室巡檢制度。一般情況下,巡檢制度要求巡檢人員檢查各儀表和信號裝置是否指示正常;檢查導線、設備開關、接觸器和接線端有無過熱及打火現(xiàn)象;檢查設備的工作噪聲有無明顯變化,并對配電裝置、儀表表面和室內環(huán)境進行清掃。由此可見,一套完整的巡檢行為通常包含多個具體的巡檢動作,這些具體巡檢動作可分為站立檢測、下蹲檢測、來回走動、站立記錄和坐下記錄5類。但是,在實際巡檢過程中,有時巡檢人員并未按規(guī)定要求完成必要的巡檢動作,這種行為會導致事故發(fā)生的概率大大增加[1]。當前大部分煤礦企業(yè)主要通過檢查紙質記錄及人工查看監(jiān)控視頻方式來監(jiān)督巡檢人員的工作,這類做法成本高、效率低。為此,有學者提出利用深度學習技術對井下配電室巡檢行為進行識別。楊清翔等[2]采用區(qū)域建議網(wǎng)絡生成井下行人候選區(qū)域,采用動態(tài)自適應池化方法對不同特點的池化域進行自適應池化操作,提高了網(wǎng)絡訓練和檢測的速度。莫宏偉等[3]將OHEM(Online Hard Example Mining)算法和批量規(guī)范化算法與Faster R-CNN算法進行改進結合,可以有效識別出靜態(tài)圖像中存在的小樣本特征。王琳等[4]結合PSPnet(金字塔場景解析網(wǎng)絡)中的金字塔池化單元,引入充分的上下文信息,提出了井下行人檢測網(wǎng)絡YOLOv2_PPM,提升了井下行人檢測的準確率。李偉山等[5]對RPN(區(qū)域候選網(wǎng)絡)結構進行了改進,提出了一種“金字塔RPN”結構,并利用特征融合技術將底層特征和高層語義特征進行融合來共同實現(xiàn)目標的分類。李現(xiàn)國等[6]基于DenseNet網(wǎng)絡和ResNet網(wǎng)絡改進SSD(Single Shot MultiBox Detector)網(wǎng)絡的基礎網(wǎng)絡和輔助網(wǎng)絡,提出了一種井下視頻行人檢測方法。王勇[7]通過研究背景差分法原理,分析了基于混合高斯建模的背景構造原理,在諸多不確定性因素下,實現(xiàn)了序列視頻的自適應背景構建。

        綜上可知,現(xiàn)有研究方法的重點在于視頻動作的分類,并取得了較好效果。但在實際應用中,對于端到端的視頻檢測任務,不僅需要識別巡檢動作的類別,還需要預測巡檢動作發(fā)生的開始時間和結束時間。并且這類研究以監(jiān)督學習的方式訓練網(wǎng)絡,監(jiān)督學習需要標注視頻的每一幀,存在數(shù)據(jù)集制作繁瑣、訓練時間較長等問題。因此,基于弱監(jiān)督學習的動作定位問題也逐漸引起關注。目前,弱監(jiān)督動作定位方法有2類:第1類是自上向下的方法,這類方法首先學習一個視頻級別的分類器,然后通過檢查產(chǎn)生的時間類激活映射(Temporal Class Activation Map,TCAM)[8]來獲得特征幀的注意力。TCAM被用來生成自上而下的、類感知的注意力映射。Wang Limin等[9]使用注意力權重對動作進行定位,同時提出了弱監(jiān)督行為識別和時序行為檢測任務。K.K. Singh等[10]提出了一種在訓練過程中隨機隱藏部分幀的模型,該模型能夠在剩余幀中學習區(qū)分度較低的動作特征。第2類是自下向上的方法,這類方法從原始數(shù)據(jù)中直接預測時間注意力,在視頻分類任務中優(yōu)化注意力,將注意力值高的部分視為動作部分,其他視為背景部分。Zhong Jiaxing等[11]提出了一種擦除模型,擦除部分視頻片段后,可以更好地學習剩余視頻中的特征。但上述方法均非常依賴視頻分類模型,導致了在沒有視頻幀級別標注的條件下很難區(qū)分動作幀和背景幀。

        在井下配電室場景中,監(jiān)控視頻視為由動作幀和背景幀組成。其中,動作幀為存在巡檢動作的視頻幀,背景幀為無人在配電室中巡檢的視頻幀。為了降低數(shù)據(jù)集的制作成本并準確地區(qū)分配電室監(jiān)控視頻中的動作幀和背景幀,本文提出了一種基于條件變分自編碼器的巡檢行為檢測模型。該模型主要由判別注意力模型和生成注意力模型組成,利用判別注意力模型完成巡檢行為的分類任務,對分類結果進行后處理,完成巡檢行為的定位任務。為了提高定位任務的精度,加入基于條件變分自編碼器的生成注意力模型,利用條件變分自編碼器與解碼器的生成對抗對視頻的潛在特征進行學習。在公共數(shù)據(jù)集和自制的井下配電室數(shù)據(jù)集上進行測試,均取得了較為理想的結果。

        1 巡檢行為檢測模型總體框架

        由于不需視頻幀級別的標簽,弱監(jiān)督學習方法通常是通過聚合所有相關視頻幀的特征進行分類。視頻中的背景幀和動作幀通?;祀s在一起,背景幀很容易被識別為動作幀而影響檢測精度。為了區(qū)分背景幀和動作幀,巡檢行為檢測模型需要捕獲它們之間的潛在差異。因此,增加生成注意力模型來模擬基于注意力的視頻特征,通過優(yōu)化生成注意力模型來學習注意力。巡檢行為檢測模型總體框架如圖1所示。

        圖1 巡檢行為檢測模型總體框架Fig.1 Overall framework of inspection behavior detection model

        首先利用特征提取模型分別提取出井下配電室監(jiān)控視頻的RGB特征與光流特征。然后將獲取到的RGB特征與光流特征輸入注意力模塊中進行訓練,其中,RGB特征與光流特征分開訓練。網(wǎng)絡訓練過程分為2個階段交替進行:第1個階段凍結注意力模塊和分類模塊,訓練條件變分自編碼器;第2個階段凍結條件變分自編碼器,訓練注意力模塊和分類模塊。最后對判別注意力模型的輸出進行后處理,最終輸出視頻中包含巡檢動作的時間區(qū)間、動作標簽及置信度,即完成了巡檢動作的分類及定位。

        2 巡檢行為檢測實現(xiàn)

        2.1 特征提取

        在完整的巡檢監(jiān)控視頻中采樣T幀視頻為1個片段,將這個片段切割為RGB幀,并使用TV-L1算法將RGB幀轉換為光流幀,再將光流幀轉換為矩陣數(shù)據(jù);將RGB和光流數(shù)據(jù)切分成若干不重疊的片段,每個片段為16幀。將這些片段輸入經(jīng)過Kinetics數(shù)據(jù)集預訓練的I3D[12]網(wǎng)絡進行特征提取,以獲得每個片段的1 024維特征(圖1)。在巡檢行為檢測模型訓練過程中,RGB和光流特征將分開進行訓練。

        2.2 注意力模塊

        注意力模塊用于提取特征幀的注意力,動作幀會得到更高的注意力得分,相反,背景幀的注意力得分較低。特征xt(xt為第t(t=1,2,…,T)幀的特征,且xt∈Rd,R為實數(shù)集,d為特征維度)輸入注意力模塊后,得到注意力λt(λt為第t幀的注意力)。注意力Attention的表達式為

        (1)

        式中:Q為查詢值;K為鍵值;V為輸出值;softmax為邏輯回歸模型;dK為鍵值的維度。

        巡檢行為檢測模型在注意力模塊中引入了多頭注意力機制[13]。多頭注意力機制可以描述為將Q、K和V分別用不同的、經(jīng)過訓練的線性投影對dQ、dK和dV維進行線性投影h次,然后將它們拼接起來并再次投影,得到最后的結果。dQ為查詢值的維度,dV為輸出值的維度。多頭注意力的表達式為

        MultiHead(Q,K,V)=Concat(head1,

        head2,…,headh)WO

        (2)

        (3)

        在特征提取過程中,特征xt作為注意力模塊的輸入,dQ、dK、dV與xt的維度相同,輸出為特征的對應權重。通過式(1)—式(3)可計算得到特征對應的注意力。

        2.3 判別注意力模型

        判別注意力模型主要完成巡檢動作分類任務。分類模塊是判別注意力模型的主要組成部分。判別注意力模型將注意力λt作為權重,連同視頻特征xt一起輸入分類模塊,產(chǎn)生視頻的前景特征xfg∈Rd:

        (4)

        使用1-λt作為權重來計算視頻的背景特征xbg∈Rd:

        (5)

        分類模塊利用前景和背景特征訓練網(wǎng)絡,輸出為該特征對應每一分類的分數(shù),即為特征的軟分類。在訓練判別注意力模型期間,同時優(yōu)化注意力模塊和分類模塊。

        2.4 生成注意力模型

        (6)

        KL(qφ(zt|xt,λt)‖pψ(zt|λt))

        (7)

        2.5 損失函數(shù)及優(yōu)化

        巡檢行為檢測模型包含條件變分自編碼器、分類模塊、解碼器、注意力4個模塊,為了使各個模塊在訓練中優(yōu)化網(wǎng)絡參數(shù),從而提升巡檢行為檢測的準確率,下面分別定義各自的損失函數(shù)。

        定義條件變分自編碼器損失函數(shù)lCVAE為

        KL(qφ(zt|xt,λt)‖pψ(zt|λt))≈

        KL(qφ(zt|xt,λt)‖pψ(zt|λt))

        (8)

        (log2Σφ)(m)-1]

        (9)

        定義分類模塊損失函數(shù)le為

        (10)

        式中:lfg為前景損失函數(shù);α為平衡前景損失值和背景損失值的超參數(shù);lbg為背景損失函數(shù);pθ為分類網(wǎng)絡,該網(wǎng)絡由一個全連接層和softmax層構成;y為標簽。

        定義解碼器損失函數(shù)lre為

        (11)

        TCAM是某時間步上特定類的激活映射,可以為特征幀標記指定動作的注意力,確保輸出的時間區(qū)間與目標動作相對應。給定一個帶有標簽y的視頻,TCAM可表示為

        (12)

        (13)

        (14)

        在模型每一輪迭代訓練中,先最小化lCVAE,然后最小化損失函數(shù)l:

        l=le+γ1lre+γ2lguide

        (15)

        式中γ1和γ2分別為平衡解碼器損失值和注意力模塊損失值的超參數(shù)。

        2.6 輸出結果

        對分類模塊輸出的軟分類值進行后處理,完成定位任務。將分類分數(shù)高于閾值的分類均視為該部分可能的動作類別,并為每一個動作類別生成對應的時間區(qū)間([time_start,time_end])和動作分類置信度(confidence)。其中,[time_start,time_end]為動作發(fā)生的開始時間和結束時間,單位為s;confidence為動作分類置信度。輸出結果如圖1所示。

        在后處理過程中,為了更精準地完成動作定位任務,使用注意力區(qū)分背景幀和動作幀,使用TCAM區(qū)分出包含特定動作類別的幀,兩者相乘得到加權TCAM。過濾掉加權TCAM低于閾值的部分,將剩下部分在整段特征中的位置索引用于動作定位。池化檢測出的每一個時間區(qū)間的加權TCAM,以得到置信度。

        3 實驗分析

        3.1 巡檢行為數(shù)據(jù)集

        實驗中所使用的數(shù)據(jù)集全部取自于井下配電室監(jiān)控視頻,并剪裁出其中包含清晰巡檢動作的片段共174個,這些片段涵蓋了站立檢測、下蹲檢測、來回走動、站立記錄和坐下記錄5種動作類別,如圖2所示。

        (e) 坐下記錄圖2 巡檢動作分類Fig.2 Inspection action classification

        在這些動作片段中,挑出76個動作片段作為訓練集,另外的98個動作片段作為測試集,其中每一個動作片段時長大約為8 s,并且只包含一個動作類別。

        3.2 評價指標

        實驗遵循THUMOS14數(shù)據(jù)集[15]給出的標準評估方案,記錄了在不同的交并比(IoU)閾值下的平均精度均值(mAP)。其中,當IoU為0.5時得到的mAP最具代表性,記為mAP@0.5。同時為了分析分類性能,記錄了檢測出正確動作類別的數(shù)量占對應動作真值數(shù)量的百分比。最終結果為5次以上運行結果的平均值。

        3.3 實驗環(huán)境與參數(shù)設置

        巡檢行為檢測模型是在PyTorch環(huán)境、單個NVIDIA GeForce GTX 1060 GPU上進行樣本訓練,使用Adam優(yōu)化器,學習率為0.001,每批數(shù)據(jù)量大小為32,每10次迭代測試一次。實驗中,設置α為0.03,β為0.1,γ1在RGB流中設置為0.5,在光流中設置為0.3,γ2設置為0.1,隱變量z的維度為128,r設置為1,σ設置為1。后處理中,RGB閾值設置為0.03,光流閾值設置為0.08。

        在注意力模塊中,頭的數(shù)量h為4,丟棄率dropout為0.1,輸入為1 024維的特征,輸出為特征對應的注意力。注意力模塊包括縮放點積注意力層和1個全連接層。在分類模塊中,輸入為1 024維的帶權特征,輸出為該特征對應的6個分類的得分。分類模塊由1個全連接層構成。編碼器輸入為1 024維的特征和其對應的注意力,輸出為128維的隱變量z。編碼器模塊包括3個全連接層,各層節(jié)點數(shù)依次為128、128和256。解碼器輸入為128維的隱變量z和特征的注意力,輸出為1 024維的重構特征。解碼器模塊包括3個全連接層,各層節(jié)點數(shù)依次為128、128和1 024。

        3.4 THUMOS14數(shù)據(jù)集上的實驗

        為了更好地評估巡檢行為檢測模型性能,在THUMOS14數(shù)據(jù)集和自制的巡檢行為數(shù)據(jù)集上進行了實驗。在訓練期間,訓練集只提供每個視頻的分類標簽。

        在THUMOS14數(shù)據(jù)集中,視頻被分為20類動作。按照慣例,選取200個視頻作為訓練集,212個視頻作為測試集。每一個視頻平均包含15.5個動作片段,每個動作實例為幾秒到幾分鐘不等的片段。

        在THUMOS14數(shù)據(jù)集上進行了實驗,不同弱監(jiān)督動作定位模型在THUMOS14數(shù)據(jù)集上的檢測結果對比見表1。

        表1 不同模型在THUMOS14數(shù)據(jù)集上的檢測結果Table 1 Detection results of different models on the THUMOS14 dataset %

        從表1可看出,Hide-and-Seek模型[10]的mAP@0.5為6.8%,這是由于在訓練過程中隱藏了區(qū)分度較高的幀,導致檢測效果不佳;UntrimmedNet模型[9]的mAP@0.5為13.7%,這是由于在檢測時動作邊界的動作幀與背景幀存在混淆,導致定位效果不佳;SEOC模型[11]的mAP@0.5為15.9%,這是由于對包含多個不同動作的視頻分類不準確,導致檢測效果不佳;本文模型的mAP@0.5達到17.0%,優(yōu)于其他幾種模型,這表明本文模型相比其他幾種模型可做出更準確的預測。

        3.5 巡檢行為數(shù)據(jù)集上的實驗

        由于可獲得的配電室監(jiān)控視頻有限,導致自制的巡檢行為數(shù)據(jù)集的數(shù)據(jù)量較小。所以,采用遷移學習的方法,將經(jīng)過THUMOS14數(shù)據(jù)集訓練后的模型參數(shù)遷移到自制的巡檢行為數(shù)據(jù)集上繼續(xù)訓練。在巡檢行為數(shù)據(jù)集上的動作檢測率見表2,由表2可看出,下蹲檢測動作的分類準確率并不高,這是由于下蹲檢測動作與坐下記錄動作極為相似,部分下蹲檢測動作被識別為坐下記錄動作,從而導致了這2個動作的混淆。

        表2 本文模型在巡檢行為數(shù)據(jù)集上的動作檢測率Table 2 The action detection rate of this model on the inspection behavior dataset

        本文模型在巡檢行為數(shù)據(jù)集上的結果見表3, 對比表3和表1可看出,在自制的巡檢行為數(shù)據(jù)集上的預測結果比在THUMOS14數(shù)據(jù)集上更加準確。這是由于在井下配電室監(jiān)控視頻中,場景較為固定,巡檢動作分類較少,使得模型檢測結果更佳。這也同時說明了本文模型更適用于井下配電室巡檢行為檢測場景。

        表3 本文模型在巡檢行為數(shù)據(jù)集上的檢測結果Table 3 Detection results of this model on the inspection behavior dataset

        3.6 模型在井下配電室場景中的應用

        將訓練完成的參數(shù)輸入到巡檢行為檢測模型,對井下配電室監(jiān)控視頻進行動作分類及定位。輸入一段井下配電室監(jiān)控視頻,模型將對這段監(jiān)控視頻進行動作分類與定位,同時生成動作檢測文件,其中包含動作發(fā)生的時間區(qū)間、類別及置信度。依據(jù)動作檢測文件將視頻進度(time)、當前動作類別(label)和置信度(score)標記在監(jiān)控視頻左上方作為最終檢測結果輸出,如圖3所示,視頻總長度為130 s,當前視頻播放進度為14.88 s,巡檢人員正在執(zhí)行下蹲檢測,置信度為0.88,表示模型認為在當前視頻幀中最可能存在下蹲檢測動作,且存在的概率為88%,證明了巡檢行為檢測模型在實際場景中的有效性。

        圖3 檢測結果Fig.3 Detection results

        4 結論

        (1) 基于條件變分自編碼器的巡檢行為檢測模型由判別注意力模型和生成注意力模型組成,利用判別注意力模型完成巡檢行為的分類任務,對分類結果進行后處理,完成巡檢行為的定位任務。利用加入基于條件變分自編碼器的生成注意力模型對視頻的潛在特征進行學習,以提高定位任務的精度。該模型提高了巡檢工作效率,降低了訓練成本。

        (2) 為了盡可能地捕捉視頻特征間的微小差異,利用條件變分自編碼器來構造基于不同注意力時不同特征的分布,解決了弱監(jiān)督動作定位中動作幀和背景幀易混淆的問題,具有較高的檢測精度,在THUMOS14數(shù)據(jù)集上,mAP@0.5達到了17.0%,并將模型參數(shù)遷移到自制的巡檢行為數(shù)據(jù)集上繼續(xù)訓練,在自制的巡檢行為數(shù)據(jù)集上mAP@0.5達到了24.0%,滿足了井下配電室巡檢行為檢測精度要求。

        (3) 實驗結果表明,檢測精度還存在很大的提升空間,在接下來的工作中,可通過擴充行為檢測數(shù)據(jù)集的樣本數(shù)量和類型,以得到更高的檢測精度,或通過優(yōu)化網(wǎng)絡結構提高模型的泛化能力。

        猜你喜歡
        配電室集上注意力
        讓注意力“飛”回來
        Cookie-Cutter集上的Gibbs測度
        鏈完備偏序集上廣義向量均衡問題解映射的保序性
        試述變配電室降溫方式
        電子測試(2017年12期)2017-12-18 06:36:09
        復扇形指標集上的分布混沌
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        淺談10kV配電室高低壓開關選擇及保護措施
        關于配電室UPS的應用
        超高層變配電室位置選址分析
        蜜臀久久99精品久久久久久| 欧美日韩综合在线视频免费看| 男女在线免费视频网站| 亚洲免费精品一区二区| 老鲁夜夜老鲁| 精品少妇人妻av无码久久 | 真正免费一级毛片在线播放 | 日本av第一区第二区| 一本大道道久久综合av| 色婷婷综合久久久久中文字幕| 国产目拍亚洲精品一区二区| 2022AV一区在线| 国产黄色三级一区二区三区四区| 久久精品国产自在天天线| 伊人蕉久中文字幕无码专区| 日本理论片一区二区三区| 久久国产精品精品国产色| 精品香蕉99久久久久网站| 牲欲强的熟妇农村老妇女| 97SE亚洲国产综合自在线不卡| 亚洲av国产精品色a变脸| 亚洲人成网77777色在线播放| 香蕉视频在线精品视频| 草草影院国产| 国产大屁股熟女流白浆一区二区| 日本真人边吃奶边做爽电影| 国产又色又爽无遮挡免费 | 亚洲在线一区二区三区| 99久久精品费精品国产一区二| a级特黄的片子| 精品国产福利片在线观看| 国产精品自拍视频免费观看| 精品卡一卡二卡3卡高清乱码| 久久精品亚洲中文字幕无码网站| 九九久久精品大片| 美腿丝袜在线观看视频| 亚洲精品久久一区二区三区777| 久久精品亚洲牛牛影视| 日本人妖一区二区三区 | 丰满多毛的大隂户毛茸茸| 少妇精品无码一区二区三区|