亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時空雙流3D殘差網(wǎng)絡(luò)的服務(wù)動作識別

        2023-07-07 03:10:14歐陽黎林彤堯彭冰莉
        計算機應(yīng)用與軟件 2023年6期
        關(guān)鍵詞:動作特征服務(wù)

        歐陽黎 林彤堯 程 鶯 彭冰莉 溫 和

        1(國網(wǎng)湖南省電力有限公司供電服務(wù)中心(計量中心) 湖南 長沙 410004) 2(智能電氣量測與應(yīng)用技術(shù)湖南省重點實驗室 湖南 長沙 410004) 3(湖南大學(xué)電氣與信息工程學(xué)院 湖南 長沙 410000)

        0 引 言

        企業(yè)的服務(wù)質(zhì)量對客戶流量規(guī)模有著重大影響。近年來,為了提高企業(yè)的自身競爭力,國家電網(wǎng)樹立“以客戶為中心,專業(yè),專注,持續(xù)改善”的核心價值觀。圍繞該核心價值觀,為更好地提升客戶滿意度,許多供電營業(yè)廳采用動作識別技術(shù)檢測營業(yè)人員的服務(wù)錄像。與常用數(shù)據(jù)集[1-2]的傳統(tǒng)動作識別不同的是,營業(yè)廳服務(wù)動作識別有著以下兩個特點:(1) 大部分的服務(wù)動作場景是靜態(tài)且相似的,無法通過背景信息判別服務(wù)動作。(2) 部分服務(wù)動作在柜臺后進行,存在著遮擋問題,且服務(wù)動作的幅度很小,對動作識別方法的靈敏度要求極高。圖1展示了傳統(tǒng)動作識別的騎馬場景與營業(yè)廳職業(yè)站立與鞠躬服務(wù)動作場景的特征。對于騎馬動作,動作識別方法可以無須判斷人物具體運動軌跡,僅依靠識別草原與馬等背景特征就能進行識別。而營業(yè)廳服務(wù)動作識別的背景基本相同,且營業(yè)人員沒有明顯位移變化,服務(wù)動作的幅度較小,動作識別難度較大。因此營業(yè)廳服務(wù)動作識別有著很大的挑戰(zhàn)性。

        圖1 傳統(tǒng)動作識別的騎馬場景與營業(yè)廳站立與鞠躬服務(wù)動作場景的特征

        傳統(tǒng)的動作識別方法大都是基于手工提取特征,例如HOG[3](Histogram of Oriented Gradients)、SIFT[4](Scale Invariant Feature Transform)和iDT[5](improved Dense Trajecto-ry)等。然而在面對大型數(shù)據(jù)集時,手工提取特征時間開銷太大,同時也缺乏靈活與拓展性。因此手工提取特征的方法逐漸被深度神經(jīng)網(wǎng)絡(luò)方法替代。近年來,隨著深度學(xué)習(xí)方法的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)在金融[6]、水利[7]和計算機[8]等領(lǐng)域取得重大突破。在計算機視覺方面,2D-CNNs(Convolutional Neural Networks)作為深度網(wǎng)絡(luò)的代表網(wǎng)絡(luò)之一,因能提取RGB圖像的高級特征,迅速成為了目標檢測、視覺理解等圖像領(lǐng)域的常用方法。Girshick等[9]提出R-CNN(Region Convolution Neural Network)進行目標檢測,Donahue等[10]針對計算機的視覺理解提出遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。然而,與圖像識別不同,視頻動作識別除了空間信息還有時間維度的信息。為了能識別視頻中的時空信息,Simonyan等[11]提出了雙流網(wǎng)絡(luò),其使用2D卷積對RGB圖像幀與光流圖分別在不同通道進行特征提取。然而在動作識別上,2D卷積無法充分利用時間信息。為此Ji等[12]在2D卷積上拓展了時間維度,引入了3D卷積的方法,隨后Tran等[13]提出了當時3D卷積網(wǎng)絡(luò)的最優(yōu)結(jié)構(gòu)C3D(3D Convolution Network)結(jié)構(gòu),其通過將連續(xù)的視頻幀進行堆疊,使用3D卷積核進行時空特征提取。為了減少3D網(wǎng)絡(luò)的參數(shù)量和計算時間,Carreira等[14]結(jié)合inception網(wǎng)絡(luò)[15]的方法提出了效果更好的I3D網(wǎng)絡(luò)結(jié)構(gòu)。

        但隨著深度網(wǎng)絡(luò)的不斷發(fā)展,為了應(yīng)對更大的數(shù)據(jù)集,需要深度網(wǎng)絡(luò)層數(shù)越來越多,產(chǎn)生梯度消失、過擬合等問題。為了解決這些問題,He等[16]提出了深度殘差網(wǎng)絡(luò)DRN(Deep Residual Network),其使用跨層連接的思想使得網(wǎng)絡(luò)在加深的同時錯誤率不降反升。Hara等[17]探索了殘差網(wǎng)絡(luò)與3D卷積結(jié)合在動作識別上的性能,3D殘差網(wǎng)絡(luò)(3D-ResNet)即使對幅度較小的動作也有著較高的識別率。但僅使用RGB圖像幀作為輸入的深度卷積網(wǎng)絡(luò)存在著過于依賴訓(xùn)練集的目標或場景信息[18]等問題。且在供電營業(yè)廳中,服務(wù)動作的場景都是靜態(tài)相似的,視頻中包含的場景信息較少且相似,僅使用3D殘差網(wǎng)絡(luò)在服務(wù)動作識別上顯得十分困難。

        考慮到深度卷積網(wǎng)絡(luò)的識別率依賴于場景信息、服務(wù)動作幅度較小和光流圖容易受噪聲影響等因素[19],本文采用時空雙流3D殘差網(wǎng)絡(luò)進行服務(wù)動作識別,其采用文獻[11]的雙流網(wǎng)絡(luò)結(jié)構(gòu)。第一個RGB通道采用能識別動作幅度較小的3D殘差網(wǎng)絡(luò)從RGB幀中提取時空特征;第二個光流通道采用結(jié)構(gòu)簡單的C3D網(wǎng)絡(luò)從光流圖中提取特征作為輔助時間特征。與文獻[11]中提到的平均融合法不同,本文根據(jù)兩個通道對每種服務(wù)動作的正確率,采用加權(quán)平均法將兩個通道的預(yù)測分數(shù)乘以對應(yīng)權(quán)重,將兩個通道分數(shù)進行融合得到最終的動作識別預(yù)測分數(shù)。

        1 時空雙流3D殘差網(wǎng)絡(luò)模型

        1.1 光流法

        光流是二維成像中像素點的運動矢量場,常用來檢測和估計目標。其主要計算第t幀圖像中像素點到第t+Δt幀圖像對應(yīng)像素點的位置變化信息。當營業(yè)人員做出動作與攝像頭產(chǎn)生相對位移時,便可以產(chǎn)生相應(yīng)的光流信息。該光流可以有效地消除背景、人物穿著等因素的影響。設(shè)圖像中像素點在(x,y)位置時的灰度值為I(x,y,t),根據(jù)光流亮度值恒定不變的約束可得公式:

        I(x,y,t)=I(x+Δx,y+Δy,t+Δt)

        (1)

        將式(1)右邊進行泰勒展開,忽略二階以后的項,兩邊再同除dt可得光流公式:

        (2)

        式中:u、v分別為dx/dt、dy/dt,其代表著水平和垂直方向的光流值。但式(2)有兩個未知數(shù),通過一個方程是無法解出的,需要對其附加約束條件,光流約束計算方法通常分為稀疏與稠密光流法兩大類。其中LK算法是常用的稀疏光流法,其是對圖像幀一個局部像素點進行光流計算,先將式(2)化為矩陣形式:

        (3)

        記式(3)為AV=b,然后對其進行最小二乘法,再對其進行加權(quán)重值W,最后可得LK光流公式:

        V=(ATWA)-1ATWb

        (4)

        Gunnar Farneback[20]算法是稠密光流法,與稀疏光流法不同,其需要對整個圖像幀進行光流矢量計算。在得到稠密光流場后,使用孟塞爾系統(tǒng)將其轉(zhuǎn)化為光流圖像。不同的運動強度、方向可分別用顏色的深淺、不同顏色表示。其算法簡單描述如下:

        算法1稠密光流法(Gunnar Farneback算法)

        輸入:prev為圖片幀,V為單個圖像中每個像素的參數(shù)向量。

        1.x←prev

        # 圖片幀轉(zhuǎn)化為灰度圖

        2.f(x)←xTAx+bTx+c

        # 建立二項式模型

        3.將f(x)參數(shù)化得到(b1,b2,…,b6)×r

        4.B←a×(b1,b2,…,b6)

        # 加入權(quán)重a

        5.G←對B進行對偶轉(zhuǎn)換

        6.V←G-1

        圖2為LK算法與Gunnar Farneback算法光流圖。圖2(a)為鞠躬服務(wù)動作的兩個RGB圖像幀,圖2(b)、圖2(c)分別為LK算法光流圖和Gunnar Farneback算法光流圖。雖然Gunnar Farneback稠密光流法計算速度慢于LK稀疏光流法,但可以看出稠密光流法包含的信息更多。這是因為鞠躬服務(wù)動作的動作幅度很小,稀疏光流不能時刻有效地提取運動光流場。因此將稠密光流輸入作為融合信息能更好地提取模型的識別率。

        圖2 LK算法與Gunnar Farneback算法光流圖

        1.2 2D與3D卷積

        傳統(tǒng)的2D卷積網(wǎng)絡(luò)有很強的特征提取能力,其本質(zhì)是使用不同卷積核得到不同卷積特征圖。在第i層的第j個卷積特征圖的(x,y)位置的2D卷積計算公式為:

        (5)

        然而,傳統(tǒng)的2D卷積網(wǎng)絡(luò)不能很好捕捉時序上的信息。為了解決2D卷積網(wǎng)絡(luò)的缺陷,3D卷積網(wǎng)絡(luò)通過拓展時間維度,使用3D卷積核從連續(xù)幀中提取特征,使得每個特征圖都包含相鄰的連續(xù)幀的信息。在第i層的第j個卷積特征圖的(x,y,t)位置的3D卷積計算公式為:

        (6)

        圖3 2D卷積與3D卷積對比

        1.3 3D殘差網(wǎng)絡(luò)結(jié)構(gòu)

        3D殘差網(wǎng)絡(luò)是基于殘差網(wǎng)絡(luò)的跨層連接思想得到的。當輸入x進入時,跨層連接結(jié)構(gòu)提供了允許輸入x繞過一層而移動到序列中下一層的快捷連接。相比于通過一堆非線性卷積層擬合映射,殘差結(jié)構(gòu)的訓(xùn)練目標更容易達到。圖4展示了跨層連接結(jié)構(gòu)。

        圖4 跨層連接結(jié)構(gòu)

        圖4中BN(Batch Normalization)與ReLU (Rectified Linear Unit)分別為批量歸一化和線性整流函數(shù)。BN的作用是使得每一層神經(jīng)網(wǎng)絡(luò)的輸入在深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中保持均值為0、方差為1的正態(tài)分布,使得網(wǎng)絡(luò)訓(xùn)練速度加快。其算法如算法2所示。

        算法2批量歸一化(Batch Normalization)

        輸入:樣本xi,調(diào)節(jié)參數(shù)α、β,yi。

        # 求每個樣本的均值

        # 計算方差

        # 對數(shù)據(jù)進行歸一化

        # 對輸入進行平移與縮放

        激活函數(shù)為ReLU,運算速度快且能有效避免梯度消失和梯度爆炸等問題,其公式為:

        (7)

        3D殘差網(wǎng)絡(luò)具有多種不同層數(shù)的結(jié)構(gòu)。表1展示了3D殘差網(wǎng)絡(luò)的18層和34層的整體結(jié)構(gòu)。

        表1 3D殘差網(wǎng)絡(luò)結(jié)構(gòu)

        3D殘差網(wǎng)絡(luò)輸入為16個像素大小為112×112的連續(xù)幀。在卷積層,與C3D[13]類似,采用3×3×3的3D卷積核對其進行特征提取,第一個卷積層在時間維度的步長為1,其他維度的步長均為2。在池化層采用平均池化的方法,使得提取的特征參數(shù)減少,保持某種特征圖不變(旋轉(zhuǎn)、伸縮、平移等)。在全連接層采用Softmax函數(shù)對樣本分類進行預(yù)測,其公式為:

        (8)

        式中:Ypq為第p個樣本屬于第q種動作的預(yù)測概率;xpu為第p個樣本通過分類層后輸出向量中的第u個元素。

        當特征圖的數(shù)量增多時,采用補零方法避免參數(shù)增多。在訓(xùn)練模型時采用隨機梯度下降法[21],損失函數(shù)為交叉熵函數(shù),通過最小化損失函數(shù)對模型進行訓(xùn)練,其公式為:

        (9)

        2 實 驗

        2.1 數(shù)據(jù)集

        本文服務(wù)動作數(shù)據(jù)集由湖南省計量中心提供,拍攝地點為國網(wǎng)湖南省xx市供電營業(yè)廳,共有961個服務(wù)動作視頻片段。數(shù)據(jù)集是從正面和側(cè)面兩個角度拍攝5位服務(wù)員做6種服務(wù)動作得到的。服務(wù)動作分別是坐下、職業(yè)站立、鞠躬、遞交材料、介紹服務(wù)內(nèi)容和握手。表2為各服務(wù)動作的具體視頻片段數(shù)量。

        表2 各服務(wù)動作的具體視頻片段數(shù)量

        與常用UCF101數(shù)據(jù)集類似,本文將視頻轉(zhuǎn)換成像素大小為320×240的視頻文件。為了更好地測試融合3D殘差網(wǎng)絡(luò),本文隨機將961個視頻按4∶1的比例分為訓(xùn)練集和測試集。圖5為數(shù)據(jù)集服務(wù)動作。

        圖5 數(shù)據(jù)集服務(wù)動作

        2.2 實驗過程

        實驗在Linux平臺下完成的,環(huán)境變量為Python 3.7,使用1塊GPU(2080Ti)訓(xùn)練網(wǎng)絡(luò)。實驗前,分別進行數(shù)據(jù)集預(yù)處理,使用OpenCV從RGB視頻中計算光流并用孟塞爾系統(tǒng)進行上色得到光流圖;按固定幀數(shù)截取視頻,將圖像幀按照像素大小為112×112進行隨機剪裁得到RGB圖像幀。

        實驗中,為了測試不同結(jié)構(gòu)的3D殘差網(wǎng)絡(luò)的識別率,分別對18、34和50層3D殘差網(wǎng)絡(luò)進行訓(xùn)練。首先將連續(xù)的16幀RGB圖片作為3D殘差網(wǎng)絡(luò)的輸入。然后采用Kinetics的預(yù)訓(xùn)練模型防止過擬合和更容易訓(xùn)練網(wǎng)絡(luò)。設(shè)置初始學(xué)習(xí)率為0.1,動量為0.9,權(quán)重衰減為0.001,batch size為64,訓(xùn)練持續(xù)250個epoch。最后訓(xùn)練完畢后,使用相同的測試集對3種3D殘差網(wǎng)絡(luò)進行測試得到最優(yōu)網(wǎng)絡(luò)。為了得到光流通道的識別率,將16幀光流圖輸入C3D網(wǎng)絡(luò)結(jié)構(gòu)中,使用初始學(xué)習(xí)率為0.000 1,移動平均衰減為0.999,最大迭代步長分別設(shè)為500、1 000、1 500和3 000步進行訓(xùn)練測試。得到兩個通道的最優(yōu)網(wǎng)絡(luò)后,使用加權(quán)融合方法得到最后的預(yù)測分數(shù)。

        2.3 實驗結(jié)果分析

        為了評估不同結(jié)構(gòu)的3D殘差網(wǎng)絡(luò)在服務(wù)動作數(shù)據(jù)集上的效果,本文分別對18層、34層和50層的3D殘差網(wǎng)絡(luò)進行測試。測試結(jié)果如表3所示。

        表3 不同結(jié)構(gòu)的3D殘差網(wǎng)絡(luò)識別率(%)

        可以看出,識別率隨著3D殘差網(wǎng)絡(luò)深度的增加而增加。當測試集的數(shù)量足夠時,網(wǎng)絡(luò)的參數(shù)越多其學(xué)習(xí)服務(wù)動作的能力越強。因此本文選用50層的3D殘差網(wǎng)絡(luò)作為RGB通道的網(wǎng)絡(luò)結(jié)構(gòu)。接著為了探究光流通道的C3D網(wǎng)絡(luò)服務(wù)動作識別率,本文分別設(shè)置不同的最大迭代步長,測試結(jié)果如表4所示。

        表4 C3D在不同最大迭代步長下的識別率(%)

        可以看出,C3D網(wǎng)絡(luò)的識別率在最大迭代步長1 000后無明顯浮動,因此本文選擇識別率最高的最大迭代步長1 500作為C3D網(wǎng)絡(luò)參數(shù)。雖然光流通道的整體識別率低于RGB通道接近10百分點,但在實驗中發(fā)現(xiàn),光流通道對肢體動作幅度較大的服務(wù)動作比RGB通道更敏感。例如,當營業(yè)人員坐下時,光流矢量場在營業(yè)人員的上半身產(chǎn)生明顯變化。圖6為坐下動作的光流圖(從左至右為坐下動作開始至結(jié)束的過程)。

        圖6 坐下動作的光流圖

        這種明顯的變化使得光流通道在坐下和介紹服務(wù)內(nèi)容的兩個服務(wù)動作的識別率高于RGB通道。表5為兩個通道分別在坐下和介紹服務(wù)動作的識別率。

        表5 坐下和介紹服務(wù)動作的識別率(%)

        因此通過加權(quán)融合的方式,將光流通道對肢體動作幅度較大的服務(wù)動作高識別率與RGB通道擁有穩(wěn)定的高識別率的兩個特點相結(jié)合,能有效提高對服務(wù)動作的整體識別率。為了說明時空雙流3D殘差網(wǎng)絡(luò)的識別效果,將其與其他動作識別方法在本文的服務(wù)動作數(shù)據(jù)集上進行對比,表6為不同方法的識別率對比。

        表6 不同方法的識別率對比(%)

        可以看出本文方法在服務(wù)動作數(shù)據(jù)集上的識別率為90.65%,高于其他動作識別方法,且仍有不少的提升空間。此結(jié)果也證明了時空雙流3D殘差網(wǎng)絡(luò)的有效性。

        3 結(jié) 語

        針對供電營業(yè)廳服務(wù)動作識別存在的難題,構(gòu)建基于3D殘差網(wǎng)絡(luò)和C3D網(wǎng)絡(luò)的雙流時空3D殘差網(wǎng)絡(luò)融合方法。RGB通道使用3D殘差網(wǎng)絡(luò)提取信息豐富的RGB圖像提升對動作幅度較小的識別率;光流通道使用C3D網(wǎng)絡(luò)提取光流圖特征作為輔助特征進行融合。實驗結(jié)果表明雙流時空3D殘差網(wǎng)絡(luò)對服務(wù)動作識別有著較高的識別率。但是本文方法也存在不足之處,在后續(xù)的研究中還需對光流特征提取的速度進行優(yōu)化,同時為了將本文模型更好地應(yīng)用到實際場景中,需要對模型進行更多種類的服務(wù)動作測試。

        猜你喜歡
        動作特征服務(wù)
        如何表達“特征”
        服務(wù)在身邊 健康每一天
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        動作描寫要具體
        抓住特征巧觀察
        招行30年:從“滿意服務(wù)”到“感動服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        畫動作
        動作描寫不可少
        高潮又爽又无遮挡又免费| 亚洲一区二区三区精彩视频| 国产69精品麻豆久久| 国产精品天干天干综合网| 精品亚洲成a人7777在线观看| 未满十八勿入av网免费| 亚洲国产综合性感三级自拍| 美女被男人插得高潮的网站| 少妇内射兰兰久久| A午夜精品福利在线| 91自国产精品中文字幕| 曰日本一级二级三级人人| 亚洲成a人片在线观看无码3d| 欧洲熟妇乱xxxxx大屁股7| Jizz国产一区二区| 国产精品自产拍在线18禁 | 久久精品国产成人| 亚洲地址一地址二地址三| 久久人妻av不卡中文字幕| 亚洲综合自拍偷拍一区| 边喂奶边中出的人妻| 精品手机在线视频| 青青草最新在线视频观看 | 亚洲中文字幕一区高清在线| 国产精品久久久久久人妻无| 国产精品天天在线午夜更新| 国产一线视频在线观看高清| 一区二区高清视频免费在线观看| 门卫又粗又大又长好爽| 亚洲av无码乱码国产麻豆穿越| 国产精品一级av一区二区| 亚洲美女av一区二区在线| 亚洲av无码精品色午夜在线观看| 国产在线欧美日韩一区二区| 久久久精品国产三级精品| 妺妺窝人体色www看人体| 杨幂AV污网站在线一区二区| 亚洲国产精品午夜一区| 久久久久99精品成人片欧美| 国产精品igao视频| 国内精品91久久久久|