亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視頻時(shí)空特征提取分類的動(dòng)作分析評(píng)估模型

        2024-09-20 00:00:00陳迪李焱芳畢衛(wèi)云李朗蒲珊珊
        現(xiàn)代電子技術(shù) 2024年8期
        關(guān)鍵詞:骨骼時(shí)空注意力

        摘" 要: 為拓展機(jī)器視覺技術(shù)在醫(yī)工結(jié)合場(chǎng)景下的應(yīng)用,文中基于改進(jìn)的時(shí)空Transformer模型,提出一種動(dòng)作規(guī)范識(shí)別模型。該模型由數(shù)據(jù)嵌入層、時(shí)空Transformer層、決策融合層組成。數(shù)據(jù)嵌入層利用Openpose模型從sRGB圖像中提取人體骨骼數(shù)據(jù),降低環(huán)境部署成本;時(shí)空Transformer層使用時(shí)空模塊和塊間模型對(duì)圖像數(shù)據(jù)特征進(jìn)行訓(xùn)練和分類,提升原模型的分類精度;決策融合層實(shí)現(xiàn)對(duì)應(yīng)用場(chǎng)景的規(guī)范性判別。實(shí)驗(yàn)測(cè)試結(jié)果表明:所提算法的TOP1和TOP5精度指標(biāo)在所有對(duì)比算法中均為最優(yōu);在以心肺復(fù)蘇術(shù)為例進(jìn)行的實(shí)際應(yīng)用測(cè)試中,該算法的綜合性能較為理想,能夠滿足工程需要。

        關(guān)鍵詞: 計(jì)算機(jī)視覺; 時(shí)空Transformer模型; 骨骼模型; 決策融合; 動(dòng)作識(shí)別; 多頭注意力機(jī)制

        中圖分類號(hào): TN919?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " nbsp; " " " 文章編號(hào): 1004?373X(2024)08?0160?05

        An action analysis and evaluation model based on video spatiotemporal feature

        extraction and classification

        CHEN Di1, LI Yanfang2, BI Weiyun2, LI Lang2, PU Shanshan2

        (1. School of Basic Medical Sciences, Air Force Medical University, Xi’an 710032, China; 2. The First Affiliated Hospital of AFMU, Xi’an 710032, China)

        Abstract: In order to expand the application of machine vision technology in medical and industrial integration scenarios, an action specification recognition model based on an improved spatiotemporal Transformer model is proposed. The model is composed of data embedding layer, spatiotemporal Transformer layer, and decision fusion layer. In the data embedding layer, the Openpose model is used to extract human bone data from sRGB images, so as to reduce environmental deployment costs. In the spatiotemporal Transformer layer, the spatiotemporal modules and inter block models are used to train and classify image data features, so as to improve the classification accuracy of the original model. The decision fusion layer is used to realize the normative discrimination for application scenarios. The experimental testing results show that the TOP1 and TOP5 accuracy indicators of the proposed algorithm are the best among all comparative algorithms. In practical application testing using cardiopulmonary resuscitation as an example, the comprehensive performance of the algorithm is relatively ideal and can meet engineering needs.

        Keywords: computer vision; spatiotemporal Transformer model; bone model; decision fusion; action recognition; multi head attention mechanism

        0" 引" 言

        隨著計(jì)算機(jī)視覺的發(fā)展,國(guó)內(nèi)外眾多學(xué)者使用深度學(xué)習(xí)的框架實(shí)現(xiàn)了人體的動(dòng)作識(shí)別與預(yù)測(cè),還能夠提取人體的骨架特征,但計(jì)算機(jī)視覺在醫(yī)師規(guī)培領(lǐng)域的應(yīng)用目前較少。由于臨床操作的實(shí)施與醫(yī)師的職業(yè)技能有著直接關(guān)系,若動(dòng)作不規(guī)范,則會(huì)導(dǎo)致診療水平下降,甚至?xí)?duì)患者造成不可逆轉(zhuǎn)的次生傷害。因此,對(duì)醫(yī)師操作過程中動(dòng)作的規(guī)范性評(píng)價(jià)成為了研究熱點(diǎn)[1?3]。

        目前,臨床操作的培訓(xùn)以及動(dòng)作規(guī)范判斷大多依靠具有反饋裝置的假人訓(xùn)練模型,這種方式成本較高、效率低、單次規(guī)培人數(shù)少,同時(shí)反饋裝置只能對(duì)醫(yī)師的動(dòng)作力度進(jìn)行評(píng)判,無法識(shí)別動(dòng)作是否規(guī)范。在醫(yī)工結(jié)合的背景下,本文基于計(jì)算機(jī)視覺技術(shù),提出一種動(dòng)作規(guī)范性識(shí)別模型,進(jìn)而提升培訓(xùn)、操作的效率與質(zhì)量。

        1" 動(dòng)作規(guī)范性識(shí)別算法

        1.1" 算法結(jié)構(gòu)設(shè)計(jì)

        本文的動(dòng)作規(guī)范性識(shí)別算法結(jié)構(gòu)設(shè)計(jì)如圖1所示。該算法由數(shù)據(jù)嵌入層、時(shí)空Transformer層、決策融合層組成。視頻嵌入層主要負(fù)責(zé)從視頻中提取骨骼數(shù)據(jù),并處理數(shù)據(jù)格式;時(shí)空Transformer層負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行處理,同時(shí)還可以捕獲數(shù)據(jù)的時(shí)空相關(guān)性;最后進(jìn)行決策層融合,得到動(dòng)作識(shí)別判定結(jié)果。

        1.2" 骨骼數(shù)據(jù)嵌入提取模型

        常用的骨骼數(shù)據(jù)提取方法大多依賴于深度圖像,需要由專業(yè)的深度相機(jī)拍攝,環(huán)境部署成本較高。本次使用Openpose模型提取骨骼數(shù)據(jù)[4?6],其可以直接對(duì)sRGB圖像幀數(shù)據(jù)進(jìn)行訓(xùn)練與識(shí)別,進(jìn)而增強(qiáng)模型的適用性。

        Openpose模型由卷積姿態(tài)機(jī)和局部親和度組成。卷積姿態(tài)機(jī)是一種序列形式的全卷積網(wǎng)絡(luò),由多個(gè)Stage構(gòu)成,網(wǎng)絡(luò)的輸入數(shù)據(jù)為sRGB圖像序列。本文使用的卷積姿態(tài)機(jī)共有4個(gè)Stage,具體結(jié)構(gòu)如圖2所示。

        在訓(xùn)練過程中,每個(gè)階段結(jié)束之后均要將損失函數(shù)的輸出值作為中間值進(jìn)行替換,從而避免梯度爆炸或梯度消失等問題。模型使用到的損失函數(shù)公式如下:

        [Losstotal =t=1Tp=1Pj∈Jbpt(j)-bp*(j)2] (1)

        式中:t為階段數(shù);p表示圖像中像素點(diǎn)的序號(hào);j代表人體骨骼關(guān)節(jié)序號(hào);b表示實(shí)時(shí)熱力圖分布。

        模型還使用了局部親和度對(duì)圖像像素點(diǎn)的親和度進(jìn)行標(biāo)注與計(jì)算,進(jìn)而將像素點(diǎn)的關(guān)鍵位置連接構(gòu)成帶有方向的向量,從而記錄人體骨骼運(yùn)動(dòng)的方向及位置信息。向量合成關(guān)系如圖3所示。

        圖3中,xj1,k和xj2,k為第k個(gè)人肢體的關(guān)節(jié)起始位置,p代表像素點(diǎn),v、vt分別表示水平和垂直方向的肢體移動(dòng)速度。設(shè)L為親和度,公式如下:

        [Lc,k(p)=v,p∈c0,p?c] (2)

        [v=xj1,k-xj2,kxj1,k-xj2,k2] (3)

        基于該親和度信息,可以自上而下地進(jìn)行單人檢測(cè),得到肢體的位置和方向信息,進(jìn)而確定關(guān)節(jié)點(diǎn)之間的聯(lián)通區(qū)域。

        1.3" 基于編碼的骨骼數(shù)據(jù)嵌入模塊

        為了將骨骼數(shù)據(jù)送入時(shí)空Transformer模塊中進(jìn)行分析,還需要對(duì)數(shù)據(jù)進(jìn)行編碼并將其嵌入到模型中。本文使用的編碼方案如圖4所示。

        可將圖4中的骨骼數(shù)據(jù)看作張量,故得:

        [XC=[x1,x2,…,xT], xi∈Rn×V×C] (4)

        式中:n為幀數(shù);T為時(shí)空塊;V是關(guān)節(jié)個(gè)數(shù);C表示關(guān)節(jié)數(shù)據(jù)維度。公式(4)將數(shù)據(jù)XC分割為多個(gè)不重疊的時(shí)空塊數(shù)據(jù),同時(shí)通過特征映射層將高維特征嵌入到后續(xù)模型中。

        1.4" 動(dòng)作特征提取模型

        Transformer模型[7?11]由編碼器和解碼器組成,最早被應(yīng)用于自然語言處理等領(lǐng)域。編碼器被用于提取輸入數(shù)據(jù)特征,同時(shí)還能夠提取同等維度的感知數(shù)據(jù)特征。Transformer模型的編碼器結(jié)構(gòu)如圖5所示。

        在圖5中,編碼器的單個(gè)子層由多層感知機(jī)和多頭注意力機(jī)制構(gòu)成,編碼器由多個(gè)子層結(jié)構(gòu)組成。同時(shí),在連接部分加入了殘差網(wǎng)絡(luò)(Residual Network)和LN層,則第n個(gè)編碼器子層結(jié)構(gòu)的數(shù)據(jù)處理過程如下:

        [Z′n=MSALNZn-1+Zn-1] (5)

        [Zn=MLPLNZ′n+Z′n] (6)

        式中:[Zn-1]和[Zn]分別表示第n個(gè)子層的輸入與輸出特征。該特征具有相同的維度,通過殘差的連接方式也避免了網(wǎng)絡(luò)訓(xùn)練過程出現(xiàn)的過擬合。多頭注意力機(jī)制的結(jié)構(gòu)如圖6所示。

        多頭注意力機(jī)制[12?14]由查詢向量矩陣Q、鍵向量矩陣K以及值向量矩陣V組成,可由線性變換計(jì)算得到。多頭注意力機(jī)制的權(quán)重矩陣通常是通過點(diǎn)積得到的,公式如下:

        [Attention(Q,K,V)=SoftmaxQKTdV] (7)

        [MSA(Q,K,V)=Concat(Y1,Y2,…,YH)Wo] (8)

        [Yh=Attention(Qh,Kh,Vh)," h∈{1,2,…,H}] (9)

        本文基于Transformer結(jié)構(gòu),提出一種耦合時(shí)空因素的Transformer網(wǎng)絡(luò)算法,其結(jié)構(gòu)如圖7所示。

        所構(gòu)建的Transformer網(wǎng)絡(luò)算法由時(shí)空塊和塊間網(wǎng)絡(luò)組成,其中,時(shí)空塊網(wǎng)絡(luò)主要用來學(xué)習(xí)多個(gè)圖像幀之間的關(guān)節(jié)特征,網(wǎng)絡(luò)的輸入部分為處理過后的骨架數(shù)據(jù)。輸入部分嵌入模塊的具體結(jié)構(gòu)如圖8所示。

        在圖8中:輸入數(shù)據(jù)為張量Zin;LP表示線性投影算法,該算法的輸入為特征重塑后的張量;定義域設(shè)置為B×T1×V1×C1,其中B為塊大小,T1是時(shí)空塊數(shù)量,V1為圖像中的關(guān)節(jié)個(gè)數(shù),C1表示關(guān)節(jié)數(shù)據(jù)維度。

        塊間的Transformer是在時(shí)空塊基礎(chǔ)結(jié)構(gòu)上改進(jìn)的,模型可以對(duì)高維度的數(shù)據(jù)進(jìn)行有效處理,同時(shí)能夠在時(shí)間維度中對(duì)數(shù)據(jù)進(jìn)行處理,并生成多個(gè)空間注意力圖。

        2" 實(shí)驗(yàn)分析

        2.1" 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集搭建

        首先預(yù)設(shè)實(shí)驗(yàn)環(huán)境,本文算法以Pytorch為基礎(chǔ)深度學(xué)習(xí)框架,所使用的硬件配置如表1所示。

        使用兩個(gè)主流人體動(dòng)作識(shí)別數(shù)據(jù)集作為模型訓(xùn)練數(shù)據(jù)集,分別為Kinetics?400和FineGYM[15?16]。Kinetics?400是從YouTuBe中采集的人體運(yùn)動(dòng)數(shù)據(jù)集,共有400個(gè)人體動(dòng)作分類,樣本數(shù)量超過30萬條。FineGYM也為人體動(dòng)作識(shí)別數(shù)據(jù)集,但是其為細(xì)粒度數(shù)據(jù)集,數(shù)據(jù)來源于體操比賽,共有100個(gè)細(xì)粒度分類,樣本總量約7萬條。文中構(gòu)建的實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,數(shù)量比例為8∶2,再將兩種數(shù)據(jù)集按照1∶1的比例隨機(jī)混合成本文所需數(shù)據(jù)集。

        2.2" 算法測(cè)試

        為驗(yàn)證算法模型中每個(gè)部分對(duì)整體性能的貢獻(xiàn),進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)使用5種模型,分別為基本Transformer(模型1)、時(shí)空Transformer(模型2)、嵌入層+

        Transformer(模型3)、嵌入層+時(shí)空Transformer(模型4)、本文模型嵌入層+時(shí)空Transformer+塊間Transformer(模型5)。模型使用TOP1和TOP5精度作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)測(cè)試結(jié)果如表2所示。

        由表2的實(shí)驗(yàn)結(jié)果可以看出:將原始模型的線性嵌入模塊改進(jìn)為Openpose嵌入層后,TOP1精度對(duì)應(yīng)提升了5%,TOP5精度也有相應(yīng)提升,表明改進(jìn)嵌入模塊是有效的策略,也說明了提取骨骼數(shù)據(jù)特征的重要性;而改進(jìn)后的時(shí)空Transformer模型(模型2)相較原始模型TOP1精度提升了3.3%;本文模型TOP1精度最高,相較原始精度提升了7.6%,這充分說明了改進(jìn)算法的有效性。

        為了對(duì)算法性能進(jìn)行橫向評(píng)估,本文還使用多種常用算法模型進(jìn)行精度比較,對(duì)比算法為GCN(Graph Convolutional Network)、2D?CNN(2D?Convolutional Neural Network)、HCN(HyperCube Network)、CNN?LSTM(Convolutional Neural Network?Long Short?Term Memory)以及TP?ViT。橫向?qū)Ρ葴y(cè)試的實(shí)驗(yàn)結(jié)果如表3所示。

        由表3可以看出,本文算法在所有算法中的精度指標(biāo)最優(yōu),比TP?ViT算法的TOP1和TOP5精度分別高0.9%和3.7%,比CNN?LSTM算法的TOP1和TOP5精度分別高2.6%與10.6%。綜上可得,本文算法表現(xiàn)良好,具有較為理想的性能。

        心肺復(fù)蘇術(shù)(Cardio Pulmonary Resuscitation, CPR)是急救領(lǐng)域最基礎(chǔ)且常用的手段之一,本文以CPR動(dòng)作規(guī)范性識(shí)別為例,進(jìn)行了應(yīng)用場(chǎng)景下的實(shí)驗(yàn)驗(yàn)證,結(jié)果如圖9所示。圖9表明,模型可識(shí)別出sRGB圖像的骨架,并能對(duì)動(dòng)作規(guī)范性進(jìn)行識(shí)別,驗(yàn)證了算法的工程實(shí)用價(jià)值。

        3" 結(jié)" 語

        本文充分利用Transformer模型訓(xùn)練效率和識(shí)別準(zhǔn)確率高的特點(diǎn),提出了一種可用于醫(yī)學(xué)場(chǎng)景下的動(dòng)作識(shí)別模型。該模型由數(shù)據(jù)嵌入層、時(shí)空Transformer層、決策融合層組成,可以從sRGB圖像中提取骨骼數(shù)據(jù),并對(duì)數(shù)據(jù)特征進(jìn)行學(xué)習(xí),進(jìn)而判斷動(dòng)作的規(guī)范性。實(shí)驗(yàn)測(cè)試證明,所提模型的綜合性能良好,TOP1和TOP5精度均優(yōu)于對(duì)比算法。

        注:本文通訊作者為李焱芳。

        參考文獻(xiàn)

        [1] 莫加良,韋燕運(yùn),盧偉光,等.根因分析法在急診心肺復(fù)蘇中的應(yīng)用效果及其對(duì)患者預(yù)后的影響[J].廣西醫(yī)科大學(xué)學(xué)報(bào),2023,40(9):1597?1602.

        [2] 馮航測(cè),田江濤,郝美林,等.基于SE?Stacking算法的心肺復(fù)蘇結(jié)果預(yù)測(cè)分析[J].國(guó)外電子測(cè)量技術(shù),2023,42(9):155?161.

        [3] 張友坤,陳偉,靳小靜,等.基于MW?REF算法的心肺復(fù)蘇影響因素分析[J].科學(xué)技術(shù)與工程,2023,23(22):9543?9549.

        [4] 蘇波,柴自強(qiáng),王莉,等.基于姿態(tài)估計(jì)的八段錦序列動(dòng)作識(shí)別與評(píng)估[J].電子科技,2022,35(12):84?90.

        [5] 張富凱,賀天成.結(jié)合輕量Openpose和注意力引導(dǎo)圖卷積的動(dòng)作識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(18):180?187.

        [6] 李一凡,袁龍健,王瑞.基于OpenPose改進(jìn)的輕量化人體動(dòng)作識(shí)別模型[J].電子測(cè)量技術(shù),2022,45(1):89?95.

        [7] 余子丞,凌捷.基于Transformer和多特征融合的DGA域名檢測(cè)方法[J].計(jì)算機(jī)工程與科學(xué),2023,45(8):1416?1423.

        [8] 鄧帆,曾淵,劉博文,等.基于Transformer時(shí)間特征聚合的步態(tài)識(shí)別模型[J].計(jì)算機(jī)應(yīng)用,2023,43(z1):15?18.

        [9] 徐麗燕,徐康,黃興挺,等.基于Transformer的時(shí)序數(shù)據(jù)異常檢測(cè)方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2023,33(3):152?160.

        [10] 黨曉方,蔡興雨.基于Transformer的機(jī)動(dòng)目標(biāo)跟蹤技術(shù)[J].電子科技,2023,36(9):86?92.

        [11] 石躍祥,朱茂清.基于骨架動(dòng)作識(shí)別的協(xié)作卷積Transformer網(wǎng)絡(luò)[J].電子與信息學(xué)報(bào),2023,45(4):1485?1493.

        [12] 趙英伏,金福生,李榮華,等.自注意力超圖池化網(wǎng)絡(luò)[J].軟件學(xué)報(bào),2023,34(10):4463?4476.

        [13] 常月,侯元波,譚奕舟,等.基于自注意力機(jī)制的多模態(tài)場(chǎng)景分類[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2023,62(1):46?52.

        [14] 李垚,余南南,胡春艾,等.基于自注意力機(jī)制的腦血腫分割和出血量測(cè)量算法[J].數(shù)據(jù)采集與處理,2022,37(4):839?847.

        [15] 屈小春.基于Transformer的雙流動(dòng)作識(shí)別方法研究[D].重慶:西南大學(xué),2023.

        [16] 蔡思佳.基于注意力機(jī)制的細(xì)粒度行為識(shí)別算法研究[D].南京:東南大學(xué),2022.

        作者簡(jiǎn)介:陳" 迪(1980—),女,遼寧大連人,碩士,講師,研究方向?yàn)樯镝t(yī)學(xué)可視化、教育技術(shù)。

        猜你喜歡
        骨骼時(shí)空注意力
        跨越時(shí)空的相遇
        讓注意力“飛”回來
        做家務(wù)的女性骨骼更強(qiáng)壯
        中老年保健(2021年5期)2021-12-02 15:48:21
        三減三健全民行動(dòng)——健康骨骼
        中老年保健(2021年5期)2021-08-24 07:06:28
        鏡中的時(shí)空穿梭
        玩一次時(shí)空大“穿越”
        骨骼和肌肉
        小布老虎(2017年1期)2017-07-18 10:57:27
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        時(shí)空之門
        一本久道久久综合狠狠操| 久久免费大片| 淫妇日韩中文字幕在线| 我揉搓少妇好久没做高潮| 全免费a级毛片免费看无码 | 亚洲综合无码无在线观看| 国产一区二区三区啪| 人妻中出中文字幕在线| 熟妇人妻无乱码中文字幕av| 岳毛多又紧做起爽| 成人a在线观看| 国产一品二品三品精品久久| 午夜少妇高潮在线观看| 六月婷婷久香在线视频| 麻豆五月婷婷| 国产偷拍自拍在线观看| 精品熟人妻一区二区三区四区不卡| 夜先锋av资源网站| 亚洲一区二区婷婷久久| 亚洲av推荐网站在线观看| 国产精品天干天干| 亚洲精品无码不卡av| 久久午夜无码鲁丝片直播午夜精品| 特级国产一区二区三区| 色五月丁香五月综合五月| 免费av片在线观看网站| 国产大陆av一区二区三区| 人成在线免费视频网站| 欧美黑人xxxx又粗又长| 亚洲自拍另类欧美综合| 黄页免费人成网址大全| 丰满大爆乳波霸奶| 少妇高潮惨叫喷水在线观看| 日本女优在线观看一区二区三区| 日韩中文字幕一区二区二区| 中文乱码字慕人妻熟女人妻| 国产成人国产在线观看| 国产黄片一区二区三区| 亚洲欧美牲交| 亚洲日韩专区在线视频| 一区二区黄色素人黄色|