亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于視頻的上肢外骨骼行為預(yù)判方法

        2022-05-23 07:25:36馬六章程子均
        計算機工程與設(shè)計 2022年5期
        關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)卷積特征

        馬六章,蔣 磊,吳 越,程子均

        (中國礦業(yè)大學(xué)(北京) 機電與信息工程學(xué)院,北京 100083)

        0 引 言

        近年來,在上肢外骨骼機器人的算法研究中,如何使外骨骼機器人更加智能地預(yù)測人類的行為是研究的熱點問題。李瀟[1]利用動力學(xué)分析模擬手臂搬運物體時的關(guān)節(jié)受力情況,利用自抗擾控制算法設(shè)計了自抗擾控制器,實現(xiàn)了對外骨骼動力關(guān)節(jié)的控制。

        隨著深度學(xué)習(xí)以及計算機視覺技術(shù)的發(fā)展,上肢外骨骼機器人的人機交互預(yù)測有了新的發(fā)展方向。Christoph等[2]使用改進雙流法(Two-Stream)來實現(xiàn)視頻動作識別,設(shè)計了由時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)組成的Two-Stream卷積網(wǎng)絡(luò)結(jié)構(gòu),分別將RGB圖像和光流圖像送入兩支神經(jīng)網(wǎng)絡(luò)并融合,最終分類結(jié)果驗證了在多幀密集光流上訓(xùn)練的卷積網(wǎng)絡(luò)[3],在有限的數(shù)據(jù)集上仍然能夠獲得好的性能,但其不能對長時間的視頻進行建模。Ker, J等[4]提出改進的C3D(3-dimensional convolution)網(wǎng)絡(luò)結(jié)構(gòu),用三維的卷積核代替二維卷積核處理視頻,在UCF101數(shù)據(jù)集上的準(zhǔn)確率稍低于雙流法,但是由于其簡單的網(wǎng)絡(luò)結(jié)構(gòu)使得該模型的收斂及推理速度大大提高。Thung G等[5]提出將單幀的圖像處理的特征放入RNN,利用RNN來完成時間上的建模,最后形成對一段視頻的描述的方法(LRCN)。

        在以往的工作中,長期的時間聚合通常是通過疊加大量的局部時間卷積來實現(xiàn)的。每次卷積處理一個局部時間窗口,本文提出的MTF模塊則將局部卷積變形為一組子卷積,形成層次化殘差結(jié)構(gòu)。在不引入附加參數(shù)的情況下,對特征進行一系列的子卷積處理,每一幀可以完成多個鄰域的時間聚合,擴大了在時間維的等效感受野,從而能夠在時間距離較遠的幀上建立長期的時間關(guān)系。最終將MTF模塊插入到GoogleNet網(wǎng)絡(luò)inception模塊中搭建成MTF-Gnet。此外,由于人體運動的不規(guī)則性,很難將所有的人體運動壓縮到一個模型中。其次,人類行為除了具有異質(zhì)性外,還具有高度的隨機性。不同的人,同一個人重復(fù)一個動作,動作模式也不同。為了解決這些問題。本文提出了一種非線性遞推最小二乘參數(shù)自適應(yīng)算法(NRLS-A)來實現(xiàn)在線自適應(yīng)。

        1 預(yù)測模型的建立

        1.1 MTF模塊

        以往的動作識別方法通常采用局部時間卷積來一次處理鄰近幀,而對于距離較遠的幀只能通過大量地堆疊局部卷積操作來進行建模。Stanford[6]提出了Multi-resolution-CNN,把相聚L的兩幀圖像分別輸入到兩個卷積神經(jīng)網(wǎng)絡(luò)中去,然后在最后一層連接到同一個全連接的softmax層,在UCF-101數(shù)據(jù)集上,得到了較好的效果,但這樣卻損失了視頻幀的時序信息。在外骨骼對人體行為進行預(yù)測時,其時序上的聯(lián)系更加緊密,比如抬起重物和放下重物。為了解決這一問題,本文提出了多時間融合(MTF)將時空特征和對應(yīng)的局部卷積層劃分為一組子集,以實現(xiàn)有效的長時間時態(tài)建模。

        如圖1左側(cè)所示,給定一個輸入特征X,傳統(tǒng)的方法是對其進行一次局部時間卷積再進行一次空間卷積。與此不同的是,我們沿著通道維度將特征分割為4個片段,每個片段的形狀就變成了 [N,T,C/4,H,W]。 如圖1右側(cè)所示,局部卷積也被劃分為多個子卷積。最后3個片段依次用一個通道方向的時間1D子卷積層和另一個空間2D子卷積層進行處理。每個都只有原來的1/4的參數(shù)。此外,在相鄰的兩個片段之間添加殘差連接,將模塊從并行結(jié)構(gòu)轉(zhuǎn)換為層次化級聯(lián)結(jié)構(gòu)

        圖1 MTF模塊

        (1)

        (2)

        (3)

        (4)

        所得到的輸出特征Xo即為包含了捕獲到的不同時間范圍的時空表示。優(yōu)于傳統(tǒng)方法中使用單一局部卷積得到的局部時間表示。

        最后,本文將MTF模塊插入GoogLeNet中的inception模塊進行視頻幀圖像的特征提取,GoogLeNet由Christian Szegedy提出,Zhong Z等[7]進行了較大改進,使用了inception模塊拓寬網(wǎng)絡(luò)的橫向結(jié)構(gòu),以此來解決網(wǎng)絡(luò)過深而導(dǎo)致的計算量大、梯度消失等問題,inception模塊結(jié)構(gòu)如圖2(a)所示。

        圖2 MTF模塊插入方式

        原始inception模塊將5×5大卷積核分解成2個3×3小卷積核,以此帶來更大的感受野,能夠提取到不同尺度的特征。同時將稀疏矩陣分解成密集矩陣,提高了模型的收斂速度。最后將其用全連接層拼接起來,即完成了不同尺度特征的融合,同時由于每增加一層就要通過一次Relu函數(shù),增加了模型的非線性擴展模型表達能力。

        如圖2(b)所示,為了提高計算效率,在每個支路的第一個1x1卷積層之后,利用MTF模塊替換剩余路徑中原有的3×3 Conv層。此外,在經(jīng)過MTF模塊對每一個mini-batch 數(shù)據(jù)的內(nèi)部進行批標(biāo)準(zhǔn)化處理(BN)[8]使此層的輸出規(guī)范到符合的正太分布,由此減少了內(nèi)部參數(shù)偏移,不僅可以大大加快模型的收斂速度,還可以起到正則化的作用。

        由于經(jīng)MTF-Gnet網(wǎng)絡(luò)提取的特征信息要傳遞給門控循環(huán)網(wǎng)絡(luò)進行時間維度上的預(yù)測,本文去掉了最后的softmax層,而是將最后一層的輸出先進行全局平均池化,接著通過一個輸出通道數(shù)為1000的1×1卷積,作為門控循環(huán)網(wǎng)絡(luò)的輸入。此外,為了避免過擬合的問題,本文采用了Dropout對網(wǎng)絡(luò)進行了隨機失活處理。本文搭建的MTF-Gnet網(wǎng)絡(luò)結(jié)構(gòu)見表1。

        表1 網(wǎng)絡(luò)模型結(jié)構(gòu)與輸入尺寸

        1.2 門控循環(huán)網(wǎng)絡(luò)模型

        門控循環(huán)網(wǎng)絡(luò)(GRU)改變了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱藏層結(jié)構(gòu)[9],使網(wǎng)絡(luò)可以更好地捕捉深層連接,同時也改善了梯度消失問題。同時相對于LSTM記憶單元,門控循環(huán)網(wǎng)絡(luò)擁有更簡單的結(jié)構(gòu)以及更少的參數(shù)。LSTM和門控循環(huán)網(wǎng)絡(luò)的結(jié)構(gòu)對比如圖3所示。

        圖3 LSTM及門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)對比

        門控循環(huán)網(wǎng)絡(luò)仍然使用了能夠更好處理時序信息的特殊“門”結(jié)構(gòu),但于LSTM不同的是[10],門控循環(huán)網(wǎng)絡(luò)將“遺忘門”和“輸入門”合成了一個單一的“重置門”,為神經(jīng)元的更新操作設(shè)置了一個“更新門”,同時將細胞狀態(tài)和隱藏狀態(tài)進行了融合。從而建立了一個更簡單,參數(shù)更少的結(jié)構(gòu)。其正向傳播過程如圖4所示。

        圖4 門控循環(huán)網(wǎng)絡(luò)正向傳播過程

        圖中各節(jié)點參數(shù)計算如下

        z(t)=σ(W(z)x(t)+U(z)h(t-1)) 更新門

        (5)

        r(t)=σ(W(r)x(t)+U(r)h(t-1)) 重置門

        (6)

        (7)

        (8)

        門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)分為1層輸入層,2層隱藏層,1層預(yù)測輸出層。其中,輸入層為經(jīng)過MTF-Gnet網(wǎng)絡(luò)提取出的得分最高的10個特征,上一層的初始激活值設(shè)為全零,隱藏層的神經(jīng)元個數(shù)分別為32,64,32,其中在第二層進行了BN處理。激活函數(shù)為tanh函數(shù)。輸出層為4個節(jié)點,代表了此時人體的動作(是否將要進行抬起重物的行為)。其中tanh函數(shù)定義如下

        (9)

        在未引入Attention機制的門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)中,每個預(yù)測時刻的輸出是由某一段輸入序列共同決定的,每個輸入序列對下一時刻輸出序列影響權(quán)值在訓(xùn)練工程中已經(jīng)固定。而在實際情況中,對于某些人體動作,其時間上的關(guān)聯(lián)程度往往不同。這就需要引入Attention機制對每個輸入序列對預(yù)測序列影響的權(quán)重值進行調(diào)整(即門控循環(huán)單元更新門和隱藏門的參數(shù))。Attention機制最早是在視覺圖像領(lǐng)域提出,Lin L等[11]在RNN模型上使用了Attention機制來進行圖像分類。Bahdanau等[12]使用類似Attention的機制在機器翻譯任務(wù)上將翻譯和對齊同時進行,他們的工作算是第一個提出將Attention機制應(yīng)用到NLP領(lǐng)域中。接著類似的基于Attention機制的RNN模型擴展開始應(yīng)用到各種NLP任務(wù)中。本文搭建的門控循環(huán)端到端網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

        圖5 門控循環(huán)端到端網(wǎng)絡(luò)模型

        在編碼器端,過去n步的視頻幀特征向量按照時間順序依次送入門控循環(huán)單元,在第t步時,編碼器除了接收來自Xt的數(shù)據(jù)信息,同時也接收了前一步編碼器單元的隱藏層信息。其相關(guān)程度用ht表示

        (10)

        即第t個時間向量序列與第j個輸出向量hj之間的相關(guān)程度,最后對其進行加權(quán)求和就可以計算出注意力分配機制ct

        (11)

        在解碼器端,同樣采用門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),輸入為上一時刻的輸出,st表示當(dāng)前時刻門控循環(huán)單元的狀態(tài),yt表示當(dāng)前解碼器的輸出值。其解碼過程如下

        st=fd(yt-1,st-1,ct)

        (12)

        p(yt|y

        (13)

        其中,st-1為上一個解碼器單元隱藏層狀態(tài),通過注意力機制ct連接編碼器與解碼器,從而求得解碼器當(dāng)前狀態(tài)st, 經(jīng)過線性映射輸出當(dāng)前預(yù)測值,其中g(shù)為ReLU激活函數(shù)。

        1.3 NRLS-A算法

        在推理時,由于不同穿戴者在進行同一組動作時有不同的行為模式[13],所以在進行適應(yīng)性的實時預(yù)測時,需要實時調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)。通過攝像頭拍攝到的人體實時行為,經(jīng)過卷積網(wǎng)絡(luò)提取出當(dāng)前真實行為的深層特征,與門控循環(huán)網(wǎng)絡(luò)預(yù)測出來的行為特征進行對比。這實則是一個非線性最小二乘(nonlinear least square,NLS)問題:給定一個數(shù)據(jù)集 {(xi,yi),i=0,1,…}, 目標(biāo)是優(yōu)化一個參數(shù)θt∈Rn, 使得下式最小

        (14)

        其中

        ei=yi-f(θt-xi)

        (15)

        為了有效地實時解決NLS問題,Moriyama等[14]提出一種通過最小化估計狀態(tài)誤差的2階范數(shù)的擴展卡爾曼濾波(EKF)算法,在EKF中,被估計的對象是狀態(tài)值,在本文提出的非線性最小二乘自適應(yīng)算法中,被估計的對象是網(wǎng)絡(luò)參數(shù),且可用于網(wǎng)絡(luò)的每一層。算法的具體流程如下:

        算法1:非線性最小二乘自適應(yīng)算法

        輸入:初始化參數(shù)θ0;

        輸出:調(diào)整后參數(shù)θN:

        (1)初始化超參數(shù)p0>0;λ>0;r>0;ε>0; P0=p0I;

        (2)根據(jù)目前參數(shù)θt計算當(dāng)前預(yù)測值

        (3)根據(jù)穿戴者實際行動得到真實值Yt

        (4)計算關(guān)于θ的偏導(dǎo)數(shù)

        (5)計算更新權(quán)重參數(shù)

        (6)更新超參數(shù)

        (7)更新一次待估計參數(shù)

        (8)如果誤差小于預(yù)期值或達到迭代次數(shù),結(jié)束,否則進入第(2)步。

        其中,λ是遺忘因子,r與誤差ei的協(xié)方差有關(guān),K是增益矩陣,θt是未知參數(shù)θ的估計值,在本文的實驗中,θ對應(yīng)于編碼器隱藏層的權(quán)重參數(shù)。

        本文將特征提取和行為預(yù)測的目標(biāo)函數(shù)合并成一個多任務(wù)模型。使用以下?lián)p失函數(shù)以端到端方式訓(xùn)練模型

        l=γlclassification+(1-γ)lregression

        (16)

        lclassification是用于特征提取的交叉熵損失函數(shù)。lregression是行為預(yù)測的回歸損失函數(shù)。最終損失函數(shù)是這兩個損失函數(shù)的加權(quán)平均值,其中權(quán)重由γ控制。在本文的實驗中,γ取值為0.5。

        2 實 驗

        2.1 數(shù)據(jù)采集

        本文所采用實驗數(shù)據(jù)集為配置與上肢外骨骼機器人上的攝像頭采集的人體日常行為視頻數(shù)據(jù)集,由6名測試人員(4男2女,年齡在23到35歲之間)佩戴著實驗裝置在實驗室、宿舍、操場等5個不同場景分別進行了物體的搬運、抬起、放下、正?;顒訒r的視頻采集。本文所使用的GoPro攝像頭所拍攝的視頻為每秒60幀,視頻格式為mp4。攝像頭的安裝位置如圖6所示。

        經(jīng)過測試,每隔3幀提取一張視頻幀,即每秒提取20張視頻幀。由于日常生活中的抬起、抓取、搬運等動作通常在發(fā)生在3 s~5 s左右,因此每個動作共提取100張左右的圖片作為視頻幀序列。去除掉異常的數(shù)據(jù)之后得到了1800個訓(xùn)練樣本,共計4個類別,平均每個樣本包含5個連續(xù)的視頻幀數(shù)據(jù)。同時每個類別設(shè)置了50個短視頻作為測試樣本。其中具有代表性的視頻序列如圖7所示。

        圖6 攝像頭佩戴位置

        圖7 部分視頻幀序列

        2.2 數(shù)據(jù)預(yù)處理

        為了壓縮圖片大小,加快模型的收斂速度,同時由于攝像頭所拍攝的場景較為豐富,為了更好地提取目標(biāo)物體的特征,在進行訓(xùn)練之前,本文將樣本圖片進行了主成分分析算法(principal component analysis,PCA)降維壓縮處理[15]。具體的處理過程如下:

        對所有樣本進行去中心化,如式(17),將數(shù)據(jù)集的每個樣本的不同特征減去所有樣本對應(yīng)特征的均值,處理過的不同特征上的數(shù)據(jù)均值為0。這樣處理的好處是可以減少特征之間的差異性,可以使得不同的特征具有相同的尺度,讓不同特征對參數(shù)的影響程度保持一致

        (17)

        X*=X-U

        (18)

        計算樣本圖片的協(xié)方差矩陣,其中每列代表一個特征,每行代表一個樣本,將樣本矩陣的每個樣本減去對應(yīng)列的均值,然后通過下式得到協(xié)方差矩陣

        (19)

        對協(xié)方差矩陣進行特征值分解,得到特征值和特征向量,取出最大的K個特征值對應(yīng)的特征向量,組成投影矩陣W;對樣本集中的每一個樣本,都乘以投影矩陣W進行轉(zhuǎn)化,得到降維后的數(shù)據(jù)

        X′=X*W

        (20)

        圖8(a)為經(jīng)過opencv提取后的視頻幀圖像,圖8(b)為經(jīng)過PCA降維壓縮后的圖像,可以看出在經(jīng)過PCA處理后,目標(biāo)物體的特征更加突然,較好排除了周圍環(huán)境所帶來的影響。同時,每一幀圖像的大小也得到了壓縮,提高了后續(xù)算法的收斂速度。

        2.3 網(wǎng)絡(luò)搭建及訓(xùn)練過程

        本文所搭建的模型主要分為3個模塊,即卷積網(wǎng)絡(luò)特征提取模塊、門控循環(huán)網(wǎng)絡(luò)序列預(yù)測模塊,以及非線性最小二乘參數(shù)調(diào)整模塊。模型的總體流程如圖9所示。

        在訓(xùn)練時,將經(jīng)過預(yù)處理的視頻幀按照時間順序的序列送入卷積神經(jīng)網(wǎng)絡(luò)特征提取模塊,通過插入MTF模塊的卷積網(wǎng)絡(luò)提取每一幀的時空運動特征。之后將提取后的特征按順序送入門控循環(huán)端到端序列預(yù)測模塊,通過引入注意力機制的端到端模型對下一時刻穿戴者的運動軌跡及運動意圖做出預(yù)測。訓(xùn)練過程的流程如圖10所示。

        圖10 網(wǎng)絡(luò)訓(xùn)練過程

        其中的超參數(shù)設(shè)定為:學(xué)習(xí)率a設(shè)為0.001,衰減系數(shù)decay設(shè)為0.9,Dropout系數(shù)設(shè)為0.5最大迭代次數(shù)為4000,每500次保存一次當(dāng)前模型,最終選擇最優(yōu)模型進行預(yù)測。模型訓(xùn)練時以Batch為單位進行,Batch Size設(shè)置為64。

        在推理時,由于不同佩戴者行為模式的不同,根據(jù)實際運動情況通過非線性最小二乘自適應(yīng)算法對門控循環(huán)網(wǎng)絡(luò)編碼器隱藏層參數(shù)進行實時調(diào)整。推理流程圖如圖11所示。

        圖11 網(wǎng)絡(luò)推理過程

        2.4 實驗結(jié)果

        本文實驗軟件平臺為用Linux Ubuntu 18.04 LTS系統(tǒng),python 3.7.3,TensorFlow 1.13.0,CUDA 10.0,CUDNN 7.4。硬件設(shè)備為Tesla-V10-PCRE-16G以及Jetson TX2。本文實驗均在Tesla服務(wù)器上進行訓(xùn)練并部署在jetson TX2上進行推理。TX2其硬件配置為6核CPU架構(gòu),256核Pascal架構(gòu)的GPU核心,內(nèi)存為8 GB。

        本文模型基于inception-V3網(wǎng)絡(luò)結(jié)構(gòu),其模型大小約為93 MB,通過分解卷積以及批標(biāo)準(zhǔn)化處理使得模型參數(shù)大量減少,最終的參數(shù)量在20 million左右。模型在Tesla機器上的推理速度可以達到65 fps。在嵌入式設(shè)備TX2上其推理速度可以在保證精度的情況下達到48 fps,在應(yīng)用到上肢外骨骼時可以滿足實驗需求。

        為了驗證本文提出的模型與當(dāng)前主流視頻行為識別模型的差異,在自建數(shù)據(jù)集上做了以下對比實驗,實驗結(jié)果見表2。

        表2 不同模型實驗結(jié)果

        由實驗結(jié)果可以發(fā)現(xiàn),使用3D卷積核的C3D和I3D模型由于其網(wǎng)絡(luò)結(jié)構(gòu)簡單[16],其推理速度有較大的提升,但準(zhǔn)確率有所下降。而使用了視頻幀的光流信息的Two-Stream和TSN準(zhǔn)確率和推理速度都不高[17],這是因為本文在數(shù)據(jù)預(yù)處理時使用PCA降維使得視頻幀失去了大部分的光流信息,并且對光流信息和RGB信息分開處理耗費了大量時間。在取消PCA處理后,Two-Sream和TSN的準(zhǔn)確率分別達到了83.6%和85.3%,但其推理速度并沒有提高。

        在對MTF模塊進行插入時,本文驗證了兩種插入方式如圖12所示,第一種為在1×1卷積后,BN之前插入MTF模塊,第二種為在1×1卷積之前。

        實驗得到的結(jié)果為使用第一種插入方式準(zhǔn)確率達到最高的84.9%,使用第二種方式達到的最高準(zhǔn)確率為84.5%。

        圖12 不同的MTF插入方式

        推測是因為1×1的卷積將多個維度的特征圖譜進行了線性組合,這種跨通道的信息整合可能會破壞時空運動特征信息。

        在實驗過程中,為了驗證本文提出的G-GRU網(wǎng)絡(luò)模型和其它LRCN模型的差別以及非線性最小二乘自適應(yīng)算法的性能,分為兩組實驗,每組均采用了3種較為流行的LRCN模型作為對照,訓(xùn)練時超參數(shù)的設(shè)置均相同,其中一組使用非線性最小二乘自適應(yīng)算法對網(wǎng)絡(luò)進行實時參數(shù)調(diào)整。本文實驗中設(shè)置p0=0.01,λ=0.999,r=0.95,ε=0.1。 實驗結(jié)果如圖13所示。

        圖13 不同模型準(zhǔn)確率

        由圖13可以看出,在沒有使用非線性最小二乘自適應(yīng)算法時,準(zhǔn)確率最高的是采用ResNet和LSTM的LRCN模型,這是因為ResNet通過殘差傳遞,搭建了更深的網(wǎng)絡(luò)結(jié)構(gòu),能夠更好地提取深層次特征,并且LSTM網(wǎng)絡(luò)結(jié)構(gòu)相比于門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,能更好地處理時域上的關(guān)聯(lián)特征,但是由于網(wǎng)絡(luò)較為復(fù)雜,導(dǎo)致其收斂速度不是很理想,在迭代了近3500次后才達到最高準(zhǔn)確率。收斂速度最快的是AlexNet+GRU結(jié)構(gòu),在迭代2000次左右完成了收斂,但由于其網(wǎng)絡(luò)模型較為簡單,導(dǎo)致預(yù)測的準(zhǔn)確率較低,實驗結(jié)果如圖13(a)所示。

        在使用了非線性最小二乘自適應(yīng)算法實時更新神經(jīng)網(wǎng)絡(luò)參數(shù)后,模型的準(zhǔn)確率都有了一定的提升,均能到達80%以上。由于在自適應(yīng)過程中對預(yù)測網(wǎng)絡(luò)進行了參數(shù)的調(diào)整,LSTM網(wǎng)絡(luò)參數(shù)較多,更新較慢,其收斂速度受到了一定影響,并且準(zhǔn)確率的提升也比較有限。但對于使用門控循環(huán)單元的網(wǎng)絡(luò)模型效果則比較顯著。其中本文提出的MTF-Gnet+GRU+NRLS-A網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率達到了最高的84.8%。驗證了自適應(yīng)算法對于提高實時預(yù)測準(zhǔn)確性有一定的幫助。為了驗證模型對哪些人體行為的識別,預(yù)測最為準(zhǔn)確,分別使用50個短視頻樣本的測試結(jié)果的混淆矩陣如圖14所示。

        圖14 驗證集混淆矩陣

        可以看出,該模型在上肢外骨骼預(yù)測人體行為上有較高的正確率,其主要的預(yù)測錯誤在于抬起和放下這兩個只有時間序列不同,空間特征幾乎相同的行為。

        同時為了驗證本文所使用預(yù)處理算法對模型的影響,在訓(xùn)練的同時使用未經(jīng)PCA降維處理的數(shù)據(jù)進行對照實驗,僅僅歸一化了視頻幀的輸入大小,其它實驗條件均相同。得到的準(zhǔn)確率與推理速度見表3。

        表3 預(yù)處理實驗結(jié)果

        由表3可知,經(jīng)過PCA降維處理后,模型的推理速度提高了約10%,模型的準(zhǔn)確率卻沒有明顯的下降,這表明預(yù)處理算法有效保留率視頻幀的特征,濾出了部分其它的無關(guān)信息,同時壓縮了圖片大小,也驗證使用本文提出的方法不需要使用視頻幀光流信息,加快了計算速度。

        3 結(jié)束語

        傳統(tǒng)的上肢外骨骼機器人利用力學(xué)傳感器或基于生理信息反饋人體行為意圖,具有時滯性,傳感器的數(shù)量也較多,且易穿戴者生理狀況影響較大,基于此,本文將視頻預(yù)測與上肢外骨骼控制人機交互問題一起考慮,提出一種多時間融合(MTF)模塊,并將其插入到inception模塊中。通過攝像頭捕捉第一人稱視頻后,經(jīng)過自行搭建的MTF-Gnet提取空間維度的圖像特征,之后將提取的特征送入端到端的門控循環(huán)單元分析圖像的時間序列關(guān)聯(lián)性,最后在推理時提出一種非線性最小二乘自適應(yīng)算法(NRLS-A),在實時預(yù)測時根據(jù)佩戴者的不同調(diào)整網(wǎng)絡(luò)參數(shù)。從而實現(xiàn)了提前預(yù)測人體上肢行為,為佩戴者提供實時助力,達到了預(yù)期實驗結(jié)果。為上肢外骨骼及其它穿戴式人機交互領(lǐng)域提供控制依據(jù)。下一步的研究包括:

        (1)將MTF模塊與其它網(wǎng)絡(luò)模型進行組合。

        (2)嘗試更多的MTF模塊插入位置與插入方式。

        (3)綜合考慮人機交互時會受到影響的其它特征,以提高預(yù)測準(zhǔn)確性。

        (4)在多場景、多行為動作的情況下改進模型。

        猜你喜歡
        網(wǎng)絡(luò)結(jié)構(gòu)卷積特征
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        如何表達“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機制——遠程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
        復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進展
        人人妻人人澡人人爽欧美一区双| 亚洲av粉色一区二区三区| 日韩一区中文字幕在线| 久久精品免费中文字幕| 十八18禁国产精品www| 亚洲综合网在线观看首页| 国产高清丝袜美腿视频在线观看 | 无码人妻中文中字幕一区二区| 永久免费看黄在线观看| 完整版免费av片| 国产精品美女久久久久| 91美女片黄在线观看| 中文字幕精品一区二区三区av| 狠狠色丁香婷婷久久综合| 国产中老年妇女精品| 人妻少妇精品视中文字幕国语| 亚洲本色精品一区二区久久| 亚洲中文字幕久久精品无码a| 成人片黄网站色大片免费观看app| 国产精品人成在线观看| 亚洲av少妇高潮喷水在线| 亚洲国产av玩弄放荡人妇系列 | 乱中年女人伦av三区| av男人的天堂第三区| 人妻丰满熟妇aⅴ无码| 日韩无套内射视频6| 校花高潮一区日韩| 风韵人妻丰满熟妇老熟| 男女后进式猛烈xx00动态图片| 国产欧美va欧美va香蕉在线观| 国产av大片久久中文字幕| 国产精品无码一区二区三级| 国产自国产在线观看免费观看| 麻豆AV无码久久精品蜜桃久久| 成人自拍一二在线观看| 夜鲁很鲁在线视频| 亚洲an日韩专区在线| 国产二区中文字幕在线观看| 中文字幕日韩三级片| 国产成人午夜精品免费视频| 日本大片在线一区二区三区 |