亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進(jìn)的雙流多模態(tài)信息融合坐姿識(shí)別方法

        2024-03-22 07:18:30袁陸陶慶劉景軒裴浩
        科學(xué)技術(shù)與工程 2024年5期
        關(guān)鍵詞:深度特征模型

        袁陸, 陶慶, 劉景軒, 裴浩

        (新疆大學(xué)機(jī)械工程學(xué)院, 烏魯木齊 830017)

        物聯(lián)網(wǎng)和人工智能的發(fā)展促進(jìn)了智能教育教學(xué)和智能辦公的普遍發(fā)展,智能教育教學(xué)不僅可以預(yù)防和控制課堂相關(guān)的健康問(wèn)題(例如,肌肉骨骼疾病、脊柱側(cè)彎、頸椎病、近視、心血管疾病等),同時(shí)還能減緩工作者或者學(xué)生們的心理壓力,提高工作學(xué)習(xí)效率。如今,坐姿識(shí)別系統(tǒng)可以利用傳感技術(shù)以及機(jī)器視覺等進(jìn)行開發(fā)應(yīng)用。

        目前可穿戴設(shè)備[1-3]、壓力傳感器[4-6]、RGB或RGB-D相機(jī)[7-9]是坐姿識(shí)別常用的技術(shù)。Luna-Perejón等[4]通過(guò)放置在座椅上的力敏電阻器達(dá)到了識(shí)別6種日常會(huì)損害運(yùn)動(dòng)系統(tǒng)的不正確坐姿。Jeong等[5]開發(fā)了一種嵌入傳感器的智能椅子系統(tǒng),可用于預(yù)防與坐姿相關(guān)的肌肉骨骼疾病的實(shí)時(shí)姿勢(shì)反饋系統(tǒng)。Vermander等[6]提出了一種基于多層神經(jīng)網(wǎng)絡(luò)的智能分類器,用于輪椅使用者坐姿的分類。周世源[7]研究了圖像處理在坐姿識(shí)別方向的應(yīng)用,使用CMU優(yōu)化后的Open Pose網(wǎng)絡(luò),選取人體關(guān)鍵點(diǎn)作為坐姿識(shí)別的依據(jù)。

        可穿戴設(shè)備能夠持續(xù)監(jiān)測(cè),但它需要附著在用戶的皮膚或衣服上才能收集數(shù)據(jù),因此,在現(xiàn)階段可能并不實(shí)用。相比于基于傳感器的方法,利用機(jī)器視覺的識(shí)別的方法具有低成本、操作便利、信息豐富、部署智能、應(yīng)用更舒適等優(yōu)勢(shì)。

        2010年微軟公司推出了一款Kinect體感設(shè)備,隨后很多機(jī)構(gòu)和學(xué)者都基于Kinect在計(jì)算機(jī)交互界面以及人體姿態(tài)識(shí)別進(jìn)行了深入研究,并取得了良好的效果。Kinect深度相機(jī)的出現(xiàn),極大地簡(jiǎn)化了人體三維建模的過(guò)程,有效提高了坐姿識(shí)別的可靠性與準(zhǔn)確性。

        就現(xiàn)有文獻(xiàn)研究方法而言,大多數(shù)基于計(jì)算機(jī)視覺的坐姿識(shí)別研究?jī)H使用RGB圖像作為輸入進(jìn)行識(shí)別,將三維世界映射到二維空間的相機(jī)將不可避免地導(dǎo)致信息丟失,這導(dǎo)致在真實(shí)場(chǎng)景中難以獲得高精度的識(shí)別效果,這種方法存在光干擾以及識(shí)別效果不顯著等問(wèn)題[10]。利用Kinect SDK 2.0傳感設(shè)備,獲取RGB圖像和深度(Depth)圖像,因?yàn)镽GB 圖像信息和Depth圖像信息具有互補(bǔ)特性,RGB模態(tài)提供像素色彩信息以及紋理線索,Depth模態(tài)則包含了視點(diǎn)距離物體的距離信息、幾何和形狀線索,且不受光照條件和顏色變化的影響,所以深度信息的內(nèi)容對(duì)于人體坐姿狀態(tài)表征是非常有可鑒性的[11]。

        現(xiàn)使用RGB-D圖像不僅可以提取RGB豐富像素特征信息,同時(shí)融入Depth圖像,這能夠有效克服光干擾,有效避免光照和復(fù)雜背景的影響,并改進(jìn)一種混合神經(jīng)網(wǎng)絡(luò)——采用雙流RGB-D圖像作為雙輸入,將殘差結(jié)構(gòu)引入EfficientNetB0網(wǎng)絡(luò)架構(gòu)中,提出一種基于改進(jìn)R-EfficientNet的雙流RGB-D多模態(tài)信息融合的坐姿識(shí)別算法,以獲得更高的識(shí)別準(zhǔn)確性,識(shí)別的坐姿為人們?nèi)粘5?類姿勢(shì)。以期有效解決目前由于坐姿識(shí)別不精確導(dǎo)致的推廣受限等問(wèn)題,且識(shí)別結(jié)果有助于改進(jìn)辦公家具、課桌椅設(shè)計(jì),同時(shí)也為人體工程學(xué)研究者或醫(yī)療保健專業(yè)人員的決策提供支持[12]。

        1 數(shù)據(jù)采集和預(yù)處理

        1.1 圖像獲取及預(yù)處理

        由于目前沒有公開的坐姿圖像數(shù)據(jù)集,而且所需要的是RGB圖像和Depth圖像匹配對(duì)應(yīng)的數(shù)據(jù)集,因此通過(guò)KinectV2傳感器作為采集設(shè)備,獲取坐姿RGB圖像以及對(duì)應(yīng)的Depth圖像,采集30名學(xué)生(18名男、12名女)日常的8種坐姿數(shù)據(jù):正確坐姿、趴著、上身左傾、上身右傾、前傾、后仰、左撐頭和右撐頭。將采集到的圖像數(shù)據(jù)整合,形成自己的一套R(shí)GB-D坐姿數(shù)據(jù)集,在模型訓(xùn)練前,為了達(dá)到提高模型的準(zhǔn)確性,實(shí)現(xiàn)模型的快速收斂及快速訓(xùn)練的目的,必須對(duì)RGB-D數(shù)據(jù)集進(jìn)行預(yù)處理。由于Depth圖像數(shù)據(jù)中每個(gè)像素點(diǎn)的灰度值代表著視點(diǎn)距離物體的位置信息,可以利用直方圖均值化提高對(duì)比度,降低噪點(diǎn)數(shù),使得更加突出人體坐姿像素,在增強(qiáng)整體圖像對(duì)比度的同時(shí)不影響局部對(duì)比度的增強(qiáng)[13],從而更清晰地反映出深度信息。

        由直方圖可以得到灰度等級(jí)的離散概率分布函數(shù),表達(dá)式為

        (1)

        根據(jù)灰度量化級(jí)數(shù)M得到各個(gè)等級(jí)的量化值為

        (2)

        然后對(duì)每一個(gè)F(k)重新進(jìn)行等級(jí)劃分:如果F(k)與G(j)最相近,就將所有原始灰度級(jí)為rk的像素轉(zhuǎn)變?yōu)閞j。按此規(guī)則對(duì)各個(gè)灰度等級(jí)的像素重新劃分灰度級(jí),達(dá)到均衡化的目標(biāo)。接著選用核為3×3進(jìn)行中值濾波操作處理[14],減少深度圖像的噪聲和填補(bǔ)部分小缺塊,對(duì)比結(jié)果如圖1所示。

        圖1 深度圖像進(jìn)行中值濾波操作前后對(duì)比圖

        1.2 圖像校對(duì)

        由于利用Kinect V2.0體感設(shè)備獲取到RGB圖像數(shù)據(jù)的分辨率大小為1 080×1 920,Depth圖像數(shù)據(jù)的分辨率大小為424×512,RGB圖像和Dpeth圖像不僅在分辨率上存在差異,而且在包含可視范圍的區(qū)域上也存在差異。因此,為了融合RGB-D圖像特征,建立RGB-D數(shù)據(jù)庫(kù),需要對(duì)RGB圖像數(shù)據(jù)和Depth圖像數(shù)據(jù)進(jìn)行圖像配準(zhǔn)校對(duì)。采用相機(jī)定標(biāo)方法,將Depth坐標(biāo)系中的像素點(diǎn)與RGB圖像坐標(biāo)系中的像素點(diǎn)進(jìn)行一一校準(zhǔn),在后續(xù)生成RGB-D roi的過(guò)程中,獲取Depth圖像與RGB圖像坐標(biāo)點(diǎn)的相互映射關(guān)系。通過(guò)相機(jī)定標(biāo)法[15]得到的RGB圖像的本征參數(shù)矩陣為Krgb,深度圖像的本征參數(shù)矩陣為Kd。RGB圖像的外部參數(shù)矩陣為Rrgb和Trgb,深度圖像的外部參數(shù)矩陣為Rd和Td。

        RGB圖像的非齊次像素坐標(biāo)為Prgb=[Urgb,Vrgb,1]T,Depth圖像的非齊次像素坐標(biāo)為Pd=[Ud,Vd, 1]T。將Depth圖像坐標(biāo)映射到RGB圖像坐標(biāo)的旋轉(zhuǎn)矩陣R和平移矩陣T,表達(dá)式分別為

        (3)

        (4)

        旋轉(zhuǎn)矩陣R和平移矩陣T通過(guò)彩色圖像與深度圖像本參數(shù)矩陣與其轉(zhuǎn)置矩陣相乘得到。計(jì)算出Depth圖像與RGB圖像像素坐標(biāo)點(diǎn)的相互映射關(guān)系,公式為

        Rrgb=(RZdPd+T)/Zrgb

        (5)

        通過(guò)得到深度圖像的坐標(biāo)值Pd及其像素值Zd,以及記錄距離Zrgb,得到對(duì)應(yīng)于點(diǎn)映射的RGB圖像的坐標(biāo)Prgb。Kinect V2.0校準(zhǔn)后得到的R和T為固定的常值矩陣,這便于在后續(xù)融合中將該算法處理后的圖像輸入改進(jìn)的雙流R-EfficientNet多模態(tài)信息融合的坐姿識(shí)別算法中。

        1.3 數(shù)據(jù)增強(qiáng)

        為了進(jìn)一步防止模型過(guò)擬合,增強(qiáng)模型訓(xùn)練的魯棒性及泛化能力,需要對(duì)預(yù)處理后的RGB-D訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。使用Pytorch工具箱對(duì)圖像在訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)集中每一對(duì)圖像進(jìn)行動(dòng)態(tài)縮放。并將RGB-D圖像進(jìn)行0.85倍的隨機(jī)裁剪,裁剪后的圖像需要重新插補(bǔ)為224×224大小的圖像。隨機(jī)調(diào)整RGB圖像亮度、對(duì)比度、飽和度,將圖像轉(zhuǎn)換為張量格式,然后對(duì)張量圖像進(jìn)行歸一化[16]。增強(qiáng)后的數(shù)據(jù),將原訓(xùn)練集擴(kuò)大3倍,得到1 952對(duì)(3 904張)RGB-D圖像用于訓(xùn)練模型。

        2 R-EfficientNet算法模型搭建

        2.1 RestNet18網(wǎng)絡(luò)模型結(jié)構(gòu)

        為了提高識(shí)別精度,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的層數(shù)也在不斷優(yōu)化加深,但網(wǎng)絡(luò)的加深導(dǎo)致梯度消失以及梯度爆炸等問(wèn)題,使得該模型收斂困難,造成準(zhǔn)確率低的問(wèn)題。含有殘差結(jié)構(gòu)的網(wǎng)絡(luò)模型在層間引入淺層特征,增加殘差連接,能夠有效地防止梯度消失和緩解模型退化問(wèn)題,從而讓神經(jīng)網(wǎng)絡(luò)的層次數(shù)量的增加變得更為高效,具有強(qiáng)大的表征力。殘差結(jié)構(gòu)[17]如圖2所示。

        x為輸入;H(x)為輸出;F(x)為殘差

        殘差單元在接受輸入數(shù)據(jù)之后,若一個(gè)淺層網(wǎng)絡(luò)的精度已經(jīng)達(dá)到了一個(gè)極限,那么在其之后加入多個(gè)恒等映射層,使其輸出與輸入相等,并且對(duì)每個(gè)層的輸入加入一個(gè)x,使其得到更易于優(yōu)化的殘差函數(shù),神經(jīng)網(wǎng)絡(luò)的層次能夠超過(guò)先前的限制,從而提升了辨識(shí)精度。在殘差塊結(jié)構(gòu)中有含有兩層,表達(dá)式為

        F(x)=W2σ(W1x)

        (6)

        式(6)中:σ為非線性激活函數(shù),經(jīng)過(guò)一個(gè)shortcut和第二個(gè)ReLU函數(shù),即可得到輸出結(jié)果y,即

        y=f(x,{Wi}+x)

        (7)

        在shortcut中,對(duì)x進(jìn)行Ws的線性變換處理,以實(shí)現(xiàn)輸入和輸出維數(shù)的變化,即

        F=(x,{Wi})+Wsx

        (8)

        為保證坐姿圖像分類任務(wù)的高準(zhǔn)確率和實(shí)時(shí)性,選取網(wǎng)絡(luò)層數(shù)適中,收斂速度快,能夠平衡訓(xùn)練速度和網(wǎng)絡(luò)深度的ResNet18作為第一層主干網(wǎng)絡(luò),在保證RGB-D特征提取能力的同時(shí),該網(wǎng)絡(luò)有較快的訓(xùn)練和推理速度,不需要過(guò)多層次的殘差結(jié)構(gòu),且要求樣本數(shù)據(jù)量較少,也不容易產(chǎn)生過(guò)擬合現(xiàn)象。

        ResNet18的網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)含17個(gè)卷積層以及一個(gè)全連接層,如圖3所示。

        Conv為卷積操作(括號(hào)中數(shù)據(jù)為卷積核大小尺寸);BN為批量歸一化操作;ResNet_a、ResNet_b為殘差結(jié)構(gòu);Relu為激活函數(shù)

        將224×224的三通道RGB坐姿圖像數(shù)據(jù)輸入到該網(wǎng)絡(luò)中,通過(guò)ResNet18進(jìn)行特征提取和降采樣,得到了一個(gè)大小為N×50×8×8(N為一個(gè)mini-batch大小)的特征圖,輸出的特征圖(feature map)維數(shù)為50,同理將Depth圖像也送入ResNet18中進(jìn)行第一步的特征提取,將這兩個(gè)提取到的特征矩陣進(jìn)行融合,組成一個(gè)新的特征矩陣X1,作為下一層網(wǎng)絡(luò)的輸入。

        2.2 EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)

        使用EfficientNetB0基線模型作為第二步網(wǎng)絡(luò)模型入口點(diǎn),它接收一個(gè)尺寸為224×224×3的輸入圖像。使用EfficientNetB0的原因是由于其平衡的深度、寬度和分辨率,可以產(chǎn)生一個(gè)可伸縮的、精確的、易于部署的模型。目前已經(jīng)有11個(gè)系列的版本,以滿足各種需求[18]。

        EfficientNetB0[19]網(wǎng)絡(luò)綜合了MBConv和squeeze and excitation方法,在網(wǎng)絡(luò)模型中進(jìn)行特征提取時(shí),經(jīng)過(guò)一個(gè)3×3的卷積核后,通過(guò)16個(gè)移動(dòng)翻轉(zhuǎn)瓶頸卷積(MBConv)模塊的反復(fù)堆疊,最終添加了一個(gè)全局平均池化層和一個(gè)線性層,以整合全局空間信息并降低參數(shù)量,對(duì)每個(gè)權(quán)重在測(cè)試階段對(duì)其進(jìn)行高斯分布的采樣。將各層特征映射進(jìn)行平均池化獲得每一層的全局信息,然后通過(guò)線性層再去與特征映射相乘,這樣在反向傳播的時(shí)候就能通過(guò)梯度更新學(xué)到各層的權(quán)重。其結(jié)構(gòu)如圖4所示。

        Conv為卷積操作(后方為卷積核尺寸);MBConv為移動(dòng)翻轉(zhuǎn)瓶頸卷積操作;k為核參數(shù);stride為步長(zhǎng);Dropout為丟棄層;p為丟棄率

        MBConv結(jié)構(gòu)主要添加了兩個(gè)1×1卷積操作,并使用了SE層、Depwise Conv(深度可分離卷積)以及drop_connect方法來(lái)代替?zhèn)鹘y(tǒng)的drop方法。每個(gè)MBConv卷積塊具體結(jié)構(gòu)如圖5所示。

        Conv為卷積操作(括號(hào)中數(shù)據(jù)為卷積核尺寸);BN為批量歸一化;Swish為Swish非線性激活函數(shù);SE Module為自注意力機(jī)制模塊;stride為步長(zhǎng);Drop_connect為丟棄層

        2.3 R-EfficientNet模型架構(gòu)

        經(jīng)過(guò)圖像采集以及預(yù)處理后,將數(shù)據(jù)集送入R-EfficientNet模型中,該模型第一層搭建的是ResNet18網(wǎng)絡(luò)架構(gòu),分別對(duì)RGB圖像以及Depth圖像進(jìn)行第一輪特征提取,并將提取到的特征矩陣(記作X1)作為下一層的輸入。第二階段采用改進(jìn)EfficientNetB0網(wǎng)絡(luò)架構(gòu)將RGB圖像以及Depth圖像作為雙輸入,進(jìn)行第二輪的特征提取,輸出的特征矩陣(記作X2)作為這一層的輸入,隨后將這兩個(gè)提取到特征矩陣X1及X2(特征量為50維)進(jìn)行特征融合,經(jīng)過(guò)兩個(gè)全連接層(FC1、FC2),FC1將200維的特征通道變?yōu)?0維,FC2將FC1的50維通道數(shù)轉(zhuǎn)變?yōu)檩敵?輸出的數(shù)值為8類標(biāo)簽(對(duì)應(yīng)著8種坐姿狀態(tài)),最后將提取到的坐姿特征輸入Softmax分類器計(jì)算坐姿類別并預(yù)測(cè)概率。R-EfficientNet模型架構(gòu)如圖6所示。

        ResNet18為殘差網(wǎng)絡(luò)結(jié)構(gòu);EfficientNetB0為EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)中B0類型的算法結(jié)構(gòu);Conv為卷積操作(后方數(shù)字表示特征維度);BN為批量歸一化處理;ReLu為激活函數(shù);Max-Pool為最大池化;ResNet_a、ResNet_b為兩類殘差結(jié)構(gòu);MBConv為移動(dòng)翻轉(zhuǎn)瓶頸卷積(k為核尺寸);2x、3x、4x為循環(huán)迭代次數(shù)

        3 評(píng)估指標(biāo)及參數(shù)設(shè)定

        對(duì)于圖像多分類問(wèn)題,為加快模型的收斂速度,選用Adam[20]自適應(yīng)學(xué)習(xí)優(yōu)化算法。使用批量大小為32的Adam優(yōu)化器進(jìn)行訓(xùn)練和驗(yàn)證,該算法既有AdaGrad[21]擅長(zhǎng)求解稀疏梯度,又有RMSprop[22]擅長(zhǎng)求解非穩(wěn)定問(wèn)題的優(yōu)勢(shì),而且其收斂速度遠(yuǎn)超SGD優(yōu)化器。Adam優(yōu)化器算法利用指數(shù)滑動(dòng)平均來(lái)估計(jì)梯度中每個(gè)成分的一階矩和二階矩,從而獲取每一步的更新量,并進(jìn)一步提供自適應(yīng)學(xué)習(xí)率,將各層次的網(wǎng)絡(luò)由線性組合改為非線性逼近能夠改善模型的預(yù)測(cè)精度。采用10-3的初始化速率,利用引入交叉熵?fù)p失函數(shù),解決傳統(tǒng)方法中存在的學(xué)習(xí)效率較低的問(wèn)題,從而有效地提升了坐姿識(shí)別的準(zhǔn)確度,交叉熵?fù)p失函數(shù)公式為

        (9)

        式(9)中:y為預(yù)期輸出;α為實(shí)際輸出,α=σ(z),z=Wx+b。

        當(dāng)驗(yàn)證損失函數(shù)Loss不提升時(shí)則減少學(xué)習(xí)率,每次減少學(xué)習(xí)率因子為0.2,Batch size設(shè)置為30,將數(shù)據(jù)集分割為訓(xùn)練集(70%)、測(cè)試集(30%),對(duì)每個(gè)R-EfficientNet網(wǎng)絡(luò)進(jìn)行了50和300個(gè)epoch的訓(xùn)練,從0.001的學(xué)習(xí)率開始,并使用步進(jìn)衰減學(xué)習(xí)率調(diào)度器每20個(gè)周期將其降低0.5倍。對(duì)于RGB-D坐姿數(shù)據(jù)集,提出的R-EfficientNet網(wǎng)絡(luò)模型框架的識(shí)別準(zhǔn)確率從87.1%提高到了98.5%。本文方法流程圖如圖7所示。

        圖7 R-EfficientNet方法流程圖

        接著對(duì)所有對(duì)比模型進(jìn)行300次獨(dú)立重復(fù)訓(xùn)練,以保證實(shí)驗(yàn)精度的準(zhǔn)確性,取這300次實(shí)驗(yàn)結(jié)果的中位數(shù)作為最終訓(xùn)練結(jié)果。通過(guò)精確率(precision,P)、召回率(recall,R)、F1(F-Score)、準(zhǔn)確率(accuracy,A)來(lái)評(píng)估模型性能,計(jì)算公式如式(10)~式(13)所示。

        (10)

        (11)

        (12)

        (13)

        式中:TP為真陽(yáng)性;TN為真陰性;FP為假陽(yáng)性;FN為假陰性。

        4 實(shí)驗(yàn)結(jié)果與分析

        在R-EfficientNet模型訓(xùn)練了300次的過(guò)程中,記錄模型的損失值,比較訓(xùn)練損失和測(cè)試損失的變化曲線,判斷模型的擬合效果,如圖8所示。

        圖8 R-EfficientNet模型訓(xùn)練集及測(cè)試集損失變化曲線

        模型訓(xùn)練結(jié)果顯示,loss僅為0.015%。同時(shí)表明R-EfficientNet模型具有更好的收斂性,分類結(jié)果如表1所示,識(shí)別均值平均精度(mean average precision, mAP)達(dá)到了98.5%。由于利用了RGB圖像提供豐富的像素信息基礎(chǔ)上,加入了Depth圖像的位置距離信息,擴(kuò)充了提取的特征內(nèi)容,降低了模型的泛化程度。

        表1 訓(xùn)練分類結(jié)果

        實(shí)驗(yàn)中常常用P-R曲線作為衡量值來(lái)比較模型的性能好壞,P-R曲線中的P是精確率,R即是召回率,其代表的是精確率與召回率之間的關(guān)系,一般呈現(xiàn)負(fù)相關(guān)。同時(shí),引入F1作為綜合指標(biāo),為了平衡準(zhǔn)確率和召回率的相互造成的影響,F1的數(shù)值越大說(shuō)明模型質(zhì)量越高。為了更好地比較R-EfficientNet模型在人體坐姿識(shí)別領(lǐng)域的能力,選取常用于動(dòng)作分類的VGG16、CNN網(wǎng)絡(luò)模型、ResNet18、EfficientNet與之比較。

        從圖9中的P-R曲線的性質(zhì)可以得出,R-EfficientNet模型包住了其他幾類模型,則可以說(shuō)明模型R-EfficientNet的性能要優(yōu)于其他幾類模型,但由于有個(gè)別模型發(fā)生了交叉,可以選用F1值來(lái)衡量模型性能優(yōu)劣。

        圖9 P-R曲線圖

        結(jié)果證明,僅使用單獨(dú)的RGB或Depth圖像作為輸入進(jìn)行識(shí)別,識(shí)別率較低,判別不準(zhǔn)確,本文模型不僅利用了深度圖像特征引起的定位誤差小的優(yōu)勢(shì),同時(shí)借助了RGB通道的信息進(jìn)行融合,達(dá)到了較高的識(shí)別準(zhǔn)確度。由于本研究的目標(biāo)為單獨(dú)的人,檢測(cè)對(duì)象比較大,僅使用深度圖像特征信息就可以準(zhǔn)確地確定目標(biāo)的位置信息,該方法大大降低了識(shí)別誤差。這些結(jié)果證實(shí)了使用RGB-D融合特征信息是可行的,同時(shí)證明了本文模型的優(yōu)勢(shì),可以達(dá)到人體可以在任何光照條件下正確定位并判別坐姿狀態(tài)。

        從圖10的模型對(duì)比矩形圖可以看出,與其他方法相比,純深度方法的識(shí)別效果不好,收斂性能較差,主要原因是深度圖像會(huì)有一定的噪聲和孔洞的干擾[23],且包含的信息量較少。

        圖10 模型性能對(duì)比矩形圖

        混淆矩陣在判斷分類模型的優(yōu)劣和分類效果方面表現(xiàn)良好,能清晰地顯示判定的8種常見坐姿識(shí)別中正確和錯(cuò)誤識(shí)別的數(shù)量,使用RGB-D數(shù)據(jù)集來(lái)訓(xùn)練本文模型并進(jìn)行可視化和分析。

        可以從混淆矩陣中看出,該方法的誤差主要是由于人體身形的差異性以及姿勢(shì)的多樣性,具有高度相似性有時(shí)會(huì)被錯(cuò)誤地識(shí)別出來(lái)。具體來(lái)說(shuō),分類錯(cuò)誤顯示在圖11中,混淆矩陣主要發(fā)生在姿勢(shì)6、姿勢(shì)7之間的相互誤判,主要是由于與相似類別混淆造成的。因?yàn)?在正常光照條件下,由于正確坐姿和前傾坐姿以及后仰坐姿相似,位置信息差異性較小,造成一定的誤差結(jié)果。此外,該方法也會(huì)受到光線變化的影響,從而導(dǎo)致識(shí)別錯(cuò)誤,由于陰影和光線不均勻?qū)GB圖像的影響,部分姿態(tài)被錯(cuò)誤識(shí)別,例如左撐頭以及右撐頭。

        橫縱坐標(biāo)0~7為坐姿的8個(gè)類別

        5 結(jié)論

        提出了一種改進(jìn)雙流多模態(tài)信息融合坐姿識(shí)別方法,實(shí)現(xiàn)了高精度的人體坐姿識(shí)別,不僅充分利用了RGB圖像特征,同時(shí)引入了Depth圖像來(lái)解決彩色圖像信息干擾導(dǎo)致的識(shí)別精度不高的問(wèn)題,同時(shí)改進(jìn)了一種深度學(xué)習(xí)模型算法,達(dá)到快速識(shí)別人體不正確坐姿的目的。

        提出僅根據(jù)Kinect傳感器獲得RGB-D圖像數(shù)據(jù),不再需要復(fù)雜的接觸式傳感設(shè)備儀器進(jìn)行采集識(shí)別,有效降低了識(shí)別成本,提高了識(shí)別精度。以Pytorch作為深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,對(duì)8種常見坐姿狀態(tài)分類識(shí)別率可達(dá)98.5%;對(duì)比不同網(wǎng)絡(luò)模型的訓(xùn)練效果,所提出的R-EfficientNet在模型穩(wěn)定性和準(zhǔn)確性方面具有顯著優(yōu)勢(shì)。實(shí)現(xiàn)了對(duì)不同坐姿快速、高效、低成本的分類識(shí)別,識(shí)別結(jié)果可以運(yùn)用于醫(yī)療監(jiān)護(hù)等領(lǐng)域,同時(shí)為各類家具生產(chǎn)提供有效的創(chuàng)新方案。

        猜你喜歡
        深度特征模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        深度觀察
        深度觀察
        深度觀察
        抓住特征巧觀察
        国产粉嫩高清| 99久久久无码国产精品6| a级黑人大硬长爽猛出猛进 | 国产亚洲自拍日本亚洲| 国产免费av片无码永久免费 | 亚洲夜夜骑| 亚洲视频不卡免费在线| 青青草在线这里只有精品| 忘忧草社区www日本高清| 国产精美视频| 91在线视频视频在线| 日本熟女精品一区二区三区| 亚洲av无码久久精品色欲| 欧美喷潮久久久xxxxx| 国产成人精品视频网站| 北条麻妃在线中文字幕| 妺妺窝人体色www看美女| 国产精品国产三级农村妇女| 成在线人免费视频播放| 男女射黄视频网站在线免费观看| av无码人妻中文字幕| 亚洲国产美女在线观看| 国产精品天堂在线观看| 一边摸一边抽搐一进一出视频| 午夜精品久久久久久| 日本a在线免费观看| 久久综合五月天啪网亚洲精品| 久久人妻无码一区二区| 荡女精品导航| 亚洲精品视频免费在线| 亚洲国产成人久久综合碰碰| 人妻av无码系列一区二区三区| 国内成人精品亚洲日本语音| av国产自拍在线观看| 国产亚洲精品久久久闺蜜| 国自产偷精品不卡在线| 丝袜美腿一区二区在线观看 | 国产精品美女久久久久av超清| 91精品国产综合成人| 精品一区二区亚洲一二三区| 欧美性生交大片免费看app麻豆 |