亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)鍵點(diǎn)檢測(cè)的坐姿識(shí)別方法

        2024-06-03 00:00:00徐寅哲屠佳佳李洲史偉民
        軟件工程 2024年4期

        摘 要:針對(duì)直接應(yīng)用深度學(xué)習(xí)分類算法所得模型泛用性較差的問題,提出了一種分兩個(gè)步驟完成人體坐姿識(shí)別的方法。所提方法首先提取圖片中人體上身關(guān)鍵點(diǎn)的坐標(biāo)信息,在關(guān)鍵點(diǎn)檢測(cè)環(huán)節(jié)采用高分辨率主干網(wǎng)絡(luò),并進(jìn)一步改進(jìn)了模型結(jié)構(gòu),在下采樣環(huán)節(jié)中引入SE(Squeeze-and-Excitation)注意力機(jī)制,加強(qiáng)了空間位置特征的表達(dá),取得了更高的檢測(cè)平均精準(zhǔn)度;然后采用隨機(jī)森林算法對(duì)關(guān)鍵點(diǎn)進(jìn)行坐姿分類。實(shí)驗(yàn)結(jié)果表明:所提方法識(shí)別準(zhǔn)確率可以達(dá)到94%以上,并且在陌生場(chǎng)景下有更好的泛用性,能適應(yīng)實(shí)際應(yīng)用中復(fù)雜的人物環(huán)境。

        關(guān)鍵詞:坐姿識(shí)別;高分辨率網(wǎng)絡(luò);人體關(guān)鍵點(diǎn)檢測(cè);隨機(jī)森林算法

        中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A

        0 引言(Introduction)

        機(jī)器視覺技術(shù)的成熟發(fā)展,使其快速應(yīng)用于人們生活的方方面面。將機(jī)器視覺技術(shù)與物聯(lián)網(wǎng)技術(shù)相結(jié)合,是目前在個(gè)人或家庭應(yīng)用場(chǎng)景下的一個(gè)趨勢(shì)。在人們的日常學(xué)習(xí)、工作與生活中,坐姿是人體最主要的姿態(tài)之一,為了避免長(zhǎng)期不正確的坐姿給人體帶來的健康問題,研究人員開始在智能家具中部署坐姿提醒功能。

        在采用視覺技術(shù)的識(shí)別方法中,葉啟朗等[1]提出了一種基于人體骨架連接關(guān)系的坐姿識(shí)別方法,通過正面的骨架圖像,使用殘差網(wǎng)絡(luò)模型進(jìn)行坐姿識(shí)別分類。房志遠(yuǎn)等[2]采用特征融合的方式將人體骨骼特征用于卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,但識(shí)別準(zhǔn)確率不高。在圖像識(shí)別分類研究中,通常直接采用深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行分類訓(xùn)練。但是,對(duì)人體坐姿的分類與對(duì)物體的分類不同,更多關(guān)注的是姿態(tài)的變化。此外,生活場(chǎng)景復(fù)雜多樣,但是采集的圖像數(shù)據(jù)是有限的,不可能覆蓋所有環(huán)境,因此背景和人物的變化對(duì)網(wǎng)絡(luò)模型識(shí)別的準(zhǔn)確率有較大的影響,導(dǎo)致模型泛用性較差。針對(duì)坐姿圖像識(shí)別方法中存在的問題,本文提出一種人體坐姿識(shí)別方法,它分兩步完成對(duì)人體不同坐姿行為的細(xì)致區(qū)分,具有準(zhǔn)確率高、泛用性強(qiáng),以及不受環(huán)境和人物變化影響等優(yōu)點(diǎn)。

        1 方法結(jié)構(gòu)和理論分析(Algorithm structureand theoretical analysis)

        1.1 方法總體結(jié)構(gòu)

        本文提出的坐姿識(shí)別方法的總體結(jié)構(gòu)設(shè)計(jì)如圖1所示,它主要由兩個(gè)部分組成。首先,圖像經(jīng)過深度學(xué)習(xí)訓(xùn)練的網(wǎng)絡(luò)模型獲得人體關(guān)鍵點(diǎn)信息。相機(jī)的拍攝取景是人體正面坐姿,因此關(guān)鍵點(diǎn)選取眼、耳、鼻及肩膀4處位置,即輸出7通道的矩陣,每一個(gè)通道包含一個(gè)關(guān)鍵點(diǎn)的坐標(biāo)位置。其次,在得到7個(gè)關(guān)鍵點(diǎn)坐標(biāo)后,以此作為輸入?yún)?shù)通過機(jī)器學(xué)習(xí)訓(xùn)練的算法模型預(yù)測(cè)坐姿的分類識(shí)別結(jié)果。這里設(shè)置正面、低頭、傾斜、側(cè)身等多個(gè)坐姿分類結(jié)果。

        根據(jù)算法的整體結(jié)構(gòu)可知,通過先識(shí)別關(guān)鍵點(diǎn)再分類的方法,已經(jīng)將圖像信息進(jìn)行了一次預(yù)處理,相當(dāng)于提取了與坐姿高度相關(guān)的特征,再將這些特征做進(jìn)一步分類,可以規(guī)避直接訓(xùn)練分類模型帶來的低泛用性的問題。影響最終的坐姿識(shí)別結(jié)果的因素主要來自兩個(gè)方面:一是人體關(guān)鍵點(diǎn)的提取,二是對(duì)關(guān)鍵點(diǎn)的分類。下文將著重對(duì)這兩個(gè)方面進(jìn)行研究及驗(yàn)證。

        1.2 主干網(wǎng)絡(luò)

        對(duì)圖像進(jìn)行深度學(xué)習(xí)訓(xùn)練的本質(zhì)在于,通過像素的特征提取圖片中所包含的特定信息,而關(guān)鍵點(diǎn)檢測(cè)的目的在于準(zhǔn)確得到事物在圖像中的位置信息。該過程包括兩個(gè)任務(wù):一是對(duì)不同關(guān)鍵點(diǎn)的圖像進(jìn)行分類,二是對(duì)不同的關(guān)鍵點(diǎn)進(jìn)行定位[3]。在常見的分類網(wǎng)絡(luò)中,通常要經(jīng)過下采樣提取特征,隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,特征層的維度逐漸增大,但特征圖的寬高尺寸隨之縮小。這樣的網(wǎng)絡(luò)結(jié)構(gòu)雖然能增強(qiáng)語義信息,有利于分類任務(wù)的進(jìn)行,但是丟失了大量的空間位置信息,不利于關(guān)鍵點(diǎn)的準(zhǔn)確定位。因此,針對(duì)關(guān)鍵點(diǎn)檢測(cè)的應(yīng)用場(chǎng)景,主干網(wǎng)絡(luò)應(yīng)當(dāng)能始終保持較高的分辨率,并通過與低分辨率特征層進(jìn)行融合,達(dá)到既有利于分類任務(wù)的進(jìn)行,又不會(huì)丟失位置信息的效果,由此可以提高關(guān)鍵點(diǎn)檢測(cè)的準(zhǔn)確性。

        高分辨率網(wǎng)絡(luò)[4]采用了具有多個(gè)分支的網(wǎng)絡(luò)結(jié)構(gòu),其得名于始終有一條分支保持高分辨率特征層,而其他分支不斷做下采樣,縮小了特征層的尺寸大小,增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力。多個(gè)分支并行,相互之間進(jìn)行多尺度的特征融合,最終匯聚到一起,主干網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。

        這種通過并行連接的方式構(gòu)建的網(wǎng)絡(luò)對(duì)不同分辨率尺度的特征進(jìn)行了融合,使其能夠在增強(qiáng)語義特征的同時(shí)保留空間信息。憑借這種結(jié)構(gòu),高分辨率主干網(wǎng)絡(luò)可以實(shí)現(xiàn)準(zhǔn)確的關(guān)鍵點(diǎn)分類以及所在位置的檢測(cè)。本文在關(guān)鍵點(diǎn)檢測(cè)部分以此作為主干網(wǎng)絡(luò),訓(xùn)練適用于坐姿場(chǎng)景的神經(jīng)網(wǎng)絡(luò)模型。

        1.3 模型訓(xùn)練

        將人體圖片輸入主干網(wǎng)絡(luò)后,通過一個(gè)卷積核大小為1,卷積核個(gè)數(shù)為7的卷積層,得到7通道的特征層,其中每一層都是針對(duì)每一個(gè)關(guān)鍵點(diǎn)的熱力圖(Heat Map)[5]。網(wǎng)絡(luò)模型最后輸出的熱力圖的分辨率是原圖的1/4。其中,熱力圖上最大值所在的位置就是關(guān)鍵點(diǎn)的預(yù)測(cè)結(jié)果,將該位置映射回原圖中,就能得出該關(guān)鍵點(diǎn)檢測(cè)的坐標(biāo)值。

        圖3為關(guān)鍵點(diǎn)的熱力圖示意。對(duì)于每個(gè)關(guān)鍵點(diǎn),以關(guān)鍵點(diǎn)坐標(biāo)為中心施加一個(gè)二維的高斯分布,其高斯分布熱力圖可以表示為

        其中:ai、bi 分別是關(guān)鍵點(diǎn)pi 在圖中所在的坐標(biāo)位置,λ為控制分布擴(kuò)散大小的常數(shù)。用高斯分布對(duì)每個(gè)關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行處理的目的是更好地進(jìn)行網(wǎng)絡(luò)收斂,如果只采用一個(gè)點(diǎn)作為正樣本,那么其他點(diǎn)都是負(fù)樣本,導(dǎo)致正負(fù)樣本比例不均,兩者差距懸殊,網(wǎng)絡(luò)就會(huì)出現(xiàn)難以收斂的情況。將結(jié)合高斯分布后得出的熱力圖與模型預(yù)測(cè)輸出的熱力圖進(jìn)行對(duì)比,可以計(jì)算均方誤差損失(MSE)。用到的損失函數(shù)為

        其中:Gi*(x,y)為網(wǎng)絡(luò)模型預(yù)測(cè)得出的熱力圖,Ggti (x,y)為數(shù)據(jù)集中標(biāo)注的關(guān)鍵點(diǎn)坐標(biāo)應(yīng)用了高斯分布得到的熱力圖。K、Hw 、Hh 分別為關(guān)鍵點(diǎn)的個(gè)數(shù)和熱力圖的寬、高。計(jì)算出損失值后,通過反向傳播不斷迭代權(quán)重參數(shù),使得預(yù)測(cè)結(jié)果與標(biāo)注信息相接近。在使用訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)時(shí),可以選取模型輸出的熱力圖中最大值的所在位置求出相應(yīng)關(guān)鍵點(diǎn)的坐標(biāo)值。

        1.4 機(jī)器學(xué)習(xí)分類方法

        完成對(duì)人體關(guān)鍵點(diǎn)的檢測(cè)后,就要通過幾個(gè)關(guān)鍵點(diǎn)坐標(biāo)得出坐姿的分類結(jié)果。不同于圖像輸入的大量像素點(diǎn)信息,該分類任務(wù)的參數(shù)變量較少,只有7個(gè)坐標(biāo)點(diǎn),即14個(gè)參數(shù)。出于模型輕量化和分類計(jì)算速度的考慮,這里選擇使用機(jī)器學(xué)習(xí)方法對(duì)坐姿進(jìn)行分類。用于機(jī)器學(xué)習(xí)分類的方法有許多種,根據(jù)坐姿坐標(biāo)的數(shù)據(jù)形式進(jìn)一步篩選出K-近鄰算法、隨機(jī)森林算法、BP神經(jīng)網(wǎng)絡(luò)等分類模型。這些模型都是有監(jiān)督學(xué)習(xí)算法,適用于學(xué)習(xí)已經(jīng)有明確的類型標(biāo)注的數(shù)據(jù)集。

        隨機(jī)森林算法是由大量的決策樹構(gòu)成,并在決策樹的訓(xùn)練過程中引入屬性選擇的隨機(jī)性。在進(jìn)行分類任務(wù)時(shí),放入訓(xùn)練樣本后,森林中的每一個(gè)決策樹都會(huì)獨(dú)立完成學(xué)習(xí),在對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)時(shí),每一個(gè)決策樹得到了各自的分類結(jié)果,統(tǒng)計(jì)這些輸出結(jié)果中出現(xiàn)最多的類別,隨機(jī)森林模型就以此作為最終的輸出。隨機(jī)森林算法具有訓(xùn)練簡(jiǎn)單、快速,能判斷特征重要性,以及抗過擬合能力較強(qiáng)等優(yōu)點(diǎn),適用于維度較高、特征較多的數(shù)據(jù)集。

        K-近鄰算法沒有顯式的學(xué)習(xí)過程,在訓(xùn)練階段只是把訓(xùn)練樣本保存下來,當(dāng)收到測(cè)試樣本時(shí),再進(jìn)行處理和計(jì)算。特征空間中的兩個(gè)實(shí)例點(diǎn)的間距就是其相似程度的反映,當(dāng)測(cè)試樣本的點(diǎn)位與某一類的訓(xùn)練樣本的距離最接近時(shí),就將其歸為一類,得到分類結(jié)果。K-近鄰算法具有模型結(jié)構(gòu)簡(jiǎn)單、無須訓(xùn)練等優(yōu)點(diǎn),適用于樣本容量較大的分類場(chǎng)景。

        兩個(gè)實(shí)例點(diǎn)的間距計(jì)算公式如下:

        圖4為BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層、輸出層3個(gè)部分組成。輸入樣本數(shù)據(jù)后,每個(gè)特征值乘以相應(yīng)的權(quán)重,不斷向前傳播,計(jì)算出結(jié)果后,與標(biāo)注的樣本結(jié)果進(jìn)行對(duì)比,根據(jù)誤差進(jìn)行反向傳播,修正權(quán)重參數(shù),然后重新計(jì)算輸出,以上步驟循環(huán)往復(fù),最終得出與預(yù)期相符的結(jié)果,完成映射模型的訓(xùn)練,并得到相應(yīng)的權(quán)重文件。BP神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的非線性表達(dá)能力,適用于復(fù)雜特征場(chǎng)景下的求解問題。

        2 模型改進(jìn)與對(duì)比實(shí)驗(yàn)(Model improvement and comparison)

        2.1 引入注意力機(jī)制

        注意力機(jī)制是從人類視覺及認(rèn)知過程中得到啟發(fā)的,被應(yīng)用于神經(jīng)網(wǎng)絡(luò)模型中[6]。在之前的網(wǎng)絡(luò)模型中,卷積、池化等操作都著眼于提取圖片中顯著的特征而忽略了隨意的線索,而注意力機(jī)制的加入使得這個(gè)過程有了一個(gè)可以學(xué)習(xí)的參數(shù),該方法能使網(wǎng)絡(luò)能夠有偏向性地關(guān)注特征圖中的重要信息,選擇性地將注意力集中在某一些輸入數(shù)據(jù)上,從而達(dá)到提高模型預(yù)測(cè)準(zhǔn)確率和泛用性的效果。

        HU等[7]提出的SE注意力機(jī)制著重關(guān)注通道間的關(guān)系,是一種經(jīng)典的通道注意力方法,其通過自適應(yīng)地學(xué)習(xí)不同通道間的注意力權(quán)重,提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征的表達(dá)能力。SE 注意力機(jī)制模塊結(jié)構(gòu)如圖5所示,從圖5中可以看出有3個(gè)階段,在Squeeze階段是通過平均池化方法將特征圖的高和寬降為1,每個(gè)通道僅用一個(gè)數(shù)表示,即壓縮為一個(gè)特征向量,其計(jì)算函數(shù)為

        其中:H 和W 分別表示高和寬,uc 表示每個(gè)通道的特征矩陣。在Excitation階段通過疊加使用全連接層和非線性激活函數(shù),學(xué)習(xí)生成權(quán)重信息,其計(jì)算函數(shù)為

        s=Fex(z,W )=σ(g(z,W ))=σ(W2δ(W1z)) (5)

        其中:W 權(quán)重就是注意力機(jī)制中的可學(xué)習(xí)參數(shù),用于體現(xiàn)模型所需的特征相關(guān)性;向量s 為不同通道的權(quán)重信息。在Scale 階段,根據(jù)上一階段生成的權(quán)重向量s,對(duì)最初的特征圖進(jìn)行權(quán)重計(jì)算,得到新的特征圖作為輸出。SE注意力機(jī)制模塊不會(huì)改變特征圖的尺寸大小,而是自適應(yīng)地根據(jù)需要,加權(quán)調(diào)整特征圖每個(gè)通道的相應(yīng)權(quán)重。該方法可以幫助網(wǎng)絡(luò)有選擇地關(guān)注重要的特征通道,起到改進(jìn)模型和提高其準(zhǔn)確率的作用。

        在高分辨率網(wǎng)絡(luò)中存在多個(gè)分支并行計(jì)算,在多個(gè)分辨率特征進(jìn)行融合時(shí),由于分辨率的尺度不同,因此需要進(jìn)行上采樣或下采樣等操作。在下采樣環(huán)節(jié),要根據(jù)目標(biāo)尺度疊加多個(gè)卷積核大小為3、步距為2的卷積計(jì)算,不斷縮小特征圖的分辨率,在到達(dá)目標(biāo)尺寸前的最后一個(gè)卷積中,除了繼續(xù)縮小分辨率外,還要將特征圖通道擴(kuò)大相應(yīng)倍數(shù),便于進(jìn)行特征融合。在此過程中引入SE通道注意力機(jī)制,改進(jìn)后下采樣模塊示意圖如圖6所示,通過引入SE通道注意力機(jī)制調(diào)整特征圖中的通道貢獻(xiàn)權(quán)重,使得高分辨率分支在下采樣后,在通道數(shù)擴(kuò)增的基礎(chǔ)上加強(qiáng)重要特征的表達(dá),以便在后續(xù)特征融合環(huán)節(jié)促進(jìn)信息的有效整合,將高分辨率分支所包含的空間位置特征信息更顯著地融入進(jìn)來。

        2.2 關(guān)鍵點(diǎn)檢測(cè)

        在訓(xùn)練數(shù)據(jù)集方面,為了提高關(guān)鍵點(diǎn)檢測(cè)模型的泛用性,本實(shí)驗(yàn)采用COCO數(shù)據(jù)集[8]進(jìn)行模型訓(xùn)練,數(shù)據(jù)集涵蓋了大量帶有人體關(guān)鍵點(diǎn)標(biāo)注的樣本實(shí)例,是目前主流的人體姿態(tài)估計(jì)數(shù)據(jù)集之一。在正面坐姿檢測(cè)場(chǎng)景中只需用到7個(gè)點(diǎn)位坐標(biāo),因此本實(shí)驗(yàn)在COCO數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了裁剪,僅選取了具有上身關(guān)鍵點(diǎn)信息的樣本。網(wǎng)絡(luò)的訓(xùn)練基于Ubuntu操作系統(tǒng)以及Pytorch深度學(xué)習(xí)框架。本實(shí)驗(yàn)采用高分辨率網(wǎng)絡(luò)、本文改進(jìn)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)[9]以及改進(jìn)殘差網(wǎng)絡(luò)(ResNeXt)[10]4種主干網(wǎng)絡(luò)分別進(jìn)行模型訓(xùn)練以及相應(yīng)的驗(yàn)證,并進(jìn)行檢測(cè)效果對(duì)比。

        在關(guān)鍵點(diǎn)任務(wù)中,一般采用OKS(Object KeypointSimilarity)表示預(yù)測(cè)點(diǎn)坐標(biāo)和真實(shí)點(diǎn)坐標(biāo)之間的相似程度,其值為0~1,值越接近1,表示模型預(yù)測(cè)的準(zhǔn)確率越高。OKS的計(jì)算公式為

        其中:i表示第幾個(gè)關(guān)鍵點(diǎn),δ 表示關(guān)鍵點(diǎn)是否可見,di 表示預(yù)測(cè)點(diǎn)和真實(shí)點(diǎn)之間的歐式距離,s 為目標(biāo)尺度因子,ki 為衰減常數(shù)。對(duì)驗(yàn)證集樣本的關(guān)鍵點(diǎn)相似度進(jìn)行統(tǒng)計(jì)分析,計(jì)算其平均精確率和平均召回率,并以此作為評(píng)判模型優(yōu)劣的標(biāo)準(zhǔn)。

        表1為不同主干網(wǎng)絡(luò)在COCO驗(yàn)證集上的準(zhǔn)確率表現(xiàn),其中COCO驗(yàn)證集僅選取了具有上半身關(guān)鍵點(diǎn)的部分樣本,表中計(jì)算了不同IoU(Intersection over Union)下的平均精確率和平均召回率。結(jié)果顯示,相較于改進(jìn)殘差網(wǎng)絡(luò),高分辨率網(wǎng)絡(luò)在平均精確率和平均召回率上都有更好的表現(xiàn),其提升幅度約2百分點(diǎn)。而本文所提改進(jìn)模型在高分辨率網(wǎng)絡(luò)的基礎(chǔ)上,進(jìn)一步提升了關(guān)鍵點(diǎn)的識(shí)別能力,在平均精確率和平均召回率上都有更好的表現(xiàn)。

        此外,為了驗(yàn)證訓(xùn)練得到的模型在真實(shí)坐姿場(chǎng)景下的準(zhǔn)確率,除了使用COCO數(shù)據(jù)集中的驗(yàn)證集樣本外,還采集了500 張不同的人物和背景的正面坐姿圖片,對(duì)其中的關(guān)鍵點(diǎn)進(jìn)行標(biāo)注,作為測(cè)試集樣本在完成訓(xùn)練后對(duì)模型做進(jìn)一步的準(zhǔn)確率驗(yàn)證。表2為不同主干網(wǎng)絡(luò)在自建測(cè)試集上的準(zhǔn)確率表現(xiàn),模型的平均精確率和平均召回率普遍可以達(dá)到80%以上,可見訓(xùn)練所得模型部署用于正面坐姿的場(chǎng)景中也有較好的檢測(cè)效果。此外,高分辨率網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò)的精確率更高,與殘差網(wǎng)絡(luò)相比,在精確度和召回率方面都有6%以上的提升,說明該算法更加適用于本項(xiàng)目的應(yīng)用場(chǎng)景。在使用改進(jìn)高分辨率網(wǎng)絡(luò)訓(xùn)練的模型進(jìn)行預(yù)測(cè)時(shí),相比于原模型,準(zhǔn)確率提升了1%。圖7為改進(jìn)模型預(yù)測(cè)結(jié)果可視化,從圖7中可以看出,模型準(zhǔn)確地標(biāo)注出了人體上身7個(gè)正面坐姿關(guān)鍵點(diǎn)的坐標(biāo)位置,并且模型在多種復(fù)雜場(chǎng)景中的預(yù)測(cè)準(zhǔn)確率表現(xiàn)均證明其具有良好的檢測(cè)效果。

        2.3 機(jī)器學(xué)習(xí)分類

        在分類實(shí)驗(yàn)中,將坐姿圖片分成6組,分別為正面、低頭、左傾斜、右傾斜、左側(cè)身、右側(cè)身,每張圖片以人體上身7個(gè)關(guān)鍵點(diǎn)坐標(biāo)作為輸入數(shù)據(jù),共14個(gè)特征。將6組圖片全部匯總后,按1∶4的比例隨機(jī)劃分訓(xùn)練集和驗(yàn)證集,分別通過K-近鄰算法、隨機(jī)森林算法、BP神經(jīng)網(wǎng)絡(luò)等分類算法訓(xùn)練模型,并驗(yàn)證其分類準(zhǔn)確率。此外,除了直接用像素坐標(biāo)作為輸入,還增加了一組像素坐標(biāo)值歸一化后的樣本,以相同的方法進(jìn)行訓(xùn)練,作為對(duì)比組。

        如圖8所示為不同分類算法的準(zhǔn)確率。圖8中的數(shù)值為10次訓(xùn)練獲得的準(zhǔn)確率的平均值。結(jié)果顯示,3種分類算法都能完成坐姿分類任務(wù)且具有比較高的分類準(zhǔn)確率,都能達(dá)到95%以上。其中,隨機(jī)森林算法的分類準(zhǔn)確率最高,K-近鄰算法次之。此外,數(shù)據(jù)歸一化操作對(duì)于BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練有較大的提升作用,但對(duì)于K-近鄰算法反而有不利的影響。

        由于隨機(jī)森林算法的分類準(zhǔn)確率最高,因此選用該算法模型進(jìn)行坐姿分類識(shí)別,并在此做進(jìn)一步的分析。圖9為隨機(jī)森林分類模型混淆矩陣。混淆矩陣作為一項(xiàng)評(píng)判分類模型效果的指標(biāo),可以直觀地分析出各個(gè)分類項(xiàng)具體的識(shí)別情況。從圖9中可以看出,在各項(xiàng)坐姿類別中,模型都有比較高的分類準(zhǔn)確率。

        2.4 實(shí)驗(yàn)結(jié)果的對(duì)比與分析

        將關(guān)鍵點(diǎn)檢測(cè)和機(jī)器學(xué)習(xí)分類算法結(jié)合,組成坐姿識(shí)別模型,將其與其他常見的圖像分類網(wǎng)絡(luò)模型進(jìn)行對(duì)比。為了驗(yàn)證本文所提方法相較于采用深度學(xué)習(xí)做分類的方法在泛用性上的優(yōu)勢(shì),設(shè)計(jì)了有針對(duì)性的實(shí)驗(yàn)。選取VGG網(wǎng)絡(luò)[11]、ResNet殘差網(wǎng)絡(luò)、ShuffleNet網(wǎng)絡(luò)[12]等經(jīng)典的網(wǎng)絡(luò)模型為例,對(duì)坐姿圖像進(jìn)行訓(xùn)練和測(cè)試。除了直接使用這些通用的分類模型外,還增添了一組文獻(xiàn)[13]中提到的識(shí)別方案,在訓(xùn)練前對(duì)圖像進(jìn)行人物前景提取。為了驗(yàn)證模型的泛用性,準(zhǔn)備了兩份驗(yàn)證集,一份驗(yàn)證集是與訓(xùn)練集一起從上文的數(shù)據(jù)集中隨機(jī)按比例劃分出來的,由于人物和背景重復(fù),因此這一份驗(yàn)證集對(duì)于模型來說是比較熟悉的。另一份驗(yàn)證集采集了與之前的背景和人物不同的圖像,這些陌生場(chǎng)景都是之前訓(xùn)練數(shù)據(jù)集中從未出現(xiàn)過的。

        表3為場(chǎng)景變化對(duì)不同模型準(zhǔn)確率的影響,從表中可以看出,對(duì)于在訓(xùn)練中已經(jīng)學(xué)習(xí)過的場(chǎng)景和人物,各個(gè)模型都有比較高的分類準(zhǔn)確率,但當(dāng)背景和人物發(fā)生變化時(shí),模型的分類準(zhǔn)確率就出現(xiàn)了顯著的下降,文獻(xiàn)[13]中的方法雖然去除了背景環(huán)境帶來的干擾,但是在人物發(fā)生變化時(shí),分類準(zhǔn)確率仍受到了較大影響。而本文提出的兩步式分類模型基本不受場(chǎng)景變化的影響,始終能保持較高的分類準(zhǔn)確率,具有較好的泛用性??梢?,直接應(yīng)用深度學(xué)習(xí)進(jìn)行圖像分類的方法在固定場(chǎng)景下能得到較高的分類準(zhǔn)確率,但是當(dāng)模型應(yīng)用于陌生場(chǎng)景時(shí),就難以保證分類的準(zhǔn)確率,這對(duì)于機(jī)器視覺產(chǎn)品應(yīng)用落地是不利的,而本文提出的兩步式分類模型能夠更好地滿足多變環(huán)境中的坐姿識(shí)別需要。

        3 結(jié)論(Conclusion)

        本文提出了一種將深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合的坐姿識(shí)別方法,將識(shí)別任務(wù)劃分成關(guān)鍵點(diǎn)檢測(cè)和機(jī)器學(xué)習(xí)分類兩個(gè)步驟。第一步是基于多尺度分支的高分辨率主干網(wǎng)絡(luò),通過引入SE注意力機(jī)制改進(jìn)模型,利用COCO數(shù)據(jù)集中大量的人體姿態(tài)樣本訓(xùn)練出高精確度的人體上身7個(gè)關(guān)鍵點(diǎn)的檢測(cè)模型。第二步是以檢測(cè)到的關(guān)鍵點(diǎn)坐標(biāo)作為特征值,采用隨機(jī)森林算法訓(xùn)練分類模型,并對(duì)比研究了多種分類算法在此應(yīng)用場(chǎng)景中的分類效果,最終得到了一種兩步式的坐姿識(shí)別模型。在檢測(cè)部分的實(shí)驗(yàn)結(jié)果表明,改進(jìn)主干網(wǎng)絡(luò)后的模型相較于原始模型,在平均精確率上提升了1百分點(diǎn),人體上身關(guān)鍵點(diǎn)檢測(cè)的平均精確率可達(dá)90%。在分類部分的實(shí)驗(yàn)結(jié)果表明,兩步式分類模型的坐姿分類識(shí)別準(zhǔn)確率可以達(dá)到94%以上,并且相較于直接應(yīng)用圖像分類深度學(xué)習(xí)模型,具有更好的泛用性,更適用于復(fù)雜生活場(chǎng)景。

        參考文獻(xiàn)(References)

        [1] 葉啟朗,李戴薪,南海. 一種基于人體骨架的任意角度坐姿識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用研究,2023,40(11):3509-3514.

        [2] 房志遠(yuǎn),石守東,鄭佳罄,等. 基于神經(jīng)網(wǎng)絡(luò)的骨骼特征融合下坐姿快速識(shí)別[J]. 傳感技術(shù)學(xué)報(bào),2022,35(5):613-620.

        [3] 梁橋康,吳樾. 基于HRNet的輕量化人體姿態(tài)估計(jì)網(wǎng)絡(luò)[J]. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,50(2):112-121.

        [4] SUN K,XIAO B,LIU D,et al. Deep high-resolution representationlearning for human pose estimation[C]∥IEEE.Proceedings of the IEEE:2019 IEEE Conference on ComputerVision and Pattern Recognition(CVPR). Piscataway:IEEE,2019:5686-5696.

        [5] BULAT A,TZIMIROPOULOS G. Human pose estimationvia convolutional part heatmap regression[C]∥LEIBEB,MATAS J,SEBE N,et al. Computer Vision -ECCV2016:14th European Conference on Computer Vision ECCV2016. Cham:Springer,2016:717-732.

        [6] VASWANI A,SHAZEER N,PARMAR N,et al. Attentionis all you need[DB/OL]. (2023-08-02)[2023-10-24].https:∥arxiv.org/abs/1706.03762.

        [7] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitationnetworks[C]∥IEEE. Proceedings of the IEEE:2018IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Piscataway:IEEE,2018:7132-7141.

        [8] LIN T,MAIRE M,BELONGIE S,et al. Microsoft COCO:common objects in context[DB/OL]. (2015-02-21)[2023-10-24]. https:∥arxiv.org/abs/1405.0312.

        [9] HE K M,ZHANG X Y,REN S Q,et al. Deep residual learningfor image recognition[C]∥IEEE. Proceedings of theIEEE:2016 IEEE Conference on Computer Vision and PatternRecognition(CVPR). Piscataway:IEEE,2016:770-778.

        [10] XIE S N,GIRSHICK R,DOLLAR P,et al. Aggregatedresidual transformations for deep neural networks[C]∥IEEE. Proceedings of the IEEE:2017 IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR).Piscataway:IEEE,2017:5987-5995.

        [11] SIMONYAN K,ZISSERMAN A. Very deep convolutionalnetworks for large-scale image recognition[DB/OL]. (2015-08-10)[2023-10-24]. https:∥arxiv.org/abs/1409.1556.

        [12] ZHANG X Y,ZHOU X Y,LIN M X,et al. ShuffleNet:anextremely efficient convolutional neural network for mobiledevices[C]∥IEEE. Proceedings of the IEEE:2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway:IEEE,2018:6848-6856.

        [13] 黃旭. 基于判別式深度學(xué)習(xí)的坐姿視覺識(shí)別方法研究[D].長(zhǎng)沙:湖南大學(xué),2018.

        作者簡(jiǎn)介:

        徐寅哲(1999-),男,碩士生。研究領(lǐng)域:機(jī)器學(xué)習(xí),嵌入式技術(shù)。

        屠佳佳(1987-),男,博士生。研究領(lǐng)域:紡織裝備智能化。

        李洲(1998-),男,碩士生。研究領(lǐng)域:嵌入式技術(shù)。

        史偉民(1965-),男,博士,教授。研究領(lǐng)域:紡織裝備機(jī)電控制技術(shù)。

        97色伦图片97综合影院| 91久国产在线观看| 国产麻豆极品高清另类| 一本色道久久婷婷日韩| 久久久久久国产精品mv| 91综合在线| 国产一区二区三区乱码在线 | 国产精品无码制服丝袜| 国产精品久久久久久婷婷| 久久婷婷五月综合97色一本一本| 亚洲日韩精品欧美一区二区| 国产精品入口蜜桃人妻| 国产一区二区白浆在线观看| 国产猛男猛女超爽免费视频| 精品久久人人爽天天玩人人妻| 成人无码网www在线观看| 经典黄色一区二区三区| 日本少妇浓毛bbwbbwbbw| 色婷婷日日躁夜夜躁| 亚洲中文字幕人妻诱惑| 亚洲国产性夜夜综合另类| 欧美最大胆的西西人体44| 中文字幕Aⅴ人妻一区二区苍井空| 久久人妻精品中文字幕一区二区| 亚洲国产婷婷香蕉久久久久久 | 欧美成人猛片aaaaaaa| 色狠狠一区二区三区香蕉| 人妻系列影片无码专区| 日本精品一区二区三区在线观看| 少妇高潮流白浆在线观看| 久久精品无码一区二区乱片子| 亚洲精品女同在线观看| 亚洲av无码一区二区三区鸳鸯影院| 双乳被一左一右吃着动态图| av大片在线无码永久免费网址| gg55gg国产成人影院| 老熟妇仑乱视频一区二区| 亚洲av成人一区二区三区网址| 亚洲一区二区三区熟妇| 337p日本欧洲亚洲大胆精品| 超碰97人人做人人爱少妇|