馮 霞,薛晶霞,劉才華+
(1.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300;2.中國(guó)民用航空局 智慧機(jī)場(chǎng)理論與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津 300300)
在特定人體動(dòng)作識(shí)別[1-6]中,不同人體關(guān)鍵姿態(tài)(即不同人體關(guān)鍵點(diǎn))的重要程度各不相同。如在檢測(cè)是否存在貨物暴力分揀行為時(shí),與動(dòng)作高度相關(guān)的手腕關(guān)鍵點(diǎn)識(shí)別比眼睛、鼻子等其它關(guān)鍵點(diǎn)識(shí)別更重要。而大多數(shù)現(xiàn)有人體姿態(tài)估計(jì)方法將人體所有關(guān)鍵點(diǎn)同等對(duì)待,如文獻(xiàn)[7]通過(guò)融合多尺度特征增大局部區(qū)域感受野,改善整體關(guān)鍵點(diǎn)識(shí)別;文獻(xiàn)[8]采用3個(gè)反卷積生成高分辨率熱圖,提升整體關(guān)鍵點(diǎn)的識(shí)別性能;文獻(xiàn)[9]基于文獻(xiàn)[8]框架,使用PixelShuffle上采樣方法進(jìn)一步提升了整體關(guān)鍵點(diǎn)識(shí)別性能。以上模型忽略了不同關(guān)鍵點(diǎn)的重要程度不同這一重要因素,而且在特征提取階段對(duì)特征信息利用不充分。
針對(duì)以上問(wèn)題,本文提出了一種融合注意力機(jī)制的人體關(guān)鍵姿態(tài)估計(jì)方法。首先在下采樣-上采樣兩階段融入注意力機(jī)制,引導(dǎo)模型在通道和空間維度自適應(yīng)關(guān)注特征區(qū)域中的重要信息,弱化不重要的特征信息;其次提出一種代價(jià)敏感損失函數(shù),使模型在學(xué)習(xí)過(guò)程中能聚焦于代價(jià)更大的目標(biāo)關(guān)鍵點(diǎn),提升模型對(duì)目標(biāo)關(guān)鍵點(diǎn)的識(shí)別性能。在COCO公共數(shù)據(jù)集和CargoSorting數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法在少量增加模型參數(shù)前提下,提升了目標(biāo)關(guān)鍵點(diǎn)和整體關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率。
本文模型框架如圖1所示。該框架主要包括3個(gè)模塊。①淺層多尺度特征增強(qiáng)模塊。本文采用Resnet50骨干網(wǎng)絡(luò)提取特征。為了降低背景信息干擾和下采樣導(dǎo)致特征空間信息的損失,在網(wǎng)絡(luò)淺層采用空間注意力機(jī)制,幫助模型提取有效的空間信息。在L1~L4的Bottleneck模塊中融入通道注意力機(jī)制,幫助模型提取重要的通道特征;②深層多通道特征選取模塊。由于上采樣操作會(huì)大幅降低特征通道維度,易造成有效特征丟失問(wèn)題,因此在上采樣之前加入通道注意力機(jī)制,幫助模型學(xué)習(xí)不同通道特征的重要程度;③代價(jià)敏感損失模塊。在模型訓(xùn)練過(guò)程中,增加與特定動(dòng)作相關(guān)的目標(biāo)關(guān)鍵點(diǎn)的誤識(shí)別代價(jià),使得人體姿態(tài)估計(jì)模型在訓(xùn)練時(shí)更專注于目標(biāo)關(guān)鍵點(diǎn),從而提升模型對(duì)目標(biāo)關(guān)鍵點(diǎn)的識(shí)別精度。
圖1 人體姿態(tài)估計(jì)模型框架
通道注意力機(jī)制通過(guò)建模特征通道間的關(guān)系,幫助模型篩選出對(duì)任務(wù)更加重要的特征[10]。在人體姿態(tài)估計(jì)中,模型輸出的每個(gè)通道表示某個(gè)關(guān)鍵點(diǎn)的識(shí)別結(jié)果。提取與關(guān)鍵點(diǎn)相關(guān)的特征以及減少上采樣階段通道信息丟失非常重要。圖1中(b)部分的fi(i=1,2,3) 表示特征,f1~f3特征的通道維度分別為1024、256、128,最后一層卷積層輸出通道維度為17和6,可見上采樣和最后生成熱圖的卷積操作,會(huì)使特征通道維度下降2~21.3倍,造成通道特征信息丟失和利用不充分。因此,本文在特征提取階段和上采樣生成關(guān)鍵點(diǎn)熱圖階段融入通道注意力機(jī)制,模型分別如圖1的(b)部分和圖2所示。其中,圖1(b)表示在最后卷積層和生成f2、f3特征之前融入通道注意力,圖2表示添加通道注意力后的Bottleneck結(jié)構(gòu),本文以此結(jié)構(gòu)作為骨干網(wǎng)絡(luò)的第一個(gè)Bottleneck來(lái)構(gòu)造L1~L4層。
圖2 融入通道注意力機(jī)制的Bottleneck
具體的通道注意力機(jī)制如式(1)~式(3)所示。首先利用1×1卷積Wq和Wv將輸入特征fi(i=1,2,3) 生成分辨率不變的Q、V特征,其中,Q特征通道被壓縮為1,V特征通道降為輸入特征的一半。然后將兩個(gè)特征分別reshape為N×1×1,C/2×N,N=H×W。為了彌補(bǔ)Q特征通道被完全壓縮造成的信息損失,使用softmax對(duì)Q特征進(jìn)行增強(qiáng),并與V特征相乘后經(jīng)過(guò)1×1卷積、LayerNorm和sigmod激活函數(shù)生成通道權(quán)重參數(shù),如式(3)所示。最后將通道權(quán)重參數(shù)與輸入特征fi相乘得到通道注意力圖
Q=Wq(fi)
(1)
V=Wv(fi)
(2)
Ac=σ1(Wq(σ2(R1(Q)))×R2(V))
(3)
其中,Ac表示生成的通道權(quán)重參數(shù),R1和R2表示兩個(gè)reshape操作,σ1為sigmod激活函數(shù),σ2為softmax激活函數(shù),Wq和Wv為1×1卷積操作。
空間注意力機(jī)制通過(guò)建模特征內(nèi)各像素間的關(guān)系,幫助模型關(guān)注更加重要的特征區(qū)域[11]。受文獻(xiàn)[12]的啟發(fā),在特征提取網(wǎng)絡(luò)之前加入注意力機(jī)制網(wǎng)絡(luò)可以改善背景信息對(duì)關(guān)鍵點(diǎn)識(shí)別的影響。因此,本文在骨干網(wǎng)絡(luò)第一個(gè)特征層之后加入空間注意力機(jī)制,增強(qiáng)重要特征信息,減弱不重要的特征信息,幫助模型更好地提取多尺度淺層特征,模型如圖1(a)所示。
具體的空間注意力機(jī)制如式(4)~式(6)所示。與通道注意力機(jī)制相似,首先利用1×1卷積Wq、Wv將輸入特征f0轉(zhuǎn)為通道為原通道一半的特征Q和V,通過(guò)全局平均池化將V特征壓縮為C/2×1×1來(lái)表示輸入特征的全局信息,V特征的空間分辨率保持不變。然后將兩個(gè)特征分別reshape為1×C/2和C/2×N,N=H×W。 為了彌補(bǔ)Q特征池化造成的信息損失,使用softmax對(duì)Q特征進(jìn)行增強(qiáng),并與V特征相乘后經(jīng)過(guò)reshape和sigmod激活函數(shù)生成空間權(quán)重參數(shù),如式(6)所示。最后將該參數(shù)與輸入特征f0相乘得到空間注意力圖
Q=Wq(f0)
(4)
V=Wv(f0)
(5)
As=σ1(R3(σ2(R1(GAP(Q))))×R2(V))
(6)
其中,As表示生成的空間權(quán)重參數(shù),R1~R3為reshape操作,GAP表示全局平均池化操作,其它符號(hào)與式(3)含義相同。
本文使用的注意力機(jī)制對(duì)特征處理時(shí),在空間維度和通道維度內(nèi)均保持較高分辨率,沒(méi)有對(duì)特征進(jìn)行很大程度壓縮,這對(duì)人體關(guān)鍵點(diǎn)識(shí)別具有重要意義[13,14]。此外,采用softmax-sigmod組合方式增強(qiáng)特征非線性表達(dá),進(jìn)一步提升了模型對(duì)關(guān)鍵點(diǎn)的識(shí)別。
本文的代價(jià)敏感損失旨在提升模型對(duì)目標(biāo)關(guān)鍵點(diǎn)的關(guān)注度,模型如圖1(c)所示。主要包括兩個(gè)部分,整體關(guān)鍵點(diǎn)損失和目標(biāo)關(guān)鍵點(diǎn)損失。整體關(guān)鍵點(diǎn)是指標(biāo)注的所有人體關(guān)鍵點(diǎn)(本文共17個(gè)),目標(biāo)關(guān)鍵點(diǎn)是指和特定動(dòng)作識(shí)別高度相關(guān)的人體關(guān)鍵點(diǎn)(本文指和暴力分揀動(dòng)作相關(guān)的人體左右手腕、手肘和腳踝共6個(gè)關(guān)鍵點(diǎn))??梢酝ㄟ^(guò)代價(jià)敏感因子調(diào)整目標(biāo)關(guān)鍵點(diǎn)損失在整個(gè)損失函數(shù)中的權(quán)重比例,從而控制目標(biāo)關(guān)鍵點(diǎn)的代價(jià)敏感程度。代價(jià)敏感損失計(jì)算如式(7)所示
L=Ln+λLc
(7)
式中:L為模型的總損失,Ln為整體關(guān)鍵點(diǎn)損失,Lc為目標(biāo)關(guān)鍵點(diǎn)的損失,λ為代價(jià)敏感因子。由式(7)可知,當(dāng)λ的值為0時(shí),L退化為標(biāo)準(zhǔn)的人體姿態(tài)估計(jì)損失,當(dāng)λ的值逐漸增大時(shí),目標(biāo)關(guān)鍵點(diǎn)損失在總損失中的比例也相應(yīng)增大。λ可實(shí)現(xiàn)平滑調(diào)節(jié)目標(biāo)關(guān)鍵點(diǎn)損失占比。
(8)
式中:(x,y) 用來(lái)表示關(guān)鍵點(diǎn)k的真實(shí)熱圖的位置,σk表示關(guān)鍵點(diǎn)k的尺度自適應(yīng)方差。
人體姿態(tài)估計(jì)模型生成的整體關(guān)鍵點(diǎn)對(duì)應(yīng)的熱圖損失Ln可由式(9)表示
(9)
同樣的方法,可計(jì)算目標(biāo)關(guān)鍵點(diǎn)的預(yù)測(cè)熱圖和真實(shí)熱圖,目標(biāo)關(guān)鍵點(diǎn)的熱圖損失如式(10)所示
(10)
式(7)中,Ln項(xiàng)等同看待每個(gè)人體關(guān)鍵點(diǎn),追求模型在整體關(guān)鍵點(diǎn)上的識(shí)別性能。在實(shí)際應(yīng)用中,不同關(guān)鍵點(diǎn)重要性是動(dòng)作依賴的,基于此,本文的代價(jià)敏感損失L在包含整體關(guān)鍵點(diǎn)損失的基礎(chǔ)上,增加與特定動(dòng)作相關(guān)的目標(biāo)關(guān)鍵點(diǎn)損失,突顯目標(biāo)關(guān)鍵點(diǎn)的重要性。通過(guò)代價(jià)敏感因子λ值控制整體關(guān)鍵點(diǎn)損失和目標(biāo)關(guān)鍵點(diǎn)的損失在總損失中的比重,λ值越大,意味著目標(biāo)關(guān)鍵點(diǎn)損失占比越大,目標(biāo)關(guān)鍵點(diǎn)識(shí)別錯(cuò)誤產(chǎn)生的代價(jià)更大,模型對(duì)目標(biāo)關(guān)鍵點(diǎn)的關(guān)注度越高。
本文采用的數(shù)據(jù)集包括Miscrosoft COCO公共數(shù)據(jù)集和自建的CargoSorting數(shù)據(jù)集。其中COCO數(shù)據(jù)集包含約165 K張圖像和150 K個(gè)人體目標(biāo)實(shí)例。每個(gè)實(shí)例被標(biāo)注了17個(gè)關(guān)鍵點(diǎn),分別為鼻子、右眼、左眼、右耳、左耳、右肩、左肩、右肘、左肘、右手腕、左手腕、右臀、左臀、右膝、左膝、右腳踝、左腳踝。實(shí)驗(yàn)在超過(guò)118 K張圖像的訓(xùn)練集上訓(xùn)練,在5 K張圖像的驗(yàn)證集上進(jìn)行驗(yàn)證。
圖3 CargoSorting數(shù)據(jù)集標(biāo)注示例
本文采用關(guān)鍵點(diǎn)相似性O(shè)KS(object keypoint similarity)評(píng)估模型性能,其計(jì)算如式(11)所示
(11)
式中:di表示關(guān)鍵點(diǎn)i的預(yù)測(cè)位置和真實(shí)位置之間的歐氏距離,S2表示人體的面積,ki表示類型為i的關(guān)鍵點(diǎn)歸一化因子,vi表示真實(shí)關(guān)鍵點(diǎn)i的可見性,vi大于0表示關(guān)鍵點(diǎn)可被觀察到,小于0表示該關(guān)鍵點(diǎn)不可見。
實(shí)驗(yàn)結(jié)果采用平均準(zhǔn)確率AP(average precision)和平均召回率AR(average recall)表示。其中,AP是OKS值分別為0.5,0.55,0.60,…,0.95時(shí)所有準(zhǔn)確率的平均值,AP50和AP75是OKS的值分別為0.5和0.75時(shí)的平均識(shí)別準(zhǔn)確率,APM是中型目標(biāo)檢測(cè)精度,APL是大型目標(biāo)檢測(cè)精度,AR是OKS值分別取0.5,0.55,0.60,…,0.95時(shí)所有召回率的平均值。
模型的輸入大小為256×192,輸出整體關(guān)鍵點(diǎn)熱圖大小為17×64×48,目標(biāo)關(guān)鍵點(diǎn)熱圖大小為6×64×48。實(shí)驗(yàn)過(guò)程采用隨機(jī)縮放、隨機(jī)旋轉(zhuǎn)和圖像翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方式,ResNet50和YOLOv3-spp預(yù)訓(xùn)練模型都基于公開數(shù)據(jù)集ImageNet。實(shí)驗(yàn)采用Adam優(yōu)化器進(jìn)行優(yōu)化,COCO數(shù)據(jù)集的初始學(xué)習(xí)率為0.001,CargoSorting數(shù)據(jù)集的初始學(xué)習(xí)率為0.0001,學(xué)習(xí)率衰減系數(shù)為0.1,在MSCOCO數(shù)據(jù)集和CargoSorting據(jù)集上的總訓(xùn)練周期分別為270和100,批訓(xùn)練大小都為32。
為了評(píng)估本文模型的性能,表1和表2分別給出了本文算法和對(duì)比算法在兩個(gè)數(shù)據(jù)集上的識(shí)別結(jié)果。表中k=17表示模型在17個(gè)整體關(guān)鍵點(diǎn)上的識(shí)別性能,k=6表示模型在6個(gè)目標(biāo)關(guān)鍵點(diǎn)上的識(shí)別性能。在代價(jià)敏感損失的λ值設(shè)為0.3時(shí),模型的性能最優(yōu)。本文λ值選取是通過(guò)后續(xù)實(shí)驗(yàn)驗(yàn)證取得。
表1 本文方法和基準(zhǔn)方法在COCO 2017驗(yàn)證集上的實(shí)驗(yàn)結(jié)果比較
表2 本文方法和基準(zhǔn)方法在CargoSorting數(shù)據(jù)測(cè)試集上的實(shí)驗(yàn)結(jié)果比較
從表1可以看出,本文方法與其它方法相比,提高了目標(biāo)關(guān)鍵點(diǎn)和整體關(guān)鍵點(diǎn)的識(shí)別性能。具體地,相較于FastPose方法,本文方法在少量增加模型參數(shù)的前提下,目標(biāo)關(guān)鍵點(diǎn)和整體關(guān)鍵點(diǎn)的AP指標(biāo)分別提高了1.4%和1.1%,AP50、AP75、APM、APL以及AR指標(biāo)也都有所提高。與CPN相比,目標(biāo)關(guān)鍵點(diǎn)和整體關(guān)鍵點(diǎn)AP指標(biāo)均提高3.7%,與CPN+OHKM相比,AP分別提高3.1%和2.9%,模型參數(shù)量增加了1.2。與采用不同骨干網(wǎng)絡(luò)的SBL相比,目標(biāo)關(guān)鍵點(diǎn)AP分別提高了1.8%,1.2%和0.7%,整體關(guān)鍵點(diǎn)AP分別提升了1.9%,0.9%和0.3%。當(dāng)SBL的骨干網(wǎng)絡(luò)采用ResNet-101和ResNet-152時(shí),本文方法還能夠減少模型的參數(shù)量。
表2是本文方法在CargoSorting數(shù)據(jù)集上與其它模型的對(duì)比結(jié)果,與FastPose方法相比,本文方法對(duì)目標(biāo)關(guān)鍵點(diǎn)和整體關(guān)鍵點(diǎn)的AP分別提升了1.5%和1.4%,其它指標(biāo)也都有不同程度的提高。與CPN相比,目標(biāo)關(guān)鍵點(diǎn)和整體關(guān)鍵點(diǎn)AP指標(biāo)分別提高5.4%、4.7%,與CPN+OHKM相比,AP分別提高3.7%和3.3%。與采用不同骨干網(wǎng)絡(luò)的SBL相比,目標(biāo)關(guān)鍵點(diǎn)AP分別提高了2.6%,1.5%和0.8%,整體關(guān)鍵點(diǎn)AP分別提升了2.1%,1.3%和0.6%。
本文方法在模型下采樣階段融入空間注意力和通道注意力促使模型關(guān)注重要特征區(qū)域,豐富了空間和通道特征表示,采用通道注意力彌補(bǔ)上采樣導(dǎo)致特征通道信息損失,增強(qiáng)了模型的高分辨率表達(dá)能力。最后在模型訓(xùn)練過(guò)程中引入代價(jià)敏感損失,通過(guò)更多關(guān)注目標(biāo)關(guān)鍵點(diǎn)的誤識(shí)別代價(jià),顯著提升與特定動(dòng)作相關(guān)的目標(biāo)關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率和整體關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率。表1和表2的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性。
代價(jià)敏感參數(shù)λ值的選擇對(duì)模型識(shí)別結(jié)果影響不同,為了選擇合適的參數(shù)值,將λ值設(shè)為0,0.1,0.2,…,1,并分別在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),圖4、圖5分別給出了在COCO數(shù)據(jù)集和CargoSorting數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。圖4和圖5都表明,當(dāng)λ取值為0.3時(shí),人體關(guān)鍵姿態(tài)估計(jì)模型的結(jié)果最優(yōu)。
圖4 不同λ值在COCO數(shù)據(jù)集上的結(jié)果
圖5 不同λ值在CargoSorting數(shù)據(jù)集上的結(jié)果
為驗(yàn)證本文方法中注意力模塊和代價(jià)敏感損失模塊的有效性,本文分別在兩個(gè)數(shù)據(jù)集上對(duì)這兩個(gè)模塊做消融實(shí)驗(yàn),結(jié)果見表3和表4。
表3 MSCOCO-val數(shù)據(jù)集消融實(shí)驗(yàn)
表4 Cargo Sorting-測(cè)試集消融實(shí)驗(yàn)
AM-FastPose為單獨(dú)使用注意力機(jī)制模塊,CSL-FastPose為單獨(dú)使用代價(jià)敏感損失模塊。由表3和表4可知,相比于基準(zhǔn)方法,AM-FastPose模型在兩個(gè)數(shù)據(jù)集上的目標(biāo)關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率分別提升了0.5%和0.7%,整體關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率分別提升了1%和1.2%。CSL-FastPose模型在兩個(gè)數(shù)據(jù)集上目標(biāo)關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率分別提升了1%和1%,整體關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率分別提高了0.2%和0.3%。注意力機(jī)制模塊幫助模型從空間和通道兩個(gè)維度關(guān)注更加重要的特征信息,代價(jià)敏感損失模塊幫助模型更好地識(shí)別與特定動(dòng)作相關(guān)的目標(biāo)關(guān)鍵點(diǎn)。本文方法通過(guò)融入空間通道注意力和引入代價(jià)敏感損失,提升了模型對(duì)整體關(guān)鍵點(diǎn)和目標(biāo)關(guān)鍵點(diǎn)的識(shí)別準(zhǔn)確率。
為了直觀解釋本文方法的有效性,在COCO數(shù)據(jù)集上進(jìn)行姿態(tài)估計(jì)的可視化結(jié)果如圖6所示。其中,第一列表示輸入圖像,第二列和第三列分別表示利用FastPose方法和本文方法生成的人體姿態(tài)。為方便對(duì)比,在第一列輸入圖像中,用矩形框標(biāo)注出那些由于擁擠、背景復(fù)雜和人體運(yùn)動(dòng)等導(dǎo)致的四肢關(guān)鍵點(diǎn)不同程度遮擋現(xiàn)象。從圖6可以看出,當(dāng)存在遮擋時(shí),本文方法較之基準(zhǔn)算法,均有更好的表現(xiàn)。
圖6 本文方法和FastPose方法的可視化實(shí)驗(yàn)比較
具體而言,在圖6(a)中,左側(cè)目標(biāo)人體的左肩、左肘和左手腕關(guān)鍵點(diǎn)被遮擋,右側(cè)目標(biāo)人體的下肢被物體遮擋,通過(guò)對(duì)比圖6(b)和圖6(c)可以看出,對(duì)于左側(cè)人體,本文方法能夠預(yù)測(cè)出其被遮擋的左手腕目標(biāo)關(guān)鍵點(diǎn),對(duì)于右側(cè)人體,本文方法能夠完整預(yù)測(cè)出被遮擋的腳踝和臀部關(guān)鍵點(diǎn);圖6(d)是在低分辨率情況下,與圖6(e)對(duì)比可知,本文方法能夠較好預(yù)測(cè)出目標(biāo)人體的左腳踝關(guān)鍵點(diǎn)位置;在圖6(g)中,目標(biāo)人體左手腕位置處的外觀顏色和背景顏色非常相似,容易造成混淆,由圖6(h)和圖6(i)的對(duì)比結(jié)果可知,本文方法仍然能夠較準(zhǔn)確預(yù)測(cè)出目標(biāo)關(guān)鍵點(diǎn)的位置;在圖6(j)中,目標(biāo)人體的膝關(guān)鍵點(diǎn)被遮擋,通過(guò)對(duì)比圖6(k)和圖6(l),本文方法可以預(yù)測(cè)出與腳踝相連的膝關(guān)鍵點(diǎn);在圖6(m)中,目標(biāo)人體由于運(yùn)動(dòng)左手腕產(chǎn)生了自遮擋,圖6(n)和圖6(o)的對(duì)比結(jié)果表明,本文方法可以較好地預(yù)測(cè)出目標(biāo)人體的左手腕關(guān)鍵點(diǎn)。
本文提出了一種融合注意力機(jī)制的人體關(guān)鍵姿態(tài)估計(jì)方法,該方法可以有效提高與特定動(dòng)作相關(guān)的目標(biāo)關(guān)鍵點(diǎn)的識(shí)別準(zhǔn)確率。本文將手腕、手肘、腳踝作為目標(biāo)關(guān)鍵點(diǎn),在特征提取階段融入空間和通道注意力機(jī)制,降低背景等信息的干擾;在上采樣階段融入通道注意力機(jī)制,幫助模型篩選更重要的通道特征??紤]不同關(guān)鍵點(diǎn)的重要程度不同,本文設(shè)計(jì)了一種代價(jià)敏感損失來(lái)提高目標(biāo)關(guān)鍵點(diǎn)的重要性。在兩個(gè)數(shù)據(jù)集上實(shí)驗(yàn),目標(biāo)關(guān)鍵點(diǎn)識(shí)別準(zhǔn)確率分別提高了1.3%和1.5%,表明了本文方法的有效性。如何自動(dòng)選擇更優(yōu)的代價(jià)敏感因子以及在保證模型識(shí)別準(zhǔn)確率的基礎(chǔ)上降低模型復(fù)雜度是下一步工作的重點(diǎn)。