摘" 要: 針對關(guān)鍵點檢測中目標尺度多變以及不同特征適應(yīng)性等難題,為進一步提升現(xiàn)有的姿態(tài)估計方法在實現(xiàn)姿態(tài)估計任務(wù)時的性能,驗證單階段和多階段姿態(tài)估計方法各自的有效性,提出一種基于改進沙漏的攀巖運動關(guān)鍵點檢測算法。首先設(shè)計一個多路池化殘差結(jié)構(gòu),改善由于沙漏網(wǎng)絡(luò)多次上下采樣帶來的信息損失和上下文信息提取不足的局限性,提升淺層特征在關(guān)鍵點檢測中的表現(xiàn);其次在沙漏網(wǎng)絡(luò)中引入沙漏注意力結(jié)構(gòu),通過利用特征映射將輸入信息劃分為不同大小的特征塊序列,在特征編碼和特征解碼兩個過程中,充分挖掘圖像有效信息,使得在特征匹配過程中不僅考慮本身的擬合程度,更考慮到關(guān)節(jié)位置之間的關(guān)聯(lián)信息。實驗表明,提出的算法在公開數(shù)據(jù)集MPII、COCO和針對攀巖運動的數(shù)據(jù)集上表現(xiàn)良好,且算法泛化能力較好,能夠應(yīng)用于多種運動場景中的人體關(guān)鍵點檢測任務(wù)。
關(guān)鍵詞: 沙漏注意力; 關(guān)鍵點檢測; 攀巖運動; 多路池化; 關(guān)聯(lián)信息; 特征編碼; 特征映射
中圖分類號: TN911.73?34; TP391" " " " " " " " "文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2024)17?0117?06
Rock climbing keypoint detection algorithm based on improved hourglass
TAN Guangxing, TANG Tiannan, YI Tong, CHEN Haifeng
(School of Automation, Guangxi University of Science and Technology, Liuzhou 545000, China)
Abstract: In view of the variable target scales and adaptability for different features in keypoint detection, a rock climbing keypoint detection algorithm based on improved hourglass is proposed in order to further improve the performance of the existing attitude estimation methods during the process of achieving attitude estimation tasks and verify the effectiveness of single?stage and multi?stage attitude estimation methods. A multi?channel pooling residual structure is designed to eliminate the information loss caused by multiple up?samplings and down?samplings of the hourglass network and the limitations of insufficient context information extraction, and improve the performance of shallow features in keypoint detection. An hourglass attention structure is introduced into the hourglass network. The input information is divided into feature block sequences of different sizes by feature maps. The effective information of the image is fully exploited in the two processes of feature encoding and feature decoding, so that not only the fitting degree of itself is considered, but also the correlation information between joint positions is considered in the process of feature matching. The experiments show that the proposed algorithm performs well on the public data sets MPII and COCO and the data sets for rock climbing, and the algorithm is of good generalization ability, so it can be applied to the tasks of human keypoint detection in a variety of sports scenes.
Keywords: hourglass attention; keypoint detection; rock climbing; multi?way pooling; association information; feature encoding; feature mapping
0" 引" 言
攀巖運動作為一項曾經(jīng)人類挑戰(zhàn)自身極限的戶外極限運動,隨著愛好者的逐漸增多和競技攀巖運動的不斷發(fā)展,攀巖運動開始由室外運動轉(zhuǎn)為更為安全的室內(nèi)運動。與其他傳統(tǒng)的室內(nèi)運動不同,攀巖運動對運動者的全身素質(zhì)要求全面,由于其獨特的競技性和觀賞性,攀巖運動素有“空中芭蕾”的美譽。
隨著攀巖運動加入更多大型賽事,比賽項目的多樣性和多元性會逐步增加,數(shù)字技術(shù)和電子技術(shù)在攀巖運動中將發(fā)揮更重要的作用,如運用計算機設(shè)備輔助運動員進行訓(xùn)練和評估,通過電子虛擬設(shè)備幫助運動員進行更安全、高難度訓(xùn)練[1?2]。這類通過數(shù)字圖像技術(shù)和電子通信技術(shù)幫助攀巖運動員提高自身運動水平的方法也存在許多挑戰(zhàn):一是針對不同運動員體態(tài)特征和攀巖運動的特殊性難以實現(xiàn)對運動員關(guān)鍵信息的精準捕捉和針對性訓(xùn)練,在速度賽中通常更關(guān)注于速度而非技巧,而在攀石賽中通常更關(guān)注于技巧,難度賽往往需要兼?zhèn)涠鄠€方面[3];二是傳統(tǒng)的穿戴式設(shè)備和電子設(shè)備往往會對運動員帶來一定程度的束縛,從而使運動員產(chǎn)生一定的抵觸心理。針對上述挑戰(zhàn),非穿戴式設(shè)備和電子設(shè)備往往在舒適性和通用性上有很大的改善,對此許多研究員提出了結(jié)合深度卷積網(wǎng)絡(luò)的姿態(tài)估計方法[4?5]。
與早期方法使用基于手工特征的方法不同,結(jié)合深度卷積網(wǎng)絡(luò)的姿態(tài)估計方法,精度高且泛化能力強,具有普適性。目前,應(yīng)用最廣泛的方法大多都是基于從圖像分類領(lǐng)域中遷移過來的深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu),這類方法按照目標任務(wù)可分為單階段和多階段兩類。例如,2016年由何凱明等人提出的ResNet網(wǎng)絡(luò)結(jié)構(gòu)和2017年基于Res?Inception的COCO關(guān)鍵點挑戰(zhàn)的獲勝者均為單階段網(wǎng)絡(luò)結(jié)構(gòu),這類網(wǎng)絡(luò)結(jié)構(gòu)往往在骨干網(wǎng)絡(luò)后添加相應(yīng)上采樣或反卷積以獲得較高的空間分辨率,但隨著目標任務(wù)的不斷變化,簡單增加網(wǎng)絡(luò)深度和容量很難帶來很好的性能提升[6]。
除單階段網(wǎng)絡(luò)結(jié)構(gòu)外,另一類姿態(tài)估計方法是多階段網(wǎng)絡(luò)結(jié)構(gòu)。每個階段都可以算作簡單小型網(wǎng)絡(luò),包括完整的下采樣和上采樣,且每種方法可以是自底向上方式,也可以是自頂向下方式,而對于單階段網(wǎng)絡(luò)結(jié)構(gòu)都是自頂向下方式進行[7]。在這類方法中,每個階段之間的特征圖和熱力圖仍然可以保證不壓縮圖像質(zhì)量,各個階段之間同時監(jiān)督,進而實現(xiàn)端到端的訓(xùn)練。這類方法中最具有典型性的是本文采用的堆疊沙漏網(wǎng)絡(luò)。
從現(xiàn)有的實驗結(jié)果看,多級網(wǎng)絡(luò)結(jié)構(gòu)更適合于姿態(tài)估計任務(wù),它能最大程度地在保留高空間分辨率的同時,使得訓(xùn)練過程更加可視化和靈活。事實上,多級網(wǎng)絡(luò)結(jié)構(gòu)在大中型數(shù)據(jù)集上能得到很好的結(jié)果,而在像MPII、COCO等數(shù)據(jù)量很大的數(shù)據(jù)集上,其精度要低于單級網(wǎng)絡(luò)結(jié)構(gòu)。
為解決上述問題,本文將采集的攀巖運動圖像制作為兩種不同標注類型的數(shù)據(jù)集:一種類型更關(guān)注運動員上半身運動特征;另一種類型更關(guān)注運動員中軸線的運動特征。前者通過觀察運動員頭部注意力和四肢點位,捕捉到運動員在運動情境時完成相應(yīng)動作的運動決策和視覺搜索情況,從而實現(xiàn)針對性技巧訓(xùn)練,這更適合于難度賽和攀石賽;后者通過觀察運動員中軸線的重心和四肢點位,捕捉到運動員在運動情境時完成全部動作的身體規(guī)范和穩(wěn)定程度,從而實現(xiàn)針對性體能訓(xùn)練,更適合于速度賽。本文提出基于改進沙漏的攀巖運動關(guān)鍵點檢測算法,通過提出的算法提升現(xiàn)有多階段姿態(tài)估計算法的性能,同時將算法應(yīng)用于所提出的針對攀巖運動的動作數(shù)據(jù)集中,驗證單階段和多階段姿態(tài)估計算法各自的有效性。
1" 基于改進沙漏的人體關(guān)鍵點檢測網(wǎng)絡(luò)
1.1" 堆疊沙漏網(wǎng)絡(luò)
在多階段網(wǎng)絡(luò)結(jié)構(gòu)中,許多網(wǎng)絡(luò)結(jié)構(gòu)大多只使用最后一層輸出卷積特性作為網(wǎng)絡(luò)的輸出,這往往會造成多層信息在傳輸過程中的信息丟失,為更好捕獲人體關(guān)鍵點不同特征之間的位置和距離等關(guān)系,Newell等人提出了堆疊沙漏網(wǎng)絡(luò)。該網(wǎng)絡(luò)結(jié)構(gòu)以卷積姿態(tài)機(Convolutional Pose Machine, CPM)網(wǎng)絡(luò)為基礎(chǔ),借鑒ResNet殘差網(wǎng)絡(luò)的思想,設(shè)計了一個含有跳躍連接且結(jié)構(gòu)對稱的由多個沙漏網(wǎng)絡(luò)堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu),因其網(wǎng)絡(luò)結(jié)構(gòu)外形似多個沙漏堆疊在一起稱為堆疊沙漏網(wǎng)絡(luò)。該網(wǎng)絡(luò)有多次反復(fù)的上下采樣過程,在計算損失函數(shù)時引入中繼監(jiān)督對單個沙漏模塊單獨進行損失計算,使上一個沙漏模塊的損失對下一個沙漏模塊不構(gòu)成影響,最終生成包括多尺度特征信息的熱力圖,檢測結(jié)果更為準確。但該網(wǎng)絡(luò)結(jié)構(gòu)也存在局限性,如由于多次上采樣采用的插值方法帶來的信息損失和上下文信息提取不足帶來的淺層特征表現(xiàn)較差,從而影響各關(guān)鍵點之間的特征提取結(jié)果。沙漏子網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2" 改進沙漏模塊
針對上述堆疊沙漏網(wǎng)絡(luò)存在的局限性,本文提出含有多路池化的改進殘差模塊。改進殘差模塊在保留原沙漏模塊殘差結(jié)構(gòu)的基礎(chǔ)上新增一條池化路并對原有的卷積路做出調(diào)整,有效地改善原沙漏模塊感受野較小,對淺層結(jié)構(gòu)信息挖掘不足的局限性。該模塊主要由卷積層、池化層、Batchnorm層、ReLU激活層等組成。由于單位映射可能會隨著網(wǎng)絡(luò)深度的加深導(dǎo)致優(yōu)化難度加大等問題的出現(xiàn),用一個1×1卷積層替換殘差結(jié)構(gòu)中由單位映射構(gòu)成的跳級路。新增一條池化路,即圖2中的下路,包括兩個3×3卷積層、一個2×2最大池化層和一個1×1卷積層。同時對中路進行調(diào)整,在原殘差結(jié)構(gòu)的基礎(chǔ)上增加一個2×2最大池化層、一個3×3卷積層和一個1×1卷積層。三條分路分別有不同的任務(wù)分工,上路和中路通過深度卷積和1×1卷積層獲取高分辨率的圖像信息,同時較好地保留圖像原有信息,下路通過擴張?zhí)崛D像時的感受野,捕獲圖像的全局信息,最后將三路輸出進行特征融合后傳遞至下一個模塊,其中每一路的卷積層之間保留了原網(wǎng)絡(luò)的Batchnorm層和ReLU激活層,以防止特征提取過程中出現(xiàn)過擬合的現(xiàn)象。多路池化殘差結(jié)構(gòu)如圖2所示。
1.3" 沙漏注意力模塊
針對堆疊沙漏網(wǎng)絡(luò)存在特征提取不足的缺陷,本文設(shè)計一個沙漏注意力模塊,沙漏注意力結(jié)構(gòu)包括特征編碼和特征解碼兩個過程。特征編碼過程負責(zé)從輸入圖像中提取特征,特征解碼過程負責(zé)將處理完成的特征信息轉(zhuǎn)換為圖像輸出。具體來說,圖像信息經(jīng)過特征編碼后,捕獲到一個[H×W×M]的特征映射,將其劃分為[H×W]個塊,每個塊的大小為[1×1×M],然后將該塊的序列信息輸入到沙漏注意力模塊的第一個子層,記為[E1]階段。隨后,以不同的塊大小重復(fù)4次,分別記為[E2]階段、[E3]階段、[E4]階段和[E5]階段。換言之,在特征編碼的每個階段,首先將輸入特征映射記為[Y∈RH×W×M],依次將[Y]劃分為[H×Wqi]個塊,每個塊的大小為[qi×qi×M],其中[qi]依次為1、2、4、8、16;再將特征塊依次輸入到注意力塊后續(xù)子層中;最終輸出與[Y]大小一致的新特征圖。隨著網(wǎng)絡(luò)深度增加,特征塊數(shù)量減少,特征塊大小增大。
與特征編碼類似,特征解碼可以理解為特征編碼的逆過程,即在特征解碼的[D5]、[D4]、[D3]、[D2]和[D1]五個階段,依次將輸入特征[Y∈RH×W×M]劃分為[H×Wqi]個塊,每個塊大小為[qi×qi×M],其中[qi]依次為16、8、4、2、1。隨后將這些塊輸入到注意塊的后續(xù)子層,得到相應(yīng)的特征映射。同時隨著網(wǎng)絡(luò)深度的增加,特征塊的數(shù)量逐漸增加,特征塊的大小減少。最終按照由特征編碼到特征解碼排列,組合成如圖3所示的沙漏注意力結(jié)構(gòu)。
1.4" 網(wǎng)絡(luò)整體架構(gòu)
圖4為本文設(shè)計網(wǎng)絡(luò)的二階沙漏整體架構(gòu)。在圖像輸入網(wǎng)絡(luò)后,首先使用步長為2的7×7卷積對圖像進行處理,隨后通過多路池化殘差塊和最大池化減小后續(xù)沙漏模塊的內(nèi)部計算量。本文選取8個沙漏級聯(lián)的方式,在保留了原沙漏網(wǎng)絡(luò),下一級沙漏的輸入由上一級沙漏的輸入的前向輸出、上一級沙漏經(jīng)過1×1卷積處理后的輸出和上一級沙漏生成預(yù)測熱圖經(jīng)過1×1卷積處理后的輸出,三者整合后的結(jié)果作為最終下一級沙漏的輸入的基礎(chǔ)上,在兩個沙漏之間引入沙漏注意力模塊,充分提取不同特征之間的關(guān)聯(lián)信息,減少信息損失。最終,輸入圖片經(jīng)過沙漏網(wǎng)絡(luò)后,由1×1卷積整合處理,得到輸出熱圖和預(yù)測結(jié)果。改進堆疊沙漏網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5所示。
1.5" 損失函數(shù)
本文使用損失函數(shù)由均方損失[Lmse]和[L1]損失兩項組成,其表達式如下:
[L=αLmse+βL1] (1)
式中:[α]、[β]為超參數(shù),設(shè)置[α=1],[β=1];均方損失[Lmse]是指預(yù)測值[yi]與目標值[f(xi)]之差的平方和,這類損失函數(shù)具有穩(wěn)定的解,但魯棒性較差。[Lmse]的表達式如下:
[Lmse=1Ni=1N(yi-f(xi))2] (2)
式中[N]為訓(xùn)練樣本的數(shù)量。
[L1]損失是指預(yù)測值[yi]與目標值[f(xi)]之差的絕對值,這類損失可以將預(yù)測值與目標值絕對差值的總和最小化,魯棒性較好。[L1]的表達式如下:
[L1=i=1Nyi-f(xi)] (3)
2" 實驗與分析
本節(jié)將從公開數(shù)據(jù)集和針對攀巖運動的數(shù)據(jù)集對本文算法進行驗證,并將本文算法與其他先進算法在數(shù)據(jù)集上進行實驗對比,同時提供算法實例展示結(jié)果。
2.1" 實驗數(shù)據(jù)集
本文采用面對大規(guī)模姿態(tài)識別任務(wù)適用性良好的MPII數(shù)據(jù)集和面對大規(guī)模任務(wù)更具挑戰(zhàn)的COCO數(shù)據(jù)集對所提出的算法進行驗證,并在針對攀巖運動的數(shù)據(jù)集中進行實例驗證以評估網(wǎng)絡(luò)性能。其中,針對攀巖運動的數(shù)據(jù)集包含2 306張圖像,涵蓋難度賽、速度賽和攀石賽三種不同類型的比賽場景,按照MPII和COCO數(shù)據(jù)的標注格式,定義16個人體關(guān)鍵點和17個人體關(guān)鍵點的兩種標注類型的攀巖數(shù)據(jù)集,兩種標注格式分別關(guān)注人體運動中不同部位的運動表現(xiàn)。本文將數(shù)據(jù)集劃分為兩部分,其中隨機取90%用于訓(xùn)練,剩余用于驗證。
由于所使用數(shù)據(jù)集的不同,本文針對不同數(shù)據(jù)集采用適合的評價方法,對于MPII數(shù)據(jù)集采用PCK作為其評價方法,對于COCO數(shù)據(jù)集采用平均準確率(AP)和平均召回率(AR)作為其評價方法。PCK表示人體關(guān)鍵點正確檢測的比例,AP表示網(wǎng)絡(luò)所檢測到的關(guān)鍵點之間的相似度,其中MPII數(shù)據(jù)集中以頭部長度作為歸一化的參考,COCO數(shù)據(jù)集中針對不同的圖像劃分了不同的歸一化因子,通過引入不同關(guān)鍵點的尺度信息,計算關(guān)鍵點之間的相似度。
2.2" 實驗環(huán)境和參數(shù)設(shè)置
本文訓(xùn)練和測試實驗環(huán)境均在由64位Windows 10系統(tǒng),處理器CPU型號為i7?13700F,顯卡為24 GB顯存的GTX 4090所搭建的實驗平臺下完成,深度學(xué)習(xí)框架使用PyTorch。在訓(xùn)練過程中使用面對大數(shù)據(jù)量表現(xiàn)良好的Adam優(yōu)化算法作為網(wǎng)絡(luò)的優(yōu)化器以更新網(wǎng)絡(luò)參數(shù),初始學(xué)習(xí)率設(shè)為5×[10-4],定義warmup為線性方式預(yù)熱學(xué)習(xí)率,總訓(xùn)練輪數(shù)為210。
2.3" 性能比較
在使用相同數(shù)據(jù)集和實驗環(huán)境條件下,將本文網(wǎng)絡(luò)與Mobilenetv2[8]、Scnet[9]、Litehrnet[10]、Shufflenetv2[11]、RLE[6]、Resnetv1d[12]、Swintransformer[13]、Hrformer網(wǎng)絡(luò)分別在MPII和COCO兩個數(shù)據(jù)集上進行性能比較以驗證其網(wǎng)絡(luò)的可行性和先進性。如表1所示,本文算法在MPII數(shù)據(jù)集所測試的7個部位中,相較其他算法對于各部位的檢測精確度更高,性能表現(xiàn)更優(yōu)異。如表2所示,在COCO數(shù)據(jù)集中,可以看到本文算法在平均準確率AP值上明顯優(yōu)于其他算法,平均召回率AR略低于其他算法。
2.4" 消融實驗
本文算法在MPII數(shù)據(jù)集上進行消融實驗,實驗結(jié)果如表3所示。
從實驗結(jié)果可以看到沙漏網(wǎng)絡(luò)再加入兩個模塊后精度均有不同程度的提升,對于各部位的檢測精度提升明顯。兩個模塊的加入使得網(wǎng)絡(luò)能夠?qū)W習(xí)到充分的特征信息,并改善了沙漏塊之間信息傳遞時易出現(xiàn)的信息損失問題。由此可得出結(jié)論,本文所提出的兩個模塊對于原沙漏網(wǎng)絡(luò)中肘部、手腕、臀部、腳踝四個檢測較為困難的關(guān)節(jié)點有了針對性提升。
2.5" 實例展示
為了更好演示本文算法在各種場景中的性能,對單人場景、多人場景和攀巖運動場景下檢測結(jié)果進行實例展示,如圖6所示。
在單人和多人場景中本文算法可以準確檢測到場景中運動員的位置和關(guān)鍵點信息。在攀巖運動場景下,選取三種賽事對應(yīng)實例進行展示,可以發(fā)現(xiàn)對于攀巖的三類賽事,在難度賽和攀石賽這兩類技巧性較強的比賽中,本文算法能較好地檢測到運動員的特征關(guān)鍵點,通過對特征關(guān)鍵點的識別,可以供訓(xùn)練員更好地對運動員的運動決策和視覺搜索方面作針對性訓(xùn)練。在速度賽這類完成時間較短且容易出現(xiàn)圖像模糊的比賽中均能較好地完成該場景下的檢測任務(wù)。
3" 結(jié)" 語
本文分析了堆疊沙漏網(wǎng)絡(luò)存在的一些局限性,針對這些局限性設(shè)計改進殘差結(jié)構(gòu)和關(guān)聯(lián)沙漏結(jié)構(gòu)。通過引入兩種結(jié)構(gòu),較好地改善原網(wǎng)絡(luò)對淺層信息提取不足和信息丟失的局限性。同時,本文將改進網(wǎng)絡(luò)與攀巖運動這項日漸火熱的競技體育運動相結(jié)合,通過與數(shù)字圖像技術(shù)結(jié)合,更好地推動該運動的發(fā)展。實驗結(jié)果表明:本文算法在MPII數(shù)據(jù)集中各部位關(guān)鍵點檢測效果優(yōu)于其他算法,并針對4個檢測較為困難的關(guān)鍵點檢測精度有所提升。在COCO這類大型數(shù)據(jù)集中檢測準確率穩(wěn)定,同時在針對攀巖運動的數(shù)據(jù)集中能準確識別運動員的位置和身體關(guān)鍵點信息。本研究為更多體育運動與數(shù)字圖像技術(shù)結(jié)合提供參考。
注:本文通訊作者為唐天南。
參考文獻
[1] 曹榮武.競技攀巖運動的發(fā)展與趨勢[J].健與美,2024(1):136?138.
[2] 楊坤宇,謝林,段田雨,等.國內(nèi)外攀巖運動現(xiàn)狀研究現(xiàn)狀、熱點與趨勢[C]//第十三屆全國體育科學(xué)大會論文摘要集——墻報交流(體育社會科學(xué)分會).北京:中國體育科學(xué)學(xué)會,2023:971?973.
[3] 曹海輝.淺析競技攀巖運動線路分析誤區(qū)及原則[J].當代體育科技,2020,10(31):240?242.
[4] SUN K, XIAO B, LIU D, et al. Deep high?resolution representation learning for human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 5693?5703.
[5] KREISS S, BERTONI L, ALAHI A. PifPaf: Composite fields for human pose estimation [C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 11977?11986.
[6] LI J F, BIAN S Y, ZENG A L, et al. Human pose regression with residual log?likelihood estimation [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 11005?11014.
[7] ZHANG H, WU C R, ZHANG Z Y, et al. ResNeSt: Split?attention networks [C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). New York: IEEE, 2022: 2735?2745.
[8] SANDLER M, HOWARD A G, ZHU M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 4510?4520.
[9] LIU J J, HOU Q B, CHENG M M, et al. Improving convolutional networks with self?calibrated convolutions [C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2020: 10093?10102.
[10] YU C Q, XIAO B, GAO C X, et al. Lite?HRNet: A lightweight high?resolution network [C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 10440?10450.
[11] ZHANG X Y, ZHOU X Y, LIN M X, et al. ShuffleNet: An extremely efficient convolutional neural network for mobile devices [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6848?6856.
[12] HE T, ZHANG Z, ZHANG H, et al. Bag of tricks for image classification with convolutional neural networks [C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2019: 558?567.
[13] LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows [C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE, 2021: 9992?10002.