亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于超列注意力機(jī)制的京劇人物識(shí)別

        2021-04-20 14:06:56羅一凡呂偉龍
        計(jì)算機(jī)應(yīng)用 2021年4期
        關(guān)鍵詞:臉譜復(fù)雜度類(lèi)別

        覃 俊,羅一凡,帖 軍*,鄭 祿,呂偉龍

        (1.中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,武漢 430074;2.湖北省制造企業(yè)智能管理工程技術(shù)研究中心(中南民族大學(xué)),武漢 430074;3.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094)

        0 引言

        京劇被譽(yù)為“國(guó)粹”,在中國(guó)五大戲曲劇種中的地位尤為突出。它是一種將文學(xué)、音樂(lè)伴奏、表演藝術(shù)聚合在一起的舞臺(tái)藝術(shù)表演形式,其最大的特點(diǎn)是綜合性。京劇的視覺(jué)效果是其最具有影響力的特征之一。京劇圖像識(shí)別任務(wù)發(fā)展時(shí)間較短,2011年,由浙江大學(xué)的蔡飛龍[1]首次提出利用計(jì)算機(jī)技術(shù)對(duì)“臉譜”這一特征進(jìn)行數(shù)字化建模,通過(guò)建立京劇臉譜矢量紋樣庫(kù)、矢量化臉譜、觀察臉譜表情動(dòng)畫(huà)、繪制三維臉譜等輔助設(shè)計(jì)和展示方式來(lái)促進(jìn)對(duì)臉譜的保護(hù)和研究。2012 年,山東大學(xué)的原娜[2]提出一種通過(guò)Bezier曲線(xiàn)擬合、外觀匹配跟蹤模型(Active Appearance Model,AAM)、圖像變形等技術(shù)來(lái)實(shí)現(xiàn)對(duì)視頻中不同人臉繪制相應(yīng)京劇臉譜的任務(wù)。2017 年,北京工業(yè)大學(xué)的賈曉琪[3]和張朋[4]分別對(duì)“京劇臉譜”投影任務(wù)以及“京劇臉譜”圖像識(shí)別任務(wù)展開(kāi)了深入研究,前者通過(guò)改進(jìn)人臉特征點(diǎn)檢測(cè)算法以及人臉追蹤技術(shù)獲取面部特征及輪廓定位,實(shí)現(xiàn)了預(yù)測(cè)追蹤以達(dá)到將臉譜圖片投影到預(yù)測(cè)的臉部,有效地解決了臉譜和臉部的融合問(wèn)題;后者通過(guò)尺度不變特征變化(Scale-Invariant Feature Transform,SIFT)方法、支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)識(shí)別等方法實(shí)現(xiàn)了對(duì)京劇臉譜的自動(dòng)識(shí)別。2020 年,郝占軍等[5]以京劇動(dòng)作為研究對(duì)象,提出了一種基于信道狀態(tài)信息的非接觸式京劇人員動(dòng)作識(shí)別方法。以上所有在京劇視覺(jué)領(lǐng)域的計(jì)算機(jī)應(yīng)用研究工作,集中針對(duì)京劇臉譜特征以及京劇動(dòng)作特征展開(kāi)。而包括衣、蚾、蟒、靠、褶、靴、盔等在內(nèi)的京劇服飾特征目前只限于文學(xué)界的研究[6-9],而少有與計(jì)算機(jī)的跨學(xué)科研究。所以本文將結(jié)合京劇的臉譜、服飾等多種視覺(jué)特征,對(duì)京劇人物的圖像分類(lèi)問(wèn)題展開(kāi)研究。

        圖像分類(lèi)任務(wù)是計(jì)算機(jī)視覺(jué)中最基礎(chǔ)的任務(wù),主要是通過(guò)圖像信息中反映的不同特征來(lái)對(duì)目標(biāo)進(jìn)行類(lèi)別劃分。1998年,Lecun 等[10]提出的Lenet-5 將反向傳播(Back Propagation,BP)算法運(yùn)用到了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上,開(kāi)啟了現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的篇章。然而,原始的CNN 效果并不理想,直到2012 年后才進(jìn)入飛速發(fā)展期。Krizhevsky 等[11]提出AlexNet 引入了全新的深層結(jié)構(gòu)和Dropout 方法,大幅提高了準(zhǔn)確率。隨后幾年,相關(guān)領(lǐng)域如雨后春筍般發(fā)展。Simonyan 等[12]提出的深層網(wǎng)絡(luò)(Visual Geometry Group,VGG)采用更小的卷積核和更深層次的網(wǎng)絡(luò);He等[13]提出ResNet采用超深層次網(wǎng)絡(luò)以及倒殘差結(jié)構(gòu)解決梯度消失問(wèn)題;Howard 等[14]提出MobileNet 系列采用深度可分離卷積和倒殘差結(jié)構(gòu)大量減少內(nèi)存占用。然而以上這些網(wǎng)絡(luò)主要致力于普通分類(lèi)任務(wù)(粗粒度)的學(xué)習(xí),并不適應(yīng)于京劇人物的還需更細(xì)粒度劃分的分類(lèi)任務(wù)。

        細(xì)粒度圖像是對(duì)粗粒度圖像更進(jìn)一步的劃分,由于子類(lèi)別間細(xì)微的差別以及較大的類(lèi)內(nèi)差異,相較于粗粒度分類(lèi)任務(wù)而言,挑戰(zhàn)性更高。現(xiàn)今相關(guān)研究主要分為基于強(qiáng)監(jiān)督信息和基于弱監(jiān)督信息的細(xì)粒度圖像分類(lèi)研究。強(qiáng)監(jiān)督學(xué)習(xí)如Zhang 等[15]提出的基于候選區(qū)域的CNN(Region CNN,R-CNN)、Branson 等[16]提出的可變型區(qū)域模型(Deformable Part Model,DPM)算法、Wei 等[17]提出的Mask-CNN,應(yīng)用于物體級(jí)別和局部區(qū)域的檢測(cè)效果顯著,但均需要借助大量費(fèi)時(shí)費(fèi)力的人工標(biāo)注工作,所以弱監(jiān)督機(jī)制成為了細(xì)粒度圖像研究的主要方向。Lin 等[18]提出的Bilinear-CNN,使用兩組卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征抽取,再通過(guò)bilinear pool 函數(shù)將提取到的類(lèi)別特征和位置特征融合。Fu 等[19]提出的基于循環(huán)軟性注意力機(jī)制的RA-CNN(Recurrent Attention CNN)模型,通過(guò)注意力機(jī)制聚焦關(guān)鍵區(qū)域從而大幅提升細(xì)粒度特征的識(shí)別效果,在弱監(jiān)督機(jī)制的研究中最為優(yōu)秀,然而該網(wǎng)絡(luò)在特征提取的過(guò)程中,由于空間特征的逐漸弱化、類(lèi)別語(yǔ)義特征的不斷增強(qiáng),不同階段的特征圖會(huì)呈現(xiàn)出較大的特征差異,使得在使用RA-CNN 模型的注意力機(jī)制方法APN(Attention Proposal Network)時(shí),后期因?yàn)閬G失空間信息而產(chǎn)生細(xì)粒度特征區(qū)域定位不夠準(zhǔn)確的問(wèn)題。Sun 等[20]提出的門(mén)控網(wǎng)絡(luò)結(jié)構(gòu)以及霍煜豪等[21]提出的尺度依賴(lài)池化(Scale Dependent Pooling,SDP)算法采用了特征融合的思路,能兼顧RA-CNN 模型中部分丟失的特征,但仍存在部分的重要特征丟失的問(wèn)題。

        為了更好地兼顧RA-CNN 模型特征圖層的特征,本文提出了基于輕量級(jí)網(wǎng)絡(luò)MobileNetV2 的HCA-CNN(CNN based on HyperColumn and Attention mechanism)模型,模型采用超列[22](HyperColumn)特征,利用其基于像素點(diǎn)串聯(lián)多層特征圖的特點(diǎn),能夠更好地兼顧早期的空間特征與后期的類(lèi)別語(yǔ)義特征。除此之外,模型將該超列集作為特征用于注意力子網(wǎng)絡(luò)HC-APN 的定位任務(wù),以達(dá)到擴(kuò)大京劇細(xì)粒度特征在圖像中占比的目的,從而提升定位關(guān)鍵區(qū)域的準(zhǔn)確度,實(shí)現(xiàn)更準(zhǔn)確地分類(lèi)。

        1 京劇人物圖像特征

        1.1 空間特征

        在RA-CNN 模型中提到,空間特征有助于細(xì)粒度圖像的識(shí)別,并希望在未來(lái)對(duì)此特征有更多的處理和研究。因此京劇圖像特征提取階段存在的大量空間特征值得深入研究。本文通過(guò)可視化特征提取階段的中間層特征圖信息來(lái)展示京劇人物圖像特征。圖1 以圖像輸入為例,展示了其經(jīng)過(guò)MobileNetV2 網(wǎng)絡(luò)的不同特征提取階段時(shí)的特征圖特征強(qiáng)弱信息。可以通過(guò)不同顏色強(qiáng)弱漸變特征得出:越接近圖片輸入層的底層,類(lèi)別特征越弱,空間特征越強(qiáng);越接近輸出層(classifier)的高層,類(lèi)別信息越強(qiáng),空間特征越弱。

        圖1 網(wǎng)絡(luò)各層類(lèi)別和空間特征對(duì)比Fig.1 Comparison of category features and spatial features of different network layers

        通過(guò)可視化結(jié)果進(jìn)一步對(duì)MobileNetV2 分類(lèi)網(wǎng)絡(luò)的中間層部分特征圖進(jìn)行了展示,如圖2所示:圖2(a)代表最底層的特征圖,可以看出有明顯的輪廓特征;圖2(b)、(c)代表了中間階段的特征圖,輪廓特征效果減弱;圖2(d)代表了較高層特征圖,輪廓等特征已消失。

        圖2 中間層特征矩陣可視化信息展示Fig.2 Visual information display of intermediate layer feature matrix

        在特征提取的過(guò)程中,為了滿(mǎn)足分類(lèi)任務(wù),京劇行當(dāng)類(lèi)別的語(yǔ)義信息會(huì)不斷增強(qiáng),而空間特征(包括人物姿態(tài)、肢體的關(guān)節(jié),舞臺(tái)燈光強(qiáng)弱和所在舞臺(tái)位置等)會(huì)被減弱。

        1.2 基于超列集的串聯(lián)特征

        根據(jù)1.1 節(jié)可知,在卷積神經(jīng)網(wǎng)絡(luò)特征提取過(guò)程中,由于空間特征的逐漸弱化、類(lèi)別語(yǔ)義特征的不斷增強(qiáng),不同階段的特征圖呈現(xiàn)出較大的特征差異。

        如圖3 所示,展示了輸入圖像經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)特征提取后不同階段的特征圖情況,可以引入“超列”的概念將各層特征圖關(guān)聯(lián)起來(lái),針對(duì)輸入京劇圖像的某一像素點(diǎn)i,將特征提取過(guò)程中此像素在各層特征圖中對(duì)應(yīng)的位置串聯(lián)起來(lái),組合成一個(gè)特征向量f,這個(gè)特征向量就是輸入的京劇圖像某一像素點(diǎn)位置i對(duì)應(yīng)的超列特征:

        圖3 基于像素點(diǎn)的超列特征Fig.3 HyperColumn feature based on pixel point

        由圖4 可知,在訓(xùn)練步數(shù)達(dá)到100 時(shí),未加入超列特征的平均定位損失遠(yuǎn)大于加入了超列特征的,且通過(guò)二者結(jié)果圖示可以明顯觀察到加入超列特征后的顯著提升效果。

        可以得到結(jié)論,加入超列特征后的定位網(wǎng)絡(luò)減少了定位損失,提高了細(xì)粒度關(guān)鍵特征區(qū)域的準(zhǔn)確度。

        圖4 超列集定位效果展示Fig.4 HyperColumn set positioning effect display

        2 基于超列注意力機(jī)制的京劇人物模型

        針對(duì)京劇人物圖像研究提出的HCA-CNN,結(jié)構(gòu)如圖5 所示,由三層層級(jí)結(jié)構(gòu)迭代而成,各層網(wǎng)絡(luò)結(jié)構(gòu)相同,每一層的部分特征會(huì)作為下一層的輸入信息。京劇圖像input image0輸入至HCA-CNN 中首先經(jīng)過(guò)MobileNetV2 分類(lèi)網(wǎng)絡(luò)中包括ConvBNReLU、Bottleneck 等一系列特征提取操作:一方面將特征提取操作得到的最后一層特征圖信息輸入至分類(lèi)器中用于當(dāng)前層的分類(lèi)任務(wù),通過(guò)avgpool、softmax 等方法得到圖像的類(lèi)別特征結(jié)果(Feature Result0),從而計(jì)算出當(dāng)前的類(lèi)別損失函數(shù)Lcls0,表示第一層的類(lèi)別損失;另一方面將部分中間層的特征圖進(jìn)行基于像素點(diǎn)的疊加形成超列集(HyperColumn Set)并輸入至子網(wǎng)絡(luò)HC-APN中,HC-APN會(huì)對(duì)得到的超列集特征進(jìn)行下采樣、全連接操作提取關(guān)鍵區(qū)域參數(shù)(tx,ty,tl)。關(guān)鍵區(qū)域參數(shù)將用于對(duì)原圖像input image0 通過(guò)雙線(xiàn)性插值方法(bilinear interpolation)進(jìn)行關(guān)鍵區(qū)域圖像放大任務(wù),放大后得到的新圖像input image1將輸入至下一層繼續(xù)進(jìn)行分類(lèi)任務(wù),得到這一層的圖像類(lèi)別特征結(jié)果(Feature Result1),從而計(jì)算出當(dāng)前的類(lèi)別損失函數(shù)Lcls1,表示第二層的類(lèi)別損失;并且通過(guò)Feature Result0 和Feature Result1 可以計(jì)算出兩層之間產(chǎn)生的范圍損失Lrank0,表示第一層與第二層間的范圍損失;類(lèi)別損失Lcls和范圍損失Lrank將用于網(wǎng)絡(luò)的訓(xùn)練;如此多次遞歸,實(shí)現(xiàn)細(xì)粒度特征更精細(xì)化的研究。

        2.1 分類(lèi)模型輕量化

        考慮到京劇人物識(shí)別任務(wù)在視頻應(yīng)用場(chǎng)景下的實(shí)時(shí)性需求,本文將擁有較少參數(shù)量和較高運(yùn)算效率的MobileNetV2網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。如圖6所示,組成結(jié)構(gòu)類(lèi)似于VGG16,但在減少內(nèi)存占用、降低模型復(fù)雜度等方面更優(yōu)。本文的HCACNN模型使用MobileNetV2網(wǎng)絡(luò),采用Conv2d、Bottleneck結(jié)構(gòu)堆疊,利用Conv2d 結(jié)構(gòu)深度可分離卷積的特征和Bottleneck結(jié)構(gòu)的倒殘差特征(Inverted residual block)。

        深度可分離卷積由深度卷積和逐點(diǎn)卷積兩部分完成卷積操作。輸入一張224×224 像素、3 通道的彩色京劇人物圖片,會(huì)經(jīng)過(guò)深度卷積進(jìn)行第一次卷積運(yùn)算,其中卷積操作的卷積核通道數(shù)等于輸入特征矩陣的通道數(shù),輸入的RGB 彩色圖像經(jīng)過(guò)運(yùn)算后生成3 層特征圖,即深度卷積完成后的特征圖數(shù)量與輸入層的通道數(shù)相同,展現(xiàn)了深度卷積只對(duì)輸入層每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算特點(diǎn)。針對(duì)深度卷積的特點(diǎn),采用了逐點(diǎn)卷積配合的方式,逐點(diǎn)卷積有效地利用不同通道在相同空間位置上的特征信息,將特征圖進(jìn)行組合后生成新的特征圖,其運(yùn)算過(guò)程與常規(guī)卷積運(yùn)算相似,卷積核的尺寸為1×1×M(M為上一層的通道數(shù))。所以這里的卷積運(yùn)算會(huì)將上一步的特征圖在深度方向上進(jìn)行加權(quán)組合,生成新的特征圖,有幾個(gè)卷積核就有幾個(gè)輸出特征圖。最終通過(guò)輸入特征矩陣的寬和高以及通道數(shù)、卷積核大小、輸出特征矩陣的通道數(shù)等參數(shù)可以計(jì)算出,深度可分離卷積的參數(shù)量?jī)H為普通卷積的1/9,充分體現(xiàn)了輕量化的效果。

        Bottleneck 結(jié)構(gòu)的倒殘差特征在ResNet 網(wǎng)絡(luò)的殘差結(jié)構(gòu)(Residual block)基礎(chǔ)上進(jìn)行了優(yōu)化改進(jìn)。殘差結(jié)構(gòu)包括了用于降維的1×1卷積核、中間層的3×3卷積和用于升維的1×1卷積核,而倒殘差結(jié)構(gòu)是先通過(guò)1×1 的卷積升維,經(jīng)過(guò)3×3 卷積,再通過(guò)1×1卷積降維的順序,呈現(xiàn)出“兩頭小中間大”的結(jié)構(gòu),增強(qiáng)了梯度的傳播,并顯著減少了所需的內(nèi)存占用。

        網(wǎng)絡(luò)對(duì)提取到的特征圖集進(jìn)行Task1 和Task2 的多任務(wù)學(xué)習(xí),其中Task1表示整合用于HC-APN的超列集,Task2表示學(xué)習(xí)用于分類(lèi)任務(wù)的最后一層的特征圖。

        圖5 HCA-CNN結(jié)構(gòu)Fig.5 HCA-CNN structure

        圖6 中間層特征融合階段展示Fig.6 Display of intermediate layer feature fusion stage

        2.2 注意力模型優(yōu)化

        2.2.1 超列特征預(yù)處理

        在分類(lèi)模型Task1 中,各層的特征圖大小與原始京劇圖像大小不同,在對(duì)特征圖與原始京劇圖像進(jìn)行基于像素單位的疊加前,需要先進(jìn)行一次上采樣方法。在上采樣任務(wù)中,任一點(diǎn)P=(x,y)代表上采樣后插入的點(diǎn),原圖像中存在Q11=(x1,y1)、Q12=(x1,y2)、Q21=(x2,y1)、Q22=(x2,y2)四個(gè)像素點(diǎn)值,有R1=(x,y1)、R2=(x,y2)。想要得到P點(diǎn)的值f,需在x方向先進(jìn)行線(xiàn)性插值:

        接著在y方向進(jìn)行線(xiàn)性插值:

        對(duì)各層的特征圖進(jìn)行上采樣操作后,即可進(jìn)行疊加。由于輸入圖像尺寸固定設(shè)置為224×224 大小,所以超列集也是由224×224個(gè)像素點(diǎn)i的超列組成。

        2.2.2 注意力模型與圖像放大模型

        1)注意力模型。

        由于RA-CNN 的子網(wǎng)絡(luò)APN 只采用了主網(wǎng)絡(luò)VGG 的最后一層特征圖作為輸入特征,丟失了前期過(guò)程的空間特征。本文根據(jù)輸入特征的改變,在APN 基礎(chǔ)上進(jìn)行了改進(jìn),提出新的注意力機(jī)制子網(wǎng)絡(luò)HC-APN。

        HC-APN 由224×224×2 024 大小的超列集輸入特征、5 次下采樣(3×3 conv&2×2 pooling)以及2 次全連接操作的結(jié)構(gòu)組成,如圖7所示。

        圖7 HC-APN結(jié)構(gòu)Fig.7 HC-APN structure

        224×224×2 024 大小的特征輸入至HC-APN 子網(wǎng)絡(luò),首先下采樣為7×7×2 024 大小;接著執(zhí)行兩次全連接操作,第一次將特征扁平化為1×1×16 192大小,第二次變?yōu)?×1×3大?。ㄍǖ罃?shù)3代表了用于關(guān)鍵區(qū)域定位的三個(gè)參數(shù)tx、ty、tl。

        三個(gè)參數(shù)用于HC-APN定位注意力關(guān)鍵區(qū)域,(tx,ty)表示區(qū)域的中心坐標(biāo)點(diǎn),tl表示正方形區(qū)域邊長(zhǎng)的一半,得到目標(biāo)區(qū)域的左上角及右下角坐標(biāo)為:

        2)圖像放大模型。

        確定坐標(biāo)關(guān)系后,通過(guò)Mask和輸入圖像X做元素相乘(⊙)的方法得到裁剪后的區(qū)域:

        Mask函數(shù)可以挑選出正向傳播中最重要的區(qū)域,由于連續(xù)函數(shù)的特性,易于在反向傳播中進(jìn)行優(yōu)化:

        當(dāng)-kx趨于正無(wú)窮時(shí),分母同樣趨于正無(wú)窮,此時(shí)h(x)趨于0;當(dāng)-kx趨于負(fù)無(wú)窮,分母的后一半趨于0,這樣整個(gè)分母趨于1,h(x)趨于1。tx(tl)≤x≤tx(br),h(x-tx(tl))-h(x-tx(br))的值趨于1,y軸同理。

        所以只有當(dāng)x介于tx(tl)和tx(br)之間,y介于ty(tl)和ty(br)之間(即像素點(diǎn)落在關(guān)鍵區(qū)域),Mask趨于1,其他情況均趨于0。

        接著采用雙線(xiàn)性插值的方法對(duì)確定的目標(biāo)區(qū)域進(jìn)行區(qū)域放大,計(jì)算過(guò)程如下所示:

        其中:m=[i/λ]+α;n=[j/λ]+β;λ=S/tl;(m,n)表示原來(lái)未放大attention區(qū)域的任一點(diǎn);(i,j)表示圖像放大后(m,n)的對(duì)應(yīng)值,它們的關(guān)系由雙線(xiàn)性插值因子決定;λ、α、β設(shè)為0;S表示放大尺寸;[·]和{·}分別表示取整數(shù)部分和小數(shù)部分。

        2.3 聯(lián)合損失計(jì)算

        聯(lián)合損失函數(shù)包含Lcls、Lrank兩部分,其中類(lèi)別損失Lcls包含三層分類(lèi)網(wǎng)絡(luò)預(yù)測(cè)京劇人物類(lèi)別相對(duì)于真實(shí)類(lèi)別標(biāo)簽產(chǎn)生的損失;Lrank表示前后兩層中高層識(shí)別率低于低層情況時(shí)產(chǎn)生的損失,聯(lián)合損失采用兩種損失函數(shù)交替訓(xùn)練的方法,有聯(lián)合損失函數(shù)計(jì)算公式:

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 BJOR數(shù)據(jù)集

        由于缺乏相關(guān)京劇人物特征數(shù)據(jù)集,本研究根據(jù)京劇人物之間視覺(jué)特征的差異,制作了面向京劇人物識(shí)別任務(wù)的BJOR(BeiJing Opera Role)數(shù)據(jù)集。

        1)采集過(guò)程。

        a)視頻收集整理:通過(guò)多方渠道獲取高清京劇視頻錄像315部,并根據(jù)經(jīng)典劇目類(lèi)別進(jìn)行整理分類(lèi)。

        b)圖像截?。翰捎每刂谱兞糠ㄔO(shè)定不同視頻幀進(jìn)行圖像截取,所得圖片集中圖像像素值均大于224×224,有利于輸入網(wǎng)絡(luò)前的數(shù)據(jù)集預(yù)處理操作。

        c)篩選分類(lèi)數(shù)據(jù)集:對(duì)圖像截取方法獲得的273 100張隨機(jī)圖片進(jìn)行人工篩選,篩選出包含單個(gè)京劇人物目標(biāo)內(nèi)容的圖片40 000張,對(duì)應(yīng)8種類(lèi)別,各類(lèi)別5 000張。

        2)數(shù)據(jù)集分類(lèi)。

        京劇人物的分類(lèi)行內(nèi)術(shù)語(yǔ)——“行當(dāng)”,是根據(jù)人物的年齡、性別、性格等特征進(jìn)行的劃分。通過(guò)參考京劇行當(dāng)相關(guān)語(yǔ)料庫(kù)研究[23-24],最終設(shè)定其中具有代表性的8種行當(dāng)作為類(lèi)別標(biāo)簽,如圖8 所示,設(shè)定基本類(lèi)別標(biāo)簽包括:老生(LaoSheng)、武生(WuSheng)、小生(XiaoSheng)、正旦(ZhengDan)、花旦(HuaDan)、老旦(LaoDan)、凈角(JingJue)、丑角(ChouJue)。

        圖8 BJOR數(shù)據(jù)集類(lèi)別展示Fig.8 BJOR dataset category display

        3)特征描述。

        通過(guò)參考京劇服裝圖譜等[25-26]相關(guān)資料,本次研究采用頭飾(Headwear)、臉譜(Face)、髯口(Beard)、服飾(Clothes)、袖子(Sleeve)、腰帶(Belt)等部位對(duì)行當(dāng)(Type)進(jìn)行特征區(qū)分,如圖9所示。

        選取其中部分特征進(jìn)行介紹:

        a)老生:髯口特征呈多樣化,顏色黑、蒼、白色,形狀三髯、滿(mǎn)髯;臉譜表現(xiàn)為包括“通天”(印堂處的修飾妝)在內(nèi)的整體妝容呈現(xiàn)淺淡特征。

        b)小生:髯口特征為無(wú)髯口,可觀察到嘴形;臉譜特征表現(xiàn)為整體妝容濃厚、通天較細(xì)、唇部呈深紅色。

        c)武生:髯口特征表現(xiàn)為無(wú)髯口,可觀察到嘴形;臉譜特征表現(xiàn)為通天明顯、唇部紅色度較深;服飾特征多表現(xiàn)為白色長(zhǎng)靠(一種穿著方便的緊身衣服),繡有“單龍戲珠”圖案。

        d)正旦:臉譜特征表現(xiàn)為妝容濃厚;頭飾特征多表現(xiàn)為穿戴銀泡;袖子特征表現(xiàn)為有水袖。

        e)花旦:服飾特征多表現(xiàn)為著飯單和襖裙;頭飾特征多表現(xiàn)為穿戴亮頭面、水鉆;袖子特征表現(xiàn)為無(wú)水袖;除此之外“手絹”也是其特別標(biāo)識(shí)特征。

        f)老旦:臉譜特征表現(xiàn)為妝容較淺;服飾特征多表現(xiàn)為著黃色、灰白色、深綠色褶子(一種便服);除此之外“拐杖”也是其特別標(biāo)識(shí)特征。

        g)凈角:髯口特征常表現(xiàn)為滿(mǎn)髯;臉譜特征表現(xiàn)為濃厚的臉譜妝,包括了特有的“整臉”“三塊瓦臉”“花三塊瓦臉”和“碎臉”等多種類(lèi)別。

        h)丑角:臉譜特征表現(xiàn)為鼻梁處抹有一塊白粉;文丑髯口特征表現(xiàn)為“丑三髯”、袖子特征為有水袖,武丑髯口特征表現(xiàn)為無(wú)髯口、袖子特征為無(wú)水袖。

        圖9 類(lèi)別特征展示Fig.9 Category feature display

        3.2 實(shí)驗(yàn)指標(biāo)

        1)準(zhǔn)確率。通過(guò)Top1_Accuracy、Top5_Accuracy 指標(biāo)檢測(cè)模型識(shí)別效果。

        Top1_Accuracy 表示預(yù)測(cè)類(lèi)別標(biāo)簽取概率向量里面最大的作為預(yù)測(cè)結(jié)果,若預(yù)測(cè)結(jié)果中概率最大的分類(lèi)正確,則預(yù)測(cè)正確;否則預(yù)測(cè)錯(cuò)誤。其中:TP代表將正類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量;FP代表將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)量,可稱(chēng)為誤報(bào)率;FN代表將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量,可稱(chēng)為漏報(bào)率;TN代表將負(fù)類(lèi)預(yù)測(cè)為負(fù)類(lèi)的數(shù)量。

        Top5_Accuracy 表示概率向量最大的前五名中,若出現(xiàn)正確概率即為預(yù)測(cè)正確,否則預(yù)測(cè)錯(cuò)誤。

        2)復(fù)雜度。本研究采用一系列指標(biāo)來(lái)評(píng)估網(wǎng)絡(luò)的復(fù)雜度,其中時(shí)間復(fù)雜度評(píng)估指標(biāo)包括每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs),空間復(fù)雜度評(píng)估指標(biāo)包括內(nèi)存使用量(Memory Usage)、參數(shù)量(Params)以及乘加次數(shù)(Mult Adds)。

        時(shí)間復(fù)雜度決定了模型的訓(xùn)練和預(yù)測(cè)時(shí)間,空間復(fù)雜度決定了模型的參數(shù)量以及訪存量,其中參數(shù)量表示模型所有帶參數(shù)的權(quán)重參數(shù)總量。卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜度與卷積核輸出的特征圖大小M息息相關(guān)。整體時(shí)間復(fù)雜度計(jì)算公式為:

        其中:X表示輸入矩陣尺寸;K表示卷積核大?。籔adding表示填充值;Stride表示步長(zhǎng)。

        表1 統(tǒng)計(jì)了各類(lèi)型網(wǎng)絡(luò)對(duì)應(yīng)指標(biāo)情況。對(duì)比RA-CNN(VGG16+APN),MobileNetV2 網(wǎng)絡(luò)的引入大幅度降低了復(fù)雜度。MobileNetV2 代替VGG16 結(jié)合注意力網(wǎng)絡(luò)APN 同樣也減少了參數(shù)量,減小了網(wǎng)絡(luò)的規(guī)模。HCA-CNN 相較于同類(lèi)型網(wǎng)絡(luò)RA-CNN 而言,在Memory Usage、Params、Mult-Adds、FLOPs等復(fù)雜度指標(biāo)上分別減少了162.84 MB、131.5 MB、39 885×106、51 886×106,然而由于MobileNetV2 的特性原因,在縮小模型結(jié)構(gòu)的同時(shí),識(shí)別準(zhǔn)確率會(huì)有一定下降。

        表1 消融實(shí)驗(yàn)復(fù)雜度指標(biāo)對(duì)比Tab.1 Comparison of complexity indexes in ablation experiment

        為了解決識(shí)別準(zhǔn)確率下降的問(wèn)題,提出的基于超列特征的HCA-CNN[MobileNetV2+(HC-APN)],相較于(MobileNetV2+APN)組合,在增加少量參數(shù)的情況下大幅提高了準(zhǔn)確率;相較于RA-CNN(VGG16+APN)組合,大幅減少了參數(shù)量的同時(shí)提高了準(zhǔn)確率。

        3.3 實(shí)驗(yàn)結(jié)果

        模型訓(xùn)練主要包括數(shù)據(jù)預(yù)處理、訓(xùn)練集訓(xùn)練交替損失L(X)、隨機(jī)梯度下降方法更新網(wǎng)絡(luò)權(quán)重、驗(yàn)證集測(cè)試網(wǎng)絡(luò)效果。

        圖像分為訓(xùn)練集(Training Data)和驗(yàn)證集(Validate Data),對(duì)PIL Image 和Tensor 兩種狀態(tài)進(jìn)行預(yù)處理操作,主要包括:

        1)歸一化;

        2)訓(xùn)練集隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn);

        3)測(cè)試集中心裁剪;

        4)正則化,利用均值(mean)和標(biāo)準(zhǔn)差(std)對(duì)張量圖像進(jìn)行標(biāo)準(zhǔn)化。

        圖10 中:圖(a)展示了Lcls、Lrank兩種損失變化;圖(b)、(c)分別展示了HCA-CNN 網(wǎng)絡(luò)三層結(jié)構(gòu)(scale1+scale2+scale3)各層的Top1_Accuracy、Top5_Accuracy 指標(biāo)的變化情況,可以觀察到模型在隨著訓(xùn)練次數(shù)(Epochs)增加,兩種損失Lcls、Lrank逐漸降低,第一層(scale1)對(duì)應(yīng)的準(zhǔn)確率指標(biāo)(cls0Top1_Accuracy 和cls0Top5_Accuracy)、第二層(scale2)對(duì)應(yīng)的準(zhǔn)確率指標(biāo)(cls1Top1_Accuracy 和cls1Top5_Accuracy)、第三層(scale3)對(duì)應(yīng)的準(zhǔn)確率指標(biāo)(cls2Top1_Accuracy 和cls2Top5_Accuracy)均有明顯提升。

        針對(duì)自制的BJOR 數(shù)據(jù)集,通過(guò)不同弱監(jiān)督網(wǎng)絡(luò)、遞歸網(wǎng)絡(luò)的不同層(scale)之間進(jìn)行組合,進(jìn)行對(duì)比消融實(shí)驗(yàn),選定組合如下所示:

        1)VGG16;

        2)RA-CNN(scale 1+2+3);

        3)MobileNetV2;

        4)MobileNetV2+APN;

        5)HCA-CNN(scale 2);

        6)HCA-CNN(scale 3);

        7)HCA-CNN(scale 1+2);

        8)HCA-CNN(scale 1+2+3)。

        本文選定BJOR 數(shù)據(jù)集(80%)作為網(wǎng)絡(luò)訓(xùn)練集,其余作為網(wǎng)絡(luò)驗(yàn)證集,由模型訓(xùn)練結(jié)果可以得到網(wǎng)絡(luò)準(zhǔn)確率,即Top1_Accuracy指標(biāo)值。

        圖10 訓(xùn)練損失和Top1_Accuracy、Top5_Accuracy變化Fig.10 Change of training loss,Top1_Accuracy and Top5_Accuracy

        由表2 可知,MobileNetV2 網(wǎng)絡(luò)相較于VGG16 而言,準(zhǔn)確率小幅降低了1.78 個(gè)百分點(diǎn);同樣,MobileNetV2 組合APN 形成的三層遞歸網(wǎng)絡(luò),同樣比RA-CNN 少1.67 個(gè)百分點(diǎn)。接著本文引入超列特征,提出新的網(wǎng)絡(luò)HCA-CNN,并對(duì)遞歸網(wǎng)絡(luò)的不同層級(jí)(scale)進(jìn)行了消融實(shí)驗(yàn),可以觀察到層級(jí)結(jié)合的交叉訓(xùn)練更優(yōu)于單層。三層HCA-CNN 遞歸網(wǎng)絡(luò)準(zhǔn)確率達(dá)到91.58%,在準(zhǔn)確率方面相較于基于循環(huán)弱性注意力機(jī)制的RA-CNN 模型(90.95%)提高了0.63 個(gè)百分點(diǎn),有效解決了注意力機(jī)制的定位不夠高效和準(zhǔn)確問(wèn)題。

        表2 消融實(shí)驗(yàn)準(zhǔn)確率對(duì)比Tab.2 Comparison of accuracy in ablation experiment

        4 結(jié)語(yǔ)

        由于空間特征的逐漸弱化、類(lèi)別語(yǔ)義特征的不斷增強(qiáng),不同階段的特征圖呈現(xiàn)出較大的特征差異,使用傳統(tǒng)的諸如RA-CNN 模型的APN 注意力機(jī)制方法時(shí),后期因?yàn)閬G失空間信息,而導(dǎo)致細(xì)粒度特征區(qū)域定位不夠準(zhǔn)確。本文提出的HCA-CNN 試圖利用超列的基于像素點(diǎn)串聯(lián)多層特征圖的特點(diǎn),更好地兼顧早期的空間特征與后期的類(lèi)別語(yǔ)義特征。此外還使用MobileNetV2 網(wǎng)絡(luò)代替VGG16 網(wǎng)絡(luò)用于分類(lèi),更好地用于京劇實(shí)時(shí)識(shí)別的場(chǎng)景。實(shí)驗(yàn)結(jié)果表明,HCA-CNN 識(shí)別準(zhǔn)確率更高、復(fù)雜度更低,相較于同類(lèi)型對(duì)比網(wǎng)絡(luò)RA-CNN 在Memory Usage、Params、Mult-Adds、FLOPs 等復(fù)雜度指標(biāo)上分別減少了162.84 MB、131.5 MB、39 885×106、51 886×106,在Accuracy 指標(biāo)上提高了0.63 個(gè)百分點(diǎn)。有效解決了RA-CNN注意力機(jī)制定位不夠高效和準(zhǔn)確的問(wèn)題。

        猜你喜歡
        臉譜復(fù)雜度類(lèi)別
        帖臉譜
        啟蒙(3-7歲)(2020年12期)2020-12-25 05:34:02
        做個(gè)臉譜迎『六一』
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        灶王爺?shù)摹澳樧V”
        名作欣賞(2017年25期)2017-11-06 01:40:12
        求圖上廣探樹(shù)的時(shí)間復(fù)雜度
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        服務(wù)類(lèi)別
        出口技術(shù)復(fù)雜度研究回顧與評(píng)述
        論類(lèi)別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
        精品露脸国产偷人在视频| 日本黄色一区二区三区视频| 亚洲不卡高清av在线| 多毛小伙内射老太婆| 亚洲日韩av无码中文字幕美国 | 精品少妇爆乳无码aⅴ区| 97久久国产精品成人观看| 国产小视频在线看不卡| 国产精品无码久久久久| 国产精品流白浆喷水| 久久老熟女乱色一区二区| 午夜视频在线瓜伦| 9lporm自拍视频区| 无码人妻精品一区二区三区下载| 午夜一区二区三区免费观看| 国产精品久久久久久人妻无| 亚洲国产精品久久亚洲精品| 国产三级精品美女三级| 男女打扑克视频在线看| 亚洲综合av永久无码精品一区二区| 小12箩利洗澡无码视频网站| 久久精品国产亚洲AV古装片| 久久亚洲中文字幕伊人久久大| 国产一区二区三区在线电影| 93精91精品国产综合久久香蕉| 男女干逼视频免费网站| 色婷婷色丁香久久婷婷| 亚洲美腿丝袜 欧美另类| 亚洲不卡电影| 人妻中文久久人妻蜜桃| 黑人巨大精品欧美一区二区免费| 国产精品一区二区久久| 自拍视频在线观看成人| 白白色白白色视频发布| 亚洲精品中文字幕无码蜜桃| 九九精品国产99精品| 亚洲成年国产一区二区| 国产成人av大片大片在线播放| jlzzjlzz全部女高潮| 亚洲性感毛片在线视频| 久久久久久久极品内射|