趙恩銘,楊 松,姚志強(qiáng)
(大理大學(xué)工程學(xué)院,云南大理 671003)
我國(guó)是一個(gè)多民族融合的國(guó)家,其中民族服飾代表著各民族的特色〔1〕。由于受社會(huì)現(xiàn)代化的影響,具有數(shù)千年文化底蘊(yùn)的民族服飾正在逐步淡出人們的視線。民族服飾的辨識(shí)能夠起到科普民族服飾特點(diǎn)的作用〔2〕,對(duì)推廣民族服飾文化,加強(qiáng)大眾保護(hù)民族文化的意識(shí)有較好的促進(jìn)作用。
民族服飾識(shí)別系統(tǒng)需要對(duì)用戶在不同環(huán)境下所拍攝的圖像進(jìn)行識(shí)別。通常圖像識(shí)別效果受許多因素影響〔3〕,例如光照強(qiáng)度〔4〕、拍攝角度〔5〕和復(fù)雜背景〔6〕等。傳統(tǒng)的目標(biāo)識(shí)別方法采用手動(dòng)設(shè)計(jì)特征的方式〔7〕,模型只能夠獲得目標(biāo)的顏色、梯度、紋理和形狀等基礎(chǔ)特征信息并無(wú)法做到目標(biāo)深度特征信息的提取,往往導(dǎo)致在復(fù)雜背景下識(shí)別效率不理想。2012年卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)〔8〕的興起突破了傳統(tǒng)目標(biāo)識(shí)別方法中圖像特征提取的瓶頸,該網(wǎng)絡(luò)能夠自主學(xué)習(xí)目標(biāo)特征并達(dá)到較好的分類(lèi)效果。
目前常見(jiàn)的目標(biāo)識(shí)別算法基本都基于CNN〔9〕,其中以O(shè)ne-Stage為代表的YOLO算法〔10〕與SSD算法〔11〕,Two-Stage為代表的Faster-RCNN算法〔12〕效果最為突出。通過(guò)綜合對(duì)比分析上述3種算法在民族服飾識(shí)別上的效果,設(shè)計(jì)一種基于Faster-RCNN算法的民族服飾識(shí)別系統(tǒng)。該系統(tǒng)能夠有效地識(shí)別白族、苗族和蒙古族服飾。
1.1 Faster-RCNN算法原理Faster-RCNN算法屬于RCNN算法系列的目標(biāo)識(shí)別算法〔13〕,該算法在特征提取和分類(lèi)能力上都有很好的效果。Faster-RCNN算法最早由Shaoqing Ren等人提出,針對(duì)Fast-RCNN算法〔14〕選擇性搜索找出所有候選框耗時(shí)長(zhǎng)的問(wèn)題,在Fast-RCNN算法基礎(chǔ)上采用區(qū)域建議網(wǎng)絡(luò)(region proposal networks,RPN)來(lái)提高模型分類(lèi)效率,實(shí)現(xiàn)了真正意義上的端到端識(shí)別。
Faster-RCNN算法基本結(jié)構(gòu)圖如圖1所示,主要由特征圖提取、RPN、ROI(regions of interest,ROI)池化和分類(lèi)這4部分組成。輸入圖像經(jīng)卷積層、ReLu層和池化層后得到特征圖像,此處常用的圖像特征提取網(wǎng)絡(luò)有VGG16網(wǎng)絡(luò)〔15〕、ResNet50網(wǎng)絡(luò)〔16〕和Xception網(wǎng)絡(luò)〔17〕。本設(shè)計(jì)選取具有殘差網(wǎng)絡(luò)結(jié)構(gòu)的ResNet50網(wǎng)絡(luò)作為主干特征提取網(wǎng)絡(luò),其主要目的是為了克服因網(wǎng)絡(luò)深度加深導(dǎo)致模型學(xué)習(xí)效率低和準(zhǔn)確度無(wú)法很好提升的問(wèn)題。RPN網(wǎng)絡(luò)主要用于生成高質(zhì)量建議區(qū)域框。ROI池化可以從不同大小的建議區(qū)域得到固定大小的特征圖,便于分類(lèi)階段的特征圖進(jìn)行全連接操作。分類(lèi)部分包括分類(lèi)層和回歸層。分類(lèi)層主要用來(lái)確定檢測(cè)目標(biāo)的類(lèi)別,回歸層用來(lái)得到預(yù)測(cè)目標(biāo)的準(zhǔn)確位置區(qū)域即邊界框。Faster-RCNN算法主要用于提取高質(zhì)量建議區(qū)域的特征并對(duì)建議區(qū)域進(jìn)行分類(lèi)操作〔18〕。
圖1 Faster-RCNN的構(gòu)成
1.2 非極大抑制算法原理通常在Faster-RCNN算法最后一層使用非極大抑制(non-maximum suppression,NMS)算法〔19〕,該算法能根據(jù)邊界框的不同置信度(系統(tǒng)給出的邊界框分?jǐn)?shù))消除多余的邊界框,只保留置信度最大的邊界框。因此NMS能夠達(dá)到搜索局部極大值,抑制非極大值元素的效果。抑制效果見(jiàn)圖2(該圖像拍攝于大理古城街市)。
圖2 NMS消除多余邊界框
1.3 Faster-RCNN算法損失函數(shù)在Faster-RCNN算法中,對(duì)一張圖像的多任務(wù)損失函數(shù)定義為:
其中,pi是框內(nèi)預(yù)測(cè)為目標(biāo)的概率,pi*是實(shí)際目標(biāo)的概率,Ncls和Nreg為標(biāo)準(zhǔn)化項(xiàng),λ為權(quán)衡系數(shù),ti是一個(gè)向量,代表預(yù)測(cè)的邊界框的參數(shù)坐標(biāo),ti*為候選框相對(duì)于目標(biāo)所在的真實(shí)框的實(shí)際偏移量。關(guān)于pi*、ti和ti*的定義如下:
其中,
Lcls(pi,pi*)是針對(duì)目標(biāo)與非目標(biāo)類(lèi)別的對(duì)數(shù)損失,可表示為:
Lreg(ti,ti*)是針對(duì)目標(biāo)與非目標(biāo)類(lèi)別的對(duì)數(shù)損失,可表示為:
其中,
在該算法中,RPN網(wǎng)絡(luò)使用隨機(jī)梯度下降法優(yōu)化損失函數(shù),找到損失函數(shù)的最小值,同時(shí)也完成參數(shù)的調(diào)整。RPN網(wǎng)絡(luò)的輸出經(jīng)NMS算法能夠有效得到候選框。
2.1 數(shù)據(jù)集的構(gòu)成截至目前,互聯(lián)網(wǎng)上仍未有較為權(quán)威的傳統(tǒng)民族服飾數(shù)據(jù)集,所以本模型數(shù)據(jù)集采用人為收集互聯(lián)網(wǎng)上的民族服飾圖像,見(jiàn)圖3,經(jīng)圖像數(shù)據(jù)篩選后得到白族、苗族和蒙古族服飾圖像各1 000張。將所得數(shù)據(jù)集使用LabelImg工具進(jìn)行不同標(biāo)簽的標(biāo)記,為后續(xù)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練做好鋪墊。本模型所使用的數(shù)據(jù)集嚴(yán)格按照ImageNet公布的VOC2007標(biāo)準(zhǔn)數(shù)據(jù)集格式進(jìn)行預(yù)處理。數(shù)據(jù)集按照訓(xùn)練集和測(cè)試集9:1的比例進(jìn)行劃分,并采用Tensorboard監(jiān)控模型的訓(xùn)練過(guò)程做到實(shí)時(shí)掌控訓(xùn)練進(jìn)度。苗族服飾種類(lèi)繁多,據(jù)不完全統(tǒng)計(jì)已超上百種,苗族服飾的頭飾主要以銀飾為主,服飾仍保持織、繡和染等工藝技法使得服飾圖案溢彩流光。白族崇尚白色,以白色為尊貴,白族服飾基本以白色作為底色,頭纏繡花包頭和腰系短圍腰,色彩鮮明,美觀大方。蒙古族服飾以蒙古袍為主,蒙古袍以寬大袖長(zhǎng)、高領(lǐng)居多。同時(shí)腰帶也是蒙古族服飾的一部分,一般與蒙古袍顏色相近,美觀的同時(shí)也起到防寒保暖作用。
圖3 數(shù)據(jù)集示例
2.2 民族服飾識(shí)別系統(tǒng)的網(wǎng)絡(luò)模型訓(xùn)練Faster-RCNN算法由RPN網(wǎng)絡(luò)和Fast-RCNN算法組合而成,所以相應(yīng)的訓(xùn)練階段也包括兩個(gè)部分。
(1)RPN網(wǎng)絡(luò)使用隨機(jī)梯度下降法進(jìn)行訓(xùn)練。基于ImageNet公布的VOC2007標(biāo)準(zhǔn)數(shù)據(jù)集采用遷移學(xué)習(xí)的方式初始化本模型RPN網(wǎng)絡(luò)。
(2)Fast-RCNN網(wǎng)絡(luò)同樣也是利用ImageNet分類(lèi)任務(wù)預(yù)訓(xùn)練網(wǎng)絡(luò)實(shí)現(xiàn)初始化,得到一個(gè)單獨(dú)的檢測(cè)網(wǎng)絡(luò)。Faster-RCNN算法允許不同尺寸的輸入圖像,該算法通常會(huì)把輸入的圖像短邊尺寸固定到600像素,并保留原圖比例避免失真。原圖像首先經(jīng)過(guò)5層卷積得到特征圖,最終將特征圖經(jīng)全連接層連接得到區(qū)域邊界框和每個(gè)類(lèi)別的概率,此時(shí)兩個(gè)網(wǎng)絡(luò)還未共享卷積層。
接下來(lái)用檢測(cè)網(wǎng)絡(luò)初始化RPN網(wǎng)絡(luò)訓(xùn)練,此時(shí)固定共享卷積層只微調(diào)RPN網(wǎng)絡(luò)獨(dú)有的參數(shù)層,達(dá)到兩個(gè)網(wǎng)絡(luò)已經(jīng)共享卷積層的目的。最后保持共享的卷積層,微調(diào)Fast-RCNN的全連接層。經(jīng)上述步驟后兩個(gè)網(wǎng)絡(luò)已經(jīng)共享了相同的卷積層并構(gòu)成了統(tǒng)一的網(wǎng)絡(luò)。
2.3 系統(tǒng)框圖民族服飾識(shí)別系統(tǒng)的識(shí)別流程圖見(jiàn)圖4,將原圖像傳入已經(jīng)訓(xùn)練好的Faster-RCNN民族服飾識(shí)別系統(tǒng)中,系統(tǒng)會(huì)自動(dòng)對(duì)原圖像進(jìn)行目標(biāo)識(shí)別并對(duì)識(shí)別結(jié)果進(jìn)行判斷。當(dāng)識(shí)別到目標(biāo)時(shí),系統(tǒng)會(huì)通過(guò)計(jì)算給出識(shí)別后帶有邊界框的圖像和對(duì)應(yīng)的識(shí)別信息,若未識(shí)別到目標(biāo)則直接結(jié)束本次任務(wù)。系統(tǒng)的輸出信息包括類(lèi)別、置信度和目標(biāo)對(duì)應(yīng)位置的坐標(biāo)信息。
圖4 系統(tǒng)框圖
3.1 評(píng)價(jià)方法精準(zhǔn)度(Precision)和召回率(Recall)是常見(jiàn)的二分類(lèi)模型評(píng)價(jià)指標(biāo),用在多分類(lèi)模型中往往很難準(zhǔn)確評(píng)價(jià)模型的好壞。平均精度(average precision,AP)綜合了精準(zhǔn)度和召回率對(duì)模型效果的評(píng)價(jià),該指標(biāo)是多分類(lèi)模型中較為常見(jiàn)的評(píng)價(jià)指標(biāo)。平均精度值(mean average precision,MAP)是將AP求平均得到,進(jìn)一步提高了指標(biāo)對(duì)模型評(píng)價(jià)的準(zhǔn)確度。
精準(zhǔn)度的表達(dá)如下:
其中,NTP是被判定為正確的個(gè)數(shù);NFP是被判定為錯(cuò)誤的個(gè)數(shù)。
召回率一般指的是某類(lèi)目標(biāo)對(duì)應(yīng)的識(shí)別率,其表達(dá)式為:
其中,NFN為漏檢的個(gè)數(shù)。
MAP的定義如下:
其中,QR是數(shù)據(jù)集R的總類(lèi)別數(shù);q為數(shù)據(jù)集的類(lèi)別。理論上模型的MAP值越大,模型分類(lèi)效果越好。
3.2 民族服飾識(shí)別效果本系統(tǒng)的AP值與MAP值見(jiàn)圖5~6。從AP圖上可以看出召回率和精準(zhǔn)度所構(gòu)成的曲線下方的面積即為對(duì)應(yīng)分類(lèi)的AP值。圖5中白族服飾和白族帽子的AP值分別為81.75%和73.92%,在本次數(shù)據(jù)集6類(lèi)圖像中分類(lèi)效果最好。苗族服飾的AP值僅為47.67%,識(shí)別效果最差。苗族服飾種類(lèi)繁多,網(wǎng)絡(luò)上收集的高質(zhì)量苗族服飾圖像較少,這應(yīng)該是本次實(shí)驗(yàn)苗族服飾識(shí)別效果最差的根本原因。MAP圖是對(duì)所有類(lèi)的AP值求平均得到,可以看出本系統(tǒng)的平均精度值為67.88%,能夠滿足辨識(shí)民族服飾的需求。
圖5 模型AP值
圖6 模型MAP值
本次實(shí)驗(yàn)是為了起到弘揚(yáng)民族服飾文化的作用,幫助人們了解民族服飾文化和正確辨識(shí)大部分白族、苗族和蒙古族服飾圖像。綜合所有分類(lèi)效果可以得出民族服飾識(shí)別系統(tǒng)滿足本次對(duì)白族、苗族和蒙古族服飾識(shí)別的需求。
本文所搭建的民族服飾識(shí)別系統(tǒng)的目標(biāo)識(shí)別效果見(jiàn)圖7??梢钥闯?,本系統(tǒng)能夠以較高的準(zhǔn)確率識(shí)別白族、蒙古族和苗族服飾。同時(shí)此次測(cè)試屬于復(fù)雜背景下的目標(biāo)識(shí)別,本識(shí)別系統(tǒng)能夠有效避開(kāi)干擾服飾圖像,從復(fù)雜背景中提取對(duì)應(yīng)的民族服飾信息。同時(shí)在系統(tǒng)界面的下方可以清楚地看到系統(tǒng)給出該圖像被識(shí)別出的所有類(lèi)別、置信度和坐標(biāo)信息。該系統(tǒng)基本能夠正確標(biāo)記出對(duì)應(yīng)民族服飾圖像,部分蒙古族帽子未被識(shí)別,原因可能是一張圖像中出現(xiàn)多個(gè)目標(biāo),識(shí)別難度提高以及蒙古族服飾品類(lèi)繁多,數(shù)據(jù)集不夠完善。
圖7 民族服飾識(shí)別系統(tǒng)的識(shí)別效果
為測(cè)試本系統(tǒng)的有效性,通過(guò)與YOLOV4算法、SSD算法進(jìn)行比對(duì),結(jié)果見(jiàn)表1。從表中可以看出Faster-RCNN算法模型訓(xùn)練時(shí)間較長(zhǎng),但其MAP值為67.88%,在3種不同的模型中效果最好,F(xiàn)aster-RCNN算法比YOLOV4算法的MAP值提升了13.24%,比SSD算法的MAP值提升了20.56%。故Faster-RCNN算法應(yīng)用在本文所設(shè)計(jì)的民族服飾識(shí)別系統(tǒng)中識(shí)別效果更佳,更能滿足本項(xiàng)研究的需求,同時(shí)數(shù)據(jù)集的多樣性也保證了該模型的泛化能力。從表中也可看出,YOLOV4算法和SSD算法雖然模型訓(xùn)練時(shí)間較短,但MAP值遠(yuǎn)遠(yuǎn)不及Faster-RCNN算法,并不滿足本研究識(shí)別精度的需求。
表1 不同算法在民族服飾數(shù)據(jù)集上的識(shí)別效果
本文基于Faster-RCNN算法設(shè)計(jì)了民族服飾識(shí)別系統(tǒng),與YOLOV4算法和SSD算法相比,F(xiàn)aster-RCNN算法具有更高的MAP值,能夠滿足對(duì)白族、苗族和蒙古族民族服飾的辨識(shí)需求。Faster-RCNN算法作為T(mén)wo-Stage的代表算法,利用RPN網(wǎng)絡(luò)結(jié)合Fast-RCNN網(wǎng)絡(luò),比One-Stage算法達(dá)到了更好的民族服飾識(shí)別效果。該系統(tǒng)能夠起到科普民族服飾特點(diǎn)和推廣民族服飾文化的作用。