陳雙 何利力
摘 要:為了滿足近年來在服裝電子商務(wù)高速發(fā)展背景下急劇增長(zhǎng)的服裝圖像分類與定位需求,實(shí)現(xiàn)對(duì)服裝圖像的目標(biāo)檢測(cè),提出基于Faster R-CNN的服裝目標(biāo)檢測(cè)改進(jìn)方法。借助殘差神經(jīng)網(wǎng)絡(luò)的特征提取能力進(jìn)行服裝圖像特征提取,采用RPN網(wǎng)絡(luò)進(jìn)行服裝候選區(qū)域生成,經(jīng)過RoI興趣區(qū)域池化后接入分類層與回歸層,調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),融合服裝圖像的HOG底層特征,從而針對(duì)性地實(shí)現(xiàn)對(duì)服裝圖像的目標(biāo)檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法構(gòu)建模型的平均準(zhǔn)確率為0.902,運(yùn)行速度為8.9幀/秒,具有一定的實(shí)用價(jià)值。
關(guān)鍵詞:服裝圖像;深度學(xué)習(xí);目標(biāo)檢測(cè);殘差神經(jīng)網(wǎng)絡(luò);邊緣梯度直方圖特征
DOI: 10. 11907/rjdk.191 807
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800(2020)004-0042-04
Improved Method for Garment Target Detection Based on Faster R-CNN
CHEN Shuang, HE Li-li
(School of Information , Zh.ejiarzg Sci-tec Urziversity , Hangzhou 3100 1 8.China )Abstract: In order to meet the demand for the classification and positioning of clothing images under the rapid development of clothinge-commerce in recent years, the target detection of' clothing images is realized. An improved method of garment target detection basedon Faster R-CNN is proposed. The f'eature extraction ability of residual neural network is used to extract the features of clothing images.The RPN network is used to generate clothing candidate regions. After the pool of RoI interest regions, the classification lay er is ac-cessed. With the regression layer, the network structure is adjusted, and the underlying features of' the HOG of the clothing image areintegrated to achieve the pertinence of the clothing, and the target detection of the clothing image is realized. The experimental resultsshoW, that the model constructed hy this method has an average accuracy of 0.902 and an operating speed of 8.9 frames per second.Which proves the method has social practical value and academic research significance.Key Words: clothing image; deep learning; target detection ; residual neu ral network ; edge gradient histogram feature
O引言
隨著互聯(lián)網(wǎng)信息技術(shù)與服裝電子商務(wù)的迅速發(fā)展,服裝圖像數(shù)據(jù)量呈爆炸式增長(zhǎng),用戶對(duì)服裝圖像識(shí)別與分類的需求日漸迫切[1-2]。通過圖像目標(biāo)檢測(cè)技術(shù)得到服裝的具體類別信息與位置信息,成為當(dāng)前計(jì)算機(jī)視覺技術(shù)在服裝領(lǐng)域的應(yīng)用熱點(diǎn)之一。
對(duì)于一張服裝圖像,人的視覺系統(tǒng)能夠輕松感知到目標(biāo)的款式、色彩、圖案等服裝特征信息,而計(jì)算機(jī)只能識(shí)別得到服裝圖像的RGB像素矩陣。由于環(huán)境中存在服裝圖像的光照、形變、遮擋、多主體與背景等干擾因素,計(jì)算機(jī)通過對(duì)像素的抽象難以實(shí)現(xiàn)較好的識(shí)別效果[3]。傳統(tǒng)目標(biāo)檢測(cè)方法對(duì)Haar小波特征、HOG特征、LBP特征、SIFT特征等進(jìn)行提取,再構(gòu)建SVM、決策樹等分類器進(jìn)行檢測(cè)與定位[4-5]。該方法具有一定檢測(cè)效果,但由于具有較高的時(shí)間復(fù)雜度與較低的魯棒性,難以達(dá)到使用需求。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得突破性進(jìn)展,越來越多學(xué)者針對(duì)深度學(xué)習(xí)方法在服裝圖像檢測(cè)與分類方面的應(yīng)用進(jìn)行研究,并取得了一定成果。
目前深度學(xué)習(xí)在目標(biāo)檢測(cè)方向的研究方法主要分為兩類,一類是基于區(qū)域的算法,如R-CNN、SPP-net、FastR-CNN、Faster R-CNN.R-FCN,另一類是基于端到端的算法,如YOLO、SSD。通常后者速度相對(duì)更快,但檢測(cè)準(zhǔn)確度不如前者。國(guó)內(nèi)外眾多學(xué)者將以上兩類方法應(yīng)用于服裝領(lǐng)域,衍生出許多針對(duì)服裝圖像的目標(biāo)檢測(cè)方法。如
陳雙,何利力:基于Faster R-CNN的服裝曰標(biāo)檢測(cè)改進(jìn)方法Yamazakj1[6]通過研究服裝的褶皺特征以檢測(cè)日常生活中隨意放置的服裝位置,同時(shí)使用高層語義與低層特征信息,有效解決了服裝圖像中的遮擋問題;Pan等。[7]通過BP神經(jīng)網(wǎng)絡(luò)識(shí)別針織物,取得了良好的識(shí)別效果;Wang等。[8]針對(duì)服裝款式進(jìn)行研究,得到準(zhǔn)確率更高的識(shí)別方法;香港大學(xué)的Liu等[9-10]提出一個(gè)大型公開服裝圖像數(shù)據(jù)集Deep-Fashion,該數(shù)據(jù)集含有超過80萬個(gè)具有豐富類別、屬性、Bhox、特征點(diǎn)等標(biāo)注信息的服裝圖像,并提出用FashionNet進(jìn)行服裝特征學(xué)習(xí)。
本文主要進(jìn)行以下3方面研究:①綜合相關(guān)數(shù)據(jù)集與爬蟲數(shù)據(jù),進(jìn)行基本預(yù)處理后構(gòu)建具有服裝類別及服裝主體邊框標(biāo)簽的大規(guī)模服裝圖像數(shù)據(jù)集;②基于FasterR-CNN模型進(jìn)行服裝圖像特征提取、區(qū)域生成、興趣區(qū)域池化與類別判定,并修改網(wǎng)絡(luò)結(jié)構(gòu),融合服裝圖像的HOG顯著性底層特征,實(shí)現(xiàn)針對(duì)服裝圖像的目標(biāo)檢測(cè)[11];③通過對(duì)比實(shí)驗(yàn)設(shè)計(jì)與分析,驗(yàn)證實(shí)驗(yàn)?zāi)P托阅堋?/p>
1實(shí)驗(yàn)方法
本文整體模型結(jié)構(gòu)基于Faster R-CNN,融合服裝圖像顯著性特征進(jìn)行目標(biāo)檢測(cè),主要分為4步:圖像特征提取、RPN區(qū)域生成網(wǎng)絡(luò)、興趣區(qū)域池化與分類回歸[12]。主要網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
主要流程如下:①將服裝圖像輸入網(wǎng)絡(luò)模型,通過卷積神經(jīng)網(wǎng)絡(luò)卷積層與池化層的交替作用進(jìn)行服裝圖像特征提取,得到圖像的特征圖傳人RPN網(wǎng)絡(luò),并進(jìn)行RoI池化。這里采用ResNetl01殘差神經(jīng)網(wǎng)絡(luò);②RPN網(wǎng)絡(luò)將輸入的特征圖輸出為多個(gè)矩形候選區(qū)域;③將直接傳人的特征圖結(jié)合RPN網(wǎng)絡(luò)的候選區(qū)域特征信息,通過RoI池化進(jìn)行裁剪過濾,映射成7*7的特征;④根據(jù)特征白動(dòng)學(xué)習(xí)服裝類別,通過Softmax分類器進(jìn)行是否為目標(biāo)的二分類,并通過邊界框回歸器修正區(qū)域候選框,融合服裝的HOG特征回歸邊框,得到最終的服裝主體圖像。
Faster R-CNN損失函數(shù)計(jì)算包括:RPN進(jìn)行前景與背景二分類的分類損失、RPN滑動(dòng)窗口的位置回歸損失、RoI分類器損失與RoI邊界框回歸損失,以四者和作為最終損失函數(shù)進(jìn)行模型反向傳播[13]。
I.I殘差神經(jīng)網(wǎng)絡(luò)
ResNet( Deep Residual Network)殘差神經(jīng)網(wǎng)絡(luò)[14]是2015年微軟研究院提出的卷積神經(jīng)網(wǎng)絡(luò),一舉取得了2015年ILSVRC比賽的冠軍。ResNet將層與層之間的傳遞學(xué)習(xí)表示為輸入與輸出差別的殘差函數(shù)學(xué)習(xí),能夠有效中和梯度爆炸問題與退化問題。
ResNet通過在不相鄰的層之間添加通路進(jìn)行跨層連接,使用恒等映射將原始輸入信息直接傳輸?shù)胶竺娴木W(wǎng)絡(luò)層中。在加深網(wǎng)絡(luò)時(shí),對(duì)于輸入x期望,輸出為H(x),學(xué)習(xí)F(x)=H(x)-x作為ResNet的殘差學(xué)習(xí)單元,改變了學(xué)習(xí)目標(biāo),從對(duì)輸出函數(shù)的學(xué)習(xí)轉(zhuǎn)換為對(duì)殘差的學(xué)習(xí),從而在將網(wǎng)絡(luò)層數(shù)據(jù)增加到152層時(shí),仍能保持正常收斂與較好性能。相對(duì)于淺層網(wǎng)絡(luò),深層網(wǎng)絡(luò)得到的高層抽象語義更能表現(xiàn)出圖像特征,具有更佳的性能。相比于一般的CNN,ResNet使用了一種shortcut連接方式。普通CNN與ResNet基本結(jié)構(gòu)塊如圖2所示。殘差基本結(jié)構(gòu)塊可以表示為:
其中F為殘差函數(shù),h(x1)=X1為恒等映射,XI、X1+1.分別表示第,個(gè)殘差單元的輸入與輸出,f為ReLU激活函數(shù),則從,至L所學(xué)習(xí)的特征為:以鏈?zhǔn)揭?guī)則求反向傳播梯度:
可以看出,該方式能保證梯度的無損傳播,有效避免梯度消失問題,在模型中具有良好的服裝圖像特征提取效果。
1.2 RPN網(wǎng)絡(luò)
RPN(Region Proposal Networks)網(wǎng)絡(luò)是一種全卷積網(wǎng)絡(luò),通過端到端的形式進(jìn)行區(qū)域生成,與分類回歸共享提取到的卷積特征,相較于之前的Selective Search與EdgeBoxes方法具有更快的提取速度[15-16]。
RPN網(wǎng)絡(luò)將殘差神經(jīng)網(wǎng)絡(luò)的共享特征圖作為輸入,以滑動(dòng)窗口方式生成k個(gè)區(qū)域建議框,對(duì)應(yīng)分類層有2k個(gè)輸出,表示判斷是目標(biāo)與非目標(biāo)的概率,對(duì)應(yīng)回歸層有4k個(gè)輸出,表示k個(gè)區(qū)域建議框的位置。RPN 工作原理如圖3所示。
1.3興趣區(qū)域池化
在Faster R-CNN的RPN網(wǎng)絡(luò)后接人全連接層,通過RoI興趣區(qū)域池化層將不同大小的興趣區(qū)域轉(zhuǎn)換為固定大小。
將RPN網(wǎng)絡(luò)輸出建議與CNN網(wǎng)絡(luò)輸出特征圖輸入到RoI興趣區(qū)域池化層,以空間尺度數(shù)l/16映射回(M/16)*(N/16)的特征圖尺度,接入最大值池化層,針對(duì)將特征圖水平與豎直7等分的建議,生成7*7的輸出[17],主要過程如圖4所示。
通過RoI興趣區(qū)域池化后,對(duì)于任意尺寸大小的圖像輸入,模型后續(xù)回歸分類的全連接層具有相同維度的輸入。
1.4回歸分類
1.4.1Softmax分類器
對(duì)RoI池化得到的區(qū)域建議特征圖,經(jīng)全連接層以3*3的卷積核遍歷特征圖,采用Softmax分類器計(jì)算類別概率向量,選取概率最大的k個(gè)向量作為候選區(qū)。對(duì)于每一類別的概率,令模型參數(shù)為 ,采用歸一化方法使所有概率和為1,對(duì)于所有輸入的列向量
1.4.2邊框回歸
對(duì)于圖像目標(biāo)檢測(cè)的正確性,采用IoU(交并比),也稱為檢測(cè)評(píng)價(jià)函數(shù)進(jìn)行度量。如圖5所示,IoU是指預(yù)測(cè)框(黑框)與真實(shí)框(紅框)交集與并集的比值。
通過邊框回歸器得到位置偏移量,使最終的回歸框更加精確,得到當(dāng)前的回歸坐標(biāo)值。
針對(duì)服裝的特有屬性,考慮文獻(xiàn)[18]中對(duì)顯著性特征的分析,調(diào)整模型并采用HOG邊緣梯度直方圖特征結(jié)合SVM分類器進(jìn)行目標(biāo)檢測(cè)。主要計(jì)算圖像局部區(qū)域梯度直方圖,并統(tǒng)計(jì)區(qū)域內(nèi)的梯度直方圖構(gòu)成特征向量。采用128*144的檢測(cè)子,nhins設(shè)置為9,結(jié)合服裝目標(biāo)的顯著性檢測(cè)進(jìn)行邊框修正,得到綜合考慮圖像底層HOG邊緣梯度直方圖特征與高層卷積神經(jīng)網(wǎng)絡(luò)特征的服裝圖像,輸出邊框回歸坐標(biāo)值[19]。
2實(shí)驗(yàn)分析
2.1實(shí)驗(yàn)環(huán)境與預(yù)處理
2.1.1 實(shí)驗(yàn)環(huán)境
處理器:Intel Core i5-9400F@6x 4.1GHz。
顯卡:GeForce GTX 1660 Ti。
內(nèi)存:16G。
操作系統(tǒng):ManjaroLinux環(huán)境。
開發(fā)環(huán)境:基于Pvthon3與PvTorch。
2.1.2 實(shí)驗(yàn)數(shù)據(jù)集
綜合香港中文大學(xué)提供的大型公開服裝圖像數(shù)據(jù)集DeepFashion與FashionAI、某省服裝個(gè)性化定制協(xié)同創(chuàng)新中心項(xiàng)目積累的大量圖片,以及在各電子商務(wù)網(wǎng)站爬取的服裝圖像,得到總計(jì)325 870張服裝圖像。關(guān)聯(lián)對(duì)應(yīng)的服裝類別標(biāo)簽與服裝主體邊界框標(biāo)注,建立大規(guī)模服裝圖像數(shù)據(jù)集,部分圖片展示如圖6所示。
考慮日常照片中的上半身照較多,鞋子出現(xiàn)較少,將研究任務(wù)選取類別主要分為上衣、下裝、裙子3大類,再細(xì)分得到24個(gè)服裝類別標(biāo)簽如表l所示。對(duì)沒有標(biāo)注的圖像進(jìn)行人工服裝類別與目標(biāo)框標(biāo)注,標(biāo)注圖像對(duì)應(yīng)的類別與邊框。參考PASCAL VOC 2007數(shù)據(jù)集格式,生成對(duì)應(yīng)的XML文件。
對(duì)于建立的大規(guī)模服裝圖像數(shù)據(jù)集,將數(shù)據(jù)集隨機(jī)分成3批,采用20萬張作為訓(xùn)練集,用來進(jìn)行模型訓(xùn)練,6萬張作為驗(yàn)證集,用來進(jìn)行參數(shù)調(diào)整,得到最佳模型參數(shù),其余部分作為測(cè)試集,用來進(jìn)行模型評(píng)價(jià)[20]。
2.1.3預(yù)處理
對(duì)于實(shí)驗(yàn)數(shù)據(jù)集中的服裝圖像,為減少圖像冗余信息,需進(jìn)行預(yù)處理,主要進(jìn)行去均值與歸一化。
去均值是指消除圖像每個(gè)數(shù)據(jù)點(diǎn)的平均亮度值,將輸入樣本的中心定位于坐標(biāo)系原點(diǎn),以去除維度對(duì)樣本的影響。對(duì)于 共m個(gè)輸入樣本,維數(shù)為 為,樣本圖像像素平鋪后的i個(gè)像素,則對(duì)于該像素而言,使該點(diǎn)像素變?yōu)?。歸一化是將像素點(diǎn)除以255,歸一到[O,1]區(qū)間,統(tǒng)一各維度取值范圍。
2.2實(shí)驗(yàn)分析
2.2.1 目標(biāo)檢測(cè)評(píng)價(jià)參數(shù)
對(duì)于目標(biāo)檢測(cè)模型,通常采用能綜合考慮精確度(Pre-cision)與召回率(Recall)的平均準(zhǔn)確率均值(mAP,MeanAverage Precision)評(píng)價(jià)模型。AP是指對(duì)某一類別識(shí)別的平均準(zhǔn)確率,mAP則可衡量對(duì)所有類別的識(shí)別效果。mAP在0-1之間,該值越大,表示模型檢測(cè)效果越好。計(jì)算公式如下:
對(duì)于實(shí)驗(yàn)?zāi)P?,mAP值為0.902,具有較好的檢測(cè)效果。
2.2.2運(yùn)行速度
采用FPS(Frame Per Second,每秒幀率),即模型每秒處理圖像的數(shù)量描述模型運(yùn)行速度。在本實(shí)驗(yàn)的硬件環(huán)境中,模型對(duì)數(shù)據(jù)集的FPS為8.9幀/秒,即一秒能夠完成對(duì)8.9張圖像的目標(biāo)檢測(cè),具有較快的檢索速度。
2.3對(duì)比實(shí)驗(yàn)設(shè)計(jì)
考慮采用不同卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并進(jìn)行模型檢測(cè)效果比較,得到不同模型性能對(duì)比如表2所示。
實(shí)驗(yàn)結(jié)果表明,總體而言,Resnetl01與Densenet201的特征提取效果更好,但Densenet201由于深度過大,模型過于復(fù)雜,耗時(shí)遠(yuǎn)超過其它模型,因此本文選取的Resnetl01具有最佳的綜合性能。
3 結(jié)語
本文提出一種針對(duì)服裝圖像的目標(biāo)檢測(cè)方法,借助殘差神經(jīng)網(wǎng)絡(luò)的特征提取能力進(jìn)行服裝圖像特征提取,通過RPN網(wǎng)絡(luò)進(jìn)行候選區(qū)域生成,調(diào)整Faster R-CNN網(wǎng)絡(luò)模型,融合服裝的高層卷積特征與底層HOG特征,從而有效提高了服裝目標(biāo)的檢測(cè)準(zhǔn)確率,并具有較快的處理速度。但由于數(shù)據(jù)集中的服裝圖像目標(biāo)一般為單個(gè),缺少對(duì)多目標(biāo)、多類別的魯棒性,未來考慮從該方面出發(fā),對(duì)服裝圖像目標(biāo)檢測(cè)作更深入的研究。
參考文獻(xiàn):
[1]王潛.基于卷積神經(jīng)網(wǎng)絡(luò)的服裝分類與目標(biāo)檢測(cè)研究[D].武漢:武漢理工大學(xué),2017.
[2]蘭麗服裝圖像自動(dòng)標(biāo)注方法研究[D].北京:北京服裝學(xué)院,2017.
[3]張振煥,周彩蘭,梁媛.基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法[J].計(jì)算機(jī)工程與科學(xué),2018,40(2):354-360.
[4]劉鵬飛視頻監(jiān)控場(chǎng)景中人數(shù)統(tǒng)計(jì)方法的研究與應(yīng)用[D].成都:
電子科技大學(xué),2017.
[5]黃凱奇,陳曉棠,康運(yùn)鋒,等智能視頻監(jiān)控技術(shù)綜述[J].計(jì)算機(jī)學(xué)報(bào),2015 .38(6): 1093-1118.
[6]YAMAZAKI K. INABA M. A cloth detection method based on image
wrinkle feature for dailv assistive robots[J].MVA,2013.
[7]PAN R. GAO W,LIU J, et al. Automatic recognition ofWoven fabricpattern based on image processing and BP neural network[J] Journalof the Textile Institute, 2011,102(1):19-30.
[8]WANG N,AI H Z,TANC F. Who hlockswho: simultaneous segmenta-tion of occluded ohjects FJl. Journal of Cnmputer Science and Tech-nology, 2013, 28(5): 890-906.
[9]LIU Z. YAN S,LLO P. et al. Fashion landmark detection in the wild[C]. European Conference on Cnmputer Vision, 2016.
[10]LIU Z, LUO P, QIU S,et al. Deepfashion: powering rohust clothesrecngnition and retrievalM-ith rich annotations[C] Computer Vision&Pattern Recognition, 20 1 6.
[II]紀(jì)娟,秦珂,楊若瑜,基于HOG和幾何特征的服裝細(xì)節(jié)要素識(shí)別與分類[J].圖學(xué)學(xué)報(bào),2016(1):84-90.
[12]曹詩雨,劉躍虎,李辛昭.基于Fast R-CNN的車輛目標(biāo)檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2017,22(5):671-677.
[13]王林,張鶴鶴Faster R-CNN模型在車輛檢測(cè)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2018,38( 3):666-670.
[14]HE K, ZHANC X. REN S, et al. Deep residual learniW for image rec-ognition[C]. Cnmputer Vision and Pattern Recognition(CVPR), 2015.
[15]CHEN Y P, LI Y. WANG G.An enhanced region propnsal networkfor ohject detection using deep learning method[J]. PloS one, 201 8.
[16] 殷文斌卷積神經(jīng)網(wǎng)絡(luò)在遙感目標(biāo)識(shí)別中的應(yīng)用研究[D].北京: 中國(guó)科學(xué)院大學(xué),2017.
[17]楚翔宇.基于深度學(xué)習(xí)的交通視頻檢測(cè)及車型分類研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2017.
[18]娜黑雅顯著區(qū)域檢測(cè)及其在服裝檢索中的應(yīng)用[D].青島:中國(guó)石油大學(xué)(華東),2014.
[19]何妮.結(jié)合顯著性目標(biāo)檢測(cè)與圖像分割的服飾提取算法研究及實(shí)現(xiàn)[D]成都:西南交通大學(xué),2015.
[20]徐勝,昊新娟基于多示例學(xué)習(xí)的圖像檢索方法[J].信息技術(shù),2014(7):106-110
(責(zé)任編輯:黃?。?/p>
收稿日期:2019-06-03
基金項(xiàng)目:浙江省科技廳(重大)項(xiàng)目(2015C03001)
作者簡(jiǎn)介:陳雙(1994-),男,浙江理工大學(xué)信息學(xué)院碩士研究生,研究方向?yàn)槿斯ぶ悄芘c機(jī)器學(xué)習(xí)、大數(shù)據(jù)技術(shù)與應(yīng)用;何利力
(1966-),男,博士,浙江理工大學(xué)信息學(xué)院教授,研究方向?yàn)閳D形圖像、人機(jī)交互、制造業(yè)信息化、企業(yè)智能、數(shù)據(jù)庫。