亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于度量學(xué)習(xí)的服裝圖像分類和檢索

2017-04-24 10:25:08包青平孫志鋒

計算機應(yīng)用與軟件 2017年4期

關(guān)鍵詞：檢索標(biāo)簽語義

包青平孫志鋒

(浙江大學(xué)電氣工程學(xué)院浙江杭州 310058)

基于度量學(xué)習(xí)的服裝圖像分類和檢索

包青平孫志鋒

(浙江大學(xué)電氣工程學(xué)院浙江杭州 310058)

在服裝圖像分類和檢索問題上，由于服裝花紋樣式的多樣性和圖像中不同環(huán)境背景的影響，普通卷積神經(jīng)網(wǎng)絡(luò)的辨識能力有限。針對這種情況，提出一種基于度量學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)方法，其中度量學(xué)習(xí)基于triplet loss實現(xiàn)，由此該網(wǎng)絡(luò)有參考樣本、正樣本和負樣本共三個輸入。通過度量學(xué)習(xí)可以減小同類別特征間距，增大不同類別特征間距，從而達到細分類的目的。此外把不同背景環(huán)境下的圖像作為正樣本輸入訓(xùn)練網(wǎng)絡(luò)以提高抗干擾能力。在服裝檢索問題上，提出融合卷積層特征和全連接層特征的精細檢索方法。實驗結(jié)果表明，度量學(xué)習(xí)的引入可以增強網(wǎng)絡(luò)的特征提取能力，提高分類準(zhǔn)確性，而基于融合特征的檢索可以保證結(jié)果的精確性。

服裝分類檢索多標(biāo)簽度量學(xué)習(xí)

0 引言

近年來，網(wǎng)上購物越來越流行，網(wǎng)購交易量也逐年增加，而服裝網(wǎng)絡(luò)零售是其中第一大類目，占比約25%。服裝電子商務(wù)的快速發(fā)展，促進了服裝圖像分類、檢索技術(shù)的進步。目前在國內(nèi)各大電商購物平臺，比如淘寶、京東等，主要是通過關(guān)鍵字或文本來檢索圖像。該技術(shù)要求事先對服裝圖像進行細分類并打上相應(yīng)的標(biāo)簽。但是隨著服裝圖像數(shù)量的爆發(fā)式增長，其缺點越來越顯著。首先，關(guān)鍵字只能描述易于提取的語義特征，并不能全面地反映服裝的特征；其次，人工標(biāo)注工作量大且主觀性誤差[1]。隨著圖像處理技術(shù)的發(fā)展，出現(xiàn)了以圖搜圖技術(shù)，即通過對圖像特征的提取，獲得特征表示，然后進行相似性度量或聚類，從而獲得檢索和分類結(jié)果。而基于圖像處理技術(shù)的服裝圖像檢索和商品推薦也獲得了越來越多的關(guān)注[2-4]。

傳統(tǒng)圖像特征描述方法包括GIST特征[5]、SIFT特征[6]、HOG特征[7]等。在背景、光照等的影響下，應(yīng)用這些方法在服裝圖像分類和檢索中往往準(zhǔn)確率不高或者方法過于復(fù)雜。Bossard等[8]融合HOG、SURF、LBP特征，采用遷移森林進行服裝圖像多類別分類，只取得41.36%的準(zhǔn)確率。Liu等[3]使用人體部位檢測器檢測圖像中人物主體的關(guān)鍵區(qū)域，如肩、膝蓋等部位，然后提取和融合這些區(qū)域的HOG、LBP、顏色矩、顏色直方圖等特征，以此進行圖像檢索。

近年來，深度學(xué)習(xí)取得了突破性的進展，其中卷積神經(jīng)網(wǎng)絡(luò)CNN(convolutional neural network)已成為圖像領(lǐng)域的研究熱點。Krizhevsky等[9]提出的深層CNN模型在ILSVRC2012中取得了巨大的突破，并引發(fā)了CNN研究的熱潮。本文深入分析了使用CNN進行服裝圖像的多標(biāo)簽細分類和檢索，并引入基于triplet loss[10-11]的度量學(xué)習(xí)以提高網(wǎng)絡(luò)特征提取能力，從而提高分類準(zhǔn)確度，之后融合該網(wǎng)絡(luò)卷積層和全連接層的特征輸出進行圖像檢索。

1 卷積神經(jīng)網(wǎng)絡(luò)

CNN是為識別二維形狀而設(shè)計的一種多層感知器，是深度神經(jīng)網(wǎng)絡(luò)的一種。CNN通常由多個卷積層、池化層和全連接層組成。

卷積層通常用于提取圖像的局部特征，如邊緣信息等。卷積層中采用了權(quán)值共享，從而大大減少了權(quán)值的數(shù)量，降低了網(wǎng)絡(luò)模型的復(fù)雜度。卷積層的輸入為：

z(l+1)=w(l)x(l)+b(l)

(1)

輸出為：

x(l+1)=f(z(l))

(2)

式(1)中w(l)為第1層的卷積核，b(l)為偏置，式(2)中f(·)為激活函數(shù)，目前普遍使用的激活函數(shù)是ReLU函數(shù)[12]，使用該激活函數(shù)主要是能避免梯度消失問題。

池化層仿照人的視覺系統(tǒng)進行降維(下采樣)，抽象圖像特征表示，使得CNN具有一定的平移和旋轉(zhuǎn)不變性。根據(jù)下采樣方式的不同，可以分為均值池化、最大值池化、隨機池化三種[13]，在分類任務(wù)中采用較多的是最大值池化。

全連接層通常用于輸出，根據(jù)不同的目標(biāo)函數(shù)連接相應(yīng)的損失層，比如分類任務(wù)中，通常會連接Softmax分類器。

2 服裝圖像分類

在使用CNN進行圖像分類時，一般包括圖片預(yù)處理、網(wǎng)絡(luò)訓(xùn)練和訓(xùn)練參數(shù)調(diào)優(yōu)等步驟，其總體流程如圖1所示。其中預(yù)處理主要是把圖像變化為符合CNN輸入需求的標(biāo)準(zhǔn)圖像。在誤差反向傳播過程中，通常使用隨機梯度下降法SGD(stochasticgradientdescent)進行參數(shù)更新。通過多次的前向和反向傳播，不斷地更新卷積層、全連接層等的參數(shù)，使得網(wǎng)絡(luò)逐步逼近最優(yōu)解。

圖1 CNN網(wǎng)絡(luò)訓(xùn)練流程

2.1 多標(biāo)簽分類

常見的CNN網(wǎng)絡(luò)通常用于單標(biāo)簽分類，而我們所要處理的服裝圖像通常有多個語義屬性，比如花紋、領(lǐng)型等，單標(biāo)簽學(xué)習(xí)并不適用，因此需要采用多標(biāo)簽[14]或多任務(wù)學(xué)習(xí)[15]。本文采用了多標(biāo)簽學(xué)習(xí)，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。輸入圖像大小為256×256，提取該圖像227×227的子塊或其鏡像作為CNN的輸入。網(wǎng)絡(luò)淺層為3個卷積模塊(包括卷積層和池化層)，結(jié)構(gòu)和AlexNet[9]中的定義一致。由于各個屬性標(biāo)簽之間沒有明顯的相關(guān)關(guān)系，因此全連接層FC2層由多個獨立的、平行的子層組成，各子層連接相關(guān)屬性的Softmax分類器，所有的FC2子層共享FC1的輸出。

圖2 多標(biāo)簽學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)

2.2 度量學(xué)習(xí)

(3)

其中T是所有三元組的集合，α為閾值參數(shù)。從而損失函數(shù)tripletloss可表達為：

(4)

進一步可以得到損失函數(shù)的偏導(dǎo)數(shù)如下：

(5)

(6)

(7)

從tripletloss的定義可以發(fā)現(xiàn)，該損失函數(shù)除了可以增大不同類別間的距離之外，還減小了同類間的距離，因此可以提取更精細的特征。

在本文的服裝圖像分類和檢索問題中，環(huán)境背景、光照等因素往往會影響卷積神經(jīng)網(wǎng)絡(luò)的效果，因此可以選擇不同場景下同類別的圖像作為正樣本輸入進行訓(xùn)練，這樣可以增強網(wǎng)絡(luò)的特征提取能力。本文最終使用的CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示，由于有3個輸入圖像，因此有3個平行的共享參數(shù)的CNN網(wǎng)絡(luò)。這3個CNN網(wǎng)絡(luò)的FC1的輸出，經(jīng)過L2規(guī)范化后輸入tripletloss層。因此網(wǎng)絡(luò)總的損失函數(shù)為：

L=ωLtriple+(1-ω)Lsoftmax

(8)

參數(shù)ω表示tripletloss所占比重。

圖3 加入triplet loss的CNN網(wǎng)絡(luò)

3 服裝圖像檢索

通常訓(xùn)練好的CNN網(wǎng)絡(luò)具備良好的特征提取能力，因此可以使用CNN的分類預(yù)測結(jié)果和隱含層的特征向量進行圖像檢索，檢索流程如圖4所示。在神經(jīng)網(wǎng)絡(luò)中，深層特征往往代表圖像總體的、抽象的特征，而淺層特征則更多地代表具體的局部特征。因此選擇不同的隱含層輸出作為特征向量進行檢索可能會得到不同的結(jié)果。

圖4 使用CNN進行圖像檢索的流程

在服裝圖像檢索時，以往通常根據(jù)服裝語義屬性進行快速檢索[18]，但是語義屬性往往是抽象屬性，并不能描述一些細致的特征，因此若能同時考慮圖像細致特征，則可以提高檢索的精確度。本文采取融合卷積層Conv3和全連接層FC1的輸出作為特征向量進行檢索，其中Conv3的輸出是13×13×384=64 896維，F(xiàn)C1的輸出是4 096維，融合后是68 992維，之后進行降維處理用于檢索。

4 實驗和分析

4.1 數(shù)據(jù)集

實驗所用的服裝圖像均采集自互聯(lián)網(wǎng)，總共28 057張，其中22 057張用于訓(xùn)練，剩下6 000張用于檢測。數(shù)據(jù)集中，大約80%采集自淘寶、亞馬遜等購物網(wǎng)站，這些圖像沒有復(fù)雜的背景，人物主體突出；其余20%圖像來自社交網(wǎng)絡(luò)，會有不同的背景和光照條件。本文主要對服裝的5類語義屬性進行分析，如表1所示，其中上身服裝的主要屬性有圖案、袖子長短、領(lǐng)口形狀，下身服裝屬性有形狀和長短。

表1 服裝的語義屬性

4.2 服裝圖像分類

在使用tripletloss的網(wǎng)絡(luò)中，如何選擇三元組樣本關(guān)系到網(wǎng)絡(luò)的整體性能。若訓(xùn)練集大小為n，則所有可能的三元組選擇為n3種。如果隨機選取的話，則可能大部分選中的三元樣本的損失函數(shù)值為0，從而在后向傳播中對參數(shù)的更新起的作用很小[19]，因此要盡可能選取對tripletloss有貢獻的樣本。本文中采取了如下方法：每迭代5 000次，重新采樣生成三元組的方法。采樣時，首先使用當(dāng)前的網(wǎng)絡(luò)獲取每張圖像的特征表達；對于某張參考圖像，根據(jù)式(9)計算概率來選取3張同類別的正樣本圖像，從式子的定義可以發(fā)現(xiàn)特征間距越大的同類圖像越容易被選中。采取隨機選擇而不是直接選擇特征間距最大的，是因為這樣可以減少可能存在的噪聲樣本所帶來的影響。此外還需保證正樣本中有來自于不用的環(huán)境場景的圖像。對于負樣本的選取，簡單地選擇不屬于本類的特征距離最近的3張圖像。

(9)

其中Pi,j表示對于第i張圖像，選中同類別的第j張圖像作為正樣本的概率，αi,j表示第i、j兩張圖像特征向量的歐氏距離。

在訓(xùn)練過程中，學(xué)習(xí)速率的初始值設(shè)為0.01，每經(jīng)過10 000次迭代將學(xué)習(xí)速率減小為原來的1/10，動量設(shè)置為0.9，權(quán)重衰減系數(shù)設(shè)置為0.000 2。在引入tripletloss進行訓(xùn)練時，設(shè)置式(3)中的閾值參數(shù)α設(shè)置為0.8，式(8)中的參數(shù)ω設(shè)置為0.3，訓(xùn)練總共迭代20 000次。圖5對比了兩種網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練過程，其中ML-CNN表示多標(biāo)簽網(wǎng)絡(luò)，tML-CNN表示加入了tripletloss的多標(biāo)簽網(wǎng)絡(luò)。從圖中可以發(fā)現(xiàn)ML-CNN收斂速度比tML-CNN的快，迭代6 000次后已經(jīng)收斂。另外，由于在tML-CNN訓(xùn)練過程中要重新采樣生成三元組，因此tripletloss在其后期迭代中起主要作用。從測試準(zhǔn)確率中也可看出，前5次測試時ML-CNN和tML-CNN的準(zhǔn)確率相當(dāng)，之后ML-CNN的測試準(zhǔn)確率基本保持穩(wěn)定，而tML-CNN的測試準(zhǔn)確率緩慢上升直至穩(wěn)定。

圖5 網(wǎng)絡(luò)訓(xùn)練過程

表2為各語義屬性的最終分類結(jié)果，從表中可以發(fā)現(xiàn)多標(biāo)簽網(wǎng)絡(luò)由于要同時識別多個屬性，準(zhǔn)確性往往比單標(biāo)簽的要低，而加入tripletloss之后可以提高多標(biāo)簽網(wǎng)絡(luò)的分類準(zhǔn)確性，對各個屬性的分類準(zhǔn)確性均有4%左右的提升。

表2 服裝屬性分類結(jié)果

4.3 服裝圖像檢索

我們構(gòu)建了一個含15 000張圖像的服裝圖像數(shù)據(jù)庫，每張圖像都標(biāo)注了語義屬性，然后把每張圖像輸入到訓(xùn)練好的網(wǎng)絡(luò)中，提取Conv3和FC1的特征輸出，之后進行PCA訓(xùn)練，降維到1 024維。檢索圖像時，為了加快檢索速度，首先選取有相同語義屬性的服裝，然后比較待查圖像和數(shù)據(jù)庫中圖像的特征向量的距離來獲得檢索結(jié)果。實驗平臺下檢索一張圖像花費約1.5s，其中大部分時間用于特征向量的比較上。

表3說明了以不同的隱含層輸出特征進行檢索的結(jié)果，其中Conv3&FC1表示融合Conv3和FC1層的特征，Top-k(表中k分別取5和10)準(zhǔn)確率表示前k個檢索結(jié)果中包含有待檢索圖像的準(zhǔn)確率。從表中可以看出融合Conv3和FC1特征比單獨采用它們進行檢索的準(zhǔn)確率要高，有近3%的提升。

表3 服裝屬性分類結(jié)果

此外由于檢索時采用了使用語義屬性來縮小檢索范圍以加快檢索的方法，因此若待檢索圖像的語義屬性預(yù)測錯誤，那么檢索結(jié)果就會出錯。因此對于分類準(zhǔn)確率不高的語義屬性在檢索時可以不予考慮，比如表2中，領(lǐng)型的分類準(zhǔn)確性相對較低，那么在檢索時可以選擇忽略這個語義屬性。

服裝圖像檢索結(jié)果示例如圖6所示，從圖中可以看到檢索結(jié)果不僅體現(xiàn)了全局的語義屬性信息，而且包含了局部了紋理信息。

圖6 服裝圖像檢索示例(每行第一張圖片為輸入，后五張為檢索結(jié)果)

5 結(jié) 語

本文提出了一種基于度量學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)方法用于服裝圖像的分類和檢索。該網(wǎng)絡(luò)使用了多標(biāo)簽分類，可以同時識別圖像中服裝的多個屬性。基于tripletloss的度量學(xué)習(xí)的引進可以增強網(wǎng)絡(luò)的特征提取能力，提高分類準(zhǔn)確性。對于服裝圖像檢索問題，使用了融合了卷積層輸出和全連接層輸出的特征向量，同時保留了服裝的整體和局部信息。在檢索過程中，首先定位有相同屬性的圖像，然后比較各圖像特征向量間的相似性，從而得到檢索結(jié)果。

[1] 盧興敬.基于內(nèi)容的服裝圖像檢索技術(shù)研究及實現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008.

[2]ManfrediM,GranaC,CalderaraS,etal.Acompletesystemforgarmentsegmentationandcolorclassification[J].MachineVisionandApplications,2014,25(4):955-969.

[3]LiuS,SongZ,LiuG,etal.Street-to-shop:Cross-scenarioclothingretrievalviapartsalignmentandauxiliaryset[C]//ComputerVisionandPatternRecognition(CVPR),2012IEEEConferenceon.IEEE,2012:3330-3337.

[4]JagadeeshV,PiramuthuR,BhardwajA,etal.Largescalevisualrecommendationsfromstreetfashionimages[C]//Proceedingsofthe20thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.ACM,2014:1925-1934.

[5]OlivaA,TorralbaA.Modelingtheshapeofthescene:aholisticrepresentationofthespatialenvelope[J].InternationalJournalofComputerVision,2001,42(3):145-175.

[6]LoweDG.Distinctiveimagefeaturesfromscale-invariantkeypoints[J].InternationalJournalofComputerVision,2004,60(2):91-110.

[7]DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//ComputerVisionandPatternRecognition,2005IEEEComputerSocietyConferenceon.IEEE,2005:886-893.

[8]BossardL,DantoneM,LeistnerC,etal.Apparelclassificationwithstyle[C]//11thAsianConferenceonComputerVision.Springer,2012:321-335.

[9]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[C]//AdvancesinNeuralInformationProcessingSystems25,2012:1106-1114.

[10]HofferE,AilonN.Deepmetriclearningusingtripletnetwork[C]//3rdInternationalWorkshoponSimilarity-BasedPatternAnalysisandRecognition.SpringerInternationalPublishing,2015:84-92.

[11]SchroffF,KalenichenkoD,PhilbinJ.FaceNet:Aunifiedembeddingforfacerecognitionandclustering[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition,2015:815-823.

[12]MaasAL,HannunAY,NgAY.Rectifiernonlinearitiesimproveneuralnetworkacousticmodels[C]//Proceedingsofthe30thInternationalConferenceonMachineLearning(ICML),2013:1-6.

[13]ZeilerMD,FergusR.Stochasticpoolingforregularizationofdeepconvolutionalneuralnetworks[DB].arXivpreprintarXiv:1301.3557,2013.

[14]WeiY,XiaW,HuangJ,etal.CNN:Single-labeltomulti-label[DB].arXivpreprintarXiv:1406.5726,2014.

[15]AbdulnabiAH,WangG,LuJ,etal.Multi-taskCNNmodelforattributeprediction[J].IEEETransactionsonMultimedia,2015,17(11):1949-1959.

[16]ChopraS,HadsellR,LeCunY.Learningasimilaritymetricdiscriminatively,withapplicationtofaceverification[C]//ComputerVisionandPatternRecognition,2005IEEEComputerSocietyConferenceon,2005:539-546.

[17]HadsellR,ChopraS,LeCunY.Dimensionalityreductionbylearninganinvariantmapping[C]//ComputerVisionandPatternRecognition,2006IEEEComputerSocietyConferenceon.IEEE,2006:1735-1742.

[18]LinK,YangHF,LiuKH,etal.Rapidclothingretrievalviadeeplearningofbinarycodesandhierarchicalsearch[C]//Proceedingsofthe5thACMInternationalConferenceonMultimediaRetrieval.ACM,2015:499-502.

[19]WangJ,SongY,LeungT,etal.Learningfine-grainedimagesimilaritywithdeepranking[C]//ComputerVisionandPatternRecognition(CVPR),2014IEEEConferenceon.IEEE,2014:1386-1393.

CLOTHING IMAGE CLASSIFICATION AND RETRIEVAL BASED ON METRIC LEARNING

Bao Qingping Sun Zhifeng

(CollegeofElectricalEngineering,ZhejiangUniversity,Hangzhou310058,Zhejiang,China)

On the problem of clothing image classification and retrieval, the general convolutional neural network has limited ability to identify because of diverse patterns and different backgrounds in image. To solve this problem, a convolution neural network method based on metric learning is proposed, in which the metric learning is based on the triplet loss, and the network has three inputs: the reference sample, the positive sample and the negative sample. By means of metric learning, it is possible to reduce the intra-class feature distance and increase the inter-class feature distance, so as to achieve the fine-grained classification. In addition, the images in different backgrounds are input into the training network as positive samples to improve the anti-interference ability. On the problem of clothing retrieval, a fine-grained retrieval method is proposed, which combines features of convolutional layers and fully-connected layers. The experimental results show that the introduction of metric learning can enhance the feature extraction ability of the network and improve the accuracy of classification, and the retrieval based on combined features can ensure the accuracy of the results.

Clothing Classification Retrieval Multi-label Metric learning

2016-03-17。包青平，碩士生，主研領(lǐng)域：深度學(xué)習(xí)。孫志鋒，副教授。

TP391.4

10.3969/j.issn.1000-386x.2017.04.043

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于度量學(xué)習(xí)的服裝圖像分類和檢索

0 引 言

1 卷積神經(jīng)網(wǎng)絡(luò)

2 服裝圖像分類

3 服裝圖像檢索

4 實驗和分析

5 結(jié) 語

0 引言