張宏毅
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
基于深度卷積網(wǎng)絡(luò)的同款商品圖像檢索研究
張宏毅
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
圖像檢索;深度卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)
近年來,深度神經(jīng)網(wǎng)絡(luò)技術(shù)飛速發(fā)展,在圖像、語音、自然語言處理等多個(gè)人工智能領(lǐng)域紛紛取得領(lǐng)先。深度卷積神經(jīng)網(wǎng)絡(luò)作為深度神經(jīng)網(wǎng)絡(luò)的一種,其具有獨(dú)特的類似于人眼局部感受野的卷積核,以及類似于生物神經(jīng)的層次級聯(lián)結(jié)構(gòu)。由于權(quán)值共享的特性,網(wǎng)絡(luò)的參數(shù)大大減少,同時(shí)降低了對訓(xùn)練數(shù)據(jù)過擬合的風(fēng)險(xiǎn),具有了比其他種類的深度網(wǎng)絡(luò)更加易于訓(xùn)練的好處。自上世紀(jì)60年代Hubel及Wiesel等人提出卷積神經(jīng)網(wǎng)絡(luò)以來,其在圖像視覺等領(lǐng)域得到了普遍的研究。近期各種改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet[1],VggNet[2],GoogleNet[3]等不斷的刷新著LSVRC(大規(guī)模圖像識別大賽)的紀(jì)錄,甚至已經(jīng)超過人類的識別精度。與此同時(shí)隨著電商的發(fā)展,人們對于生活看到的商品,想要拍照在網(wǎng)上進(jìn)行搜索以找出同款的需求也在日益增加,高精度的大規(guī)模同款商品圖像檢索是此類應(yīng)用的基礎(chǔ)。
1.1卷積神經(jīng)網(wǎng)絡(luò)的基本原理與構(gòu)成
通常的卷積神經(jīng)網(wǎng)絡(luò)的基本組成部分包括:卷積層、池化層、全連接層、損失層等。
卷積層用于識別圖像的特定局部模式,在每層卷積之后有激活函數(shù),通常的選擇包括:tanh,sigmoid,relu等。其中tanh,sigmoid均為飽和激活函數(shù),值域處于特定范圍。relu為值域在[0,∞)的非飽和激活函數(shù),導(dǎo)數(shù)只為0或1,在誤差反向傳播進(jìn)時(shí)較少出現(xiàn)梯度消失,在圖像領(lǐng)域使用較多。
池化層用于對多個(gè)輸入產(chǎn)生一個(gè)輸出:通常的選擇包括:最大池化,即選擇所有輸入的最大值;平均池化,即計(jì)算所有輸入的平均值。最大池化可以產(chǎn)生較穩(wěn)定的輸出值。
損失層用于控制整個(gè)網(wǎng)絡(luò)訓(xùn)練方向:一般的損失函數(shù)包括:平方誤差、交叉熵、信息增益等。
有時(shí)為了防止全連接層的過擬合以及各個(gè)神經(jīng)元的協(xié)同適應(yīng),會使用dropout[4]及maxout[5]方法,其基本思想均為使用隨機(jī)來防止神經(jīng)元相互依賴,同時(shí)也是模型平均思想的體現(xiàn)。
一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程包括:首先對圖像使用現(xiàn)有的卷積核進(jìn)行卷積,卷積結(jié)果經(jīng)過激活函數(shù)和池化降維之后,再次作為下一層的輸入,經(jīng)過多個(gè)層次后整個(gè)網(wǎng)絡(luò)的前饋結(jié)束,然后比較計(jì)算結(jié)果值與訓(xùn)練目標(biāo)值的誤差,為了計(jì)算網(wǎng)絡(luò)參數(shù)影響誤差的梯度,還需要將誤差反向傳回輸入層,稱作誤差反傳。反傳結(jié)束后依據(jù)梯度方向?qū)W(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)節(jié)。依據(jù)1次梯度調(diào)節(jié)所使用的輸入數(shù)據(jù)量又可以分為隨機(jī)梯度下降,批梯度下降,小批梯度下降。小批梯度下降較好地平衡了隨機(jī)性和穩(wěn)定性,在實(shí)踐中使用較多。
1.2圖像檢索框架
一般來說傳統(tǒng)的BoF檢索框架流程為:首先對圖像提取特征點(diǎn),然后對所有圖片提取后的特征用聚類法進(jìn)行聚類形成特征詞典,接著將每張圖的特征點(diǎn)映射到特征詞上,再對特征詞和圖片建立倒排索引以加速檢索。最后使用查詢圖片的特征詞進(jìn)行倒排召回,對召回的圖片按命中特征詞數(shù)量及特征距離等指標(biāo)算分排序。
本文使用卷積神經(jīng)網(wǎng)絡(luò)的檢索流程為:首先使用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對圖像提取特征,然后對查詢圖像也同樣提取特征,最后通過訓(xùn)練的特征距離比較網(wǎng)絡(luò)來計(jì)算得分以形成排序。
本文使用了淘寶200W商品圖像作為訓(xùn)練數(shù)據(jù)集,圖像具有一級以及二級類目標(biāo)簽,同時(shí)具有形狀、顏色、包裝、圖案等一系列屬性,商品的屬性并不完全,大部分圖像沒有或只有很少屬性。同時(shí)另有300W無類標(biāo)及屬性的商品圖像用于檢索以及1500條的同款商品圖像列表作為真值。為了便于對檢索效果進(jìn)行評定以及排序網(wǎng)絡(luò)的訓(xùn)練,我們將1500條同款列表分為了1000條和500條兩部分,其中1000條用于排序網(wǎng)絡(luò)的訓(xùn)練,500條用于檢索效果的評定。
2.1數(shù)據(jù)預(yù)處理
由于各個(gè)二級類目下的圖像數(shù)量嚴(yán)重不均衡,本文首先對各類目訓(xùn)練圖像進(jìn)行了有放回重采樣以均衡數(shù)量,被重復(fù)抽樣到的數(shù)據(jù)隨機(jī)進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、亮度、模糊、色調(diào)等變換以增強(qiáng)訓(xùn)練數(shù)據(jù)。并統(tǒng)一縮放原始圖像到256×256大小,神經(jīng)網(wǎng)絡(luò)抽取中部227×227的圖像。
2.2屬性預(yù)測器的訓(xùn)練
由于屬性類標(biāo)的普遍缺失,本文首先用帶有屬性類標(biāo)的圖片訓(xùn)練了多個(gè)屬性預(yù)測器作為特征抽取器的一部分,為了控制總體網(wǎng)絡(luò)的參數(shù)規(guī)模,我們使用了簡化后的caffenet[6]將每個(gè)屬性預(yù)測器的卷積核的數(shù)量縮減為了caffenet的8分之1,為了更好地收斂,使用xavier替換了原有的高斯作為初始權(quán)值填充器。圖1 為屬性預(yù)測器網(wǎng)絡(luò)結(jié)構(gòu)。
圖1
2.3排序網(wǎng)絡(luò)的訓(xùn)練
本文對每張圖片使用訓(xùn)練完畢的屬性預(yù)測器提取fc7特征并與使用原始caffenet提取的fc7特征串接。然后隨機(jī)從同款列表中抽取2張同款商品圖像作為正樣本對,從同款列表及非同款圖片列表中各抽一張圖片作為負(fù)樣本對,總共產(chǎn)生正負(fù)樣本對各30000。最后混合打亂后送入排序網(wǎng)絡(luò)進(jìn)行訓(xùn)練。圖2 為排序網(wǎng)絡(luò)的結(jié)構(gòu):
圖2
2.4實(shí)驗(yàn)結(jié)果
使用500條同款真值并利用MAP20標(biāo)準(zhǔn)來度量同款檢索效果,基于卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)果比基于傳統(tǒng)特征池袋模型的結(jié)果提高了57%,優(yōu)勢明顯。
本文主要研究對比了使用卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)BoF方法在大規(guī)模商品數(shù)據(jù)集下進(jìn)行同款檢索的效果,并設(shè)計(jì)和訓(xùn)練了一個(gè)可用于同款圖像檢索的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如何更好地設(shè)計(jì)一個(gè)損失目標(biāo)函數(shù)以及訓(xùn)練方法以用于圖像檢索還有待未來更深入的研究。
[1]Krizhevsky A,Sutskever I,Hinton G E.Imagenet Classification with Deep Convolutional Neural Networks[C].Advances in Neural Information Processing Systems,2012:1097-1105.
[2]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].arXiv Preprint arXiv:1409.1556, 2014.
[3]Szegedy C,Liu W,Jia Y,et al.Going Deeper with Convolutions[J].arXiv Preprint arXiv:1409.4842,2014.
[4]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A Simple Way to Prevent Neural Networks from Overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.
[5]Goodfellow I J,Warde-Farley D,Mirza M,et al.Maxout Networks[J].arXiv Preprint arXiv:1302.4389,2013.
[6]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional Architecture for Fast Feature Embedding[C].Proceedings of the ACM International Conference on Multimedia.ACM,2014:675-678.
Convolution Neural Network;Image Retrieval;Deep Learning
Research on Large Scale Same Style Commodity Image Retrieval Based on Deep Convolution Neural Network
ZHANG Hong-yi
(College of Computer Science,Sichuan University,Chengdu 610065)
張宏毅(1987-),男,重慶人,碩士研究生,研究方向多媒體計(jì)算、機(jī)器智能
2015-12-08
2016-01-25
使用深度卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行大規(guī)模的同款商品圖像檢索研究,同時(shí)設(shè)計(jì)一種可利用多種類標(biāo)信息來進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu),并與傳統(tǒng)的BoF圖像檢索框架進(jìn)行對比。相較于傳統(tǒng)的方法,基于深度卷積神經(jīng)網(wǎng)絡(luò)的檢索精度有較大幅度的提高。
Designs and trains a new structure of deep convolution neural network using multi-labeled image.Uses it to do same style commodity image retrieval.Compared with traditional bag of features method,it gets a much higher MAP score.