亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度卷積網(wǎng)絡(luò)的同款商品圖像檢索研究

2016-09-23 07:19:41張宏毅

現(xiàn)代計(jì)算機(jī) 2016年4期

關(guān)鍵詞：同款檢索卷積

張宏毅

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都　610065）

基于深度卷積網(wǎng)絡(luò)的同款商品圖像檢索研究

張宏毅

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都610065）

圖像檢索；深度卷積神經(jīng)網(wǎng)絡(luò)；深度學(xué)習(xí)

0　引言

近年來，深度神經(jīng)網(wǎng)絡(luò)技術(shù)飛速發(fā)展，在圖像、語音、自然語言處理等多個(gè)人工智能領(lǐng)域紛紛取得領(lǐng)先。深度卷積神經(jīng)網(wǎng)絡(luò)作為深度神經(jīng)網(wǎng)絡(luò)的一種，其具有獨(dú)特的類似于人眼局部感受野的卷積核，以及類似于生物神經(jīng)的層次級聯(lián)結(jié)構(gòu)。由于權(quán)值共享的特性，網(wǎng)絡(luò)的參數(shù)大大減少，同時(shí)降低了對訓(xùn)練數(shù)據(jù)過擬合的風(fēng)險(xiǎn)，具有了比其他種類的深度網(wǎng)絡(luò)更加易于訓(xùn)練的好處。自上世紀(jì)60年代Hubel及Wiesel等人提出卷積神經(jīng)網(wǎng)絡(luò)以來，其在圖像視覺等領(lǐng)域得到了普遍的研究。近期各種改進(jìn)的深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet[1]，VggNet[2]，GoogleNet[3]等不斷的刷新著LSVRC(大規(guī)模圖像識別大賽)的紀(jì)錄，甚至已經(jīng)超過人類的識別精度。與此同時(shí)隨著電商的發(fā)展，人們對于生活看到的商品，想要拍照在網(wǎng)上進(jìn)行搜索以找出同款的需求也在日益增加，高精度的大規(guī)模同款商品圖像檢索是此類應(yīng)用的基礎(chǔ)。

1　基于卷積神經(jīng)網(wǎng)絡(luò)的同款商品圖像檢索

1.1卷積神經(jīng)網(wǎng)絡(luò)的基本原理與構(gòu)成

通常的卷積神經(jīng)網(wǎng)絡(luò)的基本組成部分包括：卷積層、池化層、全連接層、損失層等。

卷積層用于識別圖像的特定局部模式，在每層卷積之后有激活函數(shù)，通常的選擇包括：tanh，sigmoid,relu等。其中tanh，sigmoid均為飽和激活函數(shù)，值域處于特定范圍。relu為值域在[0,∞)的非飽和激活函數(shù)，導(dǎo)數(shù)只為0或1，在誤差反向傳播進(jìn)時(shí)較少出現(xiàn)梯度消失，在圖像領(lǐng)域使用較多。

池化層用于對多個(gè)輸入產(chǎn)生一個(gè)輸出：通常的選擇包括：最大池化，即選擇所有輸入的最大值；平均池化，即計(jì)算所有輸入的平均值。最大池化可以產(chǎn)生較穩(wěn)定的輸出值。

損失層用于控制整個(gè)網(wǎng)絡(luò)訓(xùn)練方向：一般的損失函數(shù)包括：平方誤差、交叉熵、信息增益等。

有時(shí)為了防止全連接層的過擬合以及各個(gè)神經(jīng)元的協(xié)同適應(yīng)，會使用dropout[4]及maxout[5]方法，其基本思想均為使用隨機(jī)來防止神經(jīng)元相互依賴，同時(shí)也是模型平均思想的體現(xiàn)。

一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程包括：首先對圖像使用現(xiàn)有的卷積核進(jìn)行卷積，卷積結(jié)果經(jīng)過激活函數(shù)和池化降維之后，再次作為下一層的輸入，經(jīng)過多個(gè)層次后整個(gè)網(wǎng)絡(luò)的前饋結(jié)束，然后比較計(jì)算結(jié)果值與訓(xùn)練目標(biāo)值的誤差，為了計(jì)算網(wǎng)絡(luò)參數(shù)影響誤差的梯度，還需要將誤差反向傳回輸入層，稱作誤差反傳。反傳結(jié)束后依據(jù)梯度方向?qū)W(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)節(jié)。依據(jù)1次梯度調(diào)節(jié)所使用的輸入數(shù)據(jù)量又可以分為隨機(jī)梯度下降，批梯度下降，小批梯度下降。小批梯度下降較好地平衡了隨機(jī)性和穩(wěn)定性，在實(shí)踐中使用較多。

1.2圖像檢索框架

一般來說傳統(tǒng)的BoF檢索框架流程為：首先對圖像提取特征點(diǎn)，然后對所有圖片提取后的特征用聚類法進(jìn)行聚類形成特征詞典，接著將每張圖的特征點(diǎn)映射到特征詞上，再對特征詞和圖片建立倒排索引以加速檢索。最后使用查詢圖片的特征詞進(jìn)行倒排召回，對召回的圖片按命中特征詞數(shù)量及特征距離等指標(biāo)算分排序。

本文使用卷積神經(jīng)網(wǎng)絡(luò)的檢索流程為：首先使用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對圖像提取特征，然后對查詢圖像也同樣提取特征，最后通過訓(xùn)練的特征距離比較網(wǎng)絡(luò)來計(jì)算得分以形成排序。

2　數(shù)據(jù)與實(shí)驗(yàn)

本文使用了淘寶200W商品圖像作為訓(xùn)練數(shù)據(jù)集，圖像具有一級以及二級類目標(biāo)簽，同時(shí)具有形狀、顏色、包裝、圖案等一系列屬性，商品的屬性并不完全，大部分圖像沒有或只有很少屬性。同時(shí)另有300W無類標(biāo)及屬性的商品圖像用于檢索以及1500條的同款商品圖像列表作為真值。為了便于對檢索效果進(jìn)行評定以及排序網(wǎng)絡(luò)的訓(xùn)練，我們將1500條同款列表分為了1000條和500條兩部分，其中1000條用于排序網(wǎng)絡(luò)的訓(xùn)練，500條用于檢索效果的評定。

2.1數(shù)據(jù)預(yù)處理

由于各個(gè)二級類目下的圖像數(shù)量嚴(yán)重不均衡，本文首先對各類目訓(xùn)練圖像進(jìn)行了有放回重采樣以均衡數(shù)量，被重復(fù)抽樣到的數(shù)據(jù)隨機(jī)進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、亮度、模糊、色調(diào)等變換以增強(qiáng)訓(xùn)練數(shù)據(jù)。并統(tǒng)一縮放原始圖像到256×256大小，神經(jīng)網(wǎng)絡(luò)抽取中部227×227的圖像。

2.2屬性預(yù)測器的訓(xùn)練

由于屬性類標(biāo)的普遍缺失，本文首先用帶有屬性類標(biāo)的圖片訓(xùn)練了多個(gè)屬性預(yù)測器作為特征抽取器的一部分，為了控制總體網(wǎng)絡(luò)的參數(shù)規(guī)模，我們使用了簡化后的caffenet[6]將每個(gè)屬性預(yù)測器的卷積核的數(shù)量縮減為了caffenet的8分之1，為了更好地收斂，使用xavier替換了原有的高斯作為初始權(quán)值填充器。圖1 為屬性預(yù)測器網(wǎng)絡(luò)結(jié)構(gòu)。

圖1　

2.3排序網(wǎng)絡(luò)的訓(xùn)練

本文對每張圖片使用訓(xùn)練完畢的屬性預(yù)測器提取fc7特征并與使用原始caffenet提取的fc7特征串接。然后隨機(jī)從同款列表中抽取2張同款商品圖像作為正樣本對，從同款列表及非同款圖片列表中各抽一張圖片作為負(fù)樣本對，總共產(chǎn)生正負(fù)樣本對各30000。最后混合打亂后送入排序網(wǎng)絡(luò)進(jìn)行訓(xùn)練。圖2 為排序網(wǎng)絡(luò)的結(jié)構(gòu)：

圖2　

2.4實(shí)驗(yàn)結(jié)果

使用500條同款真值并利用MAP20標(biāo)準(zhǔn)來度量同款檢索效果，基于卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)果比基于傳統(tǒng)特征池袋模型的結(jié)果提高了57%，優(yōu)勢明顯。

3　結(jié)語

本文主要研究對比了使用卷積神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)BoF方法在大規(guī)模商品數(shù)據(jù)集下進(jìn)行同款檢索的效果，并設(shè)計(jì)和訓(xùn)練了一個(gè)可用于同款圖像檢索的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如何更好地設(shè)計(jì)一個(gè)損失目標(biāo)函數(shù)以及訓(xùn)練方法以用于圖像檢索還有待未來更深入的研究。

[1]Krizhevsky A,Sutskever I,Hinton G E.Imagenet Classification with Deep Convolutional Neural Networks[C].Advances in Neural Information Processing Systems，2012：1097-1105.

[2]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].arXiv Preprint arXiv:1409.1556, 2014.

[3]Szegedy C,Liu W,Jia Y,et al.Going Deeper with Convolutions[J].arXiv Preprint arXiv:1409.4842,2014.

[4]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:A Simple Way to Prevent Neural Networks from Overfitting[J].The Journal of Machine Learning Research,2014,15(1):1929-1958.

[5]Goodfellow I J,Warde-Farley D,Mirza M,et al.Maxout Networks[J].arXiv Preprint arXiv:1302.4389,2013.

[6]Jia Y,Shelhamer E,Donahue J,et al.Caffe:Convolutional Architecture for Fast Feature Embedding[C].Proceedings of the ACM International Conference on Multimedia.ACM,2014:675-678.

Convolution Neural Network;Image Retrieval;Deep Learning

Research on Large Scale Same Style Commodity Image Retrieval Based on Deep Convolution Neural Network

ZHANG Hong-yi
（College of Computer Science，Sichuan University，Chengdu 610065）

張宏毅（1987-），男，重慶人，碩士研究生，研究方向多媒體計(jì)算、機(jī)器智能

2015-12-08

2016-01-25

使用深度卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行大規(guī)模的同款商品圖像檢索研究，同時(shí)設(shè)計(jì)一種可利用多種類標(biāo)信息來進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)，并與傳統(tǒng)的BoF圖像檢索框架進(jìn)行對比。相較于傳統(tǒng)的方法，基于深度卷積神經(jīng)網(wǎng)絡(luò)的檢索精度有較大幅度的提高。

Designs and trains a new structure of deep convolution neural network using multi-labeled image.Uses it to do same style commodity image retrieval.Compared with traditional bag of features method,it gets a much higher MAP score.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度卷積網(wǎng)絡(luò)的同款商品圖像檢索研究

0 引言

1 基于卷積神經(jīng)網(wǎng)絡(luò)的同款商品圖像檢索

2 數(shù)據(jù)與實(shí)驗(yàn)

3 結(jié)語

0　引言

1　基于卷積神經(jīng)網(wǎng)絡(luò)的同款商品圖像檢索

2　數(shù)據(jù)與實(shí)驗(yàn)

3　結(jié)語