亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法

        2018-03-06 11:05:26張振煥周彩蘭
        關(guān)鍵詞:分類模型

        張振煥,周彩蘭,梁 媛

        (武漢理工大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430070)

        1 引言

        隨著智能手機(jī)和平板電腦的迅速普及,移動(dòng)互聯(lián)網(wǎng)飛速發(fā)展,近幾年網(wǎng)絡(luò)購物作為一種新興的商務(wù)模式,以其廉價(jià)、便捷的特點(diǎn)占據(jù)了極大的市場,并廣泛地被大眾所接受。服裝電子商務(wù)的迅猛發(fā)展也標(biāo)志著服裝商務(wù)新模式的出現(xiàn)。人們不再局限于時(shí)間和地點(diǎn),通過一部聯(lián)網(wǎng)的手機(jī)就能輕松獲得想要的商品。為了使消費(fèi)者能快速準(zhǔn)確地搜索到自己想要的服飾,如今購物網(wǎng)站如淘寶、京東、天貓商城主要通過圖像及文本標(biāo)注的方式描述商品信息,用戶通過在搜索欄中輸入關(guān)鍵字獲取商品鏈接。然而,當(dāng)用戶需求商品的周邊信息不明確時(shí),這種基于關(guān)鍵字文本的檢索方式有時(shí)很難獲取用戶的真實(shí)需求,而且隨著每天大量新圖像的產(chǎn)生,需要消耗大量人力物力來對圖像進(jìn)行精準(zhǔn)的文本標(biāo)注。同時(shí),由于不同人對同一幅圖像可能產(chǎn)生不同的理解,在對圖像進(jìn)行文本標(biāo)注時(shí),會(huì)產(chǎn)生主觀性和不確定性,進(jìn)而影響檢索結(jié)果。

        針對服裝圖像的檢索,研究者們提出了基于圖像內(nèi)容的服裝分類和檢索算法。傳統(tǒng)的服裝識(shí)別分類技術(shù)主要借助數(shù)字圖像處理、模式識(shí)別的方法,通過對圖像檢測分割、特征提取等操作,基本上都是基于底層的視覺特征或人工設(shè)計(jì)的視覺特征來實(shí)現(xiàn)服裝的分類。但是,由于服裝圖像包含非常多的細(xì)分類,也存在非常多的視覺變化,包括光照、形變、拍攝視角、鏡頭縮放尺度、背景影響等等,使得人工設(shè)計(jì)特征越來越難以滿足實(shí)際分類的需求。

        隨著深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別、 圖像分類與物體檢測的方向上都取得了很多重要的進(jìn)展,也為深度學(xué)習(xí)在服裝分類中的應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。近兩年,研究者們就把深度學(xué)習(xí)與服裝分類結(jié)合,并取得了不錯(cuò)的效果。Kiapour等人[1]把Street-to-Shop的服裝檢索場景形式化為Crossdomain的商品相似度學(xué)習(xí)問題,并設(shè)計(jì)了一種用于特定類別的相似度計(jì)算的網(wǎng)絡(luò)參數(shù)學(xué)習(xí)方式。但是,此文只基于離線卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)特征學(xué)習(xí)相似度,并沒有進(jìn)行端到端模型的探索。與上文不同,Huang等人[2]在處理街拍場景(Street Scenario)與電商場景(Shopping Scenario)服裝圖像之間的檢索問題時(shí),提出了一種端到端的雙路神經(jīng)網(wǎng)絡(luò)模型DARN(Dual Attribute-aware Ranking Network)來學(xué)習(xí)深度特征。但是,在面對更細(xì)粒度屬性的分類時(shí),該模型的分類能力還顯不足。來自香港中文大學(xué)的Liu等人[3]收集了一個(gè)規(guī)模更大且語義標(biāo)注更全面的服裝數(shù)據(jù)集DeepFashion,還提出了一種FashionNet,融合了大類、屬性、服裝ID以及關(guān)鍵點(diǎn)四種監(jiān)督信息來進(jìn)行服裝特征學(xué)習(xí)。厲智等人[4]提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)服裝圖像分類檢索算法,采用深度卷積神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)庫中自動(dòng)學(xué)習(xí)服裝的類別特征并建立哈希索引,實(shí)現(xiàn)服裝圖像的高效分類和快速索引。

        服裝分類是服裝檢測、服飾檢索的基本工作,上述研究工作都使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)服裝分類,從網(wǎng)絡(luò)低層開始逐層學(xué)習(xí)服裝圖像特征的分布,并在網(wǎng)絡(luò)的全連接層將特征圖抽象為多維的特征向量,最終將特征向量輸入分類器計(jì)算每個(gè)類別的得分,得分最高的輸出即被視為該圖像的分類結(jié)果。在選擇用于服裝分類的深度卷積網(wǎng)絡(luò)時(shí),不僅需要考慮分類的準(zhǔn)確率,還需要考慮圖片處理的實(shí)時(shí)性。如今深度卷積網(wǎng)絡(luò)的改進(jìn)朝著通過增加用于提取特征的卷積層的數(shù)量來提升模型的分類能力發(fā)展。但是,深度卷積網(wǎng)絡(luò)存在以下兩個(gè)問題:(1)隨著卷積網(wǎng)絡(luò)深度的加深,訓(xùn)練網(wǎng)絡(luò)時(shí)由于會(huì)出現(xiàn)梯度消失或梯度爆炸的問題而使訓(xùn)練變得困難[5,6]。隨著深度殘差網(wǎng)絡(luò)[7]的提出,通過給每個(gè)卷積層增加一個(gè)從輸入直接到達(dá)輸出的恒等映射連接,使得反向傳播時(shí)需要計(jì)算的梯度大于或等于1,不會(huì)隨著逐層傳播而變得很小很小,從而解決深層網(wǎng)絡(luò)訓(xùn)練時(shí)梯度消失的問題。(2)隨著網(wǎng)絡(luò)模型結(jié)構(gòu)變得復(fù)雜,網(wǎng)絡(luò)模型的參數(shù)變多,雖然這樣做可以提升準(zhǔn)確率,但是隨之帶來的便是更大的計(jì)算量和更高的內(nèi)存需求,這會(huì)極大地影響模型對輸入圖像的處理速度,當(dāng)需要實(shí)時(shí)處理巨量的用戶輸入圖像時(shí),就需要計(jì)算能力更強(qiáng)的GPU服務(wù)器作支撐來達(dá)到實(shí)時(shí)處理圖像的要求。因此,本文通過改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)來加快網(wǎng)絡(luò)處理圖像時(shí)的計(jì)算速度,以達(dá)到對輸入圖像更快的準(zhǔn)確分類。

        2 基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法

        從2010年至今,每年舉辦的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)圖像分類比賽是評估圖像分類算法的一個(gè)重要賽事。其中,2010年和2011年的獲勝隊(duì)伍都是采用的傳統(tǒng)圖像分類算法,主要使用SIFT(Scale Invariant Feature Transform)、LBP(Local Binary Pattern)[8]等算法來手動(dòng)提取特征,再將提取的特征用于訓(xùn)練SVM(Support Vector Machine)等分類器進(jìn)行分類。直到2012年的比賽中,Krizhevsky等人[9]提出的AlexNet首次將深度學(xué)習(xí)應(yīng)用于大規(guī)模圖像分類,并取得了16.4%的錯(cuò)誤率。該錯(cuò)誤率比使用傳統(tǒng)算法的第2名的參賽隊(duì)伍低了大約10%。之后卷積網(wǎng)絡(luò)結(jié)構(gòu)朝著網(wǎng)絡(luò)層數(shù)更深、卷積層個(gè)數(shù)更多的方向改進(jìn)。比如16層的VGGNet[10]、28層的GoogLeNet[11]以及之后深度殘差網(wǎng)絡(luò)的出現(xiàn),都表明了層數(shù)更深的網(wǎng)絡(luò)模型在圖像分類任務(wù)上取得了更好的分類效果。目前在對用于學(xué)習(xí)服裝圖像特征的深度卷積網(wǎng)絡(luò)的選擇上,大多數(shù)研究者使用的是AlexNet和VGGNet這兩種網(wǎng)絡(luò),其中文獻(xiàn)[1,2,4]使用了AlexNet,文獻(xiàn)[3]使用了VGGNet。上述文獻(xiàn)中用于分類的服裝類別在15~25類不等,而在解決更多類別的服裝分類問題時(shí),比如DeepFashion服裝數(shù)據(jù)集擁有46個(gè)服裝類別,由于AlexNet和VGGNet都屬于層數(shù)較少的網(wǎng)絡(luò),網(wǎng)絡(luò)學(xué)習(xí)能力和表征能力都受到網(wǎng)絡(luò)層數(shù)的限制。因此,本文提出了基于殘差的優(yōu)化深度卷積神經(jīng)網(wǎng)絡(luò),用于更多類別的服裝分類。

        2.1 基于殘差的連續(xù)小濾波器結(jié)構(gòu)

        本文提出了一種新的基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類模型,該網(wǎng)絡(luò)的主要組成部分如圖1所示,由兩個(gè)小濾波器(3*3的卷積核大小)的連續(xù)卷積層和從輸入到輸出的直接連接構(gòu)成,其中x為網(wǎng)絡(luò)輸入層或上一層的輸出,經(jīng)過非線性卷積層得到f(x),與自身的恒等映射相加構(gòu)成該結(jié)構(gòu)的輸出y。

        Figure 1 Continuous small filter structure based on residual圖1 基于殘差的連續(xù)小濾波器結(jié)構(gòu)

        (1)

        本文采用兩個(gè)連續(xù)的濾波器大小為3*3的卷積層,使得圖像經(jīng)過兩次非線性激活函數(shù)計(jì)算,增強(qiáng)了模型對于復(fù)雜程度和非線性程度的表達(dá)能力和泛化能力。因?yàn)榭紤]到使用更多連續(xù)的濾波器組合會(huì)使得模型層數(shù)增多,參數(shù)更多,當(dāng)數(shù)據(jù)集不大時(shí)訓(xùn)練容易出現(xiàn)過擬合的情況;同時(shí)會(huì)增加模型處理圖像的時(shí)間,因此選擇使用兩個(gè)連續(xù)的小濾波器卷積層結(jié)構(gòu)。

        卷積神經(jīng)網(wǎng)絡(luò)在每次訓(xùn)練完一小批量的圖像之后,代價(jià)函數(shù)會(huì)計(jì)算預(yù)測結(jié)果與真實(shí)值的距離并得到一個(gè)用于反向傳播時(shí)從輸出層開始逐層往前更新網(wǎng)絡(luò)權(quán)重的損失值。設(shè)loss為代價(jià)函數(shù)求得的損失值,代價(jià)函數(shù)為l(·),則loss的計(jì)算公式如下:

        loss=l(on)

        (2)

        其中,on是網(wǎng)絡(luò)第n層的輸出特征圖,in是第n層的輸入也是第n-1層的輸出,每一層輸出特征圖的計(jì)算公式如下:

        on=fn(in,wn,bn)

        (3)

        隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷加深,反向傳播時(shí)用于更新權(quán)重的梯度會(huì)逐層變小,導(dǎo)致無法對網(wǎng)絡(luò)前面幾層的權(quán)重進(jìn)行調(diào)整。公式(4)所示為反向傳播時(shí)對網(wǎng)絡(luò)第一層求偏導(dǎo)數(shù)的梯度計(jì)算公式:

        (4)

        從公式(4)可以看出,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)層數(shù)很多時(shí),通過反向傳播計(jì)算得到的淺層梯度已經(jīng)很小很小,幾乎無法對淺層網(wǎng)絡(luò)權(quán)值進(jìn)行更新,進(jìn)而減弱了淺層網(wǎng)絡(luò)的學(xué)習(xí)能力。

        如圖1所示,殘差連接是一種快速連接[12],直接跨越一層或多層,它將輸入通過恒等映射轉(zhuǎn)換成輸出。此時(shí)每一層的梯度計(jì)算公式如下:

        (5)

        在網(wǎng)絡(luò)中加入殘差連接,可以使得梯度在反向傳播時(shí)永遠(yuǎn)大于或等于1,解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問題。

        2.2 殘差網(wǎng)絡(luò)中的激活層

        在卷積神經(jīng)網(wǎng)絡(luò)中加入激活函數(shù),可以提升網(wǎng)絡(luò)的非線性建模能力。如果沒有激活函數(shù),那么網(wǎng)絡(luò)僅能夠表達(dá)線性映射,即使網(wǎng)絡(luò)有很多卷積層,整個(gè)網(wǎng)絡(luò)和單層神經(jīng)網(wǎng)絡(luò)也是等價(jià)的,因此在網(wǎng)絡(luò)中加入激活函數(shù)是很有必要的。本文采用文獻(xiàn)[13]中提出的線性校正單元ReLU(Rectified Linear Units)f(x)=max(0,x)作為激活函數(shù)。ReLU函數(shù)能夠在x>0時(shí)保持梯度不衰減,從而緩解梯度消失問題,與傳統(tǒng)激活函數(shù)sigmoid、tanh相比可以更快地達(dá)到相同的訓(xùn)練誤差和更高的準(zhǔn)確率。

        深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,實(shí)際上是一個(gè)學(xué)習(xí)數(shù)據(jù)分布的過程。訓(xùn)練網(wǎng)絡(luò)時(shí)每一層的權(quán)重都在發(fā)生變化。網(wǎng)絡(luò)淺層權(quán)重更新時(shí),該層的輸出特征圖也隨之發(fā)生變化,導(dǎo)致下一層的權(quán)重需要重新學(xué)習(xí)這個(gè)新的數(shù)據(jù)分布,進(jìn)而會(huì)影響之后每一層的權(quán)重更新。由于每一層需要的學(xué)習(xí)率不一樣,在訓(xùn)練網(wǎng)絡(luò)時(shí)通常要使用較小的學(xué)習(xí)率才能保證代價(jià)函數(shù)的損失值有所下降,這會(huì)影響網(wǎng)絡(luò)的訓(xùn)練速度。而本文加入批量歸一化(batch normalization)[14]算法,先對每一層的輸入數(shù)據(jù)做一個(gè)歸一化處理(歸一化為均值為0,標(biāo)準(zhǔn)差為1),使得數(shù)據(jù)分布穩(wěn)定,在訓(xùn)練時(shí)就可以使用較大的學(xué)習(xí)率,從而加快網(wǎng)絡(luò)收斂,提高訓(xùn)練速度。

        如圖2所示為一般的“卷積層+BN層+ReLU層”的排序順序,BN層和ReLU層都會(huì)放在卷積層之后。

        Figure 2 Order in the traditional network圖2 傳統(tǒng)網(wǎng)絡(luò)中的排列順序

        這樣的排序順序在殘差網(wǎng)絡(luò)中存在以下兩個(gè)問題:(1)殘差模塊的輸入分成兩個(gè)支路向深層傳遞,而右邊非線性支路的輸入特征圖直接經(jīng)過卷積層,并未經(jīng)過BN層的歸一化處理,這樣便失去了引入BN層的意義;(2)由于ReLU函數(shù)的恒正性,非線性支路的最后輸出總是非負(fù)的,因此隨著層數(shù)的加深,輸入會(huì)逐層疊加變大,這樣很可能會(huì)影響網(wǎng)絡(luò)的表征能力。本文針對上述存在的兩個(gè)問題,提出了一種新的用于非線性支路中的“BN層+ReLU層+卷積層”的排列順序,如圖3所示,圖中虛線框內(nèi)的網(wǎng)絡(luò)結(jié)構(gòu)其實(shí)還是和圖2所示的傳統(tǒng)結(jié)構(gòu)一樣,本文提出的排列方法很好地將傳統(tǒng)方法應(yīng)用到殘差網(wǎng)絡(luò)中,既保持了左邊支路的恒等映射,又保證了右邊支路具有非線性學(xué)習(xí)能力,且加快了網(wǎng)絡(luò)訓(xùn)練速度。

        Figure 3 Order in the residual network圖3 殘差網(wǎng)絡(luò)中的排列順序

        2.3 并行池化結(jié)構(gòu)

        卷積網(wǎng)絡(luò)由卷積層和池化層組成,網(wǎng)絡(luò)通過池化來降低卷積層輸出的特征向量,同時(shí)改善分類結(jié)果,使模型不易出現(xiàn)過擬合。常見的兩種池化層為平均池化層和最大池化層。平均池化層的作用是指在池化過程中,對指定的池化域內(nèi)所有值求和并提取其平均數(shù)作為子采樣特征圖中的值;最大池化層則是提取指定的池化域內(nèi)的最大值作為子采樣圖的特征值。一般的卷積網(wǎng)絡(luò)在降維處理時(shí)直接在卷積層之后加入池化層,由于對特征圖進(jìn)行池化操作之后會(huì)丟失3/4的特征信息,這樣會(huì)導(dǎo)致模型的特征表達(dá)能力遇到瓶頸。

        本文的池化層部分選擇了“最大池化+卷積層”的并行化模塊的池化結(jié)構(gòu),加入額外的卷積層,通過卷積的方式學(xué)習(xí)特征的同時(shí)縮小特征圖,解決了傳統(tǒng)網(wǎng)絡(luò)池化操作時(shí)會(huì)出現(xiàn)特征信息丟失的問題。采用最大池化層是因?yàn)樘崛〕鼗騼?nèi)的最大值更有利于學(xué)習(xí)圖像的紋理分布。

        2.4 全局均值池化

        對于分類問題,傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)[5,15]會(huì)將最后一個(gè)卷積層的特征圖通過量化之后與全連接層連接,最后再連接一個(gè)用于分類的softmax邏輯回歸分類層。然而,由于全連接層參數(shù)個(gè)數(shù)太多,網(wǎng)絡(luò)參數(shù)大部分都聚集在全連接層,這樣會(huì)使得網(wǎng)絡(luò)模型容易出現(xiàn)過擬合現(xiàn)象,降低了網(wǎng)絡(luò)泛化能力。

        本文將一般網(wǎng)絡(luò)中的全連接層替換為平均池化層。與全連接層不同的是,我們對最后一個(gè)卷積層輸出的每個(gè)特征圖進(jìn)行全局均值池化,使得每張?zhí)卣鲌D都可以得到一個(gè)輸出結(jié)果。采用均值池化,可以大大減少網(wǎng)絡(luò)參數(shù)個(gè)數(shù),避免模型過擬合,加快模型訓(xùn)練速度和計(jì)算速度;另一方面,每張?zhí)卣鲌D相當(dāng)于一個(gè)輸出特征,該特征即表示輸出類別的特征。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)準(zhǔn)備

        本文通過在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上做實(shí)驗(yàn)來驗(yàn)證本文網(wǎng)絡(luò)的性能:CIFAR-10和香港中文大學(xué)多媒體實(shí)驗(yàn)室提供的服裝數(shù)據(jù)集DeepFashion。

        實(shí)驗(yàn)平臺(tái)包括:PC機(jī),Intel Core i7,顯卡型號GTX1070, 8 GB顯存,Ubuntu操作系統(tǒng),caffe深度學(xué)習(xí)框架。在實(shí)驗(yàn)中,本文提出了一個(gè)新的網(wǎng)絡(luò)—Res-FashionNet,網(wǎng)絡(luò)框架主要由九個(gè)如圖1所示的殘差模塊組合而成,每三個(gè)殘差模塊之后都連接一個(gè)”最大池化+卷積層”的并行化模塊的池化結(jié)構(gòu)用于網(wǎng)絡(luò)降維。為了防止模型過擬合,在第2個(gè)并行池化結(jié)構(gòu)之后添加dropout層,將該層任意一半的輸出特征圖上的像素值設(shè)置為0。特別地,在最后的分類輸出層,使用全局均值池化層替代了全連接層。本文將該網(wǎng)絡(luò)與目前常用的服裝分類的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)AlexNet、VGGNet作性能比較。由于未采用完全的網(wǎng)絡(luò)訓(xùn)練優(yōu)化方法,無法達(dá)到最優(yōu)的精度,但都保證了每個(gè)網(wǎng)絡(luò)采用相同的訓(xùn)練方法。

        本文采用小批量梯度下降方法(Mini-batch gradient Descent)和常用的梯度下降優(yōu)化算法——?jiǎng)恿糠?Momentum)來訓(xùn)練模型。在訓(xùn)練時(shí)對數(shù)據(jù)集采用mirror的數(shù)據(jù)增強(qiáng)方式,增大數(shù)據(jù)集。學(xué)習(xí)率的調(diào)整采用固定的更新策略,初始學(xué)習(xí)率設(shè)置為0.01,在CIFAR-10數(shù)據(jù)集上的訓(xùn)練中,分別在60 epochs、120 epochs和180 epochs時(shí)將學(xué)習(xí)率降低為上一次的0.1。而在DeepFashion數(shù)據(jù)集的測試中,則設(shè)置了分別在10 epochs、20 epochs和30 epochs時(shí)將學(xué)習(xí)率降低為上一次的0.1。

        3.2 CIFAR-10

        CIFAR-10數(shù)據(jù)集包含10個(gè)類別的圖像,共有50 000張圖像作為訓(xùn)練集,10 000張圖像作為測試集驗(yàn)證。每張圖像大小為32*32,網(wǎng)絡(luò)訓(xùn)練和測試時(shí)輸入處理的每批圖像數(shù)量為50張。如圖4所示為三個(gè)網(wǎng)絡(luò)的訓(xùn)練收斂情況,縱坐標(biāo)為損失值,橫坐標(biāo)為訓(xùn)練迭代次數(shù)。從圖4和表1中可以看出,本文提出的優(yōu)化殘差網(wǎng)絡(luò)在準(zhǔn)確率和收斂速度上都優(yōu)于VGGNet和AlexNet。相較于AlexNet,VGGNet基于3*3的卷積核構(gòu)建了更深的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合文獻(xiàn)[11]中同樣是將深層網(wǎng)絡(luò)GoogLeNet用于圖像分類賽事(ILSVRC)并取得了很好的結(jié)果,都表明了當(dāng)卷積神經(jīng)網(wǎng)絡(luò)達(dá)到一定的深度之前,隨著網(wǎng)絡(luò)層數(shù)加深,模型的學(xué)習(xí)能力和表征能力越強(qiáng),收斂也越快。但是,當(dāng)網(wǎng)絡(luò)規(guī)模達(dá)到一定的深度之后,模型的分類精度并不會(huì)隨著層數(shù)的增加而增加,網(wǎng)絡(luò)訓(xùn)練會(huì)出現(xiàn)梯度彌散[8]的問題。

        Figure 4 Network training convergence圖4 網(wǎng)絡(luò)訓(xùn)練收斂情況

        網(wǎng)絡(luò)模型Top1準(zhǔn)確率/%網(wǎng)絡(luò)訓(xùn)練消耗內(nèi)存/(MB)訓(xùn)練時(shí)間(秒/200次迭代)網(wǎng)絡(luò)層數(shù)AlexNet87.12105988VGGNet89.2436684016Res-FashionNet92.1261457833

        那么既然現(xiàn)在的網(wǎng)絡(luò)訓(xùn)練方法難以訓(xùn)練我們認(rèn)為的網(wǎng)絡(luò)層數(shù)越深,學(xué)習(xí)能力越好的模型,本文對此問題的改進(jìn)想法是嘗試降低模型學(xué)習(xí)的難度,讓前饋網(wǎng)絡(luò)學(xué)習(xí)到的映射關(guān)系由原來的g(X)=X變成g(X)=F(X)+X,其中X是網(wǎng)絡(luò)中每一層的輸入。我們可以轉(zhuǎn)換為學(xué)習(xí)一個(gè)殘差函數(shù)F(X)=g(X)-X。只要F(X)=0,就構(gòu)成了一個(gè)恒等映射g(X)=X。下面舉例說明網(wǎng)絡(luò)引入殘差效果會(huì)更好。

        假設(shè)F(X)是輸入經(jīng)過線性函數(shù)的求和前網(wǎng)絡(luò)映射,g(X)是從輸入到求和后的網(wǎng)絡(luò)映射,g(X)=F(X)+X。比如把輸入5映射到輸出5.1,那么引入殘差前是F′(5)=5.1,引入殘差后是g(5)=5.1,g(5)=F(5)+5,F(5)=0.1。這里的F′和F都表示線性函數(shù)映射,下面證明引入殘差后的映射對輸出的變化更敏感。假設(shè)輸出從5.1變化為5.2,映射F′的輸出增加了1/51=2%,而對于殘差網(wǎng)絡(luò)從5.1到5.2,映射F是從0.1到0.2,增加了100%。明顯后者輸出變化對權(quán)重的調(diào)整作用更大,所以效果更好。

        總結(jié)而言,殘差連接在網(wǎng)絡(luò)中的作用相當(dāng)于差分放大器。殘差的思想是去掉相同的主體部分,從而突出微小的變化。另一方面,深層網(wǎng)絡(luò)在反向梯度傳播時(shí),由于殘差連接的存在,梯度永遠(yuǎn)不會(huì)小于1;若某一層的梯度接近于1,則相當(dāng)于該層的線性網(wǎng)絡(luò)部分梯度為0,可訓(xùn)練權(quán)值不更新,但梯度仍然可以反向傳播,這樣就不會(huì)影響深層網(wǎng)絡(luò)的訓(xùn)練。

        如表1所示,使用基于殘差的卷積網(wǎng)絡(luò)沒有因?yàn)閷訑?shù)加深而出現(xiàn)訓(xùn)練困難的問題,和AlexNet相比,Top1準(zhǔn)確率提升了5%。而與使用全連接層的VGGNet相比,本文使用全局均值池化層替換全連接層,大大減少了網(wǎng)絡(luò)參數(shù),因此雖然本文網(wǎng)絡(luò)層數(shù)是VGGNet的2倍,但訓(xùn)練消耗內(nèi)存并沒有成雙倍增加,訓(xùn)練速度的下降也在可接受范圍內(nèi),同時(shí)準(zhǔn)確率還提升了3%,也說明了本文提出的一系列優(yōu)化網(wǎng)絡(luò)的方法提高了卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力。

        3.3 DeepFashion

        DeepFashion包含超過80萬張服裝圖像,其中有商店里發(fā)布的規(guī)范的圖像,也有買家發(fā)布的自拍照。每張圖像都有詳細(xì)的標(biāo)簽標(biāo)注。該數(shù)據(jù)集由四個(gè)部分組成,分別對應(yīng)四個(gè)基于服裝數(shù)據(jù)集的圖像處理任務(wù):分類和屬性預(yù)測、服裝關(guān)鍵點(diǎn)預(yù)測、服裝店內(nèi)檢索、服裝跨域檢索。本文中用來做服裝分類實(shí)驗(yàn)的數(shù)據(jù)即來自上文提到的分類和屬性預(yù)測部分,共29萬張圖像,包含Tee、Top、Blouse等46個(gè)服裝類別標(biāo)簽,是目前已知的圖像數(shù)量最多、標(biāo)簽信息最全的公開服裝數(shù)據(jù)集。

        該數(shù)據(jù)集由于圖像初始尺寸參差不齊,大小各異,綜合全部圖像取圖像長寬的均值,制作數(shù)據(jù)集時(shí)統(tǒng)一將尺寸resize設(shè)為251*251。如表2所示,其中FashionNet為文獻(xiàn)[3]中提出的網(wǎng)絡(luò),除了AlexNet,其它兩個(gè)模型的分類準(zhǔn)確率都比FashionNet的好,而本文提出的Res-FashionNet得到了目前已知的在該數(shù)據(jù)集上最好的準(zhǔn)確率,Top3分類精度相較于FashionNet提升了3.4%,Top5提升了2.2%。

        為了檢驗(yàn)?zāi)P偷膶?shí)際應(yīng)用能力,需要對模型做進(jìn)一步測試。測試工作分為兩方面:(1)測試四種模型處理圖像所需的時(shí)間;(2)測試模型對數(shù)據(jù)集外隨機(jī)圖像的分類效果。因此,本文自制兩組測試集分別用于上述兩組測試:(1)從互聯(lián)網(wǎng)上爬取大小不限的100張服裝圖像用于測試模型處理圖像所需時(shí)間;(2)按照46類別服裝每一類搜集20張左右的圖像,并確保類別正確,圖像大小不限。一共收集了1 000張服裝圖像制作模型分類測試集。

        Table 2 Top3 and Top5 accuracy rate comparison on the DeepFashion dataset

        在實(shí)際應(yīng)用服裝分類模型時(shí),不僅需要考慮模型分類的準(zhǔn)確性,更需要考慮模型進(jìn)行圖像處理所需要的時(shí)間。模型處理圖像的速度主要是由網(wǎng)絡(luò)參數(shù)個(gè)數(shù)和網(wǎng)絡(luò)計(jì)算方式所決定的。計(jì)算方式主要是求卷積核參數(shù)和輸入的內(nèi)積,本文沒有針對這一點(diǎn)進(jìn)行改進(jìn)。而VGGNet網(wǎng)絡(luò)的參數(shù)多達(dá)13 800多萬個(gè),其中網(wǎng)絡(luò)的第一個(gè)全連接層的參數(shù)為7*7*512*4096≈1億。全連接層的參數(shù)占了網(wǎng)絡(luò)總參數(shù)的3/4,參數(shù)太多一方面會(huì)降低模型的訓(xùn)練速度和前饋計(jì)算速度,另一方面會(huì)增加模型的復(fù)雜度,使模型出現(xiàn)過擬合現(xiàn)象。因此,本文使用核大小為7*7的均值池化層替換全連接層,前面的網(wǎng)絡(luò)由16層增加到33層,最終本文網(wǎng)絡(luò)的參數(shù)個(gè)數(shù)為7 000多萬個(gè),通過增加網(wǎng)絡(luò)層數(shù)來增加模型的表征能力,又大大減少了網(wǎng)絡(luò)參數(shù)個(gè)數(shù)來提高模型的處理速度。

        如表3所示,比較三個(gè)模型處理圖像的速度,AlexNet最快,但由于網(wǎng)絡(luò)層數(shù)過淺,卷積核個(gè)數(shù)不多,并不具有很高的分類精度。其次便是本文提出的Res-FashionNet,在Top1和Top3的準(zhǔn)確率上都優(yōu)于VGGNet和AlexNet,而且在處理圖像速度上,大大地優(yōu)于VGGNet處理圖像的速度,該實(shí)驗(yàn)結(jié)果也說明了本文對網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)是可行的。相較于VGGNet和AlexNet,本文提出的網(wǎng)絡(luò)更適合于多類別的服裝圖像分類。由于網(wǎng)絡(luò)上獲取的圖像相較于DeepFashion中的圖像背景更為復(fù)雜,且圖像中人物拍攝角度多樣,服裝容易發(fā)生變形或被遮擋,導(dǎo)致了這里的Top3準(zhǔn)確率相較于表2低了10%,這也是之后進(jìn)一步研究更精確的服裝圖像分類時(shí)應(yīng)考慮的問題。

        Table 3 Performance comparison of the three models on the self-made test dataset

        4 結(jié)束語

        針對如今已知的服裝分類算法在大型服裝數(shù)據(jù)集上分類精度一般的情況,本文提出了基于殘差的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)服裝分類算法,在提高分類精度的同時(shí)擁有較快的圖像處理速度。該網(wǎng)絡(luò)的主要組成結(jié)構(gòu)采用基于殘差的連續(xù)小濾波器卷積結(jié)構(gòu),在可以接受的網(wǎng)絡(luò)層數(shù)范圍內(nèi)最大化網(wǎng)絡(luò)的非線性學(xué)習(xí)能力,也采用殘差連接解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問題;同時(shí),結(jié)合傳統(tǒng)的激活層BN+ReLU與殘差網(wǎng)絡(luò)結(jié)合提出了改進(jìn)的“BN+ReLU+卷積層”的結(jié)構(gòu),使用并行池化結(jié)構(gòu)替代傳統(tǒng)的單一池化層,增強(qiáng)了模型的表征能力;特別地,將平均池化層替代全連接層,減少了網(wǎng)絡(luò)參數(shù),加快了訓(xùn)練速度和模型處理圖像的速度,且在一定程度上防止了過擬合。本文提出的網(wǎng)絡(luò)在服裝圖像的分類精度和處理速度上相較于目前常用的基于深度學(xué)習(xí)的圖像分類模型都有所提高。在接下來的工作中研究的內(nèi)容主要為圖像中的服裝主體檢測,通過去除背景干擾提高服裝的分類精度。

        [1] Kiapour M H,Han Xu-feng,Lazebnik S,et al.Where to buy it:Matching street clothing photos in online shops [C]∥Proc of ICCV,2015:3343-3351.

        [2] Huang Jun-shi, Feris R S,Chen Qiang,et al.Cross-domain image retrieval with a dual attribute-aware ranking network [C]∥Proc of ICCV,2015:1062-1070.

        [3] Liu Zi-wei, Luo Ping,Qiu Shi,et al.DeepFashion:Powering robust clothes recognition and retrieval with rich annotations [C]∥Proc of CVPR,2016:1096-1104.

        [4] Li Zhi, Sun Yu-bao, Wang Feng, et al.Garment image classification retrieval algorithm based on deep convolution neural network [J]. Computer Engineering,2016,42(11):309-315.(in Chinese)

        [5] Bengio Y,Simard P,Frasconi P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks,2002,5(2):157-166.

        [6] Glorot X,Bengio Y.Understanding the difficulty of training deep feedforward neural networks [J].Journal of Machine Learning Research,2010(9):249-256.

        [7] He Kai-ming,Zhang Xiang-yu,Ren Shao-qing.et al.Deep residual learning for image recognition [C]∥Proc of CVRP,2015:770-778.

        [8] Ojala T, Pietikainen M,Harwood D.Multiresolution gray scale and rotation invariant texture classification with local binary patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI),2002,24(7):971-987.

        [9] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks [C]∥Proc of International Conference on Advances in Neural Information Processing Systems,2012:1-9.

        [10] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [C]∥Proc of ICLR’2015, 2015:1-14.

        [11] Szegedy C,Liu Wei,Jia Yang-qing,et al.Going deeper with convolutions [C]∥Proc of CVPR,2015:1-9.

        [12] Srivastava R K,Greff K,Schmidhuber J.Highway networks [C]∥ICML 2015 Deep Learning workshop,2015:1-6.

        [13] Nair V,Hinton G E.Rectified linear units improve restricted boltzmann machines [C]∥Proc of International Conference on Machine Learning,2010:807-814.

        [14] Ioffe S, Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift [J].Computer Science,2015,arXiv:1502.03167.

        [15] Goodfellow I J, David Warde-Farley,Mehdi Mirza,et al. Maxout networks [J].JMLR WCP,2013,28(3):1319-1327.

        附中文參考文獻(xiàn):

        [4] 厲智,孫玉寶,王楓,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的服裝圖像分類檢索算法[J].計(jì)算機(jī)工程,2016,42(11):309-315.

        猜你喜歡
        分類模型
        一半模型
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        西西人体大胆视频无码| 久久精品成人无码观看不卡| 成人做爰高潮尖叫声免费观看| 亚洲一区二区三区av在线免费| 一级二级三一片内射视频| 国产自拍视频在线观看网站| 在线播放免费播放av片| 亚洲免费黄色| 国产精品久久中文字幕亚洲| av免费在线播放视频| 性裸交a片一区二区三区| 91精品手机国产在线能| 日韩av在线不卡观看| 亚洲综合一区二区三区天美传媒| 人妻少妇精品中文字幕av| 国产啪精品视频网给免丝袜| 免费毛片一区二区三区女同| 亚洲人妻调教中文字幕| 亚洲av日韩av无码污污网站| 精品亚洲日韩国产一二三区亚洲| 日本一区二区在线看看| 51国产偷自视频区视频| 国产无遮挡裸体免费视频| 国产国拍亚洲精品福利| 91九色极品探花内射| 亚洲欧美日韩精品久久| 国自产偷精品不卡在线| 国产成人麻豆精品午夜福利在线| 欧美中文在线观看| 国产目拍亚洲精品二区| 久久精品一区午夜视频| 国产无遮挡无码视频免费软件| 国产精品原创av片国产日韩| 国产av一级二级三级| 日本真人做爰免费视频120秒| 久久中文精品无码中文字幕下载| 久久久久亚洲av成人网址| 日本一区二区三区免费| 18岁日韩内射颜射午夜久久成人| 人妻少妇边接电话边娇喘| 无码一区二区三区在线在看|