亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的露脊鯨識(shí)別

        2016-09-24 01:31:34趙江華四川大學(xué)計(jì)算機(jī)學(xué)院成都610065
        現(xiàn)代計(jì)算機(jī) 2016年5期
        關(guān)鍵詞:分塊圖像識(shí)別卷積

        趙江華(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        基于深度卷積神經(jīng)網(wǎng)絡(luò)的露脊鯨識(shí)別

        趙江華
        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        0 引言

        深度學(xué)習(xí)的概念起源于人工神經(jīng)網(wǎng)絡(luò),是指具有多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)通過(guò)多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)數(shù)據(jù)中多層次的表達(dá),這種表達(dá)具有很好的抽象性,能夠?qū)W習(xí)到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。目前,深度學(xué)習(xí)已經(jīng)在語(yǔ)音識(shí)別,圖像目標(biāo)識(shí)別檢測(cè)和其他眾多領(lǐng)域,例如藥物檢測(cè)和基因科學(xué),都取得了迄今為止最好的效果[1]。

        深度學(xué)習(xí)其實(shí)是通過(guò)梯度反向傳播算法(BP)去優(yōu)化一個(gè)定義在多層神經(jīng)網(wǎng)絡(luò)上的性能函數(shù),從而使網(wǎng)絡(luò)從大量數(shù)據(jù)中學(xué)習(xí)到數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。Hinton早在1986年就提出了BP算法[2],然而由于梯度消失,局部極小等問(wèn)題的存在,以及當(dāng)時(shí)計(jì)算機(jī)的計(jì)算能力和訓(xùn)練數(shù)據(jù)量都太小,神經(jīng)網(wǎng)絡(luò)方法沒(méi)有取得成功。直到2006年,Hinton提出的貪心的逐層訓(xùn)練算法為深度學(xué)習(xí)取得了突破性的進(jìn)展[3]。貪心的逐層訓(xùn)練算法解決了深度學(xué)習(xí)在訓(xùn)練上的難點(diǎn),并且多層次的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的學(xué)習(xí)能力,得到的特征具有更好的表達(dá)能力,從而可以更好地進(jìn)行分類和可視化。從2006年開(kāi)始,深度學(xué)習(xí)逐漸進(jìn)入工業(yè)應(yīng)用和學(xué)術(shù)研究,現(xiàn)已成為機(jī)器學(xué)習(xí)最熱門(mén)的領(lǐng)域。

        目前,典型的深度學(xué)習(xí)的網(wǎng)絡(luò)模型有卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Network)、受限莫爾茲曼機(jī)(Restricted Boltzmann Machines)、堆棧式自動(dòng)編碼機(jī)(Stacked Auto-encoder Network)以及回復(fù)式神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)。其中,深度卷積神經(jīng)網(wǎng)絡(luò)取得的成功尤為矚目,科學(xué)家們使用卷積神經(jīng)網(wǎng)絡(luò)在處理圖像識(shí)別[4-5]、視頻分類[6-7]、語(yǔ)音識(shí)別[8]上都取得了突破性進(jìn)展。

        卷積神經(jīng)網(wǎng)絡(luò)是一種受生物視覺(jué)系統(tǒng)啟發(fā),具有特殊結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),它的計(jì)算過(guò)程主要分為卷積運(yùn)算和池化運(yùn)算。其中卷積運(yùn)算具有局部連接和權(quán)值共享的特點(diǎn),這符合自然圖像特點(diǎn):同一圖像的不同區(qū)域具有相同的統(tǒng)計(jì)特性,這意味著我們可以將在圖像部分區(qū)域?qū)W習(xí)到的特征應(yīng)用到整幅圖像上。池化運(yùn)算可以有效降低圖像特征維度,篩選出其中重要的特征。通過(guò)卷積和池化運(yùn)算,可以大幅減少模型參數(shù)數(shù)量,提高網(wǎng)絡(luò)的泛化能力。

        本文討論的露脊鯨識(shí)別其本身就是一個(gè)圖像識(shí)別問(wèn)題,圖像識(shí)別現(xiàn)在成熟的方法是使用深度卷積神經(jīng)模型作分類,但在這里我們卻不能直接使用原始圖像作為深度卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,一是原始圖像分辨率很高,而鯨魚(yú)在圖像中所占比例比較小,有大面積的背景,二是帶標(biāo)簽的圖像數(shù)據(jù)相對(duì)較少。為了解決這些問(wèn)題,本文提出在訓(xùn)練階段通過(guò)人工標(biāo)記,從帶標(biāo)簽圖像中截取出鯨魚(yú)頭部圖像和海水背景圖像,訓(xùn)練我們的模型;預(yù)測(cè)階段先將需要預(yù)測(cè)的圖像滑動(dòng)分塊,對(duì)這些分塊后的子圖分別進(jìn)行識(shí)別,然后從這些識(shí)別結(jié)果中選一個(gè)最好的作為整幅圖像的識(shí)別結(jié)果。

        圖1 露脊鯨圖片

        1 實(shí)驗(yàn)介紹

        1.1數(shù)據(jù)集介紹

        本數(shù)據(jù)集是Kaggle上Right Whale Recognition比賽的數(shù)據(jù),一共9G左右,共有10469張露脊鯨照片,尺寸從五百萬(wàn)像素到上千萬(wàn)像素不等。其中帶有標(biāo)簽的照片4544張,分別標(biāo)記了其照片來(lái)自那一條露脊鯨,剩下的還有6925張照片,需要我們給出預(yù)測(cè)結(jié)果。這些照片一共來(lái)自447條露脊鯨。

        本次比賽采用在線測(cè)評(píng)方式,用戶提交預(yù)測(cè)結(jié)果,系統(tǒng)給出評(píng)價(jià)。在線測(cè)評(píng)采用對(duì)數(shù)損失函數(shù)作為評(píng)價(jià)標(biāo)準(zhǔn)。具體公式如下,其中,N為測(cè)試樣本數(shù)量,M為目標(biāo)類別數(shù)量,yi,j表示第i個(gè)照片是否屬于第j個(gè)鯨魚(yú),是為1,否則為0,pi,j是模型對(duì)i個(gè)樣本預(yù)測(cè)其是j類的概率。為了避免計(jì)算上的問(wèn)題,將pi,j限定在[e-15,1-e-15]。

        1.2數(shù)據(jù)預(yù)處理

        由于原始照片大小不一樣,我們需要將圖像縮放到相同大小,考慮到原始圖像長(zhǎng)寬比都是2比3,以及圖像中露脊鯨可識(shí)別性,我們首先將所有圖片都縮小到1024×1536大小。然后對(duì)帶標(biāo)簽的圖像,將其中露脊鯨頭部人工標(biāo)記出來(lái)。根據(jù)標(biāo)記結(jié)果,從露脊鯨頭部附近截取256×256大小的區(qū)域,截取的時(shí)候進(jìn)行一定范圍的平移和旋轉(zhuǎn),可以擴(kuò)大訓(xùn)練樣本。同時(shí),我們還從不是露脊鯨頭部的區(qū)域隨機(jī)選擇256×256大小的區(qū)域作為海水背景樣本。這樣我們就根據(jù)帶標(biāo)簽的圖像獲得了帶有露脊鯨頭部和海水背景的256×256的樣本集,將海水背景設(shè)為第448類。然后我們將不帶標(biāo)簽的圖像采用256×256的窗口進(jìn)行滑動(dòng)分塊,長(zhǎng)寬方向上滑動(dòng)步長(zhǎng)均為128,每張圖像得到77張子圖像,用來(lái)做照片預(yù)測(cè)。最終,我們得到160000個(gè)訓(xùn)練樣本,共448個(gè)類別,以及533225個(gè)待預(yù)測(cè)的子圖像。

        圖2 

        1.3網(wǎng)絡(luò)設(shè)計(jì)

        針對(duì)本文數(shù)據(jù),我們采用AlexNet[5]作為我們實(shí)驗(yàn)的網(wǎng)絡(luò)。該網(wǎng)絡(luò)共11層,包括5個(gè)卷積層,3個(gè)池化層,2個(gè)全連接層,最后接Softmax層。整個(gè)網(wǎng)絡(luò)除了最后Softmax層外,其余各層都采用半線形函數(shù)ReLU作為激活函數(shù),這樣既可以簡(jiǎn)化計(jì)算,縮短訓(xùn)練時(shí)間,同時(shí)還可以避免梯度消失的問(wèn)題。在池化層進(jìn)行重疊池化(Overlapping Pooling),可以在某種程度上降低了過(guò)擬合(Overfitting)的幾率。此外,我們還在網(wǎng)絡(luò)的2個(gè)全連接層使用一種正則化方法Dropout,避免在完全連接層上出現(xiàn)過(guò)擬合的現(xiàn)象。網(wǎng)絡(luò)的實(shí)際輸入并不是3×256× 256,而是3×224×224,這樣我們可以在訓(xùn)練階段從輸入圖像上隨機(jī)截取網(wǎng)絡(luò)3×224×224的塊進(jìn)行訓(xùn)練,測(cè)試階段就截取輸入圖像中心區(qū)域的塊進(jìn)行測(cè)試,這樣就擴(kuò)大了訓(xùn)練數(shù)據(jù),提高網(wǎng)絡(luò)泛化能力。

        表1 

        表1 AlexNet網(wǎng)絡(luò)具體配置,Conv表示卷積層,Max-Pooling表示最大池化層,Inner-Product表示全連接層,Softmax表示分類層

        2 結(jié)果討論

        我們的深度卷積神經(jīng)網(wǎng)絡(luò)采用Caffe框架實(shí)現(xiàn),運(yùn)行在GPU計(jì)算平臺(tái)上,運(yùn)行效率很高。訓(xùn)練階段,網(wǎng)絡(luò)采用step學(xué)習(xí)策略,初始學(xué)習(xí)率為0.01,20000次迭代后學(xué)習(xí)率乘以0.1,為了消除震蕩,我們也使用了沖量學(xué)習(xí),沖量設(shè)為0.9,一共迭代150000次,批處理大小為128。整個(gè)訓(xùn)練過(guò)程需要36個(gè)小時(shí),訓(xùn)練結(jié)束后,我們測(cè)試77張子圖大概需要4.7s,整個(gè)預(yù)測(cè)過(guò)程大概需要9個(gè)小時(shí),最后我們?cè)诰€測(cè)試獲得3.72的對(duì)數(shù)損失。同時(shí),除了在分塊后的圖像上進(jìn)行訓(xùn)練和測(cè)試外,我們還將原始圖像壓縮到256×256大小進(jìn)行訓(xùn)練預(yù)測(cè),最后獲得5.93的對(duì)數(shù)損失。實(shí)驗(yàn)表明直接將原始圖像壓縮識(shí)別效果很差,這主要是因?yàn)槟繕?biāo)在圖像所占比例太小,當(dāng)進(jìn)行壓縮過(guò)后,目標(biāo)信息損失太多,以致目標(biāo)幾乎無(wú)法識(shí)別。我們的方法就是最大限度的呈現(xiàn)目標(biāo)信息給我們的訓(xùn)練模型,使模型能夠提前有用的特征,使分類識(shí)別更加準(zhǔn)確。

        3 結(jié)語(yǔ)

        本文主要采用深度學(xué)習(xí)方法,結(jié)合先進(jìn)的深度學(xué)習(xí)框架Caffe和強(qiáng)大計(jì)算能力的GPU平臺(tái),對(duì)高分辨率的鯨魚(yú)圖片進(jìn)行了識(shí)別。實(shí)驗(yàn)結(jié)果顯示,我們的方法解決了圖像分辨率高,待識(shí)別目標(biāo)占圖像比例小的問(wèn)題,取得了較好的識(shí)別效果。由此可見(jiàn),對(duì)原始圖像作適當(dāng)分塊處理,可以有效提高目標(biāo)占比小的圖像識(shí)別效果,同時(shí)深度卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)出了強(qiáng)大的學(xué)習(xí)能力,在圖像識(shí)別問(wèn)題上具有很大優(yōu)勢(shì)。在今后的工作中,我們會(huì)嘗試將深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合回復(fù)式神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)圖片大小自適應(yīng)的目標(biāo)識(shí)別模型。

        [1]LeCun,Y.,Bengio,Y.,Hinton,G.2015.Deep Learning.Nature 521,436-444.

        [2]Rumelhart D E,Hinton G E,Williams R J.Learning Internal Representations by Error Propagation[R].California Univ San Diego La Jolla Inst For Cognitive Science,1985.

        [3]Hinton G E,Osindero S,Teh Y W.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18(7):1527-1554.

        [4]A.Krizhevsky,I.Sutskever,G.E.Hinton.ImageNet Classification with Deep Convolutional Neural Networks.In NIPS,2012:1106-1114.

        [5]K.Simonyan,A.Zisserman.Very Deep Convolutional Networks for Large-Scale Image Recognition.CoRR,abs/1409.1556,2014.

        [6]A.Karpathy,G.Toderici,S.Shetty,T.Leung,R.Sukthankar,and L.Fei-Fei.Large-Scale Video Classification with Convolutional Neural Networks.In CVPR,pages 1725-1732,2014.

        [7]J.Y.-H.Ng,M.Hausknecht,S.Vijayanarasimhan,O.Vinyals,R.Monga,and G.Toderici.Beyond Short Snippets:Deep Networks for Video Classification.In CVPR,pages 4694–4702,2015.

        [8]O.Abdel-Hamid,A.-R.Mohamed,H.Jiang,L.Deng,G.Penn,D.Yu.Convolutional Neural Networks for Speech Recognition.IEEE/ ACM Trans.Audio,Speech,Lang.Process.,vol.22,no.10,pp.1533-1545,Oct.2014.

        Deep Learning;Image Recognition;Deep Convolutional Neural Network

        Right Whale Recognition Based on Deep Convolutional Neural Network

        ZHAO Jiang-hua

        (College of Computer Science,Sichuan University,Chengdu 610065)

        1007-1423(2016)05-0045-04

        10.3969/j.issn.1007-1423.2016.05.010

        趙江華(1990-),男,四川達(dá)州人,碩士研究生,研究方向?yàn)闄C(jī)器智能

        2015-12-31

        2016-02-10

        采用深度學(xué)習(xí)的方法,將原圖像分塊成一系列子圖像,訓(xùn)練子圖像的分類模型,根據(jù)子圖像分類結(jié)果得到原圖像分類結(jié)果。與直接縮小原始圖像進(jìn)行識(shí)別的結(jié)果進(jìn)行比較。實(shí)驗(yàn)顯示,相對(duì)于直接縮小原始圖像,該方法有了很大提高,最終獲得3.72對(duì)數(shù)損失,實(shí)驗(yàn)表明所提出的方法是有效的。

        圖像識(shí)別;深度學(xué)習(xí);深度卷積神經(jīng)網(wǎng)絡(luò)

        Uses deep learning,blocks original images into a series of sub-images,trains a classification model of sub-images,and predicts original image class based on sub-images'classification results.At the same time,compares the result of the proposed method with scaling original images directly to proper size.The experiment shows that,compared to scaling original images directly,the proposed method achieved great improvement with a final point 9.075.This suggests the effective of the proposed method.

        猜你喜歡
        分塊圖像識(shí)別卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        分塊矩陣在線性代數(shù)中的應(yīng)用
        基于Resnet-50的貓狗圖像識(shí)別
        電子制作(2019年16期)2019-09-27 09:34:50
        高速公路圖像識(shí)別技術(shù)應(yīng)用探討
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        圖像識(shí)別在物聯(lián)網(wǎng)上的應(yīng)用
        電子制作(2018年19期)2018-11-14 02:37:04
        圖像識(shí)別在水質(zhì)檢測(cè)中的應(yīng)用
        電子制作(2018年14期)2018-08-21 01:38:16
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        反三角分塊矩陣Drazin逆新的表示
        基于自適應(yīng)中值濾波的分塊壓縮感知人臉識(shí)別
        久草视频在线视频手机在线观看| 99国产精品久久久蜜芽| 久久尤物AV天堂日日综合| 亚洲国产成人精品91久久久| 久久99亚洲网美利坚合众国| 黄网站a毛片免费观看久久| 国产另类av一区二区三区| 在线观看麻豆精品视频| 日本高清一区二区三区不卡| 夜夜高潮夜夜爽免费观看| 国产三级精品视频2021| 亚洲av无码国产综合专区| 亚洲国产成人久久综合下载| 欧美午夜精品久久久久久浪潮| 久草国产视频| 精品人妻av区乱码| 日本一曲二曲三曲在线| 沐浴偷拍一区二区视频| 色偷偷亚洲第一成人综合网址| 真实国产老熟女粗口对白| 日韩毛片在线看| 色婷婷色99国产综合精品| 亚洲一区有码在线观看| 亚洲一区二区刺激的视频| 高清毛茸茸的中国少妇| 欧美日韩视频在线第一区| 国产真实乱人偷精品人妻| 久久青草国产精品一区| 最好的99精品色视频大全在线| 国产精品自线一区二区三区| 国产动作大片中文字幕| 女性女同性aⅴ免费观女性恋 | 亚洲精品中文字幕不卡在线| 免费观看在线一区二区| 亚洲视频一区二区三区视频| 一本久久a久久精品vr综合| 黑人巨大白妞出浆| 国产成人AV无码精品无毒| 激情人妻中出中文字幕一区| 亚洲国产一区二区中文字幕| 欧美顶级少妇作爱|