亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RPN與B-CNN的細(xì)粒度圖像分類算法研究

        2019-04-01 09:10:10趙浩如劉國柱
        關(guān)鍵詞:細(xì)粒度識(shí)別率對(duì)象

        趙浩如 張 永 劉國柱

        (青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院 山東 青島 266000)

        0 引 言

        作為計(jì)算機(jī)視覺的重要研究方向,圖像分類[1]問題一直備受學(xué)者關(guān)注。圖像分類又包括對(duì)象級(jí)分類,如對(duì)貓和狗進(jìn)行分類。還包括細(xì)粒度分類[2],如對(duì)狗的不同品種進(jìn)行分類。由于細(xì)微的類內(nèi)差異,往往只能借助微小的局部差異才能分出不同的子類別,使得細(xì)粒度分類十分具有挑戰(zhàn)性。細(xì)粒度分類的方法主要包括兩種:一種是基于強(qiáng)監(jiān)督的分類模型,如Part-based R-CNN[3]不僅需要物體級(jí)標(biāo)注,還需要局部區(qū)域的標(biāo)注,這大大限制了在實(shí)際場(chǎng)景的應(yīng)用;另一種是基于弱監(jiān)督的分類模型,如B-CNN[4]僅僅需要圖像級(jí)別的標(biāo)注,不需要局部信息的標(biāo)注。因此,基于弱監(jiān)督的分類模型在識(shí)別精度上要比基于強(qiáng)監(jiān)督的分類模型差一些。Huang等[5]提出了Part-Stacked CNN進(jìn)行細(xì)粒度分類。這個(gè)網(wǎng)絡(luò)需要提供對(duì)象及部位級(jí)標(biāo)簽,它分為定位網(wǎng)絡(luò)和分類網(wǎng)絡(luò)兩個(gè)子網(wǎng)絡(luò),采用經(jīng)典的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)作為整個(gè)網(wǎng)絡(luò)的基本結(jié)構(gòu)。Shen等[6]提出一種迭代的傳遞策略來優(yōu)化目標(biāo)框,借助對(duì)象及部分級(jí)標(biāo)注框進(jìn)行細(xì)粒度分類。Yao等[7]提出了多級(jí)的由粗到細(xì)的目標(biāo)描述方法進(jìn)行細(xì)粒度分類,不需借助標(biāo)注框,但識(shí)別率不如最前沿的算法。Liu等[8]提出了基于全連接的注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行細(xì)粒度分類,未考慮各層特征間的聯(lián)系。Murabito等[9]提出顯著性特征分類網(wǎng)絡(luò)(SalClassNet)。它包括兩個(gè)子網(wǎng)絡(luò),網(wǎng)絡(luò)A計(jì)算輸入圖片的顯著性特征,網(wǎng)絡(luò)B計(jì)算網(wǎng)絡(luò)A輸出的顯著性特征進(jìn)行細(xì)粒度分類,計(jì)算顯著性特征首先要計(jì)算圖像像素對(duì)應(yīng)正確分類標(biāo)準(zhǔn)化分?jǐn)?shù)梯度的絕對(duì)值,然后取三個(gè)顏色通道的最大值,因此,計(jì)算成本太高。綜上,為避免人工標(biāo)注部位級(jí)標(biāo)簽花費(fèi)的巨大時(shí)間,以及減少計(jì)算成本。本文提出利用soft-nms和OHEM優(yōu)化RPN算法得到更精確的對(duì)象級(jí)標(biāo)注,以防止背景的干擾,同時(shí)改進(jìn)B-CNN網(wǎng)絡(luò),加強(qiáng)不同層特征間的空間聯(lián)系,提高識(shí)別精度。

        1 算法描述

        為利用細(xì)微的類內(nèi)差異,本文采用OHEM[10]篩選出對(duì)識(shí)別結(jié)果影響大的數(shù)據(jù),可以有效防止無關(guān)信息的干擾。然后,利用soft-nms[11]優(yōu)化RPN[12]網(wǎng)絡(luò),選擇出置信度更高的目標(biāo)所在區(qū)域。最后,改進(jìn)B-CNN網(wǎng)絡(luò)結(jié)構(gòu)對(duì)目標(biāo)區(qū)域進(jìn)行細(xì)粒度分類,具體的算法流程如圖1所示。

        圖1 算法流程圖

        1.1 獲取目標(biāo)區(qū)域

        RPN網(wǎng)絡(luò)的作用是輸入一張圖像,輸出置信度排名前N個(gè)目標(biāo)可能在的區(qū)域。本文利用OHEM篩選出對(duì)最終識(shí)別結(jié)果影響大的樣本,并用篩選后樣本進(jìn)行隨機(jī)梯度下降。去除了對(duì)識(shí)別結(jié)果影響小的樣本后,有效防止過擬合,具體算法流程如圖2所示。

        圖2 獲取目標(biāo)區(qū)域算法描述圖

        圖2中,OHEM有兩個(gè)不同的ROI網(wǎng)絡(luò)。左邊的ROI網(wǎng)絡(luò)只負(fù)責(zé)前向傳播計(jì)算誤差,右邊的ROI網(wǎng)絡(luò)從左邊的ROI網(wǎng)絡(luò)中通過對(duì)誤差排序,選出誤差大的樣本作為右邊ROI網(wǎng)絡(luò)的輸入。RPN網(wǎng)絡(luò)輸出的矩形目標(biāo)框Di,其得分fi的計(jì)算如下:

        (1)

        式中:Si是重疊框的交集的面積;S是重疊框的并集的面積。

        NMS(Non-maximum suppression)是RPN中重要的組成部分。RPN輸出一系列的檢測(cè)框Di以及對(duì)應(yīng)的分?jǐn)?shù)fi。NMS設(shè)置常數(shù)閾值τ,當(dāng)檢測(cè)框的得分大于閾值τ,將其放入最終的檢測(cè)結(jié)果集合D。同時(shí),集合D中任何與檢測(cè)框M的重疊部分大于重疊閾值τ的檢測(cè)框,被強(qiáng)制歸零并移除。非最大抑制算法中的最大問題就是將相鄰檢測(cè)框的分?jǐn)?shù)均強(qiáng)制歸零后,如果真實(shí)的物體在重疊區(qū)域出現(xiàn),則將導(dǎo)致對(duì)該物體的檢測(cè)失敗并降低了算法的平均檢測(cè)率。soft-nms不將大于閾值τ的相鄰目標(biāo)框得分重置為0,而是乘以一個(gè)衰減函數(shù)。選取所有的目標(biāo)框中得分最高的N個(gè),這樣可以有效減少假陰性的概率,提高平均識(shí)別率。具體計(jì)算如下:

        (2)

        1.2 基于深度學(xué)習(xí)進(jìn)行細(xì)粒度分類

        Bilinear CNN模型包括Stream A和Stream B,Stream A和Stream B的網(wǎng)絡(luò)結(jié)構(gòu)都是采用的VGGNet。Stream A的作用是對(duì)物體的局部信息進(jìn)行定位,而Stream B則是對(duì)Stream A檢測(cè)到的局部信息進(jìn)行特征提取。兩個(gè)網(wǎng)絡(luò)相互協(xié)調(diào)作用,完成了細(xì)粒度圖像分類過程中兩個(gè)最重要的任務(wù):物體、局部區(qū)域的檢測(cè)與特征提取。本文在B-CNN基礎(chǔ)上增加了兩個(gè)外積操作,外積計(jì)算如下:

        B=fTA·fB

        (3)

        雙線性特征B2、B3分別是conv4_3的特征與conv5_3的特征,conv5_1的特征與conv5_3的特征進(jìn)行點(diǎn)乘得到的。然后將雙線性特征B2、B3與原有的conv5_3層特征與conv5_3層特征點(diǎn)乘得到的雙線性特征B1拼接起來,以加強(qiáng)不同層特征間的空間聯(lián)系。最后,將拼接后的特征B送進(jìn)全連接層,進(jìn)行softmax分類。具體算法流程如圖3所示。

        圖3 改進(jìn)的B-CNN算法流程圖

        (4)

        (5)

        2 實(shí)驗(yàn)仿真

        2.1 實(shí)驗(yàn)背景

        為驗(yàn)證本算法的有效性,與文獻(xiàn)[5-9]中的算法的結(jié)果進(jìn)行對(duì)比。文獻(xiàn)[5-9]分別采用CUB200-2011數(shù)據(jù)集[14]與Standford Dogs數(shù)據(jù)集[15]。因此本文也在兩組數(shù)據(jù)集上進(jìn)行兩組實(shí)驗(yàn),來證明本算法的識(shí)別精度比文獻(xiàn)[5-9]中的結(jié)果高。第一組實(shí)驗(yàn)是在CUB200-2011數(shù)據(jù)集進(jìn)行的測(cè)試和驗(yàn)證。該數(shù)據(jù)集是最常用和經(jīng)典的細(xì)粒度分類數(shù)據(jù)集,包括200中不同類別,共11 788張不同鳥類圖片,不僅提供了對(duì)象級(jí)標(biāo)注框而且還提供了局部級(jí)標(biāo)注框。第二組實(shí)驗(yàn)是在Standford Dogs數(shù)據(jù)集[15]進(jìn)行測(cè)試和驗(yàn)證。該數(shù)據(jù)集包括120類狗的圖像數(shù)據(jù),共有20 580張圖片,只提供對(duì)象級(jí)標(biāo)注框。基于RPN與B-CNN的細(xì)粒度分類過程中所用到的主要參數(shù)如表1所示。

        表1 B-CNN主要參數(shù)表

        2.2 實(shí)驗(yàn)結(jié)果與分析

        本文利用OHEM與soft-nms優(yōu)化RPN,獲取對(duì)象級(jí)標(biāo)注,然后輸入到改進(jìn)的B-CNN。在RPN階段,訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例是7∶2∶1。采取的Anchor的尺度是(128,256,512),比例為(0.5,1,2),共九種。將一張圖片輸入到RPN就會(huì)產(chǎn)生大量的Anchor,對(duì)這些Anchor進(jìn)行soft-nms,最終輸出得分最高的目標(biāo)框。在目標(biāo)框提供的位置上剪貼圖片,剪貼后的圖片只含有目標(biāo)對(duì)象,沒有背景的干擾。B-CNN階段中訓(xùn)練集,驗(yàn)證集與測(cè)試集的比例是7∶1.5∶1.5。在ImageNet中1 000類分類訓(xùn)練好的參數(shù)的基礎(chǔ)上,在CUB200-2011數(shù)據(jù)集進(jìn)行微調(diào)。將圖片輸入到B-CNN后,Stream A的作用是對(duì)圖像中對(duì)象的特征部位進(jìn)行定位,而Stream B則是用來對(duì)Stream A檢測(cè)到的特征區(qū)域進(jìn)行特征提取。兩個(gè)網(wǎng)絡(luò)相互協(xié)調(diào)作用,完成了細(xì)粒度圖像分類過程中兩個(gè)最關(guān)鍵的任務(wù)。

        本文采用softmax函數(shù)做分類函數(shù)輸出一個(gè)概率值,計(jì)算公式如下:

        (6)

        式中:Si是第i個(gè)類別的概率值;ei是第i個(gè)類別的得分。

        與文獻(xiàn)[5-6]借助對(duì)象級(jí)及部位級(jí)標(biāo)注框進(jìn)行細(xì)粒度分類對(duì)比,本文僅僅采用了對(duì)象級(jí)標(biāo)注框。與文獻(xiàn)[7]利用迭代的方法獲取對(duì)象級(jí)與部位級(jí)標(biāo)注框?qū)Ρ龋疚睦肦PN提取目標(biāo)區(qū)域,并將深度學(xué)習(xí)框架的注意力[16]全放在目標(biāo)區(qū)域,防止無關(guān)信息的干擾,提高識(shí)別速度與精度。實(shí)驗(yàn)結(jié)果如表2所示。實(shí)驗(yàn)表明,本文的算法識(shí)別率為85.5%,比文獻(xiàn)[5-7]中的方法分別高了8.90%、1.5%、3.0%。證明本文提出的基于RPN與B-CNN的細(xì)粒度分類算法,將識(shí)別的重心放在目標(biāo)區(qū)域內(nèi)。利用B-CNN優(yōu)化目標(biāo)區(qū)域的同時(shí),在目標(biāo)區(qū)域內(nèi)提取特征,不僅不需要提供額外的部位級(jí)標(biāo)注框,并且準(zhǔn)確率有較大提高。

        表2 不同方法在CUB200-2011數(shù)據(jù)集的識(shí)別率

        Standford Dogs數(shù)據(jù)集是從ImageNet數(shù)據(jù)集中提取狗的類別組成的。本文在第一組實(shí)驗(yàn)獲取的參數(shù)基礎(chǔ)上進(jìn)行微調(diào),實(shí)驗(yàn)結(jié)果如表3所示。與文獻(xiàn)[8]基于對(duì)象級(jí)與部位級(jí)標(biāo)注框與注意力機(jī)制相比,雖然兩者都將識(shí)別重心放在目標(biāo)區(qū)域,但本文在僅僅使用對(duì)象級(jí)標(biāo)注框的前提下,利用外積將B-CNN的Strean A與Stream B統(tǒng)一成一個(gè)端到端的訓(xùn)練模型。與文獻(xiàn)[9]使用SalClassNet網(wǎng)絡(luò)提取顯著性特征,并對(duì)顯著性特征進(jìn)行細(xì)粒度分類相比,本文使用對(duì)象級(jí)標(biāo)注框在ROI區(qū)域上進(jìn)行特征提取。因此,識(shí)別率分別比文獻(xiàn)[8]和文獻(xiàn)[9]的方法高了1.2%和3.9%。這表明同時(shí)對(duì)標(biāo)注框與類別進(jìn)行端到端的訓(xùn)練能有效提高識(shí)別率。

        表3 不同方法在Standford Dogs數(shù)據(jù)集的識(shí)別率

        此外,對(duì)本文提出的算法,增加了5組對(duì)比實(shí)驗(yàn)分別為:方案一,不使用OHEM優(yōu)化RPN,不改變B-CNN網(wǎng)絡(luò)結(jié)構(gòu);方案二,不使用soft-nms優(yōu)化RPN,不改變B-CNN網(wǎng)絡(luò)結(jié)構(gòu);方案三,在使用OHEM及soft-nms的前提下,不增加B-CNN 的外積操作;方案四,僅增加B-CNN的外積操作;方案五,使用OHEM及soft-nms,同時(shí)增加B-CNN的外積操作。實(shí)驗(yàn)對(duì)比結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明,方案五的識(shí)別率為90.10%,比方案一、方案二、方案三、方案四分別高了2.9%、2.3%、1.6%、1.1%。方案一僅使用OHEM,僅有效地防止了過擬合;方案二僅使用soft-nms,使輸出的對(duì)象級(jí)標(biāo)注更加準(zhǔn)確,并減少了假陰性概率;方案三則結(jié)合了方案一與方案二,識(shí)別率有所提升;方案四僅增加B-CNN的外積操作,加強(qiáng)了不同層之間的空間聯(lián)系。這表明使用OHEM與soft-nms改進(jìn)RPN,能讓獲得的對(duì)象級(jí)標(biāo)注更加精確,既可以避免背景的干擾,減少假陰性,又能有效防止過擬合。而增加B-CNN的外積操作,增加了不同層特征間的空間聯(lián)系。這是因?yàn)椴煌瑢雨P(guān)注的特征不同并且感受野大小也不同,這可以有效地提高識(shí)別率。

        表4 對(duì)比實(shí)驗(yàn)結(jié)果圖

        3 結(jié) 語

        本文針對(duì)細(xì)粒度分類子類別間細(xì)微的類間差異、較大的類內(nèi)差異、依賴大量人工標(biāo)注信息等問題,提出了基于RPN與B-CNN的細(xì)粒度分類算法。本文的主要貢獻(xiàn)如下:(1) 利用RPN網(wǎng)絡(luò)自動(dòng)輸出對(duì)象級(jí)標(biāo)注,不需要部位級(jí)標(biāo)注,避免標(biāo)注對(duì)象部位花費(fèi)的精力。(2) 使用soft-nms和OHEM算法改進(jìn)RPN,輸出更加精確的區(qū)域提議,可以有效防止過擬合并減少假陰性概率。(3) 改進(jìn)B-CNN網(wǎng)絡(luò),增加不同層間的外積操作,以融合不同層的特征,并將雙線性特征級(jí)聯(lián)在一起加強(qiáng)空間的聯(lián)系。實(shí)驗(yàn)結(jié)果證明,基于RPN與B-CNN的細(xì)粒度分類算法能顯著提高識(shí)別率。但由于增加了RPN網(wǎng)絡(luò)以及OHEM與soft-nms操作,程序的運(yùn)行時(shí)間相比其他算法有所增加。并且,未將RPN網(wǎng)絡(luò)與B-CNN網(wǎng)絡(luò)聯(lián)合起來,也是本文的不足。接下來,我們的工作重心將放在使RPN與B-CNN網(wǎng)絡(luò)聯(lián)合成一個(gè)端到端的模型,并提取同類物體不同子類的差異特征,作為深度網(wǎng)絡(luò)的輸入來提高準(zhǔn)確率。

        猜你喜歡
        細(xì)粒度識(shí)別率對(duì)象
        神秘來電
        睿士(2023年2期)2023-03-02 02:01:09
        融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
        細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        攻略對(duì)象的心思好難猜
        意林(2018年3期)2018-03-02 15:17:24
        基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
        支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
        基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
        国产成人一区二区三区在线观看 | 亚洲国产91高清在线| 亚洲最大成人综合网720p| 精品人妻伦九区久久aaa片| 国产精品一区二区暴白浆| 久久久久AV成人无码网站| 日韩一区二区三区熟女| 日日摸天天摸97狠狠婷婷| 亚洲精品久久无码av片软件| 波多野结衣一区二区三区免费视频| 国产久久久自拍视频在线观看| 无码精品国产一区二区三区免费| 免费人成黄页网站在线一区二区| 国产69精品久久久久9999apgf | 后入丝袜美腿在线观看| 国产精品无码一本二本三本色| 手机看片福利盒子久久青| 一区二区免费国产a在亚洲 | 免费人成在线观看视频高潮| 无遮无挡爽爽免费视频| 亚洲中文字幕久爱亚洲伊人 | 97久久精品亚洲中文字幕无码 | 免费观看羞羞视频网站| 国产精品一区二区久久| 国产精品亚洲av国产| 中文字幕女优av在线| 被黑人猛烈30分钟视频| 久久天天躁狠狠躁夜夜2020!| 中文字幕一区二区区免| 18禁裸体动漫美女无遮挡网站| 国产免费拔擦拔擦8x高清在线人| 日韩在线无| 91精品国产色综合久久不| 在线免费观看一区二区| 婷婷色中文字幕综合在线| 国产欧美激情一区二区三区| 在线观看视频免费播放| 欧美性受xxxx狂喷水| 亚洲欧洲精品国产二码| 91人妻一区二区三区蜜臀| 亚洲精品~无码抽插|