亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合全局池化的回環(huán)檢測算法

        2020-04-23 11:18:46宋周銳
        關(guān)鍵詞:移動機(jī)器人特征

        宋周銳

        (北京郵電大學(xué)可信分布式計(jì)算與服務(wù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100876)

        0 引 言

        移動機(jī)器人需要較高的定位精度和效率,它是機(jī)器人正確執(zhí)行其他復(fù)雜任務(wù)的基礎(chǔ)。在全局定位系統(tǒng)(如GPS、北斗等)不能正常工作的場景中(如隧道、室內(nèi)和其他復(fù)雜環(huán)境),機(jī)器人定位的誤差會隨時間積累而增大。回環(huán)檢測技術(shù)是指使得機(jī)器人識別二次經(jīng)過某個地點(diǎn)的技術(shù),它可以在一定程度上解決累積誤差問題,是移動機(jī)器人可靠工作的重要保障?;丨h(huán)檢測通過將第二次經(jīng)過時的位姿與第一次經(jīng)過時的位姿聯(lián)合起來,對移動機(jī)器人的全局位姿增添新的約束,達(dá)到優(yōu)化全局軌跡的目標(biāo),從而消除累積誤差,圖1展示了回環(huán)檢測前后累計(jì)誤差的對比,可以看出經(jīng)過回環(huán)檢測以后軌跡更加準(zhǔn)確。

        圖1 回環(huán)檢測校正全局地圖

        傳統(tǒng)的回環(huán)檢測算法依賴于人工設(shè)計(jì)的特征點(diǎn)描述子,采用類似于文本檢索的方法將圖片中的特征點(diǎn)描述子編碼為圖片特征向量。然而,人工設(shè)計(jì)的特征往往只能提取角點(diǎn)、線段等低級特征,不具備高級語義信息,在弱紋理、重復(fù)紋理場景中表現(xiàn)較差。近年來,深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺的多個領(lǐng)域中都取得了令人矚目的成就,將深度學(xué)習(xí)應(yīng)用于回環(huán)檢測成為機(jī)器人領(lǐng)域的研究熱點(diǎn)之一?;谏疃葘W(xué)習(xí)框架的回環(huán)檢測算法能夠提取高級語義特征,相比于傳統(tǒng)算法更加魯棒,而且能夠更方便地針對機(jī)器人運(yùn)行環(huán)境做出改進(jìn)。

        然而,由于移動機(jī)器人能提供的計(jì)算資源相對有限,難以支撐大型卷積神經(jīng)網(wǎng)絡(luò)實(shí)時運(yùn)行,基于深度學(xué)習(xí)的回環(huán)檢測一般都采用較淺的卷積神經(jīng)網(wǎng)絡(luò)。顯然,小型卷積神經(jīng)網(wǎng)絡(luò)難以應(yīng)用到大型場景中,當(dāng)機(jī)器人運(yùn)動范圍較大時,小型網(wǎng)絡(luò)提取出的描述子可能不具備足夠的區(qū)分度。

        基于圖片相似度的回環(huán)檢測本質(zhì)是一種基于圖像內(nèi)容的圖片檢索問題,因此可以借鑒圖像檢索的方法和評價標(biāo)準(zhǔn)來設(shè)計(jì)回環(huán)檢測算法并對其進(jìn)行評價。本文選取了圖像檢索中常用的評價標(biāo)準(zhǔn)衡量算法性能。兩者的不同之處在于圖像檢索任務(wù)一般運(yùn)行在服務(wù)器集群上,因此它可以采用大型卷積神經(jīng)網(wǎng)絡(luò)在超大規(guī)模的圖像集中取得很高的精度。如果可以把在大規(guī)模數(shù)據(jù)集上訓(xùn)練好的圖像檢索模型部署到移動機(jī)器人上,顯然可以取得非常好的成績??刹豢梢詫D像檢索的模型部署到移動機(jī)器人上呢?

        文獻(xiàn)[1]在圖像檢索任務(wù)上取得了世界領(lǐng)先的精度,其中關(guān)鍵算法是GeM(Generalized Mean),但是GeM引入了復(fù)雜的非整數(shù)冪運(yùn)算,不利于移動機(jī)器人平臺部署。在文獻(xiàn)[1]的基礎(chǔ)上,本文提出一種解決方案,即混合全局池化層來近似GeM,去除GeM中復(fù)雜的非整數(shù)冪運(yùn)算,簡化運(yùn)算復(fù)雜度,并達(dá)到與之相當(dāng)?shù)木?;同時,本文還提出一種基于塊浮點(diǎn)數(shù)的卷積神經(jīng)網(wǎng)絡(luò)加速引擎,可以將卷積層中浮點(diǎn)數(shù)運(yùn)算替換為定點(diǎn)數(shù)運(yùn)算。與32位浮點(diǎn)算法相比,采用塊浮點(diǎn)算法可將加法運(yùn)算的硬件能耗減少80%以上,乘法運(yùn)算能耗減少20%。通過這2點(diǎn)改進(jìn),可以將圖像檢索算法部署到移動機(jī)器人上。

        1 相關(guān)工作

        1.1 基于深度學(xué)習(xí)的圖像特征提取相關(guān)工作

        人為設(shè)計(jì)的特征點(diǎn)描述算法往往對光照變化較為敏感[2],因此學(xué)者們開始探索通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)來學(xué)習(xí)圖像描述子的方法[3-5]。文獻(xiàn)[6]將CNN運(yùn)算過程中各卷積層的輸出結(jié)果作為圖片描述子,它將圖片輸入已經(jīng)訓(xùn)練好的CNN模型中,把CNN計(jì)算過程中各層的中間結(jié)果取出來,發(fā)現(xiàn)越深的層結(jié)果就越抽象。這種高度抽象的能力使得利用CNN提取圖片中的語義信息并保持高度的穩(wěn)定性成為可能。

        文獻(xiàn)[7]采用了一種基于自編碼網(wǎng)絡(luò)的方法,它將原始圖片輸入到SDA(Stacked Denoising Auto-encoder)中,編碼網(wǎng)絡(luò)會學(xué)習(xí)一種對圖片的壓縮編碼方式,并根據(jù)解碼網(wǎng)絡(luò)解碼所得結(jié)果與原圖片的差異來調(diào)整編解碼網(wǎng)絡(luò)參數(shù)。本文使用自編碼網(wǎng)絡(luò)輸出的壓縮編碼作為圖片描述子,并在多個數(shù)據(jù)集上取得了state-of-art的效果。但是由于SDA的訓(xùn)練與測試使用的是相同的數(shù)據(jù)集,缺乏對SDA的泛化能力的實(shí)驗(yàn)論證。文獻(xiàn)[8]提出了一種輕量的回環(huán)檢測框架,它通過對圖片進(jìn)行裁剪、旋轉(zhuǎn)構(gòu)造訓(xùn)練集訓(xùn)練了一個較淺的卷積神經(jīng)網(wǎng)絡(luò)用于回環(huán)檢測,它結(jié)構(gòu)簡單、計(jì)算復(fù)雜度低,對移動機(jī)器人等計(jì)算資源受限平臺友好,但是它在大型數(shù)據(jù)集上表現(xiàn)不夠好,難以應(yīng)對移動機(jī)器人長時間運(yùn)行的場景。

        文獻(xiàn)[9]將孿生網(wǎng)絡(luò)(siamese convolutional neural network)應(yīng)用于回環(huán)檢測任務(wù),提出了一種端到端(end-to-end)的解決方案。通過將圖片對輸入到孿生網(wǎng)絡(luò)中,調(diào)整網(wǎng)絡(luò)參數(shù)使得回環(huán)的圖片對在距離空間中更近。該方法使用了圖片對在網(wǎng)絡(luò)各層的輸出結(jié)果作為特征,形成層級化的圖片描述子,達(dá)到了既能利用低級特征也能利用高級特征的目標(biāo)。同時,通過對這些特征進(jìn)行加權(quán)處理使之保持在256維,降低了后續(xù)匹配的計(jì)算代價,整個模塊能以較快的速度運(yùn)行。但是也正因?yàn)樵摼W(wǎng)絡(luò)較淺,缺乏表達(dá)復(fù)雜多樣環(huán)境的能力,在大型場景中表現(xiàn)不夠理想。

        1.2 卷積神經(jīng)網(wǎng)絡(luò)加速相關(guān)工作

        深度學(xué)習(xí)模型壓縮和剪枝技術(shù)主要用來降低深度學(xué)習(xí)模型的帶寬需求并縮小其存儲規(guī)模。壓縮和剪枝法的理論基礎(chǔ)是卷積神經(jīng)網(wǎng)絡(luò)本身所帶有的冗余性,這2項(xiàng)技術(shù)通常結(jié)合使用。文獻(xiàn)[10]提出了一種在168個處理元素上的數(shù)據(jù)流存儲方式,通過只復(fù)用局部數(shù)據(jù),達(dá)到了提升功率效率的目標(biāo)。文獻(xiàn)[11]提出了一種屋頂模型(roofline model)來分析一個具體的CNN模型的計(jì)算和內(nèi)存需求曲線,從而確定在指定FPGA或者專用芯片平臺上的最優(yōu)部署方法。另一種流行的思路是稀疏化CNN模型的參數(shù)。文獻(xiàn)[12-13]提出了一種3段式的壓縮方法,這3段分別是剪枝、量化參數(shù)再訓(xùn)練、對量化后的參數(shù)進(jìn)行哈夫曼編碼(Huffman coding)。通過這3段處理,顯著地壓縮了DNN的大小,并幾乎沒有精度損耗。然而該方法的問題在于重新訓(xùn)練稀疏模型是非常耗時的,而且每次調(diào)整神經(jīng)網(wǎng)絡(luò)架構(gòu)都需要重復(fù)這一過程。同時,在導(dǎo)入FPGA之后,進(jìn)行計(jì)算時依然使用的是浮點(diǎn)數(shù)運(yùn)算。使用哈夫曼編碼在縮小了模型體積的同時也帶來了解碼的開銷,這就導(dǎo)致了模型加載時的額外開銷。文獻(xiàn)[14]使用的剪枝技術(shù)同樣有需要重新訓(xùn)練的弊端,因?yàn)榧糁夹g(shù)的本質(zhì)在于通過反復(fù)嘗試找到關(guān)鍵連接并摒棄非關(guān)鍵連接,達(dá)到減少連接數(shù)目的目標(biāo)。

        與上述思路不同的是,替換數(shù)值表示形式[15-18]這種方法的主要出發(fā)點(diǎn)是定點(diǎn)運(yùn)算所需要的硬件資源遠(yuǎn)遠(yuǎn)少于浮點(diǎn)運(yùn)算所需要的計(jì)算資源。因此,如果將浮點(diǎn)數(shù)運(yùn)算替換成定點(diǎn)數(shù)運(yùn)算,那么,設(shè)計(jì)ASIC或FPGA就能夠有比較高的處理速度,同時獲得更高的能效比。然而,這種方法的難點(diǎn)在于如何設(shè)計(jì)一種數(shù)值表示方法使其兼具浮點(diǎn)數(shù)的范圍與定點(diǎn)數(shù)運(yùn)算的簡便。這個領(lǐng)域的學(xué)者多采用定點(diǎn)數(shù)的方案,這種方案在網(wǎng)絡(luò)規(guī)模較小時尚能取得較好的效果,但是當(dāng)網(wǎng)絡(luò)加深,維持原精度所需的數(shù)值長度就會快速增長。

        上述2種方案還有一個共同的缺陷,它們都需要重新訓(xùn)練,不利于快速部署模型,同時也不夠靈活,優(yōu)化效果因網(wǎng)絡(luò)模型而異。因此,本文提出一種基于塊浮點(diǎn)數(shù)[19]的數(shù)值表示方案,塊浮點(diǎn)數(shù)是一種兼具了浮點(diǎn)數(shù)的表示范圍和定點(diǎn)數(shù)的運(yùn)算復(fù)雜度的表示形式,而且基于塊浮點(diǎn)數(shù)的優(yōu)化也不需要重新訓(xùn)練網(wǎng)絡(luò),使得網(wǎng)絡(luò)調(diào)整和部署非常方便。

        2 基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取

        2.1 損失函數(shù)

        孿生網(wǎng)絡(luò)是一種用于衡量2個輸入相似程度的網(wǎng)絡(luò),它將2個輸入映射到新的特征空間中,實(shí)現(xiàn)輸入的特征提取并在該特征空間中計(jì)算相似程度。它的特點(diǎn)是有2個權(quán)重共享的特征提取網(wǎng)絡(luò),同時輸入2幅圖片,分別經(jīng)過2個特征提取網(wǎng)絡(luò)后,計(jì)算特征之間的距離,以此來判斷2幅圖片之間的相似程度。孿生網(wǎng)絡(luò)使用Contrastive Loss,該目標(biāo)函數(shù)一方面盡量減小屬于一個類別的2幅圖片(正樣本)之間的距離,另一方面盡可能加大不屬于同一個類別的圖片(負(fù)樣本)之間的距離,它的計(jì)算公式如下:

        其中,d為2幅圖片特征向量之間的距離,一般定義為歐氏距離,計(jì)算公式如下:

        d=||an-bn||2

        margin是需要設(shè)定的參數(shù),它控制著正負(fù)樣本距離的分水嶺,是后續(xù)根據(jù)網(wǎng)絡(luò)輸出距離判斷輸入樣本是正樣本還是負(fù)樣本的重要參考。y是樣本標(biāo)簽,等于“1”時表明是正樣本,此時損失函數(shù)的值為距離平方,因此起到最小化正樣本之間距離的作用;y等于“0”時,表明為負(fù)樣本,此時損失函數(shù)中的后半項(xiàng)起作用,當(dāng)網(wǎng)絡(luò)計(jì)算出負(fù)樣本之間的距離大于閾值時,損失函數(shù)達(dá)到最小值,因此可以起到將負(fù)樣本之間距離拉伸到閾值之上的作用。本文設(shè)定margin值為0.75。

        2.2 特征提取網(wǎng)絡(luò)

        VGG[20]系列網(wǎng)絡(luò)在2014年ILSVRC競賽亞軍遷移學(xué)習(xí)等任務(wù)中表現(xiàn)優(yōu)異,同時也是提取圖像特征的首選網(wǎng)絡(luò)之一。本文采用VGG16作為特征提取網(wǎng)絡(luò),VGG16包括13層卷積層和4層最大池化層,足夠多的卷積層使得該網(wǎng)絡(luò)能夠提取到高級語義信息,較小的kernel size使得最后一層卷積層的感受野也在合理范圍內(nèi)。

        為了支持不同尺寸的圖片輸入,方便適應(yīng)不同機(jī)器人的計(jì)算能力,本文去除VGG16中的全連接層,并將最后一層最大值池化層替換成了混合全局池化層,借助全局池化層將最后一層卷積層的輸出變成了向量,作為圖片描述子。

        2.3 混合全局池化層

        文獻(xiàn)[21]提出了一種拓展的局部池化層,結(jié)合了最大值池化和平均值池化的優(yōu)點(diǎn),在圖像分類任務(wù)上取得了明顯的提升,并且引入的額外參數(shù)和計(jì)算量都非常小。本文借鑒這種拓展的池化層的思路,改進(jìn)了全局池化層,成功應(yīng)用在回環(huán)檢測任務(wù)中。拓展的全局池化層(Mixed Pooling, MXP),計(jì)算公式如下:

        fmix(x)=a·fmax(x)+(1-a)favg(x)

        其中,

        可見,當(dāng)a取1時,MXP層的表現(xiàn)為最大值池化,當(dāng)a等于0時,MXP的表現(xiàn)為平均值池化。在進(jìn)行梯度更新時,后傳公式為:

        其中,1[·]表示括號內(nèi)等式成立時取1,否則取0。

        3 基于塊浮點(diǎn)數(shù)的卷積神經(jīng)網(wǎng)絡(luò)加速

        3.1 塊浮點(diǎn)數(shù)的定義

        使用塊浮點(diǎn)數(shù)表示數(shù)值時,隸屬于同一個塊的n個數(shù)共享同一個乘數(shù)因子,稱之為塊指數(shù)。塊指數(shù)是由n個數(shù)中絕對值最大的數(shù)確定的,并且,其余的數(shù)將會進(jìn)行移位操作向絕對值最大數(shù)對齊。確定塊指數(shù)并對齊其他數(shù)的過程稱為塊化。

        為簡化后續(xù)行文表述,在此預(yù)先引入一些符號,同時使用數(shù)學(xué)語言闡述塊浮點(diǎn)數(shù)的定義。對于某一群數(shù),記作X,xi是X中的第i個數(shù),xi的尾數(shù)部分和指數(shù)部分分別記作mi和ei。對X進(jìn)行塊化后結(jié)果記為X′,該塊的尾數(shù)部分和塊指數(shù)分別表示為M′X和εX。以下舉例說明塊化過程,給定一個包含有N個數(shù)的塊X,可以表示為:

        X=(x1,…,xi,…,xN)

        =(m1×2e1,…,mi×2ei,…,mN×2eN)

        使用塊浮點(diǎn)數(shù)表示時,X塊化為X′,寫作:

        X′=(x′1,…,x′i,…,x′N)=M′X×2εX

        其中:

        M′X=(m′1,…,m′i,…,m′N)

        εX是塊X中最大的指數(shù)值,mi是各個塊中各個元素對齊后的尾數(shù)部分,它是根據(jù)下式計(jì)算的:

        m′i=mi?(εX-ei)

        其中,a?b表示將a向右移動b位。

        3.2 塊浮點(diǎn)數(shù)矩陣乘法數(shù)據(jù)流

        圖2 卷積運(yùn)算展開為矩陣乘法

        為了更好地理解塊浮點(diǎn)數(shù)在卷積神經(jīng)網(wǎng)絡(luò)中的應(yīng)用方式,本文首先介紹一種將卷積運(yùn)算變換為矩陣運(yùn)算的方法。在轉(zhuǎn)換為矩陣運(yùn)算后,卷積核和輸入特征圖展開為2個矩陣,分別記作W以及I。具體來講,歸屬于同一輸出特征圖的卷積核展開成W中的一個行向量,歸屬于同一個輸出像素點(diǎn)的輸入特征圖中對應(yīng)的感受野組成了I中的列向量。如圖2所示,輸出矩陣O的第m行、第n列元素對應(yīng)著第m個卷積核在第n個感受野上卷積對應(yīng)的輸出。需要指出的是,將卷積運(yùn)算轉(zhuǎn)換為矩陣運(yùn)算的開銷是不容忽略的,在高性能CNN加速器的設(shè)計(jì)中,都采用的是按照卷積方式讀取數(shù)據(jù)流[22]。在本文中,采用矩陣的形式進(jìn)行計(jì)算的目的是方便核心思想的表達(dá),不需引入復(fù)雜的數(shù)據(jù)調(diào)度。

        為說明矩陣W和I塊化的過程,考慮最簡單的例子,令:

        W=((1.00)2×2-1(1.01)2×20)

        分別將矩陣W和I的塊尾數(shù)字長記作LW和LI,并均賦值為3(不包括符號位)。掃描矩陣I中的元素,得到塊指數(shù)為εI=2,然后對矩陣I中的元素進(jìn)行移位并使用四舍五入法處理最后一位,那么,塊化后的結(jié)果為:

        類似地可以得到矩陣W的塊化結(jié)果為:

        W=((0.10)2(1.01)2)×20

        因此,對矩陣W和I的乘積,記作O,可以近似為:

        O≈W′I′=2M′O

        其中,M′O=M′WM′I,εO=εW+εI。

        在計(jì)算M′O=M′WM′I的過程中,為避免溢出和運(yùn)算器位數(shù)不足導(dǎo)致的舍入誤差,需要保證乘法器字長大于等于LW+LI+2,此字長包括符號位在內(nèi);加法器的字長不小于LW+LI+S,其中S=floor(log2(K)),以防止加法過程中溢出。具體流程如圖3所示,圖中“FP2BFP”“BFP2FP”分別代表塊化和從塊浮點(diǎn)數(shù)轉(zhuǎn)回浮點(diǎn)數(shù)。

        圖3 塊浮點(diǎn)數(shù)矩陣乘法流程

        4 實(shí) 驗(yàn)

        4.1 數(shù)據(jù)集

        本文采用文獻(xiàn)[1]提供的訓(xùn)練集sfm120k和測試集Oxford5k、Paris6k。訓(xùn)練集與測試集都隸屬于一個大型地標(biāo)建筑圖片集,該數(shù)據(jù)集包括740萬幅圖片,利用這740萬幅圖片進(jìn)行3D重建,去除3D模型中重復(fù)的部分剩下大約16萬幅圖片,再去除Oxford5k和Paris6k的相關(guān)圖片,保證訓(xùn)練集中不包括任何測試集圖片,最終訓(xùn)練集中包括大約12萬幅圖片?;丨h(huán)檢測與圖像檢索任務(wù)有很多共同之處,他們都是基于圖像內(nèi)容進(jìn)行圖像檢索,但是回環(huán)檢測任務(wù)也有其特殊性,回環(huán)檢測需要考慮一定程度的尺度不變性和旋轉(zhuǎn)不變性。因此,本文對數(shù)據(jù)集做了數(shù)據(jù)增強(qiáng),具體來說,在讀取數(shù)據(jù)集時,對數(shù)據(jù)集中的圖片進(jìn)行了隨機(jī)射影變換,以增強(qiáng)特征對射影變換的魯棒性;同時,對查詢圖片進(jìn)行了尺度變換,以增強(qiáng)對尺度變化的魯棒性。

        本文使用ImageNet[23]上預(yù)訓(xùn)練好的模型作為模型權(quán)重初值,然后在sfm120k數(shù)據(jù)集上進(jìn)行調(diào)優(yōu)(finetune)。在調(diào)優(yōu)該網(wǎng)絡(luò)時,設(shè)置基礎(chǔ)學(xué)習(xí)率為1e-6,沖量設(shè)置為0.9,懲罰系數(shù)為1e-4,迭代100個epoch。在本文中,Contrastive Loss的輸入為2個歸一化之后的向量和標(biāo)簽,而2個歸一化的向量的歐氏距離與余弦距離存在一定的映射關(guān)系,具體如下:

        Deu=∑(ai-bi)2

        =2-2cosθ

        4.2 輸入圖片尺寸對精度及時間的影響

        由于圖片尺寸大小會直接影響到特征提取所需要的時間,本文首先研究圖片大小對精度(mean Average Precision, mPA)的影響,方便移動機(jī)器人根據(jù)自身的計(jì)算能力挑選合適的圖片尺寸。圖片尺寸越大,保留的細(xì)節(jié)越多,回環(huán)檢測的精度就越高,但也會更耗時;圖片尺寸越小,丟失的信息越多,對應(yīng)著精度就會降低,但更能適應(yīng)移動平臺的計(jì)算能力要求。在GeForce RTX2070上測試的結(jié)果如表1所示。

        表1 圖片尺寸與耗時、精度(mAP)關(guān)系

        在實(shí)驗(yàn)過程中,圖片大小重整為最長邊不超過圖片尺寸所列數(shù)值,用時包括了特征提取和查詢的時間,完整地模擬了回環(huán)檢測過程??梢钥闯?,1024 px的圖片達(dá)到了最高的準(zhǔn)確度,但是需要超過60 ms的處理時間,勉強(qiáng)接近SLAM的實(shí)時性要求。但是移動機(jī)器人上往往難以提供RTX2070所能提供的計(jì)算能力,因此1024 px的圖片難以直接應(yīng)用在移動機(jī)器人上。尺寸更小的圖片雖然速度更快,但是精度損失過大,如224 px的精度損失接近30%,大幅降低了性能。512 px的圖片處理時間為18.4 ms,假設(shè)移動機(jī)器人能夠提供的計(jì)算能力為RTX2070的一半,512 px尺寸的圖片也可以保證實(shí)時運(yùn)行,同時,精度下降在可接受范圍內(nèi),因此本文選用512 px尺寸的圖片進(jìn)行后續(xù)實(shí)驗(yàn)。

        4.3 不同池化層的影響

        本節(jié)對比分析多種不同的池化策略對回環(huán)檢測精度的影響。選取GeM[1]以及直接使用最大值池化(max)和均值池化(mean)作為對比,還選取一種非參數(shù)化為特征圖各個維度加權(quán)的方法(Cross-Dimensional Weighting, CDW)[24]作為對比。GeM是當(dāng)前世界領(lǐng)先的圖像檢索算法,以下先簡要介紹GeM和CDW方法。

        GeM的結(jié)果由以下公式給出:

        由上式可以看出,通過學(xué)習(xí)參數(shù)Pk可以令fGeM表現(xiàn)出不同的行為,Pk取0和∞對應(yīng)著平均池化和最大值池化。但是,如上式所示,該方法引入了大量指數(shù)運(yùn)算,對于移動計(jì)算平臺來說,開銷較大。

        CDW是一種非參數(shù)化的方法,從紋理出現(xiàn)頻次的角度出發(fā),筆者認(rèn)為,出現(xiàn)頻次越少對圖片檢索的重要性越高,表現(xiàn)在特征圖上即該特征圖上0的比例越高,該特征圖就應(yīng)當(dāng)有更高的權(quán)重,另一方面,筆者還考慮到了各個感受野上特征種類分布,如果該感受野上特征種類越多,即特征越豐富,在不同的通道上都有響應(yīng)值,表明該位置應(yīng)該有較高的權(quán)重。

        在文獻(xiàn)[1]的基礎(chǔ)上,本文實(shí)現(xiàn)了MXP和CDW,并分別對他們進(jìn)行了調(diào)優(yōu),同時,選取最大值池化和均值池化作為比較基準(zhǔn),也進(jìn)行了調(diào)優(yōu)。表2列出了不同策略對最終精度的影響,可以看出GeM的精度相對最高,本文所用的MXP次之,在不同的數(shù)據(jù)集上互有優(yōu)勢,效果相當(dāng)。CDW相對均值池化取得了不錯的提高,但是不如GeM和MXP。最大值池化表現(xiàn)比均值池化更好,這可能是因?yàn)樽畲笾党鼗P(guān)注最突出的特征,比均值池化具備更高的表達(dá)能力。rOxford5k和rParis6k是按數(shù)據(jù)集原有4等級進(jìn)行了劃分,除第4等級完全沒有目標(biāo)圖片外,其余3個等級分別對應(yīng)著表中的E、M、H這3項(xiàng),表示回環(huán)檢測的難度為容易、中等和困難,如表2所示。

        表2 rOxford5k、rParis6k上的精度(mAP) 單位:%

        從表3可以看出,MXP和GeM在不同的數(shù)據(jù)集上有不同的表現(xiàn):MXP在Oxford5k上的表現(xiàn)優(yōu)于GeM,在Paris6k上則不如GeM。這主要是2個數(shù)據(jù)集圖片特征差異引起的:Oxford5k中的圖片大多紋理復(fù)雜,有相當(dāng)多的重復(fù)特征,此時最大值池化可以拋棄許多不顯著的細(xì)節(jié),表現(xiàn)更好,如表3中max遠(yuǎn)遠(yuǎn)好于mean,甚至好于CDW;而Paris6k則恰好相反,其中圖片大都背景空曠,此時使用max會導(dǎo)致紋理丟失,因此在該數(shù)據(jù)集上max與mean精度相當(dāng),不如CDW表現(xiàn)好。由于MXP是max和mean的線性組合,并且max在MXP中占有更大比重,因此在mean也能提取重要信息的數(shù)據(jù)集上,如Paris6k數(shù)據(jù)集上表現(xiàn)不如GeM。另一方面,GeM可以認(rèn)為是max和mean的非線性組合,在max和mean均有貢獻(xiàn)的數(shù)據(jù)集上表現(xiàn)更優(yōu),在只有max可以提取有效信息的數(shù)據(jù)集上反而會受mean的負(fù)面影響。

        表3 Oxford5k、Paris6k上的精度(mAP) 單位:%

        4.4 加速后的回環(huán)檢測精度

        本文在CPU上模擬了塊浮點(diǎn)數(shù)(權(quán)重矩陣塊尾數(shù)與輸入特征圖矩陣尾數(shù)均為8位,包括符號位)的計(jì)算過程。并將PyTorch模型轉(zhuǎn)換為Caffe[22]模型,測試結(jié)果如表4和表5所示,與表2、表3相比,幾乎沒有任何精度損失,表明了加速方案的可行性。

        表4 加速后Oxford5k、Paris6k上的精度(mAP) 單位:%

        表5 加速后rOxford5k、rParis6k上的精度(mAP) 單位:%

        5 結(jié)束語

        通過對比分析多種不同的將特征圖轉(zhuǎn)變?yōu)樘卣飨蛄康姆椒?,可以發(fā)現(xiàn)本文使用的混合全局池化方法計(jì)算簡便、硬件實(shí)現(xiàn)簡單并且精度與復(fù)雜的池化方法相當(dāng),表現(xiàn)出了良好的性能。本文提出的基于塊浮點(diǎn)數(shù)的深度學(xué)習(xí)加速技術(shù)能夠?qū)⒕矸e中的浮點(diǎn)運(yùn)算轉(zhuǎn)變?yōu)槎c(diǎn)數(shù)運(yùn)算,降低了對運(yùn)算資源的要求,并且對精度的影響很小。

        猜你喜歡
        移動機(jī)器人特征
        抓住特征巧觀察
        移動機(jī)器人自主動態(tài)避障方法
        移動機(jī)器人VSLAM和VISLAM技術(shù)綜述
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        基于Twincat的移動機(jī)器人制孔系統(tǒng)
        室內(nèi)環(huán)境下移動機(jī)器人三維視覺SLAM
        極坐標(biāo)系下移動機(jī)器人的點(diǎn)鎮(zhèn)定
        午夜无码熟熟妇丰满人妻| 日韩精品无码中文字幕电影| 精品一区二区三区免费播放| 国产黑色丝袜一区在线| 天堂视频一区二区免费在线观看| 丝袜人妻无码中文字幕综合网| 一区二区三区在线日本视频| 亚洲爆乳无码精品aaa片蜜桃 | 女同性恋一区二区三区av| 久久久久亚洲精品无码蜜桃 | 亚洲午夜av久久久精品影院色戒| 熟妇的荡欲色综合亚洲| 亚洲一区二区婷婷久久| 麻豆成人久久精品二区三区91| 国产一区二区三区精品免费av| 亚洲成av人在线观看天堂无码| 国产亚洲精久久久久久无码苍井空| 在线视频日韩精品三区| av剧情演绎福利对白| 一本一道av中文字幕无码| 国产V日韩V亚洲欧美久久| 日本一区二区三区在线观看视频 | 亚洲精品国产熟女久久久| 国产日韩欧美一区二区东京热| 亚洲国产精品久久亚洲精品| 成人免费无码a毛片| 日本高级黄色一区二区三区| 国产精品亚洲lv粉色| 亚洲av无码乱码国产麻豆穿越| 果冻蜜桃传媒在线观看| 中文有码人妻字幕在线| 粗大猛烈进出高潮视频| 国产精品亚洲A∨天堂| 国产黄色三级三级三级看三级| 亚洲av午夜成人片精品电影| 国产av一区二区精品久久凹凸| 亚洲欧美国产精品久久久| 东风日产车是不是国产的| 性xxxx18免费观看视频| 国产午夜亚洲精品不卡福利| 日韩激情网|