鄧?yán)L梅
(中共安慶市委黨校,安徽 安慶246000)
隨著我國科技水平的不斷提高,機(jī)器人已廣泛應(yīng)用于服務(wù)業(yè)、制造業(yè)等各個(gè)領(lǐng)域中,而我國電子信息、人機(jī)交互等技術(shù)也在促進(jìn)著機(jī)器人的不斷創(chuàng)新與優(yōu)化。在機(jī)器人工作的過程中,其對(duì)工作場景的感知與理解極為重要,唯有充分獲取到場景中的視覺信息,機(jī)器人才可進(jìn)行信息的識(shí)別處理、打造場景中的事物空間層次等一系列作業(yè),進(jìn)而提供更為優(yōu)質(zhì)的各項(xiàng)服務(wù)[1]。DSC-SSD算法是一種優(yōu)化的基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法,能夠通過深度學(xué)習(xí)、網(wǎng)絡(luò)模型訓(xùn)練等方式,在目標(biāo)檢測中展現(xiàn)其較高的檢測精度[2]。因此實(shí)驗(yàn)中將重點(diǎn)探究DSC-SSD目標(biāo)檢測算法、圖像語義分割等相關(guān)技術(shù),并將其應(yīng)用至政務(wù)服務(wù)機(jī)器人的場景理解中,旨在提高服務(wù)機(jī)器人的場景理解能力。
SSD是一種目標(biāo)檢測算法,采用在不同層級(jí)中進(jìn)行圖像識(shí)別的方式,來檢測并獲取到相應(yīng)的圖像特征[3]。SSD有效結(jié)合了大尺度特征圖與小尺度特征圖,可有效擴(kuò)大目標(biāo)檢測的范圍,在一定程度上規(guī)避漏檢、檢測效果較差、檢測召回率較低等風(fēng)險(xiǎn)[4]。SSD算法的目標(biāo)檢測原理如圖1所示。
圖1 SSD算法的目標(biāo)檢測原理示意圖
圖1 (a)中表現(xiàn)出在面對(duì)狗與貓等不同的目標(biāo) 檢測對(duì)象時(shí),SSD會(huì)采用根據(jù)其形狀特征來選擇不同的先驗(yàn)框,進(jìn)而實(shí)現(xiàn)后期的模型訓(xùn)練,在數(shù)據(jù)集制作的過程中,分別代表狗與貓的兩個(gè)矩形區(qū)域?qū)⒀杆偕?。圖1(b)所示為8×8大小的特征圖,圖1(c)中特征圖的大小為4×4,其中每個(gè)特征圖單元均含有k個(gè)默認(rèn)框;任一默認(rèn)框均會(huì)進(jìn)行不同數(shù)量置信度與偏移量的運(yùn)算;單一默認(rèn)框的尺寸表示為S k,其計(jì)算公式見式(1)。
在式(1)中,Smax與Smin的取值分別為0.9與0.2,且任一默認(rèn)框的縱橫比均可由式(2)計(jì)算得出。
式(2)中,a r表示默認(rèn)框中所有縱橫比的集合分別表示該默認(rèn)框的長度值與寬度值。若位于同一網(wǎng)絡(luò)層中,則其將表現(xiàn)出縱橫比不同的現(xiàn)象,據(jù)此可實(shí)現(xiàn)對(duì)形狀與大小各異的目標(biāo)檢測對(duì)象的全面覆蓋[5]。DSC是指一種優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)算法,該算法將卷積運(yùn)算的過程進(jìn)行了劃分,即深度卷積與逐點(diǎn)卷積兩個(gè)部分,前者能夠?qū)斎氲乃型ǖ罃?shù)據(jù)與卷積核進(jìn)行準(zhǔn)確的運(yùn)算,后者可完成對(duì)通道卷積的有序組合與快速輸出[6-7]。令圖像數(shù)據(jù)的輸入大小與輸出大小分別為D F·D F·M與D G·D G·N,其中D F,D G分別為輸入數(shù)據(jù)與輸出數(shù)據(jù)的尺寸,M與N表示相對(duì)應(yīng)的數(shù)據(jù)通道數(shù)量。同理可將卷積核的大小表示為D K·D K·M·N,其中D K表示卷積核的尺寸大小,因此標(biāo)準(zhǔn)卷積的輸出如式(3)所示。
與式(3)相對(duì)應(yīng)的運(yùn)算量為D K·D K·M·N·D F·D F,在DSC中通道卷積與逐點(diǎn)卷積中的運(yùn)算量分別為D K·D K·M·D F·D F與1·1·M·N·D F·D F。由此可知DSC運(yùn)算與標(biāo)準(zhǔn)卷積運(yùn)算的比值可表示為式(4)。
采用DSC對(duì)SSD進(jìn)行改進(jìn),即可得到優(yōu)化后的DSC-SSD網(wǎng)絡(luò)結(jié)構(gòu),在DSC-SSD模型訓(xùn)練中,其損失函數(shù)主要分為兩個(gè)部分,即目標(biāo)分類損失、回歸位置損失,如式(5)所示。
式(5)中N表示匹配的默認(rèn)框數(shù)量;α表示其中的權(quán)重因子;L conf表示模型訓(xùn)練中的分類置信損失;L loc表示使用SmoothL1損失的目標(biāo)定位損失,其定義見式(6)。
在DSC-SSD進(jìn)行目標(biāo)檢測時(shí),通過多尺度特征層的相關(guān)信息在回歸層中生成數(shù)量較多的檢測框,隨后再利用非極大值抑制的方式,剔除其中冗余的、不符合要求的檢測框,最終實(shí)現(xiàn)對(duì)目標(biāo)的精準(zhǔn)定位。
圖像分割技術(shù)的本質(zhì)在于將目標(biāo)圖像進(jìn)行有效分割,使其成為多個(gè)具有獨(dú)特性質(zhì)的子區(qū)域。各子區(qū)域互不重疊,具有一定的區(qū)域相關(guān)性與差異性[8]。令輸入圖像區(qū)域?yàn)镽,則其劃分后的子區(qū)域?yàn)镽1,R2,…,R n,且滿足是R中的一個(gè)連通區(qū)域,i=1,2,…,n;由于每個(gè)子區(qū)域之間均互不重疊,因此R i∩R j=?,i≠j;P為一種邏輯關(guān)系,則有P(R i)=TRUE,i=1,2,…,n;對(duì)R中任意相鄰的兩個(gè)子區(qū)域R i與R j,均滿足作為一種集深度卷積神經(jīng)網(wǎng)絡(luò)、帶孔卷積于一體的圖像語義分割算法,Deep Lab能夠在帶孔卷積的作用下,實(shí)現(xiàn)對(duì)目標(biāo)圖像分辨率的有效控制,并擴(kuò)大其卷積核的感受野。全連接條件隨機(jī)場可在其高細(xì)節(jié)捕獲能力的作用下,與深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有機(jī)的結(jié)合,共同進(jìn)行圖像分割作業(yè),取得較為優(yōu)質(zhì)的分割效果,其能量函數(shù)表示為式(7)。
式(7)中x表示子區(qū)域中像素點(diǎn)的語義標(biāo)簽;θ(x i)表示其中的一元?jiǎng)莺瘮?shù),滿足θ(x i)=-表示任一像素點(diǎn)分配到相應(yīng)語義標(biāo)簽的概率。
要實(shí)現(xiàn)政務(wù)服務(wù)機(jī)器人的場景理解功能,實(shí)驗(yàn)中將DSC-SSD目標(biāo)檢測算法與圖像處理算法進(jìn)行融合,獲取到了當(dāng)前場景的內(nèi)容理解信息圖,其中囊括了目標(biāo)圖像的特征位置、類別、深度表征等。圖像深度估計(jì)方法能夠使得二維圖像得到完全的分離,避免場景前置與后置內(nèi)容出現(xiàn)重疊的問題;DSC-SSD目標(biāo)檢測算法與圖像語義分割算法共同作用,完成對(duì)特征圖像的準(zhǔn)確定位與高效分割。融合設(shè)計(jì)算法的場景理解流程如圖2所示。
在深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)模型訓(xùn)練的過程中,在實(shí)驗(yàn)中將網(wǎng)絡(luò)層、各項(xiàng)超參數(shù)進(jìn)行定義,用以檢測DSC-SSD算法的訓(xùn)練效果。將最大迭代次數(shù)設(shè)置為80k次,迭代步長為1,學(xué)習(xí)率的初始值及其衰減系數(shù)分別為0.00001與0.5,權(quán)重衰減率的值與學(xué)習(xí)率初始值相等,網(wǎng)絡(luò)模型訓(xùn)練結(jié)果詳見圖3。
圖3 DSC-SSD算法的模型訓(xùn)練結(jié)果
從圖3(a)可以看出隨著迭代次數(shù)的持續(xù)增加,損失函數(shù)的值整體呈現(xiàn)出下降的趨勢,訓(xùn)練迭代次數(shù)達(dá)到約5000時(shí),損失函數(shù)值降至2.5左右,隨后隨著訓(xùn)練迭代次數(shù)的增加,損失函數(shù)值下降幅度較小,幾乎維持穩(wěn)定狀態(tài)。圖3(b)顯示隨著訓(xùn)練迭代次數(shù)的增加而不斷提高,訓(xùn)練迭代次數(shù)少于30000時(shí),測試準(zhǔn)確率上升幅度較大,隨后增幅較小,逐漸維持平穩(wěn)狀態(tài)。這表明DSC-SSD算法隨著訓(xùn)練迭代次數(shù)的增加,在測試集上的表現(xiàn)愈來愈佳。將當(dāng)前常用的目標(biāo)檢測算法與DSC-SSD算法同時(shí)用于政務(wù)服務(wù)機(jī)器人場景理解中,其目標(biāo)檢測結(jié)果見圖4。
圖4 DSC-SSD與不同算法的實(shí)驗(yàn)結(jié)果對(duì)比
據(jù)圖4可知,相較于R-CNN,Faster RCNN,YOLO,SSD算法而言,DSC-SSD算法在查準(zhǔn)率、查全率、平均精度、每秒識(shí)別幀數(shù)上均表現(xiàn)出較為優(yōu)越的性能,其結(jié)果分別為94.5%,92.4%,78.5%,95fps。在每秒識(shí)別幀數(shù)的比較中,R-CNN,Faster R-CNN,YOLO,SSD算法的實(shí)驗(yàn)結(jié)果分別為6fps,7fps,45fps,46fps,而DSCSSD算法的實(shí)時(shí)檢測速度達(dá)到了95fps,約為YOLO算法與SSD算法檢測速度的2倍。這顯示出DSC-SSD算法具有更高的檢測精度與更強(qiáng)的目標(biāo)檢測能力,能夠以其較強(qiáng)的目標(biāo)檢測有效性廣泛應(yīng)用于場景理解中。
選擇政務(wù)服務(wù)機(jī)器人場景理解采集到的四張圖像,采用DSC-SSD目標(biāo)檢測算法與常規(guī)算法進(jìn)行對(duì)比實(shí)驗(yàn),進(jìn)而獲取到相應(yīng)的定位準(zhǔn)確度,即目標(biāo)檢測對(duì)象的候選框與目標(biāo)檢測對(duì)象真實(shí)位置的交并比,對(duì)比結(jié)果見圖5可知。
圖5 DSC-SSD與常規(guī)算法對(duì)目標(biāo)檢測對(duì)象的定位準(zhǔn)確性對(duì)比
從圖5可知,相較于常規(guī)檢測算法而言,DSC-SSD算法在對(duì)目標(biāo)圖像進(jìn)行識(shí)別檢測時(shí),具有較為明顯的優(yōu)勢。對(duì)比分析兩種算法定位準(zhǔn)確度的平均值,發(fā)現(xiàn)前者為0.927,后者為0.934。這表示采用DSC-SSD目標(biāo)檢測算法能夠在一定程度上,保證目標(biāo)定位的精確性。
在我國經(jīng)濟(jì)發(fā)展水平與科技水平不斷提高的過程中,機(jī)器人在各大領(lǐng)域中需求量的提升與其應(yīng)用環(huán)境的日漸復(fù)雜化,對(duì)其工作性能提出了更高的要求。為了探究DSC-SSD在政務(wù)服務(wù)機(jī)器人場景理解中的應(yīng)用成效,并有效提高機(jī)器人的場景理解能力,實(shí)驗(yàn)中對(duì)DSC-SSD目標(biāo)檢測算法進(jìn)行深入研究,通過對(duì)圖像目標(biāo)檢測、圖像語義分割等相關(guān)技術(shù)進(jìn)行優(yōu)化與結(jié)合,設(shè)計(jì)場景理解與DSC-SSD的融合算法來進(jìn)行實(shí)驗(yàn)。結(jié)果顯示DSCSSD算法的目標(biāo)定位準(zhǔn)確度平均值可達(dá)到0.934,其查準(zhǔn)率、查全率、平均精度、每秒識(shí)別幀數(shù)分別為94.5%,92.4%,78.5%,95fps,顯著優(yōu)于其他算法。這表明DSC-SSD算法能夠在政務(wù)服務(wù)中發(fā)揮出其優(yōu)越的工作性能,可大量投入到政務(wù)服務(wù)機(jī)器人的場景理解中。