王立鵬,張智,蘇麗,聶文昌
(哈爾濱工程大學 自動化學院,黑龍江 哈爾濱 150001)
目標識別和定位在各研究領域應用廣泛,如視頻監(jiān)控、自動駕駛等,并成為眾多領域不可或缺的技術基礎。多年來,學者們在目標識別方面多采用目標特征提取的方法,目標特征包括紋理特征、顏色特征、形狀特征等[1-3],但基于上述特征的傳統(tǒng)的目標識別方法,大多針對特定的識別任務,特別是在有用信息較少情況下,難以實現(xiàn)精準的識別效果;在目標定位方面,研究人員大多基于目標識別基礎,如提取圖像特征[4]等,通過尺度不變特征變換算法對圖像特征檢測和匹配[5],基于傳統(tǒng)特征的目標定位精度不高。有些學者采用增加人工標識[6-8]的方式,強化圖像特征并便于物標位姿計算,但此種方式仍然存在問題:一方面,依然在傳統(tǒng)的目標特征基礎上開展,無法擺脫前述問題;另一方面,人工標識一般采用角點等明顯醒目形式,過于顯眼的人工標識影響環(huán)境美觀,實用性較差。
近年來,深度學習方法在計算機視覺領域發(fā)揮了巨大作用,出現(xiàn)眾多優(yōu)秀的卷積神經(jīng)網(wǎng)絡[9-13],相比傳統(tǒng)的目標特征,極大提高了目標識別的魯棒性和準確性[14],由于卷積特征更能夠反映圖像本質,深度學習在基于圖像的目標檢測及分類問題中取得顯著效果,但不能完全解決此類視覺問題,這是由于:1)深度學習應用時往往需要足夠多的訓練樣本,但目標可能存在遮擋、變形等一系列干擾因素,訓練樣本難以窮盡所有可能情況;2)需要一次性訓練網(wǎng)絡,訓練后的網(wǎng)絡難以動態(tài)擴充新類別物體;3)單純利用深度學習方法,無法獲得圖像中的目標精確位置和姿態(tài)信息。
為解決深度學習在目標識別與定位方面的已有問題,同時提高視覺系統(tǒng)的實用水平,本文以Faster Rcnn網(wǎng)絡[15]對優(yōu)選圖案的檢測及分類問題為基礎,研究構建環(huán)境中高實用性目標識別和定位的方法。提出具有針對性的圖案可分類性評價方法和圖案優(yōu)選策略,并根據(jù)Faster Rcnn網(wǎng)絡的各層級特點,從網(wǎng)絡中獲取卷積數(shù)據(jù),量化優(yōu)選圖案評價結果,進而獲得可用的優(yōu)選圖案數(shù)據(jù)庫,增加目標識別的成功率。結合雙目視覺系統(tǒng),利用Faster Rcnn網(wǎng)絡開展輔助優(yōu)選圖案識別和物標識別工作,通過開展試驗,驗證了本文算法的有效性、準確性和實用性。
本文以Faster Rcnn網(wǎng)絡為深度學習主網(wǎng)絡框架,該框架由2部分構成[16],即分類網(wǎng)絡和區(qū)域建議網(wǎng)絡(region proposal networks,RPN),其中分類網(wǎng)絡本文具體采用ZF(Zeiler &Fergus net)卷積網(wǎng)絡。圖1為本文中Faster Rcnn網(wǎng)絡工作流程。
圖1 Faster Rcnn網(wǎng)絡工作流程圖Fig.1 Flow chart of Faster Rcnn
本文Faster Rcnn的工作流程如下:使用ZF網(wǎng)絡前5層提取輸入圖像卷積特征,由RPN網(wǎng)絡利用圖像卷積特征,生成建議框并完成刪選工作,由分類網(wǎng)絡利用建議框裁剪圖像卷積特征,得到預測的目標特征區(qū)域,進行感興趣區(qū)域(region of interest,ROI)池化并設置2層全連接層,計算概率并解算坐標,完成識別和定位工作。
ZF網(wǎng)絡輸入為224×224大小的三通道圖像,網(wǎng)絡的第1層首先經(jīng)過96個不同濾波器的卷積,每個濾波器的大小均為7×7,橫縱向的步長均為2,該卷積層的特征層經(jīng)過ReLU激活函數(shù)、大小為3×3的池化以及歸一化LRN,得到96個不同的、大小為55×55的特征圖集合。其后的卷積層2~5層與上述操作類似,最后經(jīng)由2個全連接層,將卷積得到的特征以4 096維向量形式輸出,得到一個可識別N類目標的分類器。ZF卷積網(wǎng)絡的結構圖如圖2所示,圖中濾波器和特征圖均為方形。
圖2 ZF網(wǎng)絡結構Fig.2 Structure chart of ZF net
傳統(tǒng)的生成建議框的過程在CPU上實現(xiàn),但耗時較長,F(xiàn)aster Rcnn利用卷積神經(jīng)網(wǎng)絡直接提取建議框,這使得網(wǎng)絡訓練時間大大降低。RPN網(wǎng)絡的原理是:利用圖像分類的網(wǎng)絡結構提取圖像特征,進而選取建議框。RPN網(wǎng)絡輸入為任意大小的卷積網(wǎng)絡得到的圖像特征,輸出為一組矩形的目標建議框及其得分,建議框生成原理可如圖3所示。
圖3 建議框生成原理圖Fig.3 Schematic diagram of suggestion box
在RPN網(wǎng)絡的開端,使用一個方形滑動窗口,在滑動窗口劃過特征集每一個位置時,都生成不同的建議框,每一點生成建議框最大個數(shù)為k,則每一點對應的標框回歸器有4k個輸出,分類層有2k個輸出,生成的標框稱為錨框。本文將尺度的大小n設為3,長寬比例設為3,則最終每一點生成9個錨點。若一個特征圖集的大小為10×10,k取值為10,則最終會生成1 000個錨點。
本文將在給定初始圖案集的基礎上,設計輔助圖案優(yōu)選策略,提高優(yōu)選圖案集與環(huán)境其他目標以及圖案集內(nèi)部不同樣本的可分類性,本節(jié)優(yōu)選圖案的過程采用ZF網(wǎng)絡。
本文中裝飾圖案共計500個,該初始圖案集色彩和形狀較為多樣,在實際應用中不影響環(huán)境的和諧,圖4為初始圖案集中的12張。
圖4 初始圖案集樣例Fig.4 Examples of the initial pattern set
本文提出圖案“可分類性”的概念,為每個圖案提供一種定量的衡量指標,該指標的物理意義為:對應的圖案與其他圖案(包括背景)的可區(qū)分的量化程度,當對應的圖案代入深度學習網(wǎng)絡時,該指標越大,表示對應的圖案越容易被區(qū)分?!翱煞诸愋浴绷炕笜?,可通過小樣本集訓練試驗獲取,避免傳統(tǒng)大樣本訓練方式工作量過于龐大的弊端。
在圖2所示的ZF網(wǎng)絡中,其最終輸出為全連接層經(jīng)過softmax函數(shù)歸一化得到的分類概率,該概率是為了更顯著區(qū)分分類效果,因而概率結果較為離散,不能很好體現(xiàn)出目標原本的分類趨勢,歸一化前后的數(shù)據(jù)對比如圖5所示。
圖5 ZF網(wǎng)絡輸出歸一化前后對比圖Fig.5 Comparison before and after normalization of ZF network
通過圖5可看出,ZF網(wǎng)絡歸一化后的目標概率被放大,但是失去了歸一化前概率趨勢效果。本文改變ZF網(wǎng)絡概率輸出位置,采用歸一化前的向量輸出作為評價可分類性的數(shù)據(jù)來源,如圖6所示。
以圖6網(wǎng)絡歸一化前的輸出為數(shù)據(jù)源,并設計評價函數(shù)以量化圖案的可分類性,假設選定圖案集類別數(shù)量為N,增加1個背景類別,網(wǎng)絡包括N+1個輸出,本文設計可分類性評價函數(shù)Fcls如下:
圖6 可分類性評價數(shù)據(jù)源示意Fig.6 Data source of classification evaluation
(1)
式中pr和pN+1為樣本網(wǎng)絡和背景網(wǎng)絡輸出概率。
由式(1)可知,該評價函數(shù)將圖案分類概率非線性映射到指數(shù)函數(shù)上,并通過放大倍數(shù)增大相應圖案分類概率與其他圖案和背景分類概率的差距。評價函數(shù)可以有效得抑制背景對目標的影響,當訓練數(shù)據(jù)有限情況下,仍能評估每一個圖案的可分類性。
考慮到難以獲取各種環(huán)境下原始圖案集的海量樣本,本文采用仿真手段模擬不同拍攝狀態(tài)下的圖片,增加圖片庫的多樣性。對圖案所在平面開展透視變換,包括背景色變換、亮度變換、圖像尺度變換、透視角度變換,以此模擬現(xiàn)實環(huán)境中不同景物顏色、光強、距離、視角的拍攝效果,以其中一張圖片為例,仿真生成的圖片庫部分效果如圖7所示。
圖7 仿真模擬生成的圖片庫Fig.7 Partial effects of images from the simulations
通過對圖案隨機變換后,本文得到500類圖案的訓練數(shù)據(jù)庫,每類圖案包含150種變換圖片集。訓練集中增加一類用以表示圖案集合之外其他物體或區(qū)域的樣本,這里選取在生活環(huán)境中不同位置、角度拍攝的圖片作為背景圖片,對每一幅圖片隨機截取出若干位置框作為候選背景,背景圖案共計300張,部分背景圖案如圖8所示。
圖8 截取背景圖片F(xiàn)ig.8 Intercept background image
基于前文介紹的圖案可分類性評價方法以及仿真模擬圖片庫,進一步開展圖案集優(yōu)選工作,利用深度學習框架Caffe[17]來訓練ZF網(wǎng)絡,圖案和背景共計501類,訓練次數(shù)為50 000次,學習率為0.001。
經(jīng)ZF網(wǎng)絡訓練后,利用式(1)的評價函數(shù),可得到圖案可分類性的量化數(shù)值,量化數(shù)值存在以下2種情況:1)正確類別的概率遠高于其他類別的分類特征直方圖,如圖9(a)中類別序號為150的概率情況,該類圖案可作為本文優(yōu)選后的輔助圖案;2)正確類別的概率與其他類別的概率區(qū)分不夠顯著的分類特征直方圖,如圖9(b)中類別序號為342的概率情況,此類圖案將作為淘汰的圖案不被優(yōu)選。
圖9 各類別概率圖Fig.9 Probability graphs of the figures
按照上述方式,從500張候選圖案中優(yōu)選出16張可分類性最強的圖案作為優(yōu)選圖案,詳見圖10。
圖10 優(yōu)選后的16個圖案Fig.10 16 patterns after preferred
放置優(yōu)選后的輔助圖案,在不同狀態(tài)下拍攝形成訓練樣本集,本文共拍攝5 000個樣本圖片,其中選擇4 000個作為訓練集,另外1 000個作為測試集,訓練集準確率為90.6%,測試集準確率為85.7%。
將優(yōu)選出的輔助圖案和其他圖案放置于一起,在不同背景和角度下拍攝,識別效果如圖11所示。
圖11 圖案識別效果Fig.11 Effect of pattern recognition
如圖11所示,多數(shù)圖案可以被正確識別,但仍存在誤識別現(xiàn)象,進行30組識別實驗,優(yōu)選后的輔助圖案和非優(yōu)選圖案的誤檢次數(shù)如表1所示,可見優(yōu)選后圖案在復雜環(huán)境下具有更高的識別率。
表1 圖案識別統(tǒng)計表Table 1 Statistical table of pattern recognition
將融合優(yōu)選圖案的物體置于不同場景環(huán)境中,根據(jù)優(yōu)選圖案和物體的對應關系,可確定不同場景環(huán)境下的物體類別,不同場景環(huán)境下的優(yōu)選圖案識別效果如圖12所示。
圖12 優(yōu)選圖案識別效果Fig.12 Optimized pattern recognition effect
本文提出多種優(yōu)選圖案混合編碼方法,增加目標識別類別,根據(jù)不同圖案的組合列寫出編碼表。如采用2個圖案為一組編碼,可擴展為256類物體的標識。圖13中,9號和10號優(yōu)選圖案組合表示傳真機,1號和6號優(yōu)選圖案組合表示攝像頭。
圖13 圖案組合應用Fig.13 Pattern combination application
本文通過訓練深度學習網(wǎng)絡,先對目標進行分類,當視覺系統(tǒng)接近目標并能識別其上優(yōu)選圖案標識時,依據(jù)優(yōu)選圖案計算目標的準確位置及姿態(tài)。
3.2.1 雙目Faster Rcnn的目標粗檢測
本文通過雙目視覺系統(tǒng),實現(xiàn)對目標三維位置的估算,雙目視覺系統(tǒng)左右通道共用一個訓練完成的深度學習網(wǎng)絡,針對左、右通道圖像各自進行一次目標檢測,并將檢測結果進行匹配,計算其三維位置,圖14為本文所用的雙目相機實物圖。
圖14 雙目相機Fig.14 Binocular camera
以左通道中機器人的檢測框為模板,利用模板匹配在右通道中找到該機器人對應位置,并將該位置與右通道利用深度學習找出的位置框計算重合度,若重合度大于一定閾值,則證明是同一機器人。
3.2.2 優(yōu)選圖案的三維定位
在目標粗檢測確定大致位置后,在目標上粘貼優(yōu)選圖案,利用模板匹配和雙目視覺原理可得到目標較為精確的三維位置和姿態(tài)信息,在機器人表面粘貼2張優(yōu)選圖案。利用霍夫變換提取位置框內(nèi)的直線,提取得到很多間斷的短直線(如圖15(a)所示),將距離接近且斜率相似的直線合并,求解出相鄰直線的交點坐標,進一步解算圖案的中心點坐標(如圖15(b)所示)。通過模板匹配,在右通道中找到對應的圖案,采用與左通道相同的方法確定出該通道圖案中心坐標。
圖15 霍夫變換求解過程示意Fig.15 Solution process by Hough Transform
目標姿態(tài)角計算原理如圖16所示:坐標系原點Og設定于試驗房間的墻角處,設2個圖案中心點分別為A和B,利用雙目視覺原理可以得到A到相機的距離LAD以及B到相機的距離LBE,A、B點到相機連線與水平面夾角分別為θ1和θ2,2個圖案中心點AB間的實際距離Dab,通過三維立體幾何并利用下式可求解目標姿態(tài)角γ:
圖16 目標姿態(tài)角計算原理圖Fig.16 Schematic diagram of calculating attitude angle
(2)
本節(jié)開展4組機器人處于不同位置和姿態(tài)的4種工況的定位試驗,選取雙目相機和機器人的不同的位置和姿態(tài),試驗效果如圖17所示的4種工況,統(tǒng)計解算的目標位置和姿態(tài)數(shù)據(jù),列于表2和表3,本文4種工況的試驗數(shù)據(jù),在0.6 s之內(nèi)完成。
圖17 不同條件的試驗效果Fig.17 Effects of experiment under different conditions
表2 目標位置統(tǒng)計結果Table 2 Statistics results of target positions m
表3 目標姿態(tài)解算結果Table 3 Statistics results of target attitudes (°)
從表2和表3中數(shù)據(jù)可以看出,在本文算法開展的試驗中,目標位置偏差的坐標最大值為0.04 m,目標姿態(tài)偏差的最大值為2.6°,可見本文算法對目標的定位精度較高。
1)通過實際試驗驗證,本文優(yōu)選圖案的方法,提高了目標的可識別性及其定位精度,同時當系統(tǒng)實現(xiàn)了優(yōu)選圖案集的高精度識別時,圖案集可在后續(xù)應用中動態(tài)被賦予其他含義,與各類未知物體相關聯(lián),視覺系統(tǒng)可在無需重新學習的情況下不斷擴充其識別范圍。
2)本文融合優(yōu)選圖案的深度學習方法的可擴展性強,優(yōu)選圖案策略可進一步形成標準體系,為服務機器人、輔助智能系統(tǒng)的應用提供很好的借鑒意義,將圖案識別結果與基于目標本身的識別結果以及其他先驗知識相融合,減小外界主觀因素的干擾,可極大加速視覺系統(tǒng)的實用過程。
3)本文結合深度學習和雙目視覺的方法,可在實現(xiàn)目標有效識別的同時,進一步實現(xiàn)目標的高精度位置和姿態(tài)解算。
本文基于優(yōu)選圖案來增強智能系統(tǒng)認知環(huán)境的策略,在實用中易受到人為惡意偽造目標的影響,因此在安全性和可靠性要求較高的作業(yè)場合下應用受限,作者將在后續(xù)研究中,重點解決本文方法在上述環(huán)境下應用受限的問題。