任 民
(江蘇南京半山園 南京 210016)
基于改進(jìn)語(yǔ)義分層的無(wú)人飛行器場(chǎng)景理解?
任 民
(江蘇南京半山園 南京 210016)
隨著無(wú)人飛行器的大范圍普及,針對(duì)其場(chǎng)景理解的技術(shù)和應(yīng)用也變得越來(lái)越重要。論文采用BOO原理建立語(yǔ)義標(biāo)注模型,利用地圖軟件中顯示的瓦片金字塔技術(shù),結(jié)合事件識(shí)別領(lǐng)域提供的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,提出了一種新的語(yǔ)義分層方法。實(shí)驗(yàn)仿真證明該方法能夠使無(wú)人機(jī)在不同高度拍攝的場(chǎng)景中識(shí)別出相應(yīng)的景物。
場(chǎng)景理解;視覺(jué)字典;語(yǔ)義標(biāo)注;語(yǔ)義分層;瓦片金字塔
圖像理解、事件理解、場(chǎng)景理解是圖像分析的三部曲,圖像標(biāo)注是基礎(chǔ),事件理解是目的,場(chǎng)景理解是關(guān)鍵。理解的主要媒介就是視頻,相當(dāng)于人的眼睛或鏡頭捕捉到的畫(huà)面,而事件識(shí)別是人類大腦的圖像分析或機(jī)器模擬人類的圖像分析技術(shù)[1]。
視覺(jué)場(chǎng)景理解的定義為在環(huán)境數(shù)據(jù)感知的基礎(chǔ)上,結(jié)合視覺(jué)分析與圖像處理識(shí)別等技術(shù)手段,從計(jì)算統(tǒng)計(jì)、行為認(rèn)知以及語(yǔ)義等不同角度挖掘視覺(jué)數(shù)據(jù)中的特征與模式,從而實(shí)現(xiàn)場(chǎng)景有效分析、認(rèn)知與表達(dá)。
自然場(chǎng)景具有非結(jié)構(gòu)化特性和隨機(jī)性。由于光照、地形及運(yùn)動(dòng)等多種因素會(huì)使得自然景物在視覺(jué)系統(tǒng)中的成像有顯著差異,加上結(jié)構(gòu)化建筑物和室外道路這些特定人造場(chǎng)景,增加了對(duì)非規(guī)則自然景物識(shí)別與理解的難度。
現(xiàn)今的研究大多集中于自適應(yīng)地對(duì)場(chǎng)景進(jìn)行快速理解,并利用多傳感器信息融合技術(shù)提高自然場(chǎng)景理解的魯棒性。近年來(lái),結(jié)合數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、生物認(rèn)知和統(tǒng)計(jì)建模等技術(shù),包括以圖像處理為主的多層次場(chǎng)景圖像表達(dá),基于不同學(xué)習(xí)策略的場(chǎng)景信息有效學(xué)習(xí),確保視覺(jué)系統(tǒng)魯棒性的系統(tǒng)知識(shí)結(jié)構(gòu)與視覺(jué)控制策略,以及與生物認(rèn)知學(xué)相結(jié)合,為場(chǎng)景辨識(shí)和識(shí)別提供了許多解決方案[2~3]。其中最具代表性的是由美國(guó)國(guó)防高級(jí)研究計(jì)劃局主辦的野外無(wú)人車挑戰(zhàn)賽,參賽無(wú)人車在室外復(fù)雜場(chǎng)景下的深層環(huán)境感知和穩(wěn)定運(yùn)行推動(dòng)了自然場(chǎng)景理解在實(shí)際平臺(tái)上的技術(shù)轉(zhuǎn)化。
本文結(jié)合無(wú)人機(jī)飛行時(shí)期場(chǎng)景識(shí)別的應(yīng)用背景,利用地圖軟件中顯示的瓦片金字塔技術(shù)與現(xiàn)有的圖像識(shí)別技術(shù)相結(jié)合,提出一種語(yǔ)義分層的場(chǎng)景識(shí)別方法,不同的層級(jí),其標(biāo)注的事件也會(huì)不同。通過(guò)仿真實(shí)驗(yàn),可以看出這個(gè)方法可以提高無(wú)人機(jī)在不同情況下場(chǎng)景識(shí)別的實(shí)時(shí)性和準(zhǔn)確性,具有應(yīng)用前景。
Texton特征提取的流程如下:
圖1 Texton特征提取流程
首先將RGB像素圖轉(zhuǎn)變成Lab矢量圖。為了使圖像更符合人腦接收視覺(jué)信息的標(biāo)準(zhǔn),使用Gauss濾波器、高斯拉普拉斯濾波器和高斯一階微分濾波器對(duì)Lab顏色空間進(jìn)行濾波,使用不同的濾波器,可以檢測(cè)出圖像不同方面的信息。而這些圖像中的基本信息能夠?qū)ψ詈蟮膱D像子塊結(jié)構(gòu)進(jìn)行很好的模擬和重構(gòu)。濾波函數(shù)如下所示:
然后使用k-means聚類算法將通用的像素點(diǎn)結(jié)構(gòu)進(jìn)行篩選,經(jīng)過(guò)n次迭代,得到圖像中有效的基本結(jié)構(gòu)的點(diǎn)。這些點(diǎn)構(gòu)成的集合就是Texton字典[4]。獲得了圖像的Texton字典后,即可進(jìn)行BOO模型構(gòu)建了。
如果將場(chǎng)景圖像理解按照低、中、高三種表達(dá)層次進(jìn)行劃分,可對(duì)應(yīng)分為圖像特征識(shí)別、圖像語(yǔ)義標(biāo)注和圖像分類注釋三個(gè)層次。其中作為中間層的圖像語(yǔ)義標(biāo)注是利用圖像低層的顏色、紋理、Texton等特征來(lái)形成圖像不同區(qū)域的語(yǔ)義信息。該信息是連接低層和高層的橋梁,可克服高低兩層之間表達(dá)跨度較大所產(chǎn)生的弊端[5]。
本文采用Bag of Objects(BOO)模型。在圖像理解中,一張圖像會(huì)被描述成很多物體對(duì)象的集合,只考慮對(duì)象出現(xiàn)次數(shù),而不考慮出現(xiàn)位置,這樣的一張圖像如同裝滿了物體對(duì)象的袋子。BOO模型的最大特征就是借助了主題對(duì)象語(yǔ)義這個(gè)中間鍵,縮短了高層圖像事件與底層圖像特征之間存在的語(yǔ)義鴻溝,如圖2所示。將BOO引入圖像語(yǔ)義標(biāo)注檢索技術(shù),一般都是將每幅圖像看作一個(gè)文檔,圖像中對(duì)象對(duì)應(yīng)的詞就是文檔語(yǔ)義。結(jié)合前文使用的Texton字典特征,可以提高BOO模型對(duì)語(yǔ)義檢索的準(zhǔn)確性。
圖2 對(duì)象語(yǔ)義中間鍵
通過(guò)BOO模型進(jìn)行圖像語(yǔ)義標(biāo)注有兩個(gè)過(guò)程——訓(xùn)練模型過(guò)程為測(cè)試標(biāo)注圖像過(guò)程。
1)訓(xùn)練模型過(guò)程
訓(xùn)練模型過(guò)程的核心步驟分為以下三點(diǎn)[6]:
(1)找到圖像中的主題詞匯;
(2)通過(guò)主題詞匯這個(gè)橋梁找到待標(biāo)注圖像中的主題詞匯概率分布;
(3)通過(guò)語(yǔ)義詞匯在主題中的概率分布計(jì)算出測(cè)試圖像語(yǔ)義詞匯的概率分布。
這個(gè)過(guò)程與人類認(rèn)知圖像的過(guò)程非常相似[7]。訓(xùn)練模型過(guò)程其實(shí)就是模仿人類的學(xué)習(xí)過(guò)程,目的在于讓計(jì)算機(jī)學(xué)會(huì)圖像中都有什么樣的主題特征,并且讓計(jì)算機(jī)記住每種主題包含的詞匯分布。
2)測(cè)試標(biāo)注圖像過(guò)程
基于BOO模型的圖像標(biāo)注系統(tǒng)的整體結(jié)構(gòu)是將圖像集分為訓(xùn)練集圖像(被手工標(biāo)注的圖像)和測(cè)試圖像(待系統(tǒng)標(biāo)注圖像)[8]。將訓(xùn)練圖像通過(guò)處理得到訓(xùn)練圖像的視覺(jué)詞匯特征,這樣訓(xùn)練圖像集就成了兩種詞匯的集合,即語(yǔ)義詞匯和視覺(jué)詞匯。接著對(duì)圖像集進(jìn)行LDA建模,分為以下四個(gè)步驟:
(1)得到P(w|z)和P(z|d)兩個(gè)關(guān)于主題詞匯的概率分布[9~10];
(2)針對(duì)視覺(jué)詞匯建模,結(jié)合上次得到的P(z|d)可以得到P(v|z),即視覺(jué)詞匯在主題詞匯中的分布規(guī)律;
(3)測(cè)試圖像只有視覺(jué)詞匯特征,結(jié)合訓(xùn)練得到的P(v|z)可以計(jì)算出P(z|d),即測(cè)試圖像中隱藏的主題詞匯[11];
(4)最后可以由P(z|d)和P(w|z)計(jì)算出測(cè)試圖像的P(w|d),即標(biāo)注結(jié)果,語(yǔ)義詞匯的概率分布。
通過(guò)飛行中的無(wú)人機(jī)中的攝像頭拍攝到的場(chǎng)景往往具有很大的不確定性,除了天氣因素造成相同的場(chǎng)景不同的呈現(xiàn)之外,無(wú)人機(jī)在不同的高度拍攝到的相同場(chǎng)景也會(huì)有不同呈現(xiàn)。由于各種不確定因素的存在,對(duì)于場(chǎng)景中的景物辨識(shí)具有一定的模糊性,并經(jīng)常導(dǎo)致分類的錯(cuò)誤。
為解決這類問(wèn)題,需要對(duì)構(gòu)建場(chǎng)景的知識(shí)庫(kù),對(duì)語(yǔ)義進(jìn)行分類、約束和分層[12]。分類可以借助有已的語(yǔ)義庫(kù),約束主要涉及到物體間的關(guān)聯(lián)信息,如圖3所示。
圖3 語(yǔ)義的分類和約束
語(yǔ)義分層主要是將語(yǔ)義由“概括”向“具體”的層次劃分,參考地圖顯示中的瓦片金字塔技術(shù),在無(wú)人機(jī)離場(chǎng)景距離遠(yuǎn)時(shí),僅識(shí)別公園、小區(qū)、樹(shù)林、湖泊等大目標(biāo),在無(wú)人機(jī)離場(chǎng)景距離近時(shí),可以識(shí)別樹(shù)木、房屋等小目標(biāo)。識(shí)別大目標(biāo)到小目標(biāo)之間的切換通過(guò)無(wú)人機(jī)上配備的距離測(cè)量?jī)x測(cè)量的距離遠(yuǎn)近動(dòng)態(tài)轉(zhuǎn)換。
分層語(yǔ)義模型如下。
上層語(yǔ)義:無(wú)人機(jī)在高空時(shí),主要語(yǔ)義為城市、農(nóng)田、河流、湖泊等
中層語(yǔ)義:無(wú)人機(jī)在中空時(shí),主要語(yǔ)義為小區(qū)、公園、樹(shù)林、道路等。
下層語(yǔ)義:無(wú)人機(jī)在低空時(shí),主要語(yǔ)義為樹(shù)木、房屋、橋梁、地標(biāo)等。
如圖4所示。
圖4 分層語(yǔ)義模型
本文采用模擬仿真的方法,對(duì)本文提出的算法進(jìn)行仿真驗(yàn)證。
為了提高開(kāi)發(fā)效率,實(shí)驗(yàn)數(shù)據(jù)通常并不需要自己構(gòu)建,而是采用成熟的數(shù)據(jù)集,本文采用分類領(lǐng)域影響非常大的Standford background數(shù)據(jù)集,包括572張訓(xùn)練樣本和143張測(cè)試樣本,共有包括建筑物、水、天空等在內(nèi)的8個(gè)類別,能基本涵蓋無(wú)人機(jī)飛行時(shí)所處的場(chǎng)景信息。然后,將這些圖片分為遠(yuǎn)景、中景、近景三層。通過(guò)在Matlab仿真軟件上采用本文所述的Texton特征提取、分層語(yǔ)義算法,用搜索算法遍歷整個(gè)數(shù)據(jù)集,最終輸出最符合特征的語(yǔ)義。具體過(guò)程如下:
1)輸出一張場(chǎng)景圖片;
2)在單選框中選擇使用哪一層的語(yǔ)義;
3)用鼠標(biāo)劃定需要理解識(shí)別的區(qū)域;
4)通過(guò)后臺(tái)計(jì)算,在識(shí)別結(jié)果中顯示對(duì)應(yīng)的語(yǔ)義。
本文所采用分層語(yǔ)義算法所完成的近景、中景、遠(yuǎn)景語(yǔ)義標(biāo)注效果分別見(jiàn)圖5、圖6、圖7所示。
圖5 近景語(yǔ)義標(biāo)注
由圖4、圖5、圖6可以看出,在圖片與語(yǔ)義級(jí)數(shù)匹配的情況下,系統(tǒng)可以準(zhǔn)確地識(shí)別出指定的圖像,并將輸出相應(yīng)的語(yǔ)義。
本文只是對(duì)場(chǎng)景語(yǔ)義進(jìn)行了粗略的分層,在實(shí)驗(yàn)仿真時(shí)也只是放入靜態(tài)圖片進(jìn)行測(cè)試并證明方法有效,但是對(duì)實(shí)時(shí)性、魯棒性都沒(méi)有進(jìn)行優(yōu)化和仿真,也尚未實(shí)現(xiàn)圖片縮放時(shí)識(shí)別層次的自動(dòng)切換,離實(shí)用化尚有一段距離。下一步,作者希望能沿襲這個(gè)分層語(yǔ)義的思路,使用視頻進(jìn)行實(shí)時(shí)性檢測(cè),并進(jìn)行語(yǔ)義跨層時(shí)的切換平滑度研究,使整個(gè)程序在操作時(shí)更加流暢和人性化。
圖6 中景語(yǔ)義標(biāo)注
圖7 遠(yuǎn)景語(yǔ)義標(biāo)注
[1]Heitz G,Gould S,Saxena A,Koller D.Cascaded classiflcation models:combining models for holistic scene understanding[C]∕In:Proceedings of the Conference on Neural Information Processing Systems.Vancouver,Canada:NIPS,2008.1-8.
[2]蔡自興,鄒小兵.移動(dòng)機(jī)器人環(huán)境認(rèn)知理論與技術(shù)的研究[J].機(jī)器人,2004,26(1):87-91.
[3]Bay H,Ess A,Tuytelaars T,van Gool L.SURF:speeded up robust features[J].Computer Vision and Image Understanding,2008,110(3):346-359.
[4]Brostow G J,F(xiàn)auqueur J,Cipolla R.Semantic object classes in video:a high-deflnition ground truth database[J].Pattern Recognition Letters,2009,30(2):88-97.
[5]李夢(mèng)縈宋海玉王澤宇.場(chǎng)景理解在實(shí)時(shí)監(jiān)視中的應(yīng)用研究[J].中國(guó)高新技術(shù)企業(yè),2016.2:45-46.
[6]Bosch A,Munoz X,F(xiàn)reixenet J.Segmentation and description of natural outdoor scenes[J].Image and Vision Computing,2007,25(5):727-740.
[7]Hadsell R,Sermanet P,Ben J,Erkan A,Sco-er M,Kavukcuoglu K.Learning long-range vision for autonomous off-road driving[J].Journal of Field Robotics,2009,26(2):120-144.
[8]莊嚴(yán)陳東王偉韓建達(dá)王越超.移動(dòng)機(jī)器人基于視覺(jué)室外自然場(chǎng)景理解的研究與進(jìn)展[J].自動(dòng)化學(xué)報(bào),2010.36(1):1-11.
[9]Socher R,Lin CC,Ng AY,eds.Parsing natural scenes and natural language with recurisve neural networks[C]∕∕The International Conference on Machine Learning,Bellevue,2011.
[10]Liu B,F(xiàn)an HQ.Semantic labeling of indoor scenes from RGB-D images with discriminative learning[C]∕The international Conference on Machine Vision,London,2013.
[11]孫麗坤劉波.基于分層區(qū)域合并的自然場(chǎng)景理解[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2014.23(11):116-121.
[12]莊嚴(yán)陳東等.移動(dòng)機(jī)器人基于視覺(jué)室外自然場(chǎng)景理解的研究與進(jìn)展[J].自動(dòng)化學(xué)報(bào),2010.36(1):1-11.
UAV Flight Scene Understanding Based on Improved Semantic Layering
REN Min
(Banshanyuan,Nanjing 210016)
With the widespread popularity of UAV,UAV scene understanding technology is more and more important.In this paper,BOO principle is used to establish semantic annotation model,and the tile-pyramid technology of map software is used and the training dataset and test dataset provided in event recognition field are combined,and a new semantic layering method is proposed.The experimental simulation proves that the proposed method can identify the corresponding objects in the scene of the UAV photographed at different heights.
scene understanding,texton map,semantic annotation,semantic layering,tile-pyramid
V279
10.3969∕j.issn.1672-9730.2017.10.019
Class Number V279
2017年4月7日,
2017年5月26日
任民,男,碩士,副教授,研究方向:海軍兵種戰(zhàn)術(shù)。