孫健飛,王占崗,陶恩海
(1.江蘇省地質(zhì)礦產(chǎn)局第六地質(zhì)大隊(duì),江蘇 連云港 222023;2.灌云縣城鄉(xiāng)規(guī)劃服務(wù)中心,江蘇 連云港 222200;3.江蘇兼金信息產(chǎn)業(yè)有限公司,江蘇 連云港 222300)
近年來,無人機(jī)航測(cè)因其使用靈活方便、成本低、設(shè)備展開及數(shù)據(jù)獲取速度快等優(yōu)勢(shì),廣泛應(yīng)用于國土資源勘探、智慧工地、林業(yè)調(diào)查、應(yīng)急救援等各領(lǐng)域。 外業(yè)量測(cè)中,輕量化無人機(jī)能根據(jù)需求快速獲取多角度的航測(cè)影像。在內(nèi)頁處理中許多影像處理軟件應(yīng)運(yùn)而生。目前配套的內(nèi)業(yè)處理軟件,如大疆智圖、PIX4D、SMART3D等,這些軟件的處理能力日益豐富,使數(shù)字正射影像圖和三維模型的生產(chǎn)愈發(fā)簡(jiǎn)便化。但在矢量化地形圖的生產(chǎn)上,現(xiàn)有軟件在自動(dòng)識(shí)別技術(shù)方面還存在缺陷,如R2V軟件,對(duì)原有單色地形圖圖紙的掃描件支持較好,而對(duì)于數(shù)字正射影像圖的采集成圖難以實(shí)現(xiàn)。識(shí)別過程中極易受到航測(cè)影像采集的視角、姿態(tài)、光照、遮擋等條件差異和場(chǎng)景的多樣性導(dǎo)致目標(biāo)發(fā)生形變[1]。另外,海量數(shù)據(jù)帶來的處理效率問題,給航測(cè)影像的目標(biāo)分類和識(shí)別帶來巨大挑戰(zhàn)[2-4]。
針對(duì)上述問題,本文分析近年來計(jì)算機(jī)圖像識(shí)別方面的人工智能模型,結(jié)合航空影像固有特性,通過研究識(shí)別后與已有繪圖軟件交互。通過一組基于經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的航測(cè)影像自動(dòng)識(shí)別實(shí)驗(yàn)對(duì)其實(shí)用性進(jìn)行探討。
傳統(tǒng)的目標(biāo)檢測(cè)和識(shí)別方法采用基于滑動(dòng)窗口的特征提取框架:區(qū)域選擇-特征提取(SIFT,HOG)-模型建立(分類器/回歸器)。當(dāng)前研究主要集中于基于人工特征的構(gòu)造和分類算法上,存在嚴(yán)重依賴人工經(jīng)驗(yàn),模型魯棒性差,泛化能力弱等缺點(diǎn)。并不適用于背景復(fù)雜、分辨率高的無人機(jī)航拍圖像。
與傳統(tǒng)方法相比,深度學(xué)習(xí)的方法采用端到端的解決思路,類似于人的視覺系統(tǒng),從原始信號(hào)攝入開始(瞳孔攝入像素),首先進(jìn)行初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)物體的邊緣、顏色),再進(jìn)行抽象(大腦判定眼前的物體的形狀是圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球),最后在大腦中構(gòu)建出一幅視覺圖像[5]。卷積網(wǎng)絡(luò)受視覺神經(jīng)機(jī)制的啟發(fā),為識(shí)別二維形狀專門設(shè)計(jì)了一個(gè)多層感知器,對(duì)平移、比例縮放、傾斜或者其他形式的變形具有高度不變性。
卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)可以分為輸入層、卷積層、全連接層和輸出層4個(gè)部分,圖1為牛津大學(xué)的視覺幾何組(Visual Geometry Group)和Google DeepMind公司的研究員一起研發(fā)的用于圖像識(shí)別的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型VGG-NET。
圖1 VGG-NET結(jié)構(gòu)圖
由圖1可知,卷積神經(jīng)網(wǎng)絡(luò)借鑒生物神經(jīng)網(wǎng)絡(luò),采用了非全連接和權(quán)值共享的多層網(wǎng)絡(luò)結(jié)構(gòu)。卷積神經(jīng)網(wǎng)絡(luò)因其局部權(quán)值共享的特殊結(jié)構(gòu)在圖像處理方面相比于彼此連接網(wǎng)絡(luò)有著顯著優(yōu)勢(shì)。其特征檢測(cè)層對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隱式學(xué)習(xí),避免了顯式的特征抽取,并且由于同一特征映射面上的神經(jīng)元權(quán)值相同,大大降低了網(wǎng)絡(luò)的復(fù)雜性。在處理時(shí)可以采用并行計(jì)算技術(shù),對(duì)于多維輸入向量的圖像,可直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過程中數(shù)據(jù)重建的復(fù)雜度。
2012年,Hinton用CNN結(jié)合GPU并行處理技術(shù)用于Imagenet Challenge數(shù)據(jù)庫中,使分類錯(cuò)誤率從26.2%下降到16%,取得了當(dāng)年最好的分類結(jié)果。2014年3月,Facebook用400萬張人臉圖片訓(xùn)練了一個(gè)9層的卷積神經(jīng)網(wǎng)絡(luò),在著名的公共測(cè)試數(shù)據(jù)集LFW(Labeled Face in the Wild)上達(dá)到了97.25%的識(shí)別正確率,基本接近人眼的辨識(shí)水平。
隨后,香港中文大學(xué)基于Fisher Discriminant Analysis的算法將人臉識(shí)別的正確率提高到98.52%,超過了人類水平(97.53%)[5-10]。
本文使用Python和Tensorflow的開發(fā)環(huán)境并結(jié)合航測(cè)采集軟件探討航測(cè)影像自動(dòng)采集的可行性。實(shí)驗(yàn)環(huán)境如表1所示。
表1 實(shí)驗(yàn)環(huán)境
(1)從歷史航拍的原始圖庫中,挑選包含“廠房”“道路”“民房”3種需要標(biāo)注的物體的圖片,通過Photoshop人工截取相關(guān)物體的小圖,分類保存在CF(廠房)、DL(道路)和MF(民房)3個(gè)文件夾中,每種標(biāo)簽的樣本制作100個(gè)。廠房的原始樣本如圖2所示。
圖2 原始樣本
(2)利用OpenCV對(duì)每個(gè)樣本分別進(jìn)行水平翻轉(zhuǎn)(鏡像)、垂直翻轉(zhuǎn)(倒影)、旋轉(zhuǎn)變換,將每個(gè)類別的樣本數(shù)量擴(kuò)展到400個(gè),并將所有樣本圖片縮放到同一大小(圖3)。
圖3 縮放后圖片樣本
(3)每個(gè)標(biāo)簽的樣本圖片隨機(jī)取320張,制作用于訓(xùn)練的Tfrecord訓(xùn)練集,剩下的80張圖片制作測(cè)試集。運(yùn)行結(jié)果如圖4所示。
圖4 運(yùn)行結(jié)果截圖
(1)航測(cè)采集軟件及接口
在1∶2000比例尺地形圖采集中,使用PIX4D軟件生成點(diǎn)云并分類、抽稀后處理為高程點(diǎn),在地物采集方面比較困難。DOM加載進(jìn)CASS軟件的采集方式較為直觀,上手最容易。CASS作為Auto CAD二次開發(fā)的軟件,支持命令欄輸入的方式繪制地形圖,以命令欄為接口,可方便的實(shí)現(xiàn)Python軟件的輸入。
在CASS通過命令導(dǎo)入的方式實(shí)現(xiàn)后,逐步探討三維模型采集軟件EPS中自動(dòng)采集的可行性。
(2)搭建CNN神經(jīng)網(wǎng)絡(luò)
經(jīng)對(duì)比LeNet5、AlexNet、GoogleNet、ResNet等常用卷積神經(jīng)網(wǎng)絡(luò)模型,最終選擇采用VGG16模型(圖5)。
圖5 VGG-NET模型分類圖(D即為VGG16)
(3)初始化變量,然后執(zhí)行模型的訓(xùn)練和測(cè)試,并保存訓(xùn)練好的模型(圖6-圖8)。
圖6 訓(xùn)練和測(cè)試截圖
圖7 保存訓(xùn)練模型
圖8 模型訓(xùn)練驗(yàn)證對(duì)比
載入待處理的航拍圖片,通過過濾器和訓(xùn)練的模型識(shí)別圖片中目標(biāo)物體,得到包含物體的矩形框的4個(gè)點(diǎn)坐標(biāo)(圖9)。
圖9 確定處理范圍
利用坐標(biāo)截取圖片,通過OpenCV的邊緣檢測(cè)獲取邊緣線,得到目標(biāo)物體的頂點(diǎn)坐標(biāo);對(duì)于細(xì)部生成的邊長(zhǎng)短于30 cm的,去除多余邊(圖10)。
圖10 識(shí)別邊緣效果
讀取jgw文件中的原始坐標(biāo)和精度,結(jié)合矩形框坐標(biāo)和物體頂點(diǎn)坐標(biāo),計(jì)算出目標(biāo)物體的實(shí)際坐標(biāo)值,保存到結(jié)果文件中。
將結(jié)果文件導(dǎo)入CAD,經(jīng)驗(yàn)證對(duì)廠房的識(shí)別率達(dá)到97%,因?yàn)槟繕?biāo)區(qū)域正處于大規(guī)?;A段,道路和路燈的完成度低,識(shí)別準(zhǔn)確率較低。由于影像分辨率差異較大,存在邊緣提取坐標(biāo)與實(shí)測(cè)坐標(biāo)存在誤差的情況,后續(xù)改進(jìn)時(shí)外業(yè)航測(cè)精度需提高。
本文探討了利用經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)提取航測(cè)圖像中感興趣目標(biāo)的可行性。結(jié)果表明,VGG16模型非常適合處理能夠有效提升高分辨率和復(fù)雜背景的航拍圖像的識(shí)別準(zhǔn)確率,但在較小目標(biāo)如路燈等目標(biāo)的識(shí)別準(zhǔn)確率較低,本文后續(xù)考慮從以下幾個(gè)方面改進(jìn):① 對(duì)輸入圖像進(jìn)行精細(xì)的預(yù)處理(如濾波、白化等);② 原數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),并進(jìn)行更多次的迭代;③ 構(gòu)建具有雙重?fù)p失函數(shù)的糅合模型。