亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路場景識別

        2019-05-21 07:17:12李云伍徐俊杰劉得雄
        農(nóng)業(yè)工程學(xué)報 2019年7期
        關(guān)鍵詞:空洞田間語義

        李云伍,徐俊杰,劉得雄,于 堯

        (1. 西南大學(xué)工程技術(shù)學(xué)院,重慶 400716;2. 丘陵山區(qū)農(nóng)業(yè)裝備重慶市重點實驗室,重慶 400716;3. 貴州省山地農(nóng)業(yè)機械研究所,貴陽 550002)

        0 引 言

        丘陵山區(qū)占中國國土面積的 70%左右,是中國糧油糖作物及薯類、果桑茶麻、蔬菜、青飼料等特色經(jīng)濟作物的重要生產(chǎn)基地[1]。農(nóng)村勞動力的缺乏以及生產(chǎn)率提升的迫切需求,使得丘陵山區(qū)亟需各種自動化程度高、安全性好的智能農(nóng)業(yè)機械。機器視覺系統(tǒng)是智能農(nóng)機搭載的主要環(huán)境感知裝備之一,其主要任務(wù)是完成對可行駛區(qū)域、障礙物或作物的檢測。丘陵山區(qū)田間道路場景復(fù)雜,道路寬度不一、曲率變化大、形態(tài)復(fù)雜,路內(nèi)路邊雜草泥土等障礙物散布,給智能農(nóng)機的自主導(dǎo)航與避障帶來較大的困難。因此,針對丘陵山區(qū)田間道路的復(fù)雜場景識別研究變得尤為重要。

        根據(jù)識別的內(nèi)容和范圍,基于圖像處理的道路場景識別可分為低層次的道路識別和高層次的道路場景理解[2]。道路識別一般采用圖像分割法將道路區(qū)域和非道路區(qū)域區(qū)分開。道路場景理解則是在像素級對場景中檢測到的各類對象進行語義分割,能夠更精確地識別出道路區(qū)域及周圍的環(huán)境對象,為自主導(dǎo)航和避障提供支持。在道路場景識別方法中,深度學(xué)習(xí)具有精準(zhǔn)性高、魯棒性強等優(yōu)點,成為道路場景識別的重要發(fā)展方向[3]。

        近年來在道路場景理解研究中,Oliveira等[4]使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)算法學(xué)習(xí)場景中的高階特征進行單目道路場景分割,通過應(yīng)用在一個普通圖像數(shù)據(jù)集上的訓(xùn)練算法對其他測試圖像進行分類,生成訓(xùn)練標(biāo)簽;然后使用基于顏色層融合的新紋理描述子來獲取道路區(qū)域的最大一致性;最后將離線和在線信息結(jié)合起來對城市道路區(qū)域進行檢測。Coombes等[5]提出基于HSV(hue saturation value)色彩空間的語義分割算法,使用CNN來分割解釋場景,通過訓(xùn)練基于顏色的貝葉斯網(wǎng)絡(luò)分類器對每個分割的聚類進行語義分類,利用亮度特征識別飛機場滑行道上的表面線,然后與 CNN分割相融合,給出改進的分類結(jié)果。Wang等[6]提出一種利用相對位置先驗信息和語義分割相聯(lián)合的方法來估計城市道路布局和分割城市場景。Cordts等[7]和Zhang等[8]利用多傳感器信息融合技術(shù)提高城市交通道路場景理解的準(zhǔn)確性。Chen等[9]提出了一種基于視差建議的檢測方法,在立體視差的基礎(chǔ)上快速提取檢測對象的候選幀,保證了候選幀在不同擾動下的魯棒性。

        上述文獻的場景理解方法基本上是為解決特定結(jié)構(gòu)化場景下的智能導(dǎo)航問題而提出,具有特定的功能,僅適用于特定的環(huán)境。由于基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)能夠自動學(xué)習(xí)圖像的層級特征,在物體識別和像素標(biāo)注上表現(xiàn)出優(yōu)秀性能,因此成為圖像語義分割的重要方法之一。軒永倉[10]將大田場景對象分為 7類,采用基于全卷積神經(jīng)網(wǎng)絡(luò) VGG-16結(jié)構(gòu)的 FCN-32s、FCN-16s和FCN-8s 3種模型進行語義分割,測試結(jié)果表明 FCN-8s的總體效果最好,在大田應(yīng)用場景下的統(tǒng)計像素準(zhǔn)確率可達90.87%。該模型應(yīng)用場景為平原大田環(huán)境,圖像較為簡單,訓(xùn)練集分辨率為 256×256像素,對分割的細節(jié)要求不高。張利剛[11]將VGG-16中的18層卷積層和池化層均改為空洞卷積層和空洞池化層,構(gòu)建了全空洞卷積神經(jīng)網(wǎng)絡(luò),使用該網(wǎng)絡(luò)在MIT Scene Parsing Dataset下訓(xùn)練測試,統(tǒng)計像素準(zhǔn)確率達到 72.81%,比 FCN-8s高1.49%。該方法未保留池化層,網(wǎng)絡(luò)采用了大量膨脹信息,對一些大物體有較好分割效果,但對小物體的分割不夠準(zhǔn)確,邊緣也較模糊。

        本文針對丘陵山區(qū)田間道路無車道線、邊界模糊、環(huán)境復(fù)雜多變等特點,利用全卷積神經(jīng)網(wǎng)絡(luò) VGG-16結(jié)構(gòu),融合空洞卷積構(gòu)造預(yù)測精度更高的前端模塊,并利用不同膨脹系數(shù)空洞卷積層的級聯(lián)進行多尺度上下文聚合,構(gòu)建了基于改進空洞卷積神經(jīng)網(wǎng)絡(luò)的田間道路場景識別模型,對復(fù)雜非結(jié)構(gòu)化田間道路圖像進行語義分割,以獲取道路的可行區(qū)域和障礙物等信息,為后續(xù)丘陵山區(qū)智能農(nóng)機的自主導(dǎo)航奠定基礎(chǔ)。

        1 丘陵山區(qū)田間道路場景對象分類

        道路一般分為結(jié)構(gòu)化道路和非結(jié)構(gòu)化道路[12]。目前針對結(jié)構(gòu)化道路的圖像識別技術(shù)相對成熟。非結(jié)構(gòu)化道路一般指無車道線和無明顯邊界的非主干道或鄉(xiāng)村道路。對非結(jié)構(gòu)化道路的準(zhǔn)確識別是當(dāng)前道路環(huán)境感知的主要研究內(nèi)容之一[13]。

        隨著丘陵山區(qū)農(nóng)田整治與農(nóng)田基礎(chǔ)設(shè)施建設(shè)的推進,田間、居民點、倉庫之間普遍建立起0.8~1.2 m寬的田間便道[14](如圖1所示)。

        圖1 丘陵山區(qū)田間道路場景圖像語義分割實例Fig.1 Example of semantic segmentation of field road scene in hilly areas

        這些道路屬于典型的非結(jié)構(gòu)化道路,主要特點包括:1)道路形狀變化多樣,蜿蜒曲折,坡度大;2)路況復(fù)雜,道路兩旁多為不同類型的作物和雜草,道路邊緣多被雜草和作物枝葉覆蓋,路面上的陰影千差萬別;3)路面狀況受季節(jié)和天氣的影響較大,不同季節(jié)和天氣情況下道路的顏色和紋理特征差異較大。這些復(fù)雜的場景特征為田間道路及道路上障礙物的識別帶來較大困難。因此,要實現(xiàn)智能農(nóng)機在田間道路上基于機器視覺的自主導(dǎo)航,需通過多重處理區(qū)分出田間道路、周圍環(huán)境,以及道路上的物體。

        本文根據(jù)田間道路環(huán)境特征以及自主導(dǎo)航的需要,將田間道路圖像中的對象分為11種類別,分別是“背景、道路、行人、植被、天空、建筑、牲畜、障礙、池塘、土壤和桿”,其定義見表1。對“道路、土壤、植被、建筑、池塘”分類的目的在于實現(xiàn)后續(xù)自主導(dǎo)航的局部路徑規(guī)劃;對“行人、牲畜、障礙”分類是便于后續(xù)自主行駛中的自動避障;對“桿”分類是便于后期對路牌和標(biāo)志牌的識別。

        表1 丘陵山區(qū)田間道路場景對象分類Table 1 Classification of field road scene objects in hilly areas

        2 圖像樣本數(shù)據(jù)集建立

        2.1 數(shù)據(jù)集獲取

        本文田間道路場景圖像語義分割的主要目的是實現(xiàn)智能農(nóng)機在田間道路上的自主導(dǎo)航與避障,因此以前期研制的自主行駛田間道路搬運車[1]為圖像采集平臺,以獲取真實的行駛過程中的道路圖像。如圖 2所示,該搬運車整車尺寸1 130 mm×530 mm×822 mm(長×寬×高),輪距450 mm,軸距760 mm。圖像采集模塊為RER-720P高清攝像頭,最高分辨率為1280×720像素。攝像頭離地高度800 mm,光軸中心與地面夾角15°。搬運車以2 m/s的速度行駛,攝像頭采集道路場景真實視頻數(shù)據(jù)后存儲于筆記本電腦中,再剪輯選取幀圖像。

        為提高構(gòu)建的場景理解模型算法的魯棒性,使其適應(yīng)多種環(huán)境特征,依據(jù)田間實際情況和自然光照,在多種復(fù)雜條件下進行圖像采集。采集過程中道路上存在大量陰影遮擋的情況。

        圖2 田間道路搬運車采集圖像Fig.2 Image acquisition by field road carrier

        圖像采集地點為重慶市北碚區(qū)內(nèi)的丘陵山區(qū)田間道路。將采集后的視頻圖像進行分析,提取多個場景和環(huán)境條件的1 000張幀圖像作為數(shù)據(jù)集進行后續(xù)處理。為降低對計算機顯存的需求,將采集到的圖像像素全部縮放為512×512像素。

        2.2 數(shù)據(jù)集預(yù)處理

        為了獲得精確的語義分割數(shù)據(jù)集,并有效地提升數(shù)據(jù)質(zhì)量、增加數(shù)據(jù)特征多樣性,對采集的田間道路圖像集進行預(yù)處理,包括數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強及均值處理 3個步驟。

        卷積神經(jīng)網(wǎng)絡(luò)需要進行有監(jiān)督的訓(xùn)練。采集的幀圖像本身沒有標(biāo)簽和語義,必須進行人工分割和標(biāo)注,然后圖片才能用于訓(xùn)練[10]。使用Adobe Photoshop CC 2018工具對數(shù)據(jù)集進行手動分割。在縮放后的圖片中,對 11種對象類別進行手動標(biāo)注,每種類別標(biāo)注的 RGB(red-green-blue)3通道值如表2所示。

        表2 丘陵山區(qū)田間道路場景對象的標(biāo)注顏色Table 2 Marked color of field road scene objects in hilly areas

        數(shù)據(jù)增強參考文獻[10]提供的方法,對縮放后的圖片集以及人工語義分割后的圖片進行水平和垂直翻轉(zhuǎn),然后將圖片沿水平方向移動48個像素位置。采用這3種方式,每種方式可擴充 2倍的數(shù)據(jù)量,由此將訓(xùn)練集數(shù)據(jù)擴充為原始數(shù)據(jù)集的8倍。

        數(shù)據(jù)集均值處理,具體步驟是先計算數(shù)據(jù)集所有圖像在同一個位置上像素點對應(yīng)的RGB三通道均值,再將所有圖像對應(yīng)位置的RGB通道值減去相應(yīng)的均值。采取此處理,能夠讓輸入樣本的各通道數(shù)據(jù)中心化,減少噪聲值的干擾,加快模型的收斂。

        經(jīng)過上述 3種方式處理之后,按照“訓(xùn)練集∶測試集=4∶1”的比例[15],將圖像樣本數(shù)據(jù)集分成訓(xùn)練集和測試集,選取訓(xùn)練集圖像1 600張、測試集圖像400張進行模型訓(xùn)練和對比試驗。

        3 田間道路場景理解模型構(gòu)建

        Long等[16]提出的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)模型,使得卷積神經(jīng)網(wǎng)絡(luò)無需全連接層即可進行密集的像素預(yù)測,可生成任意大小的圖像分割圖,且運算速度比圖像塊分類法要快。FCN可以基于若干種結(jié)構(gòu)(AlextNet、VGG-Net、GoogLeNet、SIFT-Flow、VGG-16等),其中VGG-16被廣泛認為是效果最好的一種結(jié)構(gòu)[16]??墒牵現(xiàn)CN是在傳統(tǒng)CNN上進行的改編,CNN最初是設(shè)計成用于圖像分類的人工神經(jīng)網(wǎng)絡(luò),而語義分割屬于像素預(yù)測(dense prediction)問題,在結(jié)構(gòu)上不同于圖像分類問題。在相同計算條件下,空洞卷積(dilated convolutional networks,DCN)能提供更大的感受野,經(jīng)常用在實時圖像分割中。基于此,本文融合全卷積及空洞卷積的優(yōu)點,構(gòu)建了基于空洞卷積神經(jīng)網(wǎng)絡(luò)的田間道路場景圖像語義分割模型。

        3.1 空洞卷積

        空洞卷積(convolution with holes),是一種特征圖上數(shù)據(jù)采樣的方式,可以在不損失分辨率或覆蓋率的情況下增大感受野。感受野為網(wǎng)絡(luò)每一層輸出的特征圖上的像素點在原始圖像上映射的區(qū)域大小,感受野21ir+的計算式如下

        式中ri表示第i層的感受野邊長,l表示空洞卷積的膨脹系數(shù)。

        空洞卷積與普通卷積的卷積核大小一樣[17-18],在神經(jīng)網(wǎng)絡(luò)中即參數(shù)量不變,但它具有更大的感受野。二維空間上的空洞卷積可定義如下[19]

        式中*l為空洞卷積,p是其定義域;F是輸入圖像,s是其定義域;k是核函數(shù),t是其定義域。與普通的卷積相比,空洞卷積的條件從s + t = p變成了s+lt=p,即每次卷積核僅與圖像F中l(wèi)倍數(shù)位置的元素運算。當(dāng)l=1時,*即為普通的離散卷積操作。

        全卷積神經(jīng)網(wǎng)絡(luò)通過池化層下采樣降低圖像尺寸的同時增大感受野,然后使用上采樣將圖像變回原大小,此過程中導(dǎo)致了圖像信息丟失,而空洞卷積在一定程度上可以避免此問題。圖 3展示了空洞卷積與感受野之間的關(guān)系,其感受野呈指數(shù)級增長。

        在圖3中,卷積核均為3×3。圖3a采用l=1的空洞卷積(即普通卷積)對原圖操作得到第1層特征圖,第1層中各元素代表的信息是原圖 3×3元素的信息,即感受野為3×3。圖3b采用l=2的空洞卷積對第1層操作得到第2層特征圖,由于膨脹系數(shù)為2,實際上卷積核分布為圖中圓點位置,第 2層中各元素相對于原圖的感受野為7×7。圖 3c采用l=4的空洞卷積對第 2層操作得到第 3層特征圖,同理第3層中各元素的感受野為15×15。

        圖3 空洞卷積帶來的感受野增長Fig.3 Expansion of receptive field due to dilated convolution

        對比于傳統(tǒng)卷積的3層3×3卷積核聯(lián)立只能獲得7×7的感受野,空洞卷積實際參與卷積的因子數(shù)量沒有變,卷積的計算量沒有變,但是卷積核的尺寸變大,使得特征圖中一個特征值對應(yīng)原來更大的區(qū)域,也就是可以獲得更大的感受范圍。

        3.2 基于空洞卷積的上下文聚合及前端模塊

        近年來卷積神經(jīng)網(wǎng)絡(luò)研究中,Long等[16]分析過濾波器的擴張但是并未進行應(yīng)用。Chen等[20]用空洞來簡化Long等提出的全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。而Yu等[21]2016年提出采用空洞卷積的上下文模塊(context module),系統(tǒng)地使用空洞卷積來進行多尺度上下文聚合,旨在通過聚合上下文信息來提高像素預(yù)測體系結(jié)構(gòu)的性能。該模塊的輸入和輸出都是C個通道特征圖(C可以表示圖像中的對象分類數(shù)),輸入輸出的形式相同,因此可以將該模塊插入到現(xiàn)有的像素預(yù)測網(wǎng)絡(luò)中,但它不具備完整的預(yù)測網(wǎng)絡(luò)功能,需要一個前端網(wǎng)絡(luò)為其提供特征圖作為輸入,即前端模塊(front-end module)。

        1)上下文模塊

        Yu等[21]提出的上下文模塊共8層。前7層都采用具有不同膨脹系數(shù)的3×3卷積核進行空洞卷積;膨脹系數(shù)l在各層中呈指數(shù)增大,以使用小感知區(qū)域的卷積核先獲取局部特征,再用大感知區(qū)域的卷積核把特征分到更多區(qū)域中。各卷積操作后,接著是逐元素截斷操作max(·,0),以裁剪空洞卷積造成的擴大邊緣。最后一層執(zhí)行 1×1×C的卷積并產(chǎn)生模塊的輸出。上下文模塊根據(jù)卷積的通道不同又分為Basic和Large 2種網(wǎng)絡(luò)形式。

        卷積神經(jīng)網(wǎng)絡(luò)通常用隨機分布樣本進行初始化[22]。然而,試驗表明標(biāo)準(zhǔn)的隨機初始化方案并不能提高上下文模型的預(yù)測精度,使用明確語義的替代初始化形式更加有效[21]。

        Basic網(wǎng)絡(luò)采用的初始化方案為

        式中a是輸入特征圖的索引,b是輸出特征圖的索引。該初始化方案設(shè)置所有濾波器直接將每層的輸入傳遞給下一層[25],試驗表明其反向傳播能可靠地獲取網(wǎng)絡(luò)的上下文信息,提高處理后的特征圖的精度。

        Large網(wǎng)絡(luò)與Basic網(wǎng)絡(luò)的區(qū)別在于在較深的層中使用更多的特征圖。Large網(wǎng)絡(luò)也需要更改初始化方案來解決不同層特征圖數(shù)量差異的問題,其方法是:設(shè)ci和ci+1為2個連續(xù)層的特征圖數(shù)量,將C同時除以ci和ci+1,具體可表示為

        式中ε~N(0, σ2)且 σ<<C/ci+1。

        2)前端模塊

        前端模塊又稱前端預(yù)測模塊(front-end prediction module),其作用是產(chǎn)生一定分辨率的特征圖提供給上下文模塊。前端模塊源自Long等[16]和Chen等[20]的研究,Long等保留了傳統(tǒng)分類網(wǎng)絡(luò)中的最后兩個 pooling和striding層,Chen等使用擴張代替striding層并保留pooling層,而 Yu等[21]發(fā)現(xiàn)通過移除 VGG-16網(wǎng)絡(luò)最后兩個pooling層來簡化網(wǎng)絡(luò)可以提高預(yù)測精度。本文采用 Yu等修改之后的前端模塊。

        3.3 基于空洞卷積的語義分割模型的構(gòu)建

        根據(jù)前述空洞卷積網(wǎng)絡(luò)的特征,本文利用全卷積神經(jīng)網(wǎng)絡(luò) VGG-16結(jié)構(gòu),融合空洞卷積構(gòu)造預(yù)測精度更高的前端模塊,利用不同膨脹系數(shù)空洞卷積層的級聯(lián)進行多尺度上下文聚合,由此構(gòu)建的田間道路場景圖像語義分割模型如圖4所示。圖中final層之前的部分即為前端模塊,之后的部分為上下文模塊。前端模塊將一幅彩色圖像作為輸入,生成C=11個特征圖作為輸出。上下文模塊則對前端模塊輸出的特征圖作進一步預(yù)測。

        為簡化計算和提高預(yù)測精度,前端模塊在 VGG-16的基礎(chǔ)上改進,具體構(gòu)建方法為:將VGG-16中的pooling4和pooling5層移除,且將Conv5中的3個卷積層改為膨脹系數(shù)為2的空洞卷積,fc6層的卷積改為膨脹系數(shù)為4的空洞卷積,以保持感受野不變。另外,VGG-16中間特征圖的padding操作,其功用是配合pooling層進行下采樣,適用于傳統(tǒng)的分類網(wǎng)絡(luò),但操作中可能會引入噪聲,這在像素預(yù)測中既不必要也不合理,因此,刪除了padding操作。

        構(gòu)建的上下文模塊則為不同膨脹系數(shù)空洞卷積層的級聯(lián),各層的具體結(jié)構(gòu)參數(shù)如表3所示,包括final輸出層在內(nèi)共8層,前6層是膨脹系數(shù)分別為1、1、2、4、8和16的空洞卷積。由于原圖經(jīng)過前端模塊前面層下采樣后分辨率變成 64×64像素,因此在上下文模塊設(shè)計中停止了第六層之后感受野的指數(shù)擴張,第7、8層的感受野為67×67。為便于對比,根據(jù)輸出特征圖通道數(shù)量不同設(shè)計了Basic和Large 2種網(wǎng)絡(luò)形式。

        以上修改使得能夠利用傳統(tǒng) VGG-16網(wǎng)絡(luò)進行參數(shù)的初始化,并可產(chǎn)生更高分辨率的輸出。由此構(gòu)建的空洞卷積神經(jīng)網(wǎng)絡(luò)即為田間道路場景圖像語義分割模型。

        圖4 基于空洞卷積神經(jīng)網(wǎng)絡(luò)的田間道路場景圖像語義分割模型Fig.4 Dilated convolutional networks (DCN) architecture for semantic segmentation of field road images

        表3 上下文模塊網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 3 Architecture parameters of context module network

        3.4 模型的搭建與訓(xùn)練

        依托深度學(xué)習(xí)框架快速特征嵌入的卷積結(jié)構(gòu)(convolutional architecture for fast feature embedding,CAFFE)[27]搭建基于空洞卷積的田間道路場景圖像語義分割模型。CAFFE中使用 deploy.prototxt進行空洞卷積算法的定義,solver.prototxt對訓(xùn)練參數(shù)進行設(shè)置,solve.py進行網(wǎng)絡(luò)的訓(xùn)練,infer.py調(diào)用模型生成語義分割的結(jié)果。本文試驗硬件環(huán)境為英特爾 Core i7-6700HQ@2.60GHz四核八線程處理器,16 GB內(nèi)存,顯存為6GB的Nvidia GeForce GTX 1060顯卡。

        隨著層數(shù)的不斷加深,DCN識別模型的精度也在不斷提高,但也帶來了模型易陷入局部最小值的問題[28]。因此,在實際的深度網(wǎng)絡(luò)模型訓(xùn)練中,一些學(xué)者普遍采用上一個較好的收斂模型的參數(shù)來初始化新模型的初始參數(shù),SSD(Single Shot Multibox Detector)[29]、DeepID[30]等現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)模型都采取了預(yù)訓(xùn)練的策略。

        本文參考軒永倉[10]和Bengio等[28]的思路,采用預(yù)訓(xùn)練初始化參數(shù)的同時,對模型采用了兩階段訓(xùn)練(two-stage training)[31]的方法。具體步驟是:

        1)使用ImageNet上訓(xùn)練好的VGG-16模型參數(shù)初始化需要訓(xùn)練的DCNN網(wǎng)絡(luò)。

        2)人工選取一些特征明顯、包含對象類別少的簡單圖像 500張先單獨對模型進行訓(xùn)練。經(jīng)過多次試驗,確定權(quán)值參數(shù)的學(xué)習(xí)率為 10-4,mini-batch size為 14,momentum為0.9,weight decay為0.000 5,采用隨機梯度下降法進行訓(xùn)練,等到模型收斂之后,將模型參數(shù)保存。由于圖像簡單,模型收斂速度快。

        3)在全部訓(xùn)練集上對上一步保存的模型進行再次訓(xùn)練,利用上一步中所得到的參數(shù)來初始化模型,減小學(xué)習(xí)率為10-5,通過訓(xùn)練更新所有的網(wǎng)絡(luò)權(quán)值和參數(shù)。

        4 田間道路圖像語義分割試驗

        4.1 試驗設(shè)計

        為驗證構(gòu)建的基于空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路圖像語義分割模型的效果,對實際道路場景的語義分割進行了測試。

        1)模型改進效果測試

        首先測試前端模塊,只采用本文構(gòu)建的前端模塊(下文簡稱為Front-end)進行訓(xùn)練和測試,驗證對于VGG-16的修改是否有效。

        然后測試上下文模塊與前端模塊的組合,分別將構(gòu)建的Basic和Large 2種結(jié)構(gòu)的上下文模塊插入前端模塊(下文分別簡稱為Front-end + Basic和Front-end + Large),設(shè)置學(xué)習(xí)率為10-5,迭代次數(shù)4 000,對上下文模塊進行初始化。由于上下文網(wǎng)絡(luò)的感受野為67×67,因此使用寬度為33的緩沖區(qū)來填充輸入特征圖。

        網(wǎng)絡(luò)模型都采用兩階段訓(xùn)練方法進行訓(xùn)練。在各網(wǎng)絡(luò)模型的測試過程中,圖像的讀取操作通過調(diào)用 Python第三方庫函數(shù)實現(xiàn)。

        2)不同模型對比試驗

        測試文獻[10]中效果最好FCN-8s模型,用以對比本文構(gòu)建的語義分割模型的預(yù)測精度。采用CAFFE提供的基于VGG-16的FCN-8s模型進行訓(xùn)練,訓(xùn)練策略與參數(shù)設(shè)置和前端模塊相同。

        3)陰影道路對比測試

        針對田間道路上陰影突出的問題,測試 Front-end +Large網(wǎng)絡(luò)模型對陰影道路的語義分割效果。在測試集中選取了100張道路被陰影明顯覆蓋的圖片、100張路面無陰影的圖片,分別應(yīng)用Front-end + Large進行語義分割測試,對比2種情況下的語義分割效果。

        4)導(dǎo)航線提取精度測試

        田間道路圖像語義分割的主要應(yīng)用之一就是提取道路上的導(dǎo)航線。采用文獻[1]和文獻[14]中對二值化道路圖像提取導(dǎo)航線的方法對本文語義分割后的圖像提取導(dǎo)航線,具體方法是:1)采用Front-end + Large模型對田間道路圖像進行語義分割;2)語義分割識別出道路區(qū)域后,對道路區(qū)域分塊求解形心點;3)對這些形心點采用最小二乘法進行擬合得到道路的虛擬中線,此虛擬中線即為智能農(nóng)機在田間道路上自主行駛的局部路徑導(dǎo)航線。為驗證本文構(gòu)建的語義分割模型對田間道路識別的實際效果,測試了此虛擬中線與田間道路實際中線的偏差。偏差求取方法是:將獲取的虛擬中線通過相機標(biāo)定將其像素坐標(biāo)轉(zhuǎn)換為實際平面坐標(biāo),沿縱向方向等距離取點計算其橫向坐標(biāo)值與實測的道路中線上對應(yīng)點橫向坐標(biāo)值的相對偏差。選取與文獻[1]和文獻[14]所選道路類似的普通水泥路、小障礙物遮擋道路以及雜草、水漬等覆蓋道路等3種田間道路進行測試。

        4.2 語義分割評判指標(biāo)

        將網(wǎng)絡(luò)模型分割的結(jié)果與人工標(biāo)注圖像(采用Adobe Photoshop CC 2018)進行比較以分析各網(wǎng)絡(luò)模型語義分割的精度。把人工標(biāo)注結(jié)果視為真實圖像分割結(jié)果,以此為標(biāo)準(zhǔn),通過統(tǒng)計各網(wǎng)絡(luò)模型語義分割像素誤差來評判模型分割效果。使用目前普遍采用的評價標(biāo)準(zhǔn)進行評判[32]。

        假設(shè)njm表示屬于j類語義而被識別為m類的像素點個數(shù);N表示語義類別總數(shù),本文N=11,評判指標(biāo)定義如下:

        1)類別像素準(zhǔn)確率wj:屬于j類語義且被正確分割為j類的第j類像素準(zhǔn)確率為

        2)統(tǒng)計像素準(zhǔn)確率PA(pixel accuracy):標(biāo)記正確的像素占總像素的比例,計算式為

        3)類別平均準(zhǔn)確率MPA(mean pixel accuracy):計算每個類被正確分類像素數(shù)的比例,然后求取所有類的平均值,計算式為

        4)平均區(qū)域重合度 MIoU(mean intersection over union):預(yù)測像素正確的交集除以預(yù)測像素與原來像素的并集。具體計算過程為在每個類上計算區(qū)域重合度,然后求取所有類的平均值,計算式為

        以上度量標(biāo)準(zhǔn)中,像素準(zhǔn)確率反映了在圖像中具體類別被正確分割的概率,而MIoU由于簡潔、代表性強而成為最常用的度量標(biāo)準(zhǔn)。

        4.3 試驗結(jié)果與分析

        4.3.1 模型改進效果測試

        網(wǎng)絡(luò)模型進行訓(xùn)練時,每迭代500次保存一次模型,分別選取損失函數(shù)值最低、MIoU最高時的模型進行測試。表4為4種網(wǎng)絡(luò)模型對測試集丘陵山區(qū)田間道路場景中每類對象的分割結(jié)果。

        表4 改進網(wǎng)絡(luò)模型語義分割效果Table 4 Effect of semantic segmentation by improve networks model

        從表4中可知,在具體類別的識別方面,4種網(wǎng)絡(luò)模型對“背景”及“道路”的識別像素準(zhǔn)確率都最高,而對“桿”的識別像素準(zhǔn)確率都最低,對“行人”的識別像素準(zhǔn)確率也較低。這是因為,“背景”和“道路”之間的特征差異比較明顯;而遠處的“行人”和“桿”相對其他對象來說通常較小,圖像經(jīng)預(yù)處理后分辨率較低,低分辨率下小的對象容易失去形狀和顏色特征信息。

        比較4種網(wǎng)絡(luò)模型,除對“土壤”外,F(xiàn)ront-end+Large對其他類別的識別像素準(zhǔn)確率都最高;Front-end對于“土壤”的識別像素準(zhǔn)確率最高;FCN-8s對所有類別的識別像素準(zhǔn)確率都是最低??傮w效果最好的Front-end + Large對“背景”及“道路”的識別像素準(zhǔn)確率最高,分別達到93%和91.3%;而對“桿”的識別像素準(zhǔn)確率最低,只有79.0%。

        從表4還可知,4種網(wǎng)絡(luò)模型相比較,在統(tǒng)計像素準(zhǔn)確率 PA、類別平均準(zhǔn)確率 MPA以及平均區(qū)域重合度MIoU評價指標(biāo)上,F(xiàn)ront-end+Large都是最高,分別達到88.5%、86.0%和 74.2%。測試結(jié)果表明,本文構(gòu)建的Front-end + Large模型對丘陵山區(qū)田間道路對象類別具有良好的適應(yīng)性和較高的識別準(zhǔn)確率。

        圖5所示為4種網(wǎng)絡(luò)模型對田間道路圖像語義分割的效果。

        圖5 不同網(wǎng)絡(luò)模型產(chǎn)生的語義分割結(jié)果Fig.5 Semantic segmentation results produced by different network models

        總體上看,F(xiàn)CN-8s的語義分割效果最差,F(xiàn)ront-end +Large效果最好。這主要有兩方面的原因:1)FCN-8s的上采樣結(jié)構(gòu)為第3層8倍放大,在FCN中進行放大還原時,較淺的卷積層感受野比較小,學(xué)習(xí)感知細節(jié)部分的能力較強,但是在丘陵山區(qū)田間道路復(fù)雜場景下,“植被”、“土壤”和“建筑”等的像素區(qū)域總是交叉覆蓋,對象之間的特征差異并不明顯,其感知細節(jié)的能力沒有發(fā)揮作用;2)構(gòu)建的前端模塊相對于FCN-8s具有很大的提升,插入 Large 上下文模塊后,增大了感受野,聚合了上下文信息,對于田間道路復(fù)雜場景具有更好的區(qū)塊化分割效果。另一方面,在某些場景下,相比Front-end和 Front-end+Basic,F(xiàn)ront-end+Large會丟失一些細節(jié)上的信息,如圖5第3行場景中的“土壤”對象,大范圍地被識別為“植被”。其主要原因在于Large結(jié)構(gòu)上下文模塊在更深層(靠后的)中采用了更多的特征圖,雖然進一步增加了感受野,但是細節(jié)(邊緣)會更加粗糙,也容易丟失一些交叉覆蓋區(qū)域(如“植被”和“土壤”)的細節(jié)信息。此外,田間“土壤”形狀、大小、顏色等特征變化多樣也是其易被識別錯誤的重要原因。

        綜上所述,本文基于 VGG-16構(gòu)建的前端模塊有效地提高了田間道路圖像語義分割的精度,而與上下文模塊的結(jié)合進一步增加了識別準(zhǔn)確率,但是過大的感受野不利于小物體的分割。Front-end + Large總體上的語義分割比Front-end + Basic更為準(zhǔn)確和完整。所以,本文選取表現(xiàn)最好的Front-end + Large網(wǎng)絡(luò)結(jié)構(gòu)作為田間道路場景圖像語義分割模型。

        4.3.2 不同模型對比試驗分析

        表5為文獻[10] FCN-8s對大田環(huán)境、文獻[11]全空洞卷積神經(jīng)網(wǎng)絡(luò)對MIT Scene Parsing Dataset測試集、FCN-8s以及本文構(gòu)建的Front-end+large對丘陵田間道路場景的測試效果對比。

        表5 不同場景下各種網(wǎng)絡(luò)模型測試效果對比Table 5 Comparison of test results of various network models under different scenes

        文獻[10]采用傳統(tǒng)全卷積網(wǎng)絡(luò)的 FCN-32s、FCN-16s和FCN-8s這3種不同的網(wǎng)絡(luò)結(jié)構(gòu),針對大田平原場景進行訓(xùn)練和對比測試,結(jié)果顯示效果最好的FCN-8s的PA、MPA以及MIoU分別為90.87%、88.83%和75.52%。文獻[11]基于傳統(tǒng)FCN進行改進,將FCN-VGG16結(jié)構(gòu)中原有的卷積層和池化層全部改為空洞卷積層和空洞池化層,針對MIT Scene Parsing Dataset進行訓(xùn)練,測試結(jié)果顯示 PA、MPA以及 MIoU分別為 72.81%、35.60%和26.68%。

        本文將文獻[10]中效果最好的FCN-8s針對丘陵山區(qū)田間道路場景的數(shù)據(jù)集進行了訓(xùn)練和測試,結(jié)果FCN-8s在本文測試的4種網(wǎng)絡(luò)中的PA、MPA以及MIoU都是最低,分別為 80.9%、76.5%和 65.3%。表 5可以看出,F(xiàn)ront-end+Large測試結(jié)果既優(yōu)于FCN-8s,也優(yōu)于文獻[11]提出的全空洞卷積網(wǎng)絡(luò)的測試結(jié)果,表明本文構(gòu)建的Front-end+Large模型對丘陵山區(qū)田間道路對象類別具有更好的識別效果。

        4.3.3 不同陰影覆蓋下的試驗結(jié)果

        Front-end + Large網(wǎng)絡(luò)模型對有陰影道路測試集以及無陰影道路測試集的語義分割結(jié)果如表 6所示,分割效果如圖6所示。

        表6 有陰影和無陰影道路的測試結(jié)果Table 6 Test results of shadowed and unshadowed roads

        圖6 Front-end+Large網(wǎng)絡(luò)模型對有陰影和無陰影道路圖像的分割效果Fig.6 Front-end + Large network's image segmentation results for shadowed and unshadowed roads

        卷積神經(jīng)網(wǎng)絡(luò)對幾何變換、形變、光照具有一定程度的不變性,這是被許多學(xué)者所認同的。由表 6中可以看出,基于Front-end + Large構(gòu)建的田間道路復(fù)雜場景圖像語義分割模型,其 MIoU在無陰影道路測試集上為73.4%,在有陰影道路測試集上為 73.2%,僅減少了 0.2個百分點;而且兩種測試集的PA和MPA也僅分別相差0.3和0.5個百分點。丘陵山區(qū)田間道路上由于樹木、作物等遮擋產(chǎn)生陰影的現(xiàn)象普遍存在,而本文構(gòu)建的語義分割模型對田間道路的識別準(zhǔn)確率基本上不受陰影的影響,說明該模型對陰影干擾有良好的適應(yīng)性。

        4.3.4 導(dǎo)航線提取測試結(jié)果

        表 7為普通水泥路、小障礙物遮擋道路以及雜草、水漬覆蓋道路 3種田間道路提取的導(dǎo)航線與道路實際中線的偏差(5個采樣點)。測試表明,3種道路提取的導(dǎo)航線與實際道路中線的最大偏差分別為2.16%、3.39%和3.61%,均低于文獻[1]和文獻[14]所得到的5%最大偏差。上述文獻采用圖像顏色特征進行閾值分割和處理識別出田間道路區(qū)域,然后提取道路區(qū)域的導(dǎo)航線。測試結(jié)果說明本文構(gòu)建的語義分割模型對田間道路的識別準(zhǔn)確率更高,能滿足智能農(nóng)機在田間道路上自主導(dǎo)航對田間道路的識別精度要求。

        表7 導(dǎo)航線提取相對偏差Table 7 Relative errors of navigation centerlines extraction

        5 結(jié) 論

        針對丘陵山區(qū)田間道路圖像特征,將道路場景對象分為11類,構(gòu)建了基于改進空洞卷積神經(jīng)網(wǎng)絡(luò)的丘陵山區(qū)田間道路場景圖像語義分割模型。

        1)構(gòu)建的空洞卷積神經(jīng)網(wǎng)絡(luò)語義分割模型,包括前端模塊和上下文模塊。前端模塊為 VGG-16融合空洞卷積的改進結(jié)構(gòu),上下文模塊為不同膨脹系數(shù)空洞卷積層的級聯(lián)。該模型能夠利用傳統(tǒng) VGG-16網(wǎng)絡(luò)進行參數(shù)的初始化,可產(chǎn)生更高分辨率的輸出。

        2)對 FCN-8s、Front-end、Front-end +Basic、Front-end+Large 4種網(wǎng)絡(luò)模型進行了對比測試。在統(tǒng)計像素準(zhǔn)確率、類別平均準(zhǔn)確率以及平均區(qū)域重合度評價指標(biāo)上,F(xiàn)ront-end+Large最高,F(xiàn)CN-8s最低,可采用Front-end+Large網(wǎng)絡(luò)模型作為田間道路場景的語義分割模型。

        3)驗證了構(gòu)建的Front-end + Large網(wǎng)絡(luò)對不同陰影道路圖像的適應(yīng)性,其 MIoU在無陰影道路訓(xùn)練集上為73.4%,在有陰影道路訓(xùn)練集上為 73.2%,僅減少了 0.2個百分點,而且對兩種訓(xùn)練集的PA和MPA僅分別相差0.3和0.5個百分點。該模型對于丘陵山區(qū)田間道路場景的陰影干擾有良好的適應(yīng)性。

        本文構(gòu)建的語義分割模型實現(xiàn)了對田間道路及道路上障礙物的較準(zhǔn)確的識別,能滿足智能農(nóng)機在田間道路自主導(dǎo)航的場景對象識別精度要求。下一步將通過增大訓(xùn)練樣本量、減小分類數(shù)、后處理優(yōu)化等方法進一步提高模型識別的精度,為更好地獲取田間道路場景對象的深度信息奠定基礎(chǔ)。

        猜你喜歡
        空洞田間語義
        春日田間
        科教新報(2023年13期)2023-08-15 10:18:52
        田間地頭“惠”果農(nóng)
        “碼”上辦理“田間一件事”
        田間地頭有了“新綠”
        金橋(2020年9期)2020-10-27 01:59:34
        語言與語義
        空洞的眼神
        “上”與“下”語義的不對稱性及其認知闡釋
        用事實說話勝過空洞的說教——以教育類報道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        認知范疇模糊與語義模糊
        臭氧層空洞也是幫兇
        一区二区三区日本大片| 久久精品人成免费| 欧美一区二区午夜福利在线yw | 国产精品高清亚洲精品| 91三级在线观看免费| 国产精品a免费一区久久电影| 藏春阁福利视频| 亚洲午夜无码视频在线播放| 国产精品人成在线观看不卡| 精品含羞草免费视频观看| 免费人成视频在线| 亚洲AV秘 无码二区在线| 极品视频一区二区三区在线观看| av免费不卡一区二区| 免费高清av一区二区三区 | 精品女同一区二区三区免费播放| 日本一区二区在线免费视频| 97高清国语自产拍| 国产色噜噜| 亚洲综合天堂一二三区| 久久九九精品国产av| 久久精品噜噜噜成人| 无码日韩人妻AV一区免费| 日本岛国视频在线观看一区二区 | 无人区一码二码三码四码区| 99久久精品免费看国产情侣| 蜜桃av夺取一区二区三区| 亚洲成人av在线蜜桃| 一本色道无码道在线观看| 亚洲国产精品成人精品无码区在线| 亚洲中文字幕无码av| 久久精品国产www456c0m | 无码任你躁久久久久久| 国产一区二区三区爆白浆| 按摩偷拍一区二区三区| 亚洲av乱码一区二区三区林ゆな| a级毛片毛片免费观看久潮喷| 亚洲日本无码一区二区在线观看| 亚洲av激情一区二区| 啦啦啦www在线观看免费视频| 激情五月婷婷综合|