梁永春,田立勤,陳 楠,朱洪根
(華北科技學(xué)院 計(jì)算機(jī)學(xué)院,北京 東燕郊 065201)
在突發(fā)性自然災(zāi)害或旅游、探險(xiǎn)等活動(dòng)中,經(jīng)常發(fā)生人員失蹤或被困需要救助的情況。野外人員搜救過程中,判斷被困人員的位置通常是困難和耗時(shí)的一項(xiàng)工作。傳統(tǒng)人工尋找的方法,需要大量的人員參與,效率低下。隨著無人機(jī)技術(shù)的發(fā)展和成熟,依托它具有的成本低,方便靈活和可以在空中懸停的優(yōu)勢,通過無人機(jī)進(jìn)行被困人員的位置確定成為一種高效可行的方法。但是,只是通過肉眼觀看視頻,進(jìn)行人員的搜索和查找,容易受人的注意力、情緒和經(jīng)驗(yàn)等因素的干擾,影響搜索效果。當(dāng)前,由于神經(jīng)網(wǎng)絡(luò)算法在圖像特征提取和相似度比較方面的突出表現(xiàn),通過計(jì)算機(jī)輔助,進(jìn)行被困人員的搜索和查找已經(jīng)成為可能。通過計(jì)算機(jī)視覺技術(shù)進(jìn)行航拍圖像中人的查找,將減少人主觀因素引起的干擾,提高搜索效率和準(zhǔn)確性,對提升突發(fā)事件應(yīng)急處置能力有一定的幫助。可是,由于航拍器與目標(biāo)間觀測角度和距離變動(dòng)的影響,使得航拍圖像中目標(biāo)外觀和大小變化較大。正是因?yàn)楹脚膱D像的特殊性和重要性,使它成為計(jì)算機(jī)視覺領(lǐng)域中圖像識別方向的難點(diǎn)和熱點(diǎn)[1-4]。
計(jì)算機(jī)視覺中的目標(biāo)檢測主要由兩個(gè)相反的操作部分組成:“目標(biāo)到模型”和“模型到目標(biāo)”。目標(biāo)到模型是訓(xùn)練階段,通過已經(jīng)標(biāo)注過包含識別目標(biāo)的圖像訓(xùn)練獲得含有這些目標(biāo)特點(diǎn)的模型;模型到目標(biāo)是檢測階段,通過訓(xùn)練好的模型在沒有標(biāo)注的圖像中檢測是否含有與模型特征相似的區(qū)域。這兩部分操作都包含圖像中目標(biāo)的特征提取,因此它也是圖像識別的基礎(chǔ)和計(jì)算機(jī)視覺領(lǐng)域核心問題。早期主要通過人工建模和半自動(dòng)化的方式尋找和收集圖像特征。這些方法包括顏色直方圖、紋理特征圖、比例特征等。例如,可以從多個(gè)視覺特征、LBP(local binary pattern)和方向梯度直方圖(Histogram of Oriented Gradient,HOG)結(jié)合起來,實(shí)現(xiàn)航拍圖像數(shù)據(jù)的目標(biāo)檢測[5]。還有人提出先使用SIFT(Scale Invariant Feature Transform)檢測圖像,先確定圖像中特定背景區(qū)域,再通過支持向量機(jī)(SVM)分類檢測特定背景中的目標(biāo)[6]。隨著計(jì)算機(jī)硬件性能大幅提升和以區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-CNN)算法為代表的機(jī)器學(xué)習(xí)算法研究的深入,使得計(jì)算機(jī)視覺快速發(fā)展和應(yīng)用領(lǐng)域不斷拓寬。其中,與傳統(tǒng)人工建模的方式相比,運(yùn)用神經(jīng)網(wǎng)絡(luò)可以從原始圖像中自動(dòng)提取特征、分離目標(biāo)和背景[10-12]。這些方法雖然實(shí)現(xiàn)了目標(biāo)識別,但準(zhǔn)確性和實(shí)時(shí)性方面還有提升的空間。Redmon等人提出的YOLO(You Only Look Once)目標(biāo)檢測算法是通過深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)快速、準(zhǔn)確的通用目標(biāo)檢測算法[13]。
綜上,本文針對在野外環(huán)境中,無人機(jī)航拍圖像與目標(biāo)檢測技術(shù)結(jié)合進(jìn)行人員搜尋任務(wù)中,由于航拍器的觀測角度、拍照環(huán)境中光照強(qiáng)度的影響和被困人員的服裝顏色和姿勢的差異等原因,導(dǎo)致航拍圖像中的目標(biāo)檢測識別率不高,通過擴(kuò)充訓(xùn)練數(shù)據(jù)集和對YOLO 算法中的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整和參數(shù)的優(yōu)化,提高了航拍圖像中特定目標(biāo)的檢出率。
YOLO 系列目標(biāo)檢測算法包括V1、V2、V9000和V3等版本,它們的網(wǎng)絡(luò)結(jié)構(gòu)是通過卷積層(Convolutional)獲得特征,池化層(Maxpool)融合特征,多層、多次迭代生成特征圖模型,見圖1。它們都可以在多框架下實(shí)現(xiàn),包括Darknet[15],caffe[16]和PyTorch[17]等。
在YOLO算法體系中,V3公開測試結(jié)果顯示在小目標(biāo)識別的速度和識別率方面都優(yōu)于其它算法。因此本文在V3算法的基礎(chǔ)上,結(jié)合其它算法,提高航拍圖片中目標(biāo)被正確識別的準(zhǔn)確率。支持YOLO目標(biāo)檢測的框架都提供了樣本圖片通過特定網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練后,獲得特征模型文件,進(jìn)行目標(biāo)檢測。視頻在這些框架中是將視頻拆分成幀圖片進(jìn)行識別。
YOLO系列目標(biāo)檢測算法都是將圖片整體讀入,分批次取成特定等分尺寸的S×S個(gè)小區(qū)域。根據(jù)不同的算法對這些小區(qū)域進(jìn)行特征提取,將具有相同或相似特征小區(qū)域進(jìn)行連接形成具有某些共性的大區(qū)域。這些區(qū)域中的某些特征與權(quán)重文件中的特征進(jìn)行比對,給出這兩種特征的相似度。通過這個(gè)相似度,判斷某區(qū)域中,存在特定物體的概率。最后選擇含有某待檢測物體最高概率的區(qū)域進(jìn)行矩形標(biāo)注,輸出識別結(jié)果,見圖1。
圖1 YOLO目標(biāo)檢測方法
圖2 訓(xùn)練樣本旋轉(zhuǎn)擴(kuò)充和標(biāo)注框生成
卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測,檢出率是由訓(xùn)練樣本和網(wǎng)絡(luò)模型結(jié)構(gòu)決定。航拍圖像有兩個(gè)突出的特點(diǎn):觀測角度多變和目標(biāo)較小。第一個(gè)特點(diǎn)要求訓(xùn)練數(shù)據(jù)集要足夠的全,第二個(gè)特點(diǎn)要求設(shè)計(jì)的卷積網(wǎng)絡(luò)模型對圖像特征提取更加準(zhǔn)確全面。
樣本的數(shù)據(jù)規(guī)模和質(zhì)量都直接影響機(jī)器學(xué)習(xí)算法最終識別的正確性和準(zhǔn)確性,通過卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行目標(biāo)檢測也具有這樣的特點(diǎn)。航拍圖像通常是從上向下拍攝,航拍器束縛較小,拍攝角度更加靈活,因此圖像的表現(xiàn)形式也更豐富,也給識別增加了難度。其中,拍攝視角靈活多變是造成航拍圖像識別率較低的主要原因。擴(kuò)大旋轉(zhuǎn)樣本的數(shù)量,是解決這一問題直接有效的方法。但大量的符合要求的樣本收集是非常困難的。傳統(tǒng)的通過圖像特點(diǎn)半自動(dòng)的方式建立模型,進(jìn)行目標(biāo)識別雖然通用性方面落后于卷積神經(jīng)網(wǎng)絡(luò),但應(yīng)用它進(jìn)行訓(xùn)練樣本的擴(kuò)充還是非常實(shí)用和高效的。在本實(shí)驗(yàn)自建的數(shù)據(jù)集中,部分照片中的識別對象比較分散,并且周圍背景也比較單一,這樣的圖片可以通過旋轉(zhuǎn)生成新的訓(xùn)練樣本。
圖像的自動(dòng)標(biāo)注,主要由前景提取、計(jì)算輪廓和計(jì)算標(biāo)識框三個(gè)主要部分組成。數(shù)字圖像是由像素點(diǎn)構(gòu)成,像素點(diǎn)可以看作由代表RGB三色的數(shù)字組成。前景提取就是根據(jù)數(shù)字圖像的特征實(shí)現(xiàn)特定數(shù)值范圍內(nèi)的像素點(diǎn)與其它像素點(diǎn)進(jìn)行分離。為了輪廓計(jì)算的準(zhǔn)確性和排除異常像素點(diǎn)的干擾,需要對圖像進(jìn)行二值處理,即圖中的前景為轉(zhuǎn)換為一色,其它部分轉(zhuǎn)換為另一種顏色。輪廓計(jì)算是通過圖像中的前景與背景交接處兩邊像素的數(shù)值有跳變這一特點(diǎn)計(jì)算獲得。標(biāo)注框的計(jì)算是計(jì)算輪廓中的點(diǎn)在橫坐標(biāo)與縱坐標(biāo)方向的最大和最小值。因?yàn)樵谶@一系列的圖像像素?cái)?shù)值計(jì)算過程中,圖片中的前景位置沒有改變,所以得到的標(biāo)注框就是識別目標(biāo)的標(biāo)識框。圖3展示了從航拍圖片選取的部分含有檢測目標(biāo)的圖片進(jìn)行旋轉(zhuǎn)與標(biāo)注的過程。數(shù)字圖像可以看成矩陣數(shù)據(jù),因此旋轉(zhuǎn)與矩陣變換綜合應(yīng)用對訓(xùn)練數(shù)據(jù)集擴(kuò)充效果會更好。
圖3 SR-YOLO 網(wǎng)絡(luò)超清部分的網(wǎng)絡(luò)結(jié)構(gòu)
對于人的目標(biāo)識別,通過旋轉(zhuǎn)進(jìn)行樣本集擴(kuò)充時(shí)不能違背人類活動(dòng)的特點(diǎn)。通過對航拍圖像中人各種姿勢和生活經(jīng)驗(yàn)的總結(jié),臥姿時(shí)因?yàn)槿梭w和地面近似平行,所以可以360°旋轉(zhuǎn),但其它姿勢人體大多與地面垂直,因此攝像機(jī)的拍攝角約等于90°時(shí)才有實(shí)際意義。
通常航拍成像設(shè)備離目標(biāo)較遠(yuǎn),造成目標(biāo)較小,通過傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)提取到的特征信息也較少,降低了目標(biāo)被檢測到的可能性。因此,提高航拍圖像中目標(biāo)物體的檢出率,可以通過增加卷積神經(jīng)網(wǎng)絡(luò)提取到的特征信息實(shí)現(xiàn)。其中,圖像的超分辨率就是其中有效方法。本文提出的SR-YOLO(Super-Resolution You Only Look One)算法,將圖像先進(jìn)行超分辨率在進(jìn)行目標(biāo)檢測。
圖像的超分辨率可以看成由低像素矩陣向高像素矩陣的函數(shù)對映問題,因?yàn)樯窠?jīng)網(wǎng)絡(luò)在數(shù)據(jù)擬合方面有著非常優(yōu)異的表現(xiàn),所以可以由神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)從低清晰度圖像數(shù)據(jù)向高清晰度圖像數(shù)據(jù)的對應(yīng)。圖像清晰化加強(qiáng)的建模訓(xùn)練時(shí)需要將生成的超清圖片與輸入圖片對應(yīng)的清晰度較高圖片進(jìn)行相似對比。本文判斷兩個(gè)圖片的相似性應(yīng)用結(jié)構(gòu)相似法。
(1)
圖像清晰度加強(qiáng)部分的網(wǎng)絡(luò)結(jié)構(gòu)主要功能包括特征提取、上采樣、特征融合、殘差修正和圖像輸出,網(wǎng)絡(luò)框架如圖4所示。Conv是卷積層,功能是特征提取;ReLu是激活函數(shù),見公式(2),小于0的值被設(shè)為0,其它值保持不變。Dropout層是為了防止過擬合,隨機(jī)對部分神經(jīng)元進(jìn)行刪除。 Up-Sampling層進(jìn)行上采樣,即按當(dāng)前的數(shù)據(jù)的結(jié)構(gòu)特征進(jìn)行數(shù)據(jù)擴(kuò)充。Merge層是融合層,將上采樣數(shù)據(jù)加入原數(shù)據(jù)特點(diǎn)。Residual Learning是殘差層,防止多層神經(jīng)網(wǎng)絡(luò)性能的衰退,進(jìn)行的計(jì)算方式的轉(zhuǎn)換。
ReLu(x)=max(0,x)
(2)
圖4 殘差塊
SR-YOLO目標(biāo)檢測部分輸入圖像大小為608×608,此數(shù)值越大每次讀取的像素點(diǎn)越多對訓(xùn)練和識別越有利,但它受到顯存和其它硬件性能的制約,在工程實(shí)踐中通常需要根據(jù)具體情況進(jìn)行調(diào)整。在一定范圍內(nèi)更深的網(wǎng)絡(luò)結(jié)構(gòu)可以提升檢測效果,但隨著網(wǎng)絡(luò)層數(shù)的增加,效率也會隨之下降,同時(shí),帶來的還有訓(xùn)練困難。為了網(wǎng)絡(luò)更好的收斂,通常在網(wǎng)絡(luò)結(jié)構(gòu)中加入批量歸一化層(Batch Normalization,BN)[18]和殘差層[19]。
在通過梯度下降思想訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型過程中,傳統(tǒng)的模型訓(xùn)練過程是將每層的卷積得到的特征結(jié)果直接提供給下一網(wǎng)絡(luò)運(yùn)算層,可是每次卷積的結(jié)果差異可能非常大,造成收斂速度慢。根據(jù)中心極限定理[20]的思想,卷積運(yùn)算得到的特征總體分布符合正態(tài)分布。在YOLO 算法中BN 層實(shí)現(xiàn)將正態(tài)分布的特性引入到卷積神經(jīng)網(wǎng)絡(luò)中,加速模型收斂。式(3)和式(4)中,γ為縮放因子,xconv為卷積層,μ為一組圖片卷積特征值的平均值,σ為一組圖片卷積特征值的方差,Δ為標(biāo)準(zhǔn)方差的微調(diào)(通常為10-6),β為偏置值。式(3)是BN層數(shù)學(xué)表達(dá)式,式(4)為普通正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布的公式。對比這兩個(gè)公式可以發(fā)現(xiàn),BN層的作用是實(shí)現(xiàn)卷積層提取到的特征轉(zhuǎn)化成標(biāo)準(zhǔn)正態(tài)分布。當(dāng)卷積提取到的圖像特征轉(zhuǎn)化成近似符合標(biāo)準(zhǔn)正態(tài)分布,實(shí)現(xiàn)數(shù)據(jù)的中心化和標(biāo)準(zhǔn)化,更有助于激活函數(shù)對其特征的處理,減小梯度消失或梯度爆炸發(fā)生的可能性。同時(shí),一批數(shù)據(jù)的均值和方差并不能代表全體數(shù)據(jù)的均值和方差,如果BN層嚴(yán)格按照公式(4)對卷積提取到的特征進(jìn)行中心化和標(biāo)準(zhǔn)化將會消除真實(shí)分布的差異性,增加發(fā)生過擬合的風(fēng)險(xiǎn)。因此,在公式(3)中通過設(shè)置γ,β和Δ 參數(shù),實(shí)現(xiàn)總體近似服從標(biāo)準(zhǔn)正態(tài)分布,但并不嚴(yán)格。
(3)
(4)
隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增多,梯度消失越明顯,而且某些隱藏層可能存在恒等映射,導(dǎo)致擬合效果不斷降低。這里引入殘差的概念,如圖4所示,將原始輸入x不做任何改變和輸出H(x)進(jìn)行相加處理,即H(x)=F(x)+x,其中x表示輸入,H(x)表示輸出,F(xiàn)(x)表示通過神經(jīng)網(wǎng)絡(luò)去擬合輸入與輸出之間的殘差。引入殘差后網(wǎng)絡(luò)產(chǎn)生了短連接(淺層網(wǎng)絡(luò)),網(wǎng)絡(luò)中數(shù)據(jù)的正向傳遞路徑更多樣和網(wǎng)絡(luò)參數(shù)的反向傳遞優(yōu)化能力更強(qiáng)。
通過上述討論可以發(fā)現(xiàn),BN層通過將卷積后的特征轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)分布,實(shí)現(xiàn)抑制損失函數(shù)值大幅波動(dòng),但這樣的方法對提取到的特征是有損失的.在小目標(biāo)檢測的任務(wù)中,損失的特征將給目標(biāo)的識別率帶來較大負(fù)面影響。因此,在SR-YOLO網(wǎng)絡(luò)結(jié)構(gòu)中,增加殘差塊的使用減少BN層的使用。
在目標(biāo)檢測訓(xùn)練階段,損失函數(shù)幫助實(shí)現(xiàn)目標(biāo)和非目標(biāo)相互分離。在航拍圖片“人”的識別中,選擇通過誤差損失的平方和為基礎(chǔ)實(shí)現(xiàn)目標(biāo)特有特征的提取。
(5)
(6)
(1) 試驗(yàn)設(shè)備與檢測系統(tǒng)搭建
本實(shí)驗(yàn)前期模型訓(xùn)練和目標(biāo)檢測都是針對 RGB圖像數(shù)據(jù)[21],即算法處理的是圖片對應(yīng)的矩陣。但是圖像矩陣規(guī)模非常巨大,CPU緩存很小,如果用CPU進(jìn)行這樣的計(jì)算需要不斷從內(nèi)存讀入數(shù)據(jù)和將計(jì)算的中間結(jié)果保存到內(nèi)存,大量的時(shí)間被消耗在CPU對內(nèi)存的訪問。因此,目前針對這樣大規(guī)模矩陣類數(shù)據(jù)的計(jì)算常通過顯卡(GPU)進(jìn)行。本實(shí)驗(yàn),也選擇是在Ubuntu18.04系統(tǒng)配置GPU版的PyTorch神經(jīng)網(wǎng)絡(luò)框架,進(jìn)行模型的訓(xùn)練和檢測,選擇的顯卡處理芯片是NVIDIA品牌Tesla P40,顯存24G。
(2) 試驗(yàn)構(gòu)建
在本論文目標(biāo)檢測模型的選擇上采取相關(guān)因素比較法,檢測結(jié)果與訓(xùn)練階段使用數(shù)據(jù)集相關(guān)。由于公開的數(shù)據(jù)集較少有航拍圖片針對“人”作為檢測目標(biāo)的訓(xùn)練圖庫。本實(shí)驗(yàn),采取將多段航拍視頻拆分成幀圖片,并從中挑選部分作為訓(xùn)練樣本。如果只應(yīng)用這些樣本進(jìn)行模型訓(xùn)練,數(shù)據(jù)量是不夠的,容易產(chǎn)生過擬合現(xiàn)象。本實(shí)驗(yàn)采取分步訓(xùn)練的方式解決這個(gè)問題。先通過ImageNet圖片庫進(jìn)行訓(xùn)練[22],得到第一步的訓(xùn)練模型。雖然不同的觀測角度會產(chǎn)生不同的物體外形特點(diǎn),但同類目標(biāo)不同的觀測角度也有很多相似的特點(diǎn)。ImageNet圖片數(shù)據(jù)量巨大可以較為全面的獲取人的各種外形特征。第二步訓(xùn)練在自己標(biāo)注的數(shù)據(jù)集和通過旋轉(zhuǎn)生成的數(shù)據(jù)集上進(jìn)行,目的是通過航拍圖片數(shù)據(jù),對第一步訓(xùn)練的模型加入更多航拍圖片特征,提高在航拍場景中的識別率。
實(shí)驗(yàn)?zāi)康氖球?yàn)證通過航拍圖片進(jìn)行人的識別,訓(xùn)練樣本選擇戶外地形復(fù)雜的地區(qū)。華山因其險(xiǎn)而聞名全國,選擇它作為本實(shí)驗(yàn)的樣本數(shù)據(jù)是有代表性的。但是,由于華山旅游視頻是冬天拍攝,游客穿深色衣服較多,訓(xùn)練樣本特征不夠多樣,將會影響訓(xùn)練模型對不同衣著顏色的人識別率差異增大。為了增加樣本的多樣性,又在樣本中增加了夏季貴州德江大龍阡景區(qū)旅游視頻。這個(gè)數(shù)據(jù)樣本的特點(diǎn)是人們服裝顏色更多樣,增加水面為背景的樣本。樣本標(biāo)注在Ubuntu系統(tǒng)下采用標(biāo)注工具labelImg軟件。所有樣本數(shù)據(jù),按照訓(xùn)練樣本占80%,驗(yàn)證驗(yàn)證樣本占20%進(jìn)行隨機(jī)選擇。
根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn),訓(xùn)練集的擴(kuò)充和網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整都會改變目標(biāo)檢測的效果。圖5說明的是通過訓(xùn)練集圖片進(jìn)行有選擇的旋轉(zhuǎn)數(shù)據(jù)擴(kuò)充對目標(biāo)識別效果的影響,圖中是學(xué)生在操場擺拍——學(xué)生在操場上圍成圓圈,人為創(chuàng)造一種航拍圖像下目標(biāo)可以多角度任意旋轉(zhuǎn)變換。
圖5 不同訓(xùn)練集獲得的模型目標(biāo)檢測結(jié)果對比
損失函數(shù)值的變化是對訓(xùn)練過程間接評價(jià),訓(xùn)練得到的模型評價(jià),通常由目標(biāo)檢測結(jié)果圖直觀展現(xiàn)。從識別結(jié)果可以看出,訓(xùn)練數(shù)據(jù)集中加入對已有部分樣本的旋轉(zhuǎn)擴(kuò)充數(shù)據(jù),可以解決航拍視角下由拍攝角度多變和識別目標(biāo)人的姿態(tài)變化帶來的識別困難。圖6 是原YOLO算法與SR-YOLO在真實(shí)場景中人的識別對比。由于拍攝距離的影響,目標(biāo)(人)在航拍圖像中通常比較小,小目標(biāo)提供的特征信息也較少增加目標(biāo)檢測的難度。圖6 (a)是航拍直接獲得的圖片,圖6(b)為原圖在YOLO下的識別結(jié)果,圖6(c)為原圖經(jīng)過SR-YOLO超分辨率處理后的中間效果,圖6(d)為航拍圖在SR-YOLO下識別結(jié)果。實(shí)驗(yàn)結(jié)果顯示,圖6(c)只檢測到一個(gè)目標(biāo);圖6(d)檢測到4個(gè)目標(biāo)。表1是SR-YOLO與YOLO v3目標(biāo)檢測性能對比數(shù)據(jù),通過數(shù)據(jù)可以看出SR-YOLO目標(biāo)檢測算法對小目標(biāo)人的正確識別的性能相比YOLO 有提升。
圖6 SR-YOLO 與 YOLO 目標(biāo)檢測結(jié)果對比
表1 性能指標(biāo)對照表
(1) 將目標(biāo)檢測引入到戶外環(huán)境下基于航拍圖像的人員搜尋任務(wù)中,發(fā)現(xiàn)與傳統(tǒng)的目標(biāo)檢測任務(wù)相比航拍圖像由于拍攝距離較遠(yuǎn)和拍攝角度多變,造成航拍圖像中的目標(biāo)較小,目標(biāo)外形變化較大,影響目標(biāo)的檢出率。
(2) 針對被檢測目標(biāo)人在航拍圖像中姿態(tài)多變,提出通過傳統(tǒng)數(shù)字圖像處理方法進(jìn)行照片旋轉(zhuǎn)、前景目標(biāo)分割、圖像二值化、輪廓計(jì)算和標(biāo)識框獲取的流程對訓(xùn)練數(shù)據(jù)集進(jìn)行擴(kuò)充。實(shí)驗(yàn)數(shù)據(jù)表明經(jīng)過旋轉(zhuǎn)擴(kuò)充后訓(xùn)練得到的識別模型對航拍圖像中人的姿勢多變識別效果更好。
(3) 針對航拍圖像中目標(biāo)小,不利于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,提出在原有YOLOL算法的基礎(chǔ)上加入超分辨率處理部分形成SR-YOLO算法,此算法通過對卷積獲得的特征進(jìn)行上采樣補(bǔ)充部分特征實(shí)現(xiàn)提升小目標(biāo)的檢出率。