徐振杰,陳慶奎
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)
E-mail:xuzhenjie12345@126.com
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的視頻設(shè)備被運用到了我們的生活當(dāng)中,而一些視頻設(shè)備由于安裝不當(dāng)或是長期裸露在自然環(huán)境中受到如風(fēng),雨等自然外力的影響導(dǎo)致視頻設(shè)備偏斜,嚴(yán)重影響到工作人員的使用.而如果人為對視頻設(shè)備進(jìn)行檢測,由于視頻設(shè)備眾多,不僅將耗費大量的人力物力,更加重要的是人為檢測極為不準(zhǔn)確.相反,通過計算機視覺的自動化方法相較于人工檢測具有檢測精度高,檢測成本低等優(yōu)點.因此一種自動化的圖像偏斜檢測方法迫在眉睫.所以本文希望通過目標(biāo)檢測的方法得到此場景下每個目標(biāo)的偏斜角度,從而推斷出圖像的偏斜角度.
近年來在計算機視覺領(lǐng)域,深度學(xué)習(xí)的進(jìn)展取得了極大的成功[1-3].在目標(biāo)檢測領(lǐng)域,越來越多的目光聚焦在基于深度學(xué)習(xí)的方法上,并且也取得了長足的進(jìn)步.R.Girshick等人提出RCNN[4]為目標(biāo)檢測奠定了良好的基礎(chǔ).雖然RCNN在計算和存儲空間方便有明顯的缺陷,但是效果依然優(yōu)于傳統(tǒng)方法.Fast-RCNN[5]通過共享參數(shù)變量有效增強檢測效率和減少了存儲空間.Ren等人提出了Faster-RCNN[6]用RPN網(wǎng)絡(luò)代替隨機搜索提升了效率和準(zhǔn)確率,也組成了兩階段網(wǎng)絡(luò)中重要的兩個部分:候選區(qū)域(region proposal)和區(qū)域分類(region classification).
上述方法對水平區(qū)域的檢測有很好的效果,但是對于物聯(lián)網(wǎng)場景下,圖像的歪斜程度情況極不一致,導(dǎo)致運用上述方法時,目標(biāo)與目標(biāo)框由于冗余背景的原因使得匹配并不準(zhǔn)確.因此針對這一問題,許多研究者對此做出了貢獻(xiàn),Jiang等人提出R2CNN[15]在文字檢測上取得了很好的效果,但是R2CNN仍然采用水平邊界框.Ma等人提出了RRPN[16]通過加入帶有角度的邊界框有效提升模型的性能,但是其在處理感興趣區(qū)域時會導(dǎo)致信息損失.但是相比簡單的文字檢測場景,物聯(lián)網(wǎng)場景更為復(fù)雜,有許多復(fù)雜背景和噪音目標(biāo)的干擾,以及目標(biāo)框的重疊和遮擋極大地影響了目標(biāo)檢測的效果.Yang等人提出R2oI池化采樣提取判別特征從而能夠?qū)θ我庑D(zhuǎn)角度的船體進(jìn)行檢測[17].但是單純只帶有角度的邊界框缺少方向性,容易造成角度混淆,因為當(dāng)圖像旋轉(zhuǎn)角度為90°和180°產(chǎn)生的邊界框是沒有區(qū)別的,所以不能準(zhǔn)確得到每個目標(biāo)偏斜的角度,更不能推斷出整張?zhí)卣鲌D的偏斜角度.為了解決這一系列問題,本文提出了基于目標(biāo)檢測的偏斜圖像自動校準(zhǔn)框架.
圖1 偏斜圖像校準(zhǔn)整體框架
本文提出的框架主要由4個部分組成:AFPN網(wǎng)絡(luò),偏斜感興趣區(qū)域變換,邊界框回歸以及偏斜圖像自動校準(zhǔn).與基于傳統(tǒng)目標(biāo)檢測的卷積神經(jīng)網(wǎng)絡(luò)相比,本文所提出的框架更加適合于校準(zhǔn)角度變化范圍較廣的大規(guī)模物聯(lián)網(wǎng)場景下的偏斜圖像.
本文做出的主要貢獻(xiàn)有:
1)AFPN
本文設(shè)計的增強金字塔特征網(wǎng)絡(luò)通過對FPN[7]網(wǎng)絡(luò)進(jìn)行改進(jìn),有效地結(jié)合了低網(wǎng)絡(luò)層中的位置信息的多尺度特征和高網(wǎng)絡(luò)層中的語義信息的多尺度特征,為目標(biāo)檢測提供了更加有效的特征信息.
2)偏斜感興趣區(qū)域變換
偏斜感興趣區(qū)域變換中包括了三個階段,分別為偏斜感興趣區(qū)域?qū)W習(xí)機,偏斜位置敏感感興趣區(qū)域校準(zhǔn)以及偏斜感興趣區(qū)域計算.其中偏斜感興趣區(qū)域?qū)W習(xí)機的作用是對從水平感興趣到偏斜感興趣區(qū)域轉(zhuǎn)換過程的學(xué)習(xí).偏斜位置敏感得分圖主要是來保證網(wǎng)絡(luò)中的特征偏斜不變性,由于考慮了偏斜特征,因此使分類和回歸達(dá)到更佳的效果.偏斜感興趣區(qū)域計算改變了傳統(tǒng)的感興趣區(qū)域計算,使得邊界框回歸更加精確.
3)偏斜圖像自動校準(zhǔn)
通過引入direction損失,使得邊界框具有方向性.并通過對每一個目標(biāo)框的預(yù)測角度和direction預(yù)測值綜合計算得到每個目標(biāo)偏斜角度,解決了已有研究中缺少方向性的問題.從而對一張?zhí)卣鲌D中的所有目標(biāo)的偏斜角度加權(quán)平局最終得到特征圖的偏斜角度,然后完成自動校準(zhǔn).
深度學(xué)習(xí)近年來在目標(biāo)檢測領(lǐng)域的運用越來越廣泛,有很多方法取得了很好的效果,有依賴于候選區(qū)域的方法如:RCNN[4],Fast RCNN[5],Faster RCNN[6],R-FCN[9].也有一些并不依賴于候選區(qū)域的方法如SSD[13],YOLO[14],甚至提出了基于多尺度融合網(wǎng)絡(luò)FPN[7]的方法,但是以上方法檢測偏斜目標(biāo)是,由于大量冗余背景干擾,因此不具備檢測偏斜目標(biāo)的能力.
在傳統(tǒng)偏斜校正中,有許多對車牌,身份證,紙幣等簡單圖像的校正方法[20,21],大都是通過傳統(tǒng)圖像處理的方法并檢測邊界框,但不具備對多樣化的大規(guī)模物聯(lián)網(wǎng)場景下的圖像進(jìn)行偏斜校正能力.而在深度學(xué)習(xí)的領(lǐng)域中,對偏斜目標(biāo)檢測較為常見的是對偏斜文字檢測如R2CNN[15],RRPN[16].但是由于文字之間相隔空間相對較大,而實際自然場景下的偏斜目標(biāo)之間的距離非常密集,所以實際自然場景下的挑戰(zhàn)更大.最近也出現(xiàn)了有許多方法針對航拍船體檢測,如利用旋轉(zhuǎn)邊界框和判別網(wǎng)絡(luò)來檢測任意旋轉(zhuǎn)角度的船體[18],Yang等人提出R2CNN++[19],利用旋轉(zhuǎn)不變探測器并結(jié)合多尺度注意力機制,在船體檢測上達(dá)到了很好的效果.但是以上方法僅僅在邊界框中簡單地加入角度損失,缺少角度的方向性,所以都不能對偏斜圖像進(jìn)行準(zhǔn)確的校準(zhǔn).直到目前為止,并沒有一種完整有效的適用于大規(guī)模場景的圖像偏斜校準(zhǔn)方法,因此文本是首個提出基于目標(biāo)檢測的偏斜校準(zhǔn)框架的方法.
在這一章中,我們首先在3.1小節(jié)中給出圖像偏斜校準(zhǔn)方法的整體框架.其次,在3.2和3.3小節(jié)中分別闡述AFPN和偏斜感興趣區(qū)域變換的作用.最后,在3.4小節(jié)中介紹如何引入direction損失到損失函數(shù)以及在3.5小節(jié)中說明如何對偏斜圖像進(jìn)行校準(zhǔn).
偏斜圖像校準(zhǔn)方法的整體框架如圖1所示.整體框架由4個部分組成:AFPN網(wǎng)絡(luò),偏斜感興趣區(qū)域變換,邊界框回歸以及偏斜圖像自動校準(zhǔn).首先輸入特征圖通過AFPN網(wǎng)絡(luò),AFPN是一個能夠有效將多尺度特征融合的網(wǎng)絡(luò),將低網(wǎng)絡(luò)層的語義信息與高層網(wǎng)絡(luò)的位置信息結(jié)合,確保了檢測目標(biāo)的有效性.之后通過本文設(shè)計的偏斜感興趣區(qū)域變換保證了圖像特征的偏斜不變性.然后通過對loss中加入direction損失使得邊界框具有方向性并分類與回歸得到特征參數(shù).最后將通過對輸入圖中每個目標(biāo)的特征參數(shù)進(jìn)行計算得到圖像的偏斜角度,從而根據(jù)偏斜角度實現(xiàn)對偏斜圖像的校準(zhǔn),并得到最終的校準(zhǔn)結(jié)果.
圖2 AFPN結(jié)構(gòu)圖和級聯(lián)細(xì)節(jié)
由于低網(wǎng)絡(luò)層中的位置信息和高網(wǎng)絡(luò)層中的語義信息對目標(biāo)檢測的準(zhǔn)確度有著至關(guān)重要的作用.而FPN通過對多層尺度的融合,使得它是一種十分有效的多尺度檢測方法,因此我們以FPN為基礎(chǔ).但是,眾所周知,低層的特征圖保留位置信息,而語義信息一般出現(xiàn)在高層的特征圖中.FPN雖然進(jìn)行了多尺度融合,但是小目標(biāo)一般在低網(wǎng)絡(luò)層中預(yù)測,所以缺少語義信息,而大目標(biāo)在高網(wǎng)絡(luò)層中預(yù)測,缺少位置信息.而在復(fù)雜的物聯(lián)網(wǎng)場景下,會產(chǎn)生大量大小不一的目標(biāo). 因此本文針對FPN進(jìn)行改進(jìn),提出AFPN(Augment FPN),如圖2所示.與FPN相比,AFPN有更強的泛化能力.在前饋自下而上的神經(jīng)網(wǎng)絡(luò)中,我們以ResNet為基礎(chǔ),并選擇每個殘差塊的最后一層作為特征圖{C2,C3,C4}.根據(jù)殘差網(wǎng)絡(luò)的結(jié)構(gòu),每一個特征圖的步長為{4,8,16}像素.在自上而下的神經(jīng)網(wǎng)絡(luò)中,我們將同層特征圖的連接和上下層特征圖的連接得到{P2,P3,P4}.并且通過設(shè)置所有特征圖的通道數(shù)為256來降低參數(shù)的數(shù)量.計算公式定義如公式(1)所示.
(1)
其中Ci和Pi表示特征圖,Convk×k(.)表示卷積操作,k為卷積核的大小,Upsample(.)代表上采樣,⊕表示級聯(lián)操作.
本小節(jié)主要介紹偏斜感興趣區(qū)變換,其中感興趣區(qū)變換與三個部分組成:分別為偏斜感興趣區(qū)域?qū)W習(xí)機,偏斜位置敏感感興趣區(qū)域校準(zhǔn)以及偏斜感興趣區(qū)域計算.
3.3.1 偏斜感興趣區(qū)域?qū)W習(xí)機
由于偏斜的原因,導(dǎo)致目標(biāo)框匹配不準(zhǔn)確,因此我們通過設(shè)計偏斜感興趣區(qū)學(xué)習(xí)機來解決這一問題.我們不直接在水平感興趣區(qū)域中對邊界框進(jìn)行回歸,而是通過角度變換,將水平感興趣區(qū)域轉(zhuǎn)換為偏斜感興趣區(qū)域,從而對減少了不必要的誤差,讓學(xué)習(xí)更加有效.
在傳統(tǒng)RPN神經(jīng)網(wǎng)絡(luò)主要是為了第二階段提取粗粒度的邊界框,因此為了提高RPN層的效率,本文只考慮得分排名前13000個的邊界框作為非極大抑制的輸入并得到2000個感興趣區(qū)域.特征圖經(jīng)過AFPN獲得了n個水平的感興趣區(qū)域,記為Hi,其形式為x(i),y(i),w(i),h(i),θ(i),與其相對應(yīng)的特征圖記為Fi,形式也與其相同.本文通過設(shè)計全連接網(wǎng)絡(luò)完成從水平感興趣區(qū)域到偏斜特征感興趣區(qū)域的推斷,因此設(shè)計偏移量學(xué)習(xí)回歸函數(shù)如公式(2)所示.
(2)
對于每一個特征圖Fi,{tx,ty,tw,th,tθ}為全連接層的輸出,計算公式如公式(3)所示.
t=G(F;W)
(3)
圖3 邊界框回歸示意圖
其中G(.)表示全連接層,W為全連接層的權(quán)重參數(shù),F(xiàn)為特征圖.在每一次前饋網(wǎng)絡(luò)得到t后,通過解碼器得到解碼后的偏斜感興趣區(qū)域參數(shù).
3.3.2 偏斜位置敏感感興趣區(qū)域校準(zhǔn)
一旦得到偏斜感興趣區(qū)域中的參數(shù),我們就能從特征圖中提取偏斜不變特征.由于池化會丟失位置信息,而R-FCN[9]通過提出位置敏感得分圖使得在池化中增加位置信息.Mask RCNN[10]為了解決RoI Pooling導(dǎo)致的量化誤差不匹配問題而提出RoI Align.本文受到以上兩點的啟發(fā),為了使得我們的框架能夠適合目標(biāo)密集的圖像,因此提出偏斜位置敏感感興趣區(qū)域校準(zhǔn)來提取具有偏斜不變性特征.
圖4 偏斜位置敏感感興趣區(qū)域池化
我們記輸入D為用有H×W×C個通道的特征圖,偏斜感興趣區(qū)域的參數(shù)為(x1r,y1r,x2r,y2r,hr).通過偏斜位置敏感感興趣區(qū)域池化將所得到的偏斜感興趣區(qū)域分為k×k個大小相等的網(wǎng)格區(qū)域如圖4所示,并輸出特征圖y,其形狀為(K×K×C).對于每個網(wǎng)格,它的索引為(i,j)(0≤i,j≤k),輸出通道為c(0≤c (4) (5) 與Mask RCNN的RoI Align相同,我們對公式(4)使用雙線性內(nèi)插法. 3.3.3 偏斜感興趣區(qū)域計算 由于在本文場景下會生成不同角度的邊界框,因此傳統(tǒng)的感興趣區(qū)域計算會導(dǎo)致偏斜的邊界框的計算不準(zhǔn)確,進(jìn)而導(dǎo)致邊界框的學(xué)習(xí)不準(zhǔn)確.因此本文根據(jù)三角剖分法[11]設(shè)計了一種偏斜感興趣區(qū)域的計算方法.對于給定一個邊界框集合R1,R2,…,Rn,計算每兩個邊界框 為了更加關(guān)注目標(biāo)的偏斜程度而不是目標(biāo)的種類,因此本文采用二分類而不是多分類損失函數(shù)的端到端網(wǎng)絡(luò)訓(xùn)練.由于上一節(jié)提到存在角度混淆情況,因此我們對邊界框的四個方向進(jìn)行標(biāo)注,使得邊界框具有方向性.如圖6所示,我們?yōu)槊恳粋€邊界框另外標(biāo)注使其具有方向信息,具體將其標(biāo)注為四個方向(direction0,direction,direction2,direction3).因此本文的損失函數(shù)設(shè)計如公式(6)所示. 圖5 偏斜感興趣區(qū)域計算示意圖 (6) Lcls(p)=-logp (7) (8) (9) 每張輸入圖像通過上述網(wǎng)絡(luò)我們可以分別從回歸和分類網(wǎng)絡(luò)中得到(x(i),y(i),w(i),h(i),θ(i)),direction(i)和p(i),其中通過θ(i)和direction(i)計算邊界框偏斜的角度,如圖6所示. 由圖6很容易可以看出,偏斜框的最終角度是由所預(yù)測的direction和θ計算得到,計算公式為公式(10). (10) 式中θr為網(wǎng)絡(luò)預(yù)測得到的角度,當(dāng)預(yù)測direction得到direction1時,k值設(shè)為-1,當(dāng)direction為direction0時,k值設(shè)置為0,當(dāng)direction為direction3時,k值設(shè)置為1,當(dāng)direction為direction2時,k值設(shè)置為3. (11) 圖6 邊界框偏斜角度計算 在本章中,我們將對所提出的偏斜圖像校準(zhǔn)框架通過一些對比實驗對框架效果進(jìn)行驗證.本文中所有的實驗都是在NVIDIA TITAN X GPU上完成的. 由于公開數(shù)據(jù)集中偏斜圖像的數(shù)據(jù)集較為少見,所以我們通過視頻采集得到1564張偏斜圖像,主要場景為公共汽車,地鐵,商場,上下扶梯等一些常見的擁有視頻設(shè)備監(jiān)控場景.為了獲得更多樣的偏斜狀態(tài)下的圖片使數(shù)據(jù)集更加充分防止過擬合,我們對一有數(shù)據(jù)集中的每張圖像進(jìn)行旋轉(zhuǎn),并每隔20°采樣,因此得到28152張圖像(1564×18). 我們所有的實驗均在tensorflow[12]深度學(xué)習(xí)框架上搭建.我們首先將預(yù)訓(xùn)練好的ResNet-101初始化網(wǎng)絡(luò).梯度下降策略為隨機梯度下降(SGD),并以0.001學(xué)習(xí)率和batch為16作為初始值迭代9萬次.在迭代到6萬次和8萬次的時候分別將學(xué)習(xí)率改變?yōu)?.0001和0.00001.權(quán)重衰減和momentum分別設(shè)置為0.0001和0.9.優(yōu)化器我們選擇的是MomentumOptimizer. 由于低網(wǎng)絡(luò)層中對目標(biāo)位置回歸較為準(zhǔn)確,但是特征的語義信息有所犧牲.與之相反的是,在高網(wǎng)絡(luò)層中,特征的語義信息充分,但是目標(biāo)位置的預(yù)測卻不盡人意.因此對特征圖的選擇尤其重要.本節(jié)中,我們選擇6個不同的特征圖的組合策略驗證我們的結(jié)構(gòu),實驗結(jié)果如表1所示. 表1 不同特征圖組合策略的性能表現(xiàn) Table 1 Performance of different feature maps combination strategies 組合策略Precision(%)Recall(%)F1(%)P269.557.763.1P375.364.869.7P471.660.165.3P2,P375.267.471.1P3,P477.673.475.4P2,P3,P479.876.077.8 從中可以看出,在只有單個特征圖時,結(jié)果不盡人意.但是,由P3比其他兩組的結(jié)果要好,說明在我們的數(shù)據(jù)集中邊界框的匹配大都集中在P3中.由于大目標(biāo)的預(yù)測一般在高層P4中,小目標(biāo)的預(yù)測一般在低層P2中,又因為P3,P4的組合結(jié)果要好于P2,P3的組合,因此我們得以知道我們的數(shù)據(jù)集中被檢測的大都為大目標(biāo).最終由P2,P3,P4的組合表現(xiàn)結(jié)果最優(yōu),準(zhǔn)確率為79.8%,召回率為76.0%,F(xiàn)1為77.88%,因此說明我們所提出的的AFPN有非常好的效果. 我們以我們所設(shè)計的AFPN為基準(zhǔn)網(wǎng)絡(luò),用傳統(tǒng)目標(biāo)檢測中的RPN網(wǎng)絡(luò)和損失函數(shù),回歸參數(shù)為(x,y,w,h),與本所設(shè)計的偏斜感興趣區(qū)域?qū)Ρ龋瑢嶒灲Y(jié)果如表2所示. 表2 偏斜感興趣區(qū)域變換的性能表現(xiàn) Table 2 Performance of IPS ROI transform 模型Precision(%)Recall(%)F1(%)基準(zhǔn)69.266.767.9基準(zhǔn)+偏斜感興趣區(qū)域變換79.876.077.8 從實驗中可以明顯看到,是否擁有偏斜感興趣區(qū)域變換對檢測效果具有非常大的影響.主要基準(zhǔn)網(wǎng)絡(luò)并有沒有對偏斜特征進(jìn)行考慮,使得對于偏斜對象的檢測包含了太多的冗余信息.當(dāng)圖像中的目標(biāo)密集時,這個缺點就被放大了,造成大量的邊界框重疊,極大的影響了檢測的效果.如圖7所示,(a)和(b)分別是基準(zhǔn)網(wǎng)絡(luò)所檢測的結(jié)果和標(biāo)注圖片,(c)和(d)分別是加入偏斜感興趣區(qū)域變換的結(jié)果與標(biāo)注圖片.可以很明顯的看到由于大量的遮擋,基準(zhǔn)網(wǎng)絡(luò)的結(jié)果中有許多目標(biāo)并沒有正確預(yù)測.而恰恰相反,由于加入偏斜感興趣區(qū)域變換使得邊界框中的冗余信息減少,也大大降低了檢測的復(fù)雜程度,得到了比較好的效果.這說明我們所提出的方法對目標(biāo)檢測的準(zhǔn)確性較好. 圖7 與基準(zhǔn)方法對比 通過橫向?qū)Ρ龋覀兎謩e對RRPN[16]和R2CNN[19]在本文制作數(shù)據(jù)集中進(jìn)行驗證,如表3所示.可以看到我們所用的方法準(zhǔn)確率略高于RRPN和R2CNN.我們認(rèn)為是因為本數(shù)據(jù)集中包含了很多目標(biāo)較為密集的圖像,而上述兩種方法主要是針對傾斜文字的檢測,而文字之間的距離一般較大.而本文的方法中恰好是由于引入了偏斜位置敏感感興趣區(qū)域校準(zhǔn),使得在池化時減少了對位置信息的損失,從而也使得對目標(biāo)較為密集的圖像檢測效果相較于其他方法更好. 表3 與其他方法的對比 Table 3 Comparison with other method 模型Precision(%)Recall(%)F1(%)RRPN75.879.276.9R2CNN78.474.376.2Ours79.876.077.8 為了準(zhǔn)確得到圖像校準(zhǔn)的精確度,我們從測試集中篩選出原本并不偏斜的圖像,并通過旋轉(zhuǎn)得到偏斜圖像,從而我們能夠知道該圖像準(zhǔn)確的旋轉(zhuǎn)角度.我們從測試集中一共得到68張未偏斜圖像,通過以20°為旋轉(zhuǎn)步長,一共得到1224(68×18)張圖片.我們分別設(shè)定預(yù)測的角度與真實的角度偏離閾值為±7°,±5°,±3°,±1°.如果預(yù)測的角度與真實角度的偏離值不超過閾值,則判定為正例,否則判定為負(fù)例,并計算預(yù)測準(zhǔn)確率.并與是否在損失函數(shù)中加direction損失進(jìn)行對比實驗,實驗結(jié)果如表4所示. 表4 不同損失函數(shù)偏斜角度預(yù)測準(zhǔn)確率 Table 4 Accuracy of inclined angle prediction in different loss function ±7°±5°±3°±1°沒有direction損失87.28%80.92%73.34%66.26%加入direction損失98.82%94.69%87.53%78.36% 從表中可以看出,由于沒有加入direction損失,導(dǎo)致方向信息的缺失,從而導(dǎo)致角度預(yù)測的準(zhǔn)確率較低.從橫向數(shù)據(jù)來看我們的模型預(yù)測角度的偏差基本不會超過±7°,且大部分預(yù)測的偏差值在±3°到±5°之間,小于±1°偏差的準(zhǔn)確率偏低.但是由于大部分角度預(yù)測偏差在±3°到±5°之間,所以我們認(rèn)為該誤差也是可以容忍的. 本文以解決物聯(lián)網(wǎng)場景下的圖像偏斜為背景,以神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測的方法為切入點,提出了AFPN網(wǎng)絡(luò),有效地結(jié)合了低網(wǎng)絡(luò)層中的位置信息的多尺度特征和高網(wǎng)絡(luò)層中的語義信息的多尺度特征.并通過偏斜感興趣區(qū)域變換去除了冗余信息并學(xué)習(xí)得到邊界框角度,是偏斜圖像校準(zhǔn)的重要組成部分.雖然得到了角度,但是由于角度混淆,所以方法缺少方向性.因此通過在損失函數(shù)中加入direction損失,增加了邊界框的方向性.最終通過對偏斜角度的加權(quán)平均,成功預(yù)測角度.該算法可以通過對偏斜圖像中的偏斜目標(biāo)成功預(yù)測偏斜角度,并得到偏斜圖像的偏斜角度而且可以對圖像自動校準(zhǔn),從而節(jié)省大量的人力校準(zhǔn)圖像.尤其是我們所提出的的框架具有一定的通用型,能夠?qū)Υ蟛糠謭D像運用此框架.但是預(yù)測角度閾值在的準(zhǔn)確率在±1°時還有待提高,這也是我們接下來進(jìn)一步研究的方向并提高準(zhǔn)確率.3.4 損失函數(shù)
3.5 偏斜圖像校準(zhǔn)
4 實驗及分析
4.1 數(shù)據(jù)集和訓(xùn)練細(xì)節(jié)
4.2 驗證AFPN
4.3 驗證偏斜感興趣區(qū)域變換
4.4 偏斜圖像校準(zhǔn)準(zhǔn)確率
5 結(jié) 語