亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進Faster R-CNN的軌旁設備識別算法研究

        2022-11-30 13:11:52蔡靜嫻畢江海王繼軍張望夏文余建安
        鐵道科學與工程學報 2022年10期
        關鍵詞:候選框樣本數(shù)樣本

        蔡靜嫻,畢江海,王繼軍,張望,夏文?,余建安

        (1. 浙江大學 臺州研究院,浙江 臺州 318000;2. 中國鐵建電氣化局集團有限公司,北京 100000;3. 中鐵建電氣化局集團第三工程有限公司,河北 高碑店 074003;4. 中鐵建電氣化局集團運營管理有限公司,湖北 襄陽 441100)

        近年來,隨著人工智能技術在各行業(yè)的廣泛應用,融合AI(Artificial Intelligence)的智慧建造已逐漸成為軌道交通建設轉(zhuǎn)型升級的必然趨勢[1]。信號工程是鐵路“四電”工程之一,需定測信號機等軌旁設備的安裝位置并測量限界數(shù)據(jù)。傳統(tǒng)的人工現(xiàn)場勘查方式存在測量精度差、勞動效率低下等問題,也不利于今后“四電”工程的全面數(shù)字化轉(zhuǎn)型。為解決上述問題,研發(fā)一種可自主移動的便攜式信號工程數(shù)據(jù)定測及檢測裝置,代替人工操作對軌旁設備進行自動識別和測量,大幅提升作業(yè)效率和精度,已成為鐵路電氣化施工企業(yè)亟需解決的課題。自動識別軌旁設備技術是實現(xiàn)自動測量的前提條件。目前,國內(nèi)對于軌旁設備的目標檢測主要應用于巡檢。吳楠[2]利用機器視覺圖像對比自動檢測電務軌旁設備變化,但圖像對比需要采集大量原始圖像,且采集到的圖像易受設備硬件與外界環(huán)境影響。深度學習是新一代人工智能的核心技術,融合深度學習的機器視覺更加智能化且具有更好的泛化性。基于深度學習的常用目標檢測算法可分為2個大類,一是基于候選區(qū)域的two-stage算法,例如R-CNN系列,該類算法檢測和定位精度較高,但計算量大,檢測速度的提升受到約束;二是基于回歸的one-stage算法,常見的有YOLO系列和SSD,該類算法在檢測速度上占優(yōu),可滿足實時檢測的需求,但對于小目標和多目標檢測精度較低[3]。Faster R-CNN算法已被廣泛應用于多種場景的目標檢測。為實現(xiàn)輸電線路無人機巡檢圖像多目標檢測及定位,林剛等[4]提出了一種改進型的Faster R-CNN模型,采用選擇性搜索算法建立巡檢圖像樣本庫,優(yōu)化模型訓練過程中的參數(shù)學習,在損失函數(shù)中加入正則項優(yōu)化模型參數(shù)權(quán)重,該模型具有較好的泛化能力。馬靜怡等[5]使用DenseNet作為特征提取網(wǎng)絡并修改定位框計算方式,使得改進后的Faster RCNN模型在監(jiān)測變電站小目標入侵時具有更高的準確度。在農(nóng)業(yè)應用方面,彭明霞等[6]將金字塔特征網(wǎng)絡引入Faster R-CNN算法,優(yōu)化了網(wǎng)絡結(jié)構(gòu),高效識別棉田雜草從而進一步精確除草。馮小雨等[7]將Faster R-CNN運用于防空武器空中目標檢測,采用膨脹積累和區(qū)域放大策略改善小目標檢測的精準度,被大面積遮擋的目標檢測精準度則通過局部標注和時空上下文策略改善,同時減少候選區(qū)域數(shù)量提高檢測速率。白堂博等[8]應用Faster R-CNN算法進行鐵路扣件定位,并根據(jù)扣件信息調(diào)整錨框進而提高計算速度。本文以自動測量裝置在鐵軌上自主移動運行過程中拍攝到的軌旁設備作為研究對象,應用深度學習目標檢測算法Faster R-CNN對多種常見的軌旁設備進行自動識別,以改進的ResNet50為骨干網(wǎng)絡,引入特征金字塔算法,進一步提高檢測精度。最終將訓練的最優(yōu)模型結(jié)果導入C++平臺,供信號工程數(shù)據(jù)自動測量裝置調(diào)取應用。

        1 光學配置與數(shù)據(jù)采集

        1.1 硬件選擇

        光學配件主要為工業(yè)相機和工業(yè)鏡頭,其主要功能為拍攝檢測區(qū)域的圖像。光學系統(tǒng)的設計[9]決定了圖像的采集質(zhì)量,進而影響檢測算法的效率與效果,是系統(tǒng)設計時需重點考慮的因素之一。光學系統(tǒng)設計主要包括相機、鏡頭以及光源3個部分。鏡頭焦距f可以通過式(1)得到:

        式中:D為工作距離;W和w分別為視場(FOV)的寬度和圖像傳感器靶面的寬度。

        現(xiàn)有視場FOV(W×H)為2 500 mm×2 000 mm,工作距離D為2 400 mm,相機采用??低昅VCA013-21UC,分辨率為1 280×1 024,像元尺寸為4.8 μm×4.8 μm,則w計 算 可 得 為1 280×4.8=6.144 mm,求得f為5.898 mm,故選擇鏡頭焦距為6 mm的鏡頭。

        1.2 數(shù)據(jù)采集與加強

        本文的軌旁設備數(shù)據(jù)集類別包括扼流變壓箱(BEX),電纜分向盒(HF),電纜終端盒(HZ),變壓器箱(XB)和信號機(light),各個設備的實物外觀如圖1所示。

        為避免訓練數(shù)據(jù)不足帶來的過擬合問題,對所有數(shù)據(jù)集進行擴充,使用的增強方式有對比度調(diào)整、色調(diào)變化、左右鏡像、旋轉(zhuǎn)180度以及隨機裁剪等。將增強后數(shù)據(jù)集分為訓練集和驗證集,將這些圖像及對應的標簽輸入至網(wǎng)絡模型。經(jīng)處理后總共有729張圖片,每張圖片中含有一個或多個目標類別,具體標簽樣本數(shù)據(jù)量如表1所示。

        表 1 樣本數(shù)據(jù)量分布情況Table1 Distribution of sample data volume

        2 算法介紹

        2.1 Faster R-CNN框架

        Faster R-CNN算 法[10]是GIRSHICK于2016年在R-CNN和Fast R-CNN基礎上提出的一種改進型算法,其主要思路是將特征提取、候選框提取、目標定位和目標分類整合到了一個網(wǎng)絡結(jié)構(gòu)中,優(yōu)化了候選框生成方式,實現(xiàn)了端對端訓練,使檢測速度和精度有所提高,其網(wǎng)絡結(jié)構(gòu)框圖如圖2所示。首先,將原始圖像輸入到特征提取網(wǎng)絡中產(chǎn)生相應的特征圖,再運用RPN(Region Proposal Network)網(wǎng)絡生成候選框。采用n×n滑動窗口在特征圖上移動,滑動窗口的中心點映射回原圖,在對應的每個位置預測k個錨(Anchors),即初始候選區(qū)域。通過邊框分類與回歸進行篩選和修正候選區(qū)域,提取候選框及相應的特征矩陣。為提高后續(xù)的處理速度,RoI Pooling層將不同尺寸的特征矩陣通過最大池化操作縮放到相同大小,得到輸出矩陣經(jīng)過全連接層展平之后,再輸入分類器和回歸網(wǎng)絡,進一步得到更準確的目標預測框。

        2.2 骨干網(wǎng)絡

        本文采用ResNet殘差網(wǎng)絡作為骨干網(wǎng)絡來進行特征提取,代替原算法中的VGG16網(wǎng)絡。在卷積神經(jīng)網(wǎng)絡中,網(wǎng)絡層數(shù)越多,提取的特征越抽象,機器學習的能力越強。ResNet網(wǎng)絡通過引入殘差塊的概念,解決了隨著網(wǎng)絡層數(shù)增加帶來的準確率飽和或下降的退化問題,從而提高準確率[11]。綜合考慮訓練速度與檢測精度,選擇層數(shù)為50的ResNet50作為骨干網(wǎng)絡。

        ResNet50網(wǎng)絡流程框架如圖3所示。當模塊(如Stage5)輸入與輸出大小和通道數(shù)不同時,需先進行下采樣和升維操作。Bottleneck1模塊路徑a上采用步長為2的1×1卷積進行下采樣,忽略了3/4的輸入特征映射,為確保信息盡可能不被忽略,故將原始ResNet50的下采樣部分改造為ResNet50-D[12],即在卷積前加入一個步長為2的2×2平均池化層,可避免步長2與1×1同時出現(xiàn)造成的信息忽略。

        2.3 Feature Pyramid Networks算法

        由于實際現(xiàn)場采集到的圖像目標尺寸差異較大,而原論文的Faster R-CNN算法只對多次下采樣后的Stage5輸出的特征圖進行RoI Pooling操作,小目標的特征無法被有效提取。為提高小目標檢測的準確度,引入Feature Pyramid Networks (FPN)算法,即特征金字塔網(wǎng)絡算法[13]。

        如圖4所示,將骨干網(wǎng)絡輸出的多層特征層(C2~C5),每一層進行2倍上采樣后,逐一疊加低層特征層,融合不同尺度的特征從而彌補低層特征信息表達不足的問題,增強大小目標檢測精度。最終產(chǎn)生的不同尺寸的特征圖(P2~P5)用來作為下一步RPN目標檢測的輸入。

        引入FPN算法之后的Faster R-CNN算法框架如圖5所示。將原圖輸入模型中,首先通過骨干網(wǎng)絡ResNet50-D進行特征提取,輸出4個不同尺寸的特征圖(C2~C5)。4個特征圖輸入FPN網(wǎng)絡,進一步得到5個不同尺寸的特征圖(P2~P6),其通道數(shù)均為256,其中P6為P5降采樣所得。RPN對每個特征圖進行預測候選框,將得到的所有候選框(N2~N6)合并操作,利用非極大值抑制算法(Non-Maximum Suppression, NMS)刪除冗余度較高的候選框。得到的候選框先通過RoIAlign操作轉(zhuǎn)換成相同大小,再與特征圖(P2~P5)一同進入Fast R-CNN網(wǎng)絡,對候選框進一步調(diào)整,最終生成預測結(jié)果。

        2.4 損失函數(shù)

        損失函數(shù)可用來評估模型和優(yōu)化參數(shù),F(xiàn)aster R-CNN網(wǎng)絡結(jié)構(gòu)中包含了RPN Loss和R-CNN Loss對應的分類損失和回歸損失。RPN網(wǎng)絡損失公式定義為:

        其中:pi為第i個anchor預測為真實標簽的概率;pi*正樣本時為1,負樣本時為0;ti為第i個anchor的邊界框回歸參數(shù);ti*為第i個anchor對應的真實框的回歸參數(shù);Ncls=256,其中正負樣本各128;Nreg=52×52=2 704。

        本文中,RPN分類損失函數(shù)采用了Sigmoid Cross Entropy函數(shù),即經(jīng)過Sigmoid函數(shù)激活之后的交叉熵函數(shù)。該函數(shù)可適用于多類別相互獨立但不相互排斥的情況,如一張圖片中可同時包含多種軌旁設備。參數(shù)xi經(jīng)Sigmoid函數(shù)映射得到輸出在(0,1)之間的概率pi,再用得到的pi值計算分類損失,公式見式(3)和式(4):

        位置回歸損失函數(shù)均采用SmoothL1Loss函數(shù)。具體的計算公式見式(5)和式(6):

        2.5 模型優(yōu)化策略

        本文采用了針對梯度優(yōu)化的Momentum優(yōu)化器[14]。隨機梯度下降法在迫近局部最優(yōu)解時,由于方向與步長沒有自適應調(diào)節(jié),當每一次前向計算后,反向傳播更新權(quán)值參數(shù),容易陷入震蕩,即減慢訓練速度,同時降低訓練效果。因此,在反向傳播更新權(quán)值時,引入動量Momentum優(yōu)化算法,通過指數(shù)滑動平均處理,將之前迭代過程的累計步長信息添加權(quán)重并與當前步長相加,獲得新的學習率參數(shù),其中累計步長信息權(quán)重取0.9。通過累積之前的步長與梯度,自適應更新權(quán)值,加速收斂和減小震蕩,提高訓練效果。

        同時,為了減少數(shù)據(jù)較少對骨干網(wǎng)絡訓練結(jié)果的影響,提高模型的泛化性,對骨干網(wǎng)絡進行預訓練處理。預訓練學習率更新方案采用余弦退火策略[15]。余弦退火學習率策略,會在訓練過程中隨著迭代次數(shù)增加,周期性更新學習率。第1階段學習率按照余弦函數(shù)的梯度下降,當學習率下降到設定的最低值時,進入第2階段,垂直恢復到初始值,進行下一次迭代。在訓練初期學習率較大,加快模型更新,快速跳出平坦的局部最優(yōu)點,在靠近全局最優(yōu)點時,減小學習率,通過這樣的策略使得模型最終收斂到一個好的訓練效果。

        3 實驗結(jié)果與分析

        3.1 實驗環(huán)境與訓練參數(shù)設置

        本實驗在Window 10的64位系統(tǒng)上進行,處理器為酷睿i5-8400,內(nèi)存24G,顯卡為GTX 1080Ti。利用Pycharm進行編程,利用深度學習框架Paddlepaddle 1.8和PadlleX 1.2.8來搭建和訓練模型,并使用顯卡進行訓練與推理,最后將生成的模型通過C++部署到Visual Studio 2017上面,進行系統(tǒng)的實時運行處理。

        訓練過程中,迭代次數(shù)、批量樣本數(shù)(Batch Size, BS)和學習率等超參數(shù)的設置對模型的訓練結(jié)果和性能有較大的影響。學習率采用階梯式衰減方法。迭代初期學習率較大,可快速進行梯度下降,為避免在全局最優(yōu)點附近擺蕩,迭代后期減小學習率。對于Faster R-CNN模型,圖6(a)表示的是在現(xiàn)有實驗條件下,批量樣本數(shù)為2時訓練過程中Loss的變化。圖6(b)則是批量樣本數(shù)為16時Loss的變化。可見批量樣本數(shù)較小時,迭代梯度震蕩較為嚴重,不利于模型收斂。但批量樣本數(shù)較大時,Loss下降較緩,容易使模型陷入局部最優(yōu)解,且批量樣本數(shù)過大會直接造成顯存不足。圖7表示的是當批量樣本數(shù)為2,8和16時,同一模型訓練所得的mAP隨迭代次數(shù)變化的情況。批量樣本數(shù)越小,所需的迭代次數(shù)越少,且批量樣本數(shù)為16時所得的最大mAP較小。故選擇批量樣本數(shù)為8,迭代次數(shù)為30進行Faster R-CNN模型優(yōu)化訓練。

        3.2 結(jié)果對比

        3.2.1 評價方法

        為評價本文提出的算法模型的各個性能和對比不同算法的差異性,采用檢測速度、精確率(Precision)、分類召回率(Recall)、某一類別的平均精準率(Average Precision,AP)和所有類別的平均精準度(mean Average Precision,mAP)來進行模型的性能評估。上述檢測性能指標的參數(shù)定義公式見式(7)~式(10):

        式(9)中:R表示Recall,P表示Precision。IoU表示預測框與真實框的相交面積和相并面積之比。程序生成的候選框中的預測樣本可分為正樣本和負樣本,其中,正樣本是與人工標注的真實框IoU值大于閾值的樣本,小于閾值的則為負樣本。預測結(jié)果可分為4類,被預測為正的正樣本(TP)、被預測為正的負樣本(FP)、被預測為負的負樣本(TN)和被預測為負的正樣本(FN)。

        3.2.2 不同算法對比

        為驗證Faster R-CNN算法模型的可靠性,與一階YOLO算法進行對比。各個模型對應的mAP值與檢測速度如表2所示。對比實驗數(shù)據(jù),YOLO算法的檢測速度明顯優(yōu)于二階的Faster R-CNN算法。其中,基于YOLOv3改進的PPYOLO算法速度最快,達到了24.84幀每秒,且精準度優(yōu)于YOLOv3。但進一步觀察輸出的圖像識別結(jié)果,發(fā)現(xiàn)YOLO模型易忽略小尺寸目標,造成目標漏測,而工程應用中需避免漏測。

        表2 不同目標檢測模型結(jié)果對比Table 2 Results of different target detection models

        對于Faster R-CNN算法,VGG16為骨干網(wǎng)絡時,mAP最低。對比模型5~7,可發(fā)現(xiàn)骨干網(wǎng)絡層數(shù)越多,精度越高,但檢測速度隨之下降,采用層數(shù)較多的ResNet101為骨干網(wǎng)絡的模型mAP達到了96.2%,比采用ResNet18的模型提高了2.6%,但相對ResNet50的模型提高不明顯,且每秒僅能處理7.65幀。而本文提出的改進模型Faster R-CNN[ResNet50-D]+FPN的精確度達到了97.46%,比ResNet50高1.4%,且每秒可處理10.87幀圖像,達到軌旁設備識別要求,故而選擇該模型為主框架。

        3.2.3 不同參數(shù)對比

        Faster R-CNN模型初步預測會產(chǎn)生大量的候選預測框,NMS算法會根據(jù)設置的置信度閾值和IoU閾值來過濾多余的候選框,篩選出最終候選框。置信度閾值和IoU閾值的設定通過多組實驗對比得出。實驗結(jié)果如圖8所示,圖中縱坐標表示模型訓練得到的mAP值。實線表示置信度設定為0.5,不同IoU閾值的模型訓練所得結(jié)果;虛線表示IoU設定為0.5,不同置信度閾值的模型訓練所得結(jié)果。結(jié)果表明,當IoU閾值為0.4,置信度閾值為0.5時,訓練所得的模型具有較高的精準度,mAP達到97.6%。

        3.2.4 最終模型評估結(jié)果

        選取以ResNet50-D為骨干網(wǎng)絡的Faster R-CNN模型作為最終模型,得到各類別軌旁設備識別的結(jié)果如表3所示。結(jié)果顯示,模型對于BEX與Light這2類目標在當前測試數(shù)據(jù)集中的識別準確率達到了100%,另外3類識別精度均達到了工程應用水平。

        表3 最終模型檢測各類軌旁設備實驗結(jié)果Table 3 Final results of each trackside equipment

        為驗證模型的泛化性和魯棒性,將72張圖片進行特殊化處理,包括旋轉(zhuǎn)、改變對比度和色調(diào)、添加噪聲等,使用生成的最終模型對其進行檢測,準確度達到98%。圖9為其中2張圖片識別結(jié)果,左圖中為標識的真實框,右圖中為模型輸出的預測框,所有設備均能準確被識別。

        3.3 工程應用結(jié)果

        將最佳模型量化、壓縮成最小優(yōu)化模型,即可在新的圖像上進行推理。得到檢測模型之后,將模型導入檢測裝置內(nèi)的C++平臺,并打包為DLL文件提供上位機調(diào)用。上位機界面使用了C#語言編寫而成,包含控制相機采集圖像、調(diào)用算法模型、獲得軌旁設備類別及位置信息。圖10是研發(fā)完成的便攜式信號工程數(shù)據(jù)定測及檢測裝置的工程樣機,以及樣機在興泉鐵路泉州段草源站進行現(xiàn)場測試的圖片。

        測試運行過程中采集的圖像和目標識別結(jié)果,如圖11所示,圖中所有軌旁設備均能被有效識別。實驗可得,該裝置可實現(xiàn)軌旁設備的自動識別,結(jié)合裝置采集到的位置信息和限界數(shù)據(jù),進而實現(xiàn)對各個軌旁設備安裝位置檢測和限界數(shù)據(jù)檢測。

        4 結(jié)論

        1) 為解決鐵路電氣化工程建設過程中人工勘察軌旁設備安裝位置及其限界數(shù)據(jù)不便的問題,研發(fā)一種便攜式鐵路信號工程數(shù)據(jù)定測及檢測裝置,通過該裝置結(jié)合機器視覺技術實現(xiàn)各種軌旁設備的自動識別。

        2) 以Faster R-CNN為基礎,提出一種應用于軌旁設備多目標檢測的算法。該算法基于骨干網(wǎng)絡為ResNet50-D的Faster R-CNN目標識別框架,并且融合了FPN網(wǎng)絡以提高小目標的識別準確性。算法具有較高識別精度,更滿足實際應用需求。

        3) 軌旁設備識別可應用于除鐵路之外的其他軌道交通方式,如地鐵和輕軌等,也可應用于軌道交通日常運維所需的巡檢任務。

        猜你喜歡
        候選框樣本數(shù)樣本
        重定位非極大值抑制算法
        面向自然場景文本檢測的改進NMS算法
        勘 誤 聲 明
        基于Soft-NMS的候選框去冗余加速器設計*
        用樣本估計總體復習點撥
        推動醫(yī)改的“直銷樣本”
        一種針對特定目標的提議算法
        隨機微分方程的樣本Lyapunov二次型估計
        村企共贏的樣本
        三時間間隔圓錐補償姿態(tài)更新算法性能分析
        精品丝袜人妻久久久久久| 一区二区三区视频免费观看在线| 在线不卡av一区二区| 亚洲熟女精品中文字幕| 熟女熟妇伦av网站| 亚洲精品中国国产嫩草影院美女 | 欧美老妇与zozoz0交| 亚洲va在线va天堂va四虎| 国产激情视频在线观看首页| 一本到在线观看视频| 日日澡夜夜澡人人高潮| 任你躁国产自任一区二区三区| 亚洲av高清在线一区二区三区| 草逼短视频免费看m3u8| 成人毛片无码一区二区三区| 欧美日本亚洲国产一区二区| 扒下语文老师的丝袜美腿| 亚洲色图在线免费视频| 国自产精品手机在线观看视频 | A午夜精品福利在线| 91久久精品一二三区蜜桃| 日韩高清不卡一区二区三区| 色播亚洲视频在线观看| 久久久精品国产亚洲成人满18免费网站| 蜜桃伦理一区二区三区| 蜜桃视频国产一区二区| 女人被狂躁到高潮视频免费网站| 日韩好片一区二区在线看| 亚洲中文欧美日韩在线| 免费看片的网站国产亚洲| 中文字幕亚洲综合久久菠萝蜜| 国产精品对白交换视频| 日韩午夜在线视频观看| 日本成人中文字幕亚洲一区| 亚洲av无码偷拍在线观看| 妓院一钑片免看黄大片| 亚洲AV无码资源在线观看| 91九色精品日韩内射无| 美女扒开屁股让男人桶| 久久水蜜桃亚洲av无码精品麻豆| 亚洲视频高清|