亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的Mask RCNN的行人細粒度檢測算法

        2019-12-23 07:19:04朱繁王洪元張繼
        計算機應用 2019年11期
        關鍵詞:細粒度

        朱繁 王洪元 張繼

        摘 要:針對復雜場景下行人檢測效果差的問題,采用基于深度學習的目標檢測中領先的研究成果,提出了一種基于改進Mask RCNN框架的行人檢測算法。首先,采用Kmeans算法對行人數(shù)據(jù)集的目標框進行聚類得到合適的長寬比,通過增加一組長寬比(2 ∶5)使12種anchors適應圖像中行人的尺寸;然后,結合細粒度圖像識別技術,實現(xiàn)行人的高定位精度;其次,采用全卷積網絡(FCN)分割前景對象,并進行像素預測獲得行人的局部掩碼(上半身、下半身),實現(xiàn)對行人的細粒度檢測; 最后,通過學習行人的局部特征獲得行人的整體掩碼。為了驗證改進算法的有效性,將其與當前具有代表性的目標檢測方法(如更快速的區(qū)域卷積神經網絡(Faster RCNN)、YOLOv2、RFCN)在同數(shù)據(jù)集上進行對比。實驗結果表明,改進的算法提高了行人檢測的速度和精度,并且降低了誤檢率。

        關鍵詞:Mask RCNN;行人檢測;Kmeans算法;細粒度;全卷積網絡

        中圖分類號:TP391.41

        文獻標志碼:A

        Finegrained pedestrian detection algorithm based on improved Mask RCNN

        ZHU Fan, WANG Hongyuan*, ZHANG Ji

        College of Information Science and Engineering, Changzhou University, Changzhou Jiangsu 213164, China

        Abstract:

        Aiming at the problem of poor pedestrian detection effect in complex scenes, a pedestrian detection algorithm based on improved Mask RCNNframework was proposed with the use of the leading research results in deep learningbased object detection. Firstly,Kmeans algorithm was used to cluster the object frames of the pedestrian datasets to obtain the appropriate aspect ratio. By adding the set of aspect ratio (2∶5), 12 anchors were able to be adapted to the size of the pedestrian in the image. Secondly, combined with the technology of finegrained image recognition, the high accuracy of pedestrian positioning was realized. Thirdly, the foreground object was segmented by the Full Convolutional Network (FCN), and pixel prediction was performed to obtain the local mask (upper body, lower body) of the pedestrian, so as to achieve the finegrained detection of pedestrians. Finally, the overall mask of the pedestrian was obtained by learning the local features of the pedestrian. In order to verify the effectiveness of the improved algorithm, the proposed algorithm was compared with the current representative object detection methods (such as Faster Regionbased Convolutional Neural Network (Faster RCNN), YOLOv2 and RFCN (Regionbased Fully Convolutional Network)) on the same dataset. The experimental results show that the improved algorithm increases the speed and accuracy of pedestrian detection and reduces the false positive rate.

        Key words:

        Mask RCNN (Region with Convolutional Neural Network); pedestrian detection;Kmeans algorithm; finegrained; Fully Convolutional Network (FCN)

        0?引言

        行人檢測技術由于應用的廣泛性使其在計算機視覺領域成為一個重要的分支,對視頻監(jiān)控、車輛輔助駕駛、智能機器人等多個領域提供了重要的技術支持。它與行人重識別、目標跟蹤等領域的聯(lián)系密切相關,被認為是一個圖像檢索的子問題。

        傳統(tǒng)的行人檢測方法大多以圖像識別為基礎,并基于人工設計的特征提取器進行特征的提取。首先, 在圖片上使用窮舉法選出所有物體可能出現(xiàn)的目標區(qū)域框; 然后,對這些區(qū)域框提取Haar[1]、方向梯度直方圖(Histogram of Oriented Gradient,HOG)[2]、局部二值模式(Local Binary Pattern, LBP)[3]等特征,并使用圖像識別方法分類得到所有分類成功的區(qū)域;最后,通過非極大值抑制將結果輸出。但這種方法不僅復雜度高、魯棒性差,而且產生了大量的候選區(qū)冗余區(qū)域。

        2014年,Girshick等[4]設計了基于區(qū)域的卷積神經網絡(Region with Convolutional Neural Network, RCNN),使用候選區(qū)域(Region Proposal)和分類卷積神經網絡訓練模型用于檢測。這使得目標檢測與識別技術取得了巨大突破,并掀起了基于深度學習的目標檢測與識別的熱潮。RCNN算法遵循了傳統(tǒng)目標檢測的思路,同樣采用提取框、對每個框提取特征、圖像分類、非極大值抑制4個步驟進行目標檢測,只不過在提取特征這一步,將傳統(tǒng)的特征(如尺度不變特征變換(ScaleInvariant Feature Transform, SIFT)[5-6]、HOG特征[7-9]等)換成了深度卷積網絡提取的特征??焖賲^(qū)域卷積神經網絡(Fast Regionbased Convolutional Neural Network, Fast RCNN)[10]、更快速的區(qū)域卷積神經網絡(Faster Regionbased Convolutional Neural Network, Faster RCNN)[11]、Mask RCNN[12]等深度網絡框架都是建立在RCNN的基礎之上,以及單階段檢測器算法YOLO(You Only Look Once)[13-15]、SSD(Single Shot MultiBoxDetector)[16],均獲得了更多研究者的追捧[17-22]。

        隨著深度網絡框架的逐步成熟,對于行人檢測技術的要求也進一步地提升。而對于在復雜場景下或者目標較遠的行人圖像,行人檢測的檢測問題依舊存在,并且對于檢測精度和檢測速度有著更高的要求。因此考慮到使用細粒度圖像的技術,細粒度圖像識別被認為是一個具有挑戰(zhàn)性的計算機視覺問題,由于高度相似的從屬類別引起的小的類間變化,以及姿勢、尺度和旋轉的大的類內變化。細粒度識別任務,如識別鳥類[23]、花[24]和汽車[25]等,在計算機視覺和模式識別的應用中很受歡迎。細粒度識別更有利于學習目標的關鍵部分,這有助于區(qū)分不同子類的對象并匹配相同子類的對象[26-30],可以更加準確地學習行人的特征。

        因此,本文采用基于深度學習的目標檢測中領先的研究成果,提出將Mask RCNN結構用于行人檢測,主要工作包含以下幾個部分:

        1)數(shù)據(jù)集選取與制作階段,在已標注好的數(shù)據(jù)集上,采用水平翻轉及加噪的方式對數(shù)據(jù)集進行擴充,實現(xiàn)數(shù)據(jù)增強。

        2)數(shù)據(jù)訓練階段,采用Kmeans算法對數(shù)據(jù)進行聚類獲得合適的anchors的長寬比,并采用全卷積網絡(Fully Convolutional Network, FCN)構建部位分割模型,分別提取行人的上半身、下半身和整體的特征,將這些特征信息融合完成行人的檢測。

        3)模型評估階段,從檢測精度、檢測速度和誤檢率3個指標對本文的模型進行評估,并與當前主流的目標檢測算法進行實驗對比,驗證本文算法的可行性和有效性。

        1?網絡框架

        1.1?Mask RCNN算法

        本文采用Mask RCNN算法實現(xiàn)對圖像中行人的檢測,網絡結構如圖1所示。首先對輸入(input)任意尺寸大小的行人圖像進行卷積特征提取構成特征圖(feature map),之后在區(qū)域生成網絡(Region Proposal Network, RPN)中,使得區(qū)域生成(proposals)、分類(category)、回歸(bbox regression)共用卷積層,加快計算速度。與之并行的特征金字塔網絡(Feature Pyramid Network, FPN)在實現(xiàn)行人檢測的同時把行人目標的像素分割出來,并給出行人在圖片中的位置坐標(coordinates)。

        Mask RCNN算法采用兩階段檢測方法。第一階段是生成目標候選區(qū)域,提出候選對象邊界框(與Faster RCNN算法相同);在第二階段, Mask RCNN為每個感興趣區(qū)域(Region of Interest, RoI)輸出二進制掩碼,與預測類和邊界框偏移并行,其中分類取決于掩碼預測(例如文獻[31-32])。在訓練期間,Mask RCNN算法為每個采樣的RoI上的多任務損失函數(shù)定義為:

        L=Lcls+Lbox+Lmask(1)

        其中:Lcls表示分類損失,Lbox表示邊界框損失,Lmask表示分割損失。

        Mask RCNN算法提出了一個RoIAlign層,采用雙線性內插的方法獲得坐標為浮點數(shù)的像素點上的圖像數(shù)值,避免對RoI邊界或區(qū)間進行任何量化(例如,使用x/16而不是[x/16]),從而將整個特征聚集過程轉化為一個連續(xù)的操作。在具體的算法操作上,RoIAlign并不是簡單地補充出候選區(qū)域邊界上的坐標點進行池化,而是通過:1)遍歷每一個候選區(qū)域,保持浮點數(shù)邊界不做量化;2)將候選區(qū)域分割成K×K個單元,每個單元的邊界也不做量化;3)在每個單元中計算固定四個坐標位置,用雙線性內插的方法計算出這四個位置的值,然后進行最大池化操作。RoIAlign是在Mask RCNN中區(qū)域特征聚集方式,可以很好地解決RoI池化操作中兩次量化造成的區(qū)域不匹配(misalignment)的問題,進而提升檢測模型的準確性。

        1.2?改進的Mask RCNN算法

        本文在原有Mask RCNN檢測框架的基礎上,做了一些改進,網絡框架如圖2所示。同樣為兩個部分:第一部分是生成候選區(qū)域;第二部分是學習全局和局部圖像塊的特征,主要是借助FCN學習部位分割模型(partbased segmentation model),具體見1.2.3節(jié)內容。

        1.2.1?區(qū)域生成網絡

        RPN是在最后一層特征圖上進行特征提取,采用滑動窗口的方式掃描整張圖像,尋找存在的目標區(qū)域(anchor)。對于圖像上的每一個位置考慮9個可能的候選窗口:3種尺度(1282,2562,5122)和3種長寬比(1∶1,1∶2,2∶1)。在不同的尺寸大小和長寬比下,在該圖像上會產生將近20-000個目標區(qū)域,并且這些區(qū)域相互重疊,盡可能地覆蓋在整張圖像上。RPN為每個anchor生成兩個輸出,即anchor類別和邊框調整。對于互相重疊的多個anchor,采用非極大值抑制給出目標的粗略結果,保留擁有最高前景分數(shù)的anchor,因此,使用RPN預測可以選出最好的包含目標的anchor,并應用邊框進行精調。

        1.2.2?特征金字塔網絡

        由于RPN是在得到的最后一層特征圖上進行特征提取,在頂層的特征中不能完整地反映目標的信息。因此,結合多層級的特征可以大幅提高多尺度檢測的準確性。FPN主要解決目標檢測的多尺度問題,通過簡單的網絡連接改變,在基本不增加原有模型計算量的情況下,可以大幅度提升目標的檢測性能。

        1.2.3?圖像分割

        本文使用FCN用于圖像的分割,F(xiàn)CN可以采用任何分辨率的輸入圖像,并產生相同大小的輸出。FCN不僅在細粒度圖像中定位目標,而且還將分割預測視為目標掩碼。對于有效的訓練,所有訓練和測試細粒度圖像保持其原始圖像的分辨率。

        FCN掩碼學習過程如圖3所示。首先將原始圖片通過FCN進行像素預測,獲得目標的局部掩碼,如果像素預測為目標的局部位置(上半身、下半身),則保留掩碼的實際值,即對行人進行細粒度檢測;否則,如果像素指示區(qū)域是背景,則掩碼中這些背景區(qū)域的值被重置為零值。對于圖像中的每一個行人,均會學習到每個人的全局和局部特征,學習的FCN模型也能夠返回更準確的目標掩碼。同時,這些目標掩碼還可以通過找到它們的包圍矩形來定位目標位置。本文實驗中,采用FCN-8[33]來學習和預測目標掩碼。

        特征學習如圖4所示。

        圖4中三個流分別對應行人的整體、上半身和下半身圖像塊,通過卷積、激活、池化、判別器選擇等一系列操作,分別學習這三個圖像塊的特征。為提高圖像中行人的檢測精度,讓不同細粒度的特征參與行人檢測,因此,本文結合不同細粒度圖像特征,可以增強行人檢測的魯棒性。

        2?網絡訓練

        本文采用改進的Mask RCNN結構為模型,訓練行人檢測器。為加快訓練速度并防止過擬合,在訓練期間需設置合理的參數(shù),具體參數(shù)設置如表1所示。

        2.1?數(shù)據(jù)集選取與制作

        基于深度學習的行人檢測方法需要大量的數(shù)據(jù)集, 因此,本文從最具典型的COCO2014數(shù)據(jù)集中選取具有代表性的圖像,主要包括復雜場景下、行人密集、光照變化明顯等難檢測的行人圖像1-500張,以及2018年江蘇省研究生計算機視覺創(chuàng)新實踐大賽官方給出的205張行人圖像。使用labelme軟件完成數(shù)據(jù)集的標注工作,主要標注行人上半身、下半身和全身的標簽信息。其中訓練集包含正樣本圖像1-455張,行人數(shù)目為4-368個;測試集包含正樣本圖像250張,行人數(shù)目為756個。

        針對不同的數(shù)據(jù)集及不同大小的目標,修改anchor的大小和數(shù)量,可以加快收斂速度,提高檢測精度??紤]到2018年江蘇省研究生計算機視覺創(chuàng)新實踐大賽官方給出的數(shù)據(jù)集中行人姿勢、動作的特點,采用1.2.1節(jié)中的3種尺度和3種長寬比并不合理,因此本文增加1組長寬比,此時anchor對應長寬比為(1∶1,1∶2,2∶1,2∶5),尺度不變。

        2.2?預訓練

        為減少訓練時間,采用MSCOCO預訓練模型進行訓練。在COCO2014數(shù)據(jù)集上訓練20個循環(huán)(epoch)后得預訓練參數(shù)。選擇了ResNet50網絡作為特征提取網絡,需要檢測的物體只有行人,再加上背景則一共有兩類。

        2.3?聚類選取初始候選框

        在網絡訓練階段,隨著迭代次數(shù)的不斷增加,網絡學習到行人的全局特征,預測框的參數(shù)不斷調整,最終接近真實框。為了加快收斂速度,提高行人檢測的位置精度,本文通過分析圖像中行人寬高的特點,采用Kmeans算法進行聚類,本文的Kmeans聚類算法采用歐氏距離來衡量數(shù)據(jù)對象間的距離,其中Kmeans聚類算法通過給定bounding boxes的anchors數(shù)量的中心位置,計算兩者之間的歐氏距離,選取距離真實框最近的一個anchor。重復這樣的操作,直至滿足所給定的anchors數(shù)量。最終確定anchor的長寬比為(1∶1,1∶2,2∶1,2∶5)。

        預測框和真實框的交并比 (Intersection Over Union,IOU)是反映預測框與真實框差異的重要指標,IOU值越大,則(1-IOU)的值就越小,這表明兩者差異越小,“距離”越近。聚類的目標函數(shù)為:

        min∑N∑M(1-IOU(Box[N],Truth[M]))(2)

        其中:N表示聚類的類別,M表示聚類的樣本集,Box[N]表示聚類得到預測框的寬高,Truth[M]表示真實框的寬高。

        3?實驗結果與分析

        本文實驗環(huán)境為:ubuntu18.04,64位操作系統(tǒng),深度學習框架為TensorFlow,1個GPU,代碼運行環(huán)境為Python3.6.3。對于行人圖像目標檢測,本文采用檢測精度(Average Precision,AP)、誤檢率(False Positive Rate,F(xiàn)RP)、檢測速度(Detection Rate,DR)3個指標,其中DR表示每張圖片的檢測時間,單位:秒。

        3.1?實驗可視化結果

        本文實驗的可視化結果如圖5所示。從數(shù)據(jù)集中選取了2張典型的圖像,包括光照變化明顯、行人密集、姿勢復雜的圖像,用矩形框正確標記出圖像中的行人,并利用實例分割將每個行人作為一個實例顯現(xiàn)地標記出來。

        3.2?數(shù)據(jù)增強對比實驗

        由于深度學習需要大量的數(shù)據(jù)量,為了增加訓練集的數(shù)據(jù)量,本文對現(xiàn)有的數(shù)據(jù)集采用水平翻轉、加噪等方式對數(shù)據(jù)進行擴充,如圖6所示。

        根據(jù)表2的實驗可知,當訓練集從1-455張行人圖像擴充至5-820張行人圖像后,目標的檢測精度提高了9.58%,誤檢率降低了2.64%。因此,對數(shù)據(jù)集進行合理的擴充,有利于網絡充分學習行人圖像的特征,提高目標的檢測性能。接下來的實驗均是在數(shù)據(jù)集擴充的基礎上進行。

        3.3?采用不同策略訓練網絡的檢測結果對比

        為了驗證本文所提出方法的有效性,分別采用不同策略對網絡進行訓練與測試,具體檢測結果如表3所示。原始Mask RCNN算法中anchors的個數(shù)為9,即3種長寬比(1∶1,1∶2,2∶1)和3種尺度(1282,2562,5122)。本文根據(jù)行人數(shù)據(jù)集的特點采用Kmeans聚類的方法獲得適合本實驗數(shù)據(jù)的長寬比為(1∶1,1∶2,2∶1,2∶5),最終將anchor數(shù)量從9增加至12。如表3所示,對比兩種策略實驗結果可發(fā)現(xiàn):選用合適的anchors的尺度和長寬比,可使平均檢測精度提升6.53個百分點,誤檢率降低2.15個百分點。

        3.4?消融實驗

        為了分析目標的每個部分對于模型的貢獻度,本文對數(shù)據(jù)集進行了消融實驗。將在原始整體特征學習的模型的基礎上只加入上半身特征學習的模型表示為part-1,只加入下半身特征學習的模型表示為part-2。實驗結果如表4所示,根據(jù)表4可知,本文只加入上半身特征學習后檢測精度提高了2.27個百分點,只加入下半身特征學習后檢測精度提高了0.76 個百分點。二者特征學習均加入之后的檢測精度整體上提高了3.24個百分點。

        3.5?不同目標檢測算法結果對比

        本文將改進后的算法(即本文算法)同具有代表性的目標檢測算法進行比較,包括單階段檢測器(回歸系列算法)中的YOLOv2算法、YOLOv3算法和SSD算法;兩階段檢測器(區(qū)域建議系列算法)中的RFCN算法、Faster RCNN算法和Mask RCNN算法。其中單階段檢測器將目標檢測視作單個回歸問題,網絡結構簡單,直接給出最終的檢測結果,其檢測速度較快,但準確率較低;兩階段檢測器首先生成可能包含物體的候選區(qū)域,之后對候選區(qū)域作進一步的分類和校準,得到最終的檢測結果,其準確率較高,但檢測速度較慢。

        實驗對比結果如表5所示,對比幾種目標檢測算法的實驗結果可發(fā)現(xiàn):本文在Mask RCNN基礎上考慮細粒度圖像的特點,增加anchors的個數(shù),在提高檢測精度的同時提高了檢測速度。本文算法較回歸算法中YOLOv2算法的檢測精度提高了9.06個百分點,誤檢率降低了1.09個百分點;較區(qū)域建議系列算法中Faster RCNN算法的檢測精度提高了1.90個百分點,誤檢率降低了0.49個百分點;較Mask RCNN算法的檢測精度提高了3.24個百分點,且誤檢率降低了0.55個百分點,而檢測速度略低于單階段檢測器算法,約0.1個百分點;但相較區(qū)域建議系列算法有了明顯的提高。

        3.6?不同數(shù)據(jù)集實驗結果

        為了驗證本文算法的普適性,將訓練出來的模型分別在INRIA數(shù)據(jù)集、COCO2017數(shù)據(jù)集上進行測試。

        3.6.1?INRIA數(shù)據(jù)集實驗結果

        數(shù)據(jù)集INRIA的測試集有288張正樣本(包含2-416個行人),453張負樣本(包含1-126個行人)。在INRIA上的實驗結果如表6所示,可以發(fā)現(xiàn): 本文算法相較于其他的檢測算法在檢測精度仍占有一定的優(yōu)勢,檢測精度比YOLOv3算法和Mask RCNN算法分別提高了9.56個百分點、2.18個百分點;檢測速度相較于Mask RCNN算法仍提高了0.411個百分點,略低于單階段檢測器YOLOv2和YOLOv3算法的檢測速度。

        3.6.2?COCO2017數(shù)據(jù)集實驗結果

        COCO2017數(shù)據(jù)集的測試集包含40-670張圖像,從中隨機挑選200張圖像進行測試。在挑選出來的200張圖像上的實驗結果如表7所示。可以發(fā)現(xiàn):本文算法的檢測精度較YOLOv2算法、YOLOv3算法、Mask RCNN算法分別提高了11.54個百分點、7.61個百分點、5.48個百分點;檢測速度與其他算法十分接近。

        4?結語

        本文針對復雜場景下的行人圖像進行深入研究,在初始Mask RCNN框架的基礎上,采用數(shù)據(jù)增強的方式對數(shù)據(jù)集進行擴充,針對數(shù)據(jù)集的特點采用Kmeans算法調整anchor數(shù)量和大小,結合ResNet50、FPN、FCN等架構來提升行人的檢測能力,并結合了行人細粒度屬性,有效地提高了行人的檢測精度。由于行人檢測與行人重識別、行人跟蹤等領域密切相關,因此行人檢測技術的提升有利于行人重識別、行人跟蹤技術的提升。但本文對于行人的檢測速度仍低于單階段檢測器的檢測速度,因此,接下來對于檢測速度的提升還有待研究。并且近年來,很多研究者致力于提取更多信息輔助檢測(如光流信息、運動信息和環(huán)境信息等),提高特征表達能力,未來將對其進行更深一步的探討。

        參考文獻 (References)

        [1]PAPAGEORGIOU C P, OREN M, POGGIO T. A general framework for object detection [C]// Proceedings of the 6th IEEE International Conference on Computer Vision. Piscatway: IEEE, 1998:555-562.

        [2]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005: 886-893.

        [3]WANG X Y, HAN T, YAN S C. An HOGLBP human detector with partial occlusion handling [C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway: IEEE, 2009: 32-39.

        [4]GIRSHICK R, DONAHUE J, DARRELL T, et al. Regionbased convolutional networks for accurate object detection and segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 142-158.

        [5]LOWE D G. Object recognition from local scaleinvariant features [C]// Proceedings of the 1999 International Conference on Computer Vision. Piscataway: IEEE, 1999:1150-1157.

        [6]LOWE D G. Distinctive image features from scaleinvariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

        [7]WANG S F, YAN J H, WANG Z G. Improved moving object detection algorithm based on local united feature [J]. Chinese Journal of Scientific Instrument, 2015, 36(10): 2241-2248.

        [8]VIOLA P A, JONES M J. Rapid object detection using a boosted cascade of simple features [C]// Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2001:511-518.

        [9]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2005:886-893.

        [10]GIRSHICK R. Fast RCNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015: 1440-1448.

        [11]REN S Q, HE K M, GIRSHICK R, et al. Faster RCNN: towards realtime object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149.

        [12]HE K M, GKIOXARI G, GIRSHICK R, et al. Mask RCNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2980-2988.

        [13]REDMON J, DIVVALA S K, GIRSHICK R, et al. You only look once: unified, realtime object detection [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:779-788.

        [14]REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6517-6525.

        [15]REDMON J, FARHADI A. YOLOv3: an incremental improvement [EB/OL]. [2019-03-26]. https://arxiv.org/pdf/1804.02767.pdf.

        [16]LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 14th European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

        [17]張中寶, 王洪元, 楊薇. 基于FasterRCNN的遙感圖像飛機檢測算法[J]. 南京師大學報(自然科學版), 2018, 41(4): 79-86.(ZHANG Z B, WANG H Y, YANG W. Remote sensing image aircraft detection algorithm based on Faster RCNN [J]. Journal of Nanjing Normal University (Natural Science Edition), 2018, 41(4): 79-86.)

        [18]YANG W, ZHANG J, ZHANG Z B, et al. Research on realtime vehicle detection algorithm based on deep learning [C]// Proceedings of the 2018 Chinese Conference on Pattern Recognition and Computer Vision. Berlin: Springer, 2018: 126-127.

        [19]YANG W, ZHANG J, WANG H Y, et al. A vehicle realtime detection algorithm based on YOLOv2 framework [C]// Proceedings of the 2018 RealTime Image and Video Processing. Bellingham, WA: SPIE, 2018: 106700N.

        [20]PHAM M T, LEFEVRE S. Buried object detection from BScan ground penetrating radar data using FasterRCNN [C]// Proceedings of the 2018 IEEE International Geoscience and Remote Sensing Symposium. Piscataway: IEEE, 2018: 6804-6807.

        [21]KIM J, BATCHULUUN G, PARK K. Pedestrian detection based on Faster RCNN in nighttime by fusing deep convolutional features of successive images [J]. Expert Systems with Applications, 2018, 114: 15-33.

        [22]SCHWEITZER D, AGRAWAL R. Multiclass object detection from aerial images using Mask RCNN [C]// Proceedings of the 2018 IEEE International Conference on Big Data. Piscataway: IEEE, 2018: 3470-3477.

        [23]WEI X, XIE C, WU J. MaskCNN: localizing parts and selecting descriptors for finegrained bird species categorization [J]. Pattern Recognition, 2018, 76: 704-714.

        [24]ANGELOVA A, ZHU S H, LIN Y Q. Image segmentation for largescale subcategory flower recognition [C]// Proceedings of the 2013 IEEE Workshop on Applications of Computer Vision. Piscataway: IEEE, 2013: 39-45.

        [25]KRAUSE J, STARK M, DENG J, et al. 3D object representations for finegrained categorization [C]// Proceedings of the 2013 IEEE International Conference on Computer Vision Workshops. Washington, DC: IEEE Computer Society, 2013:554-561.

        [26]HUANG S, XU Z, TAO D, et al. Partstacked CNN for finegrained visual categorization [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1173-1182.

        [27]LIN D, SHEN Y, LU C, et al. Deep LAC: deep localization, alignment and classification for finegrained recognition [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 1666-1674.

        [28]ZHANG Y, WEI X, WU J, et al. Weakly supervised finegrained categorization with partbased image representation [J]. IEEE Transactions on Image Processing, 2016, 25(4): 1713-1725.

        [29]XIE G, ZHANG X, YANG W, et al. LGCNN: from local parts to global discrimination for finegrained recognition [J]. Pattern Recognition, 2017, 71: 118-131.

        [30]LEE S, CHAN C, MAYO S J, et al. How deep learning extracts and learns leaf features for plant classification [J]. Pattern Recognition, 2017, 71: 1-13.

        [31]DAI J, HE K, SUN J. Instanceaware semantic segmentation via multitask network cascades [C]// Proceedings of the 29th IEEE Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 3150-3158.

        [32]LI Y, QI H Z, DAI J, et al. Fully convolutional instanceaware semantic segmentation [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4438-4446.

        [33]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440.

        This work is partially supported by the National Natural Science Foundation of China (61572085).

        ZHU Fan, born in 1994, M. S. candidate. Her research interests include computer vision.

        WANG Hongyuan, born in 1960, Ph. D., professor. His research interests include computer vision.

        ZHANG Ji, born in 1981, M. S., lecturer. His research interests include computer vision.

        猜你喜歡
        細粒度
        基于緊湊型雙線性網絡的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        利用類型語義表示進行標簽降噪的細粒度實體分類①
        高技術通訊(2024年2期)2024-03-20 08:21:40
        細粒度云數(shù)據(jù)自適應去重方法研究
        電腦與電信(2023年9期)2024-01-14 09:54:32
        融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
        紅外技術(2022年11期)2022-11-25 03:20:40
        基于優(yōu)化錨點的細粒度文本檢測與識別
        高分辨率遙感船舶圖像細粒度檢測方法
        細粒度的流計算執(zhí)行效率優(yōu)化方法
        高技術通訊(2021年1期)2021-03-29 02:29:24
        基于SVM多分類的超分辨圖像細粒度分類方法
        在線評論情感分析研究綜述
        軟件導刊(2018年2期)2018-03-10 20:29:13
        基于雙線性卷積網絡的細粒度圖像定位
        久久露脸国产精品WWW| 亚洲av专区一区二区| 99久久婷婷国产亚洲终合精品| 妇女bbbb插插插视频| 欧美丰满熟妇bbbbbb百度| 91极品尤物在线观看播放| 国产精品一二三区亚洲 | 亚洲一线二线三线写真| 老色鬼永久精品网站| 中文字幕视频一区二区| 亚洲中国精品精华液| 无码国产69精品久久久孕妇| 韩国一级成a人片在线观看| 蜜桃视频网址在线观看| 精品偷自拍另类在线观看| 国产在线无码制服丝袜无码| 91精品国产91久久综合桃花| 在线观看的a站免费完整版| 亚洲中文字幕无码天然素人在线| 亚洲综合无码一区二区| 久久精品国产亚洲av麻豆四虎| 亚洲av香蕉一区二区三区av| 亚洲精品www久久久| a在线免费| 精品色老头老太国产精品| 国产精品美女久久久网av| av片在线观看免费| 亚洲AV小说在线观看| 涩涩鲁精品亚洲一区二区| 亚洲人成电影在线播放| 亚洲精品美女久久久久久久| 美女福利视频在线观看网址| 亚洲av无码一区二区一二区| 又污又黄又无遮挡的网站| 老肥熟女老女人野外免费区| 亚洲综合一区二区三区天美传媒| 狠狠噜天天噜日日噜视频麻豆| 国产欧美日韩不卡一区二区三区 | 99久久国产综合精品女图图等你| 久久青青草原亚洲AV无码麻豆| 亚洲免费一区二区av|