亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLOv3與卡爾曼濾波的多目標(biāo)跟蹤算法

        2020-05-16 06:33:28任珈民宮寧生韓鎮(zhèn)陽(yáng)
        關(guān)鍵詞:卡爾曼濾波特征檢測(cè)

        任珈民 宮寧生 韓鎮(zhèn)陽(yáng)

        (南京工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 南京 211816)

        0 引 言

        目標(biāo)跟蹤是計(jì)算機(jī)視覺研究領(lǐng)域的一個(gè)重要方向,在生產(chǎn)和生活中有諸多應(yīng)用,例如行人監(jiān)測(cè)、交通管理、人機(jī)交互等。目標(biāo)跟蹤一般分為單目標(biāo)跟蹤和多目標(biāo)跟蹤,對(duì)于單目標(biāo)跟蹤而言,一般會(huì)存在一個(gè)先驗(yàn)假設(shè),因此即使只在初始位置框定范圍,仍能得到一個(gè)看起來還好的跟蹤結(jié)果。而通常應(yīng)用于行人監(jiān)測(cè)的多目標(biāo)跟蹤往往是一個(gè)多變量估計(jì)問題[1],不僅沒有上述先驗(yàn)假設(shè),而且還存在對(duì)象位置變化大,目標(biāo)個(gè)數(shù)不固定的問題。因此多目標(biāo)跟蹤除了需要考慮物體形變、背景干擾等方面外,還需解決以下幾個(gè)問題:(1) 目標(biāo)的自動(dòng)初始化和自動(dòng)終止;(2) 目標(biāo)的運(yùn)動(dòng)檢測(cè)和相似度判別;(3) 目標(biāo)之間的交互和遮擋;(4) 跟丟的目標(biāo)再次出現(xiàn)時(shí)的再識(shí)別問題。針對(duì)上述問題中的一點(diǎn)或幾點(diǎn),研究者們提出相應(yīng)的解決措施,主要可以分為兩大類:基于檢測(cè)的數(shù)據(jù)關(guān)聯(lián)算法和網(wǎng)絡(luò)最小代價(jià)流算法。前者將多目標(biāo)跟蹤看作數(shù)據(jù)關(guān)聯(lián)問題,對(duì)連續(xù)兩幀間的軌跡和檢測(cè)進(jìn)行連接,以此形成更長(zhǎng)的軌跡。Huang等[2]提出的多層跟蹤框架是該類算法的典型方法,它先根據(jù)相鄰兩幀間的檢測(cè)形成短軌跡,再進(jìn)行全局關(guān)聯(lián),最后對(duì)生成的軌跡做微調(diào)。Milan等[3]提出的基于網(wǎng)絡(luò)最小代價(jià)流的算法則將其轉(zhuǎn)化為一個(gè)能量最小問題,將每個(gè)檢測(cè)都看作一個(gè)節(jié)點(diǎn),而每個(gè)節(jié)點(diǎn)有對(duì)應(yīng)的能量,算法的目的是求解能量函數(shù)的最優(yōu)解,形成跟蹤軌跡。

        隨著深度學(xué)習(xí)的快速發(fā)展,很多跟蹤算法都以上述兩大類方法作為基準(zhǔn),并加入深度學(xué)習(xí)算法。利用深度網(wǎng)絡(luò)能夠提取出更加魯棒的圖像特征,從而使后續(xù)跟蹤方法的跟蹤更加精準(zhǔn),進(jìn)一步提升跟蹤的準(zhǔn)確度。Wojke等[4]使用深度網(wǎng)絡(luò)提取檢測(cè)和邊界框,并通過運(yùn)動(dòng)匹配度和外觀匹配度對(duì)軌跡進(jìn)行預(yù)測(cè),最后引入級(jí)聯(lián)匹配方法進(jìn)行長(zhǎng)軌跡跟蹤;Chen等[5]利用卡爾曼濾波和改進(jìn)的目標(biāo)檢測(cè)算法將檢測(cè)與分類先分開處理,再進(jìn)行結(jié)合,來處理遮擋問題。Xiang等[6]利用深度網(wǎng)絡(luò)標(biāo)記目標(biāo)的不同狀態(tài),然后利用匈牙利算法和馬爾可夫決策過程進(jìn)行匹配和跟蹤;Sun等[7]考慮不同幀之間的相關(guān)性,建立深度親和力網(wǎng)絡(luò)進(jìn)行目標(biāo)關(guān)聯(lián),從而形成可靠軌跡。由于現(xiàn)如今大部分的研究都是基于檢測(cè)的跟蹤,因此目標(biāo)檢測(cè)算法的好壞可以對(duì)跟蹤結(jié)果產(chǎn)生重要影響,而如何協(xié)調(diào)處理數(shù)據(jù)關(guān)聯(lián)和目標(biāo)遮擋的問題,也需要做進(jìn)一步規(guī)劃。

        本文綜合考慮上述問題,并借鑒其優(yōu)勢(shì)之處,提出如下跟蹤算法:首先利用YOLOv3網(wǎng)絡(luò)檢測(cè)出當(dāng)前幀中的行人目標(biāo);再采用卡爾曼濾波器對(duì)下一幀目標(biāo)進(jìn)行預(yù)測(cè),減小長(zhǎng)期跟蹤所帶來的誤差;然后通過改進(jìn)匈牙利算法進(jìn)行目標(biāo)分配和數(shù)據(jù)關(guān)聯(lián),形成跟蹤軌跡。此外,考慮到跟蹤過程中的遮擋問題,本文采用基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)(RQEN),聯(lián)合之前的多幀檢測(cè)結(jié)果,恢復(fù)被遮擋目標(biāo),降低標(biāo)簽轉(zhuǎn)換誤差,使結(jié)果更加精確。

        1 相關(guān)工作

        在設(shè)計(jì)行人多目標(biāo)跟蹤算法時(shí),往往會(huì)考慮兩個(gè)問題:(1) 如何測(cè)量幀內(nèi)行人目標(biāo)的相似性;(2) 基于此相似性如何判斷幀內(nèi)行人目標(biāo)是否相同。前者屬于建模問題,其中建模的范圍包括外觀、運(yùn)動(dòng)等,而后者則與數(shù)據(jù)關(guān)聯(lián)有關(guān)。

        外觀建模是該問題中計(jì)算相似度的重要途徑,可分為視覺表示和統(tǒng)計(jì)測(cè)量?jī)刹糠?。視覺表示一般基于單個(gè)特征或多特征來描述一個(gè)目標(biāo),如Kanade等[8]利用光流法跟蹤行人,從而生成短軌跡。統(tǒng)計(jì)測(cè)量則是建立度量函數(shù),計(jì)算不同目標(biāo)間的相似度,如通過巴氏距離計(jì)算兩顏色直方圖間的距離,再將其轉(zhuǎn)換成相似性[9]。運(yùn)動(dòng)建模可以捕捉行人的動(dòng)態(tài)行為,估計(jì)其在未來幀中的潛在位置,從而減少搜索空間。線性模型是常用的運(yùn)動(dòng)建模方式,它假設(shè)目標(biāo)勻速運(yùn)動(dòng),并在此基礎(chǔ)上對(duì)不同情況進(jìn)行建模;而非線性模型則可以解決更復(fù)雜的問題,使跟蹤更準(zhǔn)確。

        這些外觀特征建模在許多方法中都有所涉獵,但對(duì)比與深度學(xué)習(xí)特征,仍然存在很大差異。利用深度網(wǎng)絡(luò)對(duì)圖像進(jìn)行建模,能夠更深層次地挖掘圖像的空間信息特征。基于深度學(xué)習(xí)的多目標(biāo)跟蹤框架在以下兩個(gè)方面取得較好的進(jìn)展:一個(gè)是結(jié)合多目標(biāo)跟蹤場(chǎng)景進(jìn)行網(wǎng)絡(luò)的設(shè)計(jì),如文獻(xiàn)[10]通過訓(xùn)練一種孿生卷積神網(wǎng)絡(luò),學(xué)習(xí)編碼兩個(gè)輸入圖像塊之間的局部空間特征,并結(jié)合上下文特征生成匹配概率;另一個(gè)是將循環(huán)神經(jīng)網(wǎng)絡(luò)[11-12]應(yīng)用其中,討論歷史信息對(duì)跟蹤軌跡特性的描述。前者利用優(yōu)化的全局跟蹤框架,能夠得到比傳統(tǒng)外觀特征更好的圖像信息,后者對(duì)于運(yùn)動(dòng)特征的長(zhǎng)期匹配相似度計(jì)算很有效。

        在對(duì)行人目標(biāo)完成建模后,需要通過相應(yīng)的算法對(duì)目標(biāo)進(jìn)行跟蹤。根據(jù)采用方法的不同,可分為概率預(yù)測(cè)和確定性優(yōu)化兩種。概率預(yù)測(cè)通常將目標(biāo)作為不確定分布,先根據(jù)之前的預(yù)測(cè)來估計(jì)當(dāng)前狀態(tài)的后驗(yàn)概率分布,再根據(jù)觀測(cè)模型得到的測(cè)量來更新預(yù)測(cè)模型,如卡爾曼濾波[13]等。而確定性優(yōu)化旨在找到最大后驗(yàn)概率,將滿足條件的最優(yōu)解依次串聯(lián)起來,形成一條跟蹤軌跡,一般可通過偶圖匹配[14]等方法來解決。

        針對(duì)建模和關(guān)聯(lián)這兩個(gè)問題,本文用YOLOv3網(wǎng)絡(luò)建立圖像深度特征,從而有效地檢測(cè)出當(dāng)前圖像中的多個(gè)目標(biāo);同時(shí)考慮到行人運(yùn)動(dòng)的線性模型,采用卡爾曼濾波器對(duì)連續(xù)多幀的同一目標(biāo)進(jìn)行預(yù)測(cè);為了在多個(gè)檢測(cè)和多條軌跡之間找到最優(yōu)連接,本文使用匈牙利算法進(jìn)行數(shù)據(jù)的關(guān)聯(lián)匹配。此外,本文還引入基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)(RQEN)[15],聯(lián)合多幀檢測(cè)結(jié)果,恢復(fù)被遮擋目標(biāo),提高跟蹤準(zhǔn)確率。

        2 多目標(biāo)跟蹤算法

        本文將YOLOv3作為目標(biāo)檢測(cè)網(wǎng)絡(luò),利用其多尺度預(yù)測(cè)機(jī)制,檢測(cè)出大小不同的行人目標(biāo)。之后采用卡爾曼濾波器根據(jù)當(dāng)前跟蹤結(jié)果預(yù)測(cè)目標(biāo)的下一位置,并計(jì)算檢測(cè)范圍和預(yù)測(cè)范圍的交并比和顏色直方圖,并通過匈牙利算法根據(jù)得分獲取最佳匹配,經(jīng)過不斷地迭代獲得跟蹤軌跡。針對(duì)跟蹤過程中存在的遮擋問題,本文采用基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)(RQEN),聯(lián)合多幀高質(zhì)量檢測(cè)結(jié)果,以加權(quán)的形式恢復(fù)被遮擋部分,使跟蹤更加準(zhǔn)確。

        2.1 目標(biāo)檢測(cè)網(wǎng)絡(luò)

        目標(biāo)檢測(cè)算法可分為兩類:基于區(qū)域的算法和基于回歸的算法?;趨^(qū)域的目標(biāo)檢測(cè)算法先提取候選區(qū)域,再進(jìn)行分類和回歸,代表算法有FasterRCNN[16]等;基于回歸的算法能一步回歸出坐標(biāo),同時(shí)平衡了檢測(cè)精度與速度,因此應(yīng)用更廣泛,如YOLOv3[17]等。

        (1)YOLOv3總體網(wǎng)絡(luò)結(jié)構(gòu)。如圖1所示,YOLOv3在之前網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),通過構(gòu)建深度殘差網(wǎng)絡(luò)進(jìn)行目標(biāo)特征的提取;然后采用區(qū)域推薦網(wǎng)絡(luò)中的錨點(diǎn)機(jī)制,并添加相對(duì)坐標(biāo)預(yù)測(cè),解決了模型訓(xùn)練不穩(wěn)定的問題,并能夠加快檢測(cè)的速度;同時(shí)引入特征金字塔結(jié)構(gòu)(FPN),使網(wǎng)絡(luò)可以進(jìn)行多尺度預(yù)測(cè),避免細(xì)小物體的漏檢問題。

        圖1 YOLOv3總體網(wǎng)絡(luò)結(jié)構(gòu)圖

        該網(wǎng)絡(luò)首先通過DBL結(jié)構(gòu)(卷積層—批量歸一化層—LeakyReLU激活函數(shù))調(diào)整輸入圖像大小,之后通過多個(gè)殘差組提取圖像特征,獲得多種分辨率的特征圖,然后對(duì)特征圖進(jìn)行上采樣,與原特征圖拼接起來,利用特征金字塔結(jié)構(gòu)獲得13×13、26×26、52×52三種不同尺度的預(yù)測(cè)結(jié)果。表現(xiàn)在圖像上就是該網(wǎng)絡(luò)不僅能檢測(cè)正常尺寸的目標(biāo),而且能檢測(cè)出細(xì)小物體,這對(duì)于密集場(chǎng)景中的多目標(biāo)跟蹤具有重要意義。

        (2) 深度殘差網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)是由一系列殘差塊所組成的,每個(gè)殘差塊由恒等映射和殘差分支兩部分組成,如圖2(a)所示,該結(jié)構(gòu)既對(duì)輸入圖像進(jìn)行卷積處理,又利用分支彌補(bǔ)丟失的信息,使提取的特征更有效。

        (a) 殘差塊結(jié)構(gòu) (b) 殘差組結(jié)構(gòu)圖2 深度殘差網(wǎng)絡(luò)基本結(jié)構(gòu)

        若設(shè)殘差塊的輸入為x,輸出為y,F(xiàn)(·)為轉(zhuǎn)化函數(shù),則其數(shù)學(xué)表達(dá)式為:

        y=F(x)+x

        (1)

        YOLOv3堆疊多個(gè)殘差塊,形成殘差單元,如圖2(b)所示,其中加入了補(bǔ)零填充(zero padding)操作來避免因下采樣過后圖像尺寸變小所帶來的影響,之后再接一個(gè)網(wǎng)絡(luò)基本組件DBL對(duì)待處理圖像做調(diào)整。

        分析深度殘差網(wǎng)絡(luò)可知,第一層卷積將輸入圖像調(diào)整為256×256;再用64個(gè)3×3的卷積核對(duì)其進(jìn)行下采樣;然后添加殘差塊結(jié)構(gòu),該結(jié)構(gòu)由1×1和3×3的卷積層組成,得到的特征圖尺寸為128×128;接著通過2×、8×、8×、4×殘差塊的4組網(wǎng)絡(luò),分別獲取64×64、32×32、16×16、8×8分辨率的特征圖。這4種不同分辨率的特征圖可進(jìn)行后續(xù)的多尺度預(yù)測(cè)。

        (3) 錨點(diǎn)機(jī)制。該機(jī)制最早由Faster RCNN提出,用來選取物體的邊界框。Faster RCNN在每個(gè)滑動(dòng)位置上采取3個(gè)尺度與3個(gè)縱橫比的組合,共產(chǎn)生9個(gè)錨點(diǎn)來選取邊界框。YOLOv3考慮到手工獲取錨點(diǎn)尺寸會(huì)產(chǎn)生誤差,故采用改進(jìn)的k-means聚類算法,利用IoU得分作為評(píng)判標(biāo)準(zhǔn),選取最合適的先驗(yàn)框。具體如下式所示:

        (2)

        在獲得一系列錨點(diǎn)邊框后,需要進(jìn)行邊框回歸操作,使得輸出結(jié)果盡可能地接近真實(shí)邊框。在Faster RCNN中并未對(duì)輸出邊框的位置進(jìn)行約束,使得早期模型訓(xùn)練不穩(wěn)定,因此YOLOv3將輸出框的坐標(biāo)控制在負(fù)責(zé)預(yù)測(cè)該目標(biāo)的區(qū)域內(nèi),大大提高了檢測(cè)速度。

        如圖3所示,cx和cy表示預(yù)測(cè)框的中心坐標(biāo)所在網(wǎng)格距離左上角第一個(gè)網(wǎng)格的網(wǎng)格數(shù);bx、by、bw和bh表示預(yù)測(cè)框的絕對(duì)位置;tx、ty、tw和th表示預(yù)測(cè)框的相對(duì)位置;pw和ph表示先驗(yàn)框的寬和高;σ(·)表示Sigmoid函數(shù)。其計(jì)算方式如下:

        (3)

        圖3 相對(duì)坐標(biāo)預(yù)測(cè)

        (4) 多尺度預(yù)測(cè)。若模型提取的特征較少或訓(xùn)練擬合過高,則容易產(chǎn)生誤檢和漏檢,因此之前的目標(biāo)檢測(cè)算法在密集場(chǎng)景下容易漏檢細(xì)小事物。為了解決這個(gè)問題,YOLOv3引入特征金字塔結(jié)構(gòu)(Feature Pyramid Network,FPN),如圖4所示。

        圖4 特征金字塔結(jié)構(gòu)

        這種多級(jí)特征結(jié)構(gòu)中,高層特征分辨率低但語(yǔ)義信息豐富,低層特征則相反,所以這種結(jié)構(gòu)的設(shè)計(jì)優(yōu)勢(shì)就在于將這些特征連接起來,使得整個(gè)模型在所有尺度下都能獲得豐富的語(yǔ)義信息,從而檢測(cè)大范圍尺度的圖像。

        該結(jié)構(gòu)的左側(cè)為自下而上的前饋網(wǎng)絡(luò),其由多組卷積網(wǎng)絡(luò)組成,用于特征提?。挥覀?cè)是一個(gè)自頂向下的過程,通過與左側(cè)路徑側(cè)向連接,增強(qiáng)高層特征。該路徑具體是利用上采樣來保持與左側(cè)尺寸一致的。

        2.2 目標(biāo)跟蹤算法

        在利用YOLOv3獲得每幀的多個(gè)檢測(cè)目標(biāo)后,需要對(duì)連續(xù)幀中的同一目標(biāo)進(jìn)行跟蹤,并依次生成軌跡。本文利用卡爾曼濾波模型預(yù)測(cè)出下一幀該目標(biāo)的位置,然后利用匈牙利算法[18]進(jìn)行數(shù)據(jù)關(guān)聯(lián),但考慮到若目標(biāo)之間位置較近時(shí)僅將面積的交并比作為匹配依據(jù)會(huì)使匹配結(jié)果產(chǎn)生錯(cuò)誤,因此本文對(duì)原始的匈牙利算法進(jìn)行改進(jìn),引入顏色直方圖對(duì)相近的不同目標(biāo)做區(qū)分,使結(jié)果更精確。

        (1) 卡爾曼濾波??柭鼮V波的優(yōu)勢(shì)在于該模型可以應(yīng)用在任何含有不確定信息的動(dòng)態(tài)系統(tǒng)中,對(duì)系統(tǒng)下步走向作出有根據(jù)的預(yù)測(cè),并且即使伴隨有噪聲干擾,也總能指出真實(shí)發(fā)生的情況。

        (4)

        式中:Fk為運(yùn)動(dòng)學(xué)系數(shù)矩陣;Bk為外部控制矩陣;uk為外部控制量;Qk為外部噪聲的協(xié)方差矩陣。

        式(4)表明當(dāng)前新的最優(yōu)估計(jì)是根據(jù)上一最優(yōu)估計(jì)并加上已知外部控制量預(yù)測(cè)得到的,而新的不確定性是由上一不確定性加上外部環(huán)境干擾得到的。

        圖5 卡爾曼濾波器

        (5)

        ① 矩陣A中的每個(gè)元素減去A中最小的元素得到至少有一個(gè)零元素的非負(fù)矩陣A1(每行或每列都減去該行該列的最小元素)。

        ② 找到線條的最小集合S1,線條數(shù)m1,包含A1中所有的非零元素。如果m1=n,則有n個(gè)獨(dú)立零元素,A中這n個(gè)位置就構(gòu)成解決方案。

        ③ 如果m1

        ④ 重復(fù)步驟2和步驟3,并用A2代替A1。每次完成步驟3的操作后,矩陣所有元素之和會(huì)減少n(n-nk)hk,經(jīng)多次迭代即可找到解決方案。

        對(duì)于多目標(biāo)跟蹤中的數(shù)據(jù)關(guān)聯(lián)來說,YOLOv3先檢測(cè)出當(dāng)前幀中的多個(gè)目標(biāo)m以及它們的坐標(biāo)和邊界框范圍,而卡爾曼濾波又根據(jù)上一幀的跟蹤結(jié)果對(duì)當(dāng)前幀的目標(biāo)位置進(jìn)行了估計(jì),得到n個(gè)預(yù)測(cè)結(jié)果,或稱為n條軌跡。在獲得所有的檢測(cè)和預(yù)測(cè)結(jié)果后,先計(jì)算二者面積的交并比,再獲得檢測(cè)圖像的顏色直方圖,然后用交并比和直方圖特征加權(quán)生成關(guān)聯(lián)矩陣,如下式所示:

        Cij=αCpos(i,j)+βCappr(i,j)

        (6)

        式中:Cpos為二者交并比,Cappr為外觀關(guān)聯(lián)系數(shù),可通過巴氏距離得到,且α和β為權(quán)重系數(shù),和為1。

        最后用匈牙利算法對(duì)檢測(cè)結(jié)果與預(yù)測(cè)結(jié)果進(jìn)行匹配,完成數(shù)據(jù)關(guān)聯(lián),在多幀圖像中形成跟蹤軌跡。

        2.3 基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)

        在遮擋較為嚴(yán)重的情況下,如果采用一般的池化會(huì)造成特征圖的效果變差,這樣會(huì)丟失很多有效信息。同時(shí)考慮到信息的表示在幀與幀之間不是獨(dú)立的,故利用互補(bǔ)信息可以有效地提高識(shí)別性能。因此RQEN提出對(duì)每一幀進(jìn)行一個(gè)質(zhì)量判斷,考慮之前的連續(xù)5幀檢測(cè)結(jié)果,利用其對(duì)圖像缺失部分進(jìn)行彌補(bǔ)。

        如圖6所示,設(shè)質(zhì)量評(píng)估網(wǎng)絡(luò)的輸入為一組集合S={I1,I2,…,In},其中每幅圖像都屬于同一個(gè)人,將集合分別送入兩個(gè)部分,一個(gè)部分利用全卷積神經(jīng)網(wǎng)絡(luò)生成輸入圖像的中間表示;另一個(gè)通過關(guān)鍵點(diǎn)檢測(cè)器標(biāo)記人體的關(guān)鍵點(diǎn),并根據(jù)關(guān)鍵點(diǎn)將人體劃分成不同區(qū)域。設(shè)u、m、l分別為圖像的上、中、下部分,每部分對(duì)應(yīng)一個(gè)區(qū)域,一方面生成特征向量FIi={fu(Ii),fm(Ii),fl(Ii)},另一方面,將圖像的中間表示輸入基于區(qū)域的質(zhì)量預(yù)測(cè)器中,生成對(duì)應(yīng)區(qū)域的質(zhì)量估計(jì)μIi={μu(Ii),μm(Ii),μl(Ii)},并用不同區(qū)域的每個(gè)分?jǐn)?shù)μ*(Ii)來估計(jì)相應(yīng)的區(qū)域特性f*(Ii),最后將得分與區(qū)域特性輸入到集合聚合單元,生成特征表示Fw(S)={ξu(S),ξm(S),ξl(S)}。其中ξ(·)表示集合聚合函數(shù),它通過加權(quán)的方式合并所有幀,為不同大小的序列生成具有固定維數(shù)的特征表示,其數(shù)學(xué)表達(dá)式為:

        (7)

        圖6 基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)

        (8)

        式中:d(·)表示L2范數(shù),[·]+表示max(·,0);τ表示損失邊緣。從而總損失函數(shù)為L(zhǎng)=Lsoftmax+Lt。

        首先輸入一系列圖像,在經(jīng)過卷積層獲得特征圖后,一方面利用全局特征提取計(jì)算歸一化損失,另一方面在三元損失的監(jiān)督下,提取有效區(qū)域,進(jìn)一步增強(qiáng)類間差異,減少類內(nèi)差距。通過聯(lián)合訓(xùn)練,可以提取出更魯棒的特征。

        2.4 算法流程

        如圖7所示,本文首先用YOLOv3網(wǎng)絡(luò)檢測(cè)出當(dāng)前幀中待跟蹤目標(biāo),再利用卡爾曼濾波器對(duì)下一幀目標(biāo)的位置進(jìn)行估計(jì)和預(yù)測(cè),然后通過改進(jìn)的匈牙利算法將檢測(cè)與預(yù)測(cè)進(jìn)行匹配,得到跟蹤軌跡。而對(duì)于跟蹤過程中產(chǎn)生的被遮擋,本文引入基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)(RQEN),聯(lián)合多幀高質(zhì)量特征恢復(fù)被遮擋部分,提高跟蹤準(zhǔn)確率。

        圖7 算法流程圖

        本文的算法流程描述如下:

        (1) 獲取視頻的第一幀圖像,并用YOLOv3檢測(cè)出圖像中的待跟蹤目標(biāo)。

        (2) 利用第一幀圖像中的每個(gè)目標(biāo)初始化卡爾曼濾波器,并對(duì)下一幀圖像中目標(biāo)的位置和大小進(jìn)行預(yù)測(cè)。

        (3) 讀入下一幀圖像,進(jìn)行目標(biāo)檢測(cè),并將檢測(cè)結(jié)果與預(yù)測(cè)結(jié)果根據(jù)面積交并比與顏色直方圖的加權(quán)和建立關(guān)聯(lián)矩陣,然后利用改進(jìn)匈牙利算法找到最佳匹配。

        (4) 若匹配完成后有剩余檢測(cè),則用多余的檢測(cè)結(jié)果初始化新的卡爾曼濾波器;若當(dāng)前幀有剩余預(yù)測(cè)未被匹配,則認(rèn)為目標(biāo)可能被遮擋或丟失,此時(shí)采用基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò)恢復(fù)被遮擋目標(biāo),同時(shí)記錄被遮擋的幀數(shù),若總幀數(shù)大于10幀,則認(rèn)為目標(biāo)丟失,移除該卡爾曼濾波器。

        (5) 結(jié)合檢測(cè)和預(yù)測(cè),更新卡爾曼濾波器的相關(guān)參數(shù),然后返回步驟3,多次迭代直至所有圖像被處理完。

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)說明

        本文采用2D MOT2015數(shù)據(jù)集[19]進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,包含了多個(gè)行人目標(biāo),并存在目標(biāo)交互與遮擋。其中訓(xùn)練集和測(cè)試集各有11段視頻。實(shí)驗(yàn)環(huán)境:內(nèi)存為4GB,編寫軟件為Python3.6,GPU為RTX2080Ti。

        實(shí)驗(yàn)中采用的評(píng)判標(biāo)準(zhǔn)為跟蹤準(zhǔn)確度(TA)、跟蹤精度(TP)、命中的軌道假設(shè)占實(shí)際總軌道的比例(MT)、丟失的目標(biāo)軌道占實(shí)際總軌道的比例(ML)、標(biāo)簽切換總數(shù)(IDS)以及誤報(bào)總數(shù)(FP)。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        為了更好地分析算法的性能,本文對(duì)兩組實(shí)驗(yàn)結(jié)果了進(jìn)行對(duì)比分析。通過將本文算法在不同視頻序列上進(jìn)行測(cè)試來分析本文算法在不同應(yīng)用場(chǎng)景中的實(shí)驗(yàn)結(jié)果;同時(shí)將本文算法與其他算法進(jìn)行對(duì)比,從而對(duì)優(yōu)勢(shì)和不足做進(jìn)一步分析和研究。

        (1) 本文算法在不同序列上的對(duì)比。本文在測(cè)試集所有序列上進(jìn)行實(shí)驗(yàn),所獲得的數(shù)據(jù)如表1所示。

        表1 不同序列上的測(cè)試結(jié)果

        分析表1可知,從平均各項(xiàng)性能來看,本文算法在序列TUD-Crossing上表現(xiàn)最佳,在Venice-1上表現(xiàn)最差,部分原因是Venice-1中行人與背景的顏色對(duì)比不夠明顯,使得跟蹤產(chǎn)生較大的誤差,而TUD-Crossing中圖像清晰且對(duì)比明顯,因此行人交錯(cuò)的處理效果更好,由此可見圖像的質(zhì)量對(duì)于跟蹤結(jié)果也有很大影響。對(duì)于其他視頻序列存在的相機(jī)晃動(dòng)情況,如ETH-Jelmoli、ETH-Crossing等,會(huì)使跟蹤結(jié)果產(chǎn)生漂移,降低跟蹤準(zhǔn)確率;或者圖像模糊情況,如KITT-16等,也對(duì)檢測(cè)與跟蹤產(chǎn)生一定影響。而PETS09-S2L2中標(biāo)簽切換總數(shù)最多,原因是目標(biāo)數(shù)量較多且行人衣著顏色較相近,所以區(qū)分不同目標(biāo)時(shí)產(chǎn)生誤差??偟膩碚f,除了對(duì)算法本身的跟蹤性能做出改進(jìn)外,還應(yīng)該采用固定相機(jī)拍攝,或?qū)σ苿?dòng)拍攝鏡頭做運(yùn)動(dòng)補(bǔ)償,并需要對(duì)采集的序列進(jìn)行相應(yīng)預(yù)處理。

        (2) 本文算法與其他算法的對(duì)比。本文算法在2D MOT 2015測(cè)試集上與其他算法的實(shí)驗(yàn)結(jié)果對(duì)比如表2所示。

        表2 不同算法實(shí)驗(yàn)結(jié)果

        由表2可知,SMOT[20]僅依靠表觀特征的相似度進(jìn)行跟蹤,其跟蹤結(jié)果易出現(xiàn)漂移,故準(zhǔn)確率只有18.6%;RMOT[21]使用貝葉斯框架根據(jù)圖像序列的上下文進(jìn)行目標(biāo)預(yù)測(cè)與跟蹤,準(zhǔn)確率有所提升,但遮擋時(shí)的處理效果不理想;MotiCon[22]考慮基于圖像檢測(cè)的結(jié)果達(dá)到跟蹤的目的,但由于未考慮目標(biāo)預(yù)測(cè)的問題,使得跟蹤時(shí)定位往往不夠準(zhǔn)確;SiamCNN[10]結(jié)合深度神經(jīng)網(wǎng)絡(luò)和上下文特征預(yù)測(cè)目標(biāo)位置,通過梯度增強(qiáng)與跨幀檢測(cè)進(jìn)行數(shù)據(jù)關(guān)聯(lián),效果有了較大提高,不過該方法僅利用線性規(guī)劃做性能驗(yàn)證,且對(duì)于遮擋問題沒有實(shí)施相應(yīng)的措施;而MDP[6]將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合,通過馬爾科夫決策過程,進(jìn)一步提升了跟蹤準(zhǔn)確率,達(dá)到了30.3%,但該算法在考慮遮擋問題僅利用模板進(jìn)行比對(duì),而沒有結(jié)合目標(biāo)當(dāng)前的具體狀態(tài)進(jìn)行分析,因此準(zhǔn)確率有待提高。

        本文算法利用YOLOv3網(wǎng)絡(luò)檢測(cè)視頻中的行人目標(biāo),能夠得到精準(zhǔn)的邊界框;同時(shí)利用卡爾曼濾波器進(jìn)行預(yù)測(cè)和更新,使跟蹤更精確;在獲得當(dāng)前幀的檢測(cè)和估計(jì)后,利用改進(jìn)的匈牙利算法進(jìn)行目標(biāo)匹配。而針對(duì)跟蹤過程中產(chǎn)生的遮擋問題,本算法引入基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò),聯(lián)合之前5幀檢測(cè)結(jié)果恢復(fù)被遮擋目標(biāo)。實(shí)驗(yàn)結(jié)果表明MOTA達(dá)到了34.4%,MT為13.4%,并將標(biāo)簽切換總數(shù)IDS降低到了653,平均各項(xiàng)指標(biāo)來看,跟蹤性能較其他算法有明顯提升。

        為了直觀地比較處理遮擋問題的實(shí)驗(yàn)數(shù)據(jù),本文在序列TUD-Crossing上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖8和圖9所示。對(duì)比同一幀圖像可知,第112幀中兩個(gè)算法都能很好地完成跟蹤,如圖中實(shí)線框所示。第113幀開始出現(xiàn)遮擋,到第115幀遮擋結(jié)束,由于本算法聯(lián)合多幀檢測(cè)能夠恢復(fù)被遮擋目標(biāo),進(jìn)行持續(xù)跟蹤,如圖中虛線框所示。而MDP算法不能很好地框定目標(biāo),這在目標(biāo)數(shù)量多、交錯(cuò)遮擋頻繁的場(chǎng)景中容易產(chǎn)生跟蹤誤差。相比較而言,本文算法更好。

        圖8 本文算法跟蹤結(jié)果

        圖9 MDP跟蹤結(jié)果

        4 結(jié) 語(yǔ)

        本文考慮使用YOLOv3進(jìn)行多尺度的行人目標(biāo)檢測(cè),不僅能保證檢測(cè)精度,而且可以做到實(shí)時(shí)檢測(cè)。檢測(cè)到當(dāng)前幀中的目標(biāo)后,本文通過卡爾曼濾波器根據(jù)上一幀跟蹤結(jié)果進(jìn)行預(yù)測(cè),以此獲得當(dāng)前幀的先驗(yàn)假設(shè),從而降低該幀圖像跟蹤結(jié)果產(chǎn)生漂移的概率。在獲得檢測(cè)和預(yù)測(cè)后,一方面計(jì)算二者的面積交并比,另一方面計(jì)算目標(biāo)的顏色直方圖,然后結(jié)合兩項(xiàng)結(jié)果生成關(guān)聯(lián)矩陣,并利用匈牙利算法找到最佳匹配。最后系統(tǒng)在不斷迭代后形成跟蹤軌跡。針對(duì)跟蹤過程中產(chǎn)生的遮擋問題,本文引入基于區(qū)域的質(zhì)量評(píng)估網(wǎng)絡(luò),先劃分被遮擋目標(biāo),再聯(lián)合之前多幀完整的檢目標(biāo)測(cè)結(jié)果,恢復(fù)被遮擋的部分,降低了標(biāo)簽切換數(shù)量,提高跟蹤準(zhǔn)確度,達(dá)到了34.4%。之后的研究工作將圍繞進(jìn)一步提高跟蹤準(zhǔn)確度和降低標(biāo)簽切換總數(shù)展開。

        猜你喜歡
        卡爾曼濾波特征檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        基于遞推更新卡爾曼濾波的磁偶極子目標(biāo)跟蹤
        抓住特征巧觀察
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        基于模糊卡爾曼濾波算法的動(dòng)力電池SOC估計(jì)
        基于擴(kuò)展卡爾曼濾波的PMSM無位置傳感器控制
        亚洲夜夜性无码| 色婷婷一区二区三区77| 欧美黑人巨大xxxxx| 一区二区三区激情免费视频| 久久洲Av无码西西人体| 青楼妓女禁脔道具调教sm| 蜜桃夜夜爽天天爽三区麻豆av| 亚洲男人精品| 久久亚洲日韩精品一区二区三区| 国产在线观看不卡网址| 久久不见久久见免费视频7| 精品综合一区二区三区| 一区二区三区在线观看视频| 精品国产亚欧无码久久久| 亚洲av成人无码久久精品| 漂亮人妻被强了完整版| 欧美—iGAO视频网| 麻豆国产人妻欲求不满谁演的| 亚州国产av一区二区三区伊在| 日本视频一区二区三区观看| 久久熟女五十路| 亚洲av成人一区二区三区| 无码aⅴ精品一区二区三区| 精品视频一区二区三区日本| 国内精品久久人妻性色av| 亚洲免费观看| 国产又色又爽又黄刺激在线视频| 岛国熟女精品一区二区三区| 性感人妻一区二区三区| 中年人妻丰满AV无码久久不卡| 国产成人综合亚洲精品| 肉色欧美久久久久久久免费看| 成人性生交大全免费看| 国产在线h视频| 无码中文字幕在线DVD| 国产尤物精品视频| 亚洲一区二区在线观看免费视频| 情头一男一女高冷男女| 国产小屁孩cao大人免费视频| 又湿又黄裸乳漫画无遮挡网站| 国产男小鲜肉同志免费|