亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于音視頻信息融合的目標(biāo)檢測與跟蹤算法

        2021-09-27 02:48:18黃戰(zhàn)華陳智林張晗笑曹雨生申苜弘
        應(yīng)用光學(xué) 2021年5期
        關(guān)鍵詞:音視頻聲源音頻

        黃戰(zhàn)華,陳智林,張晗笑,曹雨生,申苜弘

        (天津大學(xué) 精密儀器與光電子工程學(xué)院 光電信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,天津 300072)

        引言

        基于視覺的目標(biāo)跟蹤技術(shù)廣泛應(yīng)用于視頻會(huì)議、智能監(jiān)控、智能機(jī)器人等領(lǐng)域?,F(xiàn)今常用的目標(biāo)跟蹤算法包括粒子濾波(particle filtering)、均值漂移(meanshift)、卡爾曼濾波(Kalman filtering,KF)等[1-3]?;谝曈X的目標(biāo)跟蹤精確度較高,但容易受到遮擋、光照等因素影響,因此存在一定的誤跟現(xiàn)象。聲源定位技術(shù)[4]可以測得聲源的位置信息,雖然聲源定位的精度相對較低,但不受視覺場景的影響并且測量范圍更寬??紤]到單一使用視頻或音頻跟蹤定位的缺點(diǎn),試圖將音頻信息和視頻信息融合,綜合兩種模態(tài)的信息實(shí)現(xiàn)目標(biāo)檢測與跟蹤,使系統(tǒng)具有更高的準(zhǔn)確率和魯棒性。

        視頻信息與音頻信息是兩種不同模態(tài)的信息。多種模態(tài)的信息既能實(shí)現(xiàn)互補(bǔ),也能提高信息的可靠性。音視頻信息的融合就是一種多模態(tài)融合的方向之一。通過音視頻信息的融合,可以實(shí)現(xiàn)復(fù)雜環(huán)境下的目標(biāo)檢測與跟蹤。文獻(xiàn)[5]采用序列蒙特卡洛方法融合頭部輪廓和聲源定位信息,實(shí)現(xiàn)說話人的定位。文獻(xiàn)[6]提出一種融合目標(biāo)輪廓、顏色、聲源位置的說話人跟蹤算法,得到穩(wěn)定的跟蹤效果。國內(nèi)相關(guān)研究起步較晚。文獻(xiàn)[7]采用重要性粒子濾波實(shí)現(xiàn)在智能教室環(huán)境下對演講者的跟蹤。文獻(xiàn)[8]將均值漂移算法嵌入到粒子濾波算法中,將音視頻跟蹤結(jié)果通過粒子濾波算法融合,得到融合跟蹤的結(jié)果。

        本文在重要性粒子濾波算法的基礎(chǔ)上,提出一種基于同源音視頻信息融合的目標(biāo)檢測與跟蹤框架,并設(shè)計(jì)了實(shí)現(xiàn)相關(guān)功能的硬件系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該算法可以有效利用音視頻信息進(jìn)行檢測與跟蹤,相較單一模態(tài)算法具有更高的準(zhǔn)確率。

        1 算法總體框架

        算法總體框架如圖1所示,包括視頻檢測與跟蹤、聲源定位、音視頻信息融合跟蹤3個(gè)模塊。本系統(tǒng)先分別從視頻和音頻2個(gè)底層層面實(shí)現(xiàn)目標(biāo)的跟蹤定位,最后在決策層將視頻和音頻跟蹤的結(jié)果融合,得到基于音視頻融合的跟蹤定位結(jié)果。

        圖1 算法總體框圖Fig.1 Block diagram of algorithm

        視頻檢測與跟蹤模塊采用YOLOv5m算法對人等生活中常見的運(yùn)動(dòng)目標(biāo)進(jìn)行檢測,通過無跡卡爾曼濾波(unscented Kalman filtering, UKF)跟蹤算法對多目標(biāo)進(jìn)行跟蹤預(yù)測,再通過匈牙利匹配算法將檢測結(jié)果和跟蹤結(jié)果匹配,得到視頻跟蹤結(jié)果。

        聲源定位模塊采用基于時(shí)延估計(jì)(time difference of arrival, TDOA)的定位算法,用廣義互相關(guān)函數(shù)(generalized cross correlation, GCC)和相位變化加權(quán)函數(shù)(phase transform, PHAT)估算出各個(gè)麥克風(fēng)接收到聲源信號(hào)的時(shí)間差,再結(jié)合麥克風(fēng)陣列的空間拓?fù)浣Y(jié)構(gòu)計(jì)算出聲源的方位角,最后將方位角投影至相機(jī)二維像面,得到聲源定位結(jié)果。

        音視頻信息融合跟蹤模塊在決策層構(gòu)建音視頻信息的似然函數(shù)和重要性采樣函數(shù),將視頻跟蹤結(jié)果和聲源定位結(jié)果融合,最后采用重要性粒子濾波算法對融合信息進(jìn)行跟蹤定位,實(shí)現(xiàn)對目標(biāo)狀態(tài)的最優(yōu)估計(jì)。

        1.1 視頻目標(biāo)檢測與跟蹤算法

        基于視覺的目標(biāo)檢測與跟蹤算法可以在沒有遮擋的情況下,實(shí)現(xiàn)精確度較高的多目標(biāo)檢測與跟蹤。研究人員在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出一系列目標(biāo)檢測算法[9-12]。為了兼顧模型在復(fù)雜環(huán)境下的檢測能力,同時(shí)需要滿足系統(tǒng)的實(shí)時(shí)檢測需求,采用YOLOv5m作為視頻目標(biāo)檢測算法,模型結(jié)構(gòu)如圖2所示。圖像統(tǒng)一縮放至640×640×3像素輸入,經(jīng)過特征提取網(wǎng)絡(luò)和特征金字塔(FPN)后得到80×80、40×40、20×20像素3個(gè)尺度的高層特征。經(jīng)過非極大值抑制(NMS)處理,得到最優(yōu)的檢測框。

        圖2 YOLOv5m模型結(jié)構(gòu)圖Fig.2 Structure diagram of YOLOv5m model

        YOLOv5m卷積層特征提取的流程圖如圖3所示。

        圖3 YOLOv5m特征提取流程圖Fig.3 Flow chart of YOLOv5m feature extraction

        目標(biāo)跟蹤算法可以根據(jù)目標(biāo)當(dāng)前狀態(tài)預(yù)測下一時(shí)刻的狀態(tài),從而實(shí)現(xiàn)目標(biāo)跟蹤任務(wù)。為兼顧對非線性目標(biāo)的跟蹤能力,同時(shí)考慮到實(shí)際應(yīng)用場景中多目標(biāo)跟蹤任務(wù)的實(shí)時(shí)性需求,本文采用無跡卡爾曼濾波作為基于視頻的目標(biāo)跟蹤算法。UKF在KF的基礎(chǔ)上,采用UT變換(unscented transformation)得到Sigma點(diǎn)集,計(jì)算概率分布的均值和協(xié)方差,實(shí)現(xiàn)對非線性概率密度分布的近似,具有精度高、計(jì)算量較小等優(yōu)點(diǎn)[13]。

        多目標(biāo)跟蹤任務(wù)中需要將經(jīng)過UKF得到的跟蹤結(jié)果和目標(biāo)檢測結(jié)果匹配。本文采用基于GIoU(generalized intersection over union)的匈牙利匹配算法進(jìn)行匹配。GIoU可用來衡量2個(gè)框的相交程度,設(shè)檢測框?yàn)镈,跟蹤框?yàn)門,I為能將D和T包含的最小封閉圖形,則D與T的GIoU可用G表示為

        根據(jù)GIoU可將檢測框與跟蹤框按如下關(guān)系匹配:

        式中:(Di,Ti)表示第i個(gè)配對的檢測框和跟蹤框;Q為總配對數(shù);t為判定檢測框與跟蹤框可以配對的閾值。

        1.2 聲源定位算法

        視頻目標(biāo)檢測與跟蹤可以從視覺層面確定目標(biāo)的位置,而基于音頻的聲源定位可以具體確定發(fā)出聲音的目標(biāo),并且可以在目標(biāo)受視覺遮擋時(shí)輔助目標(biāo)的跟蹤定位。本文采用TDOA算法進(jìn)行聲源定位[14-15],相比于其他聲源定位算法,基于TDOA的算法具有計(jì)算量小、實(shí)時(shí)性高、硬件易于實(shí)現(xiàn)等優(yōu)點(diǎn)。

        假設(shè)存在2個(gè)麥克風(fēng)M1和M2,2個(gè)麥克風(fēng)接收到的音頻信號(hào)為x1(t)與x2(t),由GCC-PHAT算法估算出x1(t)與x2(t)的時(shí)延τ12為

        式中:X1(ω)和X2(ω)分別是x1(t)和x2(t)的傅里葉變換;(.)*表示復(fù)共軛;R12(τ)為x1(t)與x2(t)的廣義互相關(guān)函數(shù)。

        算得陣列中各個(gè)麥克風(fēng)之間時(shí)延后,就可以結(jié)合陣列的空間結(jié)構(gòu)計(jì)算聲源的方位。本系統(tǒng)采用十字型陣列,如圖4所示。

        圖4 麥克風(fēng)陣列空間結(jié)構(gòu)Fig.4 Spatial structure of microphone array

        圖4中,①、②、③、④分別表示陣列的4個(gè)麥克風(fēng),坐標(biāo)分別為(0,a,0)、(a,0,0)、(?a,0,0)、(0,?a,0),4個(gè)麥克風(fēng)在空間內(nèi)呈十字型分布,攝像頭位于原點(diǎn)o處。聲源為s,其直角坐標(biāo)表示為(x,y,z);os在平面xoz的投影與z軸的夾角為θ,取值范圍為(?90°,90°);os在平面yoz的投影與z軸的夾角為φ,取值范圍為(?90°,90°)。設(shè)聲音在空氣中傳播的速度為v,且通過GCC-PHAT算法計(jì)算得到麥克風(fēng)④與麥克風(fēng)①的時(shí)延為τ41=τ4?τ1,麥克風(fēng)③與麥克風(fēng)②的時(shí)延為τ32=τ3?τ2。

        通過τ41和τ32來計(jì)算聲源的方位角θ和φ:τ41和τ32可以確定聲源s分別在平面xoz和平面yoz的投影在2個(gè)雙曲線上。當(dāng)|os|?2a時(shí),可認(rèn)為聲源s在平面yoz和平面xoz的投影位于對應(yīng)雙曲線的漸近線上,由此可計(jì)算出θ和φ為

        然后將聲源方位映射到相機(jī)靶面上,設(shè)相機(jī)靶面的長寬分別為lx和ly,像素尺寸為lp×lp,焦距為f,則可得聲源在最終所拍得圖像的坐標(biāo)(X,Y)為

        1.3 音視頻信息融合跟蹤算法

        視頻檢測與跟蹤的精度較高,但易受遮擋等因素影響;聲源定位不受視覺場景的影響,但精度較低且易受到噪聲的干擾。只采用單一模態(tài)對目標(biāo)進(jìn)行跟蹤存在缺陷,如果同時(shí)捕捉被檢測目標(biāo)的視頻信息和音頻信息,將兩種不同模態(tài)的信息互補(bǔ),可以實(shí)現(xiàn)精確度更高且更可靠的目標(biāo)跟蹤定位。

        由于重要性粒子濾波算法不局限于線性高斯系統(tǒng),且具有優(yōu)良的可擴(kuò)展性和普適性,本文采取重要性粒子濾波[16]作為信息融合方法,基本思想是基于后驗(yàn)概率抽取狀態(tài)粒子來表示目標(biāo)概率密度分布,通過對粒子群的加權(quán)均值來近似跟蹤目標(biāo)的位置。實(shí)際應(yīng)用中從后驗(yàn)概率抽取樣本非常困難,因此引入重要性采樣(importance sampling),通過重要性采樣密度函數(shù)抽取樣本。

        為了將音視頻信息融合,首先需要構(gòu)建音視頻信息的似然函數(shù)。假設(shè)視頻似然函數(shù)和音頻似然函數(shù)相互獨(dú)立,則可通過概率相乘的方式構(gòu)建音視頻信息融合的似然函數(shù)為

        式中:λv和λa分別是視頻重要性函數(shù)和音頻重要性函數(shù)的權(quán)值,用來衡量2個(gè)重要性函數(shù)可靠程度。當(dāng)單一模態(tài)失效時(shí),重要性函數(shù)仍然可以基于另一模態(tài)計(jì)算,系統(tǒng)是穩(wěn)定可靠的。k時(shí)刻的可靠因子λv和λa可由(8)式計(jì)算:

        式中:在k時(shí)刻第i個(gè)粒子的權(quán)值。當(dāng)視頻或音頻重要性函數(shù)與后驗(yàn)分布有更多重疊時(shí),說明該模態(tài)的信息更加可靠,其可靠因子的值也會(huì)更大。

        整個(gè)重要性粒子濾波算法流程如下:

        1)k?1時(shí)刻的粒子集為分別表示k?1時(shí)刻第i個(gè)粒子的狀態(tài)和權(quán)值,N表示粒子個(gè)數(shù)。

        2)轉(zhuǎn)移至k時(shí)刻,通過k?1時(shí)刻計(jì)算的可靠因子,利用(7)式計(jì)算重要性采樣函數(shù)zk),視頻重要性函數(shù)和音頻重要性函數(shù)選用UKF重要性函數(shù)。由重要性采樣函數(shù)采樣得到k時(shí)刻粒子集

        3)系統(tǒng)觀測,由視頻和音頻似然函數(shù)計(jì)算融合似然函數(shù):

        ① 視頻似然函數(shù)為

        式中:(vx,vy)是經(jīng)過UKF算法得到視頻跟蹤目標(biāo)的二維坐標(biāo);是目標(biāo)跟蹤的觀測方差;是第i個(gè)粒子的二維坐標(biāo)。

        ② 音頻似然函數(shù)為

        式中:(ax,ay)是聲源定位結(jié)果映射到攝像頭像面的二維坐標(biāo);是聲源定位的觀測方差。

        ③ 由(6)式計(jì)算音視頻融合似然函數(shù)。

        4)更新粒子的權(quán)值

        5)狀態(tài)估計(jì)為

        6)隨機(jī)線性重采樣,緩解粒子退化問題。

        7)當(dāng)既沒有獲得視頻信息,又沒有獲得音頻信息時(shí),算法結(jié)束;否則返回第2步。

        2 系統(tǒng)硬件設(shè)計(jì)

        系統(tǒng)硬件如圖5所示,硬件部分包括視頻采集模塊、音頻采集模塊、數(shù)據(jù)轉(zhuǎn)接模塊和上位機(jī)。硬件部分實(shí)物圖如圖6所示。

        圖5 系統(tǒng)硬件設(shè)計(jì)框圖Fig.5 Block diagram of system hardware design

        圖6 硬件部分實(shí)物圖Fig.6 Physical drawing of hardware part

        視頻采集模塊采用1080 P攝像頭,感光芯片型號(hào)為HM2131(1/2.7″),像素尺寸為3 μm×3 μm,焦距為4.262 mm,視場角為77°,幀率為30 fps,輸出USB 2.0信號(hào)。

        音頻采集模塊采用4個(gè)硅麥克風(fēng)作為拾音器件。麥克風(fēng)陣列采集音頻信號(hào),經(jīng)由放大電路初步放大后,再經(jīng)過AC108芯片二次放大并將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)輸出(I2S信號(hào))。整個(gè)音頻電路板的邏輯控制、時(shí)序控制由LC4064芯片控制。通過LC4064芯片將AC108芯片輸出音頻數(shù)據(jù)存儲(chǔ)于72V05芯片。當(dāng)72V05半滿時(shí),LC4064芯片讀取72V05芯片中的數(shù)據(jù),再通過I2C總線的SDA線傳輸?shù)紽T4222芯片。FT4222芯片將I2C信號(hào)轉(zhuǎn)化為USB2.0信號(hào)輸出。

        數(shù)據(jù)轉(zhuǎn)接模塊采用GL3520芯片將視頻采集模塊輸出信號(hào)和音頻采集模塊輸出信號(hào)轉(zhuǎn)化為USB3.0信號(hào)輸出,實(shí)現(xiàn)音視頻信息的同步傳輸。最后將數(shù)據(jù)傳輸至上位機(jī)進(jìn)行處理。

        上位機(jī)硬件環(huán)境為Intel(R) Core(TM) i5-8300H CPU,主頻2.30 GHz,內(nèi)存16 G,顯卡為GTX 1060 6G。軟件環(huán)境為Windows10操作系統(tǒng),算法在Python3.7環(huán)境下運(yùn)行,深度學(xué)習(xí)框架為PyTorch1.5.1。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 視頻目標(biāo)檢測模型訓(xùn)練

        考慮到應(yīng)用場景中需要對生活中常見目標(biāo)進(jìn)行檢測,因此選用VOC2007數(shù)據(jù)集作為訓(xùn)練集和測試集。數(shù)據(jù)集包括人、狗等20個(gè)類,隨機(jī)選取7000張圖片作為訓(xùn)練集,剩下2963張圖片作為測試集。

        訓(xùn)練環(huán)境:處理器為Intel(R) Xeon(R) CPU E5-1620 v2,主頻3.70 GHz,內(nèi)存32 G,顯卡為NVIDIA 1080 Ti。軟件環(huán)境為Windows10操作系統(tǒng),算法在Python3.7環(huán)境下運(yùn)行,深度學(xué)習(xí)框架為Pytorch1.5.1。

        YOLOv5m模型在訓(xùn)練中迭代次數(shù)epoch設(shè)置為150次,模型初始學(xué)習(xí)率為0.0001,采用GIoU_Loss作為損失函數(shù)。模型訓(xùn)練結(jié)果隨迭代次數(shù)增加在測試集上的表現(xiàn)如圖7所示。GIoU_Loss、mAP50分別表示訓(xùn)練的模型在測試集上的GIoU損失和平均準(zhǔn)確率。從圖中可以看出,在前50個(gè)epoch,模型的mAP50整體處于上升態(tài)勢;當(dāng)訓(xùn)練至第50 epoch后,模型整體趨于穩(wěn)定。mAP50達(dá)到了86.9%,虛警概率為14.9%,模型訓(xùn)練效果良好。

        圖7 YOLOv5m訓(xùn)練結(jié)果圖Fig.7 Training result chart of YOLOv5m

        目標(biāo)檢測效果如圖8所示.

        圖8 目標(biāo)檢測效果圖Fig.8 Renderings of object detection

        將YOLOv5m檢測結(jié)果作為系統(tǒng)量測值,對目標(biāo)進(jìn)行UKF跟蹤。目標(biāo)狀態(tài)向量的初始化為誤差協(xié)方差矩陣初始化為P0, 過程噪聲矩陣為Qk,量測噪聲矩陣為Rk,有:

        (13)式中x0和y0為量測坐標(biāo)。狀態(tài)轉(zhuǎn)移矩陣F為

        利用UT變化獲得Sigma點(diǎn)集,通過F傳播后得到新Sigma點(diǎn)集的預(yù)測與協(xié)方差矩陣,最后利用量測更新系統(tǒng)狀態(tài)和誤差協(xié)方差矩陣。

        在室內(nèi)環(huán)境對算法性能進(jìn)行測試,如圖9所示。

        圖9中藍(lán)色框?yàn)闄z測框,綠色框?yàn)楦櫩?。采用基于GIoU的匈牙利算法將跟蹤框與檢測框匹配,設(shè)置(2)式的匹配閾值t= 0.3,匹配結(jié)果如表1。

        表1 跟蹤框與檢測框匹配效果Table 1 Matching effect of tracking box and detection box

        圖9 YOLOv5m+UKF實(shí)驗(yàn)效果Fig.9 Experimental effect of YOLOv5m + UKF

        在室內(nèi)環(huán)境下錄制8 min的音視頻,對其中視頻信息進(jìn)行基于YOLOv5m+UKF的檢測與跟蹤實(shí)驗(yàn),統(tǒng)計(jì)得檢測框與跟蹤框的匹配率為98.7%。

        3.2 聲源定位實(shí)驗(yàn)

        為了驗(yàn)證圖2所設(shè)計(jì)麥克風(fēng)陣列在聲源定位任務(wù)中的性能,設(shè)計(jì)如下實(shí)驗(yàn)。為了兼顧定位精確度和整個(gè)陣列輕便性,設(shè)置a = 28.28 mm,即4個(gè)麥克風(fēng)呈正方形排布。由于麥克風(fēng)陣列呈對稱排布,只需在三維空間的第一象限設(shè)置聲源驗(yàn)證系統(tǒng)性能即可。聲源分別設(shè)置在(0,0,500)、(0,0,800)、(0,200,400)、(0,500,500)、(200,0,500)、(200,500,500)、(150,400,200)共7處,單位為mm。將喇叭放置于聲源點(diǎn)位播放語音對話,每組錄制10段音頻。采樣率為48 kHz,信噪比約為15 dB。以聲源位于(0,0,500)其中一次實(shí)驗(yàn)為例,給出麥克風(fēng)①④所接收的音頻信號(hào)波形以及二者的GCC函數(shù)波形,如圖10所示.

        圖10 音頻信號(hào)波形圖Fig.10 Audio signal waveform

        由圖10(c)可得時(shí)延為0.05個(gè)采樣點(diǎn),也就是1.042×10?6s。采用1.2節(jié)聲源定位算法計(jì)算得方位角θ和φ,并統(tǒng)計(jì)θ和φ誤差的絕對值均值,如表2所示。

        由表2所示,2個(gè)方位角中φ表示水平方位角,θ表示俯仰角。從整體上看,平均誤差在2°~3.5°之間,定位精度整體上滿足系統(tǒng)需求。

        表2 方位角θ和φ平均誤差Table 2 Average error of azimuth θ and φ

        3.3 音視頻信息融合的跟蹤實(shí)驗(yàn)

        為了驗(yàn)證音視頻融合跟蹤算法的效果,使用圖4所示的攝像頭與十字型麥克風(fēng)陣列(a= 28.28 mm),在室內(nèi)復(fù)雜環(huán)境下錄制總時(shí)長為8 min的音視頻。視頻中包括諸如多人對話、兩人重疊、雜物遮擋目標(biāo)等場景;音頻中存在腳步聲、碰撞聲等噪聲干擾。視頻定位觀測方差為900個(gè)像素,音頻定位觀測方差為2500個(gè)像素,粒子個(gè)數(shù)為50。

        對錄制的數(shù)據(jù)分別進(jìn)行聲源定位、基于視頻的檢測跟蹤(YOLOv5m+UKF)、音視頻融合的檢測跟蹤實(shí)驗(yàn)。跟蹤結(jié)果對比如圖11所示。

        圖11 3種算法跟蹤效果對比Fig.11 Comparison of tracking effect of three algorithms

        圖11為3種算法在一段音視頻的效果對比。視頻中兩人相對走過,從左向右移動(dòng)的人(稱為A)邊走邊說話,從右向左走動(dòng)的人(稱為B)不發(fā)出聲音。圖11左側(cè)為聲源定位結(jié)果,用紅點(diǎn)表示聲源定位,白點(diǎn)表示噪聲大致位置;中間為YOLOv5m+UKF跟蹤結(jié)果,用綠框表示;右側(cè)為音視頻融合的檢測跟蹤結(jié)果,紅點(diǎn)和黃點(diǎn)分別表示A的聲源定位和視覺跟蹤結(jié)果,藍(lán)點(diǎn)為粒子濾波點(diǎn)集,A的綠框?yàn)槿诤细櫧Y(jié)果,由于B不發(fā)聲,B的綠框?yàn)橐曈X跟蹤結(jié)果。圖11中各幀的聲源定位、A的視覺跟蹤、A的融合跟蹤(加權(quán)重要性函數(shù))、A的融合跟蹤(不加權(quán)重要性函數(shù))以及A人工標(biāo)定的真實(shí)位置的具體坐標(biāo)如表3所示。

        表3 3種算法跟蹤坐標(biāo)數(shù)值Table 3 Tracking coordinate values of three algorithms

        人工標(biāo)注數(shù)據(jù)集中被遮擋目標(biāo)的真實(shí)框,用G代表跟蹤框與真實(shí)框的GIoU,采用1-G衡量跟蹤結(jié)果與真實(shí)結(jié)果的誤差。由于聲源定位結(jié)果只有坐標(biāo)沒有跟蹤框,因此用該目標(biāo)視覺跟蹤框的尺寸作為聲源定位框的尺寸。圖11中的音視頻67幀~96幀的誤差曲線如圖12所示。

        圖12 音視頻序列誤差曲線圖Fig.12 Error curves of audio and video sequences

        分析可知,聲源定位精度相對視頻跟蹤較低,當(dāng)噪聲較大時(shí)會(huì)使聲源定位結(jié)果偏離目標(biāo)。視頻跟蹤在沒有遮擋時(shí)具有較高的精度,但是當(dāng)目標(biāo)被遮擋時(shí),跟蹤定位的精度會(huì)下降。音視頻融合跟蹤算法可以有效抑制單一模態(tài)的失效,增強(qiáng)跟蹤系統(tǒng)的魯棒性。采用加權(quán)音視頻重要性函數(shù)的融合跟蹤可以自適應(yīng)調(diào)節(jié)音頻和視頻的可靠度,具有更強(qiáng)的抑制噪聲的能力。

        當(dāng)跟蹤框與真實(shí)框滿足:

        則認(rèn)為該目標(biāo)的跟蹤結(jié)果準(zhǔn)確,否則認(rèn)為誤跟。統(tǒng)計(jì)3種算法在所有音視頻序列的跟蹤準(zhǔn)確率和平均每幀運(yùn)行時(shí)間,如表4所示。融合檢測跟蹤的準(zhǔn)確率90.68%遠(yuǎn)高于聲源定位的74.48%和視頻檢測跟蹤的83.46%,平均每幀運(yùn)行時(shí)間29.2 ms小于視頻每幀間隔時(shí)間33.3 ms。

        表4 3種算法性能對比Table 4 Performance comparison of three algorithms

        4 結(jié)論

        本文提出一種音視頻信息融合的檢測與跟蹤算法框架,并設(shè)計(jì)了音視頻采集的硬件設(shè)備。采用YOLOV5m作為目標(biāo)檢測框架,使用UKF算法對多目標(biāo)跟蹤,使用匈牙利算法匹配檢測與跟蹤結(jié)果;采用GCC-PHAT作為時(shí)延估計(jì)算法,采用十字形麥克風(fēng)陣列實(shí)現(xiàn)聲源定位;在粒子濾波的基礎(chǔ)上,構(gòu)造音視頻似然函數(shù)和音視頻重要性函數(shù),對音視頻信息進(jìn)行融合跟蹤。經(jīng)驗(yàn)證,算法提高了跟蹤的精確度與可靠性,跟蹤準(zhǔn)確率為90.68%,高于聲源定位和視頻檢測跟蹤的準(zhǔn)確率。

        本算法所采用的聲源定位算法只能定位一個(gè)聲源。當(dāng)所處環(huán)境同時(shí)存在多個(gè)發(fā)聲目標(biāo)時(shí),系統(tǒng)跟蹤性能會(huì)下降,后續(xù)將改進(jìn)聲源定位算法以實(shí)現(xiàn)多聲源定位。

        猜你喜歡
        音視頻聲源音頻
        虛擬聲源定位的等效源近場聲全息算法
        3KB深圳市一禾音視頻科技有限公司
        基于GCC-nearest時(shí)延估計(jì)的室內(nèi)聲源定位
        電子制作(2019年23期)2019-02-23 13:21:12
        必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        WIFI音視頻信號(hào)傳輸?shù)年P(guān)鍵問題探究
        電子制作(2018年12期)2018-08-01 00:48:06
        高速公路整合移動(dòng)音視頻系統(tǒng)應(yīng)用
        音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
        電子制作(2017年9期)2017-04-17 03:00:46
        運(yùn)用內(nèi)積相關(guān)性結(jié)合迭代相減識(shí)別兩點(diǎn)聲源
        Pro Tools音頻剪輯及修正
        人間(2015年8期)2016-01-09 13:12:42
        中文无字幕一本码专区| 亚洲熟妇无码av不卡在线播放| 国产精品18久久久久久不卡中国 | 精品国内自产拍在线观看| 在线观看网址你懂的| 麻豆视频在线观看免费在线观看| 精品日韩一级免费视频| 欧美俄罗斯40老熟妇| 欧美精品久久久久久久久| 一区二区三区四区四色av| 丝袜美腿高清在线观看| 国产人妻久久精品二区三区老狼| 四虎永久免费影院在线| 偷柏自拍亚洲综合在线| 久久九九精品国产av| 香蕉人人超人人超碰超国产 | 亚洲国产精品色一区二区| 久久久极品少妇刺激呻吟网站| 四虎影视免费永久在线观看| 国产精品九九九无码喷水| 琪琪av一区二区三区| 国产亚洲精品久久久久5区| 内谢少妇xxxxx8老少交| 国产一区二区三区爆白浆| 丰满巨臀人妻中文字幕| 99久久婷婷国产综合亚洲| 亚洲av理论在线电影网| 绿帽人妻被插出白浆免费观看| av网站在线观看亚洲国产| 啦啦啦www播放日本观看| 久久久精品国产亚洲AV蜜| 丰满人妻一区二区三区52| 精品亚洲成a人在线观看| 久久久久久久综合狠狠综合| 久久无码中文字幕东京热| 中文字幕一区久久精品| 性色av无码中文av有码vr| 国产精品18久久久久网站| 久久精品国产精品亚洲艾| 99久久99久久精品免费看蜜桃| 亚洲AV永久无码制服河南实里 |