劉 剛,張治中
(南寧職業(yè)技術(shù)學(xué)院a.現(xiàn)代教育技術(shù)中心;b.信息工程學(xué)院,廣西南寧 530008)
一種具有聽覺功能的智能視頻監(jiān)控系統(tǒng)
劉 剛a,張治中b
(南寧職業(yè)技術(shù)學(xué)院a.現(xiàn)代教育技術(shù)中心;b.信息工程學(xué)院,廣西南寧 530008)
基于圖像的智能視頻監(jiān)控系統(tǒng)由于視角有限,當(dāng)目標(biāo)不在攝像頭視場范圍時,易出現(xiàn)監(jiān)控盲區(qū),為了解決該難題,利用聲源定位的優(yōu)點,提出一種具有聽覺功能的智能視頻監(jiān)控系統(tǒng)。首先采集傳聲器線性陣列,采用時延估計技術(shù)對聲源進行定位,然后根據(jù)聲源位置驅(qū)動攝像頭,使其轉(zhuǎn)動到聲源位置并采集視頻信息,最后采用圖像檢測程序?qū)δ繕?biāo)進行實時定位和跟蹤,并通過仿真測試驗證該系統(tǒng)的可行性,結(jié)果表明,該系統(tǒng)具有較好的定位和跟蹤精度。
聲音信息;視頻信息;智能監(jiān)控;傳聲器陣列;到達時間差
智能監(jiān)控系統(tǒng)是指在沒有人為干預(yù)的情況下,對采集的圖像序列進行自動分析,對監(jiān)控場景中目標(biāo)進行定位、識別和跟蹤,從而對異常情況及時發(fā)出警報或提供有價值的參考信息,在安防系統(tǒng)中得到廣泛應(yīng)用[1]。
目前智能監(jiān)控系統(tǒng)主要對視頻圖像進行分析和處理,然后通過相應(yīng)的軟件提取其中的關(guān)鍵信息,實現(xiàn)對目標(biāo)的識別和跟蹤[2-3]。由于視頻監(jiān)控的范圍受限,無法對監(jiān)控場景的信息進行全方位的采集,從而出現(xiàn)大量的盲區(qū),導(dǎo)致視頻監(jiān)控系統(tǒng)難以滿足要求[4]。近年來,傳聲器陣列信號處理技術(shù)日益成熟,出現(xiàn)基于傳聲器陣列的聲源定位系統(tǒng)[5]。從定位原理來分,目前傳聲器陣列定位技術(shù)主要分為三類:基于最大輸出功率的可控波束形成技術(shù),基于高分辨率譜估計技術(shù),基于到達時間差(Time Difference of Arrival,TDOA)技術(shù)[6]。其中可控波束形成技術(shù)對初值敏感,而且需要知道聲源和噪聲先驗知識,實時處理性能差;高分辨率譜估計技術(shù)計算量大,無法處理相關(guān)度比較高的信號;TDOA技術(shù)具有計算量小、容易實現(xiàn),成為近年研究的熱點[7]。由于在真實聲場環(huán)境下,存在大量的抗噪聲、混響,TDOA的抗噪和混響能力不強,影響聲源定位精度,目標(biāo)實時定位和跟蹤的誤差較大[8]。小波變換可以將含有噪聲的聲音信號進行不同尺度分解,然后重構(gòu)消除噪聲信息,從而增強聲音信號[9]。一些學(xué)者將其引入到智能視頻監(jiān)控系統(tǒng)中,通過傳感器對聲音信號的實時采集,然后對聲音信號進行分析,確定聲源位置,從而對聲源目標(biāo)進行實時定位和跟蹤,拓寬了智能監(jiān)控系統(tǒng)的監(jiān)控范圍[10]。
為了提高智能視頻系統(tǒng)的監(jiān)控效果,更加有效地對目標(biāo)進行實時定位和跟蹤,提出一種具有聽覺功能的智能視頻監(jiān)控系統(tǒng)。首先采集傳聲器線性陣列,采用時延估計技術(shù)對聲源進行定位,然后攝像頭根據(jù)聲源位置調(diào)整方向,使其轉(zhuǎn)動到聲源位置并采集視頻信息,最后采用圖像檢測程序?qū)δ繕?biāo)進行實時定位和跟蹤,并通過仿真實驗對系統(tǒng)的性能進行測試。
智能視頻監(jiān)控系統(tǒng)主要包括硬件系統(tǒng)和軟件系統(tǒng)兩部分,其中硬件系統(tǒng)主要由處理器、存儲器、攝像頭、視頻編碼電路、音頻設(shè)備等組成,具體如圖1所示。
圖1 硬件系統(tǒng)結(jié)構(gòu)
1.2.1 傳聲器陣列模型
對于一個遠場窄帶零均值的入射信號,用單位矢量α表示信號入射方向,矢量pi表示陣元坐標(biāo),其陣列幾何結(jié)構(gòu)如圖2所示。
圖2 陣列幾何結(jié)構(gòu)示意圖
α可以表示為
式中:θ表示俯仰角;φ表示方位角。陣元坐標(biāo)pi可表示為
式中:i表示陣元序號,i=1,2,…,N。
原點位置接收信號的復(fù)數(shù)表示為
式中:n0(t)代表噪聲信號。
整個陣列接收到的信號矢量可以表示為
定義波數(shù)矢量為
由此可以表示陣列流形矢量為
考慮陣列信號處理—般是在基帶進行,信號中已經(jīng)沒有載波分量,接收信號可以表示為
1.2.2 聲音信號消噪
正交小波基的濾波器系數(shù)為h0k和h1k,尺度函數(shù)和小波函數(shù)分別為φ()t和ψ()t,其尺度關(guān)系為
為了對高頻成分觀察更仔細,采用db3小波包對聲音信號進行三級分解,分解過程如圖3所示。
圖3 聲音信號的小波分解
通過設(shè)置一個合適的閾值,僅利用超過閾值的小波系數(shù)來重構(gòu)聲音信號,去除噪聲,閾值選擇為
式中:j為小波變換的尺度;C在3.0~4.0之間。
式中:Mj為尺度j上的各小波系數(shù)絕對值的均值。
從圖4可知,采用小波變換對聲音去噪后,噪聲大部分已被去掉,同時保留了有用的聲音信息。
圖4 小波去噪效果
1.2.3 聲音信號端點檢測
設(shè)語音波形時域信號為x(l),第n幀語音信號為xn(m),則xn(m)滿足下式
式中:0≤m≤N-1。
式中:N為幀長;T為幀移長度。
xn(m)的短時能量譜En定義為
過零率Zn定義如下
sgn[x]定義如下
聲音信號端點檢測的結(jié)果如圖5所示。
圖5 音頻信號的端點檢測
1.2.4 TDOA 估計時延
設(shè)聲源信號為s(t),傳聲器接受到第m個和第n個的聲音信號分別為
式中:um(t)和un(t)為加性噪聲;an和am是衰減系數(shù)。
聲音信號的時延間差為
當(dāng)信噪信比大的條件下,2個傳聲器接收信號的互相關(guān)函數(shù)為
2個傳聲器接收到信號的時延估計為
1.2.5 聲源的位置估計
聲源S(x,y,z)到傳聲器Mi間的距離為ri,τij表示聲源到傳聲器Mi與Mj間的時延,d為傳聲器陣元到原點距離,C為聲速,r,θ[0°,90°],φ[0°,360°]分別表示聲源到坐標(biāo)原點的距離、俯仰角和方位角。
利用距離和速度公式建立如下方程組
解方程,可以得到
綜上可知,具有聽覺功能的智能視頻監(jiān)控系統(tǒng)工作流程如圖6所示。
圖6 智能視頻監(jiān)控系統(tǒng)的工作流程
系統(tǒng)上電后,說話者以傳聲器序列為中心,一邊說話一邊來回走動,通過聲音驅(qū)動攝像頭轉(zhuǎn)動,聲源實際方位與估計方位如圖7所示。從圖7可知,通過本文算法估計的方位與聲源實際位之間的誤差相當(dāng)小,結(jié)果表明,采用本文聲源估計算法可以較準(zhǔn)確地對目標(biāo)位置進行定位。
圖7 角度對比圖
與沒有小波消噪定位算法進行對比實驗,估計誤差結(jié)果如圖8所示。從圖8可知,對比算法由于沒有對聲音信號進行消澡處理,定位誤差比較大,本文算法利用小波變換對聲音信號進行不同尺度的分解,消除了噪聲對聲音信號端點檢測的不利影響,重構(gòu)的聲音信號便于后續(xù)的時延估計,增強了算法抗噪能力,從而大幅度提高了聲源的定位精度。
圖8 消噪前后的定位精度對比
采用單一音頻信息、單一視頻信息對目標(biāo)進行定位和跟蹤,并與本文方法進行對比,采用誤跟率作為性能優(yōu)劣評價標(biāo)準(zhǔn),得到的結(jié)果如表1所示。
從圖1可知,采用單一音頻信息的目標(biāo)定位精度不高,跟蹤效果最差,誤跟率高;相對于音頻信息,視頻信息的目標(biāo)定位精度有所提高,誤跟率降低,并且跟蹤結(jié)果更加穩(wěn)定,但是誤差仍然較大,而本文方法通過聲音信號對驅(qū)動攝像頭轉(zhuǎn)動,融合了音頻和視頻信息,目標(biāo)跟蹤效果更優(yōu),降低了誤跟率,魯棒性更強。
表1 不同方法的誤跟率比較
針對當(dāng)前智能視頻監(jiān)控存在的監(jiān)控盲區(qū)的問題,提出一種具有聽覺功能的智能視頻監(jiān)控系統(tǒng)。首先利用傳聲器陣列的聲源定位對目標(biāo)方向進行檢測,然后根據(jù)目標(biāo)位置驅(qū)動攝像頭轉(zhuǎn)動,仿真結(jié)果表明,該系統(tǒng)提高了目標(biāo)定位和跟蹤精度,有效減少誤報和漏報現(xiàn)象,在現(xiàn)代安防領(lǐng)域中具有一定的應(yīng)用價值。
:
[1]駱云志,劉治紅.視頻監(jiān)控技術(shù)發(fā)展綜述[J].兵工自動化,2009,28(1):1-3.
[2]鄭世寶.智能視頻監(jiān)控技術(shù)與應(yīng)用[J].電視技術(shù),2009,33(1):94-96.
[3]DVORKING T,GANNOT S.Time difference of arrival estimation of speech source in a noisy and reverberant environment[J].Signal Processing,2005(5):177-204.
[4]張亞,周孟然,陳君蘭,等.基于聲源定位技術(shù)的智能視頻監(jiān)控系統(tǒng)[J].電子技術(shù)應(yīng)用,2011(4):90-93.
[5]杜要鋒,尹雪飛,陳克安.一種修正的近場聲源定位時延估計方法[J].電聲技術(shù),2010,34(2):47-50.
[6]李承智,曲天書,吳璽宏.一種改進的ADOA聲源定位及跟蹤算法[J].北京大學(xué)學(xué)報:自然科學(xué)版,2005,4l(5):809-814.
[7]張亞,周孟然,陳君蘭,等.應(yīng)用聲光聯(lián)合定位技術(shù)的智能視頻監(jiān)控系統(tǒng)[J].電視技術(shù),2010,34(3):88-91.
[8]王振濤,郝忠孝,賀洪江.基于傳聲器陣列的聲源定位系統(tǒng)的研究[J].華北電力大學(xué)學(xué)報,2009,36(5):103-106.
[9]HU J S,LEE M T,YANG C H.An embedded audio-visual tracking and speech purification system on a dual-core processor platform[J].Microprocessors and Microsystems,2010(34):274-284.
[10]方帥,遲健男,徐心和.視頻監(jiān)控中的運動目標(biāo)跟蹤算法[J].控制與決策,2005,20(12):1388-1391.
Intelligent Monitoring System with Auditory Function
LIU Ganga,ZHANG Zhizhongb
(a.Modern Educational Technology Center;b.School of Information Engineering,Nanning College for Vocational Technology,Nanning 530008,China)
Intelligent video monitoring system based on image is limited by view angle,when the target is not in the view range of camera,monitoring blind area is easy occurred.In order to solve the problem,an intelligent video monitoring system is proposed based on voice localization.Firstly,microphone linear array is acquired,and the position of the sound source is location by the time delay,and then cameras are turning to the sound source position by the sound source message and collect video information.Finally,the target is real-time positioned and tracked by image detection,and the simulation experiments are carried out to test the feasibility of the system.The results show that the proposed system has high location precision.
audio information;video information;intelligent monitoring;microphone array
TM930.12
A
【本文獻信息】劉剛,張治中.一種具有聽覺功能的智能視頻監(jiān)控系統(tǒng)[J].電視技術(shù),2014,38(1).
2013南寧職業(yè)技術(shù)學(xué)院科研項目(2013YB348)
劉 剛(1980— ),碩士,講師,主要研究領(lǐng)域計算機應(yīng)用、教育信息化;
張治中(1977— ),碩士,副教授,主要研究領(lǐng)域為物聯(lián)網(wǎng)。
責(zé)任編輯:任健男
2013-06-28