摘 要: 動態(tài)環(huán)境下對多媒體視頻興趣區(qū)進行捕獲時,圖像背景是持續(xù)轉變的,存在高低不平的布局問題,導致當前面向特定背景環(huán)境的目標捕獲方法,無法獲取清晰的圖像,提出依據優(yōu)化目標捕獲算法,設計動態(tài)環(huán)境下多媒體視頻興趣區(qū)自動捕獲系統(tǒng)。該系統(tǒng)通過多媒體視頻圖像采集模塊采集多媒體視頻圖像的數(shù)據,利用數(shù)據格式轉換模塊變換獲取多媒體視頻圖像數(shù)據,完成轉換的視頻圖像數(shù)據可存儲在數(shù)據緩存模塊中,圖像算法分析模塊采用高斯混合模型提高圖像背景的透明度,捕獲清晰的視頻興趣區(qū)圖像,并將捕獲的圖像目標傳動核心芯片為ADV7123的視頻圖像顯示模塊進行顯示。實驗結果表明,所設計系統(tǒng)可準確捕獲運動的視頻興趣區(qū)目標,并且目標清晰度較高。
關鍵詞: 動態(tài)環(huán)境; 多媒體; 視頻; 興趣區(qū); 自動捕獲
中圖分類號: TN948.64?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)16?0094?04
Abstract: When the multimedia video region of interest (ROI) is captured in dynamic environment, the available target capture method can’t acquire the clear image in a specific background environment due to the continuously changing image background and rough layout, so a capture algorithm based on optimal target is proposed to design the automatic capture system for multimedia video ROI in dynamic environment. In the system, the multimedia video image data is acquired by means of the multimedia video image acquisition module, transformed with data format conversion module, and then the converted multimedia video image data can be stored in data cache module. The Gaussian mixture model is adopted in the image algorithm analysis module to improve the transparency of image background, and capture the clear video ROI image. The captured target image is sent to the core chip ADV7123 in the video image display module for display. The experimental results indicate that the designed system can capture the moving video ROI target accurately, and obtain high resolution target image.
Keywords: dynamic environment; multimedia; video; region of interest; automatic capture
0 引 言
隨著視頻壓縮編碼技術以及互聯(lián)網技術的快速發(fā)展,視頻監(jiān)控業(yè)務被廣泛應用在不同的領域中。動態(tài)環(huán)境下多媒體視頻興趣區(qū)的目標捕獲是計算機視覺領域研究人員的熱點分析方向[1?3]。當前的目標捕獲方法大都面向特定背景環(huán)境,無法有效處理動態(tài)環(huán)境下圖像背景的高低不平布局問題,無法獲取清晰的圖像[4?5]。
現(xiàn)存的目標捕獲方法存在一定的弊端,文獻[6]提出的幀間差分法依據前后相鄰幀圖像像素灰度值的波動情況,采集興趣目標,但是其僅可獲取目標的外圍信息,無法得到圖像細節(jié)。文獻[7]通過差分相鄰幀,捕獲興趣目標,雖然提高了算法的魯棒性,但是獲取的目標中會存在空洞,目標圖像模糊。文獻[8]通過光流法將空間的運動場描述成圖像中的光流場,完成目標的捕獲,其可在攝像機運動條件下捕獲出相應的運動目標,但是運算量較高,抗噪性能弱。文獻[9]采用非參數(shù)模型捕獲興趣目標,該方法先獲取包含目標的模板,再在序列圖像中對目標進行跟蹤,該方法存在耗時高的缺陷,局限于捕獲較小的興趣目標。
因為上述分析方法都存在一定的缺陷,因此,提出依據優(yōu)化目標捕獲算法,設計動態(tài)環(huán)境下多媒體視頻興趣區(qū)自動捕獲系統(tǒng)。實驗結果說明,所設計系統(tǒng)可準確捕獲運動的視頻興趣區(qū)目標,并且目標清晰度較高。
1 系統(tǒng)硬件實現(xiàn)
1.1 系統(tǒng)總體結構
動態(tài)環(huán)境下多媒體視頻興趣區(qū)的自動捕獲系統(tǒng),由視頻圖像采集和轉換模塊、總線模塊設計、數(shù)據緩存模塊、視頻圖像顯示模塊、圖像算法分析模塊構成,如圖1所示。主要的目標是捕獲動態(tài)目標,先采集多媒體視頻圖像的數(shù)據,再變換獲取的多媒體視頻圖像數(shù)據,完成轉換的視頻圖像數(shù)據可存儲在數(shù)據緩存模塊中,圖像算法分析模塊采用高斯混合模型針對高低不平的背景圖像布局,增強圖像背景的透明度,捕獲清晰的視頻興趣區(qū)圖像目標,并將捕獲的圖像目標傳動到視頻圖像顯示模塊呈現(xiàn)給用戶。
1.2 多媒體視頻圖像采集模塊設計
多媒體視頻圖像采集模塊對攝像頭獲取的多媒體視頻圖像數(shù)據進行傳遞、變換和操作,并對動態(tài)目標進行檢測。通過多媒體視頻輸入部件也就是攝像機,獲取外部視頻數(shù)據,攝像機中的圖像傳感器可將外部圖像光信號變換成模擬信號,通過模數(shù)變換后,形成系統(tǒng)可處理的數(shù)據信號。選擇MT9M011型圖像傳感器,該傳感器是有源像素數(shù)字圖像傳感器,擁有耗能低的優(yōu)勢。
1.3 數(shù)據格式轉換模塊設計
多媒體視頻興趣區(qū)的自動捕獲系統(tǒng)中的MT9M011圖像傳感器,會輸出RAW RGB格式的圖像數(shù)據,該種圖像數(shù)據顏色格式的濾波陣列中,各感光點都獨立完成釆樣和分割,為了提高捕獲視頻圖像的清晰度,要求捕獲的圖像的數(shù)據格式中的各像素點由R,G,B顏色分量構成。因此,需要將圖像傳感器獲取的RAW RGB格式圖像數(shù)據,變換成所需的位格式,要求R,G,B三種顏色分量均衡分配。具體的變換過程如下:
1.4 視頻圖像顯示模塊設計
多媒體視頻圖像顯示模塊包括VGA Controller 模塊和ADV7123 芯片,該模塊設計了VGA時序,確保顯示更加清晰的視頻圖像。VGA Controller 從數(shù)據緩存模塊中采集待顯示的 8 位 RGB目標圖像數(shù)據,ADV7123 視頻編碼芯片對圖像數(shù)據進行 A/D 轉換,將數(shù)字信號編碼成模擬視頻信號,再傳遞到VGA 顯示器上進行顯示, ADV7123 電路原理圖如圖2所示。
2 系統(tǒng)軟件設計
2.1 軟件功能模塊
依照系統(tǒng)操作步驟,系統(tǒng)軟件可由視頻輸入及初始化模塊、目標捕獲及顯示模塊構成。視頻輸入及初始化模塊對視頻依次排列后進行輸入并建立系統(tǒng)參數(shù)。視頻需要輸入的內容有采集 USB 攝像頭視頻和翻譯后的 AVI 格式視頻,而系統(tǒng)參數(shù)需要建立的內容有背景模型參數(shù)、目標捕獲參數(shù)和目標跟蹤參數(shù);系統(tǒng)中的高斯混合目標捕獲算法由目標捕獲及顯示模塊實現(xiàn),在圖像幀里獲取運動對象的捕獲結果,并將其呈現(xiàn)到控件窗口上。系統(tǒng)軟件的功能構架如圖3所示。
2.2 基于高斯混合模型的視頻興趣區(qū)自動捕獲
多媒體視頻興趣區(qū)目標圖像的捕獲,需要判別視頻幀圖像排列中有無前景目標的展露,若有,需要先鎖定對象,再實施查看對象的操作。在真實監(jiān)測狀態(tài)下,多媒體視頻興趣區(qū)圖像背景是持續(xù)轉變的,因此圖像背景存在高低不平的布局特點,通過高斯混合模型可提高背景的透明度,捕獲清晰的視頻興趣區(qū)圖像。
假設K為高斯模型,用于代表多媒體視頻興趣區(qū)的圖像像素情況,K值描述了像素峰值散布的數(shù)量:
[p(xt)=i=1Kωi,t(2π)n2Σi,t12e-12(xt-ui,t)TΣ-1i,t(xt-ui,t)] (1)
式中:[ωi,t]用于描述時間為t時高斯混合模型里第i個高斯分布的權重;[Xt=[xet,xft,xvt]T]為時間為t時像素的RGB色彩向量;n為3;[ut=[uei,t,ufi,t,uvi,t]T]代表時間為t時第i個高斯散布的均值向量,[Σi,t=σ2i,tIn]代表時間為t時第i個高斯散布的協(xié)方差矩陣。
根據高斯混合模型,完成多媒體視頻興趣區(qū)圖像的背景檢測,主要借助模型創(chuàng)設、模型更新和背景模型估計及背景分割3大部分實現(xiàn)。以下為詳細介紹:
(1) 模型創(chuàng)設。在創(chuàng)設混合高斯模型時,需收集在某一特定時段內,多媒體視頻排列中全部圖像像素,根據對它們進行分析運算后得到灰度平均值[μ0]和方差[σ20],達到初始化背景環(huán)境模型參數(shù)的目的,以式(2)、式(3)為例。
[μ0=1Nt=0N-1It] (2)
[σ20=1Nt=0N-1(It-μ0)2] (3)
當高斯散布模型被初始化之后,即將進入更新部分,可直接操縱第一幀的圖像像素點的均值,此刻,應給出相對大一些的方差和相對小一些的權重。
(2) 模型更新。創(chuàng)設模型是在采集多媒體視頻興趣區(qū)圖像背景環(huán)境的條件下進行,因此必須時刻對視頻圖像高斯模型中的均值和方差進行變更。等到下一幀時,把像素色彩向量的值配置到高斯分布中,倘若[Xt-ui,t≤2.5σ2i,t],那么[Xt]與第i個高斯分布完成配置,相反則配置失敗。完成配置的第i個高斯分布的參數(shù),根據以下公式進行變更:
[ui,t=(1-ρi,t)ui,t-1+ρi,tXt] (4)
[σ2i,t=(1-ρi,t)σ2i,t-1+ρi,t(Xt-ui,t)T(Xt-ui,t)] (5)
參數(shù)學習速率為[ρi,t],且[ρi,t≈αωi,t]。[α]是用戶自定義的學習速率(常用值為0.005)。
在創(chuàng)設當前圖像像素的全部高斯分布中,假設并沒有能與[Xt]相配的高斯分布,則需將[Xt]當成均值授予最小權重的高斯分布,并更新高斯分布,將相對較小的權重和較大的方差給予高斯分布。經過一系列操作,完成配置后,根據式(6),將同樣的像素中每個高斯分布的權重進行描述:
[ωi,t=(1-α)ωi,t-1+αMi,t] (6)
式(6)中,若將第i個高斯分布與[Xt]進行配置,那么[Mi,t]為1,反之為0。把全部高斯分布的權重都重新設置完成后,將其統(tǒng)一整理,進行接下來的操作。
(3)背景模型估計及前景分割
[B=argminbk=1bωk>T, 0.5 [ωi,tσi,t]的比值根據從大到小的規(guī)律,將創(chuàng)設各個像素的全部高斯分布進行依次排列,按照式(7),在已經有相應順序的高斯分布里,收集B個之前的高斯分布,以此當成闡明多媒體視頻興趣區(qū)圖像背景像素的最好布局。隨之,將[Xt]與之前提及的B個高斯分布進行相應配置,若[Xt]與B個之前的某一個高斯分布能夠配置成功,那么這個像素就可以作為前景點,反之就是背景點。 3 實驗分析 實驗在Visual Studio 2008平臺下,通過 C#語言對本文設計的多媒體視頻興趣區(qū)自動捕獲系統(tǒng)的性能進行檢測。實驗分別采用傳統(tǒng)光流法以及本文方法,對在公園拍攝的兩段視頻(大小均為 520×460)進行分析。 實驗結果1:兩種方法對視頻區(qū)行人目標的跟蹤結果見圖4、圖5,可看出本文系統(tǒng)可準確捕獲運動的行人目標,而光流法捕獲的行人目標存在較高的偏差。 實驗結果2:兩種方法完成了對快速騎車通過視頻興趣區(qū)的目標捕獲情況,如圖6和圖7所示。由于騎車速度較快,可以看出光流法捕獲的目標模糊,而本文方法能夠清楚地捕獲騎車目標,甚至可以看清騎車人的臉部,檢測結果中存在較少的噪聲點,具有較高的精確度。 實驗統(tǒng)計兩種方法進行10次測試的視頻興趣區(qū)捕獲誤差,結果如表1所示??梢钥闯霰疚姆椒▽煌囊曨l興趣區(qū)的捕獲誤差較低,并始終低于光流法,具有較高的優(yōu)勢。 4 結 論 本文提出依據優(yōu)化目標捕獲算法,設計動態(tài)環(huán)境下多媒體視頻興趣區(qū)自動捕獲系統(tǒng)。該系統(tǒng)通過多媒體視頻圖像采集模塊采集多媒體視頻圖像的數(shù)據,采用數(shù)據格式轉換模塊變換獲取的多媒體視頻圖像數(shù)據,完成轉換的視頻圖像數(shù)據可存儲在數(shù)據緩存模塊中。圖像算法分析模塊采用高斯混合模型提高圖像背景的透明度,捕獲清晰的視頻興趣區(qū)圖像,并將捕獲的圖像目標傳動到核心芯片為ADV7123的視頻圖像顯示模塊進行顯示。實驗結果說明,所設計系統(tǒng)可準確捕獲運動的視頻興趣區(qū)目標,并且目標清晰度較高。 參考文獻 [1] Cisco Company. Cisco visual networking index: global mobile data traffic forecast update, 2015–2020 White Paper [R/OL]. [2016?02?01]. http//: www.cisco.com/en/US. [2] 溫洪波.視頻技術在多媒體課件中的應用[J].計算機光盤軟件與應用,2014(4):208?209. [3] 賈金利.多媒體技術在新聞學課程教學中的合理運用[J].中國輕工教育,2013(2):78?80. [4] 李宇成,李聰.基于DM368的視頻處理及軟件設計[J].計算機測量與控制,2013,21(10):2865?2867. [5] 吳笑天,魯劍鋒,王宇慶,等.基于DM368的無人機視頻壓縮系統(tǒng)的設計[J].液晶與顯示,2014(12):1117?1123. [6] 范新磊,張杰.基于FPGA的視頻圖像實時采集與顯示研究[J].電子制作,2013(4):72. [7] 常高嘉,馮全源.基于FPGA的高速數(shù)據釆集系統(tǒng)的設計與實現(xiàn)[J].電子器件,2012,35(5):217?220. [8] 廖廣軍.復雜條件下的人臉檢測與識別應用研究[D].廣州:華南理工大學,2014. [9] 曹健,陳紅倩,毛典輝,等.基于局部特征的圖像目標識別問題綜述[J].中南大學學報(自然科學版),2013(z2):258?262.