基于對(duì)象的視頻摘要算法的實(shí)現(xiàn)與加速*

2015-10-21 00:35:38林龍新劉小麗全渝娟林偉偉

華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2015年5期

關(guān)鍵詞：背景

林龍新劉小麗全渝娟林偉偉

(1.暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院，廣東廣州510632;2.華南理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，廣東廣州510006)

隨著平安城市、智慧城市等項(xiàng)目的大規(guī)模實(shí)施，公安部門等的媒體數(shù)據(jù)中心存儲(chǔ)了海量的視頻資源.瀏覽這些視頻資源需要消耗大量的時(shí)間和人力成本.對(duì)于公安辦案，從海量視頻中快速找到所關(guān)心的目標(biāo)對(duì)象可大幅提升辦案效率和降低人力成本.視頻摘要技術(shù)剛好可以滿足這種需求.

基于對(duì)象的視頻摘要是近年來提出的一種新的摘要技術(shù)，是當(dāng)前計(jì)算機(jī)視覺方面的研究熱點(diǎn)之一.Rav-Acha 和Pritch 等［1-2］開展了開創(chuàng)性工作，基本思想是將原始視頻中不同時(shí)發(fā)生的對(duì)象活動(dòng)合成到時(shí)間軸上相對(duì)緊湊的簡(jiǎn)短摘要視頻，從而大幅減少視頻瀏覽時(shí)間，同時(shí)相對(duì)原始視頻大幅降低存儲(chǔ)空間;隨后提出了基于相似活動(dòng)聚類的視頻摘要方法［3］，并進(jìn)一步推廣到在線網(wǎng)絡(luò)攝像頭業(yè)務(wù)［4］，將視頻轉(zhuǎn)化為一個(gè)三維(3D)空間－時(shí)間表示，把每個(gè)感興趣的運(yùn)動(dòng)對(duì)象看作一段“管帶”，將提取的“管帶”以最優(yōu)的排列和背景圖像組合成合適的3D 空間－時(shí)間表示，最后生成符合用戶需求的視頻摘要.基于對(duì)象的視頻摘要中最終摘要視頻對(duì)象出現(xiàn)碰撞和擁擠問題，為此，文獻(xiàn)［5］中通過“多級(jí)補(bǔ)丁遷移”方法來充分利用時(shí)間和空間，把更多運(yùn)動(dòng)目標(biāo)放入一個(gè)擴(kuò)展重構(gòu)的背景空間，以得到更緊湊的視頻摘要.文獻(xiàn)［6］在多源視頻摘要的基礎(chǔ)上開展復(fù)雜場(chǎng)景的語義挖掘. 文獻(xiàn)［7］針對(duì)摘要視頻中所描述的運(yùn)動(dòng)目標(biāo)結(jié)構(gòu)和原始視頻不一致的問題，提出了保持運(yùn)動(dòng)目標(biāo)結(jié)構(gòu)完整性的方法. 文獻(xiàn)［8］利用遺傳算法對(duì)視頻摘要中的對(duì)象軌跡重排進(jìn)行了優(yōu)化. 文獻(xiàn)［9］基于視頻摘要技術(shù)構(gòu)建了一個(gè)針對(duì)安防監(jiān)控視頻的索引和瀏覽系統(tǒng).

以上這些相關(guān)工作大都在Rav-Acha 和Pritch的工作基礎(chǔ)上針對(duì)摘要視頻存在的問題進(jìn)行改進(jìn)或者利用摘要視頻開展語義層面的應(yīng)用，較少考慮算法的效率和實(shí)際的產(chǎn)業(yè)化應(yīng)用. Pritch 等提及了算法效率問題，并指出常規(guī)安防監(jiān)控視頻的摘要計(jì)算時(shí)間接近原始視頻時(shí)長(zhǎng). 文獻(xiàn)［10］指出Pritch等［1-2］提出的算法需要消耗大量的計(jì)算資源，為此提出了從壓縮域進(jìn)行運(yùn)動(dòng)對(duì)象“管帶”提取工作以加快速度，但速度提升并不明顯而且所采用的方法通用性差.筆者在實(shí)踐中發(fā)現(xiàn)依據(jù)Pritch 等［1-2］提出的算法所設(shè)計(jì)的產(chǎn)品很難滿足安防監(jiān)控領(lǐng)域的實(shí)際需求，主要原因是速度太慢，尤其在平安城市領(lǐng)域中警察需要快速瀏覽大量的監(jiān)控視頻內(nèi)容.為此，文中針對(duì)算法的速度提升問題，提出了基于對(duì)象的視頻摘要算法:基于Pritch 的基本框架在保證質(zhì)量的前提下，采用降低幀率和分辨率、運(yùn)動(dòng)片段檢測(cè)及基于重心的對(duì)象跟蹤等方法來提升算法效率;利用現(xiàn)代CPU 多核多線程的特點(diǎn)，將視頻摘要算法設(shè)計(jì)成可流水線式計(jì)算的步驟，通過多線程編程充分發(fā)揮CPU 的硬件能力以加快計(jì)算速度;對(duì)算法中最耗時(shí)的背景建模步驟通過圖形處理單元(GPU)進(jìn)行加速.文中最后通過實(shí)驗(yàn)來驗(yàn)證所提算法的性能.

1 基于對(duì)象的視頻摘要算法的實(shí)現(xiàn)

1.1 基本原理

基于對(duì)象的視頻摘要是把感興趣的活動(dòng)對(duì)象從原始視頻中提取出來，然后通過空間－時(shí)間軸的壓縮合成一段簡(jiǎn)短的濃縮視頻，基本原理如下［1］:

(1)對(duì)任意一段含N 幀的視頻I，用I(x，y，k)表示一個(gè)像素，(x，y)是此像素的空間坐標(biāo)，k(1≤k≤N)為幀號(hào).目標(biāo)是獲得一段視頻摘要S(x，y，k)，S 應(yīng)盡可能比原始視頻短，同時(shí)包含感興趣的原始視頻中的“活動(dòng)”，S 中運(yùn)動(dòng)對(duì)象的運(yùn)動(dòng)行為保持和原始視頻類似.

(2)S 由時(shí)間偏移函數(shù)M 生成，即S =M(I).對(duì)S 中的每個(gè)坐標(biāo)(x，y，k)，保持時(shí)間平移和空間位置固定，即

可通過能量最小化問題獲得M，其代價(jià)函數(shù)為

式中，Ea(M)為活動(dòng)損失，Ed(M)為接縫兩端的不連續(xù)性代價(jià)，α 為相關(guān)權(quán)值.

Ea(M)是I 中沒有出現(xiàn)在S 中的活動(dòng)像素點(diǎn)的數(shù)量，即

其中χ(x，y，k)為活動(dòng)像素點(diǎn)的特征函數(shù)，

若輸入像素的I(x，y，k)與中值M(x，y)的顏色差大于給定閾值th，則該輸入像素為活動(dòng)像素點(diǎn).

Ed(M)被定義為同一時(shí)空領(lǐng)域內(nèi)摘要視頻中對(duì)應(yīng)像素與輸入視頻接縫兩端的顏色差之和，即

ei為6個(gè)時(shí)空鄰居的單位向量，即4個(gè)空間鄰居和2個(gè)時(shí)間鄰居.

(3)通過一定的對(duì)象檢測(cè)和跟蹤算法來獲得一組對(duì)象，其中每個(gè)對(duì)象可以由特征函數(shù)

表示.對(duì)于每個(gè)對(duì)象o，可選擇一些包含此對(duì)象的幀的子集來形成視頻片段.

最終的視頻摘要S 可以通過輸入視頻I 按如下步驟構(gòu)造:

①從I 中分解出對(duì)象o1，o2，…，or;

②從I 中選擇一組不重疊的片段集合G;

③將式(2)中的時(shí)間偏移函數(shù)M 運(yùn)用到這些片段后形成最終的視頻摘要S.

1.2 算法實(shí)現(xiàn)

基于1.1 中的基本原理，筆者在算法實(shí)現(xiàn)過程中發(fā)現(xiàn)其效率較低，計(jì)算時(shí)間接近原始視頻時(shí)長(zhǎng).為使算法走向商用，文中針對(duì)平安城市這類安防監(jiān)控領(lǐng)域提出了如下改進(jìn)的算法(慧眼算法)，算法描述如下:

(1)視頻采集和初始化. 支持實(shí)時(shí)視頻流和視頻文件兩種采集輸入，適當(dāng)降低幀率和分辨率以加快計(jì)算速度.采用均勻丟幀處理，依據(jù)場(chǎng)景采用8 ～15 f/s 的幀率和CIF 格式分辨率進(jìn)行初始化.

(2)關(guān)鍵幀和運(yùn)動(dòng)片段提取.對(duì)步驟(1)輸入的視頻幀，計(jì)算相鄰兩幀的相似度度量，滿足一定條件后保存為關(guān)鍵幀;然后確定運(yùn)動(dòng)片段以加快后續(xù)處理.設(shè)視頻分辨率為m ×n，則第k 幀圖像的像素點(diǎn)灰度矩陣為

第k+1 幀圖像的像素點(diǎn)灰度矩陣為I ，將第k 幀灰度矩陣的每列元素相加得到數(shù)列

每行元素相加得到數(shù)列

同理，得到第k +1 幀的Ck+1和Rk+1.用

表示兩幀之間在垂直方向上的變化情況.用

表示兩幀之間在水平方向上的變化情況. 設(shè)ΔC 和ΔR 的所有元素相加得到的總和為Δ，如果Δ 大于特定閾值Θ，則認(rèn)為這兩幀間存在運(yùn)動(dòng)對(duì)象，保留第k+1幀，否則丟棄之.

(3)背景建模和對(duì)象檢測(cè).對(duì)步驟(2)輸出的運(yùn)動(dòng)片段進(jìn)行背景建模，把視頻內(nèi)容的前、背景分離以檢測(cè)出運(yùn)動(dòng)對(duì)象.常用的方法主要包括時(shí)間中值濾波器、混合高斯模型、核密度估計(jì)和一些其他局部?jī)?yōu)化方法［11］.針對(duì)監(jiān)控視頻，文中通過實(shí)驗(yàn)驗(yàn)證最終采用混合高斯模型.

混合高斯模型［12-13］用K個(gè)高斯分布混合模擬像素點(diǎn)的背景值，圖像幀I 的點(diǎn)(x，y)在t 時(shí)刻為背景的概率為其中ωi，t、μi，t和Σi，t分別為t 時(shí)刻混合高斯模型中第i個(gè)高斯分布的權(quán)重、均值和協(xié)方差矩陣，η(·)為高斯分布概率密度函數(shù). 在t 時(shí)刻將當(dāng)前幀像素值It(x，y)與K個(gè)高斯分布(按ρi，t= ωi，t/σi排列)按匹配. 如果It(x，y)與任意高斯分布都不匹配，則添加一個(gè)均值、方差和權(quán)重自設(shè)定的高斯分布，用它替換最不可能代表背景的高斯分布;否則第1個(gè)匹配的高斯分布的參數(shù)要按照一定的概率進(jìn)行更新. 然后，按ρi，t=ωi，t/σi由大到小對(duì)高斯分布進(jìn)行排列，依據(jù)取前B個(gè)高斯分布聯(lián)機(jī)生成背景. 經(jīng)實(shí)驗(yàn)測(cè)試，當(dāng)K=5，T = 0. 3，σ = 0. 1，初始權(quán)重和方差分別為0.333、30 時(shí)可以達(dá)到較優(yōu)的背景建模效果.接下來用背景減除法來實(shí)現(xiàn)運(yùn)動(dòng)對(duì)象檢測(cè). 設(shè)t 時(shí)刻當(dāng)前幀和背景幀分別為It，c和It，b，則背景差分圖為

設(shè)Γ 為閾值，則當(dāng)Dt(x，y)＞Γ 時(shí)，該像素點(diǎn)為運(yùn)動(dòng)點(diǎn)，反之為背景點(diǎn).

(4)對(duì)象跟蹤. 許多對(duì)象跟蹤方法(如Kalman濾波、Meanshift 算法等)的計(jì)算復(fù)雜度較高，文中采用基于特征的跟蹤方法，依賴對(duì)象的質(zhì)心變化來完成對(duì)象的跟蹤. 設(shè)一對(duì)象在第k 幀的質(zhì)心坐標(biāo)為(x1，y1)(剛好包含對(duì)象的矩形區(qū)域的中心)，其所跟蹤的下一幀可能對(duì)應(yīng)原始視頻的第k+d 幀.考慮這兩幀的時(shí)間差、對(duì)象的大小變化，給出一個(gè)預(yù)測(cè)該對(duì)象的質(zhì)心坐標(biāo)(x′2，y′2)，而實(shí)際上在k +d 幀中檢測(cè)出多個(gè)運(yùn)動(dòng)對(duì)象，任選一個(gè)運(yùn)動(dòng)對(duì)象，設(shè)其質(zhì)心位置為(x2，y2)，計(jì)算兩點(diǎn)間的距離

選擇Δ′ ＜Φ(Φ 為閾值)且Δ′值最小的對(duì)象作為被跟蹤對(duì)象的匹配對(duì)象.

(5)對(duì)象的非線性規(guī)劃和重排. 依據(jù)1.1 節(jié)的方法將這些運(yùn)動(dòng)對(duì)象在時(shí)間軸上進(jìn)行非線性規(guī)劃和重排.

(6)摘要視頻的生成. 把運(yùn)動(dòng)對(duì)象和背景圖拼接在一起，將原始視頻不同時(shí)間段的目標(biāo)嵌入到選定好的背景圖像中. 為消除對(duì)象和背景接縫的不平滑性，文中在接縫處顏色采用均值的方法以達(dá)到自然過渡.另一方面，針對(duì)運(yùn)動(dòng)對(duì)象間的重疊和遮擋問題，文中采用半透明處理的技術(shù)，使得重疊區(qū)原始目標(biāo)對(duì)象可若隱若現(xiàn)，并輔之以不同顏色的對(duì)象外部矩形框加以區(qū)別.

1.3 具體實(shí)例和算法復(fù)雜度分析

圖1 是針對(duì)公安領(lǐng)域的慧眼單兵智能分析系統(tǒng)，視頻摘要是其核心功能，視頻內(nèi)容檢索、摘要原始視頻同步播放和定位等是其擴(kuò)展功能. 圖2 給出了拼接后的摘要視頻圖像及原始視頻中對(duì)應(yīng)的對(duì)象.為確定慧眼算法效率和輸入視頻幀率的關(guān)系，文中從取自公安部門的實(shí)際監(jiān)控視頻資源中選取了有代表性的視頻數(shù)據(jù)集，具體信息見表1.不同幀率下文中算法的測(cè)試結(jié)果見表2，其中tm為背景建模，ta為摘要分析時(shí)間，tc為摘要合成時(shí)間，ts為摘要算法總計(jì)算時(shí)間，ts=ta+tc. 從表中可知:視頻摘要算法所消耗的計(jì)算時(shí)間與幀率之間呈近似線性關(guān)系，在保證摘要質(zhì)量的前提下，幀率越低計(jì)算效率越高;背景建模消耗了大量的計(jì)算時(shí)間，幾乎占總計(jì)算時(shí)間的50%～80%.

圖1 面向公安領(lǐng)域的視頻智能分析系統(tǒng)Fig.1 Smart video analysis system for social security

圖2 摘要視頻圖像及其原始視頻圖像Fig.2 Synopsis video image and its source video images

表1 測(cè)試所用原始視頻信息Table 1 Information of original videos used in test

表2 不同幀率下文中算法的執(zhí)行時(shí)間Table 2 Execution time of the proposed algorithm under different frame rates

下面分析慧眼算法的計(jì)算復(fù)雜度.假設(shè)要分析的原始視頻共N 幀，每幀包含mn個(gè)像素點(diǎn)，所包含的運(yùn)動(dòng)對(duì)象數(shù)為l，則1.2 節(jié)中算法步驟(1)－(6)的計(jì)算復(fù)雜度分別為O(N)、O(Nmn)、O(KNm2n2)、O(Nl)、O(l2)和O(Nmn).故慧眼算法的計(jì)算復(fù)雜度為O(Nmn+KNm2n2+Nl +l2)，由于l 所代表的對(duì)象數(shù)一般遠(yuǎn)小于每幀的像素點(diǎn)數(shù)mn，因此步驟(3)的計(jì)算耗時(shí)最長(zhǎng).表2 的實(shí)驗(yàn)數(shù)據(jù)也證明了這一點(diǎn).

接下來分析Pritch 算法的時(shí)間復(fù)雜度，鑒于幀率和分辨率對(duì)算法的影響很大，假設(shè)Pritch 算法和慧眼算法采用相同的降幀率及分辨率預(yù)處理，主要區(qū)別在于Pritch 算法中沒有關(guān)鍵幀和運(yùn)動(dòng)片段檢測(cè)過程，在對(duì)象跟蹤時(shí)Pritch 算法采用Meanshift 算法.通過類似分析可知，Pritch 算法的計(jì)算復(fù)雜度為O(Nmn+KNm2n2+Nm2n2+l2)，其中Nm2n2為Meanshift 算法的計(jì)算復(fù)雜度，為每次計(jì)算的迭代次數(shù).很明顯，在相同分辨率和幀率情況下，慧眼算法的時(shí)間復(fù)雜度要優(yōu)于Pritch 算法. 如果慧眼算法采取降幀率和分辨率預(yù)處理，而Pritch 算法不采用類似預(yù)處理，可以預(yù)見這兩種算法會(huì)有較大的性能差距.

2 計(jì)算加速

視頻摘要及其擴(kuò)展功能在安防監(jiān)控領(lǐng)域具有廣闊的應(yīng)用價(jià)值，但在產(chǎn)品化過程中速度是制約其推向市場(chǎng)的主要障礙之一. 慧眼算法需要消耗大量的計(jì)算資源. 為此，文中采用兩種粒度的運(yùn)算加速:①粗粒度加速，即采用線程池方式，在線程級(jí)對(duì)計(jì)算進(jìn)行加速，旨在充分利用當(dāng)前多核多線程CPU 的計(jì)算資源;②細(xì)粒度加速，即對(duì)算法的最耗時(shí)步驟(即混合高斯背景建模)利用GPU 進(jìn)行加速.

2.1 多線程加速

對(duì)于慧眼算法，常規(guī)做法是把這些步驟串行在一起通過一個(gè)操作系統(tǒng)的單線程實(shí)現(xiàn)，這會(huì)導(dǎo)致現(xiàn)代CPU 的多核資源沒有被充分地利用.多線程加速的主要思想為:將慧眼算法的不同計(jì)算步驟對(duì)應(yīng)操作系統(tǒng)的多個(gè)獨(dú)立計(jì)算線程，這些線程組成的線程池協(xié)同完成對(duì)一個(gè)視頻資源的摘要計(jì)算.預(yù)處理、背景建模、目標(biāo)提取與跟蹤和對(duì)象規(guī)劃以流水線方式執(zhí)行.可以把一個(gè)包含N 幀的視頻按照u 幀一段等長(zhǎng)地分割成多段，每段的預(yù)處理、背景建模、目標(biāo)提取與跟蹤、對(duì)象規(guī)劃對(duì)應(yīng)4個(gè)不同線程，那么這些段就可以以流水線方式進(jìn)行計(jì)算.例如，預(yù)處理線程處理完一段視頻后，只需要把處理結(jié)果通過消息隊(duì)列傳送到背景建模線程而不需要等待本段的其他過程就可以馬上處理下一段. 這些線程可以被指定或由操作系統(tǒng)自動(dòng)均勻調(diào)度到不同的硬件線程上執(zhí)行，從而達(dá)到真正的并行計(jì)算.具體算法描述如下:

∥從線程池中獲得i個(gè)線程，Tarray［0］－ Tarray［4］分別為預(yù)處理線程、背景建模線程、對(duì)象提取和跟蹤線程、對(duì)象規(guī)劃和重排線程以及視頻摘要合成線程

startThreads(Tarray);

∥啟動(dòng)所有計(jì)算線程，建立彼此間通信消息隊(duì)列，處于阻塞狀態(tài)，等待數(shù)據(jù)消息

stop=FALSE;∥設(shè)置摘要制作停止標(biāo)志

while stop≠TRUE do∥當(dāng)摘要制作需要繼續(xù)時(shí)

Fu=getFramesFromVideo(V);

∥從V 中順序讀取u 幀數(shù)據(jù)存入幀數(shù)組Fu，u 幀為一個(gè)流水作業(yè)視頻段

sendMessage(Fu，Tarray［0］);

∥把Fu通過消息隊(duì)列發(fā)送給Tarray［0］線程. Tarray［0］線程處于并行運(yùn)行狀態(tài)

Fobj=Tarray［0］.preProcessVideo(Fu);

∥對(duì)Fu降分辨率、幀率和運(yùn)動(dòng)片段檢測(cè)，得出含運(yùn)動(dòng)對(duì)象的幀序列Fobj.

sendMessage(Fobj，Tarray［1］);∥把Fobj通過消息隊(duì)列發(fā)送給Tarray［1］線程以實(shí)現(xiàn)背景建模

Bframes=Tarray［1］.getBackModel(Fobj，T);

∥對(duì)輸入的Fobj運(yùn)行混合高斯算法并生成背景更新模型序列Bframes

sendMessage(Fobj，Bframes，Tarray［2］);

∥把Fobj和Bframes發(fā)送給Tarray［2］線程，以實(shí)現(xiàn)目標(biāo)提取及對(duì)象跟蹤

Oarray=Tarray［2］.getObjects(Fobj，Bframes，Φ);

∥運(yùn)行對(duì)象提取和跟蹤算法提取出相應(yīng)對(duì)象序列數(shù)據(jù)Oarray

sendMessage(Oarray，Bframes，Tarray［3］);

∥把Oarray和Bframes通過消息隊(duì)列發(fā)送給Tarray［3］線程進(jìn)行對(duì)象規(guī)劃和重排

OsypDes=Tarray［3］.cutAndArrange(Oarray，Bframes);

∥根據(jù)重排算法把對(duì)象放置到合適的位置，OsypDes為最后的對(duì)象相關(guān)描述信息，用以合成摘要文件end procedure.

慧眼算法中步驟(1)－(5)以流水線方式執(zhí)行，當(dāng)其對(duì)應(yīng)線程處于不同CPU 硬件線程時(shí)，他們是并行執(zhí)行的.步驟(6)生成最后的摘要視頻，只能串行執(zhí)行.系統(tǒng)啟動(dòng)時(shí)創(chuàng)建線程池，在執(zhí)行時(shí)從中分配線程，通過消息激活，從而減少了線程創(chuàng)立和維護(hù)開銷.線程間的消息傳遞數(shù)據(jù)(如Fu、Fobj、Bframes、Oarray和OsypDes等)均以指針的方式在隊(duì)列中傳遞，從而把數(shù)據(jù)復(fù)制操作開銷降低到最小.

2.2 GPU 加速

根據(jù)算法復(fù)雜度分析和實(shí)驗(yàn)可知，背景建模消耗了大部分計(jì)算時(shí)間. 由于混合高斯算法需要大量的矩陣迭代運(yùn)算，而GPU 通常包含數(shù)百甚至數(shù)千個(gè)統(tǒng)一計(jì)算設(shè)備架構(gòu)(CUDA)核用于并行處理，非常適合這類計(jì)算. 文中算法主要基于OpenCV 2.4.9實(shí)現(xiàn)，此版本提供了兩種混合高斯背景建模算法的GPU 加速實(shí)現(xiàn)，分別為GOM［14］和GOM2［15］.在慧眼算法中，文中將背景建模過程進(jìn)行了GPU 加速，其他步驟依然運(yùn)行在CPU 之上，故整個(gè)算法的實(shí)現(xiàn)過程是典型的CPU +GPU 混合計(jì)算. 在CPU 和GPU混合計(jì)算模型中，當(dāng)涉及CPU 和GPU 之間數(shù)據(jù)通信時(shí)，會(huì)大大降低執(zhí)行效率，如果程序需要CPU 和GPU 頻繁進(jìn)行數(shù)據(jù)通信反而起不到加速的效果，因而將加速過程放到最耗計(jì)算資源的背景建模過程，而非通信消耗比重較大的其他過程.

3 實(shí)驗(yàn)結(jié)果和分析

為驗(yàn)證文中算法的加速性能，在Visual Studio 2008 開發(fā)環(huán)境下用C ++分別實(shí)現(xiàn)了單線程、多線程加速、多線程+GPU 加速3 種算法，OpenCV 版本為2.4.9，GPU 編程環(huán)境為Nvida CUDA 4.0 Toolkit.

3.1 度量指標(biāo)

為評(píng)估算法性能，定義以下術(shù)語和度量指標(biāo):S(Fo)和S(Fs)分別為原始文件Fo、摘要文件Fs的大小，單位為MB;t(Fo)為Fo的時(shí)長(zhǎng);t(Fs)為Fs的時(shí)長(zhǎng);Rt為時(shí)間壓縮比，，其值越大表示所生成的摘要文件相對(duì)原始文件所需要瀏覽的時(shí)間越短;Rc為容量壓縮比，其值越大表示摘要文件占用的磁盤空間越小;Rs為摘要計(jì)算耗時(shí)比，即摘要計(jì)算時(shí)間相對(duì)原始視頻長(zhǎng)度的比值，Rs=為單線程摘要計(jì)算時(shí)間，ts，S= ta，S+ tc，S;ts，M為多線程單服務(wù)器摘要計(jì)算時(shí)間;ts，G為多線程GPU 加速版本摘要計(jì)算時(shí)間;為算法分析加速比，多線程單服務(wù)器算法加速比多線程GPU 算法加速比為總加速比，多線程單服務(wù)器算法加速比多線程GPU 算法加速比

3.2 單線程視頻摘要算法的功能測(cè)試

測(cè)試環(huán)境配置:Windows7 32 位操作系統(tǒng)，內(nèi)存2 GB，CPU 為Intel Core i3-2100 雙核四線程3.10 GHz.采用表1 所示的原始測(cè)試視頻信息進(jìn)行單線程無加速版本的性能和功能測(cè)試.測(cè)試中，test1.avi 幀率為15 f/s，其他測(cè)試視頻在算法步驟(1)時(shí)的幀率降低一半，采用CIF 格式分辨率.大于8 ×8 像素面積大小的對(duì)象將被檢出，確保最終生成的摘要視頻可以清楚地辨別所有對(duì)象. 為便于比較，筆者實(shí)現(xiàn)了Pritch 算法，雖然Pritch 并沒有建議降低幀率，但鑒于幀率對(duì)計(jì)算速度的影響，文中對(duì)Pritch 算法采用相同的幀率和分辨率進(jìn)行測(cè)試，結(jié)果如表3 所示，其中分析時(shí)間ta指算法實(shí)現(xiàn)中步驟(1)－(5)所需計(jì)算時(shí)間，合成時(shí)間tc指步驟(6)所需計(jì)算時(shí)間.運(yùn)動(dòng)對(duì)象數(shù)指算法所檢測(cè)到的不同運(yùn)動(dòng)對(duì)象的個(gè)數(shù)，同一運(yùn)動(dòng)對(duì)象在不同幀出現(xiàn)其計(jì)數(shù)為1. 從表3 中可以看出，平均Rt和Rc均是原始視頻的數(shù)十倍.慧眼算法的平均Rt為37.64，意味著針對(duì)安防監(jiān)控視頻，用戶瀏覽所有內(nèi)容的效率可以提高37 倍以上，這對(duì)綜合大量視頻的公安案情分析無疑具有重要的實(shí)用價(jià)值;平均Rc為70.95，意味著摘要所存儲(chǔ)的空間大小小于原始視頻;平均Rs為0.66，意味著對(duì)于大部分監(jiān)控視頻，單線程算法需要超過原始視頻時(shí)長(zhǎng)一半以上的時(shí)間才可以完成計(jì)算.對(duì)于大量的視頻，如果需要在普通的硬件平臺(tái)上高速完成對(duì)所有視頻的分析，單線程算法需要進(jìn)一步提升速度. 此外，慧眼算法的平均Rs(為0. 66)相對(duì)于Pritch 算法(為0.86)提升了23.3%，其Rt和Rc也表現(xiàn)更好一些.

表3 單線程版本測(cè)試結(jié)果Table 3 Experiment results of single thread version test

3.3 加速性能測(cè)試比較

測(cè)試環(huán)境:Windows7 32 位操作系統(tǒng);內(nèi)存8 GB，CPU 為Intel Core i3-3220 雙核四線程3.30 GHz;GPU為Nvidia GeForce GT640，902 MHz，顯存2 GB，384個(gè)CUDA 核.多線程加速算法中的線程數(shù)、其他配置和單線程算法一樣.

表4 性能測(cè)試所用原始視頻Table 4 Original videos used in performance test

上述原始視頻依然采用公安局提供的一些實(shí)際安防監(jiān)控視頻文件.為簡(jiǎn)單起見，用S 代表單線程算法，M 代表多線程算法，G 代表背景建模GPU 加速后的多線程算法(背景建模采用了OpenCV 2.4.9中GPU 模塊的GOM 算法).相應(yīng)的測(cè)試結(jié)果如表5所示.從表中可以看出:多線程版本的平均為1.83，變化范圍在1.27 ～2.37 之間，平均Rsacc，M 為1.74;GPU 多線程本版的平均和分別為9.77 和7.51;單線程、多線程、GPU 多線程算法的平均Rs分別為0.76、0.49 和0.27. 可見，相對(duì)于單線程算法，多線程及多線程GPU 加速算法具有明顯的加速效果.從表5 中還可以看出，對(duì)于很短的視頻(如sample1 和sample2)，加速并不明顯，而對(duì)于長(zhǎng)視頻(sample3 至sample6)，和在GPU 多線程的加速下有幾倍甚至近20 倍的增長(zhǎng)，而計(jì)算耗時(shí)比Rs在0.03 ～0.2 之間，這意味著對(duì)于一個(gè)100 min 的長(zhǎng)視頻，通過GPU 和多線程加速，可以在3 ～10 min內(nèi)就完成分析并制作摘要視頻. 這是因?yàn)樵诤芏痰囊曨l情況下，分析過程相對(duì)總開銷所占的比重比較小，大量的計(jì)算消耗在其他的運(yùn)算步驟，如表中的合成用時(shí)并不會(huì)隨著原始視頻的增大而線性增長(zhǎng). 但在長(zhǎng)視頻情況下，GPU 的加速性能得到明顯的體現(xiàn)，因?yàn)樵谶@種情況下，分析所需要的計(jì)算資源占主導(dǎo)地位.此外，在GPU 多線程加速下形成的摘要長(zhǎng)度和其他兩種模式下可能有細(xì)微的差別，經(jīng)測(cè)試是由于OpenCV 的GPU 前、背景分離算法和慧眼CPU算法不完全一致造成的，不過并沒有影響最終的效果.

表5 3 種算法的性能測(cè)試結(jié)果Table 5 Performance test results of three algorithms

4 結(jié)論

文中研究了基于對(duì)象的視頻摘要技術(shù)，提出并實(shí)現(xiàn)了視頻摘要的具體算法. 結(jié)合安防監(jiān)控領(lǐng)域特點(diǎn)，該算法通過降低分辨率、降低幀率、運(yùn)動(dòng)片段提取、非線性重排和半透明處理等優(yōu)化方法來提高生成視頻摘要的質(zhì)量和速度.

此外，為進(jìn)一步充分挖掘CPU 的多核多線程特性和GPU 數(shù)以百計(jì)的眾核運(yùn)算能力，文中設(shè)計(jì)了相應(yīng)的多線程和GPU 加速算法，以通過CPU 和GPU對(duì)視頻摘要算法進(jìn)行雙重加速.實(shí)驗(yàn)結(jié)果表明，CPU多線程計(jì)算可以使摘要算法獲得倍數(shù)的加速效果，而GPU 甚至可以使摘要算法獲得數(shù)十倍的加速效果.今后擬將文中算法擴(kuò)展到多個(gè)具有高性能GPU單元的服務(wù)器環(huán)境中，以實(shí)現(xiàn)大量視頻資源的同時(shí)高速分析和視頻摘要制作.

［1］Rav-Acha A，Pritch Y，Peleg S. Making a long video short:dynamic video synopsis［C］∥Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York:IEEE，2006:435-441.

［2］Pritch Y，Rav-Acha A，Peleg S. Nonchronological video synopsis and indexing［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2008，30(11):1971-1984.

［3］Pritch Y，Ratovitch S，Hendel A，et al. Clustered synopsis of surveillance video［C］∥Proceedings of the Sixth IEEE International Conference on Advanced Video and Signal Based Surveillance.Genova:IEEE，2009:195-200.

［4］Pritch Y，Rav-Acha A，Gutman A，et al. Webcam synopsis:peeking around the world［C］∥Proceedings of IEEE the 11th International Conference on Computer Vision.Rio de Janeiro:IEEE，2007:1-8.

［5］Nie Yongwei，Xiao Chunxia，Sun Hanqiu，et al. Compact video synopsis via global spatiotemporal optimization［J］. IEEE Transactions on Visualization and Computer Graphics，2013，19(10):1664-1676.

［6］Zhu Xiatian，Loy Chen Chang，Gong Shaogang. Video synopsis by heterogeneous multi-source correlation［C］∥Proceedings of 2013 IEEE International Conference on Computer Vision.Sydney:IEEE，2013:81-88.

［7］Fu Wei，Wang Jinqiao，Gui Liangke，et al. Online video synopsis of structured motion［J］.Neurocomputing，2014，135:155-162.

［8］Xu L，Liu H，Yan X，et al.Optimization method for trajectory combination in surveillance video synopsis based on genetic algorithm ［J］. Journal of Ambient Intelligence and Humanized Computing，2015，doi:10.1007/s12652-015-0278-7.

［9］Ye G，Liao W，Dong J，et al. A surveillance video index and browsing system based on object flags and video synopsis［C］∥Proceedings of 2015 MultiMedia Modeling.Sydney:Springer International Publishing，2015:311-314.

［10］Zhong Rui，Hu Ruimin，Wang Zhongyuan，et al. Fast synopsis for moving objects using compressed video ［J］.IEEE Signal Processing Letters，2014，21(7):834-838.

［11］李子龍，劉偉銘，張陽. 基于自適應(yīng)模糊估計(jì)的背景建模方法［J］. 華南理工大學(xué)學(xué)報(bào):自然科學(xué)版，2013，41(9):77-81.Li Zi-long，Liu Wei-ming，Zhang Yang. A background modeling method based on adaptive fuzzy estimation［J］. Journal of South China University of Techhology:Natural Science Edition，2013，41(9):77-81.

［12］Stauffer C，Grimson W E L.Adaptive background mixture models for real-time tracking［C］∥Proceedings of 1999 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins:IEEE，1999:246-252.

［13］Stauffer C，Grimson W E L.Learning patterns of activity using real-time tracking［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2000，22(8):747-757.

［14］KaewTraKulPong P，Bowden R. An improved adaptive background mixture model for real-time tracking with shadow detection［M］∥Remagnino P，Jones G A，Paragios N，et al. Video-Based Surveillance Systems. New York:Springer，2002:135-144.

［15］Zivkovic Z. Improved adaptive Gaussian mixture model for background subtraction ［C］∥Proceedings of the 17th International Conference on Pattern Recognition.Cambridge:IEEE，2004:28-31.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放