莫 茜
(柳州職業(yè)技術(shù)學(xué)院,廣西 柳州545006)
視頻目標(biāo)跟蹤(Visual object tracking,VOT)是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一。其主要目的就是對(duì)視頻序列中的幀圖像進(jìn)行目標(biāo)檢測(cè),確定目標(biāo)在圖像坐標(biāo)中的位置信息,從而進(jìn)行后續(xù)更深入的研究和分析?;谝曨l目標(biāo)跟蹤所得的目標(biāo)位置、速度、加速度、形狀等特征信息進(jìn)行分類(lèi)識(shí)別、或者更高層次的行為分析和情感溝通,從而達(dá)到及其和目標(biāo)的友好交互,實(shí)現(xiàn)真正的智能視覺(jué)系統(tǒng),基本實(shí)現(xiàn)的原理如圖1 所示。
圖1 計(jì)算機(jī)視覺(jué)系統(tǒng)應(yīng)用框圖
目前,VOT 具有十分廣泛的應(yīng)用領(lǐng)域,無(wú)論是民用還是軍事應(yīng)用領(lǐng)域,VOT 的重要性越來(lái)越凸顯,隨著信息技術(shù)的發(fā)展,各種智能設(shè)備層出不窮,機(jī)器智能視覺(jué)系統(tǒng)已經(jīng)開(kāi)啟了高科技快速發(fā)展、走進(jìn)生活的通道[1]。由于視頻目標(biāo)跟蹤技術(shù)綜合運(yùn)用了圖像處理、模式識(shí)別以及人工智能等多個(gè)學(xué)科領(lǐng)域的知識(shí),具有復(fù)雜的應(yīng)用環(huán)境和算法優(yōu)化空間。雖然近四十年的發(fā)展,已經(jīng)為機(jī)器智能視覺(jué)技術(shù)的發(fā)展奠定了一定的基礎(chǔ),但是,由于視覺(jué)系統(tǒng)面臨的環(huán)境復(fù)雜:遮擋、多目標(biāo)交互、光照突變、姿態(tài)改變等多種條件的影響,目前的發(fā)展遠(yuǎn)遠(yuǎn)未能解決實(shí)際應(yīng)用的需求。因此,開(kāi)展復(fù)雜環(huán)境下的魯棒視頻目標(biāo)跟蹤技術(shù)的研究,不論是從理論探索優(yōu)化深入來(lái)說(shuō),還是從目前生活息息相關(guān)的實(shí)際應(yīng)用來(lái)說(shuō),都是一個(gè)極具挑戰(zhàn)而又具有重要應(yīng)用價(jià)值的研究方向。
美國(guó)在智能視頻監(jiān)控領(lǐng)域的研究起步最早,其中,以卡內(nèi)基梅隆大學(xué)、麻省理工學(xué)院等高校牽頭的研究VSAM(Video Surveillance and Monitoring)項(xiàng)目最具有代表性,該項(xiàng)目綜合利用視頻分析、多傳感器融合等技術(shù)對(duì)未來(lái)的城市和戰(zhàn)場(chǎng)場(chǎng)景進(jìn)行場(chǎng)景模擬,從而實(shí)現(xiàn)場(chǎng)景的智能視頻監(jiān)控,解決現(xiàn)代戰(zhàn)爭(zhēng)中視頻監(jiān)控安全性難題;作為IT 領(lǐng)域的領(lǐng)軍企業(yè),IBM研究院早期也在智能視頻監(jiān)控系統(tǒng)的研究投入了大量的精力,相關(guān)成果一直處于全球領(lǐng)先地位,部分產(chǎn)品已經(jīng)實(shí)現(xiàn)了商業(yè)化,比如S3(Smart Surveillance System)最具有代表性,該系統(tǒng)首先通過(guò)對(duì)視頻流中的運(yùn)動(dòng)物體進(jìn)行跟蹤、分類(lèi)、檢測(cè)和識(shí)別形成元數(shù)據(jù),然后捕捉這些運(yùn)動(dòng)物體的軌跡、顏色、形狀、大小、類(lèi)別從而實(shí)現(xiàn)身份識(shí)別,大大提高用戶(hù)定義的報(bào)警系統(tǒng)和視頻檢索系統(tǒng)應(yīng)用的精確度[2]。
在歐洲,英國(guó)雷丁大學(xué)、倫敦大學(xué)等高校研究院所也相繼在智能視頻監(jiān)控領(lǐng)域做了大量的研究工作。英國(guó)雷丁大學(xué)開(kāi)發(fā)了一個(gè)稱(chēng)為“Pfinder”實(shí)時(shí)的智能視頻監(jiān)控系統(tǒng),該系統(tǒng)不僅能對(duì)人體進(jìn)行跟蹤,而且還可以對(duì)跟蹤人體的行為進(jìn)行解釋?zhuān)到y(tǒng)的技術(shù)關(guān)鍵是通過(guò)構(gòu)建顏色和形狀的多級(jí)靜態(tài)模型獲得人體頭和手的二維表示,從而可以實(shí)現(xiàn)在復(fù)雜的場(chǎng)景中對(duì)人體進(jìn)行跟蹤監(jiān)控,成果已經(jīng)在相關(guān)領(lǐng)域推廣應(yīng)用;倫敦大學(xué)協(xié)同英國(guó)國(guó)內(nèi)的六所大學(xué)共同進(jìn)行了“用于智能監(jiān)控和優(yōu)化檢索的帶注釋數(shù)字視頻方法”項(xiàng)目的研究,項(xiàng)目的英文簡(jiǎn)稱(chēng)為“ADVISOR”。該項(xiàng)目通過(guò)利用多攝像機(jī)協(xié)同監(jiān)控的方式實(shí)現(xiàn)公共交通系統(tǒng)的智能管理?;谠擁?xiàng)目技術(shù)的交通管理系統(tǒng)具備對(duì)人群密度和運(yùn)動(dòng)趨勢(shì)綜合計(jì)算分析的功能,如此在解決城市交通引導(dǎo)與減緩交通壓力的同時(shí),又可以對(duì)人群行為進(jìn)行分析,方便快捷地對(duì)公共安全事件進(jìn)行評(píng)估與報(bào)警[3]。
我國(guó)在視頻監(jiān)控領(lǐng)域研究相對(duì)遲緩,但是也是后續(xù)發(fā)力,在相關(guān)領(lǐng)域也是發(fā)展迅速。1995 年開(kāi)始國(guó)內(nèi)的清華大學(xué)、上海交通大學(xué)和中國(guó)科學(xué)院等高校與研究機(jī)構(gòu)投入了大量的人力、物力從事圖像識(shí)別、視頻跟蹤等相關(guān)研究。例如,國(guó)家ITS(國(guó)家智能交通系統(tǒng)工程技術(shù)研究中心)中心實(shí)驗(yàn)室從1999 年開(kāi)始就從事智能交通系統(tǒng)平臺(tái)的研發(fā)工作[4],在已經(jīng)在交通對(duì)象信息采集、交通信號(hào)識(shí)別與處理、交通運(yùn)輸安全與故障處理等技術(shù)方面做深入研究并取得了一定的成果。中國(guó)科學(xué)院模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室(NLPR)則從視頻目標(biāo)跟蹤的角度出發(fā),基于模式識(shí)別的理論與實(shí)踐研究,結(jié)合數(shù)據(jù)挖掘技術(shù)[5],實(shí)現(xiàn)了海量圖像中的目標(biāo)全天候定位與跟蹤,解決了目標(biāo)行為解釋與理解的難題。作為交通領(lǐng)域圖像識(shí)別與視頻跟蹤研究最早的國(guó)內(nèi)高校,上海交通大學(xué)模式識(shí)別與計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室從80 年代開(kāi)始就在視頻目標(biāo)檢測(cè)和跟蹤領(lǐng)域研究進(jìn)行了研究與探索,先后承擔(dān)項(xiàng)國(guó)家863 計(jì)劃、國(guó)家攀登計(jì)劃等重大國(guó)家攻關(guān)項(xiàng)目研究工作,基于“借鑒—?jiǎng)?chuàng)新—實(shí)踐應(yīng)用”的指導(dǎo)思想,在引進(jìn)吸收與創(chuàng)新方面取得了驕人成績(jī),相關(guān)成果已經(jīng)在國(guó)內(nèi)外的項(xiàng)目中推廣應(yīng)用[6]。
視覺(jué)對(duì)象目標(biāo)跟蹤由四個(gè)環(huán)節(jié)構(gòu)成,分別是跟蹤目標(biāo)初始化的構(gòu)建、外觀模型設(shè)計(jì)以及運(yùn)動(dòng)估計(jì)和目標(biāo)定位。其中,目標(biāo)初始化就是要通過(guò)人工或者是自動(dòng)標(biāo)注視頻序列的方法確定系同跟蹤的目標(biāo);構(gòu)建外觀模型就是通過(guò)視覺(jué)表示和統(tǒng)計(jì)建模方式構(gòu)建模型,以便用于對(duì)象識(shí)別;運(yùn)動(dòng)估計(jì)與定位就是利用線性回歸、卡爾曼濾波器等技術(shù)計(jì)算目標(biāo)的當(dāng)前幀的位置[7]。所謂目標(biāo)檢測(cè)就是從海量的視頻或圖像中提取出運(yùn)動(dòng)前景或感興趣目標(biāo),也就是確定當(dāng)前時(shí)刻目標(biāo)在當(dāng)前幀的位置,所占大小。目標(biāo)檢測(cè)在所有的視頻監(jiān)控中所起的作用非常關(guān)鍵,它的性能可以直接影響視頻監(jiān)控后續(xù)目標(biāo)跟蹤、目標(biāo)分類(lèi)與識(shí)別的好壞。目標(biāo)檢測(cè)的對(duì)象紛多繁雜,根據(jù)處理的對(duì)象的不同可以分為基于背景建模和基于目標(biāo)建模的檢測(cè)兩種方法。前者所跟蹤的興趣目標(biāo)背景不變但一直處于運(yùn)動(dòng)狀態(tài),當(dāng)背景發(fā)生變化的時(shí)候,這種方法容易出現(xiàn)誤判,因?yàn)樗菀讓⒆兓尘罢`檢為運(yùn)動(dòng)前景,其實(shí)在運(yùn)動(dòng)目標(biāo)靜止之后也會(huì)被歸為背景,因此該方法不擅長(zhǎng)在背景變化的場(chǎng)景應(yīng)用。如果針對(duì)通過(guò)手持?jǐn)z像機(jī)或車(chē)載攝像機(jī)拍攝的視頻進(jìn)行跟蹤,那么該方法又是得天獨(dú)厚,實(shí)時(shí)性能非常好[8]。
基于背景建模的方法以視頻圖像為目標(biāo)分析對(duì)象,通過(guò)識(shí)別視頻圖像底層特征的基礎(chǔ)上,構(gòu)建一種基于背景分析的模型分割出視頻圖像運(yùn)動(dòng)前景,同時(shí)確定被分割的運(yùn)動(dòng)前景的具體形狀、大小與位置信息,該模型為動(dòng)態(tài)模型,會(huì)隨時(shí)間變化不斷更新背景?;诒尘敖7椒z測(cè)設(shè)備性能關(guān)鍵在于其魯棒的背景模型算法設(shè)計(jì)。目前關(guān)于背景建模的算法比較多,各有優(yōu)勢(shì),其中,混合多高斯背景建模方法是比較常見(jiàn)也比較穩(wěn)定的一種前景提取方法,性能好。通過(guò)該方法可以精準(zhǔn)檢測(cè)復(fù)雜場(chǎng)景中的前景圖像,可以克服其他算法因受動(dòng)態(tài)背景、攝像機(jī)抖動(dòng)等因素干擾而檢測(cè)效果不佳的問(wèn)題。
基于目標(biāo)建模的檢測(cè)方法必須有大量的圖像或視頻訓(xùn)練樣本作為訓(xùn)練目標(biāo),通過(guò)對(duì)訓(xùn)練目標(biāo)進(jìn)行學(xué)習(xí)與分類(lèi)。把圖像或視頻分為目標(biāo)和背景兩部分(如圖2 所示),采用滑動(dòng)窗口掃描的方法在圖像多個(gè)尺度上掃描,判定所掃描的窗口是目標(biāo)還是背景,這樣就可以在圖像的目標(biāo)上找到所有感興趣目標(biāo)的大小和位置,具備比較高的準(zhǔn)確度。與上述提到的基于背景建模的方法不同,基于目標(biāo)建模方法提取的目標(biāo)是滑動(dòng)窗口所掃描到的一個(gè)包圍框,該方法受場(chǎng)景限制,不用考慮目標(biāo)的輪廓,檢測(cè)結(jié)果不需要再進(jìn)行個(gè)體分割,最適合應(yīng)用于移動(dòng)攝像頭下的目標(biāo)檢測(cè)[9]。
圖2 背景建模與目標(biāo)建模的目標(biāo)檢測(cè)結(jié)果
近年來(lái),人工智能、深度學(xué)習(xí)在目標(biāo)視頻跟蹤領(lǐng)域的應(yīng)用已經(jīng)成為研究熱點(diǎn),基于深度學(xué)習(xí)的目標(biāo)檢測(cè)主要借助神經(jīng)網(wǎng)絡(luò)的原理模仿人類(lèi)大腦機(jī)制,整合特征學(xué)習(xí)和分類(lèi)器,對(duì)人腦的多層數(shù)據(jù)進(jìn)行抽象表達(dá)?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)方法主要包括三個(gè)步驟實(shí)施:首先是對(duì)輸入圖像進(jìn)行區(qū)域塊提取,然后采用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算所提取區(qū)域塊的特征,最后通過(guò)SVM 分類(lèi)器對(duì)前面兩個(gè)步驟所提取的區(qū)域塊進(jìn)行分類(lèi)。由于深度學(xué)習(xí)模型具有豐富的數(shù)據(jù)資源以及強(qiáng)大數(shù)據(jù)表達(dá)能力,在該領(lǐng)域的研究發(fā)展迅速,相關(guān)成果比較多,目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)與分類(lèi)識(shí)別已經(jīng)在許多領(lǐng)域得到應(yīng)用與推廣。但是,在推廣應(yīng)用的過(guò)程中也伴隨著一些不利的因素,比如說(shuō)計(jì)算強(qiáng)度高、解釋性差、模型構(gòu)建復(fù)雜度高,優(yōu)化困難等都是學(xué)者們亟待解決的問(wèn)題[10]。
過(guò)去幾十年,視頻目標(biāo)跟蹤技術(shù)有了較大的發(fā)展,特別是2012 年,檢測(cè)跟蹤(TBD)方法的提出,為精確視頻跟蹤技術(shù)的實(shí)時(shí)在線學(xué)習(xí)跟蹤帶來(lái)了革命性的變革,但是該方法只是解決了在圖像清晰環(huán)境中的單目標(biāo)跟蹤問(wèn)題;2015 年,哥倫畢業(yè)大學(xué)的Joao F Henriques 提出了快速核相關(guān)視頻濾波跟蹤方法,為復(fù)雜背景的實(shí)時(shí)魯棒跟蹤問(wèn)題開(kāi)辟了一個(gè)新的思路。雖然視覺(jué)目標(biāo)跟蹤技術(shù)近年來(lái)取得了一系列的豐碩成果,但是在實(shí)際的跟蹤環(huán)境中,通常面臨著眾多復(fù)雜環(huán)境的挑戰(zhàn),因此,相關(guān)領(lǐng)域的研究仍然在繼續(xù)研究。