李鵬飛 趙炫 王列
1. 視頻圖像信息智能分析與共享應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室 2. 公安部第一研究所
近年來,在人工智能技術(shù)的發(fā)展及公共安全需求的推動(dòng)下,越來越多的視頻分析技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。借助計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理功能,視頻分析系統(tǒng)可對海量視頻數(shù)據(jù)進(jìn)行高速分析,過濾無用信息,自動(dòng)提取其中有價(jià)值的關(guān)鍵信息,從而有效提升公安工作中視頻監(jiān)控的深度應(yīng)用水平[1]。隨著各種各樣的視頻分析算法和系統(tǒng)的提出,判斷這些系統(tǒng)實(shí)用性的評價(jià)方法變得至關(guān)重要。
本文在分析總結(jié)視頻分析測評技術(shù)研究現(xiàn)狀的基礎(chǔ)上,提出了視頻分析測評體系的構(gòu)建思路,對視頻分析測評的關(guān)鍵技術(shù)進(jìn)行了研究,最后對視頻分析技術(shù)的未來應(yīng)用及發(fā)展方向進(jìn)行了展望。
視頻分析測評的目的在于對視頻分析算法及系統(tǒng)的性能進(jìn)行客觀、公平、公正的科學(xué)評價(jià),為用戶采購產(chǎn)品提供可靠依據(jù),同時(shí)促進(jìn)視頻分析技術(shù)產(chǎn)品及產(chǎn)業(yè)市場的發(fā)展。視頻分析測評技術(shù)涉及面廣,難度大,一直是國內(nèi)外學(xué)術(shù)界及產(chǎn)業(yè)界的重要研究課題之一。
2000年 , VACE( Video Analysis and Content Extraction)項(xiàng)目啟動(dòng)。該項(xiàng)目主要關(guān)注人臉檢測/跟蹤、文本檢測/跟蹤/識別、行人檢測/跟蹤/定位、手檢測/跟蹤、事件檢測等任務(wù)。在VACE的第二階段(2002~2006年),南佛羅里達(dá)大學(xué)(USF)和美國國家標(biāo)準(zhǔn)和技術(shù)協(xié)會(NIST)協(xié)作進(jìn)行了測評方面的工作[1]。
ETISEO(Evaluation du Traitement et de l'Interpretation de Sequences vidEO)是由法國政府贊助的視頻監(jiān)控系統(tǒng)測評項(xiàng)目,項(xiàng)目研究時(shí)間從2005年到2006年12月,主要針對運(yùn)動(dòng)目標(biāo)的檢測跟蹤、目標(biāo)定位、目標(biāo)分類以及事件識別等算法的性能評價(jià)方法進(jìn)行研究[2]。
SUBITO(Surveillance of Unattended Baggage and the Identification and Tracking of the Owner)是由European Commission Framework 7 programme贊助的研究和開發(fā)項(xiàng)目[3]。該項(xiàng)目主要關(guān)注對丟棄行李的自動(dòng)實(shí)時(shí)檢測,以及對相關(guān)人員(所有者)的跟蹤識別,同時(shí)研究了這些算法的性能評價(jià)方法。
PETS(Performance Evaluation of Tracking and Surveillance)會議主要由英國雷丁大學(xué)所倡導(dǎo),是專門研究視覺跟蹤和監(jiān)控算法性能評價(jià)方法的國際研討會。第一次PETS會議于2000年3月召開,到2017年為止已經(jīng)召開了19屆[4]。早期的PETS主要關(guān)注人、車等運(yùn)動(dòng)目標(biāo)的檢測和跟蹤,以及人員行為、行李遺棄等事件的識別檢測。2009年以后,PETS開始關(guān)注群體分析,包括擁擠的公共場合中的目標(biāo)檢測跟蹤和事件識別,人員計(jì)數(shù)和密度估計(jì),特定群體事件的檢測等。
以上的研究工作均提供了相應(yīng)的測試數(shù)據(jù)集。此外比較著名的測試數(shù)據(jù)集還包括圖像識別領(lǐng)域的ImageNet[5]、目標(biāo)檢測領(lǐng)域的PascalVOC[6]、 視頻檢索領(lǐng)域的TRECVID[7]、目標(biāo)跟蹤研究領(lǐng)域的VTB[8]和 VOT[9]、人臉檢測及識別領(lǐng)域的FDDB、LFW、MegaFace等。
通過調(diào)研發(fā)現(xiàn),國外現(xiàn)有的視頻分析測評研究主要針對算法測試,而非產(chǎn)品級的測試。FRVT(Face Recognition Vendor Test)為針對人臉識別系統(tǒng)的測試,但其數(shù)據(jù)以歐美人臉為主,與我國人臉實(shí)戰(zhàn)應(yīng)用場景差距較大。
國內(nèi)方面,香港中文大學(xué)、中科院自動(dòng)化所、中科院計(jì)算所、清華大學(xué)、中山大學(xué)等研究機(jī)構(gòu)在人臉識別、車輛識別、目標(biāo)跟蹤等視頻分析算法測評領(lǐng)域進(jìn)行了研究,并建立了部分相關(guān)數(shù)據(jù)集。如香港中文大學(xué)(王曉剛與湯曉鷗組)建立了人臉屬性識別數(shù)據(jù)集CelebA以及車輛識別數(shù)據(jù)集CompCars;中科院自動(dòng)化所(黃凱奇組)建立了行人屬性識別數(shù)據(jù)集RAP dataset以及跨攝像機(jī)目標(biāo)跟蹤數(shù)據(jù)集MCT;清華大學(xué)(王生進(jìn)組)在行人再識別方面提出Market1501數(shù)據(jù)集等。但這些數(shù)據(jù)集容量有限,且以學(xué)術(shù)測評為主,與公安實(shí)戰(zhàn)應(yīng)用差異較大,不能準(zhǔn)確評估視頻分析系統(tǒng)的應(yīng)用能力。此外,國家安全防范報(bào)警系統(tǒng)產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)中心也在視頻分析測評領(lǐng)域進(jìn)行了一定的研究工作,其主要測評目的為檢驗(yàn)產(chǎn)品是否達(dá)到標(biāo)準(zhǔn)要求的最低功能和性能,同樣存在數(shù)據(jù)集容量有限等問題。
作者所在團(tuán)隊(duì)從2007年開始,通過參與多個(gè)視頻分析測評相關(guān)的國家科技支撐課題,對視頻分析測評技術(shù)進(jìn)行了深入的研究。研究了視頻分析測評的方法和流程,制定了實(shí)用、科學(xué)的視頻分析測試方法,形成了一套測試流程規(guī)范。同時(shí)面向技防和公安信息化應(yīng)用,建立了內(nèi)容豐富、規(guī)模龐大的測試視頻資源庫。
視頻分析測評體系框架大致可分為三個(gè)層次,如圖1所示,包括視頻分析測評方法層、測評系統(tǒng)與數(shù)據(jù)集層以及測評應(yīng)用層。
其中,測評方法層包括測試方法、評價(jià)方法以及數(shù)據(jù)集建設(shè)和管理方法。測評系統(tǒng)與數(shù)據(jù)集層包括測評系統(tǒng)以及測試數(shù)據(jù)集。測評應(yīng)用層則是測評的應(yīng)用實(shí)施過程,包括目的與范圍確定、數(shù)據(jù)集與指標(biāo)選擇、方案設(shè)計(jì)、組織與實(shí)施以及結(jié)果發(fā)布等。
視頻分析測評可采用現(xiàn)場測試和數(shù)據(jù)集測試兩種方式?,F(xiàn)場測試指被測系統(tǒng)直接布署到應(yīng)用環(huán)境中,被測系統(tǒng)本身具備從現(xiàn)場采集視頻圖像的能力,或通過網(wǎng)絡(luò)接口實(shí)時(shí)獲取監(jiān)控視頻圖像;數(shù)據(jù)集測試則是將被測系統(tǒng)布署在實(shí)驗(yàn)室環(huán)境中,通過接口讀取事先從現(xiàn)場環(huán)境采集的數(shù)據(jù)集。
現(xiàn)場測試的優(yōu)點(diǎn)在于可以測試包含采集前端在內(nèi)的視頻分析整體系統(tǒng)的性能,適用于對特定重要監(jiān)控場景的專項(xiàng)測試與評價(jià);其缺點(diǎn)是現(xiàn)場視頻圖像采集的范圍和數(shù)量往往有限,且因測試時(shí)間限制,導(dǎo)致應(yīng)用場景單一,評價(jià)結(jié)果往往不能全面反映被測系統(tǒng)在多種環(huán)境下的綜合性能。同時(shí)現(xiàn)場測試大多只能采用人工方式進(jìn)行測試結(jié)果統(tǒng)計(jì)。
數(shù)據(jù)集測試的優(yōu)點(diǎn)是可以基于全國各地公安實(shí)戰(zhàn)應(yīng)用場景中長期采集的大量現(xiàn)場數(shù)據(jù)進(jìn)行測試,場景豐富,目標(biāo)數(shù)量多,評價(jià)指標(biāo)全面,測試結(jié)果統(tǒng)計(jì)可實(shí)現(xiàn)自動(dòng)化;缺點(diǎn)是如果被測系統(tǒng)自帶視頻圖像采集前端,由于數(shù)據(jù)集測試中將已采集好的數(shù)據(jù)直接輸入給被測系統(tǒng)的分析處理模塊,該系統(tǒng)的圖像采集能力無法在測試指標(biāo)中體現(xiàn)。實(shí)際測試過程中,將根據(jù)用戶需求兩種方式結(jié)合進(jìn)行。
對視頻分析系統(tǒng)進(jìn)行評價(jià)應(yīng)從功能和性能兩個(gè)方面分別進(jìn)行。功能評價(jià)相對容易,一般按照廠家產(chǎn)品說明書進(jìn)行一一驗(yàn)證即可。評價(jià)的難度和產(chǎn)品的優(yōu)劣主要決定于其性能,性能評價(jià)包括視頻分析系統(tǒng)整體性能評價(jià)以及視頻分析性能評價(jià)。其中,系統(tǒng)性能應(yīng)按響應(yīng)時(shí)間、穩(wěn)定性、兼容性等多項(xiàng)指標(biāo)進(jìn)行評價(jià)。視頻分析性能的評價(jià)方法可主要?dú)w納為以下五種:
1. 目標(biāo)檢測及特征提取類
包括運(yùn)動(dòng)目標(biāo)檢測、行人檢測、人臉檢測、車輛檢測、目標(biāo)分類、目標(biāo)顏色檢測等視頻分析性能評價(jià)。
按照關(guān)注層面不同,此類視頻分析的性能評價(jià)由細(xì)到粗可分為像素、目標(biāo)、目標(biāo)活動(dòng)周期(指目標(biāo)在畫面中從出現(xiàn)到消失的過程)三個(gè)層次。像素級別的指標(biāo)主要反映算法分割物體的性能,但不能反映分割時(shí)發(fā)生的物體分裂、合并等情況;目標(biāo)級別的指標(biāo)可以反映算法的分割準(zhǔn)確度,但不能反映算法分割的精確程度;目標(biāo)活動(dòng)周期級別評價(jià)的優(yōu)點(diǎn)在于指標(biāo)統(tǒng)計(jì)方便,且與實(shí)際應(yīng)用更一致。因此本文推薦采用目標(biāo)活動(dòng)周期級別的評價(jià)。
系統(tǒng)輸出結(jié)果后,以目標(biāo)活動(dòng)周期為單位與基準(zhǔn)數(shù)據(jù)進(jìn)行比較,統(tǒng)計(jì)并計(jì)算檢測率、誤檢率、準(zhǔn)確率等指標(biāo),進(jìn)行性能評價(jià)。
2. 目標(biāo)識別類
(1)人臉識別
人臉識別根據(jù)應(yīng)用模式的不同,可分為人臉證件照核驗(yàn),人臉檢索,人臉布控等,性能評價(jià)指標(biāo)如表1所示。
?
(2)人像識別
對行人的性別、年齡、體型、衣物特征、附屬物等屬性進(jìn)行識別。需使用識別準(zhǔn)確度、識別精度、召回率等指標(biāo)進(jìn)行性能評價(jià)。
(3)車輛識別
包括車輛號牌識別、車輛基本特征識別、車輛個(gè)體特征識別等分析功能。性能評價(jià)指標(biāo)如表2所示。
?
3. 事件檢測類
包括徘徊檢測、絆線檢測、逆行檢測、遺留物檢測、物體移除檢測、入侵檢測等。對事件檢測算法性能進(jìn)行評價(jià)時(shí),主要使用兩方面的指標(biāo)。一方面,使用檢測率、誤檢率指標(biāo)來衡量系統(tǒng)對實(shí)際場景中事件的識別率及識別的準(zhǔn)確程度;另一方面,使用延時(shí)指標(biāo)(系統(tǒng)輸出事件與基準(zhǔn)數(shù)據(jù)中對應(yīng)事件開始時(shí)刻的時(shí)間差)衡量算法識別事件的速度。
4. 數(shù)量統(tǒng)計(jì)類
包括流量統(tǒng)計(jì)和密度檢測等。進(jìn)行性能評價(jià)時(shí),主要需要比較場景中實(shí)際目標(biāo)數(shù)或密度與系統(tǒng)輸出目標(biāo)數(shù)或密度之間的差別。使用絕對平均誤差MAE和相對平均誤差MRE兩個(gè)指標(biāo)來進(jìn)行性能評價(jià)。
5. 目標(biāo)檢索類
包括以圖搜圖功能。需使用檢出率、誤檢率、檢索速度、前N命中率等指標(biāo)對系統(tǒng)性能進(jìn)行評價(jià)。
一個(gè)有代表性的數(shù)據(jù)集對于視頻分析系統(tǒng)進(jìn)行全面而公正的科學(xué)測評是至關(guān)重要的。隨著大數(shù)據(jù)時(shí)代的到來,訓(xùn)練與測試數(shù)據(jù)集的重要性與日懼增。測試數(shù)據(jù)集構(gòu)建至少包含兩部分重要工作,一是數(shù)據(jù)采集,二是數(shù)據(jù)標(biāo)注。
視頻分析技術(shù)在應(yīng)用上存在一定的局限性,特定的視頻處理算法僅適用于有限的場景和應(yīng)用。測評過程中,必須針對視頻分析系統(tǒng)的不同功能,選擇多個(gè)特定場景的視頻序列進(jìn)行性能評價(jià)。因此需要在調(diào)研視頻分析產(chǎn)品的功能、應(yīng)用場景及算法原理的基礎(chǔ)上,對海量的監(jiān)控視頻序列進(jìn)行篩選,建立一個(gè)涵蓋廣、實(shí)效性強(qiáng)的測試數(shù)據(jù)集。數(shù)據(jù)采集時(shí),至少應(yīng)考慮表3中所示的因素。
?
數(shù)據(jù)標(biāo)注是產(chǎn)生視頻分析測評基準(zhǔn)數(shù)據(jù)的關(guān)鍵途徑,是實(shí)現(xiàn)自動(dòng)化測評的前提。國外專門從事視頻監(jiān)控性能測評研究的項(xiàng)目或組織,如ETISEO、PETS等,對視頻標(biāo)注都有過一些研究,但其標(biāo)注規(guī)范主要針對視頻分析算法的測評。因此需針對視頻分析系統(tǒng)不同功能在公共安全領(lǐng)域的應(yīng)用特點(diǎn),分類建立視頻測試序列庫,并對標(biāo)注進(jìn)行重新設(shè)計(jì)和規(guī)范。不同功能對應(yīng)的標(biāo)注特征如表4所示。
?
測評系統(tǒng)是視頻分析測評體系中的最重要環(huán)節(jié),通過測評系統(tǒng)實(shí)現(xiàn)對測試數(shù)據(jù)的管理、標(biāo)注以及對視頻分析系統(tǒng)的性能測評。測評系統(tǒng)主要由三個(gè)模塊組成,一是數(shù)據(jù)管理模塊,二是標(biāo)注模塊,三是性能比對模塊。
如圖2所示,用于對視頻、圖片以及對應(yīng)的基準(zhǔn)數(shù)據(jù)進(jìn)行管理。該模塊實(shí)現(xiàn)以下主要功能:
1. 視頻樣本入庫以及視頻樣本屬性描述、修改和信息瀏覽,需要描述的屬性信息包括:總體描述、采集環(huán)境、視頻特征、場景特征、基準(zhǔn)文件等;
2. 圖片樣本入庫以及圖片樣本屬性描述、修改和信息瀏覽,需要描述的屬性信息包括:總體描述、采集環(huán)境、場景特征、基準(zhǔn)文件等;
3. 視頻樣本和圖片樣本的按條件查詢等;
4. 視頻樣本和圖片樣本的批量出庫及規(guī)范化編號、出庫次數(shù)統(tǒng)計(jì)等。
用于對測試視頻及圖片進(jìn)行人工標(biāo)注以生成基準(zhǔn)數(shù)據(jù),如圖3所示。標(biāo)注內(nèi)容至少應(yīng)包括目標(biāo)信息、事件信息、流量信息、密度信息等。標(biāo)注完成后,通過數(shù)據(jù)管理模塊將基準(zhǔn)數(shù)據(jù)文件和視頻圖片數(shù)據(jù)進(jìn)行關(guān)聯(lián)管理。標(biāo)注模塊實(shí)現(xiàn)以下主要功能:
1. 視頻連續(xù)、逐幀、跳幀播放和視頻剪輯;
2. 各種視頻分析功能的基準(zhǔn)數(shù)據(jù)標(biāo)注;
3. 基準(zhǔn)數(shù)據(jù)的生成、保存和輸出等。
實(shí)現(xiàn)視頻分析系統(tǒng)輸出結(jié)果和對應(yīng)的基準(zhǔn)數(shù)據(jù)之間的對比,通過設(shè)定的匹配原則,統(tǒng)計(jì)并計(jì)算各種性能評價(jià)指標(biāo),如圖4所示。主要實(shí)現(xiàn)以下功能:
1. 比對基準(zhǔn)數(shù)據(jù)和視頻分析系統(tǒng)的分析結(jié)果,統(tǒng)計(jì)計(jì)算系統(tǒng)各項(xiàng)性能指標(biāo),以圖表形式輸出測評結(jié)果,完成產(chǎn)品的性能測評;
2. 管理視頻分析系統(tǒng)歸屬廠商的信息,包括:新建、修改和刪除;
3. 顯示視頻分析系統(tǒng)的測評歷史,包括:歷史列表、測評結(jié)果摘要、測評結(jié)果明細(xì)等。
基于在視頻分析測評領(lǐng)域的長期研究成果和實(shí)戰(zhàn)數(shù)據(jù)集,視頻圖像信息智能分析與共享應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室先后受公安部多個(gè)業(yè)務(wù)局、多地公安機(jī)關(guān)邀請,組織了多次面向公共安全實(shí)戰(zhàn)應(yīng)用的視頻分析測評,被測單位包括國內(nèi)外視頻分析領(lǐng)域的幾十家知名企業(yè)和科研機(jī)構(gòu)。通過這些測評實(shí)踐,我們對視頻分析系統(tǒng)的實(shí)戰(zhàn)應(yīng)用能力進(jìn)行了量化評價(jià),為視頻分析系統(tǒng)的建設(shè)和應(yīng)用提供了有價(jià)值的指導(dǎo)依據(jù),有效幫助被測系統(tǒng)快速定位問題和不足,并找到優(yōu)化改進(jìn)的技術(shù)途徑。
視頻分析的測評目前仍然是國際難題,隨著技術(shù)的快速發(fā)展和業(yè)務(wù)應(yīng)用的持續(xù)創(chuàng)新,如何面向建立適應(yīng)新技術(shù)和新應(yīng)用的評價(jià)方法,如何構(gòu)建全面反映公共安全視頻分析應(yīng)用復(fù)雜場景的海量數(shù)據(jù)集,如何建設(shè)高并發(fā)、廣兼容、自動(dòng)化的測評系統(tǒng),仍然存在許多技術(shù)問題需要深入研究和探索解決。視頻圖像信息智能分析與共享應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室將依托承接的國家“十三五”重點(diǎn)研究計(jì)劃和公安部重點(diǎn)研究計(jì)劃中的測評相關(guān)課題,整合自身和行業(yè)資源,深入開展視頻分析測評的研究和應(yīng)用,以推動(dòng)視頻分析技術(shù)在公共安全視頻領(lǐng)域的深度應(yīng)用。
[1] 黃凱奇,陳曉棠,康運(yùn)鋒,譚鐵牛. 智能視頻監(jiān)控技術(shù)綜述. 計(jì)算機(jī)學(xué)報(bào), Vol.38(6),pp:1093-1118,2015.
[2] Manohar V, Boonstra M, Korzhova V, et al. PETS vs. VACE Evaluation Programs: a Comparative Study[C]. Proceedings of the Ninth IEEE International Workshop on Performance Evaluation of Tracking and Surveillance, New York, 2006: 1-6.
[3] Nghiem A T, Bremond F, Thonnat M, et al. ETISEO, Performance Evaluation for Video Surveillance systems[C]. Proceedings of the IEEE Conference on Advanced Video and Signal Based Surveillance, London,2007: 476-481.
[4] SUBITO: https://cordis.europa.eu/project/rcn/89391_en.html.
[5] Patino, L., Nawaz, T., Cane, T. and Ferryman, J. PETS 2017: Dataset and Challenge. In: IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 26 July 2017, Honolulu, HI,USA.
[6] Deng J, Dong W, Socher R, Li J J, Li K, Li F F. ImageNet: a Large-scale Hierarchical Image Database[C]. In: Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami, FL, USA: IEEE, 2009. 248-255.
[7] Everingham M, Van Gool L, Williams C K I, Winn J, Zisserman A.The PASCAL Visual Object Classes (VOC) Challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[8] Smeaton A F, Over P, Kraaij W. Evaluation Campaigns and TRECVid[C]. In: Proceedings of the 8th ACM International Workshop on Multi Media Information Retrieval. SantaBar-bara, CA,USA: ACM, 2006. 321-330.
[9] Wu Y, Lim J, Yang M H. Online Object Tracking: a Benchmark[C].In: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, OR, USA: IEEE, 2013. 2411-2418.