楊寶生
(1.宿州市工業(yè)投資集團(tuán)有限公司,安徽 宿州 234000;2.宿州市政府,安徽 宿州 234000)
近年來(lái),隨著計(jì)算機(jī)科學(xué)與技術(shù)的快速發(fā)展,視頻監(jiān)控依托計(jì)算機(jī)技術(shù)的進(jìn)步也得到了廣泛的應(yīng)用,而智能視頻分析技術(shù)、智能音頻分析技術(shù)、專家系統(tǒng)、傳感器融合技術(shù)等人工智能技術(shù)也為視頻監(jiān)控帶來(lái)了新的發(fā)展的機(jī)遇。“高清”、“超清”以及全景視頻監(jiān)控日漸成為市場(chǎng)及現(xiàn)實(shí)應(yīng)用關(guān)注的焦點(diǎn),即在同一個(gè)場(chǎng)景中視野更廣并且能看到盡可能多的實(shí)體[1-3],上述需求需要應(yīng)用能360度全向視頻采集的全景攝像機(jī)及其對(duì)應(yīng)的全景監(jiān)控方案方能解決,如此與全景視頻監(jiān)控解決方案相關(guān)的研究就應(yīng)運(yùn)而生了[3-4]。
全景視頻不僅可以全方位的實(shí)時(shí)記錄某時(shí)某地的現(xiàn)場(chǎng)情況,而且可以實(shí)時(shí)將某個(gè)地方的實(shí)景用三維立體的方式表現(xiàn)出來(lái),讓觀察者能夠沉浸其中,這事是目前比較常見的VR解決方案。但是,全景視域下用戶可以環(huán)顧周圍環(huán)境,卻無(wú)法與場(chǎng)景進(jìn)行交互,不能做到像真實(shí)生活中的經(jīng)驗(yàn)?zāi)菢?,真正觸摸或改變視頻中的任何東西,即無(wú)法做到與視頻場(chǎng)景進(jìn)行實(shí)時(shí)交互。360°全景視頻采集是一種新型的拍攝和呈現(xiàn)技術(shù)。針對(duì)大多數(shù)人而言,360°全景視頻的體驗(yàn)卻是人們VR體驗(yàn)的第一次嘗試。根據(jù)目前的發(fā)展趨勢(shì)及未來(lái)對(duì)全景對(duì)視頻采集、監(jiān)控的現(xiàn)實(shí)需求而言,全景視頻的數(shù)量將會(huì)呈現(xiàn)爆炸式成長(zhǎng)[5-9]。
全景視頻已經(jīng)成為當(dāng)今視頻采集、播放以及分析的新潮流,越來(lái)越多的視頻網(wǎng)站支持全景視頻播放,自從GOPRO流行起來(lái)之后,利用多個(gè)GOPRO鏡頭拼接起來(lái)拍攝360度無(wú)死角的全景視頻成為全景視頻領(lǐng)域的新寵,F(xiàn)acebook天價(jià)收購(gòu)虛擬現(xiàn)實(shí)VR創(chuàng)業(yè)公司Oculus VR之后,VR全景視頻開始成為當(dāng)紅花旦,社交領(lǐng)域也越發(fā)紅火。從技術(shù)角度而言,全景相機(jī)的對(duì)焦都是無(wú)限遠(yuǎn),而且無(wú)論有沒有將鏡頭對(duì)準(zhǔn)被攝物體,最終成像都會(huì)包含這個(gè)被攝物,如果想要查看拍攝點(diǎn)的拍攝效果,通過(guò)短距離無(wú)線通信技術(shù)連接得到匹配的手機(jī)APP直接預(yù)覽畫面就可以。值得注意的是,距離拍攝物體最好1米以上,否則全景拍攝的“魚眼”效果很明顯,不利于觀看與分析[10-14]。
目前,學(xué)術(shù)界與產(chǎn)業(yè)界對(duì)能360度全向攝影的全景攝像機(jī)并沒有明確的量化定義。一般而言,能夠?qū)δ骋惶囟ūO(jiān)控區(qū)域獨(dú)立的無(wú)死角全向監(jiān)控的攝像機(jī)都被稱為全景式攝像機(jī),例如目前被廣泛應(yīng)用的海康威視魚眼攝像機(jī)。與傳統(tǒng)攝像機(jī)不同的是,為了實(shí)現(xiàn)良好的拍攝效果,全景攝像機(jī)一般安裝在監(jiān)控區(qū)域的上方,實(shí)現(xiàn)對(duì)監(jiān)控區(qū)域的“鳥瞰”,例如可以會(huì)議室的天花板上安裝一臺(tái)向下 “俯視”的魚眼攝像機(jī),從而實(shí)現(xiàn)拍攝會(huì)議室全景的效果,如圖1與圖2所示,諸如此類實(shí)現(xiàn)360度全向無(wú)死角拍攝的攝像機(jī)被稱之為全景攝像機(jī)[5,6]。
圖1 360度全景攝像機(jī)鳥瞰拍攝效果
圖2 360度全景攝像機(jī)側(cè)視拍攝效果
目前,全景攝像機(jī)主要應(yīng)用于視野開闊的監(jiān)控場(chǎng)景,比如各種道路交叉口、商場(chǎng)超市、政務(wù)及銀行大廳、車站碼頭等人員密集場(chǎng)所,上述人員密集場(chǎng)所所要監(jiān)控的視域?qū)挾韧_(dá)到成百上千米,結(jié)合深度學(xué)習(xí)與人工智能技術(shù),需要從監(jiān)控視頻中看清人臉、車輛牌照等細(xì)節(jié),全景攝像機(jī)在這些場(chǎng)合得到大量的應(yīng)用[5-7]。
Reality Lab Networks公司研發(fā)了一站式全景視頻采集、存儲(chǔ)、播放與分析工作平臺(tái),以簡(jiǎn)化360°全景視頻的制作流程。這個(gè)名為L(zhǎng)ive Planet的攝像頭工作站,包括一個(gè)全景攝像頭、云存儲(chǔ)平臺(tái)和相配套的視頻處理與分析套件。其中,攝像頭可以實(shí)時(shí)地對(duì)視頻片段進(jìn)行全景記錄與編碼。之后,所有4K的全景視頻片段將被傳送到云平臺(tái),這個(gè)云平臺(tái)能夠自動(dòng)地根據(jù)不同的VR以及全景播放設(shè)備與平臺(tái)進(jìn)行轉(zhuǎn)碼,可支持設(shè)備包括 Oculus,HTC Vive,Google Cardboard,Gear VR,Facebook 360 與 Youtube 360,等等[5-9]。
目前,在全景視頻與虛擬現(xiàn)實(shí)領(lǐng)域,最著名的Magic Leap公司是最受投資者青睞的公司之一,該公司的4D光場(chǎng)顯示技術(shù)的主要特點(diǎn)在于可以為用戶呈現(xiàn)出不同深度的監(jiān)控視頻,讓觀眾從每個(gè)角度看到的東西都不一樣,提供很真實(shí)的視場(chǎng)體驗(yàn),并且有望解決觀看眩暈的缺點(diǎn)[15-17]。
本文提出的全景視頻監(jiān)控系統(tǒng)框架如圖3所示,主體為中央處理單元,其對(duì)應(yīng)的各組件功能描述如下:
圖3 全景視頻監(jiān)控系統(tǒng)框架
(一)視頻采集組件:360度采集系統(tǒng)所要監(jiān)控的區(qū)域視頻,并將采集到的視頻傳送到視頻防抖與去噪組件;360度視頻采集主要分為三種方式:(1)實(shí)拍獲?。翰捎靡惑w式全景攝像機(jī)或者多相機(jī)組合方案,采集的方式是各個(gè)相機(jī)同時(shí)拍攝同一區(qū)域內(nèi)不同角度的視頻,后期通過(guò)專業(yè)軟件輸出,或者通過(guò)專業(yè)的視頻拼接軟件進(jìn)行同步、拼接、調(diào)整、輸出;(2)CG制作:使用諸如3Dmax等三維創(chuàng)作軟件進(jìn)行模型搭建、貼圖處理、動(dòng)畫制作,攝像機(jī)添加等工作,最后借由計(jì)算機(jī)渲染而成;(3)實(shí)拍結(jié)合CG制作:在專業(yè)攝影棚拍攝主體影像,包括人物,道具以及相關(guān)動(dòng)作,后期加入CG制作的背景和環(huán)境、或者CG制作的其它元素和實(shí)拍影像進(jìn)行融合,達(dá)到真實(shí)的全景效果。
(二)視頻抖動(dòng)與噪音抑制組件:視頻采集過(guò)程中由于受設(shè)備本身與工作環(huán)境的影響,不可避免的會(huì)出現(xiàn)視頻抖動(dòng)與噪音,需要視頻采集過(guò)程中出現(xiàn)的抖動(dòng)與噪音進(jìn)行最大程度的補(bǔ)償與抑制,并且對(duì)視頻中的噪音利用降噪編碼器技術(shù)進(jìn)行降噪。
(三)視頻合成與切分:將全景攝像機(jī)采集到不同方向的視頻進(jìn)行無(wú)縫拼接從而生成全景視頻,并傳輸?shù)斤@示終端;對(duì)于需要視頻分別顯示的應(yīng)用場(chǎng)景,把相應(yīng)的視頻按照要求進(jìn)行拆分,顯示到不同的展示終端;視頻合成與分割是一個(gè)簡(jiǎn)單易用的視頻轉(zhuǎn)換、合并與分割的功能,本文采用全新的國(guó)際一流的編解碼技術(shù),具有轉(zhuǎn)換(支持單個(gè)與多個(gè)文件的同時(shí)處理)、合并與分割視頻質(zhì)量高、速度快的特點(diǎn),支持批量分割,是全景視頻處理常用必備的視頻處理功能。視頻合并與分割更是一款功能強(qiáng)大的全能視頻格式處理組件,該組件支持 RMVB、ASF、AVI、WMV、MPG、MPEG、GIF、MJPEG、MP4、MKV、MXF 等主流視頻格式。
(四)視頻投影與映射:將(3)中生成的全景視頻以及不同方向的視頻,根據(jù)實(shí)際需要進(jìn)行投影或映射,輸出到不同的展示終端,同時(shí)接受并處理相應(yīng)的人機(jī)交互指令。
(五)目標(biāo)檢測(cè)組件:對(duì)視頻中的目標(biāo)物體進(jìn)行智能檢測(cè),比如人臉識(shí)別、車牌識(shí)別、移動(dòng)軌跡追蹤,綜合運(yùn)用檢測(cè)到的各種信息統(tǒng)一進(jìn)行智能研判。同時(shí),可以結(jié)合目前主流的深度學(xué)習(xí)技術(shù)提升全景視頻中目標(biāo)檢測(cè)的精度,在深度學(xué)習(xí)框架中,無(wú)需人工設(shè)計(jì)檢測(cè)目標(biāo)的特征,深度學(xué)習(xí)良好的特征表達(dá)能力及優(yōu)良的檢測(cè)精度,能很好的拓展深度學(xué)習(xí)技術(shù)在全景視頻分析領(lǐng)域的應(yīng)用。目前,基于深度學(xué)習(xí)與大數(shù)據(jù)技術(shù)融合的目標(biāo)檢測(cè)算法已經(jīng)在檢測(cè)精度方面超越傳統(tǒng)的目標(biāo)檢測(cè)方法,成為當(dāng)前視頻目標(biāo)檢測(cè)算法的主流。
文章提出的全景視頻監(jiān)控方案主要適用于安防監(jiān)控、智慧城市管理、智能交通、消防、智慧平安校園等各種具有地理信息、可視化管理以及實(shí)時(shí)監(jiān)控需求的行業(yè)。并且有著非常廣闊的應(yīng)用場(chǎng)景,可應(yīng)用于人員密集場(chǎng)所的管控,物流區(qū)域調(diào)度、重要道路關(guān)口、人口密集區(qū)、水庫(kù)油料敏感場(chǎng)所、車站碼頭以及政府部門和水電油氣、金融等要害部位的安全風(fēng)險(xiǎn)防控,為管理部門提供實(shí)時(shí)的現(xiàn)場(chǎng)信息,提高管理部門應(yīng)對(duì)突發(fā)事件的處置能力。圖4展示的即為敏感道路卡口的全景監(jiān)控畫面,實(shí)現(xiàn)各個(gè)方向畫面的無(wú)縫對(duì)接,比傳統(tǒng)的視頻監(jiān)控具有更廣的視野。
同時(shí),全景監(jiān)控方案目前應(yīng)用比較廣的是智能車載系統(tǒng)中的全景倒車影像,通過(guò)車載顯示屏幕觀看汽車四周360度全景,加上超寬視角,無(wú)縫顯示車輛的圖像信息,讓駕駛員能更好的了解車輛周邊視線盲區(qū),幫助完成倒車入位等。
融合目前在各個(gè)領(lǐng)域成功應(yīng)用的深度學(xué)習(xí)技術(shù),本文提出的全景視域下的視頻監(jiān)控方案可以在如下兩個(gè)方面開展應(yīng)用與研究:
圖4 道路卡口全景視頻畫面
圖5 360全景倒車影像
(一)基于深度學(xué)習(xí)技術(shù)的人臉識(shí)別:傳統(tǒng)的人臉檢測(cè)與識(shí)別主要是針對(duì)有限視域下的視頻信息進(jìn)行的,本文提出的全景視域下的視頻監(jiān)控及分析框架不僅彌補(bǔ)了傳統(tǒng)視頻監(jiān)控視域有限的不足,而且對(duì)傳統(tǒng)的視頻分析模型提出了新的挑戰(zhàn)。針對(duì)上述問(wèn)題,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)ResNet的人臉識(shí)別分析模型,通過(guò)對(duì)ArcFace人臉識(shí)別算法以及人臉識(shí)別損失函數(shù)Additive Angular Margin Loss進(jìn)行完善與調(diào)優(yōu),實(shí)現(xiàn)對(duì)不同姿勢(shì)、復(fù)雜光照、不同表情以及存在遮擋的人臉進(jìn)行穩(wěn)定的識(shí)別,改善人臉檢測(cè)技術(shù)在實(shí)用中的泛化能力。該項(xiàng)技術(shù)可以被應(yīng)用智慧交通中的行人穿紅燈識(shí)別,違章駕駛中的駕駛員信息識(shí)別等等。
(二)基于深度學(xué)習(xí)的異常行為檢測(cè):金融以及金融活動(dòng)場(chǎng)所的安全作為智慧城市建設(shè)的重中之重,目前面臨著諸如尾隨取款、現(xiàn)場(chǎng)搶劫、異常倒地、遺留物品、攜帶武器、破壞ATM機(jī)等異常行為。本文提出的全景視域下的視頻監(jiān)控方案,可以在上述金融或其它公共場(chǎng)合布設(shè)全景監(jiān)控設(shè)備,獲取實(shí)時(shí)全景視頻信息,采用基于稀疏自編碼的特征融合的深度學(xué)習(xí)框架,對(duì)人員的活動(dòng)特征 (多尺度光流直方圖)以及表觀特征進(jìn)行融合分析,并建立視頻語(yǔ)義分析模型,提取視頻語(yǔ)義信息,包括全局語(yǔ)義、局部語(yǔ)義以及高層特征的融合,利用卷積神經(jīng)網(wǎng)絡(luò)中的2D卷積與3D卷積,解決深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過(guò)程中出現(xiàn)的“梯度彌散”問(wèn)題。該項(xiàng)技術(shù)可以實(shí)現(xiàn)對(duì)智慧城市重點(diǎn)建設(shè)的自助銀行、無(wú)人超市、車站等公共場(chǎng)所人員的異常行為進(jìn)行實(shí)時(shí)監(jiān)測(cè),做到及時(shí)發(fā)現(xiàn)并及時(shí)處理,提升安全保障。
隨著人工智能技術(shù)的發(fā)展,以及移動(dòng)支付、智能金融、智慧安防等場(chǎng)景的延伸,以全景視頻為核心的監(jiān)控系統(tǒng)越來(lái)越獲得市場(chǎng)的更大青睞。在人工智能、深度學(xué)習(xí)、大數(shù)據(jù)技術(shù)的推動(dòng)下,視頻監(jiān)控技術(shù)創(chuàng)新不斷,本文順應(yīng)技術(shù)潮流,提出全景視域下的視頻監(jiān)控與分析方案,并結(jié)合當(dāng)今先進(jìn)的、且在其他領(lǐng)域得到廣泛應(yīng)用的深度學(xué)習(xí)技術(shù),對(duì)基于深度學(xué)習(xí)技術(shù)的人臉識(shí)別與異常行為檢測(cè)的應(yīng)用進(jìn)行了探究,具有技術(shù)可行性,能很好的應(yīng)用到實(shí)際生產(chǎn)中,并產(chǎn)生良好的經(jīng)濟(jì)效益。
本文提出的全景視域下的視頻監(jiān)控及分析框架進(jìn)具有理論與技術(shù)實(shí)現(xiàn)可行性,框架中的中央處理單元包括視頻采集組件、視頻抖動(dòng)與噪音抑制、視頻合成與切分以及投影與映射組件。本文提出的全景視頻監(jiān)控方案實(shí)現(xiàn)了多角度、全方位無(wú)死角的視頻采集與處理,解決了傳統(tǒng)視頻監(jiān)控需要在同一個(gè)區(qū)域部署多個(gè)單目視頻采集設(shè)備、需要大量人力物力并且增加后期視頻處理難度等問(wèn)題。綜合當(dāng)前學(xué)術(shù)界與產(chǎn)業(yè)界的需求,本文提出的全景視頻監(jiān)控與分析框架具有現(xiàn)實(shí)應(yīng)用價(jià)值。未來(lái)可以進(jìn)一步融合大數(shù)據(jù)與深度學(xué)習(xí)技術(shù),不僅可以拓寬全景視頻分析的研究視角,而且可以更好地實(shí)大數(shù)據(jù)與深度學(xué)習(xí)的應(yīng)用前景。