王坤峰 茍 超,2 王飛躍,3
平行視覺:基于ACP的智能視覺計(jì)算方法
王坤峰1茍 超1,2王飛躍1,3
在視覺計(jì)算研究中,對(duì)復(fù)雜環(huán)境的適應(yīng)能力通常決定了算法能否實(shí)際應(yīng)用,已經(jīng)成為該領(lǐng)域的研究焦點(diǎn)之一.由人工社會(huì)(Artificial societies)、計(jì)算實(shí)驗(yàn)(Computational experiments)、平行執(zhí)行(Parallel execution)構(gòu)成的ACP理論在復(fù)雜系統(tǒng)建模與調(diào)控中發(fā)揮著重要作用.本文將ACP理論引入智能視覺計(jì)算領(lǐng)域,提出平行視覺的基本框架與關(guān)鍵技術(shù).平行視覺利用人工場(chǎng)景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場(chǎng)景,通過計(jì)算實(shí)驗(yàn)進(jìn)行各種視覺模型的訓(xùn)練與評(píng)估,最后借助平行執(zhí)行來在線優(yōu)化視覺系統(tǒng),實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境的智能感知與理解.這一虛實(shí)互動(dòng)的視覺計(jì)算方法結(jié)合了計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)、機(jī)器學(xué)習(xí)、知識(shí)自動(dòng)化等技術(shù),是視覺系統(tǒng)走向應(yīng)用的有效途徑和自然選擇.
平行視覺,復(fù)雜環(huán)境,ACP理論,數(shù)據(jù)驅(qū)動(dòng),虛實(shí)互動(dòng)
引用格式王坤峰,茍超,王飛躍.平行視覺:基于ACP的智能視覺計(jì)算方法.自動(dòng)化學(xué)報(bào),2016,42(10):1490-1500
何謂平行視覺?為什么要研究發(fā)展平行視覺?
平行視覺是復(fù)雜系統(tǒng)建模與調(diào)控的ACP(Artificial societies,computational experiments,and parallel execution)理論[1-3]在視覺計(jì)算領(lǐng)域的推廣應(yīng)用.其核心是利用人工場(chǎng)景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場(chǎng)景,通過計(jì)算實(shí)驗(yàn)進(jìn)行各種視覺模型的訓(xùn)練與評(píng)估,最后借助虛實(shí)互動(dòng)的平行執(zhí)行來在線優(yōu)化視覺模型,實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境的智能感知與理解.這一虛實(shí)互動(dòng)的視覺計(jì)算方法結(jié)合了計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)、機(jī)器學(xué)習(xí)、知識(shí)自動(dòng)化等技術(shù),是視覺系統(tǒng)走向應(yīng)用的有效途徑和自然選擇.
在智能視覺計(jì)算研究中,一個(gè)受到廣泛關(guān)注的問題是算法在復(fù)雜環(huán)境下的有效性[4-8],它直接決定了算法能否實(shí)際應(yīng)用.以交通環(huán)境為例,雨雪霧等惡劣天氣、強(qiáng)陰影、夜間低照度等因素經(jīng)常導(dǎo)致圖像細(xì)節(jié)模糊,目標(biāo)具有各種類型、外觀和運(yùn)動(dòng)特征,并且目標(biāo)之間可能存在遮擋,又進(jìn)一步增加了視覺算法的設(shè)計(jì)難度.許多視覺算法沒有經(jīng)過充分測(cè)試,盡管在簡(jiǎn)單的受約束環(huán)境下有效,但是在實(shí)際應(yīng)用時(shí)面對(duì)復(fù)雜的開放環(huán)境,算法很容易失?。?-8].
在深度學(xué)習(xí)熱潮之前,傳統(tǒng)視覺計(jì)算方法的基本思路是手動(dòng)設(shè)計(jì)圖像特征(例如Harr小波、SIFT(Scale invariant feature transform)、HOG(Histogram of oriented gradient)、LBP(Local binary pattern)等),然后利用標(biāo)記數(shù)據(jù)集訓(xùn)練模式分類器(例如SVM(Support vector machine)、Adaboost、隨機(jī)森林等),取得了較好的實(shí)驗(yàn)效果(例如DPM(Deformable parts model)目標(biāo)檢測(cè)器[9]).然而由于模型限制,這類方法通常依賴于小規(guī)模的標(biāo)記數(shù)據(jù)集(例如INRIA Person[10]、Caltech Pedestrian[11]、KITTI[12]等數(shù)據(jù)集),樣本數(shù)大致在幾千到幾十萬之間,難以覆蓋復(fù)雜環(huán)境對(duì)應(yīng)的特征空間.近年流行的深度學(xué)習(xí)方法[13-16]具有強(qiáng)大的特征表達(dá)能力,能夠利用標(biāo)記數(shù)據(jù)集通過端到端訓(xùn)練(Endto-end training)得到分層特征描述,在圖像分類、目標(biāo)檢測(cè)等競(jìng)賽中顯著優(yōu)于傳統(tǒng)方法,并且性能仍在持續(xù)提升.深度學(xué)習(xí)依賴于大規(guī)模標(biāo)記數(shù)據(jù)集(例如ImageNet[17]、PASCAL VOC[18]、MS COCO[19]等),樣本數(shù)通常在百萬級(jí)以上,能夠覆蓋更大的特征空間.
由于實(shí)際環(huán)境的復(fù)雜性,為了建立有效的視覺模型,不但要求標(biāo)記數(shù)據(jù)集規(guī)模足夠大,還要求具有足夠的多樣性(Diversity).ImageNet等數(shù)據(jù)集盡管規(guī)模龐大,卻并不滿足多樣性要求,不能覆蓋復(fù)雜挑戰(zhàn)的實(shí)際環(huán)境.這一狀況來自兩方面原因.1)在復(fù)雜環(huán)境下采集大規(guī)模多樣性數(shù)據(jù)集需要耗費(fèi)大量人力,目前ImageNet[17]主要從Internet上搜集圖像,但是網(wǎng)絡(luò)空間與物理空間并不等價(jià)[20].2)對(duì)大規(guī)模多樣性數(shù)據(jù)集進(jìn)行標(biāo)注需要耗費(fèi)大量人力并且容易出錯(cuò),尤其在惡劣天氣、夜間低照度等環(huán)境下,由于圖像細(xì)節(jié)模糊,由人眼觀察標(biāo)注圖像中的目標(biāo)位置、姿態(tài)、運(yùn)動(dòng)軌跡都很困難.標(biāo)記數(shù)據(jù)集的不足,降低了視覺模型的泛化能力,無法保證實(shí)際應(yīng)用時(shí)的有效性.
為了解決大規(guī)模多樣性數(shù)據(jù)集的采集和標(biāo)注困難,一種可選方案是建立人工場(chǎng)景,模擬和替代復(fù)雜挑戰(zhàn)的實(shí)際場(chǎng)景,生成人工場(chǎng)景數(shù)據(jù)集.近年來隨著游戲引擎[21-22]、虛擬現(xiàn)實(shí)[23-25]等技術(shù)的發(fā)展,使構(gòu)建色彩逼真的人工場(chǎng)景成為可能.利用人工場(chǎng)景,可以模擬實(shí)際場(chǎng)景中的各種要素,包括光照時(shí)段(白天、夜間、黎明、黃昏)、天氣(晴、多云、雨、雪、霧等)、目標(biāo)類型(行人、車輛、道路、建筑物、植物等)和子類等.并且可以靈活地設(shè)計(jì)各種場(chǎng)景類型、目標(biāo)外觀、目標(biāo)行為、攝像機(jī)配置等.由此可以生成大規(guī)模多樣性的視頻圖像數(shù)據(jù)集,并且可以自動(dòng)得到精確的標(biāo)注信息,包括目標(biāo)位置、運(yùn)動(dòng)軌跡、語義分割、深度、光流等.
平行視覺建立在實(shí)際場(chǎng)景與人工場(chǎng)景之上,是一種虛實(shí)互動(dòng)的智能視覺計(jì)算方法.它借鑒了復(fù)雜系統(tǒng)建模與調(diào)控的ACP理論[1-3],即人工社會(huì)(Artificial societies)、計(jì)算實(shí)驗(yàn)(Computational experiments)和平行執(zhí)行(Parallel execution).通過構(gòu)建色彩逼真的人工場(chǎng)景,模擬實(shí)際場(chǎng)景中可能出現(xiàn)的環(huán)境條件,并且自動(dòng)得到精確的標(biāo)注信息.結(jié)合大規(guī)模的人工場(chǎng)景數(shù)據(jù)集和適當(dāng)規(guī)模的實(shí)際場(chǎng)景數(shù)據(jù)集,能夠訓(xùn)練出更有效的機(jī)器學(xué)習(xí)和視覺計(jì)算模型.利用人工場(chǎng)景,能夠進(jìn)行各種計(jì)算實(shí)驗(yàn),全面評(píng)價(jià)視覺算法在復(fù)雜環(huán)境下的有效性,或者優(yōu)化設(shè)置模型的自由參數(shù).如果將視覺模型在實(shí)際場(chǎng)景與人工場(chǎng)景中平行執(zhí)行,使模型訓(xùn)練和評(píng)估在線化、長(zhǎng)期化,則能夠持續(xù)優(yōu)化視覺系統(tǒng),提高其在復(fù)雜環(huán)境下的運(yùn)行效果.
本文其他部分內(nèi)容安排如下:第1節(jié)對(duì)相關(guān)工作進(jìn)行綜述;第2節(jié)提出平行視覺的基本框架;第3節(jié)介紹平行視覺的核心算法和關(guān)鍵技術(shù);第4節(jié)對(duì)本文進(jìn)行總結(jié),并對(duì)平行視覺的發(fā)展趨勢(shì)進(jìn)行展望.
正如Bainbridge在Science上發(fā)表的論文[21]所述,虛擬世界以視頻游戲和計(jì)算機(jī)游戲的形式,在視覺上模擬復(fù)雜的物理空間,為科學(xué)研究提供一個(gè)新的環(huán)境.構(gòu)建虛擬世界或人工場(chǎng)景的相關(guān)技術(shù)正在快速發(fā)展,在科學(xué)研究、人類生活等方面發(fā)揮著重要作用.
科幻電影“阿凡達(dá)(Avatar)”以令人震撼的視覺效果,構(gòu)建了潘多拉星球這一虛擬世界,呈現(xiàn)了參天巨樹、群山、怪獸、Na′vi族人等虛擬對(duì)象,給觀眾留下了深刻印象.Miao等[22]提出一種基于游戲引擎的平臺(tái),進(jìn)行人工交通系統(tǒng)的建模和計(jì)算.作者將人工人口設(shè)計(jì)為游戲中的角色,利用Delta3D游戲引擎構(gòu)建3D仿真環(huán)境,利用Delta3D的動(dòng)態(tài)角色層機(jī)制管理所有移動(dòng)的角色(包括車輛、行人等),設(shè)計(jì)了一種面向Agent的模塊化分布式仿真平臺(tái).Sewall等[23]提出虛擬化交通(Virtualized traffic)概念,基于離散時(shí)空數(shù)據(jù)來重建和可視化連續(xù)交通流,使用戶能夠在虛擬世界中觀看虛擬化交通事件.給定路段上每個(gè)車輛的兩個(gè)位置點(diǎn)和對(duì)應(yīng)的行駛時(shí)間,該方法能夠重建交通流,實(shí)現(xiàn)虛擬城市的沉浸式可視化.該方法可應(yīng)用于高密度交通,包括任意的車道數(shù),同時(shí)考慮了車輛的幾何、運(yùn)動(dòng)和動(dòng)態(tài)約束.Prendinger等[24]利用Open-StreetMap、CityEngine、Unity3D等軟件構(gòu)建虛擬生活實(shí)驗(yàn)室(Virtual Living Lab),用于交通仿真和用戶駕駛行為研究.作者基于免費(fèi)地圖數(shù)據(jù)生成車輛出行路網(wǎng),并通過車輛Agent與路段Agent的交互實(shí)現(xiàn)環(huán)境感知.Karamouzas等[25]提出一種新的行人小群體運(yùn)動(dòng)模型,描述群體成員如何與其他成員、其他群體和個(gè)體交互,并且通過構(gòu)建人工場(chǎng)景來驗(yàn)證所提模型的有效性.這些工作雖然不是直接針對(duì)視覺計(jì)算研究,但是對(duì)人工場(chǎng)景構(gòu)建很有啟發(fā)意義.
構(gòu)建的人工場(chǎng)景可用于攝像機(jī)網(wǎng)絡(luò)控制方法研究.Qureshi等[26]利用OpenGL構(gòu)建虛擬火車站和虛擬行人,并在場(chǎng)景中設(shè)置虛擬攝像機(jī),組成攝像機(jī)網(wǎng)絡(luò),如圖1所示.該工作建立的人工場(chǎng)景規(guī)模較?。ㄗ疃喾抡?6臺(tái)虛擬攝像機(jī)、100個(gè)行人),并且逼真度較低,沒有仿真陰影、復(fù)雜光照、反射高光等成像細(xì)節(jié).作者從人工場(chǎng)景視頻中提取目標(biāo)檢測(cè)和跟蹤信息,在此基礎(chǔ)上研究PTZ攝像機(jī)控制算法,包括攝像機(jī)指派、交接等.Starzyk等[27]基于Panda3D游戲引擎,設(shè)計(jì)了一套分布式虛擬視覺仿真器,建立了支持?jǐn)z像機(jī)網(wǎng)絡(luò)研究的軟件實(shí)驗(yàn)室.他們仿真辦公室場(chǎng)景,生成人工場(chǎng)景視頻,進(jìn)行行人檢測(cè)、跟蹤等視覺處理.根據(jù)視覺分析結(jié)果進(jìn)行攝像機(jī)操作,例如攝像機(jī)控制、協(xié)調(diào)、交接等.該系統(tǒng)在多臺(tái)計(jì)算機(jī)上聯(lián)網(wǎng)實(shí)現(xiàn),具有較強(qiáng)的可擴(kuò)展性,能夠仿真大尺度攝像機(jī)網(wǎng)絡(luò).作者設(shè)計(jì)了由100多臺(tái)虛擬攝像機(jī)組成的視覺網(wǎng)絡(luò).
圖1 虛擬火車站的平面圖[26](包括站臺(tái)和火車軌道(左)、主候車室(中)和購(gòu)物商場(chǎng)(右).該攝像機(jī)網(wǎng)絡(luò)包括16臺(tái)虛擬攝像機(jī))Fig.1 Plan view of the virtual train station[26](Revealing the concourses and train tracks(left),the main waiting room(middle),and the shopping arcade(right).An example camera network comprising 16 virtual cameras is illustrated.)
一些工作基于人工場(chǎng)景數(shù)據(jù)集進(jìn)行視覺模型訓(xùn)練.Sun等[28]利用Google 3D Warehouse獲得目標(biāo)的3D模型,并通過3D模型旋轉(zhuǎn)生成2D圖像數(shù)據(jù),得到虛擬圖像集.在此基礎(chǔ)上利用判別去相關(guān)(Discriminative decorrelation)方法訓(xùn)練2D目標(biāo)檢測(cè)器,在缺少實(shí)際場(chǎng)景標(biāo)記圖像的情況下進(jìn)行領(lǐng)域適應(yīng).實(shí)驗(yàn)發(fā)現(xiàn),與基于實(shí)際圖像集訓(xùn)練出的目標(biāo)檢測(cè)器相比,他們基于虛擬圖像集的方法能夠獲得類似的精度.Hattori等[29]在缺少實(shí)際場(chǎng)景訓(xùn)練圖像的情況下,完全依靠虛擬數(shù)據(jù),訓(xùn)練面向特定場(chǎng)景(Scene-specific)的行人檢測(cè)器.已知場(chǎng)景幾何信息和攝像機(jī)標(biāo)定參數(shù),他們利用Autodesk 3DS Max軟件建立人工場(chǎng)景,生成虛擬行人數(shù)據(jù),作為訓(xùn)練集.他們的行人檢測(cè)器在精度上超過了以DPM為代表的通用檢測(cè)器(Generic detector),并且超過了基于少量實(shí)際行人數(shù)據(jù)訓(xùn)練出來的面向特定場(chǎng)景的檢測(cè)器.
此外,還有更多的工作結(jié)合人工場(chǎng)景數(shù)據(jù)集和實(shí)際場(chǎng)景數(shù)據(jù)集進(jìn)行視覺模型訓(xùn)練.例如,等[30]利用Half-Life 2游戲引擎生成逼真的虛擬世界圖像,訓(xùn)練行人檢測(cè)器.他們發(fā)現(xiàn),基于虛擬世界的訓(xùn)練能夠在真實(shí)世界中產(chǎn)生很高的測(cè)試精度,但是存在數(shù)據(jù)集偏移(Dataset shift)問題.于是他們?cè)O(shè)計(jì)了一種領(lǐng)域適應(yīng)框架V-AYLA,先基于虛擬世界數(shù)據(jù)集訓(xùn)練行人檢測(cè)器,然后利用真實(shí)世界圖像進(jìn)行主動(dòng)學(xué)習(xí),發(fā)掘困難的正例和反例,迭代調(diào)節(jié)檢測(cè)器參數(shù).與基于大量真實(shí)世界標(biāo)記樣本訓(xùn)練的檢測(cè)器相比,雖然V-AYLA只利用了少量的真實(shí)世界標(biāo)記樣本,卻能夠獲得相同的性能.該研究組進(jìn)一步提出利用虛擬世界數(shù)據(jù)集訓(xùn)練基于DPM的行人檢測(cè)器[31].
Gaidon等[32]利用Unity游戲引擎克隆KITTI數(shù)據(jù)集[12],生成“虛擬KITTI”數(shù)據(jù)集,并自動(dòng)生成目標(biāo)檢測(cè)、跟蹤、語義分割、深度和光流的標(biāo)注信息,如圖2所示.另外,對(duì)每段克隆的虛擬視頻,模擬環(huán)境條件(包括攝像機(jī)朝向、光照和天氣條件等)變化,得到更加多樣化的虛擬數(shù)據(jù).他們實(shí)驗(yàn)發(fā)現(xiàn):基于真實(shí)數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)算法,當(dāng)應(yīng)用于真實(shí)世界和虛擬世界時(shí)表現(xiàn)相似;首先利用虛擬KITTI數(shù)據(jù)做模型預(yù)訓(xùn)練,然后利用真實(shí)KITTI數(shù)據(jù)做模型參數(shù)微調(diào),能夠提高性能.他們還將基于真實(shí)數(shù)據(jù)訓(xùn)練的目標(biāo)跟蹤器應(yīng)用于環(huán)境條件變化的虛擬視頻,發(fā)現(xiàn)光照和天氣條件顯著降低跟蹤性能,惡劣天氣(例如霧天)導(dǎo)致性能的最大下降.對(duì)此進(jìn)一步感興趣的讀者,可以參考項(xiàng)目網(wǎng)址 http://www.xrce.xerox.com/Research-Development/Computer-Vision/Proxy-Virtual-Worlds.
圖2 虛擬KITTI數(shù)據(jù)集[32](上:KITTI多目標(biāo)跟蹤數(shù)據(jù)集中的一幀圖像;中:虛擬KITTI數(shù)據(jù)集中對(duì)應(yīng)的圖像幀,疊加了被跟蹤目標(biāo)的標(biāo)注邊框;下:自動(dòng)標(biāo)注的光流(左)、語義分割(中)和深度(右))Fig.2 The virtual KITTI dataset[32].(Top:a frame of a video from the KITTI multi-object tracking benchmark. Middle:the corresponding synthetic frame from the virtual KITTI dataset with automatic tracking ground truth bounding boxes.Bottom:automatically generated ground truth for optical flow(left),semantic segmentation(middle),and depth(right).)
Handa等[33]利用CAD模型倉庫,建立人工室內(nèi)場(chǎng)景數(shù)據(jù)集SceneNet,包括床、書、天花板、桌子、椅子、地板、沙發(fā)等虛擬對(duì)象,自動(dòng)生成像素級(jí)語義標(biāo)注.他們研究基于深度(Depth)的圖像語義標(biāo)注,先利用人工場(chǎng)景數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),然后利用實(shí)際場(chǎng)景數(shù)據(jù)集對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào).實(shí)驗(yàn)發(fā)現(xiàn),雖然只是將深度作為輸入,由于人工場(chǎng)景數(shù)據(jù)集的輔助,訓(xùn)練出的CNN(Convolutional neural network)模型達(dá)到了接近甚至優(yōu)于State-of-theart的性能.與此同時(shí),Ros等[34]利用Unity游戲引擎,建立虛擬城市圖像集SYNTHIA,包括街區(qū)、高速路、郊區(qū)、商店、公園、植物、各種路面、車道標(biāo)線、交通標(biāo)志、燈柱、行人、車輛等元素,并且自動(dòng)生成像素級(jí)語義標(biāo)注,如圖3所示.SYNTHIA中的圖像具有較高的逼真度,可以模擬季節(jié)變化(例如冬季地面有雪、春季植物開花等)、動(dòng)態(tài)光照、投射陰影、惡劣天氣等自然現(xiàn)象.由于手動(dòng)標(biāo)注圖像語義需要耗費(fèi)大量人力并且容易出錯(cuò),該工作能夠顯著增大訓(xùn)練數(shù)據(jù)集的規(guī)模和多樣性.他們利用虛擬城市圖像集和真實(shí)城市圖像集共同訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果表明這項(xiàng)工作顯著提高了圖像語義分割的精度.對(duì)此進(jìn)一步感興趣的讀者,可以參考項(xiàng)目網(wǎng)址http://synthia-dataset.net/.
圖3 SYNTHIA數(shù)據(jù)集[34](左:人工場(chǎng)景中的一幀圖像;中:對(duì)應(yīng)的語義標(biāo)記;右:虛擬城市的全貌)Fig.3 The SYNTHIA dataset[34](A sample frame(left)with its semantic labels(middle)and a general view of the virtual city(right).)
Movshovitz-Attias等[35]利用3DS MAX軟件和91種精細(xì)的3D CAD車輛模型,生成虛擬車輛圖像集RenderCar,并且自動(dòng)得到精確的視角(Viewpoint)標(biāo)注.在圖像渲染時(shí)考慮了光源的位置、強(qiáng)度和顏色、攝像機(jī)的光圈大小、快門速度和鏡頭漸暈效應(yīng)、復(fù)雜背景、圖像噪聲、隨機(jī)遮擋等因素,使生成的虛擬圖像非常逼真,同時(shí)增加了圖像的多樣性,如圖4所示.作者利用Render-Car、PASCAL3D+、CMU-Car三個(gè)圖像集,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行目標(biāo)視角估計(jì).實(shí)驗(yàn)發(fā)現(xiàn),基于虛擬圖像集訓(xùn)練出的模型與基于真實(shí)圖像集訓(xùn)練出的模型性能相近,都存在數(shù)據(jù)集偏移問題;如果結(jié)合虛擬和真實(shí)圖像集,訓(xùn)練出的模型具有更高的精度.
圖4 RenderCar中的樣本圖像[35]Fig.4 Sample images from RenderCar[35]
還有許多工作利用人工場(chǎng)景數(shù)據(jù)集進(jìn)行算法測(cè)評(píng),例如利用SABS[36]或BMC[37]數(shù)據(jù)集驗(yàn)證背景消減算法、利用CROSS數(shù)據(jù)集[38]驗(yàn)證行為分析算法、利用MPI-Sintel數(shù)據(jù)集[39]評(píng)價(jià)光流算法、利用虛擬城市和自由女神雕像數(shù)據(jù)集[40]評(píng)價(jià)圖像特征、利用OVVV數(shù)據(jù)集[41]評(píng)價(jià)跟蹤和監(jiān)控算法等. Zitnick等[42]利用剪貼畫組合技術(shù)創(chuàng)建了1002個(gè)語義場(chǎng)景,每個(gè)場(chǎng)景包含10個(gè)語義相似的抽象圖像,來研究視覺數(shù)據(jù)的高層語義理解.該方法能夠創(chuàng)建大量語義相似的場(chǎng)景,并且避免了目標(biāo)檢測(cè)錯(cuò)誤,便于直接進(jìn)行高層語義研究.作者通過數(shù)據(jù)集分析,研究了視覺特征的語義重要性、目標(biāo)的顯著性與可記憶性,以及這些概念之間的關(guān)系.Veeravasarapu等[43-44]利用Blender渲染軟件構(gòu)建人工交通場(chǎng)景,來驗(yàn)證視覺系統(tǒng)在復(fù)雜環(huán)境(光照變化、惡劣天氣、高頻噪聲等)下的性能.作者從亮度不變性、梯度不變性、二色大氣散射等角度證明人工場(chǎng)景視頻能夠用于視覺模型訓(xùn)練和評(píng)估,并且以背景消減、行人檢測(cè)為例驗(yàn)證了幾種視覺算法.
綜上所述,近年來平行視覺的相關(guān)研究呈現(xiàn)出兩個(gè)趨勢(shì).1)開源和商業(yè)3D仿真工具越來越豐富,功能也越來越強(qiáng)大,使構(gòu)建的人工場(chǎng)景越來越逼真.通過對(duì)比圖1(2008年成果)和圖2~圖4(2016年成果),可以清晰地感受到這一趨勢(shì).2)對(duì)人工場(chǎng)景的構(gòu)建和利用已經(jīng)觸及視覺計(jì)算研究的方方面面,從低層的光流估計(jì)、目標(biāo)檢測(cè)、語義分割等,到中層的目標(biāo)跟蹤,再到高層的行為分析、語義理解等,虛擬現(xiàn)實(shí)和人工場(chǎng)景技術(shù)都開始發(fā)揮作用.2016年10月召開的歐洲計(jì)算機(jī)視覺會(huì)議(ECCV)將舉行第1屆Virtual/Augmented Reality for Visual Artificial Intelligence研討會(huì),表明該方向已經(jīng)引起國(guó)際同行的重視.但是目前來看,基于人工場(chǎng)景的視覺計(jì)算研究工作較為分散,缺少統(tǒng)一的理論支持.因此,本文提出平行視覺的基本框架和關(guān)鍵技術(shù),希望能夠?yàn)橐曈X計(jì)算研究人員帶來一些啟發(fā),促進(jìn)該領(lǐng)域更好更快地發(fā)展.
王飛躍于2004年提出了復(fù)雜系統(tǒng)建模與調(diào)控的ACP理論[1-3],即:
ACP理論通過這一組合,將人工的虛擬空間Cyberspace變成解決復(fù)雜問題的新的另一半空間,同自然的物理空間一起構(gòu)成求解復(fù)雜問題之完整的“復(fù)雜空間”.新興的物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等技術(shù),是支撐ACP理論的核心技術(shù).從本質(zhì)上講,ACP的核心就是把復(fù)雜系統(tǒng)“虛”的和“軟”的部分建立起來,通過可定量、可實(shí)施的計(jì)算實(shí)驗(yàn),使之“硬化”,真正地用于解決實(shí)際的復(fù)雜問題.在ACP理論的基礎(chǔ)上,形成了實(shí)際系統(tǒng)與人工系統(tǒng)并行互動(dòng)的平行系統(tǒng).目前,ACP理論和平行系統(tǒng)思想已經(jīng)在城市交通控制、乙烯生產(chǎn)管理、社會(huì)計(jì)算等領(lǐng)域獲得示范應(yīng)用[2-3],其中平行交通被國(guó)家發(fā)改委列入“互聯(lián)網(wǎng)+”便捷交通重點(diǎn)示范項(xiàng)目[45].基于ACP的平行方法在計(jì)算機(jī)視覺方面,也進(jìn)行了一些初步的探討[46].
本文提出的平行視覺是ACP理論在視覺計(jì)算領(lǐng)域的推廣應(yīng)用,目標(biāo)是解決復(fù)雜環(huán)境“視覺計(jì)算方案”的科學(xué)難題.圖5顯示了平行視覺的基本框架和體系結(jié)構(gòu).總體上,平行視覺之ACP由“三步曲”組成.
圖5 平行視覺的基本框架與體系結(jié)構(gòu)Fig.5 Basic framework and architecture for parallel vision
第一步(A步).構(gòu)建色彩逼真的人工場(chǎng)景,模擬實(shí)際場(chǎng)景中可能出現(xiàn)的環(huán)境條件,自動(dòng)得到精確的標(biāo)注信息,生成大規(guī)模多樣性數(shù)據(jù)集.一定意義下,可以把人工場(chǎng)景看作“視頻游戲”,就是用類似于計(jì)算機(jī)游戲的技術(shù)來建模.這里主要運(yùn)用了計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)、微觀仿真等技術(shù).大體上,可以把計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺看作一對(duì)正反問題.計(jì)算機(jī)圖形學(xué)是給定3D世界模型及其參數(shù),按照實(shí)際攝像機(jī)圖像生成的原理和過程,合成出人工場(chǎng)景圖像.而計(jì)算機(jī)視覺是給定圖像序列,反求3D世界模型、參數(shù)和語義信息.平行視覺正是利用了計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺之間的這種正反關(guān)系.
在許多情況下,由于數(shù)據(jù)采集和標(biāo)注困難,從實(shí)際場(chǎng)景中無法獲得令人滿意的數(shù)據(jù)集,影響視覺算法的設(shè)計(jì)與評(píng)估.利用人工場(chǎng)景數(shù)據(jù)集,可以解決這些問題.首先,借助計(jì)算機(jī)平臺(tái),人工場(chǎng)景可以提供“無限”規(guī)模的數(shù)據(jù),通過在圖像生成過程中設(shè)定各種物理模型和參數(shù),可以得到“無限”多樣的數(shù)據(jù),并且自動(dòng)生成標(biāo)注信息,從而滿足對(duì)標(biāo)注數(shù)據(jù)集的“大規(guī)?!焙汀岸鄻有浴币?其次,實(shí)際場(chǎng)景通常不可重復(fù),而人工場(chǎng)景具有“可重復(fù)性”,通過固定一些物理模型和參數(shù),改變另外一些,可以“定制”圖像生成要素,以便從各種角度評(píng)價(jià)視覺算法.然后,某些實(shí)際場(chǎng)景由于特殊性,無法從中獲得實(shí)際數(shù)據(jù)集,人工場(chǎng)景可以避免這一問題.例如為戰(zhàn)場(chǎng)環(huán)境設(shè)計(jì)視覺監(jiān)控系統(tǒng),可能無法事先得到敵方活動(dòng)的視頻圖像,可以在計(jì)算機(jī)上建立人工場(chǎng)景數(shù)據(jù)集,對(duì)視覺算法進(jìn)行設(shè)計(jì)和評(píng)估.又例如為火星無人車設(shè)計(jì)視覺導(dǎo)航系統(tǒng),我們現(xiàn)在無法獲得火星地面的大規(guī)模實(shí)際圖像集,可以通過構(gòu)建人工場(chǎng)景來輔助設(shè)計(jì)視覺算法.總之,構(gòu)建人工場(chǎng)景意義重大,能夠?yàn)橐曈X算法設(shè)計(jì)與評(píng)估提供一種可靠的數(shù)據(jù)來源,是對(duì)實(shí)際場(chǎng)景數(shù)據(jù)的有效補(bǔ)充.
第二步(C步).結(jié)合人工場(chǎng)景數(shù)據(jù)集和實(shí)際場(chǎng)景數(shù)據(jù)集,進(jìn)行各種計(jì)算實(shí)驗(yàn),設(shè)計(jì)和優(yōu)化視覺算法,評(píng)價(jià)視覺算法在復(fù)雜環(huán)境下的性能.這里主要運(yùn)用了機(jī)器學(xué)習(xí)、領(lǐng)域適應(yīng)、統(tǒng)計(jì)分析等技術(shù).已有的多數(shù)視覺系統(tǒng),由于應(yīng)用環(huán)境太復(fù)雜,沒有經(jīng)過全面實(shí)驗(yàn),只是在有限環(huán)境下做算法設(shè)計(jì)和評(píng)估,然后不管三七二十一實(shí)施了再說,對(duì)實(shí)施效果卻是“心中無數(shù)”.若要視覺系統(tǒng)真正有效,必須在人工場(chǎng)景中進(jìn)行全面充分的實(shí)驗(yàn).就是把計(jì)算機(jī)變成視覺計(jì)算“實(shí)驗(yàn)室”,利用人工場(chǎng)景做“計(jì)算實(shí)驗(yàn)”,全面設(shè)計(jì)和評(píng)估視覺算法.與基于實(shí)際場(chǎng)景的實(shí)驗(yàn)相比,在人工場(chǎng)景中實(shí)驗(yàn)過程可控、可觀、可重復(fù),并且可以真正地產(chǎn)生“大數(shù)據(jù)”,用于后續(xù)的知識(shí)提取和算法優(yōu)化.
計(jì)算實(shí)驗(yàn)有兩種操作模式,即學(xué)習(xí)與訓(xùn)練、實(shí)驗(yàn)與評(píng)估.“學(xué)習(xí)與訓(xùn)練”是針對(duì)視覺算法設(shè)計(jì)而言,機(jī)器學(xué)習(xí)是智能視覺計(jì)算的核心,無論傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)方法(SVM、Adaboost、隨機(jī)森林等),還是目前流行的深度學(xué)習(xí),主要依靠“Learning from data”,訓(xùn)練數(shù)據(jù)集起著至關(guān)重要的作用.結(jié)合大規(guī)模人工場(chǎng)景數(shù)據(jù)集和適當(dāng)規(guī)模的實(shí)際場(chǎng)景數(shù)據(jù)集,有監(jiān)督訓(xùn)練機(jī)器學(xué)習(xí)模型,能夠提高視覺算法的性能.尤其對(duì)于深度學(xué)習(xí)技術(shù),訓(xùn)練數(shù)據(jù)增多,性能會(huì)更好[47-49].由于機(jī)器學(xué)習(xí)過程中普遍存在數(shù)據(jù)集偏移問題,即源領(lǐng)域數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)具有不同的統(tǒng)計(jì)分布,因此必須進(jìn)行領(lǐng)域適應(yīng).可以首先利用人工場(chǎng)景數(shù)據(jù)集預(yù)訓(xùn)練模型,然后利用目標(biāo)領(lǐng)域的實(shí)際場(chǎng)景數(shù)據(jù)集微調(diào)模型參數(shù);也可以為人工場(chǎng)景數(shù)據(jù)和實(shí)際場(chǎng)景數(shù)據(jù)設(shè)定比例,同時(shí)利用它們訓(xùn)練模型.“實(shí)驗(yàn)與評(píng)估”是針對(duì)視覺算法評(píng)價(jià)而言,也就是利用人工場(chǎng)景數(shù)據(jù)集(以及實(shí)際場(chǎng)景數(shù)據(jù)集)評(píng)價(jià)算法的性能.由于可以完全控制人工場(chǎng)景的環(huán)境條件(例如光照、天氣、目標(biāo)外觀和運(yùn)動(dòng)等),對(duì)視覺算法的測(cè)試會(huì)更充分,結(jié)合統(tǒng)計(jì)分析技術(shù),能夠在系統(tǒng)實(shí)施之前定量評(píng)價(jià)視覺算法在各種環(huán)境條件下的表現(xiàn),做到“心中有數(shù)”.總之,將計(jì)算實(shí)驗(yàn)從實(shí)際場(chǎng)景擴(kuò)展到人工場(chǎng)景,不但拓寬了實(shí)驗(yàn)的廣度,更增加了實(shí)驗(yàn)的深度,有助于提高視覺算法性能.
第三步(P步).將視覺模型在實(shí)際場(chǎng)景與人工場(chǎng)景中平行執(zhí)行,使模型訓(xùn)練和評(píng)估在線化、長(zhǎng)期化,通過實(shí)際與人工之間的虛實(shí)互動(dòng)和人機(jī)混合,持續(xù)優(yōu)化視覺系統(tǒng).這里主要運(yùn)用了在線學(xué)習(xí)、知識(shí)自動(dòng)化等技術(shù).從相關(guān)工作綜述可知,許多學(xué)者都有類似于ACP的想法,主要集中在前兩步,但是要解決復(fù)雜環(huán)境的視覺計(jì)算問題,“三步曲”缺一不可.由于應(yīng)用環(huán)境的復(fù)雜性、挑戰(zhàn)性和變化性,不存在一勞永逸的解決方案.只能接受這些困難,在運(yùn)行過程中不斷調(diào)節(jié)和改善,即將虛實(shí)互動(dòng)和人機(jī)混合常態(tài)化,以平行執(zhí)行的方式持續(xù)優(yōu)化視覺系統(tǒng),在復(fù)雜環(huán)境下進(jìn)行有效的感知與理解.
平行執(zhí)行的最大特色是“把人工場(chǎng)景構(gòu)建在環(huán)內(nèi)”(The artificial scenes are constructed in the loop),依靠數(shù)據(jù)來驅(qū)動(dòng).除物理空間的實(shí)時(shí)視頻數(shù)據(jù)外,還包括實(shí)時(shí)光照和天氣條件,以及來自Web和Cyberspace豐富的虛擬對(duì)象模型等數(shù)據(jù).在海量數(shù)據(jù)的基礎(chǔ)上,自動(dòng)生成各種有實(shí)際意義的人工場(chǎng)景.在物聯(lián)網(wǎng)和云計(jì)算技術(shù)的支持下,與實(shí)際場(chǎng)景對(duì)應(yīng)的人工場(chǎng)景可以有多個(gè),不是為了“復(fù)制”或“重建”實(shí)際場(chǎng)景,而是為了“預(yù)測(cè)”、“培育”實(shí)際場(chǎng)景的可能存在,為視覺計(jì)算增加主動(dòng)性.通過實(shí)際與人工的虛實(shí)互動(dòng),在線訓(xùn)練和評(píng)估視覺模型,不斷改善視覺系統(tǒng),一方面提高在當(dāng)前場(chǎng)景中的運(yùn)行效果,另一方面為應(yīng)對(duì)未來場(chǎng)景做好準(zhǔn)備.總之,平行執(zhí)行是一種基于大數(shù)據(jù),以在線仿真和優(yōu)化為主要手段的感知與理解復(fù)雜環(huán)境的方法,它可以實(shí)現(xiàn)視覺計(jì)算的知識(shí)自動(dòng)化,邁向智能視覺計(jì)算.
至此,我們可以進(jìn)一步明確平行視覺的基本原則:在物理和網(wǎng)絡(luò)空間大數(shù)據(jù)的驅(qū)動(dòng)下,結(jié)合計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)、機(jī)器學(xué)習(xí)、知識(shí)自動(dòng)化等技術(shù),利用人工場(chǎng)景、計(jì)算實(shí)驗(yàn)、平行執(zhí)行等理論和方法,建立復(fù)雜環(huán)境下視覺感知與理解的理論和方法體系.
本節(jié)分別針對(duì)平行視覺之ACP三步曲,提出若干核心算法和關(guān)鍵技術(shù),希望為本領(lǐng)域研究人員帶來一些啟發(fā).
3.1人工場(chǎng)景的核心算法和關(guān)鍵技術(shù)
我們以室外場(chǎng)景為例,對(duì)人工場(chǎng)景構(gòu)建進(jìn)行說明.首先應(yīng)當(dāng)指出,構(gòu)建人工場(chǎng)景不需要從頭做起,而是借助已有的開源或商業(yè)游戲引擎和仿真工具,例如 Unity、Half-Life 2、Delta3D、OpenGL、Panda3D、Google 3D Warehouse、3DS MAX、OVVV、VDrift等.每種工具都有其特點(diǎn),可以根據(jù)具體應(yīng)用需要進(jìn)行選擇.
人工場(chǎng)景由許多要素構(gòu)成,包括靜態(tài)物體、動(dòng)態(tài)物體、季節(jié)、天氣、光源等.用Agent表示場(chǎng)景要素,按照物理規(guī)律進(jìn)行多Agent仿真.人工室外場(chǎng)景的構(gòu)成要素如表1所示.可以利用Web空間(例如Google 3D Warehouse)海量且豐富的靜態(tài)和動(dòng)態(tài)物體的3D模型.動(dòng)態(tài)物體應(yīng)具有路徑生成和障礙物規(guī)避功能.季節(jié)和天氣直接影響人工場(chǎng)景的渲染效果,要求與物理世界的自然規(guī)律一致,例如春季植物開花、冬季地面有雪、晴天投射陰影、霧天物體模糊等.白天光源主要是太陽,夜間光源主要是路燈和車燈.從白天向夜間過渡時(shí),會(huì)自動(dòng)開啟路燈和車燈;從夜間向白天過渡時(shí),會(huì)自動(dòng)關(guān)閉路燈和車燈.總之,要求人工場(chǎng)景的構(gòu)成要素盡可能逼真并且多樣化.圖6顯示了同一種車型(貨車)的3D模型樣例.
圖6 貨車的3D模型樣例Fig.6 Sample 3D models of trucks
表1 人工室外場(chǎng)景的構(gòu)成要素Table 1 Components for artificial outdoor scenes
在人工場(chǎng)景中設(shè)置虛擬攝像機(jī),生成人工場(chǎng)景圖像序列.虛擬攝像機(jī)可以是槍式、云臺(tái)式或全景式.攝像機(jī)可以是固定的,例如模擬視頻監(jiān)控;也可以是移動(dòng)的,例如模擬自動(dòng)駕駛或航拍監(jiān)控.相應(yīng)地,攝像機(jī)位置可以在路口、路段或車載(機(jī)載).圖像生成過程是復(fù)雜的:光從光源發(fā)出,經(jīng)過大氣散射,到達(dá)物體表面;然后,被物體漫反射或鏡面反射,再次經(jīng)過大氣散射,到達(dá)攝像機(jī)鏡頭;最后,經(jīng)過光電轉(zhuǎn)換,生成數(shù)字圖像.每個(gè)環(huán)節(jié)都對(duì)最終圖像有所影響,例如光源影響光強(qiáng)和色溫、天氣條件影響大氣散射、物體表面影響光的反射、攝像機(jī)影響鏡頭扭曲和圖像噪聲等.要想生成色彩逼真的人工場(chǎng)景圖像,必須模擬所有這些過程.
基于實(shí)際場(chǎng)景圖像,難以獲得復(fù)雜環(huán)境下的目標(biāo)姿態(tài)、運(yùn)動(dòng)軌跡、語義分割、深度、光流等標(biāo)注信息.而人工場(chǎng)景圖像是從3D模型出發(fā),自底向上生成的,因此無論光照和天氣條件多么惡劣,圖像細(xì)節(jié)多么模糊,都很容易自動(dòng)得到詳細(xì)且精確的標(biāo)注信息.根據(jù)應(yīng)用需要,標(biāo)注應(yīng)該各有不同.但總體上,可以標(biāo)注的信息包括目標(biāo)邊框、目標(biāo)區(qū)域、目標(biāo)類型、目標(biāo)姿態(tài)、運(yùn)動(dòng)軌跡、圖像語義分割、深度、光流等.基于上述方法和技術(shù),能夠生成色彩逼真的大規(guī)模多樣性人工場(chǎng)景數(shù)據(jù)集.
3.2計(jì)算實(shí)驗(yàn)的核心算法和關(guān)鍵技術(shù)
利用人工場(chǎng)景數(shù)據(jù)集,進(jìn)行各種計(jì)算實(shí)驗(yàn),把計(jì)算機(jī)變成視覺計(jì)算“實(shí)驗(yàn)室”.我們首先為計(jì)算實(shí)驗(yàn)的兩種操作模式(學(xué)習(xí)與訓(xùn)練、實(shí)驗(yàn)與評(píng)估)分別提出一個(gè)例子,然后簡(jiǎn)要說明更多的實(shí)驗(yàn)思路.
作為第一個(gè)例子,復(fù)雜交通環(huán)境下的目標(biāo)檢測(cè)是一項(xiàng)困難的視覺任務(wù).在實(shí)際應(yīng)用時(shí),光照和天氣條件、目標(biāo)和背景外觀都很復(fù)雜.在白天和夜間,光源不同,光照條件差別很大.在惡劣天氣、夜間低照度、白天強(qiáng)陰影區(qū)域等條件下,目標(biāo)與背景模糊不清.相對(duì)于攝像機(jī),目標(biāo)姿態(tài)多樣,并且可能被部分遮擋,為檢測(cè)增加了新的難度.在這些因素的綜合影響下,很難設(shè)計(jì)一個(gè)魯棒的目標(biāo)檢測(cè)器.Faster R-CNN[15-16]是目前精度最高且實(shí)時(shí)性較好的目標(biāo)檢測(cè)器之一,它由區(qū)域提議網(wǎng)和深度殘差網(wǎng)組成,二者共用卷積特征,如圖7所示.在文獻(xiàn)[15-16]中,F(xiàn)aster R-CNN利用ImageNet、PASCAL VOC和MS COCO數(shù)據(jù)集進(jìn)行學(xué)習(xí)與訓(xùn)練.但是這些數(shù)據(jù)集是從Internet上搜集得到,圖像清晰度較高,缺少惡劣天氣和夜間低照度條件的圖像,因此訓(xùn)練的模型在實(shí)際應(yīng)用時(shí)很可能失敗.而人工場(chǎng)景能夠模擬復(fù)雜挑戰(zhàn)的交通環(huán)境,提供色彩逼真的大規(guī)模多樣性數(shù)據(jù)集,作為實(shí)際場(chǎng)景數(shù)據(jù)集的補(bǔ)充.結(jié)合人工場(chǎng)景數(shù)據(jù)集和實(shí)際場(chǎng)景數(shù)據(jù)集,共同訓(xùn)練Faster R-CNN模型,在每一批訓(xùn)練數(shù)據(jù)中為人工場(chǎng)景數(shù)據(jù)和實(shí)際場(chǎng)景數(shù)據(jù)設(shè)定比例(例如1:1),在訓(xùn)練時(shí)能夠降低數(shù)據(jù)集偏移和實(shí)現(xiàn)領(lǐng)域適應(yīng),生成更加魯棒的目標(biāo)檢測(cè)器.
圖7 Faster R-CNN的結(jié)構(gòu)圖[15]Fig.7 Flowchart of Faster R-CNN[15]
作為另一個(gè)例子,智能車視覺系統(tǒng)測(cè)評(píng)也是一項(xiàng)困難任務(wù).從2009年開始,在國(guó)家自然科學(xué)基金委的資助下,每年舉辦一次“中國(guó)智能車未來挑戰(zhàn)賽”[50].通過在城市和鄉(xiāng)村道路上測(cè)試智能車視覺系統(tǒng)的車道識(shí)別、障礙物規(guī)避、信號(hào)燈識(shí)別、交通標(biāo)志識(shí)別等功能,促進(jìn)了中國(guó)智能車領(lǐng)域的發(fā)展.但是,這種實(shí)際場(chǎng)景測(cè)試只能覆蓋很小一部分環(huán)境條件,是不完備的測(cè)試,無法保證視覺系統(tǒng)在實(shí)際應(yīng)用時(shí)的有效性.如果建立模擬實(shí)際場(chǎng)景的人工場(chǎng)景,“定制”各種場(chǎng)景要素(天氣、光照、路況、交通標(biāo)志等),則能夠建立更完備的測(cè)試數(shù)據(jù)集,在計(jì)算機(jī)上測(cè)試智能車視覺算法的性能.人工場(chǎng)景測(cè)試覆蓋的環(huán)境范圍更廣,并且成本更低,可以作為實(shí)際場(chǎng)景測(cè)試的補(bǔ)充.目前,國(guó)家自然科學(xué)基金委已經(jīng)設(shè)立相關(guān)項(xiàng)目,并取得初步結(jié)果[51].
總體上,我們可以面向具體應(yīng)用,利用人工場(chǎng)景做可控、可觀、可重復(fù)的計(jì)算實(shí)驗(yàn),全面設(shè)計(jì)和評(píng)估視覺算法.計(jì)算實(shí)驗(yàn)之所以重要,是因?yàn)樵趶?fù)雜挑戰(zhàn)的實(shí)際場(chǎng)景,難以獲得目標(biāo)姿態(tài)、運(yùn)動(dòng)軌跡、語義分割、深度、光流等標(biāo)注信息.但是人工場(chǎng)景能夠模擬復(fù)雜環(huán)境,并且自動(dòng)得到精確的標(biāo)注信息,使得以前不易進(jìn)行甚至無法進(jìn)行的實(shí)驗(yàn)通過計(jì)算實(shí)驗(yàn)得以順利進(jìn)行.在“學(xué)習(xí)與訓(xùn)練”操作模式下,結(jié)合大規(guī)模人工場(chǎng)景數(shù)據(jù)集和適當(dāng)規(guī)模的實(shí)際場(chǎng)景數(shù)據(jù)集,有監(jiān)督訓(xùn)練機(jī)器學(xué)習(xí)模型,優(yōu)化參數(shù)學(xué)習(xí)和選擇.無論傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)模型,還是目前流行的深度學(xué)習(xí)模型,都可以利用人工場(chǎng)景數(shù)據(jù)集獲得更好的泛化性,更加勝任復(fù)雜環(huán)境下的視覺計(jì)算任務(wù).在“實(shí)驗(yàn)與評(píng)估”操作模式下,利用人工場(chǎng)景數(shù)據(jù)集(以及一定的實(shí)際場(chǎng)景數(shù)據(jù)集),全面評(píng)價(jià)視覺算法在復(fù)雜環(huán)境下的性能.控制人工場(chǎng)景的生成要素,比較算法在各種環(huán)境下的性能,生成“算法-環(huán)境”性能矩陣,嚴(yán)格量化算法性能,可以為算法改進(jìn)提供客觀依據(jù).
3.3平行執(zhí)行的核心算法和關(guān)鍵技術(shù)
將視覺模型在實(shí)際場(chǎng)景與人工場(chǎng)景中平行執(zhí)行,使模型訓(xùn)練和評(píng)估在線化、長(zhǎng)期化,是平行視覺的最高階段.在復(fù)雜環(huán)境下,視覺感知與理解是極其困難的,不存在一勞永逸的解決方案,只能在運(yùn)行過程中不斷調(diào)節(jié)和改善,以平行執(zhí)行的方式持續(xù)優(yōu)化.當(dāng)系統(tǒng)運(yùn)行時(shí),在物理和網(wǎng)絡(luò)空間大數(shù)據(jù)的驅(qū)動(dòng)下,能夠把人工場(chǎng)景構(gòu)建在環(huán)內(nèi).從實(shí)時(shí)圖像中(自動(dòng)或者半自動(dòng))獲取場(chǎng)景關(guān)鍵要素,包括靜態(tài)物體、動(dòng)態(tài)物體、天氣、光照等,結(jié)合Web和Cyberspace海量且豐富的虛擬對(duì)象模型,在線“培育”各種有實(shí)際意義的人工場(chǎng)景.“有實(shí)際意義”不是指人工場(chǎng)景必須在外觀上“復(fù)制”或“重建”當(dāng)前的實(shí)際場(chǎng)景,而是指人工場(chǎng)景必須與實(shí)際場(chǎng)景有相通之處,必須對(duì)模型訓(xùn)練和評(píng)估有借鑒意義.在物聯(lián)網(wǎng)和云計(jì)算技術(shù)的支持下,雖然實(shí)際場(chǎng)景是唯一的,但是與某個(gè)實(shí)際場(chǎng)景對(duì)應(yīng)的人工場(chǎng)景可以有多個(gè).當(dāng)然,也可以多個(gè)實(shí)際場(chǎng)景共享多個(gè)人工場(chǎng)景.因此,實(shí)際與人工是一對(duì)多、多對(duì)多的關(guān)系.
在線構(gòu)建的人工場(chǎng)景提供了“無限”的在線數(shù)據(jù),可以用來在線訓(xùn)練和評(píng)估視覺模型.在線數(shù)據(jù)蘊(yùn)含了實(shí)際場(chǎng)景的動(dòng)態(tài)變化信息,例如場(chǎng)景光照、天氣等條件在不斷變化.在運(yùn)行過程中,視覺模型不應(yīng)該一成不變,必須通過計(jì)算實(shí)驗(yàn),隨著場(chǎng)景變化逐漸調(diào)節(jié)和改善.在“學(xué)習(xí)與訓(xùn)練”操作模式下,如果是深度學(xué)習(xí)模型,可以在線累積人工場(chǎng)景數(shù)據(jù),同時(shí)隨機(jī)選擇離線的實(shí)際場(chǎng)景數(shù)據(jù),按照一定比例組成每一批訓(xùn)練數(shù)據(jù),有監(jiān)督微調(diào)神經(jīng)網(wǎng)絡(luò)參數(shù),使模型自動(dòng)適應(yīng)實(shí)際場(chǎng)景的最新變化.在“實(shí)驗(yàn)與評(píng)估”操作模式下,利用在線的人工場(chǎng)景數(shù)據(jù)和實(shí)際場(chǎng)景數(shù)據(jù),定期評(píng)價(jià)模型性能.如果模型性能下降較多,則需要增加更多的訓(xùn)練數(shù)據(jù)以調(diào)節(jié)模型,甚至替換成性能表現(xiàn)更好的模型.總之,平行執(zhí)行將虛實(shí)互動(dòng)常態(tài)化,通過對(duì)人工場(chǎng)景的在線構(gòu)建和利用,持續(xù)優(yōu)化視覺系統(tǒng),實(shí)現(xiàn)視覺計(jì)算的知識(shí)自動(dòng)化.
本文將ACP理論推廣到視覺計(jì)算領(lǐng)域,提出平行視覺的基本框架和關(guān)鍵技術(shù).平行視覺在物理和網(wǎng)絡(luò)空間大數(shù)據(jù)的驅(qū)動(dòng)下,結(jié)合計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)、機(jī)器學(xué)習(xí)、知識(shí)自動(dòng)化等技術(shù),利用人工場(chǎng)景、計(jì)算實(shí)驗(yàn)、平行執(zhí)行等理論和方法,建立復(fù)雜環(huán)境下視覺感知與理解的理論和方法體系.平行視覺利用人工場(chǎng)景來模擬和表示復(fù)雜挑戰(zhàn)的實(shí)際場(chǎng)景,使采集和標(biāo)注大規(guī)模多樣性數(shù)據(jù)集成為可能,通過計(jì)算實(shí)驗(yàn)進(jìn)行視覺算法的設(shè)計(jì)與評(píng)估,最后借助平行執(zhí)行來在線優(yōu)化視覺系統(tǒng).
平行視覺相關(guān)研究已經(jīng)引起國(guó)際同行的高度重視.在近幾年召開的計(jì)算機(jī)視覺重要會(huì)議(例如CVPR、ECCV等)上,將計(jì)算機(jī)圖形學(xué)和虛擬現(xiàn)實(shí)技術(shù)用于解決復(fù)雜環(huán)境下的視覺計(jì)算問題,在論文數(shù)量和關(guān)注程度上呈現(xiàn)出上升趨勢(shì).隨著虛擬現(xiàn)實(shí)技術(shù)的進(jìn)一步發(fā)展,構(gòu)建的人工場(chǎng)景會(huì)更加逼真,為平行視覺研究提供更可靠的基礎(chǔ)支撐.我們相信,平行視覺將成為視覺計(jì)算領(lǐng)域一個(gè)重要的研究方向.尤其是,平行視覺與深度學(xué)習(xí)相結(jié)合,將推動(dòng)越來越多的智能視覺系統(tǒng)發(fā)展成熟并走向應(yīng)用.
References
1 Wang Fei-Yue.Parallel system methods for management and control of complex systems.Control and Decision,2004,19(5):485-489,514(王飛躍.平行系統(tǒng)方法與復(fù)雜系統(tǒng)的管理和控制.控制與決策,2004,19(5):485-489,514)
2 Wang F Y.Parallel control and management for intelligent transportation systems:concepts,architectures,and applications.IEEE Transactions on Intelligent Transportation Systems,2010,11(3):630-638
3 Wang Fei-Yue.Parallel control:a method for data-driven and computational control.Acta Automatica Sinica,2013,39(4):293-302(王飛躍.平行控制:數(shù)據(jù)驅(qū)動(dòng)的計(jì)算控制方法.自動(dòng)化學(xué)報(bào),2013,39(4):293-302)
4 Wang K F,Liu Y Q,Gou C,Wang F Y.A multi-view learning approach to foreground detection for traffic surveillance applications.IEEE Transactions on Vehicular Technology,2016,65(6):4144-4158
5 Wang K F,Yao Y J.Video-based vehicle detection approach with data-driven adaptive neuro-fuzzy networks.International Journal of Pattern Recognition and Artificial Intelligence,2015,29(7):1555015
6 Gou C,Wang K F,Yao Y J,Li Z X.Vehicle license plate recognition based on extremal regions and restricted Boltzmann machines.IEEE Transactions on Intelligent Transportation Systems,2016,17(4):1096-1107
7 Liu Y Q,Wang K F,Shen D Y.Visual tracking based on dynamic coupled conditional random field model.IEEE Transactions on Intelligent Transportation Systems,2016,17(3): 822-833
8 Goyette N,Jodoin P M,Porikli F,Konrad J,Ishwar P. A novel video dataset for change detection benchmarking.IEEE Transactions on Image Processing,2014,23(11): 4663-4679
9 Felzenszwalb P F,Girshick R B,McAllester D,Ramanan D. Object detection with discriminatively trained part-based models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645
10 INRIA person dataset[Online],available:http://pascal.inrialpes.fr/data/human/,September 26,2016.
11 Caltech pedestrian detection benchmark[Online],available: http://www.vision.caltech.edu/Image_Datasets/Caltech-Pedestrians/,September 26,2016.
12 The KITTI vision benchmark suite[Online],available: http://www.cvlibs.net/datasets/kitti/,September 26,2016.
13 Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks.In:Advances in Neural Information Processing Systems 25(NIPS 2012). Nevada:MIT Press,2012.
14 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436-444
15 Ren S Q,He K M,Girshick R,Sun J.Faster R-CNN:towards real-time object detection with region proposal networks.IEEE Transactions on Pattern Analysis and Machine Intelligence,to be published
16 He K M,Zhang X Y,Ren S Q,Sun J.Deep residual learning for image recognition.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV:IEEE,2016.770-778
17 ImageNet[Online],available:http://www.image-net.org/,September 26,2016.
18 The PASCAL visual object classes homepage[Online],available:http://host.robots.ox.ac.uk/pascal/VOC/,September 26,2016.
19 COCO-Common objects in context[Online],available: http://mscoco.org/,September 26,2016.
20 Torralba A,Efros A A.Unbiased look at dataset bias.In: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Colorado,USA: IEEE,2011.1521-1528
21 Bainbridge W S.The scientific research potential of virtual worlds.Science,2007,317(5837):472-476
22 Miao Q H,Zhu F H,Lv Y S,Cheng C J,Chen C,Qiu X G.A game-engine-based platform for modeling and computing artificial transportation systems.IEEE Transactions on Intelligent Transportation Systems,2011,12(2):343-353
23 Sewall J,van den Berg J,Lin M,Manocha D.Virtualized traffic:reconstructing traffic flows from discrete spatiotemporal data.IEEE Transactions on Visualization and Computer Graphics,2011,17(1):26-37
24 Prendinger H,Gajananan K,Zaki A B,F(xiàn)ares A,Molenaar R,Urbano D,van Lint H,Gomaa W.Tokyo Virtual Living Lab:designing smart cities based on the 3D Internet.IEEE Internet Computing,2013,17(6):30-38
25 Karamouzas I,Overmars M.Simulating and evaluating the local behavior of small pedestrian groups.IEEE Transactions on Visualization and Computer Graphics,2012,18(3): 394-406
26 Qureshi F,Terzopoulos D.Smart camera networks in virtual reality.Proceedings of the IEEE,2008,96(10):1640-1656
27 Starzyk W,Qureshi F Z.Software laboratory for camera networks research.IEEE Journal on Emerging and Selected Topics in Circuits and Systems,2013,3(2):284-293
28 Sun B C,Saenko K.From virtual to reality:fast adaptation of virtual object detectors to real domains.In:Proceedings of the 2014 British Machine Vision Conference.Jubilee Campus:BMVC,2014.
29 Hattori H,Boddeti V N,Kitani K,Kanade T.Learning scene-specific pedestrian detectors without real data.In: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,Massachusetts:IEEE,2015.3819-3827
32 Gaidon A,Wang Q,Cabon Y,Vig E.Virtual worlds as proxy for multi-object tracking analysis.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV:IEEE,2016. 4340-4349
34 Ros G,Sellart L,Materzynska J,Vazquez D,A M. The SYNTHIA dataset:a large collection of synthetic images for semantic segmentation of urban scenes.In:Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas,NV:IEEE,2016.3234-3243
35 Movshovitz-Attias Y,Kanade T,Sheikh Y.How useful is photo-realistic rendering for visual learning?arXiv: 1603.08152,2016.
36 Haines T S F,Xiang T.Background subtraction with Dirichlet process mixture models.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(4):670-683
37 Sobral A,Vacavant A.A comprehensive review of background subtraction algorithms evaluated with synthetic and real videos.Computer Vision and Image Understanding,2014,122:4-21
38 Morris B T,Trivedi M M.Trajectory learning for activity understanding:unsupervised,multilevel,and long-term adaptive approach.IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(11):2287-2301
39 Butler D J,Wulff J,Stanley G B,Black M J.A naturalistic open source movie for optical flow evaluation.In:Proceedings of the 12th European Conference on Computer Vision(ECCV).Berlin Heidelberg:Springer-Verlag,2012.
40 Kaneva B,Torralba A,F(xiàn)reeman W T.Evaluation of image features using a photorealistic virtual world.In:Proceedings of the 2011 IEEE International Conference on Computer Vision(ICCV).Barcelona,Spain:IEEE,2011.2282-2289
41 Taylor G R,Chosak A J,Brewer P C.OVVV:using virtual worlds to design and evaluate surveillance systems.In:Proceedings of the 2007 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Minneapolis,MN,USA: IEEE,2007.1-8
42 Zitnick C L,Vedantam R,Parikh D.Adopting abstract images for semantic scene understanding.IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(4): 627-638
43 Veeravasarapu V S R,Hota R N,Rothkopf C,Visvanathan R.Model validation for vision systems via graphics simulation.arXiv:1512.01401,2015.
44 Veeravasarapu V S R,Hota R N,Rothkopf C,Visvanathan R.Simulations for validation of vision systems.arXiv: 1512.01030,2015.
45 Qingdao“Integrated Multi-Mode”Parallel Transportation Operation Demo Project.Notice from National DevelopmentandReformCommission.[Online],available: http://www.ndrc.gov.cn/zcfb/zcfbtz/201608/t20160805_ 814065.html,August 5,2016(國(guó)家發(fā)展改革委,交通運(yùn)輸部.青島市 “多位一體”平行交通運(yùn)用示范.國(guó)家發(fā)展改革委交通運(yùn)輸部關(guān)于印發(fā)《推進(jìn)“互聯(lián)網(wǎng)+”便捷交通促進(jìn)智能交通發(fā)展的實(shí)施方案》的通知[Online],http://www.ndrc.gov.cn/zcfb/zcfbtz/201608/t20160805_ 814065.html,August 5,2016)
46 Yuan G,Zhang X,Yao Q M,Wang K F.Hierarchical and modular surveillance systems in ITS.IEEE Intelligent Systems,2011,26(5):10-15
47 Jones N.Computer science:the learning machines.Nature,2014,505(7482):146-148
48 Silver D,Huang A,Maddison C J,Guez A,Sifre L,van den Driessche G,Schrittwieser J,Antonoglou I,Panneershelvam V,Lanctot M,Dieleman S,Grewe D,Nham J,Kalchbrenner N,Sutskever I,Lillicrap T,Leach M,Kavukcuoglu K,Graepel T,Hassabis D.Mastering the game of Go with deep neural networks and tree search.Nature,2016,529(7587): 484-489
49 Wang F Y,Zhang J J,Zheng X H,Wang X,Yuan Y,Dai X X,Zhang J,Yang L Q.Where does AlphaGo go: from Church-Turing Thesis to AlphaGo Thesis and beyond.IEEE/CAA Journal of Automatica Sinica,2016,3(2): 113-120
50 Huang W L,Wen D,Geng J,Zheng N N.Task-specific performance evaluation of UGVs:case studies at the IVFC. IEEE Transactions on Intelligent Transportation Systems,2014,15(5):1969-1979
51 Li L,Huang W L,Liu Y,Zheng N N,Wang F Y.Intelligence testing for autonomous vehicles:a new approach. IEEE Transactions on Intelligent Vehicles,2016,to be published
王坤峰中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室副研究員.2008年獲得中國(guó)科學(xué)院研究生院博士學(xué)位.主要研究方向?yàn)橹悄芙煌ㄏ到y(tǒng),智能視覺計(jì)算,機(jī)器學(xué)習(xí).
E-mail:kunfeng.wang@ia.ac.cn
(WANG Kun-FengAssociate professor at the State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences.He received his Ph.D.degree from the Graduate University of Chinese Academy of Sciences in 2008.His research interest covers intelligent transportation systems,intelligent vision computing,and machine learning.)
茍 超中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室博士研究生.2012年獲得電子科技大學(xué)學(xué)士學(xué)位.主要研究方向?yàn)橹悄芙煌ㄏ到y(tǒng),圖像處理,模式識(shí)別.
E-mail:gouchao2012@ia.ac.cn
(GOU ChaoPh.D.candidate at the State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences.He received his bachelor degree from the University of Electronic Science and Technology of China in 2012.His research interest covers intelligent transportation systems,image processing,and pattern recognition.)
王飛躍中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室研究員.國(guó)防科學(xué)技術(shù)大學(xué)軍事計(jì)算實(shí)驗(yàn)與平行系統(tǒng)技術(shù)研究中心主任.主要研究方向?yàn)橹悄芟到y(tǒng)和復(fù)雜系統(tǒng)的建模、分析與控制.本文通信作者.
E-mail:feiyue.wang@ia.ac.cn
(WANGFei-Yue Professor at the State Key Laboratory of Management and Control for ComplexSystems,InstituteofAutomation,Chinese Academy of Sciences.Director of the Research Center for Computational Experiments and Parallel Systems Technology,National University of Defense Technology.His research interest covers modeling,analysis,and control of intelligent systems and complex systems.Corresponding author of this paper.)
Parallel Vision:An ACP-based Approach to Intelligent Vision Computing
WANG Kun-Feng1GOU Chao1,2WANG Fei-Yue1,3
In vision computing,the adaptability of an algorithm to complex environments often determines whether it is able to work in the real world.This issue has become a focus of recent vision computing research.Currently,the ACP theory that comprises artificial societies,computational experiments,and parallel execution is playing an essential role in modeling and control of complex systems.This paper introduces the ACP theory into the vision computing field,and proposes parallel vision and its basic framework and key techniques.For parallel vision,photo-realistic artificial scenes are used to model and represent complex real scenes,computational experiments are utilized to train and evaluate a variety of visual models,and parallel execution is conducted to optimize the vision system and achieve perception and understanding of complex environments.This virtual/real interactive vision computing approach integrates many technologies including computer graphics,virtual reality,machine learning,and knowledge automation,and is developing towards practically effective vision systems.
Parallel vision,complex environments,ACP theory,data-driven,virtual/real interaction
Manuscript August 24,2016;accepted September 26,2016
10.16383/j.aas.2016.c160604
Wang Kun-Feng,Gou Chao,Wang Fei-Yue.Parallel vision:an ACP-based approach to intelligent vision computing.Acta Automatica Sinica,2016,42(10):1490-1500
2016-08-24錄用日期2016-09-26
國(guó)家自然科學(xué)基金(61533019,61304200),國(guó)家留學(xué)基金資助
Supported by National Natural Science Foundation of China(61533019,61304200)and China Scholarship Council
本文責(zé)任編委劉德榮
Recommended by Associate Editor LIU De-Rong
1.中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室北京1001902.青島智能產(chǎn)業(yè)技術(shù)研究院青島2660003.國(guó)防科學(xué)技術(shù)大學(xué)軍事計(jì)算實(shí)驗(yàn)與平行系統(tǒng)技術(shù)研究中心長(zhǎng)沙410073
1.The State Key Laboratory of Management and Control for Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 1001902.Qingdao Academy of Intelligent Industries,Qingdao 2660003.Research Center for Computational Experiments and Parallel Systems Technology,National University of Defense Technology,Changsha 410073