蘇 群,林春雨,趙 耀,李雅茹,劉美琴
?
基于多角度分割的360全景圖的顯著性檢測
蘇 群1,2,林春雨1,2,趙 耀1,2,李雅茹1,2,劉美琴1,2
(1. 北京交通大學計算機與信息技術學院信息所,北京 100044; 2. 現(xiàn)代信息科學與網(wǎng)絡技術北京市重點實驗室,北京 100044)
與常規(guī)2D圖像不同,360全景圖包含當前空間的全部視覺信息,因而在視頻監(jiān)控和虛擬現(xiàn)實等領域有著廣泛的應用,然而用戶在某一時刻只能觀看到一定的視角,因此,360全景圖的顯著性區(qū)域檢測對于視角預測至關重要。為此,提出了多角度分割的360全景圖的顯著性檢測。首先將全景圖進行多角度分割,將分割結果分別投影到立方體上以去除一定畸變;然后對每個立方體面通過稠密稀疏重建進行顯著性計算;最后再將每個面的顯著圖投影到經(jīng)緯映射方式的矩形上,進行多角度融合以獲得最終的顯著圖。通過人工標注的全景圖顯著區(qū)域進行實驗對比,結果表明該算法可以準確檢測出360全景圖的顯著區(qū)域,并優(yōu)于當前先進算法。
360全景圖;顯著性檢測;多角度分割;稠密重構誤差;稀疏重構誤差
視覺顯著性與生物系統(tǒng)獨特的感知機制有關,使場景中的某個區(qū)域脫穎而出,引起人們的注意。而人眼所固有的強大能力是迅速捕捉場景中最明顯的區(qū)域,并將其傳遞到高層次的視覺皮層,這種注意選擇機制大大降低了視覺分析的復雜性,從而使人類視覺系統(tǒng)在復雜場景中識別物體的效率顯著提高。許多生物學上的模型已經(jīng)用來解釋人類和動物的認知過程。高效顯著性檢測在許多計算機視覺任務中起著重要的預處理作用,包括圖像分割、圖像分類、目標識別與檢測、圖像壓縮等。
以往關于顯著性檢測的研究主要集中在傳統(tǒng)圖像上?,F(xiàn)有的顯著性大多采用對比機制,主要分為全局對比和局部對比。局部對比度的算法有ITTI等[1]模擬和預測人類對圖像的視覺定位研究;RAHTU等[2]通過測量整個圖像上的滑動窗口的中心-周圍對比度進行顯著性檢測。全局對比的算法有CHENG等[3]提出的基于空間加權特征差異的全局對比度顯著性算法;BORJI和ITTI[4]提出全局顯著性計算與整個場景中出現(xiàn)的區(qū)域概率成反比。ACHANATA等[5]的頻譜殘差法基于全局對比度,通過分析頻域中顯著區(qū)域的特征建立一幅顯著圖。文獻[6]則用稠密稀疏重構(dense and sparse reconstruction,DSR)進行顯著性檢測,首先利用簡單線性迭代聚類(simple linear iterative clustering,SLIC)算法對彩色圖像進行多尺度分割,并取圖像邊界的超像素作為背景集;接著對每個超像素計算稠密、稀疏重構誤差;然后,對上述兩個重構誤差利用均值聚類的方法進行了基于上下文的平滑處理;最后,用貝葉斯準則和高斯模型進行多尺度融合,得到了一個全分辨率的顯著圖。
上述顯著性算法主要針對傳統(tǒng)圖像,但隨著VR技術的快速發(fā)展,360全景圖廣泛應用在各個領域。比如,旅游景區(qū)的360全景展示,用戶足不出戶,帶上頭戴設備HMD (head mount display)可觀看整個場景空間的所有圖像信息,身臨其境。但通過HMD觀看360全景圖時,如何能快速定位到感興趣區(qū)域呢?因此,獲取全景圖的視覺注意力機制變得越來越重要。與傳統(tǒng)圖像相比,全景圖的分辨率更高,寬度是高度的2倍;一個典型的全景圖像包括天空、山、水、地面等幾個均勻的背景區(qū)域且分布水平細長,以及多個不同特征和尺寸的前景物體,并任意分布在圖像中[7]。目前大多數(shù)全景圖是以2:1的平面矩形圖[8](equi-rectangular projection,ERP)存儲和展現(xiàn)的(圖1),其本質是將球面圖的上下兩極拉伸成圓柱體,然后展開成平面矩形,但這種投影方式使全景圖上下兩邊發(fā)生畸變,用普通的顯著性算法并不能準確的檢測出360全景圖的顯著性。另一種常見的立方體投影(cube)方式,是通過把球面上的點徑向投影到外切球體的立方體的6個面上(圖2),然后展開6個面而獲得的,可有效地去除上下兩邊畸變的影響[9]。綜上,本文提出了一種基于多角度分割的360全景圖的顯著性算法??紤]到360全景圖沒有邊界,先將360全景圖進行多角度切割;并改用立方體映射的方法將全景圖映射到6個面上,分別對每個面處理;DSR采用邊界上的區(qū)域作為背景,但是在全景圖中沒有邊界,本文采支持向量機(support vector machine,SVM)分類器訓練模型來獲取背景集;然后用稠密稀疏重建誤差來計算顯著性;最后將6個面的顯著圖重新映射到矩形圖上并進行多角度融合獲得最終的顯著圖。
圖1 矩形平面投影示意圖
圖2 立方體投影示意圖
本文由以下部分組成:
(1) 360全景圖的多角度分割及立方體映射;
(2) 用SVM分類器訓練模型獲取背景集;
(3) 用稠密稀疏重建誤差計算顯著圖,并多角度融合得到最終的顯著圖;
(4) 為了驗證顯著性的準確性,人工標注了20個真值圖供對比參考。
與普通圖像不同,360全景圖通常包括多個不同特征、不同尺寸的前景目標,且分布在圖像的不同區(qū)域。ERP格式的全景圖,其上下邊界有嚴重畸變,通過立方體映射可以去除畸變的影響;使用多角度切割是因為全景圖沒有邊界,對于一幅ERP格式的全景圖,沿著經(jīng)線切開后,左邊圖像移到右邊,重新拼接形成同一幅全景圖。圖3顯示了多角度分割以及立方體映射的過程。本文將圖3(a)中ERP格式的全景圖從不同角度(如:-90°,90°,180°,0°)切開重組成4種同一場景下的全景圖 (圖3(b)),再將其分別映射到立方體6個面上。以從180°切開為例(圖3(c)),顯示了立方體的6個面。
圖3 多角度切割及立方體映射
本文的顯著性檢測是基于上述背景模型的稠密稀疏重構誤差估計的過程。稀疏表示在過去近20年來主要應用于信號處理方面,其本質是構建一個超完備字典,用字典中的基函數(shù)來線性表示信號樣本,目的是盡可能用較少的元素來獲取信號中包含的信息。近年來,其在計算機視覺中也有廣泛應用,在圖像處理中,可以理解為任何圖像都能被有限個自然圖像塊線性表示。但稀疏表示在計算顯著性時存在一些不足[3]。例如,部分前景會被分割到背景集中,是因為前景目標出現(xiàn)在了圖像的邊界處,而此時,若用該背景集對前景目標進行稀疏表示,會由于已經(jīng)包含了部分前景,從而使得重構誤差變小,顯著性接近于0,將該前景誤檢測成背景;同樣,其他部分的顯著精度也會降低;如圖4(b)的第二行第一個圖,部分前景目標未能檢測出來;而稠密表示是在特征空間中對背景集建模,從而計算重構誤差,但由于背景集有限,在進行顯著性計算時會產(chǎn)生較大的誤差,如圖4(b)第一行第一個圖,受背景影響較大,但能很好地處理位于圖像邊界處的前景目標??偟膩碚f,稀疏重構誤差對于處理復雜的背景更加魯棒,而稠密重建誤差能更精確地處理圖像邊界處的分塊,稠密稀疏重建誤差在測量顯著性方面是相輔相成的。因此,本文用稠密稀疏表示來重建誤差。
首先根據(jù)上述的背景集構造背景字典,基于背景字典重建所有圖像區(qū)域,分別用稠密和稀疏表示,將各個圖像分塊投影在背景字典上,并獲得重建系數(shù),然后計算該系數(shù)下的重構誤差,最后將重建誤差歸一化到[0,1]的范圍。
對于稠密重構誤差的計算,基于背景模型的重建誤差較大的分塊更有可能為前景。本文用主成份分析(principal component analysis,PCA)對背景模型= [1,2,3,···,b],R×進行降維提取主要特征,計算其特征向量=[1,2,3,···,U],稠密重構誤差為
稀疏重構誤差,則利用基于稀疏表達的分類(sparse representation based classifier,SRC)的基本原理,以背景樣本集為字典對超像素進行稀疏重構,其重構公式為
在已獲得2個重構誤差的基礎上,采取第一步的處理,如圖4(b)所示,用均值聚類算法對所得的顯著圖進行基于上下文的誤差傳播機制處理,然后對特征空間中的相鄰區(qū)域加權均值處理,采用多尺度分割超像素及重建誤差,通過高斯模型來獲得像素級的顯著性,最后得到6個面的全分辨率的顯著圖,如圖4(c)所示。接下來第二步處理,由于用戶觀看全景視頻時,每個面被看到的概率不一樣,因此,本文先對每個面的顯著圖通過顯著部分在該面上的的面積占比與該顯著圖的最大最小值的差的歸一化加權求權重。具體如下:
(2) 得到每個面的權重后,把每幅圖的6個面按權重比例重新映射成ERP格式的全景圖,最后,將同一場景的4種顯著圖重組成從0°切開的圖像顯示,并求平均得到最終的顯著圖(圖5)。觀看全景圖時,圖片內容一定程度上決定了用戶的觀看視角,即每個區(qū)域被看到的概率不相等,在不同分割情況下的觀看情況也不一樣,若有歷史的頭部運動數(shù)據(jù),則可根據(jù)歷史數(shù)據(jù)建立模型得出每種分割情況的觀看權重,然后根據(jù)各自的權重去融合,本文方法和數(shù)據(jù)集中沒有歷史頭部數(shù)據(jù)問題,此時平均法是最簡單有效的方案?,F(xiàn)有的顯著性算法大多認為前景目標位于圖像中間,用傳統(tǒng)的顯著性算法處理全景圖的6個面,通過立方體投影到全景圖后會產(chǎn)生明顯的邊界效應,而通過多角度融合,可以較好地平滑邊界處的灰度值。
圖4 顯著性檢測過程圖
為了尋求一個最優(yōu)的多角度分割,本文對20張全景圖在不同分割次數(shù)下進行實驗,其中,分割次數(shù)分別為=1、2、4、6、8、10,得到的顯著圖為Sal(=1,2,4,6,8,10),然后計算出人工標注的真實值與實驗結果的差值并求出每個像素的平均差值。差值越小,說明顯著圖與人工標注越接近,則該分割次數(shù)下得到的結果更精確。統(tǒng)計結果如圖6所示,分割次數(shù)為4的時候差值最小,約為26.2,可以計算出平均每個像素的準確率為0.897 (1–26.2/255=0.897),因此,本文將全景圖從4種不同角度分割。
圖5 合成顯著圖
圖6 分割尺度統(tǒng)計結果圖
將立方體映射后的6個面對應到2:1的平面圖上后,大概位置如圖7所示。圖中的U(up)、D(down)、L(left)、F(front)、R(right)、B(back)分別對應立方體的上、下、左、前、右和后邊。藍色邊界及藍色字體表示分割前;紅色邊界及紅色字體表示分割重組后??梢杂^察到,當進行4種不同角度分割時,沿著第一條虛線切開后,重新拼到圖像的右邊,位于原來邊界上的目標A經(jīng)過分割重組后位于R面的中央,因此,通過顯著性檢測后的多角度融合可以有效去除邊界的影響。若分割次數(shù)過多,會造成過多的冗余,而且計算成本大。綜合來看,從4種不同角度分割最適宜。
圖7 分割前后對比圖
顯著性的實驗結果評估,包括正確率(Precision)-召回率(Recall)以及值(-measure)。其中,Precision的值表示檢測出的正確顯著像素占提取出的所有區(qū)域的像素的比例,Recall的值表示檢測出的正確顯著像素占標準顯著圖中所有應被檢測出的像素的比例,PR曲線表明,對于不同的二值顯著性閾值(0-255),該實際顯著圖與標注數(shù)據(jù)(Ground Truth)的吻合程度如何。正確率(Precision)- 召回率(Recall)定義為
本文從網(wǎng)上搜集了20張360全景圖,并進行了人工標注。為了驗證本文算法的有效性,把本文的方法與FT[5]、SR[12]、SIM[13]、CA[14]、HC[3]、GC[15]、SDSP[16]和DSR[6]等算法做了比較。圖8是PR曲線圖,最上邊紅色的曲線是本文的方法,可以看出,本文的方法對360全景圖顯著性檢測的優(yōu)越性,比現(xiàn)有的顯著性檢測方法具有更高的正確率和召回率。圖9顯示了以上方法的-measure對比,可以看出,本文提出的方法比其他方法有更高的-measure值,說明本文算法的精度最高。圖10是主觀的展示了以上方法的視覺對比效果,可以直觀的看出本文的顯著性算法更有效。
圖8 PR曲線
圖9 F-measure對比圖
圖10 顯著性圖的視覺對比效果
本文主要貢獻有:①引入多角度分割和立方體映射;②利用SVM分類器建立背景集,同時引入新的顏色特征,采用Lab和RGB的平均顏色特征以及最大、最小、平均灰度值表示每個超像素,即={,,,,,,,,};③進行立方體逆映射及多角度融合。
本文提出了一種基于多角度分割的360全景圖的顯著性檢測算法。首先將360全景圖進行多角度切割,將其分別投影到立方體上,去除畸變;再對每個面通過稠密稀疏重建計算顯著性,最后再將每個面的圖片投影到矩形上,進行多角度融合。實驗結果表明,本文提出的顯著性檢測算法更適用于360全景圖,與現(xiàn)有的顯著性方法相比較,本文算法有更高的正確率、召回率以及F-measure值。
[1] ITTI L, KOCH C, NIEBYR E. A model of saliency- based visual attention for rapid scene analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.
[2] RAHTU E, KANNAL J, SALO M, et al. Segmenting salient objects from images and videos [C]//European Conference on Computer Vision. Berlin: Springer, 2010: 366-379.
[3] CHENG M M, ZHANG G X,MITRA N J, et al. Global contrast based salient region detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.
[4] BORJI A, ITTI L. Exploiting local and global patch rarities for saliency detection[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2012: 478-485.
[5] ACHANATA R, HEMAMI S, ESTRADA F, et al. Frequency-turned salient region detection [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 1597-1604.
[6] LI X H, LU H C, ZHANG L H, et al. Saliency detection via dense and sparse reconstruction[C]//IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2013: 2976-2983.
[7] ZHU C B, HUANG K, LI T H. Automatic salient object detection for panoramic images using region growing and fixation prediction model[EP/OL]. [2018-02-10]. http://cn.arxiv.org/abs/1710.04071.
[8] VISHWANATH B, NANJUNDASWANY T, ROSE K. Rotational motion model for temporal prediction in 360 video coding [C]//IEEE 19th International Workshop on Multimedia Signal Processing (MMSP). New York: IEEE Press, 2017: 1-6.
[9] 董振江, 張東卓, 黃成, 等. 虛擬現(xiàn)實視頻處理與傳輸技術[J]. 電信科學, 2017, 33(8): 45-52.
[10] LI Z H, TANG J H. Weakly supervised deep matrix factorization for social image under- standing [J]. IEEE Transactions on Image Processing, 2017, 26(1): 276-288.
[11] LI Z C, TANG J H. Unsupervised feature selection via nonnegative spectral analysis and redundancy control [J]. IEEE Transactions on Image Processing, 2015, 24(12): 5343-5355.
[12] HOU X D, ZHANG L Q. Saliency detection: a spectral residual approach [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2007: 1-8.
[13] RUBINSTEIN M, JOULIN A, KOPF J, et al. Unsupervised joint discovery and segmentation in internet images [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2013: 1939-1946.
[14] GOFERMAN S, ZELNIK-MANOR L, TAIL A. Context-aware saliency detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(10): 1915-1926.
[15] CHENG M M, WARRELLJ, LIN W Y, et al. Efficient salient region detection with soft image abstraction [C]// IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2013: 1529-1536.
[16] SEO H J, MILANFAR P. Static and space-time visual saliency detection by self-resemblance [J]. Journal of Vision, 2009, 9(12): 15-15.
Salient Detection of 360 Panorama Based on Multi - Angle Segmentation
SU Qun1,2, LIN Chunyu1,2, ZHAO Yao1,2, LI Yaru1,2, LIU Meiqin1,2
(1. Institute of Information Science, Beijing Jiaotong University, Beijing 100044, China; 2. Beijing Key Laboratory of Advanced Information Science and Network, Beijing 100044, China)
Unlike conventional 2D images, 360 panorama contains all the visual information of the current space, so it has a wide range of applications in video surveillance and virtual reality. However, a certain angle is available at a certain time. Therefore, the significant region detection of the 360 panorama is very important to visual angle prediction. To solve this problem, we propose a multi-angle segmentation based 360 panoramic image saliency detection. Firstly, the panoramic images are cut at multiple angles, and the segmentation results are projected to the cube to remove certain distortion. Then, the salient calculation is conducted for each cube surface through dense and sparse reconstruction. Finally, the saliency images of each surface are projected to the rectangular of the warp and weft mapping, and multi-angle fusion is made to obtain the final salient figure. The results of the 360 panorama test by manual annotation show that the algorithm can accurately detect the saliency and is better than the other methods for the saliency detection of the 360 panorama.
360 panorama; saliency detection;multi-angle segmentation; dense reconstruction error; sparse reconstruction error
TN919.81
10.11996/JG.j.2095-302X.2018061055
A
2095-302X(2018)06-1055-07
2018-04-16;
2018-07-24
國家自然科學基金項目(61772066);中央高?;究蒲袠I(yè)務費專項資金項目(2018JBM011)
蘇 群(1993-),女,山西運城人,碩士研究生。主要研究方向為多媒體處理。E-mail:16125146@bjtu.edu.cn
林春雨(1979-),男,遼寧綏中人,副教授,博士。主要研究方向為多媒體信息處理。E-mail:16125146@bjtu.edu.cn