韓 彪, 楊衛(wèi)英, 鄭玉婷
(上海大學(xué)影視藝術(shù)技術(shù)學(xué)院,上海200072)
隨著數(shù)碼相機(jī)等數(shù)字圖像捕捉設(shè)備的普及,高分辨率的數(shù)字圖像已經(jīng)在人們的日常生活中隨處可見.出于分享信息的需要,這些高分辨率的數(shù)字圖像需要在不同的顯示設(shè)備中進(jìn)行顯示.由于數(shù)字圖像捕捉設(shè)備往往具有特定的捕捉長寬比,而手機(jī)、掌上電腦(personal digital assistant,PDA)、投影儀等顯示設(shè)備的長寬比往往與其不盡相同,這就使得圖像的捕捉和顯示之間產(chǎn)生了一定的矛盾.為了解決這種矛盾,研究人員提出了使圖像能自適應(yīng)不同長寬比的方法,即圖像適應(yīng)方法.
圖像適應(yīng)的傳統(tǒng)解決方法主要有兩種:一種是按照顯示比例對(duì)圖像進(jìn)行非等比拉伸;另一種則是按圖像比例進(jìn)行等比縮放,依據(jù)顯示大小截取中心部分.然而,這兩種解決方法都存在一定的問題.使用直接拉伸的方法,會(huì)使所獲得的適應(yīng)圖像出現(xiàn)比例失真,特別是其中的重要物體(即所關(guān)注的物體)會(huì)產(chǎn)生嚴(yán)重的扭曲.使用截取的方法,則會(huì)出現(xiàn)圖像信息的丟失,特別是當(dāng)重要物體處于畫面邊角的時(shí)候,該方法往往會(huì)丟失或改變圖像所傳遞的信息.
現(xiàn)有的圖像適應(yīng)主要分為兩個(gè)步驟:第一步是通過視覺關(guān)注度(visual attention)來定義圖像中的關(guān)注程度或視覺顯著度;第二步是根據(jù)視覺關(guān)注度的大小對(duì)圖像進(jìn)行變形.
對(duì)于視覺關(guān)注度的計(jì)算,現(xiàn)有的主要方法有Itti算法[1]、頻譜殘差(spectrum residual,SR)算法[2]和Judd算法[3].一般來說,視覺關(guān)注分為兩個(gè)部分,即從底向上(bottom-up)的關(guān)注和從頂往下(top-down)的關(guān)注[4].從底向上的關(guān)注是指我們所獲取的信息都是來源于圖像或者視覺刺激本身,這種關(guān)注過程將這樣的信息直接轉(zhuǎn)化為對(duì)視覺的關(guān)注.從頂往下的關(guān)注是指有意識(shí)參與的關(guān)注,即通過意識(shí)的顯性控制或者由先驗(yàn)知識(shí)參與控制的方式,將關(guān)注轉(zhuǎn)移到特定的地點(diǎn),通過和眼動(dòng)儀數(shù)據(jù)進(jìn)行比較,就可以大致得到該算法與人眼相關(guān)機(jī)能的相似性.Itti算法是視覺關(guān)注領(lǐng)域最經(jīng)典的算法之一,它是由 Itti等[1]在1998年提出的一個(gè)視覺關(guān)注模型.Itti算法忠實(shí)地描述了特征綜合理論,并使用顏色、方向和亮度作為特征來衡量顯著性.SR算法是由上海交通大學(xué)的Hou等[2]在2007年提出的.SR算法認(rèn)為,顯著性區(qū)域可以通過輸入的視覺刺激與頻域Log譜的先驗(yàn)知識(shí)的殘差來表示.Judd算法由美國麻省理工學(xué)院的Judd等[3]在2009年提出,是一種通過機(jī)器學(xué)習(xí)的方法來預(yù)測(cè)視覺關(guān)注的算法.Judd算法使用支持向量機(jī)的方法對(duì)大量眼動(dòng)儀數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而得到最終結(jié)果.通過這些算法得到的結(jié)果與人眼眼動(dòng)的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行比較,誤差都相對(duì)較大,對(duì)于圖像適應(yīng)的應(yīng)用前景有限.
與傳統(tǒng)圖像適應(yīng)方法類似,解決圖像變形的方法主要有圖像裁剪和變形.Santella等[5]提出的根據(jù)圖像視覺顯著性的裁剪方法,僅僅保留了圖像中用戶關(guān)注的區(qū)域,而裁剪了周圍的圖像內(nèi)容.這樣的方法會(huì)完全丟棄圖像中大量的背景信息,不能保證圖像信息的完整性.基于變形的方法主要分為兩類:一類是基于拉伸壓縮,如利用網(wǎng)格[6]、前景分割[7]的方法;另一類是基于抽絲[8]的方法.基于網(wǎng)格的拉伸算法首先建立圖像的參數(shù)化網(wǎng)格,再通過這樣的網(wǎng)格變化對(duì)圖像進(jìn)行拉伸.前景分割是先分割出前景,再將前景融合到拉伸后的背景中去.基于抽絲是先計(jì)算出圖像中能量最小的裂縫,然后抽去.現(xiàn)有的這些方法都存在數(shù)據(jù)運(yùn)算量大、算法魯棒性不足的問題.
針對(duì)以上方法存在的不足,本研究提出了一種基于視覺顯著度的圖像適應(yīng)方法,從兩個(gè)方面對(duì)圖像適應(yīng)方法進(jìn)行了改進(jìn).首先,使用一種新的視覺顯著度的度量方式,即使用加權(quán)的稀疏表達(dá)殘差作為顯著度的度量方式,該方式與人眼眼動(dòng)相比,準(zhǔn)確率更高,預(yù)測(cè)效果更好;其次,使用一種快速的加權(quán)拉伸壓縮算法,直接利用視覺顯著度圖中的信息進(jìn)行應(yīng)用,該方法的數(shù)據(jù)運(yùn)算量較小,并且具有較強(qiáng)的魯棒性.
為了確認(rèn)人眼所關(guān)注的圖像區(qū)域,需要計(jì)算圖像的視覺顯著度,并通過與眼動(dòng)數(shù)據(jù)庫的比較,來判斷得到的視覺顯著度的好壞程度.所謂眼動(dòng)數(shù)據(jù)庫,就是使用眼動(dòng)儀采集得到的人眼的眼動(dòng)數(shù)據(jù),也就是真實(shí)人眼觀察圖像所關(guān)注的地點(diǎn)的統(tǒng)計(jì).通過繪制接受者操作特征(receiver operating characteristic,ROC)曲線,并計(jì)算曲線下的面積大小就可以作為視覺顯著度好壞的評(píng)判標(biāo)準(zhǔn).
視覺顯著度的計(jì)算是計(jì)算機(jī)視覺領(lǐng)域和計(jì)算神經(jīng)科學(xué)的一個(gè)重要研究方向.本研究使用了一種加權(quán)的稀疏表達(dá)殘差算法來表示視覺顯著度,并通過以下兩個(gè)步驟得到視覺顯著性圖:①圖像的稀疏表達(dá);②加權(quán)的稀疏表達(dá)殘差的計(jì)算.
圖像的稀疏表達(dá)最初由Olshausen[9]提出,是一種人類早期視覺系統(tǒng)初級(jí)視覺皮層中簡單細(xì)胞的模型.該模型可以在一定程度上模擬人腦中處理視覺信息的過程.這個(gè)觀念在推廣到計(jì)算機(jī)視覺領(lǐng)域后,在數(shù)學(xué)家和統(tǒng)計(jì)學(xué)研究者的共同關(guān)注下,稀疏表達(dá)的概念得到了很好的推廣,且作為一個(gè)數(shù)學(xué)問題的稀疏表達(dá),也有了相應(yīng)的優(yōu)化解決方法.稀疏表達(dá)是一種最小熵編碼[9],得到的熵是整個(gè)圖像中最小的部分.當(dāng)對(duì)稀疏表達(dá)進(jìn)行還原時(shí),其還原出的圖像也是圖像中熵最小的部分,因此,通過計(jì)算原圖像和還原圖像的差值,就可得到一個(gè)最大熵的部分.研究表明,人們視覺關(guān)注的區(qū)域應(yīng)該是一個(gè)圖像中熵最大的區(qū)域,因此,原圖像和還原圖像的差值區(qū)域就是視覺關(guān)注的區(qū)域[10].
稀疏表達(dá)的第一步就是將圖像分為大小相同的塊,即圖像X={x1,x2,…,xn},其中n為圖像塊的數(shù)量.每個(gè)圖像塊可以由一組稀疏基(稀疏編碼)和字典的線性乘積得到,即
式中,D為稀疏表達(dá)中的字典,ai為稀疏表達(dá)編碼,ri為稀疏表達(dá)結(jié)果與原圖像的差值,也就是稀疏表達(dá)殘差.所謂稀疏表達(dá)就是在求最稀疏的情況下,稀疏表達(dá)殘差最小.一個(gè)矩陣的稀疏性可以由其0階范數(shù)來表示,因此,式(1)中的約束條件為
式中,λ為平衡稀疏性和數(shù)據(jù)完整性(殘差最小)的參數(shù),但這個(gè)優(yōu)化問題也是很難解決的.
2006年,Donoho[11]證明了對(duì)于大部分系統(tǒng)而言,求最稀疏的優(yōu)化問題可以由其1階范數(shù)的解來近似表示,即
該1階范數(shù)優(yōu)化問題也就是經(jīng)典的Lasso線性回歸問題,可以使用最小角度回歸(least angle regression,LARS)算法[12]解決.LARS算法是一種解決稀疏表達(dá)問題的放松算法,也是解決這類問題的常用算法.通過解決該優(yōu)化問題,就可以得到式(1)中各個(gè)參數(shù)的值,也就可以得到稀疏表達(dá)殘差.
對(duì)于使用稀疏表達(dá)進(jìn)行視覺顯著度計(jì)算這一特定的應(yīng)用,本研究提出了利用加權(quán)的稀疏表達(dá)殘差的方法來表示圖像的視覺顯著度.通過計(jì)算每一個(gè)圖像塊的稀疏表達(dá)殘差和稀疏表達(dá)編碼的乘積,可以得到每一個(gè)圖像塊的視覺顯著性圖,通過將這些視覺顯著性圖進(jìn)行組合,就得到了整個(gè)圖像的視覺顯著性圖.
以上整個(gè)稀疏表達(dá)殘差的計(jì)算過程中,尚沒有解決字典的訓(xùn)練.本研究使用上海交通大學(xué)Li等[13]提出的局部字典的方法(該方法認(rèn)為任意一個(gè)圖像塊的字典是其周邊重疊的圖像塊),可以快速地訓(xùn)練出字典,得到的稀疏表達(dá)編碼可以作為圖像塊的奇異程度的度量.該編碼在本研究中作為稀疏表達(dá)殘差的加權(quán).
圖1為本研究部分視覺顯著性圖的實(shí)驗(yàn)結(jié)果,并且與Itti算法、SR算法和Judd算法所得到的顯著性圖進(jìn)行了比較.
圖1 部分視覺顯著性圖的實(shí)驗(yàn)結(jié)果Fig.1 Some experimental results of different algorithms
通過與Bruce等[10]提供的眼動(dòng)數(shù)據(jù)庫進(jìn)行對(duì)比,本研究計(jì)算了不同算法與人眼真實(shí)眼動(dòng)的相似程度.表1為120幅圖片的眼動(dòng)數(shù)據(jù)庫ROC下面積與其他3種算法的對(duì)比結(jié)果,其值越大越好.
表1 ROC曲線下區(qū)域面積對(duì)比Table 1 Area under the curve(AUC)of ROC curve%
根據(jù)表1的結(jié)果,本研究對(duì)這4種算法作如下分析.首先,對(duì)于Itti算法,其本質(zhì)是對(duì)特征綜合理論的一種實(shí)現(xiàn),通過對(duì)各種人為提取的“特征”進(jìn)行加權(quán)綜合,得到最終的結(jié)果.這種算法成立的前提是人腦內(nèi)部通過這樣的“特征綜合理論”實(shí)現(xiàn)關(guān)注,但這種理論的正確性值得探討.其次,SR算法和Judd算法分別使用了頻譜和機(jī)器學(xué)習(xí)的方式進(jìn)行視覺顯著度的計(jì)算.這種計(jì)算方式雖然可以得到相對(duì)較好的結(jié)果,但其本身并沒有對(duì)視覺關(guān)注的本質(zhì)進(jìn)行探討,因此,并不能完全反映圖像中的顯著性.最后,對(duì)于本視覺關(guān)注算法,其基礎(chǔ)是稀疏表達(dá)理論.該理論是對(duì)人腦較為深層次的模擬,因此,本算法可能更接近人腦中發(fā)生視覺關(guān)注的本質(zhì).實(shí)驗(yàn)結(jié)果也證明,加權(quán)的稀疏表達(dá)殘差的模型在表現(xiàn)上比其他模型更能表達(dá)圖像中的顯著性.
在計(jì)算出圖像的視覺顯著性圖之后,對(duì)圖像進(jìn)行圖像適應(yīng)變形以實(shí)現(xiàn)圖像適應(yīng).本研究使用了一種快速圖像適應(yīng)變形的方法,其流程如圖2所示.
圖2 基于視覺顯著性圖的圖像適應(yīng)變形方法Fig.2 Image retargeting method based on visual saliency
圖2所示的圖像適應(yīng)變形方法的步驟如下:①將輸入圖像按照確定比例分割為橫向和縱向的圖像塊;②通過輸入顯著性圖和目標(biāo)橫縱比,計(jì)算出橫縱向所需的拉伸;③分別計(jì)算出橫向和縱向拉伸壓縮加權(quán)的權(quán)重,對(duì)圖像塊進(jìn)行加權(quán)伸縮;④ 通過合并這些伸縮結(jié)果,得到最終的伸縮圖像.
首先,根據(jù)已確定的e個(gè)像素為一個(gè)單位,將輸入圖像按橫向和縱向分為和個(gè)長條形和縱條形圖像塊,其中h和w分別為圖像的高度和寬度,這些圖像塊就是進(jìn)行適應(yīng)變形的基本單位.在本研究中,e取10像素.
接著,對(duì)顯著性圖橫向和縱向求和,得到兩個(gè)顯著性加權(quán)矩陣,通過統(tǒng)計(jì)這兩個(gè)矩陣小于某一閾值的個(gè)數(shù),確定橫向和縱向拉伸壓縮所要附加的權(quán)重.此過程可表示為
式中,Δh為高度變化的量,Δw為寬度變化的量,i和j分別為縱向和橫向顯著性加權(quán)矩陣中小于某一閾值的數(shù)量(在本研究中這一閾值的大小為0.05),ρ為目標(biāo)的橫縱比,k為未知參數(shù).通過求解式(4)的一元一次方程,得到高度變化量和寬度變化量.
為計(jì)算橫縱向變化,需分配到每一個(gè)圖像變形的基本單位,即那些以e像素為單位的長條形和縱條形圖像塊,因此,要對(duì)顯著性矩陣進(jìn)行壓縮.在本研究中,首先將顯著性矩陣進(jìn)行歸一化,然后使用最鄰近法將顯著性矩陣壓縮到原大小的,并通過該數(shù)值對(duì)每一個(gè)圖像塊進(jìn)行加權(quán)的變形處理.此過程可表示為
式中,Δym為第m個(gè)縱向像素塊的變化量,Δxm為第m個(gè)橫向像素塊的變化量,Im為矩陣I中第m個(gè)元素的值,Jm為矩陣J中第m個(gè)元素的值.在得到橫向和縱向的變化量后,對(duì)圖像塊進(jìn)行拉伸和壓縮,再將經(jīng)過拉伸和壓縮后的圖像塊合并在一起,得到最終的適應(yīng)變形圖像.由于本方法只使用了拉伸和壓縮操作,所以數(shù)據(jù)運(yùn)算量小,魯棒性強(qiáng).
本研究在Intel Core2 2.4 GHz CPU的蘋果電腦(MAC)上,使用Matlab對(duì)多種類型的圖像進(jìn)行了仿真實(shí)驗(yàn),部分結(jié)果如圖3~圖5所示.
如圖3所示,本研究分別進(jìn)行了拉伸和壓縮實(shí)驗(yàn),將原比例為4∶3的圖像分別適應(yīng)到了2∶1和3∶4的顯示比例.可以明顯地看出,使用本算法所得到的圖像對(duì)于用戶關(guān)注位置的失真更小,用戶視覺體驗(yàn)更好,基本可以做到在沒有明顯拉伸和壓縮的情況下,進(jìn)行圖像適應(yīng).
如圖4所示,本研究分別使用了不同視覺顯著性算法進(jìn)行了圖像適應(yīng)的實(shí)驗(yàn),將原比例為4∶3的圖像適應(yīng)到了2∶1的顯示比例.結(jié)果發(fā)現(xiàn),本算法具有較為明顯的優(yōu)勢(shì).為了得到以上幾種顯著性算法的時(shí)間復(fù)雜度對(duì)比,本研究使用這些算法在 Bruce等[10]提供的120幅圖像上進(jìn)行了測(cè)試,并統(tǒng)計(jì)了各算法的平均消耗時(shí)間,結(jié)果如表2所示.
圖3 與直接拉伸比較Fig.3 Comparison with resizing directly
圖4 與其他視覺顯著性算法進(jìn)行圖像適應(yīng)比較Fig.4 Comparison with other saliency methods
由表2可見,由于Itti算法和SR算法沒有使用如Judd算法中的機(jī)器學(xué)習(xí)方法,因此,其實(shí)現(xiàn)速度都相對(duì)較快.而本算法由于使用了Li等[13]提出的局部字典方法和較為經(jīng)典的Lasso問題解法,因此,實(shí)現(xiàn)速度也相對(duì)較快.
圖5 與其他圖像適應(yīng)方法比較Fig.5 Comparison with other image retargeting methods
表2 平均計(jì)算時(shí)間Table 2 Average time used for saliency computing s
如圖5所示,本研究將幾類圖像適應(yīng)方法進(jìn)行了對(duì)比.可以看到,使用直接裁剪的方法會(huì)丟失很多背景信息,而使用抽絲的方法則會(huì)造成部分圖像的扭曲變形,其魯棒性表現(xiàn)不足.本方法在盡可能保留圖像信息和保持圖像不失真的前提下,可以較好地實(shí)現(xiàn)圖像適應(yīng).
本研究提出了一種基于視覺顯著度的圖像適應(yīng)方法.由于使用了較為準(zhǔn)確的視覺顯著度模型,因此,本方法對(duì)于用戶視覺感知的表現(xiàn)良好.在圖像適應(yīng)變形方面,本研究使用了一種快速魯棒的方法,可以在平衡圖像信息保存和圖像失真的前提下,進(jìn)行更好的圖像適應(yīng).
在未來的研究中,將進(jìn)一步嘗試將這樣的方法轉(zhuǎn)移到時(shí)域中去,通過對(duì)視覺顯著度的進(jìn)一步研究來實(shí)現(xiàn)對(duì)視頻信息的適應(yīng)化處理.
[1] ITTIL,KOCHC,NIEBURE.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[2] HOUX,ZHANG L.Saliency detection:aspectral residual approach[C]∥ The 20th IEEE Conference on Computer Vision and Pattern Recognition.2007:1-8.
[3] JUDDT,EHINGERK,DURANDF,et al.Learning to predict where humans look[C]∥ 2009 International Conference on Computer Vision.2009:2106-2113.
[4] YANTISS.Control of visual attention[M].London:Psychology Press,1998:223-256.
[5] SANTELLAA,AGRAWALAM,DECARLOD,et al.Gaze-based interaction for semi-automatic photo cropping[C]∥ Proceedings of the 2006 Conference on Human Factors in Computing Systems.2006:771-780.
[6] 時(shí)健,郭延文,杜振龍,等.一種基于網(wǎng)格參數(shù)化的圖像適應(yīng)方法[J].軟件學(xué)報(bào),2008,19(Z1):19-30.
[7] SETLURV,LECHNER T,NIENHAUSM,etal.Retargeting images and video for preserving information saliency [J]. IEEE Computer Graphics and Applications,2007,27(5):80-88.
[8] AVIANS,SHAMIRA.Seam carving for content-aware image resizing[J].ACM Transactions on Graphics,2007,26(3):267-276.
[9] OLSHAUSENB.Emergence of simple-cell receptive field properties by learning a sparse code for natural images[J].Nature,1996,381(6583):607-609.
[10] BRUCEN,TSOTSOSJ.Saliency based on information maximization[C]∥Advances in Neural Information Processing Systems.2006:155-162.
[11] DONOHOD.For most large underdetermined systems of equations,the minimal l1-norm near-solution approximates the sparsest near-solution[J].Communications on Pure and Applied Mathematics,2006,59(7):907-934.
[12] EFRONB,HASTIET,JOHNSTONEI,et al.Least angle regression[J].The Annals of Statistics,2004,32:407-499.
[13] LIY,ZHOUY,XUL,et al.Incremental sparse saliency detection[C]∥ The International Conference on Image Processing.2009:3093-3096.