盧曉勇,游 斌,林珮瑜,陳木生
(1.南昌大學(xué) 軟件學(xué)院,南昌 330047; 2.元智大學(xué) 資訊傳播學(xué)系,臺灣 桃園 32003)
(*通信作者電子郵箱452321759@qq.com)
基于數(shù)字相機和時間心理視覺調(diào)制的增強現(xiàn)實技術(shù)
盧曉勇1,游 斌1*,林珮瑜2,陳木生1
(1.南昌大學(xué) 軟件學(xué)院,南昌 330047; 2.元智大學(xué) 資訊傳播學(xué)系,臺灣 桃園 32003)
(*通信作者電子郵箱452321759@qq.com)
為了拓展增強現(xiàn)實(AR)的實用性,提出一種基于時間心理視覺調(diào)制(TPVM)技術(shù)和數(shù)字相機來實現(xiàn)AR效果的方法。首先將AR中的標(biāo)記嵌入數(shù)字屏幕的媒體內(nèi);然后利用人眼識別感知與數(shù)字相機拍攝圖像形成在數(shù)字屏幕或者投影儀上原理的差異,使用數(shù)字相機設(shè)備獲取數(shù)字屏幕圖像內(nèi)人眼不易察覺的AR標(biāo)記;最后在獲取標(biāo)記的智能設(shè)備中顯示AR效果。仿真結(jié)果顯示,將數(shù)字相機與TPVM技術(shù)相結(jié)合,能夠很好地將AR標(biāo)記隱藏在影像中,同時人眼無法察覺,而數(shù)字相機則能準(zhǔn)確地識別AR標(biāo)記并實現(xiàn)AR效果。通過手機替代3D眼鏡等額外設(shè)備,降低了AR的使用限制,拓展其實用性。
增強現(xiàn)實;時間心理視覺調(diào)制;感知;數(shù)字相機
增強現(xiàn)實(Augmented Reality, AR)是一種把虛擬世界信息添加到用戶視覺感官上再來觀察真實世界信息的技術(shù),其通過計算機加上相應(yīng)的圖像技術(shù)將真實的環(huán)境和虛擬的物體實時地疊加到了同一個畫面或存在于同一個空間內(nèi)[1]。
Wu等[2]于2013年首次提出時間心理視覺調(diào)制(Temporal Psycho Visual Modulation, TPVM)的概念用于實現(xiàn)AR,其方法是將高刷新的光學(xué)顯示與非負(fù)矩陣分解相結(jié)合以達(dá)到不同條件下具有差異化的觀看效果。該方法是基于視覺心理物理學(xué)(psycho-physics of vision)的一個認(rèn)知:人眼視覺系統(tǒng)(Human Visual System, HVS)在多數(shù)情況下,無法察覺到超出60 Hz的光信號變化,同時利用投影儀或顯示器可以超過60 Hz刷新率的機制,例如120 Hz或更高[3]。繼而使用特殊的3D眼鏡,針對不同的人群可以獲取特定幀的圖像信息,以達(dá)到增強現(xiàn)實的效果。在該技術(shù)提出后的一段時間內(nèi),許多研究者對此進(jìn)行了更深入的研究并且進(jìn)一步拓展其應(yīng)用。Hu等[4]在TPVM的基礎(chǔ)上,提出在觀看同一視頻時,針對不同的用戶需求能夠獲取不同語種字幕的應(yīng)用。該方法雖然能夠滿足不同用戶對字幕的要求,但是不同字幕同時呈現(xiàn)在顯示設(shè)備上會影響原始影像的顯示效果。而在此基礎(chǔ)上Zhai等[5]又將數(shù)字信息與視頻相結(jié)合,做到防止影像偷拍的應(yīng)用??墒?,在完成防偷拍目的的同時,由于對普通影像進(jìn)行的處理會使得正常人眼觀察到的圖像與原始圖像存在一定的差異,實用性略有欠缺。Hu等[6]還利用該想法實現(xiàn)在顯示器中顯示的圖像文字等信息與普通人眼觀察的不同,以保證在公眾場合對顯示文字或圖像信息的機密性。該方法雖然巧妙地實現(xiàn)了信息的多樣性和安全性,但是需要佩戴價格不菲的3D眼鏡,實用性受到一定限制。隨著智能手機設(shè)備的普及,如果能利用手機內(nèi)置的數(shù)字相機結(jié)合TPVM技術(shù)實現(xiàn)增強現(xiàn)實效果,便能大大降低使用成本,增強實用性。
本文基于上述想法提出一種解決方案:通過對普通影像進(jìn)行處理,使得人眼視覺在數(shù)字顯示器或者投影儀中能正常觀察沒有標(biāo)記的原始影像,而使用數(shù)字拍攝裝置智能設(shè)備能夠捕捉到帶有標(biāo)記的圖像,從而達(dá)到佩戴3D眼鏡的效果。為了實現(xiàn)這個效果,特別設(shè)計了一個增強現(xiàn)實標(biāo)記(AR標(biāo)記)[7-8]嵌入方式。AR標(biāo)記是一個參考標(biāo)簽標(biāo)記系統(tǒng),是用以完成增強現(xiàn)實效果的一種必要手段[9-10]。本文提出的AR標(biāo)記嵌入方式是將數(shù)字相機與TPVM技術(shù)相結(jié)合以實現(xiàn)增強現(xiàn)實效果的有效手段。由于現(xiàn)在幾乎人手一臺的智能手機都標(biāo)配了數(shù)字相機,本文方法的使用去除了之前研究文獻(xiàn)中所使用的價格不菲的額外設(shè)備,大大降低了AR技術(shù)的使用限制,從而拓展了TPVM的實用性。
TPVM是Wu等[3]在2013年才提出的一種顯示技術(shù),該技術(shù)基于視覺心理物理學(xué)原理,巧妙地利用人眼視覺系統(tǒng)與數(shù)字相機成像系統(tǒng)的差異,將帶有特殊信息的數(shù)據(jù)嵌入影像中,在高頻率刷新的顯示器中循環(huán)播放使用非負(fù)矩陣分解設(shè)計形成圖像的原子幀,使得不同的觀看者通過佩戴調(diào)制后的設(shè)備在觀察同一個顯示器時獲取特殊信息或不同感知圖像的目的。TPVM通過以下方式實現(xiàn):通過使用特殊的液晶眼鏡加權(quán)在高速播放顯示器中的原子幀,再根據(jù)觀察圖像進(jìn)行權(quán)重調(diào)整用以衰減原子幀的光強度,然后形成所需的圖像。設(shè)Y為人眼所觀察到的圖像,X為高速循環(huán)播放的原子幀,W為權(quán)重且在0到1之間,液晶眼鏡通過Y=XW的方式進(jìn)行信息分解。由于像素值和特殊的液晶眼鏡無法實現(xiàn)負(fù)值或負(fù)權(quán)重,在信號分解時Y=XW必須是一個非負(fù)矩陣分解。TPVM顯示系統(tǒng)解決了以下顯示問題:即在重建目標(biāo)圖像Y的最佳可視化情況下,找到在高速播放的顯示器中的原子幀,同時確定在同步顯示的液晶眼鏡上的調(diào)制矩陣即權(quán)重W。
如前文所述,文獻(xiàn)[4-5,11]等將TPVM應(yīng)用于信息隱藏、打擊盜版、信息安全等方面,但這些系統(tǒng)都需要佩戴特殊的3D眼鏡,使得在顯示器中顯示的圖像文字等信息與普通人眼觀察的內(nèi)容產(chǎn)生一定的差異。這幾種方法雖然巧妙地避開了信息的泄露,保護(hù)了信息的安全,打擊了盜版行為,但是需要佩戴價格不菲的3D偏振眼鏡,實用性受到一定限制。
本文方法主要結(jié)合TPVM技術(shù)與AR標(biāo)記設(shè)計一個人眼不易察覺的附有增強現(xiàn)實影片的方法。人眼和數(shù)字相機成像之間存在一定差異:人眼視覺系統(tǒng)需要連續(xù)光場以形成一個穩(wěn)定的完整圖像;而對于數(shù)字成像照相機,不管其傳感器類型是光電荷耦合器件(Charge-Coupled Device, CCD)還是互補金屬氧化物半導(dǎo)體(Complementary Metal Oxide Semiconductor, CMOS)集成電路[12],其成像傳感器的電荷清洗過程和拍攝參數(shù)設(shè)置過程都需要短暫的時間,所以在使用者按下快門后到圖像拍攝完畢期間會存在延時情況。這樣數(shù)字成像與人類視覺系統(tǒng)所產(chǎn)生的影像就有了不同?;谠摬顒e,本文結(jié)合TPVM和AR技術(shù)設(shè)計一種方法使得人眼和數(shù)字相機捕捉到截然不同的圖像。假設(shè)人眼不受影響的關(guān)鍵閃爍頻率是60 Hz,投影儀的刷新率為120 Hz,則投影儀能夠發(fā)射一對不會引起人眼閃爍感覺的關(guān)鍵幀。需要注意的是,DLP (Digital Light Processing)[13]投影技術(shù)的刷新率并不只限制于120 Hz。
圖1顯示了本文方法的體系結(jié)構(gòu)。首先將原始幀基于TPVM和AR技術(shù)加以處理后呈現(xiàn)在120 Hz刷新率的顯示器上。當(dāng)人們在瀏覽顯示器顯示的圖片時,普通情況下觀察到的影像與原始幀是一致的;但是,當(dāng)通過手機的數(shù)字相機看屏幕在播放的影像時,手機會捕捉到AR標(biāo)記并在屏幕上顯示AR效果。
圖1 本文方法的體系結(jié)構(gòu)Fig. 1 Architecture of the proposed scheme
令I(lǐng)和T分別表示原始圖像和AR標(biāo)記圖像;針對120 Hz的顯示器或者投影儀產(chǎn)生一對奇偶數(shù)幀,分別用A和B來表示。首先,對于觀察者來說,顯示器或者投影儀等設(shè)備所發(fā)射的奇偶數(shù)幀應(yīng)該能夠使其正常觀察到影像[14];其次,最大程度上使得照相設(shè)備能夠捕捉到AR標(biāo)記圖像。為了達(dá)到AR的效果,意味著需要增加A、B和I之間的距離。這里,基于TPVM的顯示機制需要滿足以下式子:A=I-T以及B=I+T,這樣能夠使得顯示出的影像為沒有影響的一對幀。對于8-bit的RBG圖像A、B和I,它的灰度值應(yīng)該在[0,255],所以T需要調(diào)整,使得奇偶數(shù)幀的灰度值在[0,255]范圍內(nèi)。最后,人眼會觀察到通過混合圖像的補圖像A+B=2I??墒?,對于大多數(shù)的顯示器或投影儀來說,亮度和灰度呈非線性關(guān)系。也就是說,人的眼睛無法接受直接調(diào)節(jié)灰度值和亮度的顯示結(jié)果。下面分別介紹嵌入和讀取的方法。
2.1 嵌入AR標(biāo)記
(1)
(2)
AR系統(tǒng)需要將數(shù)字相機獲取的AR標(biāo)記與計算機內(nèi)記錄的標(biāo)記進(jìn)行匹配,當(dāng)獲取的特征值達(dá)到閾值則認(rèn)為匹配成功。這里讓TY表示原始標(biāo)記所有的特征點,TZ表示相機獲取的特征點,誤差TW=TY-TZ,誤差率TL=TW/TY,誤差率越低表示識別越準(zhǔn)確。根據(jù)誤差率確定嵌入權(quán)重ω的選擇。
圖2 基于TPVM的AR標(biāo)記結(jié)構(gòu)模型Fig. 2 AR tag structure model based on TPVM
2.2 讀取AR標(biāo)記
由于更新頻率為120 Hz比較高,當(dāng)使用手機拍攝時,嵌入的標(biāo)記只會存在于部分時間段內(nèi)的影片中,需要在短時間內(nèi)對影像獲取嵌有AR標(biāo)記的圖像,所以這里選取一些快速的處理方法進(jìn)行處理。對于在顯示器上播放的影像,使用智能手機一秒4幀拍攝4張圖像,令其為P1、P2、P3和P4。獲取圖像后,運用圖像增強和二值化方式將這4張圖像進(jìn)行下列計算處理,以得到能使AR掃描的二值化圖像。
1)利用彩色轉(zhuǎn)灰度算法將這4張RGB圖像轉(zhuǎn)為Gary圖像,令其為G1、G2、G3和G4。
2)由于獲得的灰度圖像黑白兩色的對比不夠明顯,故當(dāng)手機掃描時,不容易產(chǎn)生AR效果。為了使提升灰度圖像的黑白對比效果并縮短計算的時間,選擇進(jìn)行直方圖灰度拉伸的方法對圖像進(jìn)行增強。針對該灰度圖像,分別計算獲取各個圖像的直方圖H1、H2、H3和H4。
3)令Gn(x,y)為Gn在 (x,y)圖像位置,n(n=1, 2, 3, 4)為輸入的圖像編號,[a,b]為直方圖內(nèi)灰度值最多落入的區(qū)域,依式(3)將直方圖拉伸至[0, 255]的區(qū)域:
n∈{1,2,3,4}
(3)
設(shè)L為目標(biāo)與背景的分割閾值,取值范圍為該圖像的最小灰度值與最大灰度值之間的值。目標(biāo)點數(shù)占圖像比例為m1,平均灰度為s1;背景點數(shù)占圖像比例為m2,平均灰度為s2。圖像的總平均灰度為:
s=m1×s1+m2×s2
(4)
依式(5)計算出前景和背景圖像的方差:
σ2(L)=m1(s1-s)2+m2(s2-s)2
(5)
這里,當(dāng)類間方差最大時閾值L則為所求。
4)掃描處理后的二值化圖像,獲取需要的AR效果并呈現(xiàn)于手機上。
依照上述計算處理,可對每張影片的幀嵌入AR標(biāo)記,來獲得具有不可察覺AR的連續(xù)影片,把TPVM與AR技術(shù)相結(jié)合,將AR標(biāo)記隱藏在圖像中,人眼無法察覺,而使用智能移動設(shè)備依然能夠獲取AR效果。
在實驗階段使用的計算機軟硬件環(huán)境如下:CPU的型號為Intel 酷睿i5 6300HQ,主頻為2.3 GHz,內(nèi)存為8 GB,使用Matlab R2015a軟件進(jìn)行編譯并對圖像進(jìn)行處理。選擇如圖3所示的圖像作為一個幀F(xiàn)和一個AR標(biāo)記T。對于F復(fù)制產(chǎn)生與之相同的4張子幀。
圖3 幀F(xiàn)和AR標(biāo)記TFig. 3 Frame F and AR tag T
針對第三張幀F(xiàn)3,將T嵌入進(jìn)圖像中。首先,對于F,計算出其對應(yīng)的灰度值的平均值為202。為了使得識別誤差更小、顯示效果更好,對于嵌入權(quán)重的選擇給出如下建議:
AR標(biāo)記T有31個特征點,設(shè)置嵌入權(quán)重分別為0.75,0.80,0.85,0.90和0.95時,處理后局部帶有的AR標(biāo)記如圖4所示,各權(quán)重下對特征點獲取的誤差數(shù)據(jù)如表1所示。可以看出當(dāng)嵌入權(quán)重為0.85時,手機掃描到28個特征點,誤差為3,誤差率為9.67%,此時最優(yōu),故建議選擇該參數(shù)。
圖4 不同嵌入權(quán)重的嵌入結(jié)果Fig. 4 Embedding results with different embedding weights表1 不同權(quán)重的誤差與誤差率對比Tab. 1 Comparison of errors and error rates with different weights
權(quán)重參數(shù)獲取特征點數(shù)誤差誤差率是否識別0.7519120.387否0.802560.194是0.852830.097是0.9021100.323否0.9516150.483否
通過AR軟件進(jìn)行后置處理呈現(xiàn)AR效果。對于處理后的視頻,用數(shù)字相機拍攝的效果如圖5(a)所示,人眼觀看的效果如圖5(b)所示。這里選用的數(shù)字相機為Lenovo S810t手機的內(nèi)置攝像頭,分辨率為800萬像素,手機操作系統(tǒng)為Android 4.3。
圖5 處理后視頻的Lenovo相機拍攝效果與人眼觀看效果Fig. 5 Shooting effect of Lenovo camera and viewing effect of human for the processed video
針對Lenovo手機獲得的圖像,將RGB圖像轉(zhuǎn)為Gary圖像。針對該圖像進(jìn)行直方圖灰度拉伸,將圖像增強。最后使用最大類間方差法得出二值化后的黑白兩色圖像如圖6所示。手機獲取AR標(biāo)記并實現(xiàn)增強現(xiàn)實的最終效果如圖7(a)所示,圖7(b)為對不同原始圖像采用相同方法獲得的效果圖。
不同手機攝像頭在相同嵌入權(quán)重參數(shù)時的拍攝誤差如表2所示,這里選擇權(quán)重參數(shù)為0.85??梢钥闯鲠槍Σ煌鄼C依然有較高的實用性。
為了拓展增強現(xiàn)實(AR)的實用性,本文提出一種基于TPVM技術(shù)和數(shù)字相機來實現(xiàn)AR效果的方法。通過利用人眼和半導(dǎo)體攝像傳感器之間成像的差異,調(diào)整顯示器或者投影儀的顯示頻率,將AR標(biāo)記嵌入圖片或影像內(nèi)。在不影響影像正常播放下,實現(xiàn)人眼無法看見的AR標(biāo)記,但可以通過使用智能手機計算裝置捕捉到標(biāo)記的存在并完成AR效果。本研究測試了不同手機不同權(quán)重下對嵌入的AR標(biāo)記的影響,并且提出了比較好的嵌入權(quán)重選擇。同時,結(jié)合選擇使用一些快速的處理算法,能夠減少智能移動設(shè)備的響應(yīng)時間,更快地呈現(xiàn)AR效果。
目前,本文所提出的方法只是改善了部分問題,拓展了TPVM與增強現(xiàn)實的實用性。未來可從以下方面展開進(jìn)一步研究:處理掃描圖像的優(yōu)化,設(shè)計適用于不同周圍環(huán)境、較佳AR的嵌入處理等。
圖6 數(shù)字相機獲取處理后的二值化圖像Fig. 6 Processed binarized image obtained by digital camera
圖7 數(shù)字相機最終得到的AR效果Fig. 7 AR effect obtained by digital camera表2 不同手機相同權(quán)重誤差對比Tab. 2 Error comparison of different mobile phones with the same weight
手機型號攝像頭像素(萬)獲取特征點數(shù)誤差誤差率是否識別ZTEBA5108002560.194是VivoXplay612002830.097是SonyC5Ultra13003010.032是LenovoS810t8002830.097是
References)
[1] 朱淼良,姚遠(yuǎn),蔣云良.增強現(xiàn)實綜述[J].中國圖象圖形學(xué)報,2004,9(7):767-774. (ZHU M L, YAO Y, JIANG Y L. A survey on augmented reality [J]. Journal of Image and Graphics,2004, 9(7): 767-774.)
[2] WU X, ZHAI G. Temporal psychovisual modulation: A new paradigm of information display [exploratory DSP] [J]. IEEE Signal Processing Magazine, 2013, 30(1): 136-141.
[3] QI H, ZHENG D, ZHAO J. Human visual system based adaptive digital image watermarking [J]. Signal Processing, 2008, 88(1): 174-188.
[4] HU C, ZHAI G, GAO Z, et al. Simultaneous triple subtitles exhibition via temporal psychovisual modulation [C]// ICIEA 2014: Proceedings of the 2014 9th IEEE Conference on Industrial Electronics and Applications. Piscataway, NJ: IEEE, 2014: 944-947.
[5] ZHAI G, WU X. Defeating camcorder piracy by temporal psychovisual modulation [J]. Journal of Display Technology, 2014, 10(9): 754-757.
[6] HU C, ZHAI G, GAO Z, et al. Information security display system based on spatial psychovisual modulation [C]// ICME 2014: Proceedings of the 2014 IEEE International Conference on Multimedia and Expo. Washington, DC: IEEE Computer Society, 2014: 1-4.
[7] KIM H, LEE W, WOO W. CAMAR tag framework: context-aware mobile augmented reality tag framework for dual-reality linkage [C]// ISUVR 2009: Proceedings of the 2009 International Symposium on Ubiquitous Virtual Reality. Washington, DC: IEEE Computer Society, 2009: 39-42.
[8] LU X Y, YOU B, LIN P-Y, Augmented reality via temporal psycho-visual modulation [C]// ICME 2016: Proceedings of the 2016 IEEE International Conference on Multimedia & Expo. Washington, DC: IEEE Computer Society, 2016: 1-4.
[9] HIEN T, HYERIM P, SEON H K, et al. Incorporating geo-tagged mobile videos into context-aware augmented reality applications [C]// BigMM 2016: Proceedings of the 2016 IEEE Second International Conference on Multimedia Big Data. Piscataway, NJ: IEEE, 2016: 295-302.
[10] KE F, HSU Y-C. Mobile augmented-reality artifact creation as a component of mobile computer-supported collaborative learning [J].The Internet and Higher Education, 2015, 26: 33-41
[11] GAO Z, ZHAI G, WU X, et al. DLP based anti-piracy display system [C]// VCIP 2014: Proceedings of the 2014 IEEE Visual Communications and Image Processing Conference. Piscataway, NJ: IEEE, 2014:145-148.
[12] TAYLOR S A. CCD and CMOS imaging array technologies: technology review, EPC-1998-106 [R]. Cambridge: Xerox Research Centre Europe, Cambridge Laboratory, 1998: 1-14.
[13] THOMAS J F, MICHAEL W D. Concepts in digital imaging technology, digital cameras readout and frame rates [EB/OL]. [2016- 05- 23]. http://learn.hamamatsu.com/articles/.
[14] YAMADA T, GOHSHI S, ECHIZEN I. Use of invisible noise signals to prevent privacy invasion through face recognition from camera images [C]// MM 2012: Proceedings of the 20th ACM International Conference on Multimedia. New York: ACM, 2012: 1315-1316.
This work is partially supported by the Science and Technology Support Program of Jiangxi Province (20131102040039).
LUXiaoyong, born in 1957, Ph. D., professor. His research interests include information management and information system, industry engineering.
YOUBin, born in 1992, M. S. candidate. His research interests include digital image processing, information security, information management and information system.
LINPei-Yu, born in 1983, Ph. D. associate professor. Her research interests include digital image processing, information security.
CHENMusheng, born in 1977, Ph. D. candidate. His research interests include data mining and knowledge discovery, information management and information system.
Augmentedrealityapproachbasedondigitalcameraandtemporalpsycho-visualmodulation
LU Xiaoyong1, YOU Bin1*, LIN Pei-Yu2,CHEN Musheng1
(1.SchoolofSoftware,NanchangUniversity,NanchangJiangxi330047,China;2.DepartmentofInformationCommunication,YuanZeUniversity,Chung-LiTaiwan32003,China)
In order to extend the practicality of Augmented Reality (AR), a method based on Temporal Psycho Visual Modulation (TPSM) technology and digital camera to realize AR effect was proposed. First, the AR tags were embedded in the digital screen of the media. Based on the principle difference between the human eye to identify the perception and the digital camera to capture the image formed in the digital screen or projector, the digital camera equipment was used to obtain the digital screen image with AR tags which are not easily to be detected by human eye. Finally, the AR effect was displayed on the smart device that gets the AR tags. Simulation results show that the combination of AR and TPVM technology can accurately identify the AR tags in the image and achieve AR effect, while the human eye can not detect the AR tags. Through the mobile phone instead of 3D glasses and other extra equipment, the use restrictions of AR are reduced, and the practicality of AR is also expanded.
Augmented Reality (AR); Temporal Psycho Visual Modulation (TPSM); perception; digital camera
TP391.41; TP391.9
A
2017- 02- 08;
2017- 05- 06。
江西省科技支撐計劃項目(20131102040039)。
盧曉勇(1957—),男,江西南昌人,教授,博士,主要研究方向:信息管理與信息系統(tǒng)、工業(yè)工程; 游斌(1992—),男,江西南昌人,碩士研究生,主要研究方向:數(shù)字圖像處理、信息安全、信息管理和信息系統(tǒng); 林珮瑜(1983—),女,臺灣人,副教授,博士,主要研究方向:數(shù)字圖像處理、信息安全; 陳木生(1977—),男,江西于都人,博士研究生,主要研究方向:數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、信息管理與信息系統(tǒng)。
1001- 9081(2017)08- 2298- 04
10.11772/j.issn.1001- 9081.2017.08.2298