張媛媛 甘 錦
(昆明理工大學信息工程與自動化學院)
飛機機翼的振動、建筑物在風中發(fā)生的擺動及人類心跳的變化等微小運動很難被人肉眼所察覺[1,2]。 如果將這些微小運動通過運動 放大處理,就能夠更好地被機器學習并被人類研究。 簡而言之,運動放大就是通過對視頻序列或圖像序列中存在的微小運動進行放大,使得這些微小運動的運動幅度增大以便于人們從這些微小運動中提取有價值的信息[3,4]。目前存在很多運動放大的方法,這些方法在圖像處理、信號處理等領(lǐng)域被廣泛應(yīng)用,如可視化、臨床診斷及監(jiān)控[5~7]等領(lǐng)域。
按照放大思想對現(xiàn)有的放大方法進行分類:拉格朗日視角的運動放大原理是基于光流的運動放大[8];歐拉視角的運動放大是基于像素值的運動放大[9];相位視角的放大是基于相位的運動放大[10]。 由于不同的放大原理會形成不同的放大效果,所以針對研究物特性、應(yīng)用場景等選擇與之相適應(yīng)的放大方法有利于獲得預(yù)期的放大效果。
拉格朗日運動放大是基于拉格朗日視角的運動放大。 該方法中,物體運動由構(gòu)成物體的粒子運動組成,跟蹤每個粒子的運動并對它進行運動處理,就能夠操縱物體的運動。 因此在視頻中,如果能夠跟蹤特定像素點的運動并對它進行放大,就能夠?qū)⒁曨l中的特定運動放大。 拉格朗日運動放大的技術(shù)原理如下:
a. 圖像配準,對輸入的視頻序列進行圖像配準是為了防止由于拍攝時的微小晃動而引起的運動誤差;
b. 聚類特征點,在時間上跟蹤特征點,對運動進行聚類;
c. 分割分配圖像層,定義一個用于解決圖像分割的馬爾可夫隨機場,用像素的顏色、位置和運動估計對每個像素點進行聚類分配;
d. 選定層運動放大,層分割后,選定一個層進行運動放大;
e. 視頻合成, 運動放大后合成放大視頻,拉格朗日視角的運動放大方法的核心是流體力學理論,由于需要對粒子隨著時間變化的軌跡進行精確的運動估計,所以該類方法并不適用于復(fù)雜場的運動估計。
歐拉運動放大是從歐拉視角對運動進行放大。 歐拉運動視角,即在圖像中把需要放大的視角定位并時刻關(guān)注該視角下每一個像素值的變化,通過分析圖像中像素值的變化進而發(fā)現(xiàn)其運動規(guī)律。 通常根據(jù)經(jīng)驗來確定感興趣運動的頻率并實現(xiàn)視頻中物體的運動放大。 歐拉運動放大方法與拉格朗日運動放大方法相比不需要特征跟蹤和運動估計。 歐拉運動放大的技術(shù)原理如下:
a. 空間分解,將需要進行多分辨率分解的視頻序列使用拉普拉斯金字塔進行分解;
b. 時域濾波,對分解后的圖像信息進行時域濾波從而濾出特定的運動頻帶;
c. 運動放大,線性放大時域濾波后的信號并將它加入到原信號中;
d. 視頻合成,使用拉普拉斯金字塔對圖像子帶進行重建,最后合成放大視頻。
歐拉運動放大方法主要是通過改變圖像序列中的像素值來實現(xiàn)運動的放大,該類方法不需要進行拉格朗日運動方法中提到的特征跟蹤和運動估計,只需要放大感興趣的運動頻率即可實現(xiàn)微小運動的放大,但是這種方法不支持大的放大倍數(shù)且容易造成運動偽影。
半自動檢測歐拉運動放大方法通過處理視頻前兩幀的方式獲得放大參數(shù)的信息[11]。 由于視頻的前兩幀占視頻所有幀的比例比較小,不能完全代表所有幀的信息,所以使用該方法獲得的放大參數(shù)信息不夠準確。 該方法與歐拉運動放大方法相比,在運動放大參數(shù)的選取方面有一定的改進,使得放大效果有所提升。 除了根據(jù)視頻前兩幀獲得運動頻率,設(shè)計時域帶通濾波器外,半自動檢測歐拉運動放大的技術(shù)原理和歐拉運動放大方法基本相同。
圖像序列的細微運動放大是一種高質(zhì)量放大圖像序列的方法,主要從3 個方面完成:細微運動的放大、確定細微運動區(qū)域和保證放大后的運動細節(jié)質(zhì)量[12]。 細微運動的放大采用歐拉運動放大方法實現(xiàn),細微運動區(qū)域的確定則結(jié)合圖像像素頻率和時域顯著性特點來完成,保證放大后的運動細節(jié)質(zhì)量則采用區(qū)域運動細節(jié)的增強方案,該增強方案在增加運動細節(jié)的同時還對放大后圖像產(chǎn)生的噪聲做了進一步的處理。 圖像序列的細微運動放大技術(shù)原理如下:
a. 細微運動的放大,使用歐拉運動放大技術(shù)對細微運動的圖像序列進行運動放大;
b. 運動區(qū)域的檢測,對處理后的圖像序列的每一幀進行顏色顯著度和簽名顯著度計算,通過融合顏色顯著度和簽名顯著度得到圖像序列運動區(qū)域的二值映射圖,最后將映射圖轉(zhuǎn)換為細微運動區(qū)域;
c. 運動細節(jié)的增強,自適應(yīng)計算圖像序列中的每個像素的細節(jié)值, 提高運動區(qū)域清晰度,減少噪聲和圖像偽影。
圖像序列的細微運動放大算法框架如圖1所示。
圖1 圖像序列的細微運動放大算法框架
圖像序列的細微運動放大方法采用圖像簽名技術(shù)[13]、引導圖像濾波技術(shù)[14]及基于自適應(yīng)流形的邊緣感知過濾方法[15]等,利用人類視覺系統(tǒng)對視覺信號的敏感性[16~19],對圖像放大質(zhì)量進行了優(yōu)化,既能對圖像序列中包含有用運動信息進行放大還保證了圖像質(zhì)量,這在對圖像細節(jié)和圖像質(zhì)量要求較高的應(yīng)用方面 (如工業(yè)機械等)有著重要的意義和作用。 圖像序列的細微運動放大方法與歐拉運動放大方法可以得到更加清晰的局部細節(jié),還能夠使得除感興趣區(qū)域外的其他區(qū)域細節(jié)變得平滑,運動放大視覺效果更加清晰且畫面質(zhì)量更高。
自動檢測歐拉運動放大方法解決了歐拉運動方法中放大頻率不確定的問題,有效運動頻率范圍的有效選擇可以減少不必要噪聲的引入進而更好地放大微小運動[20]。 該方法比半自動檢測歐拉運動放大方法在運動信息檢測方面更為準確。 自動檢測旨在確定微小運動物體的運動頻率,然后針對運動頻率設(shè)計時域帶通濾波器。 除了分析視頻中的運動信息并估計中心頻率,設(shè)計時域帶通濾波器外,自動檢測歐拉運動放大的技術(shù)原理和歐拉運動放大方法基本相同。
自動檢測歐拉運動放大方法與歐拉運動放大方法、半自動檢測歐拉運動放大方法相比具有更精確的運動放大頻帶,放大效果更好,支持更大的放大倍數(shù),而且該方法的抗噪性能也得到了很好的提升改善。 這種運動放大方法在醫(yī)學、工業(yè)等領(lǐng)域有著良好的應(yīng)用前景。
基于S 變換的運動放大方法解決了歐拉運動放大方法中運動放大頻帶不確定、放大倍數(shù)較小等問題[21]。 該方法通過對視頻序列進行S 變換[22],對信號采用時頻表示來確定帶通濾波范圍進而設(shè)計時域帶通濾波器[23],最后利用歐拉運動放大方法來實現(xiàn)運動放大。 設(shè)計時域帶通濾波器時,首先獲得視頻序列中的每個像素點在時間上的波形表示并對它進行S 變換,得到每個點在時間上的瞬時頻率,然后通過聚類方法對上述瞬時頻率在時間上進行層次分析,求出關(guān)于時間的瞬時中心頻率,最后以瞬時中心頻率和S 變換的信號帶寬這兩個因素設(shè)計對應(yīng)的時域帶通濾波器。除了時域帶通濾波器的設(shè)計過程不同,基于S 變換的運動放大的技術(shù)原理和歐拉運動放大方法基本相同。
圖2 為基于S 變換的運動放大原理, 其中ωl、ωh分別為時域濾波時輸入的低頻和高頻信息,α 為放大倍數(shù),λ 為α=0 時的波長。
圖2 基于S 變換的運動放大原理
基于S 變換的運動放大方法同樣解決了歐拉運動放大方法中運動放大頻帶不確定、放大倍數(shù)較小等問題。 該方法創(chuàng)新應(yīng)用S 變換,通過Kmeans 聚類方法[24]對非平穩(wěn)信號進行處理,獲得感興趣的運動頻帶,設(shè)計帶通濾波范圍和放大倍數(shù),有效抑制了噪聲干擾,使放大效果更好。
基于可操縱金字塔的運動放大方法受到歐拉運動放大和基于相位的運動放大方法的啟發(fā),對視頻序列采用可操縱金字塔進行多分辨率分解[25]。 在該方法中,可操縱金字塔從不同尺度、不同方向?qū)⒁曨l序列分解為多個子帶,可操縱金字塔的平移不變性、旋轉(zhuǎn)不變性、方向可操縱性、非重疊子帶、重建性為實現(xiàn)運動放大提供了理論基礎(chǔ)[26,27]。 基于可操縱金字塔的運動放大技術(shù)原理如下:
a. 空間分解,將視頻序列進行可操縱金字塔的多分辨率分解,得到不同尺度、不同方向的多個圖像子帶;
b. 時域濾波,對不同尺度、不同方向圖像中的信號進行時域濾波;
c. 運動放大,線性放大時域濾波后的信號并加入到原信號中;
d. 視頻合成,使用可操縱金字塔對不同頻帶的圖像進行重構(gòu),最后合成放大視頻。
在 超 聲 波 傳 播 的 可 視 化 儀 器 中[28,29],超 聲 波在復(fù)雜應(yīng)力材料中信號極其微弱,人眼難以識別這種傳播過程,提出的基于可操縱金字塔的運動放大方法改進了歐拉運動放大方法中使用的高斯金字塔和拉普拉斯金字塔,使得超聲波的傳播過程更容易被人們觀察到并進行研究。
基于相位的運動放大是基于傅里葉移位定理提出的。 在二維圖像中,相位對應(yīng)著物體的運動,圖像經(jīng)過傅里葉變換,對所包含的相位進行一定的處理,能夠?qū)崿F(xiàn)物體運動放大。 該方法支持更大的放大倍數(shù)且可避免圖像偽影的出現(xiàn)。 基于相位的運動放大技術(shù)原理如下:
a. 空間分解,使用不同尺度、不同方向的復(fù)可操縱金字塔對視頻序列進行多分辨率分解,分離圖像的相位和幅值信息;
b. 時域濾波,提取不同尺度、不同方向的時間序列下圖像的相位信息并進行時域濾波,帶通濾波出感興趣的運動信息;
c. 相位去噪,使用幅度加權(quán)的空間平滑方法對時域濾波后的相位信息進行去噪, 提高信噪比;
d. 運動放大,線性放大去噪后的相位信息并加入到原信號中;
e. 合成視頻,使用復(fù)可操縱金字塔對信號進行重建,最后合成放大視頻。
基于相位的運動放大方法是對圖像中包含的相位信息進行直接操作,該方法在噪聲處理方面只是平移了噪聲而沒有放大噪聲,減少了運動偽影的出現(xiàn),且支持較大的放大倍數(shù),但是該方法以計算時間為代價,適用于對運行處理效率要求不高的運動放大對象。
在對上述運動放大方法介紹的基礎(chǔ)上,分析如下:
a. 不同的運動放大思想衍生出不同的運動放大算法。 如拉格朗日視角衍生出拉格朗日運動放大方法; 歐拉視角衍生出歐拉運動放大方法、半自動檢測歐拉運動放大方法、自動檢測歐拉運動放大方法、 圖像序列的細微運動放大方法、基于S 變換的運動放大方法及基于可操縱金字塔的運動放大方法等;相位視角衍生出基于相位的運動放大方法。
b. 針對放大目標的特性,改進算法應(yīng)用。 如基于可操縱金字塔的運動放大從超聲波的特性出發(fā),將空間分解時的濾波器由拉普拉斯金字塔更換成可操縱金字塔,以取得更好的放大效果。
c. 根據(jù)應(yīng)用場景,選擇不同的放大方法。 由于不同的運動放大方法基于的放大思想不同,有些運動放大方法的運行時間比較快, 效率比較高,針對一些實時的應(yīng)用場合可以選擇相應(yīng)的運動放大方法。 而相反的,在自然界中拍攝的圖像序列,目標是獲得高信噪比的放大效果對運行時間沒有要求,這樣就可以選擇基于S 變換的運動放大方法、基于相位的運動放大方法等。
由于人眼的視覺感知域有限,一些低振幅的微小運動很難被人眼識別。 微小運動放大的目的在于放大一些低振幅微小運動,使這些微小運動能夠被人眼察覺或者某種自動技術(shù)檢測,因此微小運動放大有一定的現(xiàn)實意義。 筆者對現(xiàn)有的一些運動放大方法進行了詳細論述,以便后續(xù)科研人員進行深入的研究。