李 映, 楊 炯
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
?
視頻動態(tài)紋理分類創(chuàng)新實驗設(shè)計
李 映, 楊 炯
(蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
設(shè)計了一個面向?qū)嶋H應(yīng)用場景的創(chuàng)新實驗。該實驗設(shè)計基于Matlab 2010軟件,以動態(tài)紋理視頻為實驗對象,采用線性動態(tài)系統(tǒng)模型參數(shù)進(jìn)行動態(tài)紋理特征描述,并將其從低層特征描述轉(zhuǎn)換到中層語義描述,形成視覺詞典,最后基于現(xiàn)有分類器進(jìn)行動態(tài)紋理圖像的分類實驗。該創(chuàng)新實驗涵蓋了“數(shù)字圖像處理與分析”中的絕大部分知識點,并在此基礎(chǔ)上進(jìn)行了知識的拓展,使學(xué)生在更加深刻理解課程中重點內(nèi)容的同時還可以鍛煉自己動手解決實際問題的能力,初步培養(yǎng)學(xué)生的創(chuàng)新能力。
動態(tài)紋理; 創(chuàng)新實驗設(shè)計; 視覺詞典
傳統(tǒng)紋理隨著時間的演變就形成了動態(tài)紋理,因此,動態(tài)紋理具有時間相關(guān)重復(fù)特征,是一類比較特殊的視頻數(shù)據(jù)[1]。其在自然界中廣泛存在,如風(fēng)中飄揚的旗子、隨風(fēng)擺動的樹木、森林中的大火等動態(tài)紋理。由于這些動態(tài)紋理是一種空間重復(fù)且隨時間變化的隨機過程,在時間上具有某種穩(wěn)定特性的圖像序列[2-3],因此具有時空的某種自相似性,分類這些含有動態(tài)紋理的動態(tài)場景非常具有挑戰(zhàn)性,但這類動態(tài)場景卻是實際應(yīng)用中必須解決的一個關(guān)鍵問題?,F(xiàn)有動態(tài)紋理識別的方法主要包括基于光流場的方法、基于時空幾何屬性的方法、基于局部時空濾波的方法和基于模型參數(shù)的方法[4]?;谀P偷膭討B(tài)紋理識別技術(shù)很多,如混合動態(tài)紋理模型[5]與分層動態(tài)紋理[6],基于混沌特征的動態(tài)紋理分類方法[7]。目前基于模型動態(tài)紋理識別技術(shù)最經(jīng)常采用的模型之一就是LDS(Linear Dynamical System)動態(tài)紋理模型[8]。本文依據(jù)該模型進(jìn)行動態(tài)紋理分類的實驗設(shè)計,利用Ravichandran等[8]提出的算法設(shè)計并實現(xiàn)動態(tài)紋理分類。該實驗在LDS線性動態(tài)系統(tǒng)模型的基礎(chǔ)上,解決了當(dāng)前分類算法無法解決的變化視角和不同尺寸下動態(tài)紋理的分類問題。
由于動態(tài)紋理分類是后期圖像理解和實際應(yīng)用的一個關(guān)鍵環(huán)節(jié),并且需要綜合應(yīng)用圖像各方面的知識,在這一動態(tài)紋理分類的創(chuàng)新實驗中,學(xué)生可以從系統(tǒng)的角度對圖像處理、分析和理解有更深入、更準(zhǔn)確的直觀性的認(rèn)識。在圖像特征提取階段,學(xué)生可以理解和掌握如何將原始圖像數(shù)據(jù)通過轉(zhuǎn)換變成有利于圖像分類的特征,進(jìn)行數(shù)據(jù)的抽象。在圖像分類解決,學(xué)生還可以學(xué)到如何將提取的特征轉(zhuǎn)換為符合人類表述的語義表達(dá),通過抽象的簡單語義描述進(jìn)行場景分類。最終在這個創(chuàng)新實驗中貫穿圖像處理與分析的主線:圖像分析→圖像理解的圖像工程線路。因此為了培養(yǎng)和鍛煉學(xué)生學(xué)習(xí)知識與應(yīng)用知識兩方面能力的結(jié)合,并將學(xué)習(xí)知識主動轉(zhuǎn)化為對知識的應(yīng)用能力,強化學(xué)生將所學(xué)圖像處理知識,綜合應(yīng)用于實際視頻內(nèi)容理解的能力,利用實際應(yīng)用中遇到的具有挑戰(zhàn)性的動態(tài)場景中的紋理分類設(shè)計創(chuàng)新實驗,具有非常好的教學(xué)意義。
實驗設(shè)計具體步驟為:① 使用線性動態(tài)系統(tǒng)參數(shù)作為動態(tài)紋理的特征描述符;② 將BoF(Bag of Feature)詞袋算法流程擴展到動態(tài)紋理分類中,形成基于BoS(Bag of System)系統(tǒng)袋的算法流程。
動態(tài)紋理具有運動和外觀的特征,根據(jù)這兩大類特征,現(xiàn)有動態(tài)紋理識別的方法分為兩類,其一是根據(jù)動態(tài)紋理的運動特性進(jìn)行識別;另一類則是將運動和外觀結(jié)合得到紋理的有效表達(dá)[9]。
動態(tài)紋理識別主要分為訓(xùn)練階段和預(yù)測階段。在訓(xùn)練階段,通過訓(xùn)練集中的視頻獲得詞典BoS與訓(xùn)練視頻序列的特征向量H=[h1,h2,…,hK]T。在預(yù)測階段,利用訓(xùn)練階段獲得的詞典獲得預(yù)測視頻的特征向量。通過前兩個階段獲取的訓(xùn)練集特征向量與預(yù)測集特征向量H′,根據(jù)已知的訓(xùn)練集中視頻的類標(biāo)簽,分類得出特征向量的類別。圖1給出了動態(tài)紋理分類的整體流程圖。
圖1 動態(tài)紋理分類實驗總體框架結(jié)構(gòu)
(1) 訓(xùn)練階段。從訓(xùn)練數(shù)據(jù)集中獲取大量的訓(xùn)練視頻,經(jīng)過重采樣得到所需尺寸的動態(tài)紋理視頻,然后將視頻序列劃分為時間域和空間域都不重疊的大小為σ×σ×τ時空體(σ為空間域的大小,τ為時間域的大小),接著利用動態(tài)紋理模型來建模時空體,獲得可以表示該時空體的模型參數(shù)元組M=(A,C),利用模型參數(shù)間的馬丁距離來構(gòu)建時空體之間的距離矩陣。然后利用高維空間中點間距離的多維標(biāo)度法(Multi-dimensional Scaling,MDS)[10]進(jìn)行降維處理,給出歐氏空間的點集,同時保留其在高維非歐氏空間的關(guān)系。在降維的過程中,不會特別指定降維后歐氏空間的維數(shù)。降維后的空間是歐氏空間,接著使用K-means聚類算法[11]進(jìn)行聚類,獲得歐氏空間中的聚類中心,然而這些聚類中心并不對應(yīng)到任何一個原始線性動態(tài)系統(tǒng)時空體。由于從低維內(nèi)嵌空間到原始高維空間并不存在明顯的映射關(guān)系,為了獲得原始高維空間中的碼詞,選擇低維空間中到聚類中心距離最小的點對應(yīng)的高維空間的系統(tǒng)參數(shù)為高維空間的碼詞,構(gòu)成所需詞典。最后使用詞頻法(Term Frequency,TF)[12-13]表示動態(tài)紋理視頻,獲得訓(xùn)練集中表示動態(tài)紋理特征向量。
(2) 預(yù)測階段。預(yù)測集視頻經(jīng)過與預(yù)測階段同樣的重采樣、分割、建模等處理過程,然后利用馬丁距離獲得特征描述符M=(A,C)與詞典的距離矩陣。在詞典中選擇距離特征描述符距離最小的碼詞作為該特征描述符的碼詞,使用詞頻法TF,獲得預(yù)測集中動態(tài)紋理視頻的特征向量H′。通過訓(xùn)練階段獲取的訓(xùn)練集特征向量與已知的訓(xùn)練集中視頻的類標(biāo)簽,預(yù)測得出特征向量H′的類別。
BoF方法[14]應(yīng)用于計算機視覺的靈感來自于文檔檢索領(lǐng)域。在文檔檢索中,通過關(guān)鍵詞分布情況的差異性識別該文檔。在該實驗中,采用類似BoF方法的處理流程,不同之處在于實驗中使用特征描述符的分布取代關(guān)鍵詞的分布。BoF方法典型處理如下:
(1) 從訓(xùn)練集圖片中提取特征和對應(yīng)的特征描述符;
(2) 通過使用類似K-means的聚類算法形成字典,聚類中心代表詞典中的字碼;
(3) 用字典表示訓(xùn)練集中的每張圖片;
(4) 選擇一個分類器,將新圖片詞分布與訓(xùn)練集中已有詞分布進(jìn)行比較,推斷類別。
BoS基本處理流程與BoF方法類似,主要不同點在于用線性動態(tài)系統(tǒng)參數(shù)作為特征描述符取代傳統(tǒng)時空特征,這也造成獲取特征描述符不再處于歐氏空間。因此引入一種新的降維處理方法,使降維后特征處于歐氏空間,并從這些特征描述符中獲取詞典。基于BoS動態(tài)紋理分類過程如圖2所示,包括特征提取、詞典形成、詞典描述和分類。
(a) (b) (c)
2.1 LDS模型參數(shù)計算
(1)
(2)
其中:z(t)∈Rn是t時間段的隱藏狀態(tài);A∈Rn×n代表隱藏狀態(tài)的動態(tài)性;C∈Rn×n將隱藏狀態(tài)轉(zhuǎn)換為系統(tǒng)的輸出;C0∈Rp是視頻序列像素值的均值;w(t)~N(0,R)和Bv(t)~N(0,Q)分別是度量和過程噪聲。隱藏狀態(tài)的維數(shù)n是線性動態(tài)系統(tǒng)的序;p是視頻序列或者視頻塊中一幀的像素數(shù)。
實驗中動態(tài)模型的參數(shù)(C0,A,C,Q,R)采用主成分分析方法[15]來求取。該動態(tài)模型的優(yōu)點在于它將由C建模的時空塊外觀特征和由A建模的動態(tài)性特征相互分離。因此,給定一動態(tài)紋理時空視頻塊,就可以使用元組M=(A,C)來表示,既描述了動態(tài)紋理的動態(tài)性又描述了動態(tài)紋理的整體外觀。
2.2 詞典形成
從LDS系統(tǒng)參數(shù)的計算步驟中,獲得LDS的描述是以元組M=(A,C)來表達(dá)的。但這個元組的表示處于非歐氏空間,不能直接用適用于BoF聚類的方法。實驗中采用馬丁距離來表示元組之間的相似性。
(3)
通過式(3)可以獲得想要的詞典C={F1,…,FK},其中Fi=(Ai,Ci)。
2.3 基于詞典的視頻描述
一旦獲得K個碼詞,每個視頻序列都可以用這個詞典來描述。實驗中采用直方圖H=[h1,h2,…,hK]T∈RK的形式來實現(xiàn)視頻的描述。假設(shè)第i個視頻序列中碼詞k出現(xiàn)cik次,N為所有視頻序列的數(shù)量,Nk為出現(xiàn)碼詞k的視頻序列的數(shù)量。實驗設(shè)計中將通過兩種不同的表達(dá)方法來描述視頻序列。
(1) TF,定義如下:
(4)
其中:k=1,2,…,K;i=1,2,…,N。
(2) 逆文本詞頻法(Term Frequency-Inverse Document Frequency,TF-IDF),定義如下:
(5)
這兩種方法都有各自的優(yōu)點。TF的表達(dá)形式比較簡潔,該方法只考慮新的測試視頻序列中碼詞分布情況;TF-IDF減弱了所有類共有特征的影響,突出了視頻序列具有區(qū)別性特征的影響。一旦計算出直方圖H后,使用L1范數(shù)進(jìn)行標(biāo)準(zhǔn)化。
2.4 分 類
實驗數(shù)據(jù)集為 “DynTex”數(shù)據(jù)庫。本文提取該數(shù)據(jù)庫中8類視頻序列:20個靜態(tài)水面視頻、20個旗幟視頻、20個噴泉視頻、6個電梯視頻、20個草地視頻、20個大海視頻、9個交通視頻、20個樹木視頻作為實驗原始數(shù)據(jù)。在實驗中,一半用來訓(xùn)練,另一半用來測試。圖3中展示了數(shù)據(jù)庫中一些視頻序列的截圖。下面給出在該創(chuàng)新實驗平臺上的幾個實驗驗證結(jié)果。
湖面
電梯
旗幟
噴泉
草地
大海
交通
樹木
圖3 動態(tài)紋理視頻庫中8類視頻部分截圖示例
3.1 視頻時空體大小對分類性能的分析
實驗中首先將視頻序列劃分為時間域和空間域都不重疊的大小為σ×σ×τ時空體,σ為空間域的大小,τ為時間域的大小。對于σ和τ取不同的值,其中σ∈{20,30,60},τ∈{15,25},σ可以取3個值,τ可以取2個值,這樣就出現(xiàn)了6種不同的時空體大小。對于6種不同的時空體,使用秩為n的線性動態(tài)系統(tǒng)進(jìn)行建模,實驗中n的值取3。對于6種不同大小時空體分別獨立進(jìn)行實驗。為了能夠劃分出不重疊的時空體,并且在劃分的過程中不存在剩余視頻未被劃分,需要對視頻序列空間域進(jìn)行重采樣,使其達(dá)到需求的尺寸。原始數(shù)據(jù)庫中視頻每一幀的大小為352×288,每個視頻包含的幀數(shù)都大于100幀。對視頻每幀進(jìn)行重采樣,重采樣后視頻每幀大小為360×300,這樣就可以完整的利用整個視頻并且不進(jìn)行重疊的劃分。
圖4給出了不同尺寸時空體的動態(tài)紋理識別率結(jié)果。在實驗中分別使用了3種不同類別的組合來進(jìn)行實驗,3組不同的類別分別為:湖面、噴泉、大海;草地、樹木、湖面;電梯、交通、旗幟。圖4給出的動態(tài)紋理識別率是這三組實驗的平均值。從圖4可以看出,識別率最高的時空體為20×20×25,最低的為60×60×15,空間尺寸σ變大后識別率降低,時間尺寸τ變大后識別率便上升。根據(jù)上面的分析,可以得出在較小空間尺寸σ較大時間尺寸τ情況下,識別率較高,但隨著空間尺寸σ的變小,視頻序列被劃分的時空體增加,在降維聚類的過程中耗費的時間也相應(yīng)增加了大約2倍。鑒于識別率與時間的綜合考慮,在實驗中選用時空體尺寸為30×30×25。
圖4 不同時空體大小動態(tài)紋理識別率
3.2 聚類中心個數(shù)對分類性能影響分析
視頻被劃分為不重疊的時空體后,利用線性動態(tài)系統(tǒng)獲得描述時空體的參數(shù)。但由于獲取的參數(shù)處于非歐氏空間,為了獲得詞典,需要進(jìn)行降維處理,將處于非歐氏空間的參數(shù)降維到歐氏空間。實驗中采用高維空間中點之間距離的多維標(biāo)度法(Multi-dimensional Scaling,MDS),該方法在給出歐氏空間的點集的同時保留了其在高維非歐氏空間的關(guān)系。實驗平臺搭建時直接使用Matlab中Y=cmdscale(D)函數(shù)實現(xiàn)降維。在降維的過程中,不會特別指定降維后歐氏空間的維數(shù)。然后使用K-means聚類算法進(jìn)行聚類,同樣也是直接調(diào)用Matlab中自帶函數(shù)[IDX,C]=kmeans(Y,K)進(jìn)行聚類,聚類中心數(shù)量K的值取8~96間以8為倍數(shù)的值。
圖5給出了不同聚類中心數(shù)量的動態(tài)紋理識別率結(jié)果。該實驗,仍采用3種不同的類別組合來進(jìn)行實驗,三組不同的類別分別為:湖面、噴泉、大海;草地、樹木、湖面;電梯、交通、旗幟。圖5顯示的不同聚類中心數(shù)量動態(tài)紋理識別率是這三組實驗的平均值。
從圖5可見,隨著聚類中心的增加分類正確率也在不斷地上升,分類效果最好的聚類中心數(shù)量為96個。但在聚類中心大于72個后,其分類正確率增長幅度就很少了。這樣,在聚類中心大于72個后,聚類中心的增加對于分類正確率的影響已經(jīng)很小很小。在接下來的試驗中,將使用的聚類中心數(shù)量為80個。
3.3 特征描述與分類分析
經(jīng)降維聚類后獲取了詞典,對于視頻序列的表示
圖5 不同聚類中心數(shù)量下動態(tài)紋理識別率
方法,實驗可以選用前面提到的詞頻法TF與逆文本詞頻法TF-IDF。在分類算法上,可以使用的分類算法有三種:k-最鄰近算法(k-NN)、樸素貝葉斯分類法、內(nèi)核支持向量機分類算法。圖6給出了不同特征描述結(jié)合不同分類器時的動態(tài)紋理識別率結(jié)果。該實驗同樣使用與前面相同的3種不同的類別組合來進(jìn)行實驗。圖6給出的動態(tài)紋理識別率是這三組實驗的平均值。
由圖6可以看出,詞頻的分類正確率要比逆文本詞頻法的分類正確率要高,在分類算法上,樸素貝葉斯算法要比SVM支持向量機分類算法與K-means最鄰近分類算法。從這個實驗中發(fā)現(xiàn)分類效果較好的組合是詞頻法的描述與樸素貝葉斯分類算法的結(jié)合。
圖6 不同的特征描述結(jié)合不同的分類器的動態(tài)紋理識別率結(jié)果
3.4 類別數(shù)量對分類性能的影響分析
圖7給出了類別數(shù)量不同的動態(tài)紋理識別率結(jié)果。在本實驗中測試了2~6類動態(tài)紋理的分類效果。在每類中平均進(jìn)行3次的實驗,動態(tài)紋理識別率是3次實驗的平均值。由圖7可以看出兩類的分類正確率最高,大于95%,最低的分類正確率為6類,僅有約45%。隨著分類種類的增加,分類正確率也在降低。
圖7 不同動態(tài)紋理類別識別率
該實驗設(shè)計主要是基于動態(tài)紋理模型實現(xiàn)動態(tài)紋理的分類的創(chuàng)新實驗訓(xùn)練。該實驗整體流程主要分為訓(xùn)練和預(yù)測兩個階段。實驗的核心在于將BoF詞袋擴展到動態(tài)紋理分類中,使用類似BoF的步驟進(jìn)行動態(tài)紋理分類。在特征提取中,使用線性動態(tài)系統(tǒng)的參數(shù)來取代傳統(tǒng)的時空特征;在詞典獲取過程中,因為獲取的模型參數(shù)處于非歐氏空間,對其降維到歐氏空間后,使用K-means算法進(jìn)行聚類,得到聚類中心及詞典中的碼詞。最后給出了具體的實施細(xì)節(jié)與參數(shù)設(shè)置情況,并針對較大影響實驗結(jié)果的四個因素:視頻塊的大小、聚類中心的數(shù)量、視頻描述方法、分類算法分別進(jìn)行討論與實驗對比。實驗表明,若視頻原始幀大小為352×288,在視頻被劃分為30×30×25的時空塊,聚類中心選為80個,用TF詞頻法描述視頻,分類算法選擇樸素貝葉斯分類算法時,程序運行時間和分類正確率會取得較好的結(jié)果。
從整個實驗設(shè)計到實現(xiàn),可以較好地鍛煉學(xué)生的理論與實踐相結(jié)合的能力,并可以初步培養(yǎng)學(xué)生從學(xué)術(shù)的角度進(jìn)行實驗驗證和分析,為進(jìn)一步培養(yǎng)學(xué)生的學(xué)術(shù)創(chuàng)新能力奠定了基礎(chǔ)。
[1] Soatto S, Doretto G, Wu Y N. Dynamic Textures[C]∥Proceedings of the 8th International Conference onComputer Vision. Vancouver, Canada, 2001:439-446.
[2] Chetverikov D,Péteri R. A brief survey of dynamic texture description and recognition [C]∥InternationalConference on Computer Recognition Systems, 2005: 17-26.
[3] Doretto G, Chiuso A, Wu Y N,etal. Dynamic textures [J]. International Journal of Computer Vision, 2003, 51(2): 91-109.
[4] Zhao Guoying, Matti P. Dynamic Texture RecognitionUsing Local Binary Patterns with an Application toFacial Expressions [J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 2007, 29 (6):915-928.
[5] Chan A B, Vasconcelos N. Modeling, clustering, and segmenting video with mixtures ofdynamic textures [J]. IEEE Trans Pattern Anal Machine Intell, 2008, 30(5):909-926.
[6] Chan A B, Vasconcelos N. Layered dynamic textures [J]. IEEE Trans Pattern Anal MachineIntell, 2009, 31(10):1862-1879.
[7] 王 勇, 胡士強. 基于混沌特征的運動模式分割和動態(tài)紋理分類[J]. 自動化學(xué)報, 2014, 40(4): 604-614.
[8] Ravichandran A, Chaudhry R, Vidal R. Categorizing dynamic textures using a bag of dynamical systems [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 342-353.
[9] 王 碩. 基于小波變換的動態(tài)紋理分類[D]. 哈爾濱:哈爾濱工程大學(xué), 2010.
[10] Cox T F, Cox M A A. Multidimensional Scaling [M]. Chapman andHall, 1994.
[11] MacQueen J B. Some Methods for classification and Analysis of Multivariate Observations [C]∥Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California Press, 1967: 281-297.
[12] Luhn Hans Peter. A Statistical Approach to Mechanized Encoding and Searching of Literary Information [J]. IBM Journal of Research and Development (IBM), 1957, 1(4): 315.
[13] Sivic J, Zisserman A. Video Google: A Text RetrievalApproach to Object Matching in Videos [C]∥Proc IEEE Int’l Conf Computer Vision, 2003: 1470-1477.
[14] Csurka G, Dance C, Fan L,etal. Visual categorization with bags of keypoints [C]∥Workshop on Statistical Learning in Computer Vision, ECCV. 2004, 1(1-22): 1-2.
[15] Duda R O, Hart P E, Stork D G. Pattern classification[M]. John Wiley & Sons, 2012.
Design of Innovation Experiment for Classifying Dynamic Texture in Video
LIYing,YANGJiong
(School of Computer Science and Technology, Soochow University, Suzhou 215006, China)
The experiment courses of digital image processing and analysis focus on the experiment of low-level image processing, and most experiments are used to verify the results of the methods in image processing. Therefore, we designed an innovation experiment for actual application scenario. Based on Matlab 2010 software and video of dynamic texture, the experimental design adopted the parameter of linear dynamic system model as the feature description of dynamic texture, then transited the low-level features to middle-level semantic description to form the visual dictionary, lastly implemented the dynamic texture image classification experiment using existing classifiers. The experiment covered most knowledge of the digital image processing and analysis, and extended the knowledge of image understanding. So that students could more profound understanding of the key content in the course, as well as improving students’ ability of solving the practical issue, and cultivating students’ preliminary innovation ability.
dynamic texture; design of innovation experiment; visual dictionary
2015-05-06
軟件工程國家特色專業(yè)建設(shè)點(TS2455);蘇州大學(xué)計算機與信息技術(shù)國家級實驗示范中心開放性課題——機器視覺創(chuàng)新實驗室建設(shè)項目資助
李 映(1976-),女,江蘇蘇州人,碩士,實驗師,研究方向:圖形圖像處理。Tel.:13962123096; E-mail:youngj@suda.edu.cn
楊 炯(1971-),男,江蘇蘇州人,碩士,實驗師,研究方向:實驗技術(shù)。Tel.:13962123096; E-mail:youngj@suda.edu.cn
TP 391.41
A
1006-7167(2016)05-0071-06