尹宏偉,李凡長(zhǎng)
蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000
針對(duì)圖像序列的譜深度學(xué)習(xí)算法*
尹宏偉,李凡長(zhǎng)+
蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215000
為了更好地理解圖像序列的隱藏深度信息,需要分析數(shù)據(jù)的隱藏結(jié)構(gòu)。目前,多采用譜流形學(xué)習(xí)算法學(xué)習(xí)高維采樣數(shù)據(jù)的低維嵌入坐標(biāo),從而獲取數(shù)據(jù)的隱藏結(jié)構(gòu)。譜流形學(xué)習(xí)算法一般是基于所研究的高維數(shù)據(jù)分布在單個(gè)流形上的前提假設(shè),并不支持圖像序列中存在的多流形結(jié)構(gòu)。結(jié)合圖像序列的結(jié)構(gòu)特點(diǎn),提出了一種針對(duì)圖像序列的譜深度學(xué)習(xí)算法(spectral deep learning,SDL)。通過(guò)建立混合多流形模型,保持流形局部變化的平滑和連續(xù),利用流形對(duì)齊建立層次流形的映射關(guān)系,得到圖像序列的深度低維嵌入坐標(biāo)。最后通過(guò)實(shí)驗(yàn)證明了算法在混合多流形數(shù)據(jù)集和圖像序列數(shù)據(jù)集上的有效性。
圖像序列;譜流形學(xué)習(xí);混合多流形;局部切空間;層次流形
視覺(jué)是人類(lèi)最高級(jí)的感知器官,具有直觀、信息量大、作用距離遠(yuǎn)等突出優(yōu)點(diǎn)。在人類(lèi)視覺(jué)系統(tǒng)中,圖像是人對(duì)視覺(jué)感知的物質(zhì)再現(xiàn),在很多具體應(yīng)用中人們都希望能夠通過(guò)圖像的形式直觀呈現(xiàn)出來(lái)。因此,圖像在人類(lèi)認(rèn)知中扮演著非常重要的角色,是人們獲取信息的重要途徑。對(duì)于人類(lèi)視覺(jué)系統(tǒng),將同一空間(或時(shí)間)、不同時(shí)間(或空間)在內(nèi)容和順序上緊密關(guān)聯(lián)的圖像收集在一起,則構(gòu)成了一個(gè)圖像序列(image sequence)。例如:一個(gè)人從嬰兒時(shí)期到兒童時(shí)期,再到青少年時(shí)期,最后到中老年時(shí)期的各個(gè)成長(zhǎng)階段的照片構(gòu)成了一個(gè)典型的圖像序列。該圖像序列蘊(yùn)含了一個(gè)人的許多顯性與隱性信息,例如年齡增長(zhǎng)造成的外表變化,閱歷增長(zhǎng)造成的思維方式轉(zhuǎn)變,性格差異導(dǎo)致的表情和體態(tài)的變化等。如果以一個(gè)人成長(zhǎng)的圖像序列為對(duì)象展開(kāi)研究分析,對(duì)其性格特點(diǎn)、成長(zhǎng)環(huán)境、職業(yè)特點(diǎn)等隱藏信息的了解將更加全面準(zhǔn)確,這是僅僅依靠單一圖像或者無(wú)序圖像集合所不能達(dá)到的。
圖像序列作為人類(lèi)對(duì)外部世界感知和認(rèn)知的基本對(duì)象,已成為認(rèn)知科學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域研究者的普遍共識(shí)。在實(shí)際生產(chǎn)生活中,圖像序列數(shù)據(jù)的種類(lèi)繁多。例如:在同一場(chǎng)景內(nèi)拍攝的人體動(dòng)作行為圖像序列;衛(wèi)星拍攝到的同一地區(qū)在不同時(shí)間或不同季節(jié)的遙感圖像序列;醫(yī)療機(jī)構(gòu)通過(guò)超聲波成像設(shè)備記錄的某個(gè)患者在不同時(shí)間節(jié)點(diǎn)的某個(gè)身體部位的圖像序列;交通監(jiān)控設(shè)備拍攝的同一路段在不同時(shí)間的車(chē)輛通行情況;利用多部攝像機(jī)對(duì)同一目標(biāo)從多個(gè)視角拍攝形成的多視角圖像序列;生物信息學(xué)中蛋白質(zhì)圖像序列和DNA圖像序列等。由于圖像序列中包含的信息繁多且過(guò)于復(fù)雜,特別是隱藏的深度信息或知識(shí),使得對(duì)圖像序列中的深度信息進(jìn)行有效和高效的理解與認(rèn)知是一個(gè)有價(jià)值的同時(shí)也是非常困難的研究課題。
為了分析數(shù)據(jù)隱藏的內(nèi)部結(jié)構(gòu),文獻(xiàn)[1]提出流形學(xué)習(xí)的概念(manifold learning),認(rèn)為非線(xiàn)性流形是人類(lèi)感知的基礎(chǔ),經(jīng)過(guò)自然長(zhǎng)期進(jìn)化,人腦能夠使用非線(xiàn)性流形表達(dá)對(duì)外界對(duì)象的認(rèn)知,基于認(rèn)知流形和拓?fù)溥B續(xù)性,人腦也可能是以穩(wěn)態(tài)流形的形式存儲(chǔ)視覺(jué)記憶。目前,流形學(xué)習(xí)方法多基于經(jīng)典的譜圖理論,該理論始于圖和流形的傅里葉分析,以流形上微分算子為對(duì)象,將流形的微分結(jié)構(gòu)和全局分析結(jié)合形成了譜流形學(xué)習(xí)的理論基礎(chǔ)[2-3]。
本文為了獲取圖像序列隱藏的深度信息,從分析圖像序列數(shù)據(jù)的隱藏結(jié)構(gòu)出發(fā),基于譜流形學(xué)習(xí)的理論,提出了譜深度學(xué)習(xí)算法(spectral deep learning,SDL)。不同于傳統(tǒng)譜流形學(xué)習(xí)的單流形模型,圖像序列數(shù)據(jù)分布在多個(gè)光滑流形上,并且流形之間存在交集,本文提出了基于圖像序列的混合多流形模型。不同于一般深度學(xué)習(xí)利用神經(jīng)網(wǎng)絡(luò)構(gòu)建深度結(jié)構(gòu)的方法,本文利用流形對(duì)齊的方法建立流形之間的映射關(guān)系,構(gòu)建一個(gè)層次流形的分析模型,利用流形映射挖掘數(shù)據(jù)深度隱藏結(jié)構(gòu),獲取圖像序列的深度信息。
本文組織結(jié)構(gòu)如下:第2章介紹了基于圖像序列數(shù)據(jù)分析和應(yīng)用的相關(guān)算法;第3章介紹了譜流形學(xué)習(xí)算法的基本步驟,并且結(jié)合圖像序列數(shù)據(jù)結(jié)構(gòu)特點(diǎn),提出了基于圖像序列的混合多流形深度模型;第4章針對(duì)混合多流形模型中流形之間存在交集的問(wèn)題,通過(guò)局部切空間表示流形局部結(jié)構(gòu),引入了流形對(duì)齊的概念建立流形之間的映射,分析了混合多流形模型的整體結(jié)構(gòu),提出了譜深度學(xué)習(xí)算法;第5章在人工數(shù)據(jù)集和圖像序列數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),分析了實(shí)驗(yàn)結(jié)果,驗(yàn)證了算法的有效性;最后對(duì)本文進(jìn)行總結(jié)和展望,提出了譜深度學(xué)習(xí)算法未來(lái)的研究方向。
早期圖像序列分析與應(yīng)用技術(shù)集中在遙感圖像和醫(yī)學(xué)圖像分析領(lǐng)域,多通過(guò)定義圖像外觀模型的表示方法,利用圖像之間相似度函數(shù)分析圖像序列的時(shí)空變化,獲取圖像序列的深度信息[4-7]。文獻(xiàn)[8]利用稀疏編碼技術(shù)對(duì)心臟的超聲圖像序列進(jìn)行分類(lèi)研究,主要完成心臟超聲圖像序列中的血栓形成和梳狀肌的分類(lèi)過(guò)程,通過(guò)提出新的分類(lèi)器模型,取得了不錯(cuò)的實(shí)驗(yàn)結(jié)果。文獻(xiàn)[9]提出一種面向人體冠脈內(nèi)超聲圖像序列的平面剛體運(yùn)動(dòng)補(bǔ)償措施,開(kāi)展了超聲圖像序列的定量分析,例如心肌運(yùn)動(dòng)分析,能為心臟疾病的診斷和縱向療法療效評(píng)估提供重要的心臟功能參數(shù)。文獻(xiàn)[10]采用基于主成分分析的方法對(duì)遞變能量X射線(xiàn)圖像序列進(jìn)行融合,通過(guò)圖像序列的各主成分,獲取融合圖像,實(shí)現(xiàn)了融合權(quán)值的自適應(yīng)獲取。結(jié)果表明,基于X射線(xiàn)圖像有效區(qū)域提取的融合方法的融合結(jié)果接近實(shí)際圖像。針對(duì)基于外觀模型的表示方法在實(shí)際使用中容易受到缺少圖像、污漬斑點(diǎn)以及超聲波成像本身特點(diǎn)所帶來(lái)的噪音影響的問(wèn)題,文獻(xiàn)[11]針對(duì)圖像序列運(yùn)動(dòng)估計(jì)的相似度函數(shù)展開(kāi)了研究,通過(guò)對(duì)像素強(qiáng)度和超聲散斑特性的兩類(lèi)相似度函數(shù)在仿真的超聲圖像序列上用圖像塊匹配方法進(jìn)行分析,并采用運(yùn)動(dòng)矢量場(chǎng)角度誤差評(píng)估其在超聲圖像序列上進(jìn)行運(yùn)動(dòng)估計(jì)的優(yōu)劣,對(duì)不同超聲研究領(lǐng)域中運(yùn)動(dòng)估計(jì)及相似度函數(shù)的選擇具有一定的指導(dǎo)意義。
近年來(lái),面向人體行為與運(yùn)動(dòng)模式的圖像序列分析成為計(jì)算機(jī)視覺(jué)和模式識(shí)別領(lǐng)域中最活躍的研究課題之一,如虛擬現(xiàn)實(shí)、智能監(jiān)控、感知接口等的驅(qū)動(dòng)。文獻(xiàn)[12]提出了現(xiàn)實(shí)世界中人體運(yùn)動(dòng)圖像序列研究的3個(gè)問(wèn)題,分別是人體運(yùn)動(dòng)建模,連續(xù)幀中的特征點(diǎn)通訊和遮擋區(qū)域分析。人體運(yùn)動(dòng)模型是畫(huà)中人物的關(guān)鍵幀建模和身體部位的廣義錐近似。閉塞區(qū)域分析主要通過(guò)模型和差圖像研究遮擋檢測(cè)。在此基礎(chǔ)上,文獻(xiàn)[13]對(duì)基于計(jì)算機(jī)視覺(jué)的人體運(yùn)動(dòng)分析的最新研究進(jìn)展進(jìn)行了全面綜述,重點(diǎn)介紹了一般的人體運(yùn)動(dòng)分析系統(tǒng)(即人體檢測(cè))、人體運(yùn)動(dòng)圖像序列跟蹤和人體活動(dòng)理解三方面。針對(duì)各方面的方法進(jìn)行了評(píng)估,并就現(xiàn)有研究面對(duì)的挑戰(zhàn)性難題和未來(lái)的研究方向進(jìn)行了系統(tǒng)性討論。
為了更好地表示圖像序列的連續(xù)性時(shí)空變化,文獻(xiàn)[14]對(duì)多視角圖像序列中的人體運(yùn)動(dòng)加以研究,通過(guò)隱馬爾可夫模型對(duì)多視角圖像序列中的任意運(yùn)動(dòng)序列進(jìn)行捕捉,有效提高了人體動(dòng)作捕捉的精準(zhǔn)度。文獻(xiàn)[15]探討了隱馬爾可夫模型在描述動(dòng)態(tài)圖像序列時(shí)的一些問(wèn)題,分析了不同的隱馬爾可夫鏈形狀和分類(lèi)方法對(duì)其性能的影響?;陔[馬爾可夫模型的融合方法及融合性能的影響因素的研究,引入了因子隱馬爾可夫模型作為特征融合方法,發(fā)展了圖模型理論對(duì)動(dòng)態(tài)圖像序列進(jìn)行描述和分類(lèi)。利用因子隱馬爾可夫模型具有的多層結(jié)構(gòu),不必通過(guò)多類(lèi)特征的串聯(lián)就可以達(dá)到特征融合的目的,是一種非線(xiàn)性的特征融合方法,有效彌補(bǔ)了單個(gè)特征的不足,在圖像序列分析中具有較好的表達(dá)描述能力。
為了研究圖像序列連續(xù)性時(shí)空變化的深度結(jié)構(gòu),文獻(xiàn)[16]針對(duì)人體行為動(dòng)作的視覺(jué)特性,構(gòu)建包含粗略層、中間層和細(xì)微層的自上至下層次化模型,將流形學(xué)習(xí)方法應(yīng)用到行為分層的過(guò)程中,消除了行為劃分的不確定性。文獻(xiàn)[17]針對(duì)圖像序列中的視覺(jué)跟蹤問(wèn)題,把圖像序列看作單流形結(jié)構(gòu),通過(guò)流形結(jié)構(gòu)的分析獲取樣本壓縮后的低維特征,通過(guò)流形排序算法,得到樣本點(diǎn)中與目標(biāo)相似度排名,從而確認(rèn)圖像序列中的目標(biāo)物體。
圖像序列時(shí)空變化的一個(gè)重要起因是運(yùn)動(dòng),包括攝像機(jī)運(yùn)動(dòng)和場(chǎng)景中的物體運(yùn)動(dòng)等。圖像序列運(yùn)動(dòng)估計(jì)是通過(guò)對(duì)圖像序列的分析,得到圖像全局運(yùn)動(dòng)量或局部物體運(yùn)動(dòng)量的一種重要技術(shù)方法。為了更好地表示圖像序列的深度流形結(jié)構(gòu),文獻(xiàn)[18]通過(guò)引入流形之間距離度量來(lái)尋找數(shù)據(jù)點(diǎn)的最近鄰,從而建立多流形LLE算法框架,在處理數(shù)據(jù)分類(lèi)問(wèn)題時(shí)又引入點(diǎn)到流形的距離度量。但是這種距離度量更多地依靠先驗(yàn)經(jīng)驗(yàn)和幾何直觀,算法泛化能力不佳。文獻(xiàn)[19]通過(guò)對(duì)流形局部結(jié)構(gòu)的估計(jì),獲得局部切空間,利用局部切空間來(lái)度量流形之間的相似度。在整體結(jié)構(gòu)分析上通過(guò)利用拉普拉斯特征映射算法框架融合局部度量,實(shí)現(xiàn)了多流形的劃分。文獻(xiàn)[20]基于混合概率密度模型提出了多層次流形學(xué)習(xí)框架。首先利用單個(gè)概率密度模型捕捉子流形的結(jié)構(gòu),然后建立多層次的混合概率模型分析多流形的整體結(jié)構(gòu)。文獻(xiàn)[21]在傳統(tǒng)流形學(xué)習(xí)基礎(chǔ)上,利用部分樣本的先驗(yàn)內(nèi)蘊(yùn)坐標(biāo)或者局部樣本之間相關(guān)對(duì)應(yīng)信息,將不同數(shù)據(jù)集對(duì)齊到統(tǒng)一的低維流形上。通過(guò)這種流形對(duì)齊的方法可以建立流形之間的映射關(guān)系,從而進(jìn)一步建立多層次流形結(jié)構(gòu)。文獻(xiàn)[22]在此基礎(chǔ)上利用層次流形學(xué)習(xí)算法,分析圖像序列的區(qū)域差異,挖掘圖像序列的深度信息。通過(guò)應(yīng)用在心臟醫(yī)學(xué)圖像序列和大腦3D圖像序列上,驗(yàn)證了這種層次化流形的思想在圖像序列分析中具有良好的識(shí)別效果,能針對(duì)圖像的時(shí)序變化特點(diǎn),分析不同尺度上的結(jié)構(gòu)變化。
3.1 譜流形學(xué)習(xí)
目前,譜流形學(xué)習(xí)中典型算法包括:等距映射算法(isometric mapping,Isomap)、拉普拉斯特征映射[23](laplacian eigenmap,LE)、局部線(xiàn)性嵌入[24]locally linear embedding,LLE)、局部切空間算法[25]locality tangent space alignment,LTSA)、核主成分分析(kernel principal components analysis,KPCA)等。這些算法可以分為局部保持方法和全局保持方法。局部保持方法主要是通過(guò)建立局部模型刻畫(huà)局部結(jié)構(gòu)的幾何特性,然后整合對(duì)齊所有交疊的局部幾何模型發(fā)現(xiàn)全局幾何特性,最后通過(guò)全局低維坐標(biāo)表示出來(lái)。全局保持方法是通過(guò)計(jì)算樣本和其余所有樣本的關(guān)系,得到全局度量矩陣,轉(zhuǎn)化為內(nèi)積矩陣,利用矩陣的譜分解獲得觀測(cè)數(shù)據(jù)的內(nèi)在低維坐標(biāo)。
雖然刻畫(huà)數(shù)據(jù)結(jié)構(gòu)的方式和采用的微分算子不同,但是它們的核心思想和基本框架一致。假定高維樣本分布于單個(gè)光滑流形上,結(jié)合微分流形的幾何結(jié)構(gòu)和譜方法的代數(shù)分析,在高維觀測(cè)空間和潛在低維空間之間建立隱式非線(xiàn)性映射,獲取高維樣本數(shù)據(jù)在低維空間上的內(nèi)蘊(yùn)坐標(biāo),從而發(fā)現(xiàn)隱含在高維數(shù)據(jù)的低維非線(xiàn)性結(jié)構(gòu)[26]。
下面給出譜流形學(xué)習(xí)的基本步驟[27]。假定樣本數(shù)據(jù)集A包含n個(gè)樣本點(diǎn),每個(gè)樣本點(diǎn)用列向量x表示,可以對(duì)應(yīng)任意目標(biāo)對(duì)象,其中xi∈?d,d表示樣本點(diǎn)的維數(shù),1≤i≤n。
步驟1構(gòu)建鄰接矩陣。針對(duì)樣本數(shù)據(jù)集A構(gòu)建鄰接矩陣W∈?n×n,鄰接關(guān)系的定義可以采用最近鄰法或者球鄰域法。樣本之間相似度權(quán)值計(jì)算可采用熱核函數(shù),其中表示相鄰樣本之間的歐式距離,σ是規(guī)模參數(shù):
步驟2構(gòu)建度矩陣。定義樣本數(shù)據(jù)集的度矩陣D,對(duì)角元素等于鄰接矩陣列向量和:
步驟3構(gòu)建微分算子。定義流形上微分算子L,可采取以下幾種定義方法,其中dmax表示度矩陣D中最大的元素,I表示單位矩陣:
步驟4獲取內(nèi)蘊(yùn)坐標(biāo)。解廣義特征值Le=λDe,L算子有n個(gè)實(shí)特征值λ1≥λ2≥…≥λn,每個(gè)特征值λi對(duì)應(yīng)一個(gè)特征向量ei。選取前k個(gè)特征值對(duì)應(yīng)的特征向量{e1,e2,…,ek},組成矩陣Y=?n×k。樣本點(diǎn)xi在流形上的內(nèi)蘊(yùn)低維坐標(biāo)是矩陣Y的對(duì)應(yīng)第i行的行向量。
根據(jù)以上過(guò)程描述,標(biāo)準(zhǔn)譜流形學(xué)習(xí)采用最近鄰法計(jì)算樣本數(shù)據(jù)A的鄰接矩陣W的復(fù)雜度為O(n(n×d)),計(jì)算度矩陣的復(fù)雜度為O(n),算子L是半正定的對(duì)稱(chēng)矩陣,對(duì)其進(jìn)行譜分解的復(fù)雜度為O(n3)。因此當(dāng)d?n時(shí),標(biāo)準(zhǔn)譜流形學(xué)習(xí)算法時(shí)間復(fù)雜度為O(n3)。
3.2 圖像序列
從圖像序列的角度出發(fā),觀察圖像集合。圖1記錄高爾夫擊球動(dòng)作,盡管都是相似的擊球動(dòng)作,但是按照不同擊球的角度,相同的動(dòng)作可以分為兩個(gè)不同圖像序列;圖2由同一部攝像機(jī)記錄同一人的動(dòng)作集合,但是按照運(yùn)動(dòng)種類(lèi)分為不同的圖像序列;圖3是由多部攝像機(jī)拍攝的行車(chē)圖像,其中(a)屬于同一攝像機(jī),(b)是3部攝像機(jī)從不同角度拍攝。根據(jù)時(shí)間和拍攝角度,可以判斷只有下方最左邊的圖像屬于同一序列,后兩幅圖像是由不同角度攝像機(jī)拍攝的。
Fig.1 Golfball action圖1 高爾夫擊球動(dòng)作
Fig.2 Human motion sequences圖2 人體動(dòng)作序列
通過(guò)觀察可以發(fā)現(xiàn)在圖像序列中存在如下結(jié)構(gòu)特點(diǎn):
(1)圖像集合中按照不同判斷標(biāo)準(zhǔn)存在多個(gè)圖像序列;
Fig.3 Car moving sequence圖3 汽車(chē)行駛圖像序列
(2)圖像序列內(nèi)部存在連續(xù)變化關(guān)系,這種關(guān)系是按照時(shí)序變化的;
(3)不同圖像序列之間存在高度相似的部分,但是根據(jù)序列連續(xù)變化的特點(diǎn)可以區(qū)分。
結(jié)合圖像序列的結(jié)構(gòu)特點(diǎn)和譜流形學(xué)習(xí)的思想,把圖像序列結(jié)構(gòu)抽象為流形結(jié)構(gòu)。如圖4所示,圖像集合中存在多個(gè)流形結(jié)構(gòu),單個(gè)圖像序列分布在單個(gè)光滑流形上,而屬于不同序列的圖像樣本分布在不同的流形上。
如果不同流形之間不存在交集部分,采用基于局部結(jié)構(gòu)保持的傳統(tǒng)譜流形學(xué)習(xí)算法可以獲取圖像序列的本征坐標(biāo),進(jìn)一步可以實(shí)現(xiàn)基于多流形的聚類(lèi)。但是圖4中不同動(dòng)作序列中存在相似度較高的動(dòng)作幀,這表示在圖像序列集合中建立多流形模型,不同流形之間存在交集。傳統(tǒng)的譜流形學(xué)習(xí)算法核心在于盡量縮小類(lèi)內(nèi)的距離,同時(shí)增大類(lèi)間的距離,并沒(méi)有考慮數(shù)據(jù)空間結(jié)構(gòu)問(wèn)題,無(wú)法克服多流形之間存在交集的問(wèn)題。圖5所示圖像序列來(lái)自卡內(nèi)基梅隆大學(xué)的人體動(dòng)作圖像數(shù)據(jù)(MoCap data)。圖中從左往右依次顯示的是8個(gè)不同時(shí)間點(diǎn)時(shí)人體行走分解動(dòng)作的骨架圖像??梢杂^察到人體行走動(dòng)作隨著時(shí)間逐漸變化,每個(gè)時(shí)刻的動(dòng)作與相鄰時(shí)刻動(dòng)作區(qū)別較小,這表示圖像序列整體變化具有平緩性。圖6所示圖像序列是網(wǎng)球從桌子的一端滾動(dòng)到另外一端??梢杂^察到無(wú)論網(wǎng)球運(yùn)動(dòng)速度快或慢,其運(yùn)動(dòng)軌跡是不會(huì)變化的,仍然是從左端逐漸滾動(dòng)到右端,這表示圖像序列內(nèi)部結(jié)構(gòu)具有不變性。
Fig.4 Human motion sequences圖4 人體動(dòng)作序列
Fig.5 Motion sequence of human walking圖5 人體行走動(dòng)作序列
Fig.6 Image sequence of ball rolling圖6 網(wǎng)球滾動(dòng)圖像序列
通過(guò)觀察得出圖像序列內(nèi)部結(jié)構(gòu)的關(guān)鍵特點(diǎn):相鄰圖像之間的變化是連續(xù)且平緩的,不會(huì)產(chǎn)生突變的情況;圖像序列的內(nèi)部結(jié)構(gòu)具有不變性,不會(huì)因?yàn)樽兓俾矢淖冃蛄袃?nèi)部結(jié)構(gòu);不同圖像序列之間存在交集部分,相似圖像序列之間的交集部分明顯增多。根據(jù)圖像序列的這些特點(diǎn),可以推斷出在基于圖像序列構(gòu)建的混合多流形模型中,同一圖像序列分布的單流形結(jié)構(gòu)是光滑和平緩的,當(dāng)兩個(gè)流形存在交集部分時(shí),應(yīng)該選擇變化方向趨于平緩的流形結(jié)構(gòu)。在進(jìn)行混合多流形結(jié)構(gòu)分析時(shí),把平滑性作為構(gòu)建目標(biāo)流形的標(biāo)準(zhǔn)之一,能夠有效區(qū)分流形之間的交集部分[22]。當(dāng)流形之間的交集部分較多且復(fù)雜時(shí),單層流形映射不能充分反映流形的本質(zhì)結(jié)構(gòu),需要逐層剖析流形的交集部分。圖7顯示兩個(gè)二維光滑流形的聚類(lèi)問(wèn)題。左邊第一幅圖表示所有輸入的樣本點(diǎn),隨后從左往右3幅子圖分別表示不同的聚類(lèi)情況,只有最右邊圖中的聚類(lèi)方式符合光滑和平緩條件。
Fig.7 Clustering of two dimensional manifold圖7 二維光滑流形聚類(lèi)
3.3 學(xué)習(xí)模型
綜上所述,在圖像序列結(jié)構(gòu)學(xué)習(xí)中存在兩個(gè)關(guān)鍵問(wèn)題,分別是單流形的局部結(jié)構(gòu)表示分析和多流形的整體結(jié)構(gòu)聚類(lèi)分析。當(dāng)流形之間交集部分較多時(shí),需要通過(guò)多層流形映射逐層剖析流形結(jié)構(gòu),可以幫助分析和理解圖像集合內(nèi)部隱藏的序列結(jié)構(gòu)?;趫D像序列的結(jié)構(gòu)特點(diǎn),結(jié)合多流形學(xué)習(xí)框架[28]提出了混合多流形深度學(xué)習(xí)模型,表述如下:記高維混合數(shù)據(jù)集,其中X包含n個(gè)樣本點(diǎn),n=n1+n2+…+nc,數(shù)據(jù)集總共包含c個(gè)單流形結(jié)構(gòu),每個(gè)流形包含nc個(gè)樣本點(diǎn)。高維數(shù)據(jù)和低維流形之間對(duì)應(yīng)關(guān)系符合式(1):
其中,C(xi)是流形上的分類(lèi)函數(shù),將數(shù)據(jù)點(diǎn)xi劃分給對(duì)應(yīng)的單流形;是數(shù)據(jù)點(diǎn)xi對(duì)應(yīng)單流形上的第k層的光滑映射,通過(guò)該映射找到單流形在第k層對(duì)應(yīng)的內(nèi)蘊(yùn)坐標(biāo)(低維嵌入)yi;dc是單流形的本征維數(shù),不同的單流形的本征維數(shù)可能不同。
4.1 局部結(jié)構(gòu)
在基于圖像序列的混合多流形模型中,3.2節(jié)指出關(guān)鍵問(wèn)題在于區(qū)分不同單流形的交集部分。結(jié)合圖像序列中相鄰圖像之間變化的平緩性和連續(xù)性的結(jié)構(gòu)特點(diǎn),可以通過(guò)單流形的平緩性來(lái)表示這種結(jié)構(gòu)特點(diǎn)。在歐式空間中,一般采用高斯曲率度量曲線(xiàn)或者曲面的彎曲程度,曲率值大表示曲線(xiàn)或者曲面的彎曲程度大,反之亦然。在光滑流形上,一般采用里奇曲率(Ricci curvature)度量流形結(jié)構(gòu)的扭曲程度。為了反映流形幾何結(jié)構(gòu)的扭曲程度,里奇曲率采用合并不同角度的黎曼曲率的方式[29]。根據(jù)里奇曲率的觀點(diǎn),流形上某一點(diǎn)x處的流形彎曲程度用該點(diǎn)和其領(lǐng)域ε(x)內(nèi)所有點(diǎn)之間的曲率和來(lái)表示,流形上所有點(diǎn)的曲率總和sum()表示流形整體結(jié)構(gòu)的彎曲程度,如式(2)所示。
其中,C(x)表示流形上某一點(diǎn)x處的曲率和;xi∈ε(x)表示樣本點(diǎn)的近鄰點(diǎn);θ(x,xi)表示相鄰點(diǎn)之間的曲率值。曲率的計(jì)算由定義1引出。
定義1[29]{a1,a2,…,ap}和{b1,b2,…,bq}是正交向量組,r(A,B)表示由正交向量組生成的線(xiàn)性子空間A=span{a1,a2,…,ap}和B=span{b1,b2,…,bq}之間的角度值,矩陣W表示子空間之間對(duì)應(yīng)的內(nèi)積,。
定義2[30]設(shè)是一個(gè)m維光滑流形,x∈。光滑流形在點(diǎn)x的切向量v是滿(mǎn)足下列條件的一個(gè)映射→?:
條件(1)、(2)說(shuō)明v是從到?的線(xiàn)性映射,條件(3)稱(chēng)為L(zhǎng)eibniz法則。表示光滑流形上x(chóng)處的全體光滑函數(shù)集合,?表示實(shí)數(shù)域。
定理1[30]設(shè)是一個(gè)m維光滑流形,x∈。用Tx表示在點(diǎn)x處的全體切向量的集合,則在Tx中有自然的線(xiàn)性結(jié)構(gòu),使得Tx稱(chēng)為m維的向量空間,向量空間Tx稱(chēng)為光滑流形在點(diǎn)x的切空間,如圖8所示。
Fig.8 Tangent space ofxandyon manifold圖8 光滑流形上點(diǎn)x和點(diǎn)y的切空間
由定義2和定理1可知,流形上某一點(diǎn)x處存在一個(gè)自然的線(xiàn)性子空間,即切空間Tx。由定義1可知利用x的線(xiàn)性子空間可以表示該點(diǎn)處的彎曲程度,進(jìn)而獲取流形整體結(jié)構(gòu)的彎曲程度[31]。通過(guò)流形上點(diǎn)對(duì)之間的最近鄰關(guān)系獲取流形上任一點(diǎn)x的切空間,以雅可比矩陣(Jacobian matrix)的形式表示為Fx,如式(4)所示:
其中,Gx=(-xi1T),xi表示流形上某一點(diǎn)坐標(biāo),表示該點(diǎn)的k最近鄰坐標(biāo)矩陣。根據(jù)矩陣?yán)碚撝械娜鹄潭ɡ韀32]Rayleigh quotient)可知,最優(yōu)解是矩陣的前d大特征值對(duì)應(yīng)的特征向量。d表示流形局部結(jié)構(gòu)的本征維數(shù),可以通過(guò)定義固定閾值方法得到該維數(shù),或者通過(guò)求取特征值間最大譜間隙的方法求取[33]。
4.2 整體結(jié)構(gòu)
從聚類(lèi)的角度出發(fā)分析混合多流形模型的整體結(jié)構(gòu),每個(gè)單流形視作一類(lèi),不同的單流形視為異類(lèi)。盡量保持同一單流形結(jié)構(gòu)的連續(xù)性和平緩性,單流形上的類(lèi)內(nèi)結(jié)構(gòu)利用曲率和表示,如式(5)所示,不同流形之間的結(jié)構(gòu)同樣利用曲率表示為,如式(6)所示:
當(dāng)流形之間交集部分較多時(shí),利用流形對(duì)齊[34]建立流形之間的映射關(guān)系和流形深度結(jié)構(gòu),通過(guò)逐層映射獲取深度嵌入。如圖9所示,保持上層流形的結(jié)構(gòu),在下層映射時(shí)采用遞歸的劃分方法,不斷將圖像分割為大小相等的區(qū)域進(jìn)行映射。例如可以把一幅圖像分割為面積相等的4部分,然后遞歸地把子圖像分割為面積相等的4部分,對(duì)應(yīng)每個(gè)部分的坐標(biāo)稱(chēng)為該圖像的區(qū)域坐標(biāo)。對(duì)于某一完整樣本點(diǎn)的上層嵌入坐標(biāo)y,對(duì)應(yīng)下層流形上的深度嵌入坐標(biāo)z的目標(biāo)函數(shù)如式(8)所示:
其中,α是決定流形之間映射程度的權(quán)重系數(shù),較大的系數(shù)α能夠加強(qiáng)兩層流形之間的同構(gòu)性,較小的α能增強(qiáng)對(duì)于流形交集部分的展開(kāi)。wij表示該樣本點(diǎn)與其近鄰樣本點(diǎn)區(qū)域坐標(biāo)之間的相似度權(quán)值。第一項(xiàng)表示層次流形之間相似度權(quán)值,第二項(xiàng)表示保持當(dāng)前層的流形結(jié)構(gòu)。對(duì)y求導(dǎo),可以獲取該目標(biāo)函數(shù)的解析解:
其中,Z是樣本點(diǎn)在下層流形上的區(qū)域嵌入坐標(biāo);I是單位矩陣;L是基于相似度矩陣W構(gòu)建的區(qū)域拉普拉斯矩陣;Y是上層流形的坐標(biāo)。
圖9所示為層次流形之間的映射關(guān)系,左邊是沒(méi)有采用流形對(duì)齊的流形映射,獲取的嵌入坐標(biāo)不能保持上下層流形之間的同構(gòu)關(guān)系;右邊是采用流形對(duì)齊后的流形映射,上下層流形之間維持了較好的同構(gòu)關(guān)系。
Fig.9 Map of hierarchy manifold圖9 層次流形之間的映射
4.3 譜深度學(xué)習(xí)算法
基于圖像序列的結(jié)構(gòu)特點(diǎn),在譜流形學(xué)習(xí)框架的基礎(chǔ)上,通過(guò)流形局部結(jié)構(gòu)的表示和多流形整體結(jié)構(gòu)的層次映射,提出了譜深度學(xué)習(xí)算法,獲取圖像序列的深度嵌入坐標(biāo)。譜深度學(xué)習(xí)算法與單層譜流形學(xué)習(xí)算法相比較,算法復(fù)雜度主要增加在區(qū)域拉普拉斯算子的計(jì)算上。雖然在通過(guò)流形對(duì)齊獲取下層嵌入坐標(biāo)時(shí),需要根據(jù)具體劃分方式計(jì)算樣本與其近鄰之間區(qū)域坐標(biāo)的相似度權(quán)值,從而獲取區(qū)域坐標(biāo)的微分算子。但是下層坐標(biāo)可以通過(guò)求導(dǎo)求取,不需要再次使用譜分解方法求解近似解。如果在流形映射時(shí),區(qū)域劃分為l塊,算法增加的時(shí)間復(fù)雜度為O(ln2)。因?yàn)樵谏蠈恿餍吻度胱鴺?biāo)的獲取中,采用譜分解,時(shí)間復(fù)雜度為O(n3),所以算法時(shí)間復(fù)雜度仍然是O(n3)??梢园l(fā)現(xiàn)當(dāng)樣本維數(shù)較小時(shí),譜深度學(xué)習(xí)算法主要的時(shí)間耗費(fèi)在對(duì)微分算子進(jìn)行譜分解上。
算法1譜深度學(xué)習(xí)算法
步驟1獲取流形局部結(jié)構(gòu)。利用k最近鄰算法獲取樣本xi的k近鄰,通過(guò)切空間表示流形上x(chóng)i的局部結(jié)構(gòu),F(xiàn)x由式(4)獲取。
步驟2構(gòu)建鄰接矩陣?;诹餍尉植拷Y(jié)構(gòu)保持構(gòu)建W,其中σ1是距離規(guī)模參數(shù),σ2用來(lái)控制曲率高斯核所占比重:
步驟3構(gòu)建度矩陣。定義樣本數(shù)據(jù)集的度矩陣D,對(duì)角元素等于鄰接矩陣列向量和:
步驟4構(gòu)建微分算子。構(gòu)建流形上的拉普拉斯算子L,半正定對(duì)稱(chēng)矩陣L=D-W。
步驟5獲取單層流形嵌入坐標(biāo)。解廣義特征值Le=λDe,選取前k個(gè)特征值對(duì)應(yīng)的特征向量{e1,e2,…,ek}。樣本點(diǎn)xi通過(guò)單層流形映射獲取的嵌入坐標(biāo)yi是特征向量作為列向量組成矩陣的行向量{e1(i),e2(i),…,ek(i)}。
步驟6獲取流形深度嵌入坐標(biāo)。通過(guò)流形對(duì)齊,建立流形映射,根據(jù)式(9)獲取數(shù)據(jù)點(diǎn)在下層流形上的深度嵌入坐標(biāo)。
實(shí)驗(yàn)首先在兩個(gè)人工數(shù)據(jù)集上驗(yàn)證SDL算法,分別是MNIST手寫(xiě)體數(shù)據(jù)集和卡內(nèi)基梅隆大學(xué)的MoCap人體動(dòng)作數(shù)據(jù)集。第一步利用人工數(shù)據(jù)集和手寫(xiě)體數(shù)據(jù)集模擬混合多流形模型,分析SDL算法針對(duì)混合多流形的聚類(lèi)效果。第二步利用MoCap人體動(dòng)作數(shù)據(jù)集測(cè)試SDL算法在真實(shí)圖像序列數(shù)據(jù)集上的聚類(lèi)效果,通過(guò)聚類(lèi)效果說(shuō)明算法學(xué)習(xí)圖像序列隱藏結(jié)構(gòu)的能力。
5.1 多流形聚類(lèi)分析
構(gòu)建兩個(gè)人工數(shù)據(jù)集,包括大小球和交叉板。其中大小球包括1 000個(gè)三維數(shù)據(jù)點(diǎn),500個(gè)來(lái)自外層大球,500個(gè)來(lái)自?xún)?nèi)層小球,對(duì)應(yīng)沒(méi)有交集的兩個(gè)流形;交叉板有600個(gè)三維數(shù)據(jù)點(diǎn),兩個(gè)平面各自包含300個(gè)數(shù)據(jù)點(diǎn),對(duì)應(yīng)存在交集部分的兩個(gè)流形。MNIST手寫(xiě)體包括(1~10)10個(gè)數(shù)字的手寫(xiě)體,維數(shù)是784。為了模擬混合多流形,選擇1、2、7近似度較高的3種手寫(xiě)體數(shù)字,分別選取300個(gè)數(shù)據(jù)點(diǎn),對(duì)應(yīng)3個(gè)子流形,如圖10所示。
Fig.10 Handwritten data set圖10 手寫(xiě)體數(shù)據(jù)集
對(duì)人工數(shù)據(jù)集和MNIST手寫(xiě)體數(shù)據(jù)集進(jìn)行聚類(lèi)分析,聚類(lèi)結(jié)果評(píng)價(jià)采用Rand Index score,得分越接近1表示聚類(lèi)效果越好。實(shí)驗(yàn)采用k-means、Isomap、LE和LLE作為對(duì)比算法。實(shí)驗(yàn)結(jié)果如表1所示。從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),大小球數(shù)據(jù)集內(nèi)部?jī)蓚€(gè)流形之間不存在交集,傳統(tǒng)譜流形學(xué)習(xí)算法LLE和LE能夠比較理想地獲取其內(nèi)部結(jié)構(gòu),SDL算法在該數(shù)據(jù)集上表現(xiàn)同樣很好。數(shù)據(jù)集交叉板中,流形之間存在交集,所有算法的表現(xiàn)都出現(xiàn)不同程度的下降,但是SDL算法下降幅度最小。手寫(xiě)體數(shù)據(jù)集內(nèi)3個(gè)子流形之間同樣存在交集,SDL算法聚類(lèi)評(píng)分最高。圖11所示為算法在3個(gè)數(shù)據(jù)集(依次為大小球、交叉板、手寫(xiě)體)上的聚類(lèi)效果比較,SDL算法效果明顯優(yōu)于傳統(tǒng)譜流形學(xué)習(xí)算法。這證明了相比較傳統(tǒng)譜流形學(xué)習(xí)算法,SDL算法由于在處理多流形交集時(shí)的能力,獲取的深度嵌入坐標(biāo)反映了混合多流形的真實(shí)結(jié)構(gòu)。
Table 1 Cluster analysis of experimental result 1表1 實(shí)驗(yàn)結(jié)果聚類(lèi)分析1
Fig.11 Algorithm comparison and analysis on 3 data sets圖11 3種不同數(shù)據(jù)集上的算法比較
5.2 圖像序列聚類(lèi)分析
MoCap圖像序列是卡內(nèi)基梅隆大學(xué)建立的人體動(dòng)作序列數(shù)據(jù)集。該數(shù)據(jù)集利用關(guān)節(jié)點(diǎn)軌跡記錄了不同的人體動(dòng)作序列,其中不但包括行走、跑步、轉(zhuǎn)彎等簡(jiǎn)單的動(dòng)作,還包括類(lèi)似于舞蹈、運(yùn)動(dòng)等復(fù)雜動(dòng)作。數(shù)據(jù)集以動(dòng)作幀的形式,按照動(dòng)作序列發(fā)生時(shí)間順序存儲(chǔ)。
第一組圖像序列實(shí)驗(yàn)采用動(dòng)作(a)~(e)作為測(cè)試數(shù)據(jù)集,共計(jì)1 782個(gè)樣本點(diǎn),維數(shù)是62。包括跳躍(a)、向前跳躍(b)、左轉(zhuǎn)彎(c)、行走(d)和跑步(e),如圖12所示?;旌蟿?dòng)作序列(a,b)作為測(cè)試集1,混合動(dòng)作序列(a,b,c)作為測(cè)試集2,混合動(dòng)作序列(a,b,c,d)作為測(cè)試集3,混合動(dòng)作序列(a,b,c,d,e)作為測(cè)試集4。聚類(lèi)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)仍然采用Rand Index score,實(shí)驗(yàn)采用k-means、LLE和LE算法作為對(duì)照組,各算法參數(shù)均設(shè)為最優(yōu)值實(shí)驗(yàn)結(jié)果,如表2所示。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)測(cè)試數(shù)據(jù)集中包含動(dòng)作序列種類(lèi)較少時(shí),通過(guò)SDL算法聚類(lèi)效果提高程度不明顯,但是隨著測(cè)試數(shù)據(jù)集包含圖像序列類(lèi)別數(shù)目的逐步增加,SDL算法的聚類(lèi)效果明顯優(yōu)于對(duì)比算法。這說(shuō)明SDL算法在處理包含多個(gè)流形結(jié)構(gòu)的圖像序列數(shù)據(jù)時(shí),優(yōu)于其他算法。
Fig.12 Action sequences圖12 動(dòng)作序列
Table 2 Cluster analysis of experimental result 2表2 實(shí)驗(yàn)結(jié)果聚類(lèi)分析2
Fig.13 3 dimensional coordinates of sequences(a,b),(d,e)圖13 動(dòng)作序列(a,b)和(d,e)的三維坐標(biāo)
Fig.14 Dance image sequences圖14 舞蹈動(dòng)作序列
Fig.15 3 dimensional coordinates of dance image sequences圖15 舞蹈動(dòng)作序列的三維坐標(biāo)
圖13所示為流形本征維數(shù)設(shè)為3時(shí),通過(guò)SDL算法獲取的測(cè)試數(shù)據(jù)集嵌入坐標(biāo)。圖中左側(cè)是跳躍動(dòng)作(a)和向前跳躍動(dòng)作(b);右側(cè)是行走動(dòng)作(d)和跑步動(dòng)作(e)。通過(guò)SDL算法獲取的深度嵌入坐標(biāo)在序列(d)和序列(e)上具有較好區(qū)分能力;在兩個(gè)相似動(dòng)作序列(a,b)上有部分重疊區(qū)域,這是序列(a)和序列(b)中有部分動(dòng)作高度相似,難以區(qū)分。
第二組圖像序列實(shí)驗(yàn)采用更加復(fù)雜的人體動(dòng)作序列,舞蹈動(dòng)作1和舞蹈動(dòng)作2作為測(cè)試集,如圖14所示。通過(guò)SDL算法獲取復(fù)雜舞蹈動(dòng)作序列的深度嵌入坐標(biāo)在三維空間的可視化,如圖15所示??梢悦黠@發(fā)現(xiàn)兩個(gè)人體復(fù)雜動(dòng)作被明顯區(qū)分,證明了SDL算法在復(fù)雜圖像序列數(shù)據(jù)上的結(jié)構(gòu)學(xué)習(xí)能力。
本文針對(duì)圖像序列的結(jié)構(gòu)特點(diǎn),得出圖像序列中相鄰圖像之間具有高度相似性,圖像之間的變化具有連續(xù)性和平緩性的結(jié)論;不同圖像序列之間存在交集,單層流形映射無(wú)法區(qū)分的問(wèn)題。結(jié)合譜流形學(xué)習(xí)和流形深度結(jié)構(gòu),提出了一種譜深度學(xué)習(xí)算法。為了反映單流形結(jié)構(gòu)的連續(xù)性和平緩性,利用流形上存在的天然線(xiàn)性空間,及其局部切空間表示流形的局部結(jié)構(gòu)。利用流形對(duì)齊建立層次流形之間的深度映射關(guān)系,既保持了單層映射的局部結(jié)構(gòu),又保持了層次流形之間的同構(gòu)性。實(shí)驗(yàn)證明通過(guò)SDL算法提高了混合多流形的聚類(lèi)效果,獲取的圖像序列深度嵌入坐標(biāo)不僅能夠?qū)W習(xí)圖像序列的深度結(jié)構(gòu),并且具有一定的時(shí)域劃分能力。
同時(shí)SDL算法存在一些需要改進(jìn)和進(jìn)一步研究的問(wèn)題。首先,在處理混合多流形數(shù)據(jù)時(shí),利用譜方法獲取切空間的譜表示的維數(shù)設(shè)定問(wèn)題大多依靠經(jīng)驗(yàn),不同維數(shù)的譜表示對(duì)算法效果存在影響。其次,基于切空間曲率的局部結(jié)構(gòu)表示方法難以適應(yīng)更加復(fù)雜的數(shù)據(jù)。作者在實(shí)驗(yàn)中嘗試過(guò)一些子空間曲率的計(jì)算辦法,但實(shí)驗(yàn)效果并不理想,如何更好地表示流形的局部結(jié)構(gòu)還有待研究。另外,利用流形對(duì)齊的方法建立流形映射關(guān)系只是一種簡(jiǎn)單的構(gòu)建方法,只能在尺度的層次上進(jìn)一步學(xué)習(xí)流形結(jié)構(gòu),隨著深度的增加,算法效果的提高逐漸停滯。如何更好地建立深度流形,反映更深層的流形本質(zhì)結(jié)構(gòu)還有待研究。
更重要的是,SDL算法對(duì)于圖像序列的劃分是基于圖像之間相似度和序列連續(xù)變化的原理,并沒(méi)有充分利用圖像的時(shí)序特點(diǎn)。因?yàn)樽V流形學(xué)習(xí)能夠?qū)W習(xí)數(shù)據(jù)的空間結(jié)構(gòu);而概率模型譜學(xué)習(xí),特別是馬爾可夫模型,能夠反映數(shù)據(jù)之間的時(shí)間關(guān)系。如果將兩者結(jié)合起來(lái),利用某一時(shí)刻或一段時(shí)間內(nèi)的流形結(jié)構(gòu)變化預(yù)測(cè)后續(xù)結(jié)構(gòu),實(shí)現(xiàn)基于圖像序列的預(yù)測(cè)是進(jìn)一步研究的方向。
References:
[1]Tenenbaum J B,De Silva V,Langford J C.A global geometric framework for nonlinear dimensionality reduction[J]. Science,2000,290(5500):2319-2323.
[2]Chung F R K.Spectral graph theory[M].[S.l.]:American Mathematical Society,1997.
[3]Belkin M,Niyogi P.Towards a theoretical foundation for Laplacian-based manifold methods[J].Journal of Computer and System Sciences,2008,74(8):1289-1308.
[4]Chen Zhongbiao,He Yijun,Zhang Biao,et al.A new algorithm to retrieve wave parameters from marine X-band radar image sequences[J].IEEE Transactions on Geoscience and Remote Sensing,2014,52(7):4083-4091.
[5]Chen Wei.Current motion tracking from satellite image sequence with global similarity optimization model[J].IEEE Transactions on Geoscience and Remote Sensing,2015,53 (2):1008-1015.
[6]Zhai Dongli.Research on navigation algorithm for soft landing asteroid based on image sequence[D].Harbin:Harbin Institute of Technology,2006.
[7]Deng Jiaxian,Wu Chengke,Li Yunsong,et al.An algorithm for multi-spectral image series coding[J].Acta Optica Sinica, 2005,24(11):1499-1502.
[8]Hou Xiaofang,Zhu Penghua,Ma Yanxin.Classification of cardiac ultrasound image sequences based on sparse representation[J].Journal of Software,2014,9(9):2309-2314.
[9]Sun Zheng,Wang Jianjian.Compensation of inplane rigid motion for in vivo intracoronary ultrasound image sequence [J].Computers in Biology and Medicine,2013,43(9):1077-1085.
[10]Wei Jiaotong.The research of multi-energy X-ray image stack fusion algorithm[D].Taiyuan:North University of China, 2014.
[11]Akita K.Image sequence analysis of real world human motion[J].Pattern Recognition,1984,17(1):73-83.
[12]Wang Liang,Hu Weiming,Tan Tieniu.Recent developments in human motion analysis[J].Pattern Recognition,2003,36 (3):585-601.
[13]Peng Bo,Yang Xianfeng.Investigation of similarity functions for ultrasound image sequence motion estimation[J]. Computer Simulation,2012,29(9):258-261.
[14]Liu Yanan,Jia Liankun,Yu Wenyu.Capturing human motion based on modified hidden Markov model in multiview image sequences[J].Journal of Multimedia,2014,9 (1):92-98.
[15]Chen Changhong.Dynamic image sequence representation and classification with application to human motion analysis[D].Xi’an:Xidian University,2009.
[16]Chen Shaorong,Wang Hongqiang,Li Xiang.Manifold learning based layer model for video action recognition[J].Computer Simulation,2011,28(12):272-276.
[17]Zhou Tao,He Xiangjian,Xie Kai,et al.Robust visual tracking via efficient manifold ranking with low-dimensional compressive features[J].Pattern Recognition,2015,48(8):2459-2473.
[18]Hettiarachchi R,Peters J F.Multi-manifold LLE learning in pattern recognition[J].Pattern Recognition,2015,48(9):2947-2960.
[19]Gong Dian,Zhao Xuemei,Medioni G.Robust multiple manifolds structure learning[C]//Proceedings of the 29th International Conference on Machine Learning,Edinburgh,Scotland,Jun 26-Jul 1,2012.
[20]Wang Xiaoxia,Tiňo P,Fardal M A.Multiple manifolds learning framework based on hierarchical mixture density model[C]//LNCS 5212:Proceedings of the 2008 European Conference on Machine Learning and Knowledge Discovery in Databases,Antwerp,Belgium,Sep 15-19,2008.Berlin, Heidelberg:Springer,2008:566-581.
[21]Ham J,Lee D D,Saul L K.Semi-supervised alignment of manifolds[C]//Proceedings of the 21st Conference on Uncertainty in Artificial Intelligence,Edinburgh,Scotland,Jul 26-29,2005:120-127.
[22]Bhatia K K,Rao A,Price A N,et al.Hierarchical manifold learning[C]//LNCS 7510:Proceedings of the 15th International Conference on Medical Image Computing and ComputerAssisted Intervention,Nice,France,Oct 1-5,2012.Berlin, Heidelberg:Springer,2012:512-519.
[23]Belkin M,Niyogi P.Laplacian eigenmaps for dimensionality reduction and data representation[J].Neural Computation, 2003,15(6):1373-1396.
[24]Roweis S T,Saul L K.Nonlinear dimensionality reduction by locally linear embedding[J].Science,2000,290(5500): 2323-2326.
[25]Zhang Zhenyue,Zha Hongyuan.Principal manifolds andnonlinear dimensionality reduction via tangent space alignment[J].Journal of Shanghai University:English Edition, 2010,26(4):406-424.
[26]Ham J,Lee D D,Mika S,et al.A kernel view of the dimensionality reduction of manifolds[C]//Proceedings of the 21st International Conference on Machine Learning,Banff,Canada,Jul 4-8,2004.New York:ACM,2004:47-57.
[27]Xu Rong,Jiang Feng,Yao Hongxun.Overview of manifold learning[J].CAAI Transactions on Intelligent Systems, 2006,1(1):44-51.
[28]Wang Yong,Jiang Yuan,Wu Yi,et al.Spectral clustering on multiple manifolds[J].IEEE Transactions on Neural Networks,2011,22(7):1149-1161.
[29]Tyagi H,Vural E,Frossard P.Tangent space estimation for smooth embeddings of Riemannian manifolds[J].Information and Inference,2013,2(1):69-114.
[30]Chen Xingshen.Lectures on differential geometry[M].Beijing:Peking University Press,2001.
[31]Chen Weihuan.An introduction to differentiable manifold [M].Beijing:Higher Education Press,2001.
[32]Huang Tingzhu,Zhong Shouming.Matrix theory[M].Beijing:Higher Education Press,2003.
[33]Smith A K,Huo Xiaoming,Zha Hongyuan.Convergence and rate of convergence of a manifold-based dimension reduction algorithm[C]//Proceedings of the Advances in Neural Information Processing Systems,Vancouver,Canada, Dec 8-11,2008.Red Hook,USA:Curran Associates,2008: 1529-1536.
[34]Bhatia K K,Rao A,Price A N,et al.Hierarchical manifold learning for regional image analysis[J].IEEE Transactions on Medical Imaging,2014,33(2):444-461.
附中文參考文獻(xiàn):
[6]翟冬麗.基于圖像序列的小行星軟著陸導(dǎo)航方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.
[7]鄧家先,吳成柯,李云松,等.干涉多光譜衛(wèi)星圖像序列編碼[J].光學(xué)學(xué)報(bào),2005,24(11):1499-1502.
[10]魏交統(tǒng).遞變能量X射線(xiàn)圖像序列融合算法研究[D].太原:中北大學(xué),2014.
[13]彭博,楊先鳳.超聲圖像序列運(yùn)動(dòng)估計(jì)相似度函數(shù)研究[J].計(jì)算機(jī)仿真,2012,29(9):258-261.
[15]陳昌紅.動(dòng)態(tài)圖像序列建模與分類(lèi)及其在人體運(yùn)動(dòng)分析中的應(yīng)用[D].西安:西安電子科技大學(xué),2009.
[16]陳紹榮,王宏強(qiáng),黎湘.基于流形學(xué)習(xí)的視頻序列行為分層算法[J].計(jì)算機(jī)仿真,2011,28(12):272-276.
[27]徐蓉,姜峰,姚鴻勛.流形學(xué)習(xí)概述[J].智能系統(tǒng)學(xué)報(bào), 2006,1(1):44-51.
[30]陳省身.微分幾何講義[M].北京:北京大學(xué)出版社,2001.
YIN Hongwei was born in 1990.He is a Ph.D.candidate at Soochow University.His research interests include machine learning and spectral manifold learning,etc.
尹宏偉(1990—),男,安徽宿松人,蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院博士研究生,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí),譜學(xué)習(xí)等。
LI Fanzhang was born in 1964.He received the M.S.degree in computer science and technology from University of Science and Technology of China in 1995.Now he is a professor and Ph.D.supervisor at Soochow University. His research interests include artificial intelligence and machine learning,etc.
李凡長(zhǎng)(1964—),男,云南宣威人,1995年于中國(guó)科技大學(xué)獲得碩士學(xué)位,現(xiàn)為蘇州大學(xué)教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)槿斯ぶ悄埽瑱C(jī)器學(xué)習(xí)等。
Spectral Deep LearningAlgorithm for Image Sequence*
YIN Hongwei,LI Fanzhang+
College of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215000,China
+Corresponding author:E-mail:lfzh@suda.edu.cn
To better understand the hidden depth information of image sequence,people need to figure out the hidden data structure of the image sequence.At present,spectral manifold learning is efficient to learn the low dimensional embedding coordinates projected from the high dimensional sample data and thereby learning the manifold structure. Since the conventional method based on the hypothesis which the sample data are distributed on one single manifold, does not support hybrid multiple manifold model.Combined with the structure characteristics of image sequence,this paper presents a new algorithm called spectral deep learning(SDL)algorithm.Through setting up multimanifold mixed model,this algorithm preserves the continuity and smoothness of the local changes on the manifold.Through a method called manifold alignment,this algorithm establishes the mapping between the hierarchy manifold to find the deep low dimensional embedding coordinates of the image sequence.The experiments illustrate the validity of hybrid multiple manifold and image sequence data set of this algorithm.
image sequence;spectral manifold learning;hybrid multiple manifold;local tangent space;hierarchy manifold
10.3778/j.issn.1673-9418.1603047
A
:TP181
*The National Natural Science Foundation of China under Grant Nos.61033013,60775045(國(guó)家自然科學(xué)基金).
Received 2016-02,Accepted 2016-04.
CNKI網(wǎng)絡(luò)優(yōu)先出版:2016-04-19,http://www.cnki.net/kcms/detail/11.5602.TP.20160419.1143.008.html
YIN Hongwei,LI Fanzhang.Spectral deep learning algorithm for image sequence.Journal of Frontiers of Computer Science and Technology,2017,11(3):414-426.