孫亮 韓毓璇 康文婧 葛宏偉
實(shí)際應(yīng)用問(wèn)題中,同一事物通常可以通過(guò)不同途徑從不同角度進(jìn)行表達(dá).例如:多媒體記錄可以通過(guò)視頻描述,也可以通過(guò)音頻描述;網(wǎng)頁(yè)記錄可以通過(guò)其本身的信息描述,也可以通過(guò)超鏈接包含的信息描述;同一語(yǔ)義對(duì)象,可以用多種語(yǔ)言描述.此外,同一事物由于數(shù)據(jù)采集方法不同,也可以有不同的表達(dá)方法.例如:人臉識(shí)別問(wèn)題中,人臉數(shù)據(jù)可以采集成二維,也可以采集成三維;指紋識(shí)別問(wèn)題中,同一指紋可以通過(guò)不同采集器采集出不同的印痕.上述每一類型數(shù)據(jù)稱為一個(gè)特定視圖,多類型數(shù)據(jù)的總體稱為多視圖數(shù)據(jù).針對(duì)多視圖數(shù)據(jù)的分析研究,已經(jīng)引起機(jī)器學(xué)習(xí)研究者的關(guān)注[1?4].按不同任務(wù),已有方法可分為多視圖子空間學(xué)習(xí)[5?6]、多視圖字典學(xué)習(xí)[7?8]、多視圖度量學(xué)習(xí)[9]等.完成這些任務(wù)的重要工作是獲得視圖間的匹配關(guān)系,可以通過(guò)協(xié)同訓(xùn)練[10?11]、協(xié)同映射[12?13]、信息傳播[14]等方法實(shí)現(xiàn).在實(shí)現(xiàn)過(guò)程中,通常要求每個(gè)實(shí)例的所有視圖都是完整的.然而,現(xiàn)實(shí)問(wèn)題中數(shù)據(jù)通常獨(dú)立地收集、處理和存儲(chǔ),受環(huán)境因素的影響,給定一實(shí)例,通常很難獲得其所有視圖的數(shù)據(jù).因此,利用已掌握的單一視圖,通過(guò)生成式方法獲得其他視圖數(shù)據(jù),能夠更全面地認(rèn)識(shí)事物,對(duì)其進(jìn)行更準(zhǔn)確的表達(dá)[4],具有重要的意義.
給定單一視圖,首先需要解決的問(wèn)題是構(gòu)建它的恰當(dāng)表示,即表征.傳統(tǒng)的手動(dòng)提取特征方法需要大量的人力并且依賴于專業(yè)知識(shí),同時(shí)還不便于推廣.隨著深度學(xué)習(xí)技術(shù)的發(fā)展,通過(guò)深度神經(jīng)網(wǎng)絡(luò)(Deep neural networks,DNN)學(xué)習(xí)事物的表征獲得了成功[15?17],它允許算法使用特征的同時(shí)也提取特征,避免了手動(dòng)提取特征的繁瑣,能夠獲得單一視圖恰當(dāng)?shù)谋碚鱗18].通過(guò)單一視圖的表征構(gòu)建完整視圖,表征中不僅需要包含其本身的信息,而且這些信息能夠用來(lái)構(gòu)建其他視圖.為解決該問(wèn)題,已有方法主要在表征空間通過(guò)最大化不同視圖間相互關(guān)系[1]、最小化不同視圖間差異[19]、為差異添加懲罰因子[20?21]、典型相關(guān)分析[22]等方法實(shí)現(xiàn).然而,由于現(xiàn)實(shí)世界數(shù)據(jù)的復(fù)雜性,如何構(gòu)建適用于多視圖的有效表征,仍然是需要研究和解決的問(wèn)題.
利用單一視圖的表征,通過(guò)生成式方法構(gòu)建完整視圖依賴于生成模型的好壞,需要根據(jù)學(xué)習(xí)而來(lái)的模型生成新樣本.傳統(tǒng)的生成式方法包括極大似然估計(jì)法[23]、近似法[24]、馬爾科夫鏈法[25]等.與此同時(shí),基于DNN構(gòu)建的生成式模型也獲得了成功,典型的網(wǎng)絡(luò)結(jié)構(gòu)包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural networks,RNN)[26]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)[27]、變分自編碼器(Variation autoencoders,VAE)[28]、生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[29?30]等.這些方法針對(duì)已掌握的數(shù)據(jù)進(jìn)行分布假設(shè)和參數(shù)學(xué)習(xí).然而在實(shí)際應(yīng)用過(guò)程中,不同視圖(例如圖像、視頻、傳感器等)的數(shù)據(jù)數(shù)量巨大,并且都非常復(fù)雜、冗余并且異構(gòu)[31],如何在生成模型中融入已有視圖的表征信息,仍然是需要研究和解決的問(wèn)題.
本文的主要工作集中于利用已知單一視圖,通過(guò)生成式方法構(gòu)建其他視圖.為構(gòu)建適用于多視圖的表征,提出一種新型表征學(xué)習(xí)方法,該方法通過(guò)DNN來(lái)實(shí)現(xiàn).首先,對(duì)于每一視圖,分別搭建DNN,通過(guò)逐層轉(zhuǎn)換與表達(dá),借助DNN的無(wú)限擬合能力將數(shù)據(jù)映射至特征空間.通過(guò)構(gòu)建并優(yōu)化訓(xùn)練過(guò)程中的損失函數(shù),將同一實(shí)例的不同視圖映射至相同或相近的表征向量.在眾多生成式模型中,生成式對(duì)抗網(wǎng)絡(luò)(GAN)在結(jié)構(gòu)上受博弈論中二人零和博弈啟發(fā),通過(guò)構(gòu)建生成模型和判別模型捕捉真實(shí)數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本.與其他生成式模型不同,GAN避免了馬爾科夫鏈?zhǔn)降膶W(xué)習(xí)機(jī)制,使得真實(shí)數(shù)據(jù)樣本概率密度不可計(jì)算時(shí),模型依然可以應(yīng)用.為在生成模型中融入已有視圖的表征信息,本文提出基于GAN的生成式模型.對(duì)于每一視圖,分別搭建GAN,在生成模型和判別模型的輸入端加入隨機(jī)變量和原始數(shù)據(jù)及已有視圖生成的表征信息,使得生成模型能夠生成與已有視圖相對(duì)應(yīng)的新視圖數(shù)據(jù).綜上所述,本文的主要貢獻(xiàn)包括:1)提出基于DNN的多視圖表征學(xué)習(xí)方法,對(duì)于同一實(shí)例,將不同視圖數(shù)據(jù)映射至相同或相近的表征向量,避免了視圖間的直接映射;2)對(duì)于每一視圖,分別搭建DNN,訓(xùn)練過(guò)程中將每一對(duì)視圖的DNN組合訓(xùn)練,不需要訓(xùn)練數(shù)據(jù)的完整視圖,解決了訓(xùn)練數(shù)據(jù)不完整問(wèn)題;3)提出基于GANs的多視圖數(shù)據(jù)生成方法,將已知視圖的表征向量加入生成模型和判別模型中,解決了新視圖數(shù)據(jù)與已知視圖數(shù)據(jù)正確對(duì)應(yīng)的問(wèn)題.
本文章節(jié)安排如下:第1節(jié)用數(shù)學(xué)模型描述要解決的多視圖重構(gòu)問(wèn)題;第2節(jié)提出基于DNN的多視圖表征學(xué)習(xí)方法;第3節(jié)提出基于GANs的多視圖數(shù)據(jù)生成方法;第4節(jié)通過(guò)手寫(xiě)體數(shù)字?jǐn)?shù)據(jù)集MNIST,街景數(shù)字?jǐn)?shù)據(jù)集SVHN和人臉數(shù)據(jù)集CelebA驗(yàn)證提出方法的有效性,并與其他已有算法進(jìn)行比較分析;第5節(jié)總結(jié)全文,并指出進(jìn)一步的研究方向.
假定χ為一組包含n個(gè)實(shí)例,v個(gè)視圖的實(shí)例集,每一實(shí)例表示為其中表示第i個(gè)實(shí)例的第k個(gè)視圖數(shù)據(jù),dk為第k個(gè)視圖的維度.與此同時(shí),每一實(shí)例對(duì)應(yīng)指示向量表示視圖數(shù)據(jù)可觀測(cè),表示不可觀測(cè).
本文工作的主要目標(biāo)是通過(guò)一組訓(xùn)練實(shí)例χ構(gòu)建生成模型,給定任意測(cè)試實(shí)例的源視圖預(yù)測(cè)其他視圖,使得生成模型獲得的視圖接近真實(shí)視圖即最大化條件概率為表述方便,記可觀測(cè)的第k個(gè)視圖為x(k).
給定第k個(gè)視圖數(shù)據(jù)x(k),通過(guò)構(gòu)造DNN編碼模型,可以將其編碼成低維向量c(k),假設(shè)網(wǎng)絡(luò)的映射函數(shù)為f(k)(x(k)),則c(k)=f(k)(x(k)).為所有視圖分別構(gòu)造編碼模型,可以得到v個(gè)DNN.這種表示不能獲得多視圖相同或相近的表征.因此,借助DNN 能夠逼近任意函數(shù)的能力,將x(1),x(2),···,x(v)映射至相同的表征空間,如圖1(a)所示.為了保證同一實(shí)例的不同視圖映射至同一表征向量,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,對(duì)任意一對(duì)視圖k和r,最小化目標(biāo)向量間的JS散度,網(wǎng)絡(luò)優(yōu)化的目標(biāo)函數(shù)定義為
其中,θ1,θ2,···,θv分別為v個(gè) DNN 網(wǎng)絡(luò)中的所有參數(shù),KL(P1kP2)表示分布函數(shù)P1與P2間的KL散度.實(shí)際應(yīng)用過(guò)程中,為保證表征信息的緊湊性,將設(shè)置為較低維度.
圖1 多視圖表征向量映射Fig.1Multi-view representative vector mapping
圖1(a)的網(wǎng)絡(luò)結(jié)構(gòu)保證了對(duì)于任意實(shí)例xi的所有視圖能夠通過(guò)相應(yīng)的神經(jīng)網(wǎng)絡(luò)映射至相同的表征向量ci,但不能保證表征向量ci中包含實(shí)例xi中的重構(gòu)信息.根據(jù)信息理論,給定隨機(jī)變量x包含的信息可以通過(guò)下式計(jì)算:
隨機(jī)變量x與隨機(jī)變量y之間的互信息I(x;y)可以定義為隨機(jī)變量x中包含隨機(jī)變量y的信息量,如圖2(a)所示,可以通過(guò)下式計(jì)算:
圖2 原始視圖數(shù)據(jù)x,表征向量 c,重構(gòu)視圖數(shù)據(jù)間的互信息示意圖Fig.2Schematic diagram of mutual information among original view data x,representative vector c,reconstructed data
從圖2(a)可以看出,為最大化x與ccc之間的互信息I(x;c),可以擬合H(x|c)與H(c|x),其中H(c|x)可以通過(guò)視圖的DNN編碼模型進(jìn)行優(yōu)化調(diào)整.然而,H(x|c)很難直接計(jì)算.為此本文提出以c為約束條件,構(gòu)建基于DNN的解碼模型重構(gòu),網(wǎng)絡(luò)結(jié)構(gòu)如圖1(b)所示.x,,c之間的互信息關(guān)系如圖2(b)所示.H(x|c)與H(|c)可以通過(guò)比較原始訓(xùn)練數(shù)據(jù)與重構(gòu)數(shù)據(jù)獲得.通過(guò)編碼模型可以調(diào)整H(c|x),通過(guò)解碼模型可以調(diào)整H(|c).不斷調(diào)整H(c|x),H(|c)可以使其逼近H(x|c),從而最大化互信息I(x;c).具體做法如下:從v個(gè)視圖中,任選一個(gè)視圖,假定為視圖1,為視圖1構(gòu)建解碼模型,解碼模型的輸入包括來(lái)自正態(tài)分布的隨機(jī)向量和編碼模型生成的表征向量.解碼模型的輸出為(1).網(wǎng)絡(luò)優(yōu)化的目標(biāo)函數(shù)重新定義為
其中,θdec為解碼模型中的所有參數(shù),
綜上所述,為構(gòu)建適用于多視圖的表征,本文提出的基于DNN的多視圖表征學(xué)習(xí)方法概括為:1)為每個(gè)視圖分別構(gòu)建DNN,將同一實(shí)例不同視圖的數(shù)據(jù)映射至相同的表征向量;2)搭建條件解碼模型,保證表征向量包含關(guān)于實(shí)例的重構(gòu)信息.
給定第2節(jié)提出的基于DNN的多視圖表征學(xué)習(xí)方法,對(duì)于測(cè)試實(shí)例的任意源視圖,可以獲得關(guān)于該實(shí)例通用的表征向量.接下來(lái)的任務(wù)是通過(guò)表征向量,重構(gòu)其他視圖.
生成對(duì)抗網(wǎng)絡(luò)的思想來(lái)源于博弈論中的納什均衡,它利用DNN分別構(gòu)建生成模型(G)和判別模型(D),通過(guò)生成模型和判別模型之間迭代的對(duì)抗學(xué)習(xí)預(yù)測(cè)真實(shí)數(shù)據(jù)的潛在分布并生成新的樣本.網(wǎng)絡(luò)優(yōu)化的目標(biāo)定義為生成模型與判別模型的博弈,目標(biāo)函數(shù)如下:
為生成多視圖數(shù)據(jù),可以為所有視圖分別構(gòu)建GAN網(wǎng)絡(luò),并生成相應(yīng)視圖的數(shù)據(jù).然而,由于標(biāo)準(zhǔn)的GAN生成模型以隨機(jī)變量z為輸入,因此,它無(wú)法指定生成與表征向量相對(duì)應(yīng)的視圖數(shù)據(jù).為解決這一問(wèn)題,有效的方法是構(gòu)建條件生成對(duì)抗網(wǎng)絡(luò)(Conditional generative adversarial nets,CGAN)[32].其基本思想是在生成模型和判別模型中引入條件變量,利用條件變量指導(dǎo)數(shù)據(jù)的生成.因此,本文提出基于對(duì)抗生成網(wǎng)絡(luò)的多視圖數(shù)據(jù)生成算法.為每一視圖構(gòu)建條件生成對(duì)抗網(wǎng)絡(luò).在生成模型中和判別模型中分別加入表征向量作為約束條件作為輸入層的一部分,從而實(shí)現(xiàn)利用表征向量指導(dǎo)新視圖數(shù)據(jù)的生成.網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.每個(gè)GAN網(wǎng)絡(luò)的優(yōu)化的目標(biāo)重新定義為以表征向量為約束條件的生成模型與判別模型的博弈.
圖3 基于生成對(duì)抗網(wǎng)絡(luò)的多視圖數(shù)據(jù)生成框架Fig.3Framework of the generative adversarial network based multi-view data generation
從圖3可以看出,每個(gè)視圖的GAN網(wǎng)絡(luò)在訓(xùn)練開(kāi)始前,由編碼模型生成表征向量.訓(xùn)練過(guò)程中,生成模型G以采樣自正態(tài)分布的隨機(jī)變量作為輸入,同時(shí)以表征向量c為約束條件.判別模型D以真實(shí)訓(xùn)練數(shù)據(jù),或生成模型生成的數(shù)據(jù)為輸入,同時(shí)以表征向量c為約束條件.生成模型和判別模型通過(guò)式(6)中的對(duì)抗訓(xùn)練不斷逼近約束條件c下真實(shí)數(shù)據(jù)的潛在分布,并生成新樣本.測(cè)試過(guò)程中,由源視圖通過(guò)編碼模型生成表征向量c,由于式(4)中優(yōu)化目標(biāo)條件的限制,向量c將包含實(shí)例完整的重構(gòu)信息,并且可以將其做為約束條件傳遞至任意其他視圖的生成模型.對(duì)應(yīng)視圖的生成模型將以隨機(jī)變量z為輸入,表征向量c為約束條件,生成與源視圖相匹配的數(shù)據(jù).
為驗(yàn)證本文所提算法的有效性,在如下數(shù)據(jù)集合上展開(kāi)實(shí)驗(yàn).
1)手寫(xiě)數(shù)據(jù)集合(MNIST dataset of handwritten digits).MNIST包含約7萬(wàn)幅圖像,每幅圖像對(duì)應(yīng)一個(gè)手寫(xiě)體數(shù)字,大小為28像素×28像素[33];
2)街景數(shù)字集合(Street view house numbers,SVHN).SVHN包含約8.9萬(wàn)幅圖像,每幅圖像對(duì)應(yīng)一個(gè)真實(shí)世界的街道門牌號(hào),并且以門牌號(hào)的數(shù)字為中心,大小為32像素×32像素[34];
3)人臉數(shù)據(jù)集合(CelebFaces attributes,CelebA).CelebA包含約20萬(wàn)幅圖像,每幅圖像對(duì)應(yīng)一個(gè)真實(shí)世界的人臉,大小裁剪為64像素×64像素[35].
為了定量地衡量所提算法,采用結(jié)構(gòu)相似性(Structural similarity index,SSIM)[36]和峰值信噪比(Peak signal to noise ratio,PSNR)[37]作為評(píng)價(jià)指標(biāo)衡量真實(shí)圖像數(shù)據(jù)與模型生成的圖像數(shù)據(jù)之間的相似度以及生成圖片的質(zhì)量.
SSIM作為一種衡量?jī)煞鶊D像相似度的指標(biāo),能夠反映圖像間的結(jié)構(gòu)相似性.假定Ix為模型生成的圖像,Iy為真實(shí)圖像(Ground truth),Ix與Iy之間的SSIM定義為
其中,μx,μy是Ix和Iy的像素均值,分別是Ix和Iy的方差,σxy是Ix與Iy之間的協(xié)方差.式(7)表明SSIM值越高,Ix與Iy之間的相似性就越高,生成的圖像越接近真實(shí)圖像.
PSNR是一種評(píng)價(jià)圖像的客觀標(biāo)準(zhǔn).圖像經(jīng)過(guò)處理之后,輸出的圖像都會(huì)在某種程度與原始圖像不同.將真實(shí)圖像與生成圖像對(duì)比,得到生成的圖像的PSNR值來(lái)測(cè)試模型的重構(gòu)效果.
其中,MSE代表平均均方誤差,In是原始圖像第n個(gè)像素值,Pn指處理后圖像第n個(gè)像素值,Frame-Size是圖像長(zhǎng)×寬×通道數(shù).PSNR的單位為dB.PSNR值越大,表明圖片質(zhì)量越好,失真度越小.
4.3.1 MNIST數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
對(duì)于MNIST數(shù)據(jù)集,考慮3個(gè)視圖,其中原始圖像為視圖1,將圖像遮擋14像素×14像素的區(qū)域作為視圖2,將圖像進(jìn)行LBP特征提取[38],以特征向量作為視圖3.對(duì)原始圖像進(jìn)行LBP特征提取得到了一個(gè)236維的特征向量,將特征向量映射到二維空間,示意圖如圖4(圖4中,灰度條展示了0~9不同數(shù)字對(duì)應(yīng)的灰度,橫縱坐標(biāo)代表降維后二維特征,共8000張圖片)從圖4可以看出,每個(gè)類別的特征向量趨向于聚集在一起,并且類別為7的數(shù)字與類別為1的數(shù)字更加接近.此外,類別之間出現(xiàn)了輕微重疊現(xiàn)象,并且有少量數(shù)據(jù)點(diǎn)分布在坐標(biāo)系的邊緣.在實(shí)驗(yàn)過(guò)程中,首先以訓(xùn)練數(shù)據(jù)的3個(gè)視圖數(shù)據(jù)為輸入,訓(xùn)練圖1(b)中的編碼模型與解碼模型.訓(xùn)練過(guò)程采用每一對(duì)視圖單獨(dú)訓(xùn)練的方式,網(wǎng)絡(luò)訓(xùn)練以式(4)為目標(biāo)函數(shù).編碼模型與解碼模型訓(xùn)練完成后,以表征向量為約束條件,每一視圖訓(xùn)練圖3中的生成對(duì)抗網(wǎng)絡(luò).網(wǎng)絡(luò)訓(xùn)練以式(6)為目標(biāo)函數(shù).測(cè)試過(guò)程中分別以測(cè)試實(shí)例的視圖2和視圖3作為源視圖構(gòu)建表征向量,分別以表征向量作為約束條件利用視圖1的生成模型生成對(duì)應(yīng)的視圖1數(shù)據(jù).
圖4 MNIST視圖3數(shù)據(jù)經(jīng)過(guò)PCA后的可視化二維圖Fig.4The 2D-visualization of view 3 on MNIST after PCA
圖5顯示了以視圖2為源視圖在隨機(jī)挑選的15幅測(cè)試圖像上的實(shí)驗(yàn)結(jié)果,第1行表示遮擋一部分的源視圖,第2行表示源視圖對(duì)應(yīng)的真實(shí)圖像,第3行表示視圖1生成模型構(gòu)建的圖像.圖6顯示了以視圖3為源視圖在隨機(jī)挑選的15幅測(cè)試圖像上的實(shí)驗(yàn)結(jié)果,第1行表示源視圖對(duì)應(yīng)的真實(shí)圖像,第2行表示視圖1生成模型構(gòu)建的圖像.
從圖5和圖6可以看出,盡管源視圖2有較大比例遮擋,源視圖3從表達(dá)方式方面與原始數(shù)據(jù)有較大差異,本文提出的生成算法仍然能夠有效重構(gòu)對(duì)應(yīng)視圖1數(shù)據(jù).表明第2節(jié)提出的表征學(xué)習(xí)方法不僅能獲得圖像中的語(yǔ)義信息,而且能夠獲得包括方向、粗細(xì)、傾斜角度等其他信息,同時(shí)表明本文提出的生成模型能夠有效根據(jù)表征向量重構(gòu)完整視圖.
為進(jìn)一步表明所提出算法的有效性,將提的多視圖生成對(duì)抗網(wǎng)絡(luò)的實(shí)驗(yàn)結(jié)果(Multi-view generative adversarial networks,MVGAN)與條件生成對(duì)抗網(wǎng)絡(luò)(Conditional generative adversarial nets,CGAN)[30]和條件變分自編碼模型(Conditional variational autoencoders,CVAE)[39]產(chǎn)生的實(shí)驗(yàn)結(jié)果進(jìn)行比較.表1給出了三種算法在測(cè)試數(shù)據(jù)上的平均SSIM值與平均PSNR值.從表1可以看出,所提的MVGAN模型以視圖2為源數(shù)據(jù)重構(gòu)視圖1,SSIM值和PSNR值均高于CGAN和CVAE,表明MVGAN重構(gòu)的圖像更接近真實(shí)圖像,并且失真度最小.在MVGAN模型以視圖3為源數(shù)據(jù)重構(gòu)視圖1上,SSIM值比CGAN和CVAE的SSIM值低0.09和0.14左右,PSNR值比CGAN和CVAE的PSNR值高0.18dB和0.09dB左右,表明MVGAN模型中以視圖3為源數(shù)據(jù)重構(gòu)視圖1得到的圖片比CGAN和CVAE得到的圖片失真度小.對(duì)圖片做紋理特征提取并應(yīng)用數(shù)學(xué)的統(tǒng)計(jì)降維得到的特征向量比原圖片損失了部分信息,由缺失信息的數(shù)據(jù)重構(gòu)完整數(shù)據(jù)時(shí)SSIM值會(huì)相對(duì)較低.與此同時(shí)CGAN和CVAE使用了圖片的完整信息,因此獲得了較高的SSIM值.
表1 MNIST數(shù)據(jù)集上的SSIM和PSNR比較結(jié)果Table 1 Comparison results of SSIM and PSNR on MNIST
4.3.2 SVHN數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
對(duì)于SVHN數(shù)據(jù)集,考慮3個(gè)視圖,其中原始圖像為視圖1,將圖像遮擋16像素×16像素的區(qū)域作為視圖2,將圖像進(jìn)行LBP特征提取,以特征向量作為視圖3.在實(shí)驗(yàn)過(guò)程中,展開(kāi)與在MNIST數(shù)據(jù)集上相似的實(shí)驗(yàn).首先以訓(xùn)練數(shù)據(jù)的3個(gè)視圖數(shù)據(jù)為輸入,訓(xùn)練圖1(b)中的編碼模型與解碼模型.訓(xùn)練過(guò)程采用每一對(duì)視圖單獨(dú)訓(xùn)練的方式,網(wǎng)絡(luò)訓(xùn)練以式(4)為目標(biāo)函數(shù).編碼模型與解碼模型訓(xùn)練完成后,以表征向量為約束條件,每一視圖訓(xùn)練圖3中的生成對(duì)抗網(wǎng)絡(luò).網(wǎng)絡(luò)訓(xùn)練以式(6)為目標(biāo)函數(shù).測(cè)試過(guò)程中分別以測(cè)試實(shí)例的視圖2和視圖3作為源視圖構(gòu)建表征向量,分別以表征向量作為約束條件利用視圖1的生成模型生成對(duì)應(yīng)的視圖1數(shù)據(jù).
圖5 以視圖2為源數(shù)據(jù)在MNIST上的重構(gòu)結(jié)果Fig.5 Reconstruction results that take view 2 as source data on MNIST
圖6 以視圖3為源數(shù)據(jù)在MNIST上的重構(gòu)結(jié)果Fig.6 Reconstruction results that take view 3 as source data on MNIST
圖7顯示了以視圖2為源視圖在隨機(jī)挑選的15幅測(cè)試圖像上的實(shí)驗(yàn)結(jié)果,第1行表示遮擋一部分的源視圖,第2行表示源視圖對(duì)應(yīng)的真實(shí)圖像,第3行表示視圖1生成模型構(gòu)建的圖像.圖8顯示了以視圖3為源視圖在隨機(jī)挑選的15幅測(cè)試圖像上的實(shí)驗(yàn)結(jié)果,第1行表示源視圖對(duì)應(yīng)的真實(shí)圖像,第2二行表示視圖1生成模型構(gòu)建的圖像.
從圖7和圖8中可以看出,盡管源視圖2有較大比例的遮擋,源視圖3從表達(dá)方式上與原始數(shù)據(jù)有較大差異,但是本文提出的生成式算法仍然可以重構(gòu)視圖1的數(shù)字類別,背景以及形狀等信息.表明提出的算法可以通過(guò)共同的表征學(xué)習(xí)達(dá)到重構(gòu)視圖數(shù)據(jù)的目的.
為了進(jìn)一步說(shuō)明算法的有效性,將提出的多視圖生成對(duì)抗網(wǎng)絡(luò)(MVGAN)的實(shí)驗(yàn)結(jié)果與CGAN和CVAE產(chǎn)生的實(shí)驗(yàn)結(jié)果進(jìn)行比較.
表2給出了這三種算法在測(cè)試數(shù)據(jù)上的平均SSIM值與平均PSNR值,從表2可以看出,所提的MVGAN模型以視圖2為源數(shù)據(jù)重構(gòu)視圖1,SSIM值和PSNR值均高于CGAN和CVAE,表明MVGAN重構(gòu)的圖像更接近真實(shí)圖像,并且失真度最小.在MVGAN模型以視圖3為源數(shù)據(jù)重構(gòu)視圖1上,SSIM值比CGAN和CVAE低0.15和0.16左右,PSNR值比CGAN和CVAE的PSNR值高0.91dB和0.79dB左右.表明MVGAN模型中以視圖3為源數(shù)據(jù)重構(gòu)視圖1得到的圖片比CGAN和CVAE得到的圖片失真度小,同時(shí)因?yàn)閷?duì)圖片做紋理特征提取并應(yīng)用數(shù)學(xué)的統(tǒng)計(jì)降維得到的特征向量比原始圖片損失了部分信息,所以由缺失信息的數(shù)據(jù)重構(gòu)完整數(shù)據(jù)得到的SSIM值會(huì)相對(duì)較低,與此同時(shí)CGAN和CVAE使用了圖片的完整信息,因此獲得了較高的SSIM值.
表2 SVHN數(shù)據(jù)集上的SSIM和PSNR比較結(jié)果Table 2 Comparison results of SSIM and PSNR on SVHN
4.3.3 CelebA數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
對(duì)于CelebA數(shù)據(jù)集,考慮3個(gè)視圖,其中原始圖像為視圖1,將圖像遮擋32像素×32像素的區(qū)域作為視圖2,選取圖像的10種屬性作為視圖3.視圖3包含的圖像屬性有禿頂(Bald),劉海(Bangs),黑發(fā)(Black hair),眼鏡(Eyeglass),男性(Male),嘴微張(Mouth slightly open),窄眼(Narrow eyes),無(wú)胡須(No beard),蒼白膚色(Pale skin),戴帽(Wearing hat).表3展示了隨機(jī)選取的15幅圖片的屬性向量的具體取值,其中“1”表示屬性為真,“?1”表示屬性為假.
圖7 以視圖2為源數(shù)據(jù)在SVHN上的重構(gòu)結(jié)果Fig.7 Reconstruction results that take view 2 as source data on SVHN
圖9顯示了與表3對(duì)應(yīng)的15幅測(cè)試圖像上的實(shí)驗(yàn)結(jié)果,第1行表示遮擋了一部分?jǐn)?shù)據(jù)的視圖2,第2行表示視圖對(duì)應(yīng)的真實(shí)圖像,第3行表示以視圖2為源數(shù)據(jù)構(gòu)建視圖1的實(shí)驗(yàn)結(jié)果,第4行表示以視圖3為源數(shù)據(jù)構(gòu)建視圖1的實(shí)驗(yàn)結(jié)果.
從圖9可以看出,視圖2雖然有較大比例的遮擋,但是MVGAN能夠依據(jù)視圖2對(duì)應(yīng)的10維屬性信息重構(gòu)一幅完整的圖像,例如第1張圖像的人物具有戴眼鏡、男性、有胡須的屬性,對(duì)應(yīng)的重構(gòu)圖像同樣具有戴眼鏡、男性、有胡須的屬性.把原始圖像的10維屬性信息作為視圖3,可以看出新提出的算法可以根據(jù)視圖3的屬性取值重構(gòu)對(duì)應(yīng)的圖像,例如圖9第2行第2張人物具有黑發(fā)、男性、有胡須的屬性,對(duì)應(yīng)的第4行第2張人物也具有黑發(fā)、男性、有胡須的屬性.表明提出的表征學(xué)習(xí)方法隱式地獲取了實(shí)例中的表征信息,并且能夠通過(guò)表征信息重構(gòu)其他視圖的數(shù)據(jù).
為進(jìn)一步說(shuō)明算法的有效性,將MVGAN的實(shí)驗(yàn)結(jié)果與CGAN和CVAE產(chǎn)生的實(shí)驗(yàn)結(jié)果進(jìn)行比較.表4給出了三種算法在測(cè)試數(shù)據(jù)上的SSIM值與PSNR值,從表4可以看出,MVGAN模型的SSIM值和PSNR值均高于CGAN和CVAE,表明MVGAN重構(gòu)的圖像比CGAN和CVAE重構(gòu)的圖像更接近真實(shí)圖像且失真度最小.因?yàn)镸VGAN模型在CelebA數(shù)據(jù)集上以重構(gòu)10維屬性信息為標(biāo)準(zhǔn),且SSIM 評(píng)價(jià)指標(biāo)是一種衡量?jī)蓮垐D片相似程度的評(píng)價(jià)標(biāo)準(zhǔn),因此與在MNIST與SVHN數(shù)據(jù)集上重構(gòu)完整視圖信息的實(shí)驗(yàn)結(jié)果相比,在CelebA數(shù)據(jù)集上得到了較低的SSIM值.PSNR評(píng)價(jià)指標(biāo)是一種衡量圖片失真度的評(píng)價(jià)標(biāo)準(zhǔn),可以看出MVGAN模型重構(gòu)的圖片具有較小的失真度.
圖9 以視圖2為源數(shù)據(jù)在CelebA上的重構(gòu)結(jié)果Fig.9 Reconstruction results that take view 2 and view 3 as source data respectively on CelebA
表3 CelebA視圖2和視圖3對(duì)應(yīng)選中的10維屬性Table 3 The chosen attributes for view 2 and view 3(10 dimensions)
表4 CelebA數(shù)據(jù)集上的SSIM和PSNR比較結(jié)果Table 4 Comparison results of SSIM and PSNR on CelebA
在多視圖學(xué)習(xí)領(lǐng)域,研究如何根據(jù)已有視圖構(gòu)建完整視圖具有重要意義.其中一個(gè)需要解決的問(wèn)題是構(gòu)建表征向量映射模型,使得屬于同一實(shí)例的不同視圖數(shù)據(jù)能夠映射至相同的表征向量,同時(shí)表征向量還需包含關(guān)于實(shí)例的完整重構(gòu)信息.針對(duì)該問(wèn)題,本文提出一種基于DNN的多視圖表征學(xué)習(xí)算法,通過(guò)為每一視圖構(gòu)建DNN,借助DNN能夠擬合任何分布的能力將不同視圖的數(shù)據(jù)映射至通用的表征向量,并且本文提出構(gòu)建解碼模型保證了表征向量中包含關(guān)于實(shí)例的完整重構(gòu)信息.為了依據(jù)表征向量信息重構(gòu)完整視圖,本文提出一種基于生成對(duì)抗網(wǎng)絡(luò)的多視圖重構(gòu)算法.以表征向量為約束條件,通過(guò)生成器與判別器的對(duì)抗訓(xùn)練來(lái)生成與源視圖匹配的多視圖數(shù)據(jù).實(shí)驗(yàn)結(jié)果表明,提出的表征向量學(xué)習(xí)算法不僅得到了實(shí)例本身所帶有的語(yǔ)義信息,而且得到了方向、粗細(xì)、傾斜角度等其他重構(gòu)信息.因此,提出的生成對(duì)抗網(wǎng)絡(luò)方法能夠根據(jù)低維的表征信息進(jìn)行有效的重構(gòu).
接下來(lái)的研究工作將集中于研究如何獲取表征向量的顯式含義信息,并指導(dǎo)多視圖數(shù)據(jù)的生成.
1 Chaudhuri K,Kakade S M,Livescu K,Sridharan K.Multiview clustering via canonical correlation analysis.In:Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,Canada:ACM,2009.129?136
2 Kumar A,Daume III H.A co-training approach for multiview spectral clustering.In:Proceedings of the 28th International Conference on Machine Learning.Washington,USA:Omnipress,2011.393?400
3 Wang W R,Arora R,Livescu K,Bilmes J.On deep multiview representation learning.In:Proceedings of the 32nd International Conference on Machine Learning.Lille,France:ICML,2015.1083?1092
4 Sun S L.A survey of multi-view machine learning.Neural Computing and Applications,2013,23(7?8):2031?2038
5 White M,Yu Y L,Zhang X H,Schuurmans D.Convex multiview subspace learning.In:Proceedings of the 25th Annual Conference on Neural Information Processing Systems.Lake Tahoe,USA:NIPS,2012.1673?1681
6 Guo Y H.Convex subspace representation learning from multi-view data.In:Proceedings of the 27th AAAI Conference on Arti ficial Intelligence.Washington,USA:AIAA,2013.387?393
7 Shekhar S,Patel V M,Nasrabadi N M,Chellappa R.Joint sparse representation for robust multimodal biometrics recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(1):113?126
8 Gangeh M J,Fewzee P,Ghodsi A,Kamel M S,Karray F.Multiview supervised dictionary learning in speech emotion recognition.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(6):1056?1068
9 Zhai D M,Chang H,Shan S G,Chen X L,Gao W.Multiview metric learning with global consistency and local smoothness.ACM Transactions on Intelligent Systems and Technology,2012,3(3):Article No.53
10 Kumar A,Rai P,Daumé III H.Co-regularized multiview spectral clustering.In:Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Granada,Spain:Curran Associates Inc.,2011.1413?1421
11 Chen M M,Weinberger K Q,Blitzer J C.Co-training for domain adaptation.In:Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Granada,Spain:Curran Associates Inc.,2011.2456?2464
12 Eaton E,desJardins M,Jacob S.Multi-view constrained clustering with an incomplete mapping between views.Knowledge and Information Systems,2014,38(1):231?257
13 Zhang X C,Zong L L,Liu X Y,Yu H.Constrained NMF-based multi-view clustering on unmapped data.In:Proceedings of the 29th AAAI Conference on Arti ficial Intelligence.Austin,Texas,USA:AIAA Press,2015.3174?3180
14 Yu S,Tranchevent L C,Liu X H,Glanzel W,Suykens J A K,De Moor B,et al.Optimized data fusion for kernel k-means clustering.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(5):1031?1039
15 Yu Kai,Jia Lei,Chen Yu-Qiang,Xu Wei.Deep learning:yesterday,today,and tomorrow.Journal of Computer Research and Development,2013,50(9):1799?1804(余凱,賈磊,陳雨強(qiáng),徐偉.深度學(xué)習(xí)的昨天、今天和明天.計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799?1804)
16 Guo Li-Li,Ding Shi-Fei.Research progress on deep learning.Computer Science,2015,42(5):28?33(郭麗麗,丁世飛.深度學(xué)習(xí)研究進(jìn)展.計(jì)算機(jī)科學(xué),2015,42(5):28?33)
17 Hu Chang-Sheng,Zhan Shu,Wu Cong-Zhong.Image superresolution based on deep learning features.Acta Automatica Sinica,2017,43(5):814?821(胡長(zhǎng)勝,詹曙,吳從中.基于深度特征學(xué)習(xí)的圖像超分辨率重建.自動(dòng)化學(xué)報(bào),2017,43(5):814?821)
18 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5876):504?507
19 Farquhar J D R,Hardoon D R,Meng H Y,Shawe-Taylor J,Szedmak S.Two view learning:SVM-2k,theory and practice.In:Proceedings of the 18th Annual Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2005.355?362
20 Sindhwani V,Rosenberg D S.An RKHS for multi-view learning and manifold co-regularization.In:Proceedings of the 25th International Conference on Machine Learning.Helsinki,Finland:ACM,2008.976?983
21 Yu S P,Krishnapuram B,Rosales R,Rao R B.Bayesian cotraining.The Journal of Machine Learning Research,2011,12:2649?2680
22 Andrew G,Arora R,Bilmes J,Livescu K.Deep canonical correlation analysis.In:Proceedings of the 30th International Conference on Machine Learning.Atlanta,GA,USA:JMLR.org,2013.1247?1255
23 Westerveld T,de Vries A,de Jong F.Generative probabilistic models.Multimedia Retrieval,Berlin:Springer,2007.177?198
24 Rezende D J,Mohamed S,Wierstra D.Stochastic backpropagation and approximate inference in deep generative models.arXiv preprint arXiv:1401.4082,2014.
25 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527?1554
26 van den Oord A,Kalchbrenner N,Kavukcuoglu K.Pixel recurrent neural networks.arXiv preprint arXiv:1601.06759,2016.
27 van den Oord A,Kalchbrenner N,Vinyals O,Espeholt L,Graves A,Kavukcuoglu K.Conditional image generation with pixelCNN decoders.In:Proceedings of the 30th Annual Conference on Neural Information Processing Systems.Barcelona,Spain:NIPS,2016.4790?4798
28 Kingma D P,Welling M.Auto-encoding variational Bayes.In:Proceedings of the 2014 International Conference on Learning Representations.Ban ff,Canada:ICLR,2014.
29 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,et al.Generative adversarial nets.In:Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2014.2672?2680
30 Wang Kun-Feng,Gou Chao,Duan Yan-Jie,Lin Yi-Lun,Zheng Xin-Hu,Wang Fei-Yue.Generative adversarial networks:the state of the art and beyond.Acta Automatica Sinica,2017,43(3):321?332(王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍.生成式對(duì)抗網(wǎng)絡(luò)GAN的研究進(jìn)展與展望.自動(dòng)化學(xué)報(bào),2017,43(3):321?332)
31 Chen Wei-Hong,An Ji-Yao,Li Ren-Fa,Li Wan-Li.Review on deep-learning-based cognitive computing.Acta Automatica Sinica,2017,43(11):1886?1897(陳偉宏,安吉堯,李仁發(fā),李萬(wàn)里.深度學(xué)習(xí)認(rèn)知計(jì)算綜述.自動(dòng)化學(xué)報(bào),2017,43(11):1886?1897)
32 Mirza M,Osindero S.Conditional generative adversarial nets.arXiv preprint arXiv:1411.1784,2014.
33 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324
34 Sermanet P,Chintala S,LeCun Y.Convolutional neural networks applied to house numbers digit classi fication.In:Proceedings of the 21st International Conference on Pattern Recognition(ICPR).Tsukuba,Japan:IEEE,2012.3288?3291
35 Liu Z W,Luo P,Wang X G,Tang X O.Deep learning face attributes in the wild.In:Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.3730?3738
36 Wang Z,Bovik A C,Sheikh H R,Simoncelli E P.Image quality assessment:from error visibility to structural similarity.IEEE Transactions on Image Processing,2004,13(4):600?612
37 Huynh-Thu Q,Ghanbari M.Scope of validity of PSNR in image/video quality assessment.Electronics Letters,2008,44(13):800?801
38 Xiang Zheng,Tan Heng-Liang,Ma Zheng-Ming.Performance comparison of improved HoG,Gabor and LBP.Journal of Computer-Aided Design and Computer Graphics,2012,24(6):787?792(向征,譚恒良,馬爭(zhēng)鳴.改進(jìn)的HOG 和Gabor,LBP性能比較.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,24(6):787?792)
39 Kingma D P,Rezende D J,Mohamed S,Weling M.Semisupervised learning with deep generative models.In:Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2014.3581?3589