亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種三維模型多層級(jí)視點(diǎn)描述符

2021-10-29 06:15:04周蓬勃周明全

西北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年5期

關(guān)鍵詞：模型

曾升,周蓬勃,周明全,

(1.西北大學(xué) 文化遺產(chǎn)數(shù)字化國(guó)家地方聯(lián)合工程研究中心，陜西西安 710127；2.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西西安 710127;3.北京師范大學(xué) 教育部虛擬現(xiàn)實(shí)應(yīng)用工程研究中心，北京 100875)

3D模型的數(shù)量增長(zhǎng)十分迅速,從不同視角的2D圖像中開發(fā)算法來(lái)識(shí)別3D模型十分流行。人類觀察世界獲取某一個(gè)視角的畫面,再由多個(gè)角度的視圖達(dá)到對(duì)物體的全面認(rèn)識(shí),從所有視角看到的三維模型是相似的,則三維模型是相似的思想廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域。本文針對(duì)到底怎樣的視角組合會(huì)更加有效地識(shí)別3D模型,提出多層級(jí)視點(diǎn)描述符識(shí)別三維模型,并為3D模型提供了一組最優(yōu)的二維視圖選擇。

3D形狀的識(shí)別經(jīng)常使用三維模型全局[1-5]或局部特征描述符[6-10]，不同特征描述符的使用及算法的設(shè)計(jì)對(duì)三維重建、三維模型的檢索等應(yīng)用影響非常大,優(yōu)異的特征描述符有益于推動(dòng)計(jì)算機(jī)視覺(jué)應(yīng)用的發(fā)展,比如,得益于SIFT[11]特征對(duì)3D視點(diǎn)各種變換都持一定程度的穩(wěn)定性,能夠從多張照片有效重建三維模型[12],也是3D模型檢索的理想屬性[13]。而深度學(xué)習(xí)能夠更加“自動(dòng)”地提取特征,在特征提取及實(shí)時(shí)運(yùn)行方面都有著極大的優(yōu)勢(shì),從而出現(xiàn)大量?jī)?yōu)秀的算法[14-19]。然而,并不意味著手工描述符就不再有用,在基于草圖的三維模型檢索中,手工設(shè)計(jì)的3D-SIFT[20]被用來(lái)提取3D模型部分的特征,草圖部分用預(yù)訓(xùn)練的AlexNet提取特征,深度相關(guān)度量學(xué)習(xí)方法(deep correlated metric leaning,DCML)有效建立了易于人類理解的草圖和三維模型這兩種不同模式數(shù)據(jù)間的橋梁[21]。手工設(shè)計(jì)描述符對(duì)深度學(xué)習(xí)的設(shè)計(jì)與改進(jìn)仍存在有益影響。本文提出的多層級(jí)視點(diǎn)描述符MLVD具有較強(qiáng)的區(qū)分能力,并且為3D模型提供一組最優(yōu)視圖,相當(dāng)于同類的三維模型都會(huì)有一組相似的觀察視點(diǎn)。圖1是在密集的觀測(cè)球上計(jì)算的一組最優(yōu)視點(diǎn),其中紅色點(diǎn)是第2層級(jí)的視點(diǎn)，藍(lán)色點(diǎn)是第3層級(jí)的視點(diǎn)。MLVD-3提供的一組視圖組合在MVCNN的對(duì)比實(shí)驗(yàn)中,在精細(xì)分類的數(shù)據(jù)上的識(shí)別精度有非常明顯的提升。

圖1 第2和第3層級(jí)視點(diǎn)描述符Fig.1 The second and third level viewpoint descriptors

1 相關(guān)工作

多視圖算法從不同角度的視覺(jué)信息來(lái)探索物體,把三維模型放在球體中,在不同的視點(diǎn)觀察球體中心的三維模型會(huì)得到不同角度的視圖,這種分析三維模型特征方式是通過(guò)模仿人類對(duì)象識(shí)別行為[22]。在光場(chǎng)描述符中(light field descriptor,LFD),光場(chǎng)相機(jī)放在正12面體的20個(gè)頂點(diǎn)上,而相對(duì)頂點(diǎn)投影輪廓相同,所以旋轉(zhuǎn)模型進(jìn)行采樣前僅需要渲染1組半球上的10個(gè)不同輪廓,并計(jì)算輪廓的Z矩和傅里葉系數(shù)作為描述符[23]。還有一些算法先解決3D對(duì)象的歸一化問(wèn)題,再實(shí)現(xiàn)精確匹配,三維模型的歸一化非常影響模型的匹配效率與準(zhǔn)確度，而視圖的選擇仍然是均勻采樣的,比如Chaouchy的研究中由正12面體頂點(diǎn)繪制的20幅深度圖像來(lái)表示三維模型[24],而Lian的時(shí)鐘匹配方法使用正8面體細(xì)分1次后的18個(gè)頂點(diǎn)獲取深度圖[25]。還有對(duì)旋轉(zhuǎn)魯棒的仰角描述符,獲取前后上下左右6個(gè)不同視圖的高程信息后,比較720次完成匹配[26]。

然而,存在這樣一個(gè)事實(shí),不是所有三維模型的視點(diǎn)都是同等重要的。自適應(yīng)聚類方法在320面多面體的每個(gè)面的中心上放置攝像機(jī)獲取初始圖集,基于自適應(yīng)聚類方法提供1組最優(yōu)的二維視圖選擇,形狀復(fù)雜程度不同的模型得會(huì)到1～40不等的視圖選擇[27]。對(duì)于什么視圖是最優(yōu)的問(wèn)題,用視點(diǎn)熵的方法,最好的視點(diǎn)是具有最大熵的視點(diǎn)[28]。也有語(yǔ)義驅(qū)動(dòng)[29]或Web數(shù)據(jù)驅(qū)動(dòng)的方式選擇符合人類視覺(jué)的最佳視圖[30]。在自動(dòng)選擇3D模型最具代表性的視圖任務(wù)中,可見(jiàn)面積比、輪廓長(zhǎng)度、曲率熵等都可以評(píng)估一個(gè)視圖的優(yōu)點(diǎn),Dutagaci的評(píng)估方法中,在正8面體細(xì)分后的測(cè)地球上設(shè)置258個(gè)視點(diǎn),以3D模型視點(diǎn)與人類評(píng)價(jià)最優(yōu)視圖間的測(cè)地距離來(lái)衡量差異,這對(duì)我們衡量不同模型間的距離很有啟發(fā)[31]。

而隨著深度學(xué)習(xí)的興起,多角度視圖識(shí)別三維模型的方法也有了很大的發(fā)展,最具代表性的工作是Su提出的多視圖卷積神經(jīng)網(wǎng)絡(luò)(multi-view convolutional neural networks,MVCNN)[32],他們將模型直立放置，虛擬攝像機(jī)放置在模型周圍每隔30°的12個(gè)位置，再向上抬升30°對(duì)準(zhǔn)模型中心獲取視圖，然后又與從正20面體每個(gè)面中心看向質(zhì)心的20個(gè)視點(diǎn)旋轉(zhuǎn)0°、90°、180°、270°得到的80個(gè)視圖做比較，發(fā)現(xiàn)僅需要12視圖,但在結(jié)論中提出2D視圖的組合仍是需要探索的問(wèn)題。在更深入的泛化能力研究中,他們又發(fā)現(xiàn)黑色背景的數(shù)據(jù)能獲得更好的效果,且MCVNN方法使用的形狀信息大部分位于對(duì)象的邊緣,但實(shí)驗(yàn)中的視圖選擇依然是12個(gè),并未有所改進(jìn)[33]。除此之外,也有不少深度學(xué)習(xí)的方法,多數(shù)是關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)，提升數(shù)據(jù)集的識(shí)別精度[34-35],其中Liu的研究發(fā)現(xiàn)3視圖足夠表述特征,在ModelNet40[36]數(shù)據(jù)集上的識(shí)別精度已達(dá)到98.5%,提出后續(xù)考慮自適應(yīng)選擇視圖數(shù)量[35]。在三維模型檢索的比賽中,也更多使用均勻采樣的視圖,比如SHREC2020[37]基于單目圖像的三維物體檢索的賽道使用的數(shù)據(jù)集也沿用MVCNN的12視圖的選擇。

綜上所述,基于多視圖的傳統(tǒng)和深度學(xué)習(xí)方法在視圖選擇上有均勻選擇與最優(yōu)視圖選擇兩種途徑。在深度神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別的算法中多以均勻視圖選擇為輸入,且在40分類127 915個(gè)3D模型的ModelNet數(shù)據(jù)集上已近乎完全識(shí)別。而最優(yōu)視圖的選擇側(cè)重于研究計(jì)算符合人類視覺(jué)的算法。本文研究一種最優(yōu)視圖計(jì)算算法,并使用MVCNN驗(yàn)證計(jì)算出一組視圖對(duì)3D模型區(qū)分能力。為了對(duì)比本算法提供視圖的優(yōu)勢(shì),在ShapeNet-V2[38]中選擇240類19 712個(gè)模型，對(duì)比均勻視圖與我們的一組最優(yōu)視圖在MVCNN上的識(shí)別精度,結(jié)果表明相較多數(shù)算法中12與20均勻視圖選擇,我們的16視圖精度都高出近30%。

2 本文方法

本文研究方法遵循“相似的3D模型,都具備相似的一組最優(yōu)觀察視點(diǎn)”，由于3D模型姿勢(shì)歸一化已有多種方案解決,而且一些優(yōu)秀的數(shù)據(jù)集都提供了具備一致規(guī)范方向的模型,在ShapeNet-V2中還提供了豐富的注釋信息,比如標(biāo)注了模型的正面[36,38]。因此，本文不討論模型歸一化問(wèn)題,而是在已剛性對(duì)齊的3D模型上分析,得益于前人的工作,避免了模型歸一化誤差對(duì)識(shí)別精度的影響,更專注于分析識(shí)別算法的精度。圖2是本算法的整體流程,首先在均勻的密集視點(diǎn)上計(jì)算出三維模型的一組最優(yōu)觀察視點(diǎn),并通過(guò)視點(diǎn)的測(cè)地距離衡量模型的差異性,構(gòu)建精細(xì)分類數(shù)據(jù)進(jìn)行驗(yàn)證。本算法能夠?qū)θ我忸?D模型提供一組獨(dú)立的視圖選擇,而不是所有類的數(shù)據(jù)都用一致的均勻采集的視圖。與其他視圖選擇對(duì)比實(shí)驗(yàn)結(jié)果表明,提供的視圖選擇,在多視圖三維模型識(shí)別上具有明顯的優(yōu)勢(shì)。

3 多層次視點(diǎn)描述符

3.1 多視圖表示

文獻(xiàn)[31]中提出定量評(píng)價(jià)最佳視圖選擇算法,使用了258個(gè)頂點(diǎn)測(cè)地球,提供接近連續(xù)的視點(diǎn),以旋轉(zhuǎn)不變的傅里葉描述符來(lái)計(jì)算視圖間的差異,以測(cè)地球上點(diǎn)的測(cè)地距離來(lái)衡量?jī)蓚€(gè)視點(diǎn)的近似程度。我們使用類似的方式來(lái)定義測(cè)地球及測(cè)地距離來(lái)計(jì)算視點(diǎn)距離,不同的是,在獲取更加密集的視點(diǎn)基礎(chǔ)上,用倒角距離計(jì)算視圖的差異,在半球的視點(diǎn)上建立不斷細(xì)分三角形的分塊方法,不同細(xì)分次數(shù)對(duì)應(yīng)形成不同層次的最優(yōu)視點(diǎn)組合,最終形成視點(diǎn)本身組合的特征向量即是視點(diǎn)描述符,用于3D模型的識(shí)別。

為了獲取連續(xù)的視圖,需要構(gòu)造密集的視點(diǎn)測(cè)地球。從正8面體開始迭代細(xì)分,在迭代4次后獲得1 026個(gè)頂點(diǎn)的視點(diǎn)球,如圖3所示。此處不是從正12面體或20面體開始細(xì)分,是為了保證獲取視點(diǎn)能夠包含上、下、左、右、前、后的位置。又由于對(duì)稱視點(diǎn)獲得的視圖輪廓線會(huì)有重復(fù),我們僅渲染半球上的545個(gè)頂點(diǎn)的視圖。這里獲取的視點(diǎn)并不是細(xì)分后球體頂點(diǎn)的一半是由于半球包含了赤道上的所有頂點(diǎn)。

圖3 構(gòu)建測(cè)地球Fig.3 Construction of geodesic sphere

為了獲取的渲染圖能夠保證同一模型在不同視角下的可比較性,我們需要設(shè)置攝像機(jī)參數(shù)來(lái)渲染1組視圖。對(duì)已經(jīng)模型歸一化的數(shù)據(jù),在測(cè)地球上的每個(gè)頂點(diǎn)位置放置攝像機(jī),相機(jī)都向上并指向網(wǎng)格的質(zhì)心。由于不同角度看到的剪影區(qū)別很大,根據(jù)模型包圍盒最長(zhǎng)內(nèi)徑來(lái)確定模型的最大縮放比例，以保證渲染的視圖不會(huì)超出視野。最后,計(jì)算每個(gè)視圖的重心,并移動(dòng)到二維圖像的中心位置,為避免移動(dòng)后視圖超出原視圖范圍,所有視圖以最大移動(dòng)的視圖范圍為標(biāo)準(zhǔn)進(jìn)行視圖移動(dòng),最終會(huì)得到一個(gè)3D模型的密集視圖表示。

d(Ei,Ej)=

(1)

其中，d為兩視圖間的差異值；x和y是視圖中圖像邊緣處像素坐標(biāo)。

視圖之間的差異我們采用倒角距離來(lái)衡量,倒角距離在進(jìn)行圖像邊緣匹配時(shí),對(duì)噪聲、縮放、旋轉(zhuǎn)并不敏感[39],在三維重建時(shí)也作為衡量不同模型差異的標(biāo)準(zhǔn)[40]。定義E是每個(gè)視點(diǎn)對(duì)應(yīng)的圖像邊緣,Ei和Ej間的倒角距離值為d(Ei,Ej)。

在同一模型的不同角度獲取的密集深度圖是存在冗余信息的,如果利用SIFT計(jì)算密集深度圖的特征則需要很大的計(jì)算開銷,此處我們僅使用邊緣信息來(lái)進(jìn)行計(jì)算。每個(gè)渲染的深度圖像用Canny邊緣檢測(cè)方法來(lái)獲取準(zhǔn)確的邊緣信息,形成3D模型一組密集的不同視角的邊緣圖像。

3.2 多層次分塊

為了能夠完整地描述3D模型,設(shè)計(jì)能夠不斷分塊的視點(diǎn)提取方式，算法步驟為：

輸入密集視點(diǎn)V，

輸出各層級(jí)視點(diǎn)v′。

Step1第1層級(jí)的視點(diǎn)都是上、前、左、右、后把每1/4半球設(shè)置為1個(gè)初始分塊,每個(gè)分塊中有3個(gè)視點(diǎn)。在曲面上進(jìn)行視點(diǎn)的分塊并不容易,此處建立曲面上點(diǎn)與平面上點(diǎn)的一一對(duì)應(yīng)關(guān)系,定義曲面上的視點(diǎn)集合為V，而v是每一個(gè)視點(diǎn),v∈V,以3個(gè)初始點(diǎn)確定的平面為P,映射規(guī)則f是球心與球面上的點(diǎn)v的連線與平面P交點(diǎn),得到集合p,則f:V→P′是雙射的,曲面上的點(diǎn)分塊變?yōu)槿瞧矫嫔系狞c(diǎn)后進(jìn)行分塊。

(2)

Step3在三角平面P上,以公式計(jì)算V對(duì)應(yīng)Pi為種子點(diǎn),以新種子點(diǎn)與原先的3個(gè)初始點(diǎn)連線分割三角形,形成新的3個(gè)三角形。

Step4返回步驟2,重復(fù)步驟計(jì)算下一層級(jí)三角形分塊。

如圖4所示,右上半球的3個(gè)初始視點(diǎn)為上、前、右，如圖所示在1/4半球上的三角分塊情況,黑色點(diǎn)是初始視點(diǎn)集合,紅色點(diǎn)是第二層級(jí)選出的種子點(diǎn),藍(lán)色點(diǎn)是第三層級(jí)的種子點(diǎn),黃色點(diǎn)是第四層級(jí)的種子點(diǎn)。每層計(jì)算的種子點(diǎn)對(duì)應(yīng)的V的位置組合成的特征向量形成多層級(jí)描述符。在計(jì)算種子點(diǎn)時(shí)會(huì)存在落在三角形邊線上的情況,但這并不影響繼續(xù)分塊,只是其中一個(gè)三角形退化為直線上選擇種子點(diǎn)?？梢?jiàn)在第四層時(shí)分塊的三角形已經(jīng)包含較少的數(shù)據(jù)點(diǎn),如果再進(jìn)行深入層級(jí)的分割,那么在建立頂點(diǎn)模型時(shí)應(yīng)獲取更密集的視圖。但注意這只是1/4半球,四層計(jì)算的種子點(diǎn)已經(jīng)有52個(gè),在5.1節(jié)與5.2節(jié)的分析中我們對(duì)比了第二、三、四層的情況,認(rèn)為三層形成的描述符足夠區(qū)分常見(jiàn)3D模型。

圖4 1/4半球分塊Fig.4 Block of quarter hemisphere

3.3 相似度計(jì)算

3D模型的相似度定義為計(jì)算1組視點(diǎn)集合V之間的差異,定義3D模型的MLVD層數(shù)n為，用一個(gè)m行3列的二維向量來(lái)表示MLVD,以視點(diǎn)集合在測(cè)地球上的測(cè)地距離之和后取平均來(lái)測(cè)量距離,由于第一層級(jí)的視點(diǎn)在任何時(shí)候計(jì)算對(duì)應(yīng)的測(cè)地距離都是一樣的,所以并不需要前、上、左等6個(gè)視點(diǎn)的坐標(biāo)。則m可根據(jù)公式計(jì)算，

(3)

可見(jiàn),MLVD具有直觀的語(yǔ)義,能夠明確給出最優(yōu)的一組視點(diǎn)位置,而且由于在歸一化基礎(chǔ)上的測(cè)地球上定義視點(diǎn),MLVD是平移,縮放不變的,又由于倒角距離對(duì)噪聲不敏感,所以也具備很好的抗噪性能。

4 細(xì)粒度分類數(shù)據(jù)

文獻(xiàn)[33]研究MVCNN泛化能力的方法中,把Modelnet的40類數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)分為10、100、1 000的均衡數(shù)量進(jìn)行訓(xùn)練。在訓(xùn)練數(shù)據(jù)選擇每類10個(gè)的400個(gè)模型4 800個(gè)視圖及測(cè)試集為2 468個(gè)模型29 616個(gè)視圖的實(shí)驗(yàn)中,識(shí)別精度達(dá)到77.8%,而在使用整個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)識(shí)別精度達(dá)到95%。可見(jiàn)在測(cè)試集數(shù)量一樣的情況下,訓(xùn)練集的多少影響了3D模型的識(shí)別精度。本文為了體現(xiàn)MLVD提供的視圖具備的優(yōu)勢(shì),選擇更精細(xì)分類進(jìn)行驗(yàn)證,從ShapeNet-V2中挑選分類數(shù)據(jù)進(jìn)行對(duì)比試驗(yàn)。

ShapeNet-V2中每個(gè)類別內(nèi)的3D模型有一致的剛性對(duì)齊,都是豎直的并注釋了正面。55個(gè)大類中的模型數(shù)量從56個(gè)到6 778不等。每個(gè)大類會(huì)分為更細(xì)粒度的一些子集,最細(xì)粒度的子集數(shù)量?jī)H有1個(gè)(比如chair子集中的armchair中的子集captain′s chair)。由于每個(gè)類的數(shù)據(jù)并不是完全分給每個(gè)子集的,比如rifle大類中有2 373個(gè)模型,子集carbine173個(gè),sniper rifle729個(gè),還有1 471個(gè)未細(xì)分類。實(shí)驗(yàn)中為了得到更多的分類并體現(xiàn)類內(nèi)數(shù)據(jù)的不同,把父類與子類的數(shù)據(jù)當(dāng)成不同的類來(lái)處理,挑選出每類多于10個(gè)模型的分類數(shù)據(jù),每類保證10個(gè)模型作為訓(xùn)練集,每類的測(cè)試集分為1到150不等。即訓(xùn)練集為2 400個(gè)模型,測(cè)試集為17 312個(gè)模型。

在5.1節(jié)類內(nèi)比較實(shí)驗(yàn)中使用類別car的ambulance子集的72個(gè)模型進(jìn)行分析,5.2節(jié)實(shí)驗(yàn)中每個(gè)類隨機(jī)挑選一個(gè)模型共計(jì)338個(gè)模型計(jì)算相似度(此處不受模型需超過(guò)10個(gè)的限制,用了ShapeNet的所有類)。實(shí)驗(yàn)結(jié)果分析中,僅改變輸入數(shù)據(jù)不改變其他神經(jīng)網(wǎng)絡(luò)的超參數(shù)進(jìn)行結(jié)果評(píng)估,輸入視圖采用文獻(xiàn)[33]中的12個(gè)及數(shù)量更多的20面數(shù)據(jù)進(jìn)行對(duì)比。

5 類內(nèi)和類間相似度對(duì)比

5.1 類內(nèi)層深度對(duì)比

類內(nèi)數(shù)據(jù)我們比較了3種不同層級(jí)的情況,類間數(shù)據(jù)我們用MLVD-3進(jìn)行比較,在MLVD-3上,類內(nèi)和類間數(shù)據(jù)差異明顯。

圖5 不同層級(jí)的模型相似度Fig.5 Model similarity at different levels

5.2 類間數(shù)據(jù)的相似度對(duì)比

類間差異比類內(nèi)差異平均值大43%,類間最小值存在是由于實(shí)驗(yàn)中把大類和子類當(dāng)做不同的類來(lái)處理,會(huì)存在少量非常近似的模型,但從整體的數(shù)據(jù)來(lái)看,類間數(shù)據(jù)的差異非常明顯,說(shuō)明MLVD對(duì)模型的區(qū)分度很強(qiáng)。

表1 類內(nèi)和類間相似度對(duì)比Tab.1 Intra class and inter class similarity comparison

6 實(shí)驗(yàn)結(jié)果及分析

文中所有數(shù)據(jù)來(lái)自ShapeNet,算法由Matlab實(shí)現(xiàn),多視圖卷積神經(jīng)網(wǎng)絡(luò)識(shí)別3D模型在6×Intel(R)Xeon(R)CPU E5-2678 v3 @ 2.50GHz,顯存11G,NVIDIA GeForce RTX 2080 Ti,62 GB內(nèi)存環(huán)境中實(shí)驗(yàn)。

6.1 識(shí)別精度的提升

為了驗(yàn)證MLVD對(duì)3D模型的識(shí)別能力,在MVCNN上使用3種不同的輸入視圖進(jìn)行對(duì)比,測(cè)試集遠(yuǎn)大于訓(xùn)練集的數(shù)據(jù)上進(jìn)行試驗(yàn),這樣的分法必然對(duì)提高識(shí)別精度不利,但卻能體現(xiàn)視圖選擇的差異。原算法實(shí)驗(yàn)中的類別數(shù)由40變?yōu)?40，不改變?nèi)魏纹渌O(shè)定,測(cè)試3D模型識(shí)別的精度。實(shí)驗(yàn)設(shè)計(jì)中,12視圖使用MVCNN中的方式,向上30°均勻獲取,16視圖是我們算法提供的,20視圖是12面體頂點(diǎn)采集的視圖,視圖分辨率都是224×224,都把背景改為黑色。已經(jīng)驗(yàn)證深度圖像帶來(lái)改進(jìn),對(duì)比時(shí)使用效果好的深度圖,而16和20都僅使用邊緣數(shù)據(jù)。訓(xùn)練數(shù)據(jù)采用隨機(jī)水平旋轉(zhuǎn)和不旋轉(zhuǎn)來(lái)測(cè)試視圖對(duì)精度影響的穩(wěn)定性。如表2所示,由于測(cè)試集遠(yuǎn)大于訓(xùn)練集并且分類數(shù)量較原實(shí)驗(yàn)增大較多,精度并不是非常高,但可明顯看出MLVD-16提供的視圖與文獻(xiàn)[33]的12及文獻(xiàn)[24]的20視圖選擇識(shí)別精度非常接近,而本文的16視圖選擇在訓(xùn)練時(shí)不論是否進(jìn)行隨機(jī)水平旋轉(zhuǎn),都提升了近30%。

6.2 識(shí)別率分析

我們進(jìn)一步分析了識(shí)別有誤的數(shù)據(jù),如圖6所示。6A是未隨機(jī)水平旋轉(zhuǎn)的,6B是進(jìn)行隨機(jī)水平旋轉(zhuǎn)的,橫軸是計(jì)算錯(cuò)誤率區(qū)間,縱軸是分類數(shù)量,12和20視圖的錯(cuò)誤分類基本持平,16視圖明顯低錯(cuò)誤率的分類數(shù)量多,而高錯(cuò)誤率的區(qū)間類別數(shù)少。我們發(fā)現(xiàn)，錯(cuò)誤率高的數(shù)據(jù)有兩個(gè)特點(diǎn)：①測(cè)試數(shù)據(jù)少(在數(shù)據(jù)集的細(xì)粒度分類中總共只有12個(gè)模型,2個(gè)模型當(dāng)測(cè)試數(shù)據(jù))。②測(cè)試數(shù)據(jù)中同一類數(shù)據(jù)形狀差異明顯的,比如錯(cuò)誤率最高的Webcam類中存在圓的相機(jī)或方的相機(jī)。第一種情況在數(shù)據(jù)量大的情況下會(huì)改善,而第二種情況,基于形狀來(lái)識(shí)別是很難改善的。

表2 不同輸入視圖在MVCNN上的識(shí)別精度對(duì)比Tab.2 Comparision of recognition accuracy of different input views on MVCNN

圖6 錯(cuò)誤識(shí)別數(shù)據(jù)分布Fig.6 Error identification data distribution

7 結(jié)語(yǔ)

本文提出一種新的3D模型描述符,該方法可以以不同分層深度的視點(diǎn)組合來(lái)描述3D模型,在連續(xù)的多視角視圖中以倒角距離來(lái)衡量視圖間的差異,通過(guò)最優(yōu)目標(biāo)函數(shù)的計(jì)算來(lái)得到每一層的最優(yōu)視點(diǎn),并以測(cè)地距離來(lái)計(jì)算模型之間的相似度。在實(shí)驗(yàn)中對(duì)層深的選擇,類間數(shù)據(jù)的區(qū)分能力進(jìn)行分析,并在細(xì)粒度分類數(shù)據(jù)上對(duì)比測(cè)試視圖對(duì)識(shí)別精度的影響,得出均勻的視圖選擇很難再提升識(shí)別精度,而本文提供的視圖具備明顯的優(yōu)勢(shì)。MLVD具有縮放,平移不變性,對(duì)噪聲不敏感,且具有直觀的語(yǔ)義,易于為其他相關(guān)應(yīng)用提供支持。