張景發(fā),楊 軍,2
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.蘭州交通大學(xué) 測繪與地理信息學(xué)院,蘭州 730070)
三維模型識別與分類廣泛應(yīng)用于醫(yī)學(xué)影像分析、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域,成為計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)等相關(guān)領(lǐng)域的重要研究課題。傳統(tǒng)的三維模型識別方法利用人工設(shè)計(jì)特征描述符提取特征,如幾何形狀描述符[1]和熱核簽名描述符[2]等。由于人工設(shè)計(jì)的特征描述符良莠不齊,而且泛化能力較弱,研究人員提出利用深度學(xué)習(xí)提取特征描述符?;谏疃葘W(xué)習(xí)的三維模型識別方法主要包括基于體素的方法[3]、基于多視圖的方法[4]和基于點(diǎn)云表示的方法[5]。前2種方法需要將三維點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為體素網(wǎng)格或二維投影視圖,這種數(shù)據(jù)形式的轉(zhuǎn)換過程不僅會丟失特征信息,還會增加時(shí)間成本和內(nèi)存開銷?;邳c(diǎn)云表示的方法不僅更加接近模型的原始表征,且可以將原始幾何信息保留在3D空間中,不會進(jìn)行任何離散化,有利于端到端的學(xué)習(xí),因此,基于點(diǎn)云表示的方法成為了三維模型識別的主流方法。文獻(xiàn)[5]提出的深度學(xué)習(xí)網(wǎng)絡(luò)框架PointNet,使用多層感知機(jī)(multilayer perceptron,MLP)與最大池化操作確保了點(diǎn)云輸入的無序性,并利用T-net網(wǎng)絡(luò)實(shí)現(xiàn)了數(shù)據(jù)及特征的有效對齊,在點(diǎn)云模型的識別上做出了開創(chuàng)性工作。然而,PointNet網(wǎng)絡(luò)沒有考慮到點(diǎn)與其周圍的鄰域信息,且未針對點(diǎn)云密度不均勻的特點(diǎn)進(jìn)行特殊設(shè)計(jì)。文獻(xiàn)[6]對上述問題做出了改進(jìn),提出了PointNet++,通過在網(wǎng)絡(luò)中分層使用PointNet,并將PointNet網(wǎng)絡(luò)應(yīng)用于局部區(qū)域,生成區(qū)域的特征向量。該算法不僅解決了采樣不均勻的問題,也考慮到了空間中點(diǎn)與點(diǎn)之間的距離度量問題。文獻(xiàn)[7]提出了邊緣卷積(edge convolution,EdgeConv)模型,在三維空間中找出與輸入點(diǎn)相近的k個(gè)最近鄰點(diǎn),并使用這些點(diǎn)與其中心點(diǎn)的曼哈頓距離構(gòu)造鄰域特征。該方法不僅可獲得局部鄰域信息,而且通過堆疊邊緣模塊,可以提取到全局形狀信息。
基于深度學(xué)習(xí)的方法在三維模型識別領(lǐng)域已經(jīng)取得了顯著的成果,但其所使用的網(wǎng)絡(luò)架構(gòu)大多由人工構(gòu)建,網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)過程嚴(yán)重依賴專家經(jīng)驗(yàn),且需要耗費(fèi)大量的時(shí)間和人力成本。因此,基于深度學(xué)習(xí)的三維模型識別方法面臨的主要挑戰(zhàn)是設(shè)計(jì)高效且普適的網(wǎng)絡(luò)架構(gòu)。隨著神經(jīng)架構(gòu)搜索(neural architecture search,NAS)[8]的提出,研究者逐漸將NAS方法應(yīng)用到模型識別與分類任務(wù)中。NAS利用一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)作為控制器,通過強(qiáng)化學(xué)習(xí)方法來搜索子網(wǎng)絡(luò),不斷更新控制器的參數(shù),直至搜索到符合要求的網(wǎng)絡(luò)。搜索到的網(wǎng)絡(luò)在性能方面達(dá)到了人工設(shè)計(jì)網(wǎng)絡(luò)的準(zhǔn)確度,其缺點(diǎn)在于耗費(fèi)了大量計(jì)算資源,即使對CIFAR-10這樣的小型數(shù)據(jù)集,也需要數(shù)百個(gè)GPU訓(xùn)練一天時(shí)間。為了解決這個(gè)問題,文獻(xiàn)[9]提出了基于cell結(jié)構(gòu)的搜索空間,將cell結(jié)構(gòu)表示為一個(gè)內(nèi)部有多個(gè)節(jié)點(diǎn)的有向無環(huán)圖,其中每個(gè)節(jié)點(diǎn)表示網(wǎng)絡(luò)提取的特征圖,節(jié)點(diǎn)之間的有向連接表示預(yù)定義的各種候選操作,通過搜索具有各種拓?fù)浞绞降腸ell結(jié)構(gòu)并將搜索到的cell結(jié)構(gòu)重復(fù)堆疊,得到最優(yōu)的網(wǎng)絡(luò)架構(gòu)。此方法成功將NAS搜索時(shí)間縮短到1/1000以下。文獻(xiàn)[10]在基于cell結(jié)構(gòu)搜索空間的基礎(chǔ)上提出了DARTS算法,利用Softmax函數(shù)將搜索空間從離散松弛狀態(tài)轉(zhuǎn)化為連續(xù)狀態(tài),使得目標(biāo)函數(shù)可微。在搜索時(shí),DARTS會遍歷全部節(jié)點(diǎn),使用節(jié)點(diǎn)上候選操作的權(quán)重進(jìn)行計(jì)算,同時(shí)優(yōu)化架構(gòu)參數(shù)和網(wǎng)絡(luò)參數(shù)。搜索結(jié)束后,在各節(jié)點(diǎn)之間選擇權(quán)重最大的候選操作,構(gòu)建完整的網(wǎng)絡(luò)架構(gòu)。
本文提出早??晌⒓軜?gòu)搜索(early-stopping differentiable architecture search,ES-DARTS)算法,主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)有:①解決了人工設(shè)計(jì)網(wǎng)絡(luò)費(fèi)時(shí)費(fèi)力又容易出現(xiàn)錯(cuò)誤的問題,并在性能上超越了人工設(shè)計(jì)網(wǎng)絡(luò);②設(shè)計(jì)了適用于三維點(diǎn)云模型的搜索空間,提高了網(wǎng)絡(luò)架構(gòu)的搜索效率;③通過追蹤搜索空間中候選操作的權(quán)重變化,在跳躍連接發(fā)揮不公平競爭的臨界點(diǎn)停止搜索,解決了基于DARTS算法自動(dòng)搜索網(wǎng)絡(luò)架構(gòu)易出現(xiàn)性能崩潰的問題。
對于二維圖像識別任務(wù),NAS已經(jīng)有了許多定義明確的搜索空間;而對于三維點(diǎn)云數(shù)據(jù),由于其與二維圖像數(shù)據(jù)格式不同,因而這些搜索空間中的候選操作不能直接應(yīng)用。本文在一些主流三維模型識別與分類網(wǎng)絡(luò)基礎(chǔ)上,針對三維點(diǎn)云數(shù)據(jù)的特點(diǎn)設(shè)計(jì)了新搜索空間,利用專家設(shè)計(jì)網(wǎng)絡(luò)模型中的先驗(yàn)知識,預(yù)定義一個(gè)包含高效候選操作的搜索空間,有助于ES-DARTS算法搜索到最優(yōu)的網(wǎng)絡(luò)架構(gòu);同時(shí),為了降低網(wǎng)絡(luò)模型的復(fù)雜性,在搜索空間中設(shè)計(jì)了一些輕量級的候選操作,如Local conv和Group conv[11]等,可大大提高搜索效率,在性能和搜索成本之間取得平衡。
本文搜索空間包含多種候選操作,Skip Connection操作的作用與ResNet[12]相同,可防止在較深的網(wǎng)絡(luò)中出現(xiàn)梯度消失。Conv_1×1操作對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行降維,并在不改變特征圖的前提下,實(shí)現(xiàn)各通道之間的線性組合。Local conv操作可以有效聚合鄰域點(diǎn)的特征、鄰域點(diǎn)與采樣點(diǎn)的邊特征,充分挖掘局部幾何特征,使每個(gè)采樣點(diǎn)的特征更加豐富。GCN[13]解決了卷積神經(jīng)網(wǎng)絡(luò)無法有效處理非歐幾里得數(shù)據(jù)的問題。Gat方法[14]采用跨節(jié)點(diǎn)對并行,能高效地為鄰域中的不同節(jié)點(diǎn)指定不同權(quán)重,且不需要代價(jià)高昂的矩陣運(yùn)算。Group conv通過將同一卷積層中的卷積核分成不同的小組,解決了隨著卷積網(wǎng)絡(luò)中卷積核個(gè)數(shù)增多時(shí)出現(xiàn)的卷積冗余問題,在保持模型精度的同時(shí)減少參數(shù)量和計(jì)算量。文獻(xiàn)[15]認(rèn)為圖神經(jīng)網(wǎng)絡(luò)具有同構(gòu)性,即對同構(gòu)圖處理后的特征應(yīng)該相同,對非同構(gòu)圖處理后的特征應(yīng)該不同,引入一個(gè)可學(xué)習(xí)參數(shù)對點(diǎn)的原始特征進(jìn)行映射,并將映射后的特征同鄰域特征進(jìn)行聚合。文獻(xiàn)[16]提出的GraphSAGE是一種節(jié)點(diǎn)表示方法,通過從一個(gè)頂點(diǎn)的局部領(lǐng)域點(diǎn)采樣并聚合節(jié)點(diǎn)特征信息,可以有效地為其他頂點(diǎn)生成嵌入圖特征映射,而不需要對每一個(gè)頂點(diǎn)單獨(dú)進(jìn)行訓(xùn)練,提高了訓(xùn)練效率。
本文cell結(jié)構(gòu)如圖1所示。cell結(jié)構(gòu)由6個(gè)節(jié)點(diǎn)的有向無環(huán)圖(direct acyclic graph,DAG)組成,包括2個(gè)輸入節(jié)點(diǎn)、3個(gè)中間節(jié)點(diǎn)和1個(gè)輸出節(jié)點(diǎn)。節(jié)點(diǎn)代表了網(wǎng)絡(luò)的特征映射,節(jié)點(diǎn)之間的有向連接表示各種操作的選擇。圖1中,輸入節(jié)點(diǎn)是前2個(gè)cell結(jié)構(gòu)的輸出表示,中間節(jié)點(diǎn)聚合來自其所有前置節(jié)點(diǎn)的信息流,輸出節(jié)點(diǎn)被定義為固定數(shù)量的前置節(jié)點(diǎn)的串聯(lián),從節(jié)點(diǎn)i到j(luò)的邊ei,j表示對輸入特征xi進(jìn)行操作選擇,并且其輸出xj被表示為oi,j(xi)之和,即
圖1 cell結(jié)構(gòu)Fig.1 Cell structure
(1)
搜索空間中的元素是cell結(jié)構(gòu)中各節(jié)點(diǎn)之間的候選操作集合。cell結(jié)構(gòu)的部分簡化構(gòu)建過程如圖2所示。圖2a是未進(jìn)行架構(gòu)搜索時(shí)的cell結(jié)構(gòu),“?”表示待處理;圖2b是通過Softmax函數(shù)松弛化搜索空間,使搜索空間從離散變?yōu)檫B續(xù),從而將各節(jié)點(diǎn)之間的操作選擇表示為一個(gè)混合操作;圖2c以線條的粗細(xì)表示各節(jié)點(diǎn)對標(biāo)候選操作的權(quán)重大小;圖2d選擇各節(jié)點(diǎn)對標(biāo)權(quán)重占比最高的候選操作,獲得完整的cell結(jié)構(gòu)。
圖2 cell結(jié)構(gòu)的部分簡化構(gòu)建過程Fig.2 Partial simplification of the construction process of cell structure
cell結(jié)構(gòu)利用Softmax函數(shù)計(jì)算各節(jié)點(diǎn)之間混合操作的權(quán)重占比,并選擇各節(jié)點(diǎn)對中權(quán)重占比最高的候選操作作為最終輸出,表示為
(2)
(3)
(3)式中,Ltrain和Lval分別表示訓(xùn)練和驗(yàn)證損失,其大小由體系結(jié)構(gòu)α與候選操作權(quán)重ω共同確定。算法的目標(biāo)是找到使驗(yàn)證損失Lval(ω*(α),α)最小的體系結(jié)構(gòu)α,與搜索到的體系結(jié)構(gòu)α相對應(yīng)的權(quán)重ω*是通過最小化訓(xùn)練損失得到的。
DARTS算法的核心任務(wù)是優(yōu)化體系結(jié)構(gòu)參數(shù)α和模型權(quán)重參數(shù)ω,這2個(gè)參數(shù)是交替進(jìn)行優(yōu)化的。然而,在優(yōu)化過程中,DARTS算法自動(dòng)搜索到的網(wǎng)絡(luò)會出現(xiàn)性能崩潰現(xiàn)象,即隨著搜索過程中迭代次數(shù)的增加,網(wǎng)絡(luò)的性能不但不會一直提升,反而可能出現(xiàn)下降。DARTS算法之所以出現(xiàn)性能崩潰,是因?yàn)槠湓谑褂肧oftmax函數(shù)松弛化搜索空間時(shí),將任意2個(gè)節(jié)點(diǎn)之間的各種候選操作加權(quán)為一個(gè)混合操作權(quán)重,各操作之間存在一種排他性競爭,一種候選操作權(quán)重的提升,會抑制其他操作的權(quán)重[17]。在搜索空間中定義的跳躍連接操作,雖然可以防止網(wǎng)絡(luò)層數(shù)過深而導(dǎo)致梯度爆炸,但由于其與卷積的結(jié)合比較好,跳躍連接操作在網(wǎng)絡(luò)搜索過程中會逐漸占據(jù)主導(dǎo)地位,在排他性競爭中嚴(yán)重削弱了其他操作的權(quán)重,導(dǎo)致搜索到的cell結(jié)構(gòu)中存在太多跳躍連接,使網(wǎng)絡(luò)崩潰。這種現(xiàn)象被定義為不公平競爭,他促使跳躍連接在排他性競爭中占據(jù)壟斷地位。
在雙重優(yōu)化算法中,體系結(jié)構(gòu)參數(shù)α和模型權(quán)重參數(shù)ω是先合作后競爭的關(guān)系。開始搜索cell結(jié)構(gòu)時(shí),這2個(gè)參數(shù)相互促進(jìn),此時(shí)是合作關(guān)系;經(jīng)過多次迭代之后,由于模型權(quán)重在競爭中比架構(gòu)參數(shù)更具優(yōu)勢(如模型權(quán)重的數(shù)量遠(yuǎn)遠(yuǎn)大于架構(gòu)參數(shù)的數(shù)量,架構(gòu)參數(shù)在雙重優(yōu)化中對最終損失不敏感等),他們逐漸轉(zhuǎn)向相互競爭的關(guān)系,導(dǎo)致搜索到的體系結(jié)構(gòu)性能先上升后下降。
為了解決跳躍連接不公平競爭問題,本文通過追蹤網(wǎng)絡(luò)搜索過程中各候選操作的權(quán)重變化,并在其出現(xiàn)明顯變化時(shí)停止搜索,即尋找雙重優(yōu)化過程中架構(gòu)參數(shù)和模型權(quán)重參數(shù)合作與競爭之間的臨界點(diǎn)。在此臨界點(diǎn)之前,跳躍連接對網(wǎng)絡(luò)性能起著促進(jìn)作用,超過這個(gè)臨界點(diǎn),就會阻礙網(wǎng)絡(luò)性能。臨界點(diǎn)選取可以表示為
(4)
(4)式中:ωn表示第n次迭代時(shí)的候選操作權(quán)重大小;ωn-k表示在n周圍k個(gè)迭代上的候選操作權(quán)重大小;h為停止條件的閾值。當(dāng)某個(gè)候選操作的權(quán)重變化超過閾值h時(shí),則在第n-k次迭代處停止搜索,以找到性能最優(yōu)的網(wǎng)絡(luò)架構(gòu)。將此方法與其他的早停策略進(jìn)行實(shí)驗(yàn)對比,結(jié)果表明,本文所提出的早停策略不僅可以打破這種不公平的競爭,而且還取得了比直接限制跳躍連接數(shù)量更好的效果。
本文在ModelNet10和ModelNet40這2個(gè)標(biāo)準(zhǔn)公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。ModelNet10包含4 899個(gè)三維模型,分為10個(gè)不同的類別。ModelNet40數(shù)據(jù)集有40個(gè)類別,包含12 311個(gè)三維模型,其中,9 843個(gè)為訓(xùn)練模型,2 468個(gè)為測試模型。
使用ModelNet10數(shù)據(jù)集搜索cell架構(gòu),采用與DARTS相同的搜索策略,cell結(jié)構(gòu)由6個(gè)節(jié)點(diǎn)組成,分為2個(gè)輸入節(jié)點(diǎn),3個(gè)中間節(jié)點(diǎn)及1個(gè)輸出節(jié)點(diǎn)。第1和第2輸入節(jié)點(diǎn)分別為前2個(gè)cell結(jié)構(gòu)的輸出,輸出節(jié)點(diǎn)是所有中間節(jié)點(diǎn)的深度級聯(lián)。搜索到最優(yōu)cell結(jié)構(gòu)之后,通過將cell結(jié)構(gòu)堆疊2次并在ModelNet10上構(gòu)建最終的網(wǎng)絡(luò)架構(gòu)??紤]到神經(jīng)架構(gòu)搜索的隨機(jī)性,本文進(jìn)行了5次獨(dú)立搜索,得到了5個(gè)不同的最優(yōu)cell結(jié)構(gòu),如圖3所示。
圖3 5次獨(dú)立搜索得到的不同cell結(jié)構(gòu)Fig.3 Different cell structures obtained from 5 independent searches
參數(shù)設(shè)置:從ModelNet10中的每個(gè)三維模型中采樣1 024個(gè)點(diǎn),輸入特征維度為3,分別用x、y和z坐標(biāo)表示。對于體系結(jié)構(gòu)參數(shù)α和模型權(quán)重ω,本文遵循同DARTS[13]同樣的設(shè)置,使用初始學(xué)習(xí)率為3×10-4、動(dòng)量為0.5和權(quán)重衰減為10-3的Adam優(yōu)化器進(jìn)行優(yōu)化。為防止架構(gòu)搜索過程出現(xiàn)梯度爆炸,在每個(gè)節(jié)點(diǎn)處都采用批量歸一化。
在搜索階段搜索到最優(yōu)cell結(jié)構(gòu)之后,通過將最優(yōu)cell結(jié)構(gòu)多次堆疊來構(gòu)建更大的網(wǎng)絡(luò)體系結(jié)構(gòu)。由于ModelNet40與ModelNet10數(shù)據(jù)集大小不同,因此所需的網(wǎng)絡(luò)深度也不一樣。在ModelNet40數(shù)據(jù)集,將搜索到的cell結(jié)構(gòu)堆疊3次,特征通道大小為128,優(yōu)化器的選擇同ModelNet10相同。網(wǎng)絡(luò)架構(gòu)評估過程中會隨機(jī)初始化網(wǎng)絡(luò)的權(quán)重(丟棄在搜索過程中學(xué)習(xí)到的權(quán)重),重新訓(xùn)練網(wǎng)絡(luò)架構(gòu),并在測試集上測試此網(wǎng)絡(luò)的性能。此階段設(shè)置迭代次數(shù)為400,以使網(wǎng)絡(luò)趨于收斂。
實(shí)驗(yàn)中運(yùn)行了5次獨(dú)立搜索,得到了5個(gè)不同的體系結(jié)構(gòu)。在ModelNet40數(shù)據(jù)集上對這5個(gè)不同體系結(jié)構(gòu)進(jìn)行性能評估,并給出每次評估的總體識別準(zhǔn)確率和參數(shù)大小,實(shí)驗(yàn)結(jié)果如表1所示。
表1 5次獨(dú)立搜索體系結(jié)構(gòu)的準(zhǔn)確率Tab.1 Accuracy of five independent search architectures
搜索到的網(wǎng)絡(luò)架構(gòu)在ModelNet40數(shù)據(jù)集上最高達(dá)到了93.2%的識別準(zhǔn)確率,由于每次獨(dú)立搜索到網(wǎng)絡(luò)架構(gòu)中候選操作的不同,其參數(shù)大小也有所差異,其中跳躍連接操作的參數(shù)計(jì)算最少,包含跳躍連接的網(wǎng)絡(luò)架構(gòu)中的參數(shù)量明顯少于其他網(wǎng)絡(luò)。
ES-DARTS搜索到的體系結(jié)構(gòu)與主流的人工設(shè)計(jì)網(wǎng)絡(luò)對比結(jié)果如表2所示。表2中,搜索耗時(shí)針對非人工方式。
表2 不同算法在ModelNet40的識別準(zhǔn)確率對比Tab.2 Comparison of recognition accuracy of different algorithms on ModelNet40
由表2可以看出,使用NAS算法自動(dòng)搜索出的網(wǎng)絡(luò)架構(gòu)取得了比人工設(shè)計(jì)網(wǎng)絡(luò)更好的識別準(zhǔn)確率。圖4是模型識別準(zhǔn)確率隨著迭代次數(shù)的變化情況。從圖4可以看出,在訓(xùn)練初期,隨著迭代次數(shù)的增加,識別準(zhǔn)確率逐漸提高,當(dāng)?shù)螖?shù)達(dá)到220次時(shí),網(wǎng)絡(luò)趨于收斂,故基于神經(jīng)架構(gòu)搜索策略自動(dòng)構(gòu)建網(wǎng)絡(luò)對于三維模型分類任務(wù)是有效的。
圖4 迭代次數(shù)與模型識別準(zhǔn)確率的統(tǒng)計(jì)結(jié)果Fig.4 Statistical results of the epoch and model recognition accuracy
本實(shí)驗(yàn)通過追蹤網(wǎng)絡(luò)搜索過程中各種候選操作的權(quán)重變化,找到雙重優(yōu)化過程中架構(gòu)參數(shù)和模型權(quán)重參數(shù)合作與競爭之間的臨界點(diǎn),以解決跳躍連接的不公平競爭。設(shè)置網(wǎng)絡(luò)搜索過程迭代次數(shù)為50,由于搜索空間中定義了9種候選操作,因此,追蹤50次迭代過程中各節(jié)點(diǎn)間9種候選操作的權(quán)重變化。為了確定閾值h的取值大小,在保持其他參數(shù)不變的情況下對h的取值進(jìn)行多次實(shí)驗(yàn),確定最佳參數(shù)設(shè)置。表3顯示了當(dāng)閾值h取不同值時(shí)搜索到的網(wǎng)絡(luò)識別準(zhǔn)確率。從表3可以看出,當(dāng)h取值0.1和0.4時(shí),識別準(zhǔn)確率較低;取0.2時(shí),識別準(zhǔn)確率高于其他取值。因此,本文將閾值h取值設(shè)置為0.2。本文也展示了一組中間節(jié)點(diǎn)對之間各候選操作的變化情況。除跳躍連接之外的其余候選操作在50次迭代中的權(quán)重變化都比較小,跳躍連接操作在搜索階段剛開始時(shí)是穩(wěn)定變化的,而在迭代一定次數(shù)之后,其權(quán)重發(fā)生明顯變化。cell結(jié)構(gòu)各候選操作權(quán)重競爭過程如圖5所示。本文方法可以簡單而直觀地找出跳躍連接操作發(fā)揮不公平競爭的臨界點(diǎn),在該臨界點(diǎn)之后,跳躍連接開始抑制其他操作的權(quán)重,使搜索到的網(wǎng)絡(luò)性能不佳,在此臨界點(diǎn)處停止搜索,進(jìn)而獲得性能最優(yōu)的cell結(jié)構(gòu)。
表3 不同閾值識別準(zhǔn)確率的比較Tab.3 Comparison of recognition accuracy with different thresholds
圖5 cell結(jié)構(gòu)各候選操作權(quán)重競爭過程Fig.5 Competition process of each candidate operation weight of the cell structure
為了證明有效性,將本文與P-DARTS[26]、FairDARTS[17]、DSNAS[27]等算法中的早停策略進(jìn)行實(shí)驗(yàn)對比。P-DARTS通過在跳躍連接之后使用dropout,在優(yōu)化過程中限制跳躍連接的數(shù)量。FairDARTS通過在架構(gòu)參數(shù)上應(yīng)用Sigmoid代替Softmax,允許每個(gè)候選操作具有獨(dú)立的體系結(jié)構(gòu)權(quán)重,以避免排他性競爭,打破跳躍連接導(dǎo)致的不公平競爭。DSNAS采用了漸進(jìn)式提前停止策略,為停止條件設(shè)置閾值,一旦任何邊或?qū)訚M足此條件,就直接選擇此時(shí)權(quán)重最高的候選操作,停止優(yōu)化,并在隨后的訓(xùn)練中更新體系結(jié)構(gòu)參數(shù)。這些方法都應(yīng)用于二維圖像ImageNet數(shù)據(jù)集,本文根據(jù)論文作者所公開的代碼在Modelnet40數(shù)據(jù)集上進(jìn)行了復(fù)現(xiàn)。不同算法中早停策略的比較如表4所示。由表4可以看出,本文早停策略取得了優(yōu)于其他幾種算法的識別準(zhǔn)確率,這是由于其他幾種算法主要是針對于二維圖像進(jìn)行設(shè)計(jì)的,沒有考慮到三維點(diǎn)云模型的特點(diǎn)。此外,本文早停策略找出了跳躍連接操作發(fā)揮不公平競爭的臨界點(diǎn),在網(wǎng)絡(luò)還沒有完全收斂時(shí)就停止搜索,因此在搜索時(shí)間上也取得了更優(yōu)的結(jié)果。
表4 不同算法中早停策略的比較Tab.4 Comparison of early stopping strategies in different algorithms
為了驗(yàn)證本文早停策略能夠有效解決跳躍連接的不公平競爭,設(shè)置了3種不同的搜索方法進(jìn)行對比實(shí)驗(yàn):不使用早停搜索50次(S1)、不使用早停搜索200次(S2)、使用本文的早停設(shè)置(S3),實(shí)驗(yàn)結(jié)果如表5所示。由表5可以看出,在相同的搜索空間條件下,S2方法搜索到的網(wǎng)絡(luò)架構(gòu)性能最差,明顯出現(xiàn)了性能崩潰的現(xiàn)象;S1方法只比S3的性能低0.3%,這是因?yàn)閷⑺阉鞔螖?shù)設(shè)置為50次,實(shí)質(zhì)上是一種隱含的早停策略,由于沒有在跳躍連接開始發(fā)揮不公平競爭的臨界點(diǎn)處停止搜索,因此其識別準(zhǔn)確率不如S3方法。S1、S2、S3這3種搜索方式的cell結(jié)構(gòu)如圖6所示。由圖6可以看出,S2方法由于沒有使用早停策略來限制跳躍連接操作的不公平競爭,導(dǎo)致所搜索到的cell結(jié)構(gòu)中存在3個(gè)跳躍連接,使得網(wǎng)絡(luò)層數(shù)太淺,出現(xiàn)網(wǎng)絡(luò)性能崩潰。而S1和S3方法中的跳躍連接個(gè)數(shù)都為1個(gè),對網(wǎng)絡(luò)的性能影響不大。
表5 3種不同搜索方式的準(zhǔn)確率Tab.5 Accuracy of three different search methods
圖6 S1、S2、S3 3種搜索方式的cell結(jié)構(gòu)Fig.6 Cell structure of S1,S2,and S3 search methods
為了更好地分析跳躍連接操作對網(wǎng)絡(luò)架構(gòu)性能的影響,本文設(shè)置了2個(gè)搜索空間,一個(gè)搜索空間中包含跳躍連接操作,另一個(gè)搜索空間中不包含跳躍連接操作,其他設(shè)置完全相同。跳躍連接對搜索空間的影響如表6所示。由表6可知,包含跳躍連接搜索空間搜索到的網(wǎng)絡(luò)識別準(zhǔn)確率比較高,表明適當(dāng)數(shù)量的跳躍連接確實(shí)有利于網(wǎng)絡(luò)的性能提升。因此,對于跳躍連接的不公平競爭,只能對其進(jìn)行限制,而不能直接舍棄。
表6 跳躍連接對搜索空間的影響Tab.6 Impact of skip connections on the search space
為了驗(yàn)證本文設(shè)計(jì)搜索空間的高效性,采用隨機(jī)搜索進(jìn)行實(shí)驗(yàn)對比。在搜索空間中隨機(jī)搜索10組cell結(jié)構(gòu),由于隨機(jī)搜索具有不確定性,這10組cell結(jié)構(gòu)各自構(gòu)建的網(wǎng)絡(luò)性能差別較大。本文首先在Modelnet10數(shù)據(jù)集上對這10組網(wǎng)絡(luò)架構(gòu)分別進(jìn)行5個(gè)迭代的訓(xùn)練,然后根據(jù)實(shí)驗(yàn)結(jié)果選擇驗(yàn)證準(zhǔn)確率最高的一組網(wǎng)絡(luò)架構(gòu),最后在與ES-DARTS相同的設(shè)置下在Modelnet40數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,識別準(zhǔn)確率實(shí)驗(yàn)結(jié)果體現(xiàn)在表2中。由表2可以看出,采用隨機(jī)搜索算法搜索到網(wǎng)絡(luò)架構(gòu)的識別準(zhǔn)確率只比ES-DARTS算法的平均識別準(zhǔn)確率低2%,說明對于NAS方法,設(shè)計(jì)一個(gè)優(yōu)越的搜索空間是至關(guān)重要的。圖7為隨機(jī)搜索到的最優(yōu)cell結(jié)構(gòu),各節(jié)點(diǎn)間候選操作同ES-DARTS算法所選擇出的候選操作差異比較大,但其性能卻比較接近,證明了本文所設(shè)計(jì)搜索空間的高效性。
圖7 隨機(jī)搜索的cell結(jié)構(gòu)Fig.7 Random search cell structure
現(xiàn)有的三維模型分類網(wǎng)絡(luò)架構(gòu)大多采用人工設(shè)計(jì),設(shè)計(jì)過程很大程度依賴于專家經(jīng)驗(yàn),費(fèi)時(shí)費(fèi)力,且構(gòu)建的網(wǎng)絡(luò)性能良莠不齊。本文在DARTS算法的基礎(chǔ)上,提出一種自動(dòng)搜索三維模型分類網(wǎng)絡(luò)架構(gòu)的方法,針對三維點(diǎn)云模型的特點(diǎn)設(shè)計(jì)了新的搜索空間,以便自動(dòng)搜索到性能優(yōu)于人工設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu);對于DARTS算法中存在的跳躍連接操作所導(dǎo)致的不公平競爭,提出了追蹤各候選操作權(quán)重大小的方法,通過在跳躍連接權(quán)重明顯增大時(shí)停止搜索,以解決跳躍連接的不公平競爭現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,本文提出的方法能夠有效地搜索出適合三維模型分類任務(wù)的網(wǎng)絡(luò)架構(gòu),并在ModelNet40數(shù)據(jù)集上達(dá)到了93.2%的識別準(zhǔn)確率,高于人工設(shè)計(jì)的網(wǎng)絡(luò)。