吳嘉鑫
(新南威爾士大學(xué)創(chuàng)業(yè)創(chuàng)新系,澳洲 悉尼 2052)
創(chuàng)業(yè)創(chuàng)新實踐因新興技術(shù)的驅(qū)動而產(chǎn)生了重大變化,越來越多的創(chuàng)業(yè)創(chuàng)新研究開始基于數(shù)字化的背景下[1]。但在中國情境下,對于現(xiàn)代計算機科學(xué)與創(chuàng)業(yè)創(chuàng)新實踐結(jié)合的研究還處于發(fā)展階段,尤其是對社會企業(yè)的研究,國內(nèi)學(xué)者更多關(guān)注于數(shù)字化下的農(nóng)民工返鄉(xiāng)創(chuàng)業(yè)、弱勢群體創(chuàng)業(yè)以及使命漂移等普遍社會問題[2],而忽略了對于學(xué)校內(nèi)部信息化創(chuàng)新這一重要社會問題。然而學(xué)校對于培養(yǎng)人才,積蓄社會創(chuàng)業(yè)創(chuàng)新力量有著本質(zhì)的影響,因此,更高效的師生網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)能更長遠地提高學(xué)生能力,對培養(yǎng)高質(zhì)量創(chuàng)業(yè)創(chuàng)新人才有著重要意義[3]?;诖耍狙芯繉⒗蒙疃壬窠?jīng)網(wǎng)絡(luò)去提高師生網(wǎng)絡(luò)學(xué)習(xí),從而實現(xiàn)對學(xué)校的社會貢獻。
近幾年,深度神經(jīng)網(wǎng)絡(luò)在計算機視覺和自然語言處理等多個領(lǐng)域都表現(xiàn)出了最先進的性能。最新的研究表明[4],深度神經(jīng)網(wǎng)絡(luò)可以深入處理數(shù)據(jù),并且深度神經(jīng)網(wǎng)絡(luò)可能具有更大的容量并實現(xiàn)更高的精度。然而,一個具有許多參數(shù)的深度網(wǎng)絡(luò)在訓(xùn)練和測試時都需要大量的計算,由于對計算資源的要求很高,所以很難應(yīng)用于實際場景。這個問題促使人們對神經(jīng)網(wǎng)絡(luò)的壓縮進行研究。
Hinton等[5]首先提出了知識提煉(KD)這個概念,他們使用教師網(wǎng)絡(luò)的軟化輸出,將信息轉(zhuǎn)化為小型學(xué)生網(wǎng)絡(luò)。通過這種教學(xué)程序,小網(wǎng)絡(luò)可以學(xué)習(xí)大網(wǎng)絡(luò)如何以壓縮的形式研究給定任務(wù)。Romero等[6]介紹了FitNet,它不僅使用教師網(wǎng)絡(luò)的最終輸出,而且還使用教師網(wǎng)絡(luò)的中間隱藏層值來訓(xùn)練學(xué)生網(wǎng)絡(luò)。通過使用這些中間層,可以改善學(xué)生網(wǎng)絡(luò)的性能。與Fit-Net不同的是,Zagoruyko等[7]提出了注意力遷移(Attention Transfer)的方法去轉(zhuǎn)移完整的注意力圖。最近,Yim等[8]使用FSP矩陣將知識從教師網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。FSP矩陣是由兩層的特征之間的內(nèi)積計算出來的,包括如何“解決問題”的知識。
更值得關(guān)注的是,Zeiler等[9]介紹了一種可視化技術(shù),讓人們了解中間特征層的功能。它揭示了這些特征遠遠不是隨機的、無法解釋的模式。相反,它們顯示了許多直觀的理想屬性,如構(gòu)成性、增加的不變性和類別的區(qū)分。以前與特征相關(guān)的知識轉(zhuǎn)移工作只關(guān)注整個特征圖。例如,F(xiàn)itNet直接計算特征圖的二級損耗[6];AT轉(zhuǎn)移特征的摘要[7];不同層次的特征圖的內(nèi)積得到轉(zhuǎn)移[8]。而所有這些方法都忽略了特征之間的關(guān)系。所以在Zeiler等[9]的啟發(fā)下,我們發(fā)現(xiàn)不應(yīng)該只關(guān)注特征圖的值,而應(yīng)該更加關(guān)注特征之間的關(guān)系。
因此,為了在這些特征之間傳遞知識,我們引入了流形學(xué)習(xí)。流形學(xué)習(xí)將數(shù)據(jù)集視為高維空間中非線性流形的嵌入。它的目的是將位于高維空間的非線性流形上的數(shù)據(jù)集進行低維參數(shù)化。流形學(xué)習(xí)已經(jīng)成功地應(yīng)用于許多領(lǐng)域,如人臉識別等。它包含幾種方法,如Isomap[10],
Locally Linear Embedding(LLE)[11],Laplacian Eigenmaps(LE)[12]和Local Preserving projection(LPP)[13]。局部保留投影(LPP)是一種流形學(xué)習(xí)方法,它保留了樣本的局部關(guān)系[13]。本文利用“局部保留投影”的思想,將教師網(wǎng)絡(luò)的知識轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。
本文將深度網(wǎng)絡(luò)的輸入視為高維空間的流形,因為特征可以很好地表示輸入,并具有許多直觀的特性[9]。因此,我們認(rèn)為從深度網(wǎng)絡(luò)中提取的隱藏層的特征是位于輸入流形上的重要點。對于同樣的輸入,利用“局部保留投影”的思想,從教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)中提取的特征應(yīng)該位于相似的流形上,為此我們引入了一種新的LPP損失,以確保教師和學(xué)生網(wǎng)絡(luò)之間特征的局部相似性,并在此基礎(chǔ)上將教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的特征之間的關(guān)系知識進行了轉(zhuǎn)移。
本論文的貢獻如下:①提供了一個關(guān)于知識轉(zhuǎn)移問題的新觀點,并提出了一種新的網(wǎng)絡(luò)壓縮方法;②通過實驗表明,本文方法在幾個數(shù)據(jù)集上提供了明顯的改進;③研究表明,本文方法可以與其他知識轉(zhuǎn)移方法相結(jié)合,并達到最佳性能。
深度神經(jīng)網(wǎng)絡(luò)在計算機視覺任務(wù)中表現(xiàn)良好。深度神經(jīng)網(wǎng)絡(luò)的能力通常取決于網(wǎng)絡(luò)的深度和寬度。然而,一個具有許多參數(shù)的深度網(wǎng)絡(luò)很難在應(yīng)用中使用,因為它需要大量的計算資源。學(xué)生網(wǎng)絡(luò)的參數(shù)很少,Hinton等[5]首創(chuàng)的知識轉(zhuǎn)移(Knowledge Transfer)旨在通過依賴從強大的教師網(wǎng)絡(luò)中借用的知識來改善學(xué)生網(wǎng)絡(luò)的訓(xùn)練。它使用教師網(wǎng)絡(luò)最終輸出的軟化版本,稱為軟化目標(biāo),將信息傳授給一個小網(wǎng)絡(luò)。通過這個程序,學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)中學(xué)習(xí)并達到更好的準(zhǔn)確性。Romero等[6]介紹了FitNet,將寬而淺的網(wǎng)絡(luò)壓縮為薄和深的網(wǎng)絡(luò)。
FitNet不僅使用軟化的輸出,還使用教師網(wǎng)絡(luò)的中間隱藏層值來訓(xùn)練學(xué)生網(wǎng)絡(luò)。在第一階段,F(xiàn)itNet與教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的隱藏層輸出相匹配;在第二階段,它使用軟化的輸出(知識提煉KD)來匹配最終輸出。通過匹配隱藏層,學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)學(xué)習(xí)額外的信息。Zagoruyko等[7]提出了注意力遷移(Attention Transfer,AT)。與FitNet不同的是,AT傳輸?shù)氖请[藏層的全部激活,而注意力圖則是全部激活的總結(jié)。Yim等[8]使用的FSP矩陣包含了網(wǎng)絡(luò)的解決過程的信息。通過匹配學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的FSP矩陣,學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)學(xué)習(xí)如何“解決問題”。
Isomap[10]是一種流形學(xué)習(xí)算法,它通過返回點之間的距離近似于最短路徑距離的嵌入,保留了輸入集的幾何特征。局部線性嵌入(LLE)[11]試圖通過將每個輸入點重建為其鄰居的加權(quán)組合來局部表示流形。拉普拉斯特征圖(LE)[12]建立了一個包含數(shù)據(jù)集的鄰域信息的圖。利用圖的拉普拉斯概念,LE計算出數(shù)據(jù)集的低維表示,在某種意義上最佳地保留了本地鄰域信息。局部保留投影(LPP)[13]則是通過解決一個變分問題來制作線性投影圖,該投影圖以最佳方式保留了數(shù)據(jù)集的鄰域結(jié)構(gòu)。
本文方法旨在將教師網(wǎng)絡(luò)中的特征關(guān)系轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)中。對于一個輸入圖像x,教師網(wǎng)絡(luò)計算輸入并在中間層獲得特征。最后,網(wǎng)絡(luò)結(jié)合這些特征得到輸出。在其他學(xué)者的研究里,知識提煉(KD)[5]是通過匹配教師和學(xué)生網(wǎng)絡(luò)進行軟輸出;FitNet[6]是通過二級損失(L2 loss)直接匹配特征圖;AT[7]轉(zhuǎn)移注意力圖。然而所有這些方法都忽略了特征之間的關(guān)系。因此,本文認(rèn)為特征是流形的重要點,它代表了輸入圖像。對于相同的輸入圖像,學(xué)生和教師網(wǎng)絡(luò)應(yīng)該提取類似的特征。因此,他們的流形中的特征應(yīng)該是相似的。本文方法使用局部保留損失(LPP loss)來衡量他們的特征圖之間的相似性。
LPP[13]是一種流形學(xué)習(xí)方法。它的目的是找到一個能最佳地保留數(shù)據(jù)集的鄰域結(jié)構(gòu)的映射。假設(shè)給定一個集合{x1,x2,…,xm∈Rn},而y1,y2,…,ym是一個目標(biāo)地圖集合,那么LPP的標(biāo)準(zhǔn)是選擇一個好的地圖,即最小化以下函數(shù):
在合適的條件約束下,如果相鄰的點xi和xj被映射得很遠,那么選擇Wij的目標(biāo)函數(shù)會產(chǎn)生嚴(yán)重的懲罰。因此,最小化可以確保當(dāng)xi和xj接近時,那么yi和yj也是接近的。
LPP[13]是一種保存樣本局部關(guān)系的流形學(xué)習(xí)方法。本文引入局部保留方法去保持教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的流形相似性,具體來說,讓FS∈Rh×w×m表示由選定的匹配層生成的學(xué)生網(wǎng)絡(luò)的特征圖和{f1S,f2S,…,f mS∈Rh×w}表 示特征圖的特征,其中h,w和m代表高度、寬度 和 通 道 數(shù)。分 別 來 說,F(xiàn)T∈Rh'×w'×m和{f1T,f2T,…,f mT∈Rh'×w'}表示特征圖和教師網(wǎng)絡(luò)中選定層的特征。其基本思想是保留教師網(wǎng)絡(luò)中的特征與學(xué)生網(wǎng)絡(luò)中的特征一樣的局部關(guān)系。為了實現(xiàn)這一目標(biāo),本文定義了以下的局部保留損失:
其中,參數(shù)αi,j描述了由教師網(wǎng)絡(luò)的選定層產(chǎn)生的特征之間的局部關(guān)系。定義αi,j的方式如下:
N(i)表示第i個特征f iT的k個最近的鄰居特征與δ是標(biāo)準(zhǔn)化常數(shù)。WS表示學(xué)生網(wǎng)絡(luò)的權(quán)重,L(W,x)表示標(biāo)準(zhǔn)交叉熵損失。那么可以定義以下總損失:
Llpp相對于f iS的梯度計算如下:
兩個網(wǎng)絡(luò)的權(quán)重是通過Llpp的導(dǎo)數(shù)反向傳播來微調(diào)的:
在兩個數(shù)據(jù)集CIFAR-10和CIFAR-100[14]上評估本文方法。在所有的實驗設(shè)置中,使用Resnet-34[4]作為教師網(wǎng)絡(luò),Resnet-18作為學(xué)生網(wǎng)絡(luò)。我們稍微修改了網(wǎng)絡(luò)的結(jié)構(gòu)以適應(yīng)數(shù)據(jù)集。CIFAR-10和CIFAR-100數(shù)據(jù)集包括50K訓(xùn)練圖像和10K測試圖像,分別有10個和100個類別。對于數(shù)據(jù)增強,我們在訓(xùn)練中從零填充的40×40圖像中隨機抽取32×32的裁剪或其翻轉(zhuǎn)一下。對于教師網(wǎng)絡(luò),本文使用了在ImageNet LSVRC 2012中預(yù)訓(xùn)練的模型[15],并采用隨機梯度下降法(SGD)對網(wǎng)絡(luò)進行優(yōu)化,迷你批次大小為256。SGD的權(quán)重衰減為105,動量為0.9。對網(wǎng)絡(luò)進行了130次歷時訓(xùn)練。初始學(xué)習(xí)率被設(shè)置為0.05,然后在10、60、90和105個歷時中分別除以10。將本文方法與KD[5]、FitNet[6]和AT[7]進行比較。將ResNet轉(zhuǎn)移的知識(KD)溫度提高到4,并按照Hinton的研究方法使用α=0.9。對于FitNet,在第一階段,我們訓(xùn)練了90個歷時,學(xué)習(xí)率最初為1e-4;然后,在10和60個歷時中,它被改為1e-5。對于注意力遷移(AT),按照Zagoruyko的研究方法,將λ值設(shè)置為103除以注意力圖中的元素數(shù)和匹配層的批量大小。對于本文得LPP損失,我們將λ值設(shè)置為10除以特征圖中的元素數(shù)、匹配層的批處理量和通道數(shù),并將k(近鄰數(shù))的數(shù)量設(shè)置為5。對于以上所有的方法,本文對教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的第二卷積組的輸出進行匹配。實驗結(jié)果見表1。包括KD、FitNet和LPP在內(nèi)的所有的方法都比原始學(xué)生網(wǎng)絡(luò)的錯誤率低。KD[5]使用軟化標(biāo)簽來提高學(xué)生網(wǎng)絡(luò)的準(zhǔn)確性。Fitnet[6]不僅使用了像KD那樣的軟化輸出,還使用了教師網(wǎng)絡(luò)的中間隱藏層值來訓(xùn)練學(xué)生網(wǎng)絡(luò),并取得了比KD更高的準(zhǔn)確性。本文方法,即LPP,在兩個數(shù)據(jù)集中與知識提煉(KD+LPP)相結(jié)合時,顯示出對學(xué)生網(wǎng)絡(luò)的明顯改善,并取得了比KD和FitNet更高的準(zhǔn)確性。
表1 不同轉(zhuǎn)移方法出錯率的CIFAR結(jié)果
注意力遷移(AT)是一種知識提煉方法,它取得了比KD和FitNet更高的準(zhǔn)確性。表2顯示了本文方法和AT的結(jié)果。對于AT,按照Zagoruyko的規(guī)定,λ值被設(shè)定為103除以注意力圖中的元素數(shù)和匹配層的批處理大小。為了保證識別精度的公平比較,我們在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的第二卷積組之間轉(zhuǎn)移相同的AT和LPP的損失。當(dāng)單獨使用AT損失和LPP損失時,LPP損失實現(xiàn)了更高的準(zhǔn)確性。當(dāng)把AT和LPP損失與KD結(jié)合起來時,AT損失實現(xiàn)了更高的準(zhǔn)確性。在所有的方法中,AT+LPP+KD的組合達到了最好的性能。
如表2所示,本文的LPP方法在知識提煉方面有了顯著的改進。具體來說,提高了學(xué)生網(wǎng)絡(luò)的性能約1.46%和3.17%,并分別減少了15%和10%的相對誤差。在與AT相結(jié)合的情況下,學(xué)生網(wǎng)絡(luò)的性能提高了2.01%和3.72%,相對誤差分別降低了21%和12%。結(jié)果表明,本文方法成功地優(yōu)化了教師網(wǎng)絡(luò)特征之間的關(guān)系。盡管FitNet[6]與完全激活的功能圖相比,AT[7]轉(zhuǎn)移了完整的注意力圖,但忽略了特征之間的關(guān)系。本文方法考慮了特征之間的關(guān)系,忽略了注意力圖的具體值。因此,我們將LPP損耗與AT損耗相結(jié)合,在所有方法中獲得了最高的精度。
表2 LPP和AT的CIFAR結(jié)果
本文提出了一種新的知識轉(zhuǎn)移損耗(LPP loss),將其作為一個流形學(xué)習(xí)問題。我們將深度神經(jīng)網(wǎng)絡(luò)提取的特征視為流形中的導(dǎo)入點,可以代表輸入圖像,通過使用所提出的局部保留損失,學(xué)生網(wǎng)絡(luò)可以在教師網(wǎng)絡(luò)中學(xué)習(xí)特征的流形結(jié)構(gòu)。本文在CIFAR-10和CIFAR-100中驗證了該方法的有效性。結(jié)果表明,本文方法在知識提煉方面有明顯的改進。通過將LPP損失與現(xiàn)有方法相結(jié)合,使得所提出的方法優(yōu)于最先進的知識轉(zhuǎn)移方法。
本研究為現(xiàn)代計算機知識與管理學(xué)科創(chuàng)業(yè)創(chuàng)新研究的交叉融合做出了貢獻,拓寬了對于社會企業(yè)創(chuàng)業(yè)研究的邊界和方向,給出了社會企業(yè)去實現(xiàn)社會價值時不僅僅局限于慈善、社會企業(yè)責(zé)任等方面,還可以考慮為國家教育做出貢獻的新思路。同時,本研究也展現(xiàn)了現(xiàn)代計算機知識對于實現(xiàn)社會價值,提高教育效能的巨大潛力。未來的研究方向可以考慮嘗試通過新的網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)去減少管理學(xué)科收集問卷的復(fù)雜度,提高效率,從而實現(xiàn)進一步的社會價值。