亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度神經(jīng)網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)的社會創(chuàng)業(yè)研究

2022-11-25 04:38:42吳嘉鑫

現(xiàn)代計算機 2022年17期

吳嘉鑫

（新南威爾士大學(xué)創(chuàng)業(yè)創(chuàng)新系，澳洲悉尼 2052）

0 引言

創(chuàng)業(yè)創(chuàng)新實踐因新興技術(shù)的驅(qū)動而產(chǎn)生了重大變化，越來越多的創(chuàng)業(yè)創(chuàng)新研究開始基于數(shù)字化的背景下［1］。但在中國情境下，對于現(xiàn)代計算機科學(xué)與創(chuàng)業(yè)創(chuàng)新實踐結(jié)合的研究還處于發(fā)展階段，尤其是對社會企業(yè)的研究，國內(nèi)學(xué)者更多關(guān)注于數(shù)字化下的農(nóng)民工返鄉(xiāng)創(chuàng)業(yè)、弱勢群體創(chuàng)業(yè)以及使命漂移等普遍社會問題［2］，而忽略了對于學(xué)校內(nèi)部信息化創(chuàng)新這一重要社會問題。然而學(xué)校對于培養(yǎng)人才，積蓄社會創(chuàng)業(yè)創(chuàng)新力量有著本質(zhì)的影響，因此，更高效的師生網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)能更長遠地提高學(xué)生能力，對培養(yǎng)高質(zhì)量創(chuàng)業(yè)創(chuàng)新人才有著重要意義［3］?；诖耍狙芯繉⒗蒙疃壬窠?jīng)網(wǎng)絡(luò)去提高師生網(wǎng)絡(luò)學(xué)習(xí)，從而實現(xiàn)對學(xué)校的社會貢獻。

近幾年，深度神經(jīng)網(wǎng)絡(luò)在計算機視覺和自然語言處理等多個領(lǐng)域都表現(xiàn)出了最先進的性能。最新的研究表明［4］，深度神經(jīng)網(wǎng)絡(luò)可以深入處理數(shù)據(jù)，并且深度神經(jīng)網(wǎng)絡(luò)可能具有更大的容量并實現(xiàn)更高的精度。然而，一個具有許多參數(shù)的深度網(wǎng)絡(luò)在訓(xùn)練和測試時都需要大量的計算，由于對計算資源的要求很高，所以很難應(yīng)用于實際場景。這個問題促使人們對神經(jīng)網(wǎng)絡(luò)的壓縮進行研究。

Hinton等［5］首先提出了知識提煉（KD）這個概念，他們使用教師網(wǎng)絡(luò)的軟化輸出，將信息轉(zhuǎn)化為小型學(xué)生網(wǎng)絡(luò)。通過這種教學(xué)程序，小網(wǎng)絡(luò)可以學(xué)習(xí)大網(wǎng)絡(luò)如何以壓縮的形式研究給定任務(wù)。Romero等［6］介紹了FitNet，它不僅使用教師網(wǎng)絡(luò)的最終輸出，而且還使用教師網(wǎng)絡(luò)的中間隱藏層值來訓(xùn)練學(xué)生網(wǎng)絡(luò)。通過使用這些中間層，可以改善學(xué)生網(wǎng)絡(luò)的性能。與Fit-Net不同的是，Zagoruyko等［7］提出了注意力遷移（Attention Transfer）的方法去轉(zhuǎn)移完整的注意力圖。最近，Yim等［8］使用FSP矩陣將知識從教師網(wǎng)絡(luò)轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。FSP矩陣是由兩層的特征之間的內(nèi)積計算出來的，包括如何“解決問題”的知識。

更值得關(guān)注的是，Zeiler等［9］介紹了一種可視化技術(shù)，讓人們了解中間特征層的功能。它揭示了這些特征遠遠不是隨機的、無法解釋的模式。相反，它們顯示了許多直觀的理想屬性，如構(gòu)成性、增加的不變性和類別的區(qū)分。以前與特征相關(guān)的知識轉(zhuǎn)移工作只關(guān)注整個特征圖。例如，F(xiàn)itNet直接計算特征圖的二級損耗［6］;AT轉(zhuǎn)移特征的摘要［7］;不同層次的特征圖的內(nèi)積得到轉(zhuǎn)移［8］。而所有這些方法都忽略了特征之間的關(guān)系。所以在Zeiler等［9］的啟發(fā)下，我們發(fā)現(xiàn)不應(yīng)該只關(guān)注特征圖的值，而應(yīng)該更加關(guān)注特征之間的關(guān)系。

因此，為了在這些特征之間傳遞知識，我們引入了流形學(xué)習(xí)。流形學(xué)習(xí)將數(shù)據(jù)集視為高維空間中非線性流形的嵌入。它的目的是將位于高維空間的非線性流形上的數(shù)據(jù)集進行低維參數(shù)化。流形學(xué)習(xí)已經(jīng)成功地應(yīng)用于許多領(lǐng)域，如人臉識別等。它包含幾種方法，如Isomap［10］，

Locally Linear Embedding（LLE）［11］，Laplacian Eigenmaps（LE）［12］和Local Preserving projection（LPP）［13］。局部保留投影（LPP）是一種流形學(xué)習(xí)方法，它保留了樣本的局部關(guān)系［13］。本文利用“局部保留投影”的思想，將教師網(wǎng)絡(luò)的知識轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)。

本文將深度網(wǎng)絡(luò)的輸入視為高維空間的流形，因為特征可以很好地表示輸入，并具有許多直觀的特性［9］。因此，我們認(rèn)為從深度網(wǎng)絡(luò)中提取的隱藏層的特征是位于輸入流形上的重要點。對于同樣的輸入，利用“局部保留投影”的思想，從教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)中提取的特征應(yīng)該位于相似的流形上，為此我們引入了一種新的LPP損失，以確保教師和學(xué)生網(wǎng)絡(luò)之間特征的局部相似性，并在此基礎(chǔ)上將教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的特征之間的關(guān)系知識進行了轉(zhuǎn)移。

本論文的貢獻如下：①提供了一個關(guān)于知識轉(zhuǎn)移問題的新觀點，并提出了一種新的網(wǎng)絡(luò)壓縮方法；②通過實驗表明，本文方法在幾個數(shù)據(jù)集上提供了明顯的改進；③研究表明，本文方法可以與其他知識轉(zhuǎn)移方法相結(jié)合，并達到最佳性能。

1 理論基礎(chǔ)與文獻回顧

1.1 知識轉(zhuǎn)移

深度神經(jīng)網(wǎng)絡(luò)在計算機視覺任務(wù)中表現(xiàn)良好。深度神經(jīng)網(wǎng)絡(luò)的能力通常取決于網(wǎng)絡(luò)的深度和寬度。然而，一個具有許多參數(shù)的深度網(wǎng)絡(luò)很難在應(yīng)用中使用，因為它需要大量的計算資源。學(xué)生網(wǎng)絡(luò)的參數(shù)很少，Hinton等［5］首創(chuàng)的知識轉(zhuǎn)移（Knowledge Transfer）旨在通過依賴從強大的教師網(wǎng)絡(luò)中借用的知識來改善學(xué)生網(wǎng)絡(luò)的訓(xùn)練。它使用教師網(wǎng)絡(luò)最終輸出的軟化版本，稱為軟化目標(biāo)，將信息傳授給一個小網(wǎng)絡(luò)。通過這個程序，學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)中學(xué)習(xí)并達到更好的準(zhǔn)確性。Romero等［6］介紹了FitNet，將寬而淺的網(wǎng)絡(luò)壓縮為薄和深的網(wǎng)絡(luò)。

FitNet不僅使用軟化的輸出，還使用教師網(wǎng)絡(luò)的中間隱藏層值來訓(xùn)練學(xué)生網(wǎng)絡(luò)。在第一階段，F(xiàn)itNet與教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的隱藏層輸出相匹配；在第二階段，它使用軟化的輸出（知識提煉KD）來匹配最終輸出。通過匹配隱藏層，學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)學(xué)習(xí)額外的信息。Zagoruyko等［7］提出了注意力遷移（Attention Transfer，AT）。與FitNet不同的是，AT傳輸?shù)氖请[藏層的全部激活，而注意力圖則是全部激活的總結(jié)。Yim等［8］使用的FSP矩陣包含了網(wǎng)絡(luò)的解決過程的信息。通過匹配學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)之間的FSP矩陣，學(xué)生網(wǎng)絡(luò)可以從教師網(wǎng)絡(luò)學(xué)習(xí)如何“解決問題”。

1.2 流形學(xué)習(xí)

Isomap［10］是一種流形學(xué)習(xí)算法，它通過返回點之間的距離近似于最短路徑距離的嵌入，保留了輸入集的幾何特征。局部線性嵌入（LLE）［11］試圖通過將每個輸入點重建為其鄰居的加權(quán)組合來局部表示流形。拉普拉斯特征圖（LE）［12］建立了一個包含數(shù)據(jù)集的鄰域信息的圖。利用圖的拉普拉斯概念，LE計算出數(shù)據(jù)集的低維表示，在某種意義上最佳地保留了本地鄰域信息。局部保留投影（LPP）［13］則是通過解決一個變分問題來制作線性投影圖，該投影圖以最佳方式保留了數(shù)據(jù)集的鄰域結(jié)構(gòu)。

2 研究方法

2.1 目標(biāo)

本文方法旨在將教師網(wǎng)絡(luò)中的特征關(guān)系轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)中。對于一個輸入圖像x，教師網(wǎng)絡(luò)計算輸入并在中間層獲得特征。最后，網(wǎng)絡(luò)結(jié)合這些特征得到輸出。在其他學(xué)者的研究里，知識提煉（KD）［5］是通過匹配教師和學(xué)生網(wǎng)絡(luò)進行軟輸出；FitNet［6］是通過二級損失（L2 loss）直接匹配特征圖；AT［7］轉(zhuǎn)移注意力圖。然而所有這些方法都忽略了特征之間的關(guān)系。因此，本文認(rèn)為特征是流形的重要點，它代表了輸入圖像。對于相同的輸入圖像，學(xué)生和教師網(wǎng)絡(luò)應(yīng)該提取類似的特征。因此，他們的流形中的特征應(yīng)該是相似的。本文方法使用局部保留損失（LPP loss）來衡量他們的特征圖之間的相似性。

2.2 局部保留投影（LPP）

LPP［13］是一種流形學(xué)習(xí)方法。它的目的是找到一個能最佳地保留數(shù)據(jù)集的鄰域結(jié)構(gòu)的映射。假設(shè)給定一個集合{x1,x2,…,xm∈Rn},而y1,y2,…,ym是一個目標(biāo)地圖集合，那么LPP的標(biāo)準(zhǔn)是選擇一個好的地圖，即最小化以下函數(shù)：

在合適的條件約束下，如果相鄰的點xi和xj被映射得很遠，那么選擇Wij的目標(biāo)函數(shù)會產(chǎn)生嚴(yán)重的懲罰。因此，最小化可以確保當(dāng)xi和xj接近時，那么yi和yj也是接近的。

2.3 局部保留損耗（LPP loss）

LPP［13］是一種保存樣本局部關(guān)系的流形學(xué)習(xí)方法。本文引入局部保留方法去保持教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的流形相似性，具體來說，讓FS∈Rh×w×m表示由選定的匹配層生成的學(xué)生網(wǎng)絡(luò)的特征圖和{f1S,f2S,…,f mS∈Rh×w}表示特征圖的特征，其中h，w和m代表高度、寬度和通道數(shù)。分別來說，F(xiàn)T∈Rh'×w'×m和{f1T,f2T,…,f mT∈Rh'×w'}表示特征圖和教師網(wǎng)絡(luò)中選定層的特征。其基本思想是保留教師網(wǎng)絡(luò)中的特征與學(xué)生網(wǎng)絡(luò)中的特征一樣的局部關(guān)系。為了實現(xiàn)這一目標(biāo)，本文定義了以下的局部保留損失：

其中，參數(shù)αi,j描述了由教師網(wǎng)絡(luò)的選定層產(chǎn)生的特征之間的局部關(guān)系。定義αi,j的方式如下：

N(i)表示第i個特征f iT的k個最近的鄰居特征與δ是標(biāo)準(zhǔn)化常數(shù)。WS表示學(xué)生網(wǎng)絡(luò)的權(quán)重，L(W,x)表示標(biāo)準(zhǔn)交叉熵損失。那么可以定義以下總損失：

2.4 局部保留損耗（LPP loss）的反向傳播

Llpp相對于f iS的梯度計算如下：

兩個網(wǎng)絡(luò)的權(quán)重是通過Llpp的導(dǎo)數(shù)反向傳播來微調(diào)的：

3 實驗與討論

在兩個數(shù)據(jù)集CIFAR-10和CIFAR-100［14］上評估本文方法。在所有的實驗設(shè)置中，使用Resnet-34［4］作為教師網(wǎng)絡(luò)，Resnet-18作為學(xué)生網(wǎng)絡(luò)。我們稍微修改了網(wǎng)絡(luò)的結(jié)構(gòu)以適應(yīng)數(shù)據(jù)集。CIFAR-10和CIFAR-100數(shù)據(jù)集包括50K訓(xùn)練圖像和10K測試圖像，分別有10個和100個類別。對于數(shù)據(jù)增強，我們在訓(xùn)練中從零填充的40×40圖像中隨機抽取32×32的裁剪或其翻轉(zhuǎn)一下。對于教師網(wǎng)絡(luò)，本文使用了在ImageNet LSVRC 2012中預(yù)訓(xùn)練的模型［15］，并采用隨機梯度下降法（SGD）對網(wǎng)絡(luò)進行優(yōu)化，迷你批次大小為256。SGD的權(quán)重衰減為105，動量為0.9。對網(wǎng)絡(luò)進行了130次歷時訓(xùn)練。初始學(xué)習(xí)率被設(shè)置為0.05，然后在10、60、90和105個歷時中分別除以10。將本文方法與KD［5］、FitNet［6］和AT［7］進行比較。將ResNet轉(zhuǎn)移的知識（KD）溫度提高到4，并按照Hinton的研究方法使用α=0.9。對于FitNet，在第一階段，我們訓(xùn)練了90個歷時，學(xué)習(xí)率最初為1e-4；然后，在10和60個歷時中，它被改為1e-5。對于注意力遷移（AT），按照Zagoruyko的研究方法，將λ值設(shè)置為103除以注意力圖中的元素數(shù)和匹配層的批量大小。對于本文得LPP損失，我們將λ值設(shè)置為10除以特征圖中的元素數(shù)、匹配層的批處理量和通道數(shù)，并將k（近鄰數(shù)）的數(shù)量設(shè)置為5。對于以上所有的方法，本文對教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的第二卷積組的輸出進行匹配。實驗結(jié)果見表1。包括KD、FitNet和LPP在內(nèi)的所有的方法都比原始學(xué)生網(wǎng)絡(luò)的錯誤率低。KD［5］使用軟化標(biāo)簽來提高學(xué)生網(wǎng)絡(luò)的準(zhǔn)確性。Fitnet［6］不僅使用了像KD那樣的軟化輸出，還使用了教師網(wǎng)絡(luò)的中間隱藏層值來訓(xùn)練學(xué)生網(wǎng)絡(luò)，并取得了比KD更高的準(zhǔn)確性。本文方法，即LPP，在兩個數(shù)據(jù)集中與知識提煉（KD+LPP）相結(jié)合時，顯示出對學(xué)生網(wǎng)絡(luò)的明顯改善，并取得了比KD和FitNet更高的準(zhǔn)確性。

表1 不同轉(zhuǎn)移方法出錯率的CIFAR結(jié)果

注意力遷移（AT）是一種知識提煉方法，它取得了比KD和FitNet更高的準(zhǔn)確性。表2顯示了本文方法和AT的結(jié)果。對于AT，按照Zagoruyko的規(guī)定，λ值被設(shè)定為103除以注意力圖中的元素數(shù)和匹配層的批處理大小。為了保證識別精度的公平比較，我們在教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的第二卷積組之間轉(zhuǎn)移相同的AT和LPP的損失。當(dāng)單獨使用AT損失和LPP損失時，LPP損失實現(xiàn)了更高的準(zhǔn)確性。當(dāng)把AT和LPP損失與KD結(jié)合起來時，AT損失實現(xiàn)了更高的準(zhǔn)確性。在所有的方法中，AT+LPP+KD的組合達到了最好的性能。

如表2所示，本文的LPP方法在知識提煉方面有了顯著的改進。具體來說，提高了學(xué)生網(wǎng)絡(luò)的性能約1.46%和3.17%，并分別減少了15%和10%的相對誤差。在與AT相結(jié)合的情況下，學(xué)生網(wǎng)絡(luò)的性能提高了2.01%和3.72%，相對誤差分別降低了21%和12%。結(jié)果表明，本文方法成功地優(yōu)化了教師網(wǎng)絡(luò)特征之間的關(guān)系。盡管FitNet［6］與完全激活的功能圖相比，AT［7］轉(zhuǎn)移了完整的注意力圖，但忽略了特征之間的關(guān)系。本文方法考慮了特征之間的關(guān)系，忽略了注意力圖的具體值。因此，我們將LPP損耗與AT損耗相結(jié)合，在所有方法中獲得了最高的精度。

表2 LPP和AT的CIFAR結(jié)果

4 結(jié)語

本文提出了一種新的知識轉(zhuǎn)移損耗（LPP loss），將其作為一個流形學(xué)習(xí)問題。我們將深度神經(jīng)網(wǎng)絡(luò)提取的特征視為流形中的導(dǎo)入點，可以代表輸入圖像，通過使用所提出的局部保留損失，學(xué)生網(wǎng)絡(luò)可以在教師網(wǎng)絡(luò)中學(xué)習(xí)特征的流形結(jié)構(gòu)。本文在CIFAR-10和CIFAR-100中驗證了該方法的有效性。結(jié)果表明，本文方法在知識提煉方面有明顯的改進。通過將LPP損失與現(xiàn)有方法相結(jié)合，使得所提出的方法優(yōu)于最先進的知識轉(zhuǎn)移方法。

本研究為現(xiàn)代計算機知識與管理學(xué)科創(chuàng)業(yè)創(chuàng)新研究的交叉融合做出了貢獻，拓寬了對于社會企業(yè)創(chuàng)業(yè)研究的邊界和方向，給出了社會企業(yè)去實現(xiàn)社會價值時不僅僅局限于慈善、社會企業(yè)責(zé)任等方面，還可以考慮為國家教育做出貢獻的新思路。同時，本研究也展現(xiàn)了現(xiàn)代計算機知識對于實現(xiàn)社會價值，提高教育效能的巨大潛力。未來的研究方向可以考慮嘗試通過新的網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)去減少管理學(xué)科收集問卷的復(fù)雜度，提高效率，從而實現(xiàn)進一步的社會價值。