亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度神經(jīng)網(wǎng)絡(luò)內(nèi)部遷移的信息幾何度量分析

        2019-04-13 13:23:22陳力費(fèi)洪曉李海峰何嘉寶譚風(fēng)云
        關(guān)鍵詞:遷移學(xué)習(xí)深度學(xué)習(xí)

        陳力 費(fèi)洪曉 李海峰 何嘉寶 譚風(fēng)云

        摘 ??要:使用深度神經(jīng)網(wǎng)絡(luò)處理計(jì)算機(jī)視覺問題時(shí),在新任務(wù)數(shù)據(jù)量較少情況下,往往會(huì)采用已在大數(shù)據(jù)集上訓(xùn)練好的模型權(quán)值作為新任務(wù)的初始權(quán)值進(jìn)行訓(xùn)練,這種訓(xùn)練方式最終得到的模型泛化能力更好.對(duì)此現(xiàn)象,傳統(tǒng)解釋大多只是基于直覺分析而缺少合理的數(shù)學(xué)推導(dǎo).本文將深度神經(jīng)網(wǎng)絡(luò)這種網(wǎng)絡(luò)結(jié)構(gòu)不變下層間的學(xué)習(xí)轉(zhuǎn)為深度神經(jīng)網(wǎng)絡(luò)內(nèi)部的遷移能力,并將學(xué)習(xí)過程變化形式化到數(shù)學(xué)表達(dá)式.考慮數(shù)據(jù)集對(duì)訓(xùn)練過程帶來的影響,利用信息幾何分析方法,確定不同數(shù)據(jù)集流形之上的度量和聯(lián)絡(luò),實(shí)現(xiàn)不同數(shù)據(jù)集之間的嵌入映射,同時(shí)將參數(shù)空間的變化也放入流形空間,探究其對(duì)學(xué)習(xí)過程的共同影響,最終實(shí)現(xiàn)對(duì)這種內(nèi)部遷移現(xiàn)象的數(shù)學(xué)解釋.經(jīng)過分析和實(shí)驗(yàn)驗(yàn)證可得內(nèi)部遷移過程其實(shí)是一種能使網(wǎng)絡(luò)可以在更廣空間進(jìn)行最優(yōu)搜索的變化,有利于模型可以在學(xué)習(xí)過程中獲得相對(duì)的更優(yōu)解.

        關(guān)鍵詞:深度學(xué)習(xí); 遷移學(xué)習(xí); 信息幾何

        中圖分類號(hào):TP183 ?????????????????????????????????文獻(xiàn)標(biāo)志碼:A

        Analysis on Information Geometric Measurement

        of Internal Transfer of Deep Neural Network

        CHEN Li1,2,F(xiàn)EI Hongxiao2,LI Haifeng1?覮,HE Jiabao2,TAN Fengyun2

        (1. School of Geosciences and Info-Physics,Central South University,Changsha 410083,China;

        2. School of Software Engineering, Central South University, Changsha 410083,China)

        Abstract: When deep learning is used to deal with the computer vision tasks, under little number of new task data, the pre-trained model weight based on a very large data is trained as an initial weight to get better generalization ability. At this?point, former explanations are based on the intuitive analysis and lack of reasonable mathematical methods. In this paper, deep neural network, which trains on internal layers with fixed structure,changed into internal transfer ability in deep neural network. The changes of learning process are formalized into a mathematical expression. Considering the influence of the data set on the training process, the information geometric analysis method is used to determine the metrics and connections over manifolds of different data sets, which can realize the embedding mapping between different data sets. At the same time, the change of parameter space is also put into a manifold space to explore its common influence on learning process. Finally, a mathematical explanation is provided for the internal transfer phenomenon. Meanwhile, after the analysis and experiments, the process of internal transfer is identified as a change which can make the network search for optimal search in a wider space. Therefore, the model can obtain a relative better solution in learning process.

        Key words: deep learning; transfer learning; information geometry

        計(jì)算機(jī)視覺是人工智能非常重要的研究領(lǐng)域,視覺也是人和動(dòng)物最重要的感覺,至少有80%以上的外界信息經(jīng)視覺獲得.大數(shù)據(jù)環(huán)境下,圖像與視頻類數(shù)據(jù)增長(zhǎng)速度達(dá)到前所未有的高度.然而,Science雜志認(rèn)為現(xiàn)狀可描述為:“data-rich but analysis-poor”[1].如何學(xué)習(xí)到好的“特征”,一直是計(jì)算機(jī)視覺中的基礎(chǔ)性問題[2].傳統(tǒng)圖像識(shí)別方法中,大多通過設(shè)計(jì)者的先驗(yàn)知識(shí),手工設(shè)計(jì)特征,如SIFT[3],HOG[4]等,往往很難真正捕捉到物體的本征特征.近年來深度學(xué)習(xí)[5]方法的興起,在圖像識(shí)別和理解等諸多任務(wù)上,獲得許多令人印象深刻的成績(jī).本質(zhì)上深度學(xué)習(xí)可以看成是一種“端到端”的特征學(xué)習(xí)方法[6],借助強(qiáng)大的計(jì)算力,通過大量訓(xùn)練樣本從低層特征組合成更加抽象的高級(jí)特征來揭示事物的屬性和特征,這也是其在圖像識(shí)別應(yīng)用中成功的重要原因.

        雖然借助深度學(xué)習(xí)技術(shù)[7],圖像識(shí)別問題取得了突破性進(jìn)展,但深度學(xué)習(xí)也存在很多局限性.如果新的視覺任務(wù)上缺少大量標(biāo)注的數(shù)據(jù),通常需要消耗大量人力物力對(duì)數(shù)據(jù)進(jìn)行標(biāo)注和清洗.而且在許多特定視覺識(shí)別任務(wù)中,例如糖尿病視網(wǎng)膜病變分析,大量標(biāo)定的數(shù)據(jù)往往沒有那么容易獲得.這使得深度神經(jīng)網(wǎng)絡(luò)在小樣本學(xué)習(xí)問題上表現(xiàn)不是非常好,泛化性較差且容易過擬合.對(duì)此深度學(xué)習(xí)提供了一種遷移學(xué)習(xí)的方法,確定網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練過程中,參數(shù)不再隨機(jī)初始化,可以利用已在大庫上學(xué)習(xí)到的收斂模型,將其權(quán)值作為新任務(wù)網(wǎng)絡(luò)模型的初始值進(jìn)行再訓(xùn)練,將這種神經(jīng)網(wǎng)絡(luò)的遷移過程叫做微調(diào)[8].深度神經(jīng)網(wǎng)絡(luò)遷移學(xué)習(xí)的結(jié)果往往比直接在新任務(wù)上重新隨機(jī)初始化參數(shù)訓(xùn)練的收斂速度更快,泛化能力更強(qiáng).Abràmoff等人[9]利用深度學(xué)習(xí)和微調(diào)等方法,輕易將糖尿病視網(wǎng)膜病變檢測(cè)能力提高到專家水平.

        微調(diào)的方法也具有很強(qiáng)的技巧性,針對(duì)不同的任務(wù)需要遷移不同的信息.例如在圖像任務(wù)中,固定前面幾層權(quán)值信息,然后重新訓(xùn)練后幾層參數(shù),而在語音識(shí)別任務(wù)中,會(huì)固定后幾層參數(shù),需要重新訓(xùn)練前幾層的參數(shù).并且遷移的層數(shù)對(duì)遷移的效果也會(huì)產(chǎn)生不同的影響,Yosinski等人[10]分析,隨著固定遷移層的參數(shù)增加,識(shí)別效果會(huì)先上升然后急速下降,因此遷移學(xué)習(xí)具有不穩(wěn)定性和不確定性.深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程大多采用類梯度下降算法,雖然類隨機(jī)梯度下降算法在非凸優(yōu)化問題上對(duì)初始點(diǎn)敏感,但在深度學(xué)習(xí)中,在高維參數(shù)的情況下主要以鞍點(diǎn)的形式存在,即得到的局部最小可以近似等于全局最小[11].可是遷移學(xué)習(xí)這種表面上只影響了初始化參數(shù)而得到的效果又十分突出.現(xiàn)有的分析大多是基于直覺和特征可視化的直觀分析,認(rèn)為在大庫上的信息更加豐富,所以卷積核獲取的特征也更加豐富,對(duì)于新任務(wù)圖片的響應(yīng),只需要在原有響應(yīng)上做調(diào)整就能很輕松地適用于新任務(wù).而且由于原有豐富的特征表達(dá)能力,這種特征表達(dá)在新任務(wù)學(xué)習(xí)過程中難以獲取,但又對(duì)新任務(wù)識(shí)別具有非常大的幫助作用,這就使得微調(diào)效果變得非常好.但這種解釋太過于依賴直覺分析,缺少更好的數(shù)學(xué)解釋,這種層間變化過程很難用傳統(tǒng)統(tǒng)計(jì)學(xué)的理論進(jìn)行分析.

        信息幾何是一套研究流形內(nèi)蘊(yùn)幾何性質(zhì)變化的理論體系[12],它將概率論、統(tǒng)計(jì)學(xué)和信息論中許多概念當(dāng)作概率分布空間的幾何結(jié)構(gòu),使用微分幾何的手段進(jìn)行分析.學(xué)習(xí)過程中,深度神經(jīng)網(wǎng)絡(luò)層之間的變化可以看成是參數(shù)概率分布的改變,而這種變化也不斷受到數(shù)據(jù)帶來的信息影響,這就為使用信息幾何的方法分析深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)變化過程提供了可行性.

        綜上,本文將深度神經(jīng)網(wǎng)絡(luò)在視覺任務(wù)下,卷積核變化更新以適應(yīng)新任務(wù)的能力稱為其內(nèi)部遷移能力,并將神經(jīng)網(wǎng)絡(luò)在遷移過程中的變化進(jìn)行形式化,使用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型進(jìn)行表示.學(xué)習(xí)過程中,主要變化的是學(xué)習(xí)到的權(quán)值信息,將權(quán)值信息的變化放入到流形空間中,同時(shí)考慮樣本空間,利用信息幾何度量的方法對(duì)其進(jìn)行分析,并通過實(shí)驗(yàn)重現(xiàn)深度神經(jīng)網(wǎng)絡(luò)內(nèi)部遷移變化的過程.結(jié)果表明在大庫上學(xué)到的模型可以提供更大的參數(shù)探索空間,為深度神經(jīng)網(wǎng)絡(luò)遷移變化提供一種可能的數(shù)學(xué)解釋.

        1 ??深度神經(jīng)網(wǎng)絡(luò)內(nèi)部遷移

        1.1 ??深度神經(jīng)網(wǎng)絡(luò)符號(hào)定義

        深度神經(jīng)網(wǎng)絡(luò)通常由多個(gè)隱含層堆疊而成,輸入層所有神經(jīng)元的連接都與輸出層神經(jīng)元相連.假設(shè)有訓(xùn)練樣本(x1,y1),(x2,y2),…,(xn,yn),xn表示第 n個(gè)樣本的輸入信息,yn表示對(duì)應(yīng)的標(biāo)簽信息.神經(jīng)網(wǎng)絡(luò)由d+1層構(gòu)成,分別記為第0,1,…,d層.每層的節(jié)點(diǎn)數(shù)目分別為mi(i = 0,1,…,d) .在本文中進(jìn)一步假設(shè)第d層的節(jié)點(diǎn)數(shù)目為1,即輸出為一維數(shù)值.假設(shè)每個(gè)節(jié)點(diǎn)的激活函數(shù)表示為σ,根據(jù)需要可以選擇Sigmoid函數(shù)或者其它threshold函數(shù)等,使偏置b = x0對(duì)應(yīng)權(quán)值w0 = 1,每層線性組合統(tǒng)一為

        mij=0wj xj.神經(jīng)網(wǎng)絡(luò)最核心的要素是層與層之間的連接權(quán)重矩陣,假設(shè)第i層與第i + 1層之間的連接權(quán)重矩陣wi(i + 1) ∈Mmi × mi + 1(R)(i = 0,1,…,d-1).假設(shè)

        x是一個(gè)輸入向量,那么輸出數(shù)值為σ(WT ??????(d-1)d

        σ(WT ????????????????(d-2)(d-1)…σ(WT ??????0×1x)…)).為了表述方便,定義集合M表示與神經(jīng)網(wǎng)絡(luò)匹配的連接權(quán)重矩陣集合,W表示集合M中的一個(gè)元素,具體如下所示:

        M = Mm0 × m1(R)×…×Mmd-1 × md(R)

        W = (W0 × 1,…,W(d-1)d),Wi(i+1)∈Mmi × mi+1(R)

        (1)

        此時(shí)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程簡(jiǎn)單表述為

        Fw(x)=σ(WT ??????(d-1)dσ(WT ????????????????(d-2)(d-1)…σ(WT ??????0×1x)…))

        (2)

        1.2 ??內(nèi)部遷移學(xué)習(xí)

        在計(jì)算機(jī)視覺任務(wù)中,神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)集上學(xué)習(xí)的信息往往比在小數(shù)據(jù)集上學(xué)習(xí)的信息更加完備.通常將在ImageNet[13]上學(xué)習(xí)的模型作為新任務(wù)的預(yù)訓(xùn)練模型,使用訓(xùn)練好的模型的權(quán)值信息進(jìn)行初始化訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)并不需要發(fā)生變化.網(wǎng)絡(luò)逐層的調(diào)整權(quán)值以適應(yīng)新任務(wù)的需求,這種內(nèi)部變化的過程叫做深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部遷移學(xué)習(xí).

        為了更好地分析網(wǎng)絡(luò)的內(nèi)部遷移變化,首先將學(xué)習(xí)過程進(jìn)行數(shù)學(xué)抽象.對(duì)于訓(xùn)練樣本(x1,y1),(x2,y2),…,(xn,yn),其中數(shù)據(jù)集X = {x1,…,xn}={xi}n ???i=1,每個(gè)數(shù)據(jù)對(duì)應(yīng)相關(guān)的數(shù)據(jù)類別,數(shù)據(jù)的類別標(biāo)簽是一個(gè)用來區(qū)分?jǐn)?shù)據(jù)的映射,使用Y表示標(biāo)簽集,Y = {y1,…,yn}={yi}n ???i=1,CY表示標(biāo)簽類別數(shù)量.則上述映射過程可以表示成

        label:X→Y

        s.t.,label(xi)∈Y ????坌i = 1,…,n

        (3)

        因此給定一個(gè)數(shù)據(jù)集X,可以產(chǎn)生一個(gè)與之對(duì)應(yīng)的標(biāo)簽向量

        label(X) = (label(xi),…,label(xn))∈RCy ???(4)

        當(dāng)給定一個(gè)神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)集輸入神經(jīng)網(wǎng)絡(luò)可以得到輸出向量,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程如下所示,

        Fx(x)=(Fw(x1),…,F(xiàn)w(xn))∈RCy ????(5)

        數(shù)據(jù)集的學(xué)習(xí)可以表示成在整個(gè)假設(shè)空間中,選擇合適的目標(biāo)函數(shù),并在給定一個(gè)損失函數(shù)loss:R+→R最小的情況下,尋找神經(jīng)網(wǎng)絡(luò)的最優(yōu)連接權(quán)重矩陣,即如下的優(yōu)化問題:

        mlabel(xi)-Fw(xi))+αΩ(w)

        s.t. ???w∈m (6)

        其中Ω(w)表示正則化項(xiàng),上式可等價(jià)描述為

        Argminw∈? ? ? ? (7)

        由公式(7)可知,學(xué)習(xí)過程求解最優(yōu)解屬于一個(gè)無約束的優(yōu)化問題.如果神經(jīng)網(wǎng)絡(luò)中選擇的激活函數(shù)足夠光滑(如Sigmoid函數(shù)),或者寫成求偏導(dǎo)數(shù)的形式,可以利用既有的優(yōu)化算法,如隨機(jī)梯度下降法等實(shí)現(xiàn)求解.

        此時(shí)定義內(nèi)部遷移學(xué)習(xí)過程.給定一個(gè)神經(jīng)網(wǎng)絡(luò)如下所示:

        Fw(·)=σ(WT ??????(d-1)dσ(WT ????????????????(d-2)(d-1)…σ(WT ??????0×1x)…))

        (8)

        給定一個(gè)損失函數(shù)loss:R+→R.給定兩個(gè)數(shù)據(jù)集A,B.其中A數(shù)據(jù)集較大,表現(xiàn)在類別豐富度更多,數(shù)據(jù)量更大.具體可以表示為

        A = {a1,…,an1} = {ai}n1 ???i=1

        B = {b1,…,bn2} = {bj}n2 ???j=1

        (9)

        根據(jù)上文可得關(guān)于數(shù)據(jù)集A的學(xué)習(xí)模型如下所示:

        Argmin

        同理可得數(shù)據(jù)集B的學(xué)習(xí)模型如下所示:

        Argminw∈m(label(bj)-Fw(bj))+αΩ(w)

        (P2)

        首先求解問題 ,過程如下:

        Step 1.確定算法G;

        Step 2.確定停止準(zhǔn)則S;

        Step 3.隨機(jī)選定初始連接權(quán)重矩陣W0∈M;

        Step 4.從W0開始按照停止準(zhǔn)則S運(yùn)行算法G

        迭代,得到結(jié)果WA.

        其次求解問題(P2).為了對(duì)比內(nèi)部遷移學(xué)習(xí)變化,同時(shí)定義在新任務(wù)上隨機(jī)初始化進(jìn)行學(xué)習(xí),可以選擇兩個(gè)不同的過程.

        過程一:

        Step 1.確定算法G;

        Step 2.確定停止準(zhǔn)則S;

        Step 3.隨機(jī)選定初始連接權(quán)重矩陣W0∈M;

        Step 4.從W0開始按照停止準(zhǔn)則S運(yùn)行算法G迭代,得到結(jié)果WB.

        過程二:

        Step 1.確定算法G;

        Step 2.確定停止準(zhǔn)則S;

        Step 3.初始連接權(quán)重矩陣選定問題(P1)的結(jié)果,即是W0 :=WA;

        Step 4.從WA開始按照停止準(zhǔn)則S運(yùn)行算法G迭代,得到結(jié)果WB′.

        過程一屬于直接隨機(jī)初始化權(quán)值進(jìn)行訓(xùn)練,過程二屬于內(nèi)部遷移學(xué)習(xí),通常而言WB′模型比WB模型的泛化能力更強(qiáng),且過程二的收斂速度更快.

        2 ??內(nèi)部遷移信息幾何分析

        上文對(duì)內(nèi)部遷移學(xué)習(xí)進(jìn)行了形式化的描述,明確了遷移學(xué)習(xí)的內(nèi)涵,構(gòu)建了遷移學(xué)習(xí)的模型,但是這樣的描述只有形式上的意義,如果需要進(jìn)一步進(jìn)行可行、可操作的研究,需要對(duì)數(shù)據(jù)集和連接權(quán)重矩陣進(jìn)行幾何化的描述以簡(jiǎn)化模型并且給予最直觀的解釋.

        假設(shè)數(shù)據(jù)集先驗(yàn)位于某個(gè)分布族之中,即假設(shè)有一個(gè)分布族F,這個(gè)族構(gòu)成的流形記為MF,坐標(biāo)卡系記為f,其上的Fisher度量記為

        ds2F =F df ?i × df ?j ???????????????(10)

        根據(jù)Amari信息幾何理論[14],可以確定流形MF上的度量ds2F與相容的聯(lián)絡(luò)DF,和聯(lián)絡(luò)形式ωF以及對(duì)應(yīng)的Christoffel系數(shù)Γk ???ij,F(xiàn).

        假設(shè)數(shù)據(jù)集A的概率分布來源于分布族A,則其對(duì)應(yīng)的某些分布構(gòu)成流形MA,顯然MA是MF的子流形,假設(shè)嵌入方式為

        ?準(zhǔn):MA→MF ????????????????????????????????(11)

        根據(jù)嵌入方式的拉回,可得到流形MA的坐標(biāo)卡系為a:=φ*(f),其上的Fisher度量記為

        ds2Adai × da j = φ*(ds2F) ????????????(12)

        根據(jù)Amari信息幾何理論[14],可以確定流形MA上的度量ds2A與相容的聯(lián)絡(luò)DA,和聯(lián)絡(luò)形式ωA以及對(duì)應(yīng)的Christoffel系數(shù)Γk ???ij,A.顯然MA上的聯(lián)絡(luò)、聯(lián)絡(luò)形式和Christoffel系數(shù)還可以通過嵌入映射?準(zhǔn)的拉回得到,即

        前文已知數(shù)據(jù)集B在規(guī)模上遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)集 A的規(guī)模,且同作為計(jì)算機(jī)視覺任務(wù),假設(shè)數(shù)據(jù)集被采樣的分布在結(jié)構(gòu)上相似.這個(gè)基本的假定在數(shù)學(xué)上可用子流形來表示,即假設(shè)數(shù)據(jù)集B的概率分布來源于分布族B,某些可能分布構(gòu)成流形MB,那么上面的基本假設(shè)可以表示為一個(gè)嵌入映射

        φ:MB→MA ????????????????????????(14)

        根據(jù)嵌入方式的拉回,可得到流形MB的坐標(biāo)卡系為b:=φ*(a),其上的Fisher度量記為

        ds2B = bi × db j = φ*(ds2A) ????????????(15)

        根據(jù)Amari信息幾何理論[14],可以確定流形MB上的度量ds2B與相容的聯(lián)絡(luò)DB,和聯(lián)絡(luò)形式ωB以及對(duì)應(yīng)的Christoffel系數(shù)Γk ???ij,B.顯然MB上的聯(lián)絡(luò)、聯(lián)絡(luò)形式和Christoffel系數(shù)還可以通過嵌入映射φ的拉回得到,即

        DB = φ*(DA)

        ωB = φ*(ωA)

        Γk ???ij,B= φ*(Γk ???ij,A)

        (16)

        由流形MA到MF的嵌入和從MB到MA的嵌入

        φ:MB→MA,?準(zhǔn):MA→MF ?????????(17)

        可以產(chǎn)生一個(gè)從MB到MF的直接嵌入

        ?準(zhǔn)·φ:MB→MF ?????????(18)

        根據(jù)嵌入方式的拉回,可得到流形MB的坐標(biāo)卡系為b:= (φ·?準(zhǔn))*(f),其上的Fisher度量記為

        ds2B j,B dbi × db j = (φ·?準(zhǔn))*(ds2F) ???????(19)

        顯然MB上的聯(lián)絡(luò)、聯(lián)絡(luò)形式和Christoffel系數(shù)還可以通過嵌入映射φ·?準(zhǔn)的拉回得到,即

        DB = (φ·?準(zhǔn))*(DF)

        ωB = (φ·?準(zhǔn))**(ωF)

        Γk ???ij,B= (φ·?準(zhǔn))*(Γk ???ij,F(xiàn))

        (20)

        固定神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),那么所謂學(xué)習(xí),即確定連接權(quán)重矩陣W.一般而言,神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)個(gè)數(shù)是大規(guī)模的,具體確定一個(gè)連接權(quán)重矩陣是不現(xiàn)實(shí)的,需要對(duì)連接權(quán)重矩陣空間進(jìn)行簡(jiǎn)化.假設(shè)神經(jīng)網(wǎng)絡(luò)連接權(quán)重矩陣也落在某種分布族G之中,這個(gè)分布族構(gòu)成的流形結(jié)構(gòu)為MG,坐標(biāo)卡系為θ,其上的Fisher度量記為

        ds2GG dθi × dθ j ?????(21)

        根據(jù)Amari信息幾何理論[14],可以確定流形上的度量ds2G與相容的聯(lián)絡(luò)DG,和聯(lián)絡(luò)形式ωG以及對(duì)應(yīng)的Christoffel系數(shù)Γk ???ij,G.

        學(xué)習(xí)過程不僅與數(shù)據(jù)集相關(guān),還與神經(jīng)網(wǎng)絡(luò)的聯(lián)接分布相關(guān),因此考察學(xué)習(xí)的過程,即考察流形MA × MG,MB × MG上的曲線過程,不同的學(xué)習(xí)算法和機(jī)制對(duì)應(yīng)于曲線的不同性質(zhì).

        定理1 ??當(dāng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不變,且數(shù)據(jù)集數(shù)據(jù)量大小,以及類豐富度小于數(shù)據(jù)集A時(shí),神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)集B上獲得的連接權(quán)重矩陣即流形MB × MG為神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù) 上流形MA × MG的子流形.

        證 ??對(duì)于流形MA × MG,其上的Fisher度量為

        ds2 ????A+G = (da,dθ)gij,A ????00 ?????gij,GdaTdθT ?????(22)

        根據(jù)Amari信息幾何理論[14],可以確定流形MA × MG上的度量ds2 ????A+G與相容的聯(lián)絡(luò)DA+G,和聯(lián)絡(luò)形式 ωA+G以及對(duì)應(yīng)的Christoffel系數(shù)Γk ????????ij,A+G.它們之間顯然有如下的簡(jiǎn)單關(guān)系:

        DA+G = DA ????00 ?????DG;ωA+G = ωA ????00 ?????ωG ??(23)

        對(duì)于流形MB × MG,其上的Fisher度量為

        ds2 ????B+G = (db,dθ)gij,B ????00 ?????gij,GdbTdθT ?????????????(24)

        根據(jù)Amari信息幾何理論[14],可以確定流形MB × MG上的度量ds2 ????B+G與相容的聯(lián)絡(luò)DB+G,和聯(lián)絡(luò)形式 ωB+G以及對(duì)應(yīng)的Christoffel系數(shù)Γk ????????ij,B+G.它們之間顯然有如下的簡(jiǎn)單關(guān)系

        DB+G = DB ????00 ?????DG;ωB+G = ωB ????00 ?????ωG ??(25)

        流形MA × MG和流形MB × MG之間有自然的嵌入關(guān)系

        (φ,id):MB × MG→MA × MG(26)

        因此流形MB × MG是流形MA × MG的子流形.

        證畢.

        整個(gè)學(xué)習(xí)過程如圖1左所示,在問題(P1)中通過隨機(jī)初始化的模型W0在數(shù)據(jù)庫 上進(jìn)行訓(xùn)練得到最終模型權(quán)值WA.在問題(P2)中,過程一是使用隨機(jī)初始化模型W0重新進(jìn)行訓(xùn)練得到最后模型WB,過程二是使用得到的模型權(quán)值WA作為初始值,在數(shù)據(jù)庫B上進(jìn)行訓(xùn)練得到模型WB′.通常情況下,模型WB′比模型WB具有更好的泛化能力.

        根據(jù)定理1,以及內(nèi)部遷移信息幾何分析可知,問題(P2)的學(xué)習(xí)過程一,可當(dāng)作在MB × MG流形上進(jìn)行探索,它屬于MA × MG的子流形.因此模型隨機(jī)初始化永遠(yuǎn)也逃不出MB × MG的流形空間,模型參數(shù)在優(yōu)化過程中的探索空間有限.而通過WA進(jìn)行初始化的模型可以在整個(gè)MA × MG流形上進(jìn)行探索,則能很容易達(dá)到模型較為理想的參數(shù)WB′.整個(gè)過程可簡(jiǎn)化為如圖1右所示.

        3 ??實(shí)驗(yàn)與分析

        為了更好地體現(xiàn)不同數(shù)據(jù)集之間模型遷移的效果,選用3種計(jì)算機(jī)視覺數(shù)據(jù)集.具體實(shí)驗(yàn)設(shè)置數(shù)據(jù)集 為ImageNet[13],數(shù)據(jù)集大小約為138 G,其中包含1 281 167張圖,1 000類,每類大約1 300張.數(shù)據(jù)集B采用Cal101[15],數(shù)據(jù)集約131 M,其中包含102類,每類大約50張圖.數(shù)據(jù)集C使用Cal256[16],數(shù)據(jù)大小約1.2 G,其中包含257類,每類約110張圖片.其中數(shù)據(jù)集A數(shù)據(jù)量大小和類別數(shù)都大于數(shù)據(jù)集 B,C.根據(jù)前文分析,數(shù)據(jù)集B,C可以實(shí)現(xiàn)到數(shù)據(jù)集A的嵌入映射.同理數(shù)據(jù)集B也能變化為數(shù)據(jù)集C的嵌入映射.例如,ImageNet包含大多數(shù)Cal101中的類別,而未包含的類別可以通過形態(tài)變化[17]的方法實(shí)現(xiàn)嵌入映射.同理可實(shí)現(xiàn)Cal101嵌入映射到Cal256數(shù)據(jù)集.深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用AlexNet[18],GoogleNet[19].

        分析不同數(shù)據(jù)集上的學(xué)習(xí)問題,首先解決問題 (P1),隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,通過不斷的迭代,最終收斂得到模型WA.其次對(duì)比過程一和過程二網(wǎng)絡(luò)訓(xùn)練的差別.

        過程一通過在數(shù)據(jù)集上直接初始化網(wǎng)絡(luò)權(quán)值進(jìn)行訓(xùn)練.過程二通過在ImageNet上訓(xùn)練得到的模型WA的權(quán)值進(jìn)行初始化,然后進(jìn)行微調(diào).為了更好地分析大庫對(duì)小庫的影響,再次通過在數(shù)據(jù)集Cal256上訓(xùn)練得到的模型作為新任務(wù)Cal101的初始化值進(jìn)行訓(xùn)練.圖2表示Alexnet網(wǎng)絡(luò)在不同數(shù)據(jù)集和情況下的表現(xiàn),圖3所示GoogleNet網(wǎng)絡(luò)在幾種情況下的表現(xiàn).分析實(shí)驗(yàn)結(jié)果可知,在AlexNet網(wǎng)絡(luò)中,對(duì)于Cal101數(shù)據(jù)集而言,隨機(jī)初始化訓(xùn)練的網(wǎng)絡(luò)迭代約60輪左右時(shí)收斂,且在測(cè)試集上的準(zhǔn)確率為73.275 9%.而通過模型對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),可以發(fā)現(xiàn)網(wǎng)絡(luò)在迭代40次左右時(shí)已經(jīng)開始收斂,且在測(cè)試集上的準(zhǔn)確率為90.625%,遠(yuǎn)超過重新訓(xùn)練權(quán)值的結(jié)果,具有非常好的泛化能力.即使是通過Cal256數(shù)據(jù)集得到的網(wǎng)絡(luò)模型進(jìn)行微調(diào),最終也能得到比直接初始化網(wǎng)絡(luò)得到的結(jié)果更好.

        同理對(duì)比圖3,GoogleNet的最終正確率雖跟AlexNet在各個(gè)數(shù)據(jù)集上不同,但都表現(xiàn)出同樣的性質(zhì).通過在大數(shù)據(jù)集上學(xué)習(xí)得到的模型對(duì)小數(shù)據(jù)集進(jìn)行微調(diào),模型可以得到比直接在小數(shù)據(jù)集上學(xué)習(xí)更好的表現(xiàn).具體在各個(gè)任務(wù)上,各網(wǎng)絡(luò)最終的準(zhǔn)確率如表1所示.

        通過對(duì)比隨機(jī)初始化訓(xùn)練的網(wǎng)絡(luò)與微調(diào)學(xué)習(xí)方法的網(wǎng)絡(luò),還可以發(fā)現(xiàn)在學(xué)習(xí)過程中使用微調(diào)的網(wǎng)絡(luò),訓(xùn)練誤差和測(cè)試誤差下降速度非???,并且在網(wǎng)絡(luò)開始收斂時(shí),誤差的波動(dòng)都較小.這些實(shí)驗(yàn)結(jié)果都說明了,通過在大數(shù)據(jù)集上學(xué)習(xí)的模型作為新任務(wù)的初始化權(quán)值信息,可以使得模型的參數(shù)探索的空間更大,使之能找到相對(duì)較優(yōu)的結(jié)果.

        4 ??結(jié) ??論

        深度神經(jīng)網(wǎng)絡(luò)的內(nèi)部遷移過程本質(zhì)上只是參數(shù)的初始化方法不同.根據(jù)Im分析[20],即使得到的局部最小值不同,其表現(xiàn)的泛化能力并沒有太大的差異,這與Dauphin等[21]分析的結(jié)果相符.然而通過大數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,往往可以得到一個(gè)更好的結(jié)果.本文通過形式化整個(gè)學(xué)習(xí)過程,將這種參數(shù)信息的變化放入流形空間中.在考慮參數(shù)變化的同時(shí),也融合了樣本的分布信息.通過信息幾何理論對(duì)學(xué)習(xí)過程中流形的變化進(jìn)行討論.分析可得大數(shù)據(jù)集下訓(xùn)練的網(wǎng)絡(luò)作為權(quán)值更新,與小數(shù)據(jù)集上重新訓(xùn)練相比,隱含的包含了原樣本的數(shù)據(jù)空間,使得其具備更大的探索空間且更容易找到一個(gè)更好的模型參數(shù).通過多組實(shí)驗(yàn)對(duì)比重現(xiàn)這一過程,該分析也為深度神經(jīng)網(wǎng)絡(luò)內(nèi)部遷移過程提供了一種可能的數(shù)學(xué)解釋.并且在深度遷移學(xué)習(xí)問題中有關(guān)遷移變化過程中定量的分析還缺少合理的手段,該方法可進(jìn)一步探究深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過程中獲取的有用信息量,以及相對(duì)應(yīng)丟失的冗余信息量,探索網(wǎng)絡(luò)學(xué)習(xí)過程中的不變性分析,試圖打開學(xué)習(xí)過程的黑盒,實(shí)現(xiàn)不同應(yīng)用場(chǎng)景下又快又準(zhǔn)的遷移.

        參考文獻(xiàn)

        [1] ??CLERY D,VOSS D. All for one and one for all[J]. Science,2005,308(5723):809—809.

        [2] ???DENèVE S,MACHENS C K. Efficient codes and balanced networks[J]. Nature Neuroscience,2016,19(3):375.

        [3] ??NG P C,HENIKOFF S. SIFT: predicting amino acid changes that affect protein function[J]. Nucleic Acids Research,2003,31(13):3812—3814.

        [4] ??DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2005:886—893.

        [5] ??HINTON G E,OSINDERO S,TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation,2014,18(7):1527—1554.

        [6] ??LEVINE S,F(xiàn)INN C,DARREL T,et al. End-to-end training of deep visuomotor policies[J]. Journal of Machine Learning Research,2016,17(1):1334—1373.

        [7] ??LECUN Y,BENGIO Y,HINTON G. Deep learning[J]. Nature,2015,521(7553):436—444.

        [8] ??OUYANG W,WANG X,ZHANG C,et al. Factors in fine tuning deep model for object detection with long-tail distribution[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2016:864—873.

        [9] ??ABRàMOFF M D,LOU Y,ERGINAY A,et al. Improved automated detection of diabetic retinopathy on a publicly available dataset through integration of deep learning[J]. Investigative Ophthalmology & Visual Science,2016,57(13):5200.

        [10] YOSINSKI J,CLUNE J,BENGIO Y,et al. How transferable are features in deep neural networks?[C]//Advances in Neural Information Processing Systems 2014. 2014: 3320-3328.

        [11] ?DAUPHIN Y,PASCANU R,GULCEHRE C,et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[J]. Mathematics,2014,111(61):2475—2485.

        [12] AMARI S I. Information geometry of statistical inference-an overview[C]//Information Theory Workshop,2002. Proceedings of the 2002 IEEE. IEEE,2002: 86-89.

        [13] ?DENG J,DONG W,SOCHER R,et al. ImageNet: A large-scale hierarchical image database[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2009:248—255.

        [14] AMARI S,NAGAOKA H. Methods of information geometry[M]. American Mathematical Society,2000:13-206.

        [15] ?LI F F,F(xiàn)ERGUS R,PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding,2007,106(1):59-70.

        [16] ?GRIFFIN G,HOLUB A,PERONA P. Caltech-256 object category dataset[EB/OL]. http://www.vision.caltech.edu/Image_Datasets/Caltech101,April 5,2006.

        [17] SCHMITZER B,SCHNORR C. Globally optimal joint image segmentation and shape matching based on Wasserstein modes[J]. Journal of Mathematical Imaging & Vision,2015,52(3):436—458.

        [18] ?KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097—1105.

        [19] ?SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2015:1—9.

        [20] IM D J,TAO M,BRANSON K. An empirical analysis of the optimization of deep network loss surfaces[J]. ArXiv Preprint ArXiv:1612.04010,2016.

        [21] DAUPHIN Y N,PASCANU R,GULCEHRE C,et al. Identifying and attacking the saddle point problem in high-dimensional non-convex optimization[C]// International Conference on Neural Information Processing Systems. MIT Press,2014:2933-2941.

        猜你喜歡
        遷移學(xué)習(xí)深度學(xué)習(xí)
        遷移學(xué)習(xí)研究綜述
        從認(rèn)知角度探討大學(xué)英語網(wǎng)絡(luò)教學(xué)模式
        基于多特征融合的跨域情感分類模型研究
        奇異值分解與移移學(xué)習(xí)在電機(jī)故障診斷中的應(yīng)用
        有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        欧美一区二区三区激情| 亚洲av推荐网站在线观看| 国产免费操美女逼视频| 日本不卡高字幕在线2019| 狼人青草久久网伊人| 2019nv天堂香蕉在线观看| 国产精品久久久久久久妇| 欧美成人看片黄a免费看| 又爽又黄无遮挡高潮视频网站| 国产极品喷水视频| av人妻在线一区二区三区| 国产精选自拍视频网站| 又大又粗又爽18禁免费看| 极品熟妇大蝴蝶20p| 日韩少妇人妻一区二区| 婷婷丁香开心五月综合| 午夜不卡无码中文字幕影院| 亚洲日本中文字幕天天更新| 色综合久久加勒比高清88| 免费av在线视频播放| 精品亚洲第一区二区三区| 不卡日韩av在线播放| 97人人模人人爽人人少妇 | 亚洲精品国精品久久99热一| 久国产精品久久精品国产四虎 | 国产人成无码视频在线| 中文字幕a区一区三区| 国产一区亚洲二区三区极品 | 亚洲欧美日韩精品中文乱码| 韩国日本在线观看一区二区| 精品女同一区二区三区| 国产成人亚洲综合无码品善网| 国产精品99久久久久久宅男| 国产AV秘 无码一区二区三区| 亚洲精品综合中文字幕组合| 噜噜综合亚洲av中文无码| 成人无码网www在线观看| 久久久久国产精品免费免费搜索| 好看午夜一鲁一鲁一鲁| 国产三级精品三级在线专区| 麻豆免费观看高清完整视频|