亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力的權(quán)重分配機制

        2020-11-16 10:25:50張亞飛
        計算機技術(shù)與發(fā)展 2020年9期
        關(guān)鍵詞:約束注意力神經(jīng)元

        張亞飛

        (中國石油大學(華東) 計算機科學與技術(shù)學院,山東 青島 266580)

        0 引 言

        近年來,神經(jīng)網(wǎng)絡(luò)在圖像分類和目標識別領(lǐng)域取得了巨大的成功[1-3]。然而,研究人員對于提升準確度的追求沒有改變。因此針對神經(jīng)網(wǎng)絡(luò)的各種優(yōu)化方法層出不窮,然而已有的算法大多針對具體的問題進行調(diào)參,對于通用框架的改進則相對較少。第一個原因是普適性的解決框架難以找到;第二個原因是在實際問題中往往面對的是具體問題,需要針對特定問題進行偏置歸納以便使網(wǎng)絡(luò)更符合真實數(shù)據(jù)集。

        在深度學習框架設(shè)計中有一個基本原則是進行稀疏學習,使用較少的參數(shù)來表征數(shù)據(jù)特征,從而達到良好的抽象效果和泛化效果。例如針對權(quán)重的L1[4]和L2[5]正則化,L1正則化針對權(quán)重絕對值之和進行約束,使其盡可能小,L2正則化針對權(quán)重的平方之和的平方根進行約束,使其權(quán)重值更小,這也就限制了多項式中某些分量的影響,相當于減少參數(shù)個數(shù)。然而L1和L2正則化僅僅是針對其所約束的權(quán)重矩陣的,然而針對更高一層級的同層之間的神經(jīng)元,以及更大范圍的神經(jīng)層則沒有相應(yīng)的稀疏約束來實現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)的稀疏化。

        因此,設(shè)計針對網(wǎng)絡(luò)的稀疏性約束對于提升網(wǎng)絡(luò)的泛化能力具有很大的作用,然而普通的數(shù)值型約束針對網(wǎng)絡(luò)結(jié)構(gòu)并沒有很好的約束效果,而且如果基于人為設(shè)計進行權(quán)重分配,那么就會因為需要設(shè)計的超參數(shù)太多而導(dǎo)致學習效果不佳,因此更好的分配方式是采用自動化權(quán)重分配,即權(quán)重自學習的方式。目前最好的自學習方式是使用神經(jīng)網(wǎng)絡(luò)。同樣,可以利用神經(jīng)網(wǎng)絡(luò)的這個特點來學習權(quán)重分配函數(shù)。

        因此,文中提出了一種可學習的權(quán)重分配機制,與注意力機制相似,該機制為神經(jīng)元與神經(jīng)元之間分配權(quán)重,為并行化的神經(jīng)層與神經(jīng)層之間分配權(quán)重。具體的做法是使用一個多層神經(jīng)網(wǎng)絡(luò)對權(quán)重分配函數(shù)進行學習。而學習方式有別于普通的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式,首先只是單純訓(xùn)練一個目標網(wǎng)絡(luò),訓(xùn)練完成后在網(wǎng)絡(luò)中添加權(quán)重分配網(wǎng)絡(luò),進而固定目標網(wǎng)絡(luò)的參數(shù),針對權(quán)重分配網(wǎng)絡(luò)進行訓(xùn)練,迭代訓(xùn)練目標網(wǎng)絡(luò)和權(quán)重分配網(wǎng)絡(luò)直至效果最優(yōu)。

        創(chuàng)新點:針對神經(jīng)元在設(shè)計過程中采用未對同層神經(jīng)元之間進行權(quán)重區(qū)分的問題,采用注意力機制對其進行同層權(quán)重分配,通過強調(diào)或者弱化神經(jīng)元學習到的特征的方式來提高神經(jīng)網(wǎng)絡(luò)的精度;提出一種新的針對于注意力機制的訓(xùn)練方法,即循環(huán)迭代訓(xùn)練,首先訓(xùn)練常規(guī)神經(jīng)網(wǎng)絡(luò)關(guān)系層,然后訓(xùn)練注意力層,迭代循環(huán),直至目標函數(shù)收斂。

        1 相關(guān)工作

        文中的主要工作基于注意力機制和圖卷積神經(jīng)網(wǎng)絡(luò),因此接下來對這兩個領(lǐng)域的工作進行介紹。

        1.1 注意力機制

        注意力機制受人的視覺認知啟發(fā),人的視覺在處理圖像信息的時候并不總是關(guān)注全局信息,而是根據(jù)任務(wù)目標來重點關(guān)注某個具體的區(qū)域獲取最有用的信息?;趫D像上不同區(qū)域的信息來建立內(nèi)部聯(lián)系[6]指導(dǎo)注意力的轉(zhuǎn)移和決策。作為注意力機制的基礎(chǔ),人眼的注意力已經(jīng)從神經(jīng)學和認知學上得到了充分的研究,圖像中最低層級的信息在視覺注意力中起著重要的作用[7],同時人眼關(guān)注的圖像的區(qū)域與具體的任務(wù)目標具有很強的相關(guān)性[8-9]?;诖?,Volodymyr將注意力應(yīng)用于視覺圖像處理來縮減網(wǎng)絡(luò)規(guī)模進而降低計算資源消耗,這項工作首次將注意力機制引入深度學習框架中[10]。在注意力機制展現(xiàn)其卓越的性能之后,越來越多的學者將注意力機制納入其研究領(lǐng)域進行創(chuàng)新和發(fā)展,作為注意力機制的一個方向,自注意力機制已經(jīng)被成功應(yīng)用于閱讀理解、文本摘要等任務(wù)中[11-12]。

        1.2 圖卷積神經(jīng)網(wǎng)絡(luò)

        在圖卷積神經(jīng)網(wǎng)絡(luò)中,受限于圖上邊的存在依賴于具體問題的特性,因此一般情況下在進行圖卷積操作時會輸入一個全局的鄰接矩陣來表征圖上節(jié)點與節(jié)點的連接關(guān)系。在消息傳遞算法[13]中,每個節(jié)點狀態(tài)的更新是基于該節(jié)點的鄰居節(jié)點的狀態(tài),然而如何知道其鄰居是誰,這種情況下就需要用到鄰接矩陣來獲取該節(jié)點的鄰居信息以及存在的邊信息。而鄰接矩陣通常是作為全局信息而存在的。那么受此啟發(fā)是否可以將這種針對數(shù)據(jù)之間的鄰接矩陣約束,或者也可以稱之為稀疏約束,因為其相對于全連接形式來說,在信息與信息的關(guān)聯(lián)性上具有很大的稀疏性,反映到神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上就是,神經(jīng)元與神經(jīng)元之間的連接并不需要全連接的形式,更好的方法是只選取其中重要信息的方法,就可以達到一種優(yōu)化的效果。類似于在權(quán)重矩陣中,有L1正則化和L2正則化對權(quán)重矩陣進行稀疏化約束。

        然而針對更高層級,神經(jīng)元與神經(jīng)元的稀疏激活約束,神經(jīng)層與神經(jīng)層之間的稀疏約束還沒有方法涉及到相關(guān)方面。DropOut和DropConnect[14],可近似地看作神經(jīng)元之間的稀疏約束,通過屏蔽部分神經(jīng)元使其不工作來實現(xiàn),但是其具有很大的隨機性,無法獲取到一個全局有效的信息對神經(jīng)元的激活性或者稀疏性進行約束,而稀疏性約束對于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來說同樣是重要的[15]。

        在常規(guī)網(wǎng)絡(luò)中并沒有針對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所做的稀疏性約束或者稱之為神經(jīng)元權(quán)重分配機制,針對于特征選擇器所選擇出來的特征沒有施加權(quán)重系數(shù),即其對于最終結(jié)果的貢獻度,因此,平等對待并不能達到最優(yōu)的效果。為了解決這個問題,提出新的權(quán)重分配機制來獎勵重要的特征,減少低貢獻的特征權(quán)重?;谧⒁饬C制,通過神經(jīng)網(wǎng)絡(luò)來自動化擬合權(quán)重分配函數(shù),分別對同層的神經(jīng)元和不同的神經(jīng)層之間進行權(quán)重分配。其最終目的是將具有并行關(guān)系的神經(jīng)元或者神經(jīng)層看作具有競爭注意力關(guān)系的目標,對其進行自適應(yīng)權(quán)重分配。

        2 權(quán)重分配模型

        針對注意力機制可以針對數(shù)據(jù)進行合理分配權(quán)重的特性,其核心原理是從大量信息中找到目標信息。按照已有的研究總結(jié)如下:加權(quán)可以作用在原圖上;加權(quán)可以作用在空間尺度上,給不同空間區(qū)域加權(quán)[16];加權(quán)可以作用在channel尺度上,給不同的通道特征加權(quán)[17];加權(quán)可以作用在不同時刻的歷史特征上,結(jié)合循環(huán)結(jié)構(gòu)添加權(quán)重[18]。上述研究證明了注意力機制在神經(jīng)網(wǎng)絡(luò)里邊的廣泛應(yīng)用,然而,更本質(zhì)上來說,它們針對的數(shù)據(jù)處理結(jié)構(gòu)都有一個共同的特點,即上一步處理出來的數(shù)據(jù)對于下一步數(shù)據(jù)處理模塊的重要程度是不同的。即忽略了特征與特征之間的關(guān)系。因此文中提出的是一個通用的模型優(yōu)化方法,即基于注意力機制對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的稀疏性進行約束。

        在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上,權(quán)重分配主要體現(xiàn)在對下一步處理具有平行關(guān)系的輸入上,因此,在從整個神經(jīng)網(wǎng)絡(luò)處理流程來看,其所包含的是一大的平行模塊里邊包含著一個一個小的并行模塊。因為最終是通過神經(jīng)網(wǎng)絡(luò)計算出來一個損失值,優(yōu)化目標也是一個。最終其中的各種大的小的并行模塊必然要匯聚在一起,然而傳統(tǒng)上,它們單純以一種簡單線性相加的方式來匯聚,可能在某些網(wǎng)絡(luò)設(shè)計的時候考慮多個優(yōu)化目標是對其設(shè)置一個經(jīng)驗參數(shù)用來平衡不同優(yōu)化目標之間的比例關(guān)系,但更具體,更深入網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部的權(quán)重分配關(guān)系卻并沒有得到充分研究。在此將借助注意力機制來對此進行權(quán)重分配和研究。

        要在實際計算中準確進行注意力分配,首先要了解神經(jīng)網(wǎng)絡(luò)的具體設(shè)計流程,或者也可以稱之為數(shù)據(jù)處理流程,然后進行逐層解析,在神經(jīng)網(wǎng)絡(luò)中最基本的處理元素是權(quán)重矩陣,而針對于權(quán)重矩陣的稀疏性約束已經(jīng)有了L1和L2正則化項可以選擇,接下來要面對全連接模塊權(quán)重分配。

        由于全連接[19]是關(guān)注信息過多,對于輸入數(shù)據(jù)的處理并不能有效地區(qū)分重要的和非重要的數(shù)據(jù),因此在處理過程中針對非重要的數(shù)據(jù)和重要的數(shù)據(jù)以同等程度對待會引出一個問題,即非重要的數(shù)據(jù)會對重要數(shù)據(jù)造成干擾以致神經(jīng)網(wǎng)絡(luò)無法進一步提高擬合精度。

        而在針對性解決問題時,知道全連接層中前一層的每一個神經(jīng)元對于下一層的每一個神經(jīng)元所起的作用是不一樣的,而在當前的處理中,它們是以一種均等的方式輸入下一層,而在此要做的是基于注意力機制對其進行自學習形式的權(quán)重分配,通過外接神經(jīng)網(wǎng)絡(luò)的形式來進行權(quán)重分配函數(shù)的學習。即實現(xiàn)函數(shù):

        W=f1(v1,v2,…,vn)

        (1)

        N1_input=V*W

        (2)

        其中,W表示全連接層中所有連接的權(quán)重向量,f表示輸入與權(quán)重之間的映射函數(shù),即注意力分配函數(shù),在這里,由于神經(jīng)網(wǎng)絡(luò)對于函數(shù)的擬合性較好,在此采用外接神經(jīng)網(wǎng)絡(luò)的形式來逼近該注意力分配函數(shù)。

        圖1分別表示DropOut,DropConnect和文中方法針對網(wǎng)絡(luò)連接中的權(quán)重調(diào)整,DropOut和DropConnect僅僅是針對不同的連接隨機進行屏蔽,截斷相應(yīng)的數(shù)據(jù)流。而文中的自適應(yīng)權(quán)重分配方法則針對神經(jīng)網(wǎng)絡(luò)的各個連接設(shè)置權(quán)重來強化或者抑制某些數(shù)據(jù)流信息的影響。這種動態(tài)的調(diào)整是根據(jù)數(shù)據(jù)流內(nèi)容而不是隨機進行,更有助于提升網(wǎng)絡(luò)的泛化性能。

        在訓(xùn)練階段,由于文中的注意力處理模塊時外接神經(jīng)網(wǎng)絡(luò)而存在,在訓(xùn)練階段將采用迭代訓(xùn)練的方式。首先將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的注意力網(wǎng)絡(luò)全部屏蔽,單獨對于原始網(wǎng)絡(luò)進行充分訓(xùn)練,并優(yōu)化相應(yīng)超參數(shù)以達到最優(yōu)的目標效果。第二步將注意力網(wǎng)絡(luò)添加進入主網(wǎng)絡(luò)中,固定主網(wǎng)絡(luò)的所有參數(shù),單獨針對于注意力網(wǎng)絡(luò)進行訓(xùn)練直到效果最優(yōu),然后固定注意力網(wǎng)絡(luò)的參數(shù)優(yōu)化主網(wǎng)絡(luò)的參數(shù)。然后迭代訓(xùn)練直到結(jié)果的精度不變?yōu)橹?,最后將主網(wǎng)絡(luò)和注意力網(wǎng)絡(luò)參數(shù)同時設(shè)置為可學習狀態(tài)進而進行最后的微調(diào)。

        3 實驗過程

        在實驗中,使用TensorFlow來實現(xiàn)文中方法,使用開源代碼以及預(yù)訓(xùn)練好的模型,在模型中相應(yīng)的模塊上添加設(shè)計的模塊,進而進行迭代訓(xùn)練。而在對比實驗中,以原有實驗精度為基礎(chǔ),發(fā)現(xiàn)所提出的模型對原有模型的精度具有明顯的提升作用。

        表1展示了針對各個不同數(shù)據(jù)集所設(shè)計的深度學習模型不同層的神經(jīng)元數(shù)量以及施加在其上的注意力矩陣大小,其中結(jié)構(gòu)上第一個數(shù)字表示輸入的數(shù)據(jù)特征數(shù),中間的數(shù)字是隱層神經(jīng)元數(shù)目,后邊的數(shù)字是輸出向量維數(shù),用于和向量化的標簽進行比較。

        表1 針對不同數(shù)據(jù)集的網(wǎng)絡(luò)參數(shù)配置

        針對于這種單隱層神經(jīng)網(wǎng)絡(luò),采用全連接作為注意力分配層,使用sigmoid激活函數(shù)生成注意力分配矩陣,然后將注意力分配矩陣與隱層輸出做內(nèi)積,在輸出層輸出結(jié)果。

        對比了WDBP(weight decay back propagation)、WEBP(weight elimination back propagation)和SGLBP(smoothing group lasso BP)方法。它們作為對比算法將和文中算法一起進行對比實驗,同時采用相同的數(shù)據(jù)集和模型配置,不同的地方在于每種算法各自采用的稀疏化方法不一樣。從表2中可以看出,在大部分情況下,文中方法在該分類任務(wù)針對該數(shù)據(jù)集具有更好的分類效果,但是在耗時上卻比較多,原因在于網(wǎng)絡(luò)設(shè)計中添加了基于注意力的權(quán)重分配層,相比于原來的網(wǎng)絡(luò)多了一些需要進行訓(xùn)練的參數(shù),因此,計算量相比于其他網(wǎng)絡(luò)要大得多,最終導(dǎo)致比其他網(wǎng)絡(luò)耗時更長。

        而且從表2中可以看出,在部分情況下該網(wǎng)絡(luò)的泛化能力更好,在訓(xùn)練階段的準確率相比于測試階段并沒有高出特別多,同時測試階段的準確率達到了更好的效果,即訓(xùn)練準確率和測試準確率相差較小,同時訓(xùn)練準確率已經(jīng)達到了一個比較高的水平,說明網(wǎng)絡(luò)并沒有欠擬合。

        從表2中可以看出,WEBP、SGLBP和文中方法具有相似的訓(xùn)練準確度,同時都比WDBP高。然而,文中方法具有最好的測試準確度,表明該方法具有更好的泛化能力。

        表2 不同算法結(jié)果比較

        實驗中僅僅是使用這些方法進行了對比,在實際應(yīng)用中,完全可以將正則化方法中最好的SGLBP方法與文中方法進行結(jié)合從而更好地提高算法精度。因為相比于正則化方法,文中提出的方法針對的是神經(jīng)元的權(quán)重分配問題,而正則化方法則是針對于稀疏化神經(jīng)網(wǎng)絡(luò),針對神經(jīng)元進行動態(tài)衰減,在其權(quán)重低于閾值之后進行裁剪,避免了DropOut的隨機性。

        上述實驗為針對簡單神經(jīng)網(wǎng)絡(luò)并行神經(jīng)元的權(quán)重分配,基于此,可以發(fā)現(xiàn)注意力機制是一個比較好的權(quán)重分配方法,而在具體實現(xiàn)上擁有諸多變體可供選擇,針對不同的任務(wù)可以選用不同的具體實現(xiàn)形式。而文中提出的權(quán)重分配方法正是基于此,由于注意力的集中性,可以針對每個神經(jīng)元或者神經(jīng)層的輸入特征進行權(quán)重調(diào)節(jié),因此,提出的更為泛化的自適應(yīng)權(quán)重調(diào)節(jié)機制能夠有效提升模型表現(xiàn)性能,將單純針對神經(jīng)網(wǎng)絡(luò)輸入輸出的注意力分配拓展到了整個神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)空間,是對神經(jīng)網(wǎng)絡(luò)正則化方法的有效補充。而且從實驗結(jié)果來看,對于提升神經(jīng)網(wǎng)絡(luò)的泛化能力同樣具有很大的作用。同時,從實驗結(jié)果也可以看出,該方法是以增加計算資源的消耗,提升網(wǎng)絡(luò)模型的復(fù)雜性來提高神經(jīng)網(wǎng)絡(luò)的表現(xiàn)的,因此需要進一步提升算法效率。

        4 結(jié)束語

        提出了一種自適應(yīng)的權(quán)重分配方法,并針對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進行了詳細分析和對比實驗。實驗結(jié)果顯示,該方法對于不同任務(wù)均有相應(yīng)的性能和準確度的提高。然而該方法還存在一些問題,在其計算權(quán)重分配時是通過神經(jīng)網(wǎng)絡(luò)模塊來計算,增加了較多的計算開銷,需要進一步提出更為有效率的權(quán)重分配方法。同時可以參考人類的視覺規(guī)律,基于信息熵的角度來進行自適應(yīng)權(quán)重分配策略的研究。對于未來的工作,可以將這種自適應(yīng)的權(quán)重分配用于模型的自適應(yīng)稀疏化,因為表達的稀疏化有助于提升網(wǎng)絡(luò)的泛化能力,同時,針對注意力機制進行進一步壓縮處理,對不同權(quán)重進行差距放大處理,通過訓(xùn)練得出權(quán)重分布,然后基于一定閾值將網(wǎng)絡(luò)進行剪枝以實現(xiàn)自動化的模型壓縮,同時平衡模型大小與精確度之間的關(guān)系。同時,可以利用這種自適應(yīng)權(quán)重分配對于未知的未知特征之間的關(guān)系進行挖掘,找出其潛在的函數(shù)映射關(guān)系。而且,由于整個訓(xùn)練網(wǎng)絡(luò)可以表征為一個圖,訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可以表征為一個一個模塊,網(wǎng)絡(luò)對于數(shù)據(jù)的處理過程可以表征為模塊與模塊之間的連接,這種連接使用鄰接矩陣來進行表征,進而可以使用該方法對于鄰接矩陣進行優(yōu)化,從而優(yōu)化整個網(wǎng)絡(luò)數(shù)據(jù)處理流程。

        猜你喜歡
        約束注意力神經(jīng)元
        讓注意力“飛”回來
        《從光子到神經(jīng)元》書評
        自然雜志(2021年6期)2021-12-23 08:24:46
        “碳中和”約束下的路徑選擇
        約束離散KP方程族的完全Virasoro對稱
        躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        A Beautiful Way Of Looking At Things
        基于二次型單神經(jīng)元PID的MPPT控制
        毫米波導(dǎo)引頭預(yù)定回路改進單神經(jīng)元控制
        適當放手能讓孩子更好地自我約束
        人生十六七(2015年6期)2015-02-28 13:08:38
        乌克兰粉嫩xxx极品hd| 日日噜噜噜夜夜爽爽狠狠视频| 精品一区二区三区女同免费| 亚洲国产av一区二区四季| 日本午夜精品一区二区三区电影| 日本午夜免费福利视频| 91精彩视频在线观看| 青青草一级视频在线观看| 在线久草视频免费播放| 国产香蕉视频在线播放| 日韩人妻无码一区二区三区久久| 亚洲中文字幕无码专区| 乱人伦人妻中文字幕不卡| 在线观看国产av一区二区| 黑人老外3p爽粗大免费看视频| 亚洲av无码国产精品色软件下戴| 欧美黑人性色黄在线视频| 天堂av在线播放观看| 国产精品一区二区三区卡| 日本一卡2卡3卡四卡精品网站| 中文字幕久久久久久精| 91蜜桃国产成人精品区在线| 亚洲av少妇高潮喷水在线| 免费网站内射红桃视频| 亚洲人成网站18禁止久久影院| 中文人妻无码一区二区三区信息| 人妻少妇粉嫩av专区一| 喷水白浆视频在线观看| 亚洲色欲色欲大片www无码| 吃奶还摸下面动态图gif| 91福利国产在线观一区二区| 视频一区二区三区国产| 国产精品无码人妻在线| 国精品无码一区二区三区在线| 久久综合视频网站| 男女啪啪动态视频在线观看 | 日韩精人妻无码一区二区三区| 日本高清在线一区二区三区| 国产日产欧产精品精品蜜芽| 少妇丰满大乳被男人揉捏视频| 91麻豆国产香蕉久久精品|