大連理工大學(xué) 劉朋碩
強化學(xué)習(xí)到目前為止,已經(jīng)有了幾十年的發(fā)展歷程了,這是一種集結(jié)理解能力、自動指向目標(biāo)以及決策為一體的計算方式,近幾年來對強化學(xué)習(xí)有了新一步的突破,傳統(tǒng)的強化學(xué)習(xí)在解決簡單問題的時候有出色的表現(xiàn),但是在大規(guī)模問題中就存在較大的不確定性,因此,加權(quán)密集連接卷積的深度強化學(xué)習(xí)方法值得被提倡,也吸引了越來越多的人去研究這種深度強化學(xué)習(xí)方法,從而達(dá)到事半功倍的效果。
在現(xiàn)實生產(chǎn)與生活活動中,如果遇到了大規(guī)模的問題,傳統(tǒng)的強化學(xué)習(xí)在處理這些大規(guī)模問題的時候只能夠解決表面,但是仍舊會出現(xiàn)維度災(zāi)難,尤其是實際生活中存在問題更是多種多樣,需要更好的方法去解決,這也就是深度強化學(xué)習(xí)法,這種方法有多層單元組合,通過這種特征組合的方式,將原始的輸入形式逐漸轉(zhuǎn)化為淺層的特征、中層的特征以及高層的特征,這便是整個目標(biāo)任務(wù)的過程,如果將深度學(xué)習(xí)和強化學(xué)習(xí)進(jìn)行科學(xué)有效的結(jié)合,并且通過深度化的學(xué)習(xí)動進(jìn)行數(shù)據(jù)的抽象表征,以此進(jìn)行激勵,從而有效的彌補傳統(tǒng)的強化學(xué)習(xí)中發(fā)現(xiàn)的不足。
深度強化學(xué)習(xí)方法可以在不同的實際環(huán)境中使用,這種學(xué)習(xí)方法的適應(yīng)性較強,但是如果卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)太少,那么游戲的狀態(tài)和信息是無法完全提取出來的。卷積神經(jīng)網(wǎng)絡(luò)可以讓網(wǎng)絡(luò)朝著更深或者更寬的方向發(fā)展,隨著信息化技術(shù)的發(fā)展和網(wǎng)絡(luò)科技的進(jìn)步,網(wǎng)絡(luò)層數(shù)不斷在加深,節(jié)點不多增加,需要計算的量也有了成倍數(shù)的增加,這個時候使用加權(quán)密集連接卷積的深度強化學(xué)習(xí)方法就會起到更加理想的效果。
對于深度強化學(xué)習(xí)方法的整體框架,首先,提出的問題成為樣本數(shù)據(jù)被輸入,隨后變?yōu)槌跏蓟疃染W(wǎng)格參數(shù),參數(shù)完成后再對訓(xùn)練樣本進(jìn)行科學(xué)的預(yù)測,根據(jù)預(yù)測得到的結(jié)果分析樣本之間是否存在偏差,如果偏差過大,就要根據(jù)實際情況擴大訓(xùn)練樣本的次數(shù),如果偏差不大就可以繼續(xù)分析樣本之間存在的方差情況,如果方差過大,那么經(jīng)過正規(guī)化的處理方式進(jìn)行訓(xùn)練樣本的預(yù)測工作,如果方差不大,接下來就可以直接設(shè)置深度學(xué)習(xí)的網(wǎng)格超參數(shù),可以使用蒙特卡洛模擬數(shù)據(jù)抽樣對網(wǎng)絡(luò)中的數(shù)據(jù)流進(jìn)行一次預(yù)測,隨后設(shè)置好強化學(xué)習(xí)匯報的函數(shù),根據(jù)函數(shù)的表現(xiàn)運用深度強化學(xué)習(xí)的策略對當(dāng)前擁有的資源做好分析工作,最終得到結(jié)果[1]。
與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,加權(quán)密集連接卷積在傳統(tǒng)的模式基礎(chǔ)上是一種全新的網(wǎng)絡(luò)連接模式,不同的層次之間需要進(jìn)行跨層連接,網(wǎng)絡(luò)中前后兩層信號可以在輸出層和輸入層之間進(jìn)行高速的流通,加權(quán)密集連接卷積網(wǎng)絡(luò)能夠?qū)⑵渲兴械膶右詢蓛傻姆绞竭B接在一起,這樣網(wǎng)絡(luò)當(dāng)中每一層都可以去接受之前所有層表現(xiàn)出來的特征,并且以此進(jìn)行輸入操作。在密集連接狀態(tài)下的網(wǎng)絡(luò)結(jié)構(gòu)中,每一層特征圖都需要經(jīng)過批量歸一化、Relu激活和卷積操作,如果在卷積操作的時候遇到了瓶頸,可以根據(jù)實際情況減少輸入特征圖的數(shù)量,從而有效的提高整個計算的效率。如果想要每一層的特征都能夠得到反復(fù)的利用,在跨層連接的時候可以使用并聯(lián)的方式,也就是在加權(quán)密集連接卷積網(wǎng)絡(luò)中每一層的輸入信息都能包含之前每一層的實際輸出。
經(jīng)過分析得知,密集連接卷積網(wǎng)絡(luò)主要有著兩個特性,第一個特性是密集連接卷積網(wǎng)絡(luò)在反向誤差傳播的時候,每一層網(wǎng)絡(luò)都可以接收到在這之后所有層中傳遞過來的梯度信號,這種情況下,即使密集連接卷積網(wǎng)絡(luò)層數(shù)在不斷增加,靠近輸入層的梯度也會變得越來越小,這個時候在一定程度上就可以減少整個訓(xùn)練過程中出現(xiàn)梯度消失的問題。第二個特性是密集連接卷積網(wǎng)絡(luò)結(jié)構(gòu)中有大量的特征在重復(fù)使用的時候,可以使用少量的卷積核生成大量的特征,有效的降低模型中需要用到的計算量,這個時候整個模型的尺寸也能夠得到有效的控制,達(dá)到比較小的狀態(tài)[2]。
密集連接卷積網(wǎng)絡(luò)跨層連接的過程中,每一層之間都屬于平等的關(guān)系,如果只是將當(dāng)前的密集連接卷積網(wǎng)絡(luò)層與之前所有的密集連接卷積網(wǎng)絡(luò)層之間并聯(lián)完成后再進(jìn)行操作,這個時候每一層之間的密集連接卷積操作都有著不同的作用和效果,得到的特征信息也不會相同,所以在進(jìn)行密集連接卷積網(wǎng)絡(luò)跨層連接的時候要保持分明的主次關(guān)系,也就是說密集連接卷積網(wǎng)絡(luò)跨層連接的時候當(dāng)前的網(wǎng)絡(luò)層會起到主要的作用,之前所有的密集連接卷積網(wǎng)絡(luò)可以起到輔助的作用。如果加權(quán)密集連接卷積網(wǎng)絡(luò)層在進(jìn)行跨層連接的時候,需要進(jìn)行權(quán)重的分配,如果當(dāng)前密集連接卷積網(wǎng)絡(luò)層權(quán)重的系數(shù)為1,那么每一層的權(quán)重設(shè)置就是w,w的大小范圍在0和1之間,最小不低于0,最大不超過1,加入加權(quán)密集連接卷積網(wǎng)絡(luò)連接塊中當(dāng)前的層之前一共有i層密集連接卷積網(wǎng)絡(luò),那么到了第i層的時候整個密集連接卷積網(wǎng)絡(luò)的權(quán)重就是:
深度卷積神經(jīng)網(wǎng)絡(luò)是這一波 AI 浪潮背后的大功臣。雖然很多人可能都已經(jīng)聽說過這個名詞,但是對于這個領(lǐng)域的相關(guān)從業(yè)者或者科研學(xué)者來說,淺顯的了解并不足夠。近日,約克大學(xué)電氣工程與計算機科學(xué)系的 Isma Hadji 和 Richard P. Wildes 發(fā)表了一篇《我們該如何理解卷積神經(jīng)網(wǎng)絡(luò)?》的文章,幫助人們加深了對深度卷積神經(jīng)網(wǎng)絡(luò)的理解,闡述了幾種多層神經(jīng)網(wǎng)絡(luò),并介紹當(dāng)前計算機視覺領(lǐng)域應(yīng)用中最成功的卷積結(jié)構(gòu);具體介紹了標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中的各構(gòu)成組件,并從生物學(xué)和理論兩個角度分析不同組件的設(shè)計方案;討論了當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)設(shè)計的趨勢及可視化理解卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)研究工作,還重點闡述了當(dāng)前結(jié)構(gòu)仍存在的一些關(guān)鍵問題[3]。
加權(quán)密集連接卷積網(wǎng)絡(luò)之間層數(shù)越深,關(guān)于特征的維度就會增長的越快,由于每隔一層的時候都需要根據(jù)實際情況采樣,最終完成降維操作。如果將加權(quán)密集連接卷積網(wǎng)絡(luò)分為三個部分,這樣就可以降低特征維度的增加,加權(quán)密集連接卷積網(wǎng)絡(luò)可以在環(huán)境當(dāng)中將當(dāng)時存在的狀態(tài)進(jìn)行截圖處理,并且以其作為網(wǎng)絡(luò)的輸入模式,經(jīng)過一層加權(quán)密集連接卷積網(wǎng)絡(luò)的常規(guī)卷積過程,然后進(jìn)入第一個需要加權(quán)密集處理的連接塊,在整個加權(quán)密集連接卷積網(wǎng)絡(luò)運行訓(xùn)練中會產(chǎn)生大量的樣本數(shù)據(jù),所以在開始的時候需要隨機的方式選擇動作,使這些動作在最短時間內(nèi)熟悉好語言環(huán)境信息,并且將數(shù)據(jù)保留在經(jīng)驗池當(dāng)中,人們需要的時候來到經(jīng)驗池根據(jù)訓(xùn)練的情況與內(nèi)容隨機抽取一部分進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。
加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強化學(xué)習(xí)方法中,關(guān)于經(jīng)驗池回放這一個概念早在上個世紀(jì)末就提出來了,訓(xùn)練的全過程中需要進(jìn)行大量的樣本數(shù)據(jù)深度學(xué)習(xí),傳統(tǒng)的樣本學(xué)習(xí)方法已經(jīng)無法滿足加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強化學(xué)習(xí)的要求,因此,人們需要根據(jù)樣本數(shù)據(jù)的情況進(jìn)行多次的使用,保證經(jīng)驗池的技術(shù)可以解決這個問題。加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強化學(xué)習(xí)方法中經(jīng)驗池回放指的就是將之前擁有的樣本數(shù)據(jù)全部存儲起來,每一次訓(xùn)練的時候再找出一部分樣本進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),經(jīng)驗池的存在可以克服了數(shù)據(jù)分布不平衡的問題,同時在一定程度上也有效的提高了數(shù)據(jù)的利用效率。使用者經(jīng)過多次的反復(fù)樣本學(xué)習(xí)以后,可以避免學(xué)習(xí)中再次接觸到同樣的樣本,如果加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強化學(xué)習(xí)方法下經(jīng)驗池中樣本數(shù)據(jù)已經(jīng)達(dá)到了設(shè)定的上限,新的樣本就會將原有的舊樣本替換下去,從而保證加權(quán)密集連接卷積網(wǎng)絡(luò)中樣本被抽到的概率一直處于相似的情況。
總而言之,隨著學(xué)習(xí)方法的更新和信息化手段的創(chuàng)新,將加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強化學(xué)習(xí)方法中所有的元素緊密聯(lián)系在一起,在訓(xùn)練的過程中不斷的調(diào)整每一層網(wǎng)絡(luò)的權(quán)重值,隨后有效的提取到特征性信息,保證加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強化學(xué)習(xí)處理圖像時更加省時高效,對于這種深度強化學(xué)習(xí)方法的研究不會止步不前,而是隨著時代的進(jìn)步和發(fā)展不斷有新的發(fā)現(xiàn)。