亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        在高斯分布下優(yōu)化仿射變換的極限學(xué)習(xí)機(jī)

        2021-04-11 12:49:10王士同
        計(jì)算機(jī)與生活 2021年4期
        關(guān)鍵詞:優(yōu)化

        張 毅,王士同

        1.江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,江蘇無(wú)錫 214122

        2.江南大學(xué)江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇無(wú)錫 214122

        極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[1]在各個(gè)領(lǐng)域都有著高度的關(guān)注和廣泛的應(yīng)用[2-6]。但在取得顯著成就的同時(shí),也發(fā)現(xiàn)了一些問(wèn)題,隱含層輸出的分布方式關(guān)注不夠。對(duì)比BP(back propagation)神經(jīng)網(wǎng)絡(luò),如果每一層數(shù)據(jù)的分布方式大相徑庭,那么訓(xùn)練就會(huì)變得緩慢和復(fù)雜,泛化性能大打折扣。反之,如果隱含層輸入與輸出滿(mǎn)足同樣的分布方式,不但能夠節(jié)省訓(xùn)練優(yōu)化參數(shù)的時(shí)間,而且能夠提高算法的泛化性能[7]。

        ELM 利用激活函數(shù)將非線(xiàn)性結(jié)構(gòu)帶入網(wǎng)絡(luò)結(jié)構(gòu),在使用隱節(jié)點(diǎn)隨機(jī)參數(shù)帶來(lái)快速的學(xué)習(xí)速度和便于實(shí)現(xiàn)等特點(diǎn)帶來(lái)便利的同時(shí),也造成在網(wǎng)絡(luò)結(jié)構(gòu)中使用固定的激活函數(shù)的不足。眾所周知,激活函數(shù)的選擇取決于隱含層輸入輸出數(shù)據(jù)的分布[8]。在ELM 中,隱含層的權(quán)重和偏置參數(shù)具有隨機(jī)性,且與輸入數(shù)據(jù)無(wú)關(guān),使用固定的激活函數(shù)計(jì)算得到的輸出數(shù)據(jù),可能會(huì)導(dǎo)致不一致的分布方式難以達(dá)到良好的泛化性能。由此大量的實(shí)驗(yàn)結(jié)果表明隱含層輸入數(shù)據(jù)的范圍在ELM 中起到關(guān)鍵作用[9]。以ELM最常用的激活函數(shù)Sigmoid 函數(shù)為例,Sigmoid 函數(shù)隱含層輸入映射到輸出范圍,如果輸入過(guò)大或過(guò)小,將落在函數(shù)圖像的飽和區(qū)域,也就是在函數(shù)圖像中,數(shù)據(jù)分布過(guò)于平緩,由此可知ELM 只會(huì)在良好的縮放范圍內(nèi)產(chǎn)生良好的泛化性能。例如gisette(來(lái)自于UCI數(shù)據(jù)集網(wǎng)站)數(shù)據(jù)集通過(guò)Sigmoid 函數(shù)映射之后,其結(jié)果過(guò)度存在集中在0 和1 附近,即Sigmoid 函數(shù)的飽和狀態(tài),如圖1(a)所示。

        為了彌補(bǔ)這一缺陷,前人做了大量工作,給出許多方法。DNNs(deep neural networks)采用不飽和的非線(xiàn)性激活函數(shù),如整流器線(xiàn)性單元ReLU(rectifier linear unit)[10]及其改進(jìn),包括有參數(shù)化ReLU[11]和隨機(jī)化ReLU[12]等,這種方法能夠加快訓(xùn)練速度和泛化能力,但隱節(jié)點(diǎn)參數(shù)的優(yōu)化依賴(lài)于反向傳播算法,收斂速度慢,并且沒(méi)有足夠地研究隱含層數(shù)據(jù)分布的特性。Zhang 等人[13]利用正則化方法,這種方法只是狹義的參數(shù)正則化,在損失函數(shù)的基礎(chǔ)上加入正則化項(xiàng)來(lái)提高泛化性能的ELM 算法(regularized ELM,RELM),能夠帶來(lái)良好的泛化性能。同樣,Huang 等人[14]提出基于核方法的KELM(kernel ELM)算法,通過(guò)核函數(shù)隱式地將輸入空間中低維線(xiàn)性不可分樣本映射到高維空間中去,能夠避免傳統(tǒng)的ELM 算法隱含層神經(jīng)元隨機(jī)賦值,提高了模型的泛化性和穩(wěn)定性。Liu 等人[15]提出一種基于多核ELM 的多源異構(gòu)數(shù)據(jù)集成框架MK-ELM(multiple kernel ELM),在訓(xùn)練過(guò)程中對(duì)多個(gè)核函數(shù)的組合權(quán)重和ELM 算法中的結(jié)構(gòu)參數(shù)進(jìn)行聯(lián)合優(yōu)化,但對(duì)于不同的數(shù)據(jù)樣本,如何自適應(yīng)地選擇核函數(shù)和不同核函數(shù)的權(quán)重系數(shù)是個(gè)問(wèn)題。Cao 等人[16]介紹了一種具有仿射變換(affine transformation,AT)輸入的新型激活函數(shù),叫作ATELM,文中對(duì)比了其中一個(gè)算法AT-ELM1。該算法在隱含層輸入上加上縮放和平移變換參數(shù)。在不需要調(diào)整輸入權(quán)重和偏置的基礎(chǔ)上,基于最大熵原理來(lái)優(yōu)化仿射變換參數(shù)。此算法一如既往地保持ELM的快速學(xué)習(xí)速度和良好的泛化性能[17],并且在激活函數(shù)分布范圍內(nèi),強(qiáng)制將數(shù)據(jù)大致近似地按照均勻分布輸出,來(lái)實(shí)現(xiàn)隱含層輸出數(shù)據(jù)的最大熵。實(shí)際上不盡如人意,隱含層的輸入數(shù)據(jù)無(wú)法真正滿(mǎn)足最大熵原理,只能通過(guò)調(diào)節(jié)仿射參數(shù)讓隱含層輸出近似達(dá)到均勻分布。而且,仿射參數(shù)主要是利用梯度下降算法迭代優(yōu)化的,梯度下降算法中不適當(dāng)?shù)牟介L(zhǎng),又難以很好地調(diào)節(jié)仿射參數(shù)。是否還有其他方法讓輸入數(shù)據(jù)有更好的效果或者仿射參數(shù)是否可能在其他分布方式中表現(xiàn)得更加出色,本文做了一些嘗試并取得了一些效果。

        Fig.1 Hidden layer output map of gisette dataset in two algorithms圖1 gisette數(shù)據(jù)集在兩種算法中隱含層輸出圖

        為了解決上述問(wèn)題,本文介紹了一種基于高斯分布來(lái)優(yōu)化激活函數(shù)中輸入數(shù)據(jù)的縮放和轉(zhuǎn)換參數(shù),在不需要調(diào)整隱含層輸入權(quán)重和偏置的基礎(chǔ)上,調(diào)整仿射參數(shù)來(lái)適應(yīng)隱含層輸入的分布方式,讓隱藏層輸出的分布在映射后近似于高斯分布。文中采用基于梯度下降的迭代算法來(lái)優(yōu)化仿射參數(shù)。

        本文的主要貢獻(xiàn)概述如下:

        (1)利用基于高斯分布計(jì)算的仿射參數(shù)的方法能夠避免激活函數(shù)映射之后產(chǎn)生飽和狀態(tài),通過(guò)調(diào)節(jié)梯度下降參數(shù)迭代優(yōu)化仿射參數(shù),能夠使激活函數(shù)主要映射在[0.2,0.8]之間。如圖1(b)所示,例中采用gisette 數(shù)據(jù)集通過(guò)Sigmoid 函數(shù)映射得到的結(jié)果圖。數(shù)據(jù)明顯映射在[0.1,0.9]之間,并且絕大部分都在[0.2,0.8]區(qū)間內(nèi),飽和部分占極小比例。這種優(yōu)化方式達(dá)到的效果明顯優(yōu)于圖1(a)。

        (2)開(kāi)發(fā)出新型的計(jì)算仿射參數(shù)的方法,讓隱含層輸入與輸出數(shù)據(jù)服從高斯分布,那么在這種狀態(tài)下通過(guò)優(yōu)化參數(shù)使整個(gè)隱含層輸出數(shù)據(jù)能夠滿(mǎn)足高斯分布。

        1 ELM 簡(jiǎn)介

        本章簡(jiǎn)要回顧ELM,并給出原始ELM和RELM的求解隱含層輸出權(quán)重的方法。

        原始ELM 作為一種求解單隱含層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練框架[18],其高效的學(xué)習(xí)速度和易于實(shí)現(xiàn)等能力受到極大的關(guān)注,成為當(dāng)前人工智能領(lǐng)域最熱門(mén)的研究方向之一。在保證算法測(cè)試精度的前提下,較于傳統(tǒng)的BP 算法[19],ELM 算法速度更快并且具有良好的泛化性能。ELM 特點(diǎn)在于隨機(jī)初始化隱含層輸入權(quán)重和偏置并得到相應(yīng)的隱含層輸出權(quán)重。其數(shù)學(xué)模型表示為:

        式中,xi=[xj1,xj2,…,xjn]T表示第i個(gè)樣本,βi=[βi1,βi2,…,βiL]T是連接第j個(gè)隱含層節(jié)點(diǎn)到輸出層的權(quán)重向量。G(wi,bi,xj)表示激活函數(shù),表示隱節(jié)點(diǎn)的輸入權(quán)重和偏置。yj=[yj1,yj2,…,yjm]T是第j個(gè)輸入樣本的網(wǎng)絡(luò)輸出。ELM 理論指出隱節(jié)點(diǎn)的參數(shù)按照概率分布選取是隨機(jī)固定的,無(wú)需調(diào)整[20]。這使得網(wǎng)絡(luò)模型變成求解線(xiàn)性方程組。

        ELM 最初只能用來(lái)處理單隱含層神經(jīng)網(wǎng)絡(luò),后來(lái)被推廣到RBF(radial basis function)神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、多隱含層神經(jīng)網(wǎng)絡(luò)等。整個(gè)ELM 模型通過(guò)利用如下矩陣乘法得到[21]:

        式中,β和T分別為輸出層權(quán)重矩陣和整個(gè)網(wǎng)絡(luò)的目標(biāo)輸出矩陣,H為隱含層輸出矩陣,表示為:

        那么輸出權(quán)重就變成求解線(xiàn)性方程Hβ=Τ的最小二乘解:

        其中,H?是矩陣H的廣義逆矩陣。

        隱節(jié)點(diǎn)數(shù)是隨機(jī)的,由通用逼近性可知激活函數(shù)無(wú)限可微分,隱含層輸出近似看成連續(xù)函數(shù)。

        (1)對(duì)于隱節(jié)點(diǎn)數(shù)L等于輸入樣本個(gè)數(shù)N,可找到矩陣H,使得=0。

        (2)對(duì)于隱節(jié)點(diǎn)數(shù)L不等于樣本個(gè)數(shù)N,對(duì)于任意ε>0,總存在H,使得<ε。

        利用最小方差尋找最優(yōu)輸出權(quán)重β,即優(yōu)化訓(xùn)練誤差函數(shù):

        標(biāo)準(zhǔn)的ELM 算法是一個(gè)基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原理的訓(xùn)練過(guò)程,在沒(méi)有進(jìn)行調(diào)整隱含層輸入隨機(jī)參數(shù)的基礎(chǔ)上可能導(dǎo)致隱含層輸出數(shù)據(jù)分布不一致,容易產(chǎn)生過(guò)擬合現(xiàn)象,并且當(dāng)訓(xùn)練樣本中出現(xiàn)許多異常點(diǎn)時(shí),隱含層輸出具有不適定性。標(biāo)準(zhǔn)正則ELM[22-23]提出用正則化參數(shù)λ來(lái)平衡誤差矩陣和輸出權(quán)重,正則化理論在本質(zhì)上是結(jié)構(gòu)風(fēng)險(xiǎn)最小化策略的實(shí)現(xiàn),輸出權(quán)重β的范數(shù)越小,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的泛化性能越好。RELM 的數(shù)學(xué)模型表示如下:

        根據(jù)隱節(jié)點(diǎn)數(shù)與樣本數(shù)的比較,求解式(7)可得RELM的輸出權(quán)重矩陣β閉式解[24],其中I是單位矩陣:

        當(dāng)L≤N時(shí),即隱含層神經(jīng)元個(gè)數(shù)小于樣本數(shù),此時(shí)I為L(zhǎng)×L的單位矩陣,而隱含層神經(jīng)元個(gè)數(shù)大于樣本數(shù)時(shí)L>N,此時(shí)I為N×N的單位矩陣。顯然這樣求得的偽逆矩陣簡(jiǎn)化不少。

        2 模型建立

        文中提出的GAT-ELM(Gaussian affine transformation extreme learning machine)算法,在保證了ELM的學(xué)習(xí)速度和泛化性能的同時(shí),也避免了隱含層的輸入權(quán)重和偏置的迭代,讓隱含層輸出數(shù)據(jù)大致映射在激活函數(shù)輸出的合理范圍之內(nèi),并且使隱含層輸入與輸出數(shù)據(jù)滿(mǎn)足高斯分布方式,達(dá)到最優(yōu)效果。

        2.1 結(jié)構(gòu)和數(shù)學(xué)描述

        對(duì)比其他先進(jìn)的ELM 網(wǎng)絡(luò)框架,AT-ELM1算法主要工作是在隱含層,在隱含層中設(shè)置的仿射參數(shù)由帶有均勻分布隨機(jī)數(shù)的目標(biāo)函數(shù)優(yōu)化,最終目的是能夠讓隱含層輸入與輸出服從均勻分布。這種方法的好處是能夠讓隱含層輸入線(xiàn)性映射到更低維空間,以防止最終非線(xiàn)性映射到激活函數(shù)特征空間的飽和狀態(tài)中去。

        然而,利用極大熵原理計(jì)算仿射參數(shù)的做法,也帶來(lái)一些問(wèn)題,不足主要體現(xiàn)在以下幾點(diǎn):

        (1)完全拋棄了節(jié)點(diǎn)之間的依賴(lài)性關(guān)系[25]。ATELM1算法中讓隱含層輸出服從均勻分布只是保證了輸出數(shù)據(jù)的獨(dú)立性,完全拋棄了節(jié)點(diǎn)的依賴(lài)性關(guān)系。因?yàn)闊o(wú)論仿射參數(shù)如何變化均為線(xiàn)性映射,隱節(jié)點(diǎn)始終會(huì)保留著依賴(lài)關(guān)系。要完全忽視隱節(jié)點(diǎn)的依賴(lài)性,這是遠(yuǎn)遠(yuǎn)達(dá)不到的,這就是造成不能完全滿(mǎn)足均勻分布的主要原因。

        (2)隱含層輸入數(shù)據(jù)方差。對(duì)于數(shù)據(jù)本質(zhì)而言,假設(shè)隱含層輸入和輸出是獨(dú)立且同分布的,其輸入權(quán)重和偏置的元素一般在[-1,1]均勻分布或者(0,1)正態(tài)分布中產(chǎn)生,且相互獨(dú)立。則隱含層輸入的方差表示為var(vi)=L?var(wi)+var(bi)[10]。無(wú)論權(quán)重和偏置在哪個(gè)分布下產(chǎn)生,它們均有共同的特點(diǎn),那就是輸入方差與輸入數(shù)據(jù)的數(shù)學(xué)期望和隱節(jié)點(diǎn)的個(gè)數(shù)有關(guān),并且輸入數(shù)據(jù)的數(shù)學(xué)期望在一般情況下并不為0,那么隱含層輸出便不太可能在激活函數(shù)范圍內(nèi)服從均勻分布,引入縮放和平移參數(shù)強(qiáng)制映射,效果也可能會(huì)差強(qiáng)人意。

        (3)激活函數(shù)的非線(xiàn)性映射。例如Sigmoid 函數(shù),隱含層輸出數(shù)據(jù)一般為離散的點(diǎn),根據(jù)通用逼近性可知,能夠近似形成一條曲線(xiàn),引入仿射參數(shù)之后,為了讓輸出數(shù)據(jù)能夠很好地服從均勻分布這一方法,需要多次手動(dòng)的調(diào)參來(lái)尋找最優(yōu)的仿射參數(shù),即耗時(shí),同樣由于迭代次數(shù)和步長(zhǎng)選擇的限制也無(wú)法真正達(dá)到最優(yōu)。

        針對(duì)上述AT-ELM1算法中求解仿射參數(shù)的不足,本文提出一種新的思想,依據(jù)如下:

        樣本數(shù)據(jù)預(yù)處理后,對(duì)于單個(gè)樣本而言,如圖2所示,輸入層到隱含層為線(xiàn)性映射,從n維的輸入層映射到隱含層第一個(gè)神經(jīng)元時(shí),可以看作是線(xiàn)性降維,數(shù)據(jù)在高維空間中有以下幾個(gè)特點(diǎn)[26-28]:

        (1)數(shù)據(jù)在高維空間有著低維結(jié)構(gòu),投影到低維空間不會(huì)損失過(guò)多判別信息。

        (2)高斯分布的數(shù)據(jù)有著向尾部聚集的趨勢(shì),均勻分布的數(shù)據(jù)有著向角落聚集的趨勢(shì),因此在高維空間估計(jì)數(shù)據(jù)的概率分布變得十分困難。

        (3)高維數(shù)據(jù)的低維投影有著符合高斯分布或者高斯分布組合的趨勢(shì)。維數(shù)越大越逼近高斯分布。

        (4)在有限個(gè)樣本的情況下,高維空間的線(xiàn)性可分概率隨著維數(shù)增加而增加,樣本數(shù)小于或接近維數(shù)時(shí),樣本線(xiàn)性可分概率趨于1。

        因此,數(shù)據(jù)由高維向低維映射趨于高斯分布,且維數(shù)越大高斯分布趨勢(shì)越明顯。這一顯著特征,可以認(rèn)為在這種映射之后的數(shù)據(jù)具有高斯分布的特征,且不會(huì)帶來(lái)太大誤差。于是,圖2 中第一個(gè)神經(jīng)元V1由于輸入層神經(jīng)元個(gè)數(shù)是遠(yuǎn)大于1 的,映射之后便有著高斯分布的趨勢(shì)。對(duì)于其他每個(gè)神經(jīng)元而言,同樣由輸入層映射到當(dāng)前隱含層神經(jīng)元,且均為高維向低維映射,按照上述,則同樣有著高斯分布趨勢(shì)。那么這L個(gè)獨(dú)立的隱含層神經(jīng)元所連接形成的L維隱含層空間Φ(x1)由于空間中的每個(gè)神經(jīng)元均趨于高斯分布,則整體有著高斯分布或者高斯分布組合的趨勢(shì)。針對(duì)整體樣本而言,線(xiàn)性映射之后得到的隱含層空間可以表示為:

        Fig.2 ELM network structure圖2 ELM 網(wǎng)絡(luò)結(jié)構(gòu)

        式中,? 表示為整個(gè)隱含層空間,對(duì)于每個(gè)樣本空間Φ(xi)都有著服從高斯分布的趨勢(shì),可以假定看作是一組具有高斯分布的離散數(shù)據(jù),那么這N個(gè)樣本所連接形成的整個(gè)隱含層空間就可以被認(rèn)為是N組具有高斯分布的離散數(shù)據(jù)的集合。在這種條件下,整個(gè)隱含層空間就符合高斯分布或者高斯分布組合的趨勢(shì),且維度越大,低維映射呈高斯分布趨勢(shì)越明顯。同樣對(duì)比本文使用的數(shù)據(jù)集,也能夠發(fā)現(xiàn)在絕大多數(shù)的數(shù)據(jù)集中,隱含層輸入有著明顯的高斯分布趨勢(shì)。對(duì)大樣本數(shù)據(jù)而言,隱含層輸入矩陣如果隱節(jié)點(diǎn)數(shù)小于或者接近輸入樣本數(shù),同樣遵循高斯分布趨勢(shì)。

        如果利用極大熵原理讓其強(qiáng)制均勻分布,這種做法雖然在理論上說(shuō)得通,但是在實(shí)際應(yīng)用中卻只能近似達(dá)到,因?yàn)闃颖咎卣髦g有著一定的關(guān)聯(lián)性,均勻分布忽略了這種依賴(lài)關(guān)系,只保證了節(jié)點(diǎn)之間的相互獨(dú)立。而節(jié)點(diǎn)之間的依賴(lài)性是網(wǎng)絡(luò)結(jié)構(gòu)中不可忽視的關(guān)鍵因素,因?yàn)樵谟成溥^(guò)程中,需要盡量保留輸入數(shù)據(jù)特征,減少特征丟失。而采用極大熵原理的AT-ELM1算法讓隱含層輸入與輸出滿(mǎn)足均勻分布具有一定局限性,本身激活函數(shù)映射就是非線(xiàn)性映射,如果映射結(jié)果是線(xiàn)性的,必然不可避免地丟失了很多數(shù)據(jù)特征,這樣模型就變得不可靠。如何讓數(shù)據(jù)特征能夠盡量保留是必要的。而高斯分布是一種非線(xiàn)性結(jié)構(gòu),從這點(diǎn)來(lái)看,比均勻分布增強(qiáng)了一定的模型可靠性。由此來(lái)看,隱節(jié)點(diǎn)的依賴(lài)性在模型結(jié)構(gòu)中是必不可少的。

        具體說(shuō)明,引入四組向量X1,X2,X3,X4,其中w13,w23,w14,w24是節(jié)點(diǎn)之間的連接權(quán)重,有著高斯分布的趨勢(shì),每個(gè)向量有m個(gè)特征。其依賴(lài)關(guān)系可以理解為:對(duì)于X1節(jié)點(diǎn),其輸出對(duì)于節(jié)點(diǎn)X3、X4的計(jì)算是必需的,同樣節(jié)點(diǎn)X3、X4彼此不需要來(lái)自對(duì)方的任何信息,則稱(chēng)兩者是相互獨(dú)立的,對(duì)此進(jìn)行可視化,如圖3 所示。

        Fig.3 Dependency diagram圖3 依賴(lài)性關(guān)系圖

        對(duì)比整個(gè)輸入層映射到隱含層輸入的過(guò)程,隱節(jié)點(diǎn)均包含著來(lái)自輸入層的直接依賴(lài)關(guān)系,這是不能忽略的重要因素,如果讓隱含層輸入不考慮依賴(lài)關(guān)系,讓其服從均勻分布,是做不到的,始終存在著這層直接或者間接的依賴(lài)關(guān)系。文中提出改進(jìn)算法讓隱含層輸入服從高斯分布,通過(guò)不斷修正隱含層輸入與輸出的分布方式,在原始隱含層輸入與輸出的基礎(chǔ)上,引入仿射參數(shù),不斷調(diào)節(jié)達(dá)到最優(yōu)效果,具體設(shè)置思路下文闡述。這種做法能夠有效保留隱節(jié)點(diǎn)的依賴(lài)性,又能夠做到相互獨(dú)立。這極大地表明了隱含層輸入服從高斯分布具有可靠的理論基礎(chǔ),利用這方面作為切入點(diǎn),假設(shè)隱含層輸入能夠服從高斯分布,按照隱含層輸入與輸出同分布的原則,讓隱含層輸出也服從高斯分布。

        為了更好地讓隱含層輸入與輸出服從高斯分布,文中介紹一種新的仿射參數(shù)計(jì)算方法,稱(chēng)之為GATELM 算法,主要思想:在隱含層輸入原本有著高斯分布趨勢(shì)的情況下,由于其本身可能只是近似服從高斯分布,且不可能完全服從,只能讓隱含層輸入強(qiáng)制服從高斯分布,且一般的激活函數(shù)映射模式會(huì)讓隱含層輸出趨于飽和狀態(tài)。于是,對(duì)隱含層輸入添加縮放和平移參數(shù),如果隱含層輸入數(shù)據(jù)過(guò)大,那么可以使用較小的仿射參數(shù),對(duì)數(shù)據(jù)二次加工讓數(shù)據(jù)值縮小,同樣,如果隱含層輸入數(shù)據(jù)過(guò)小,則需要較大的仿射參數(shù)。這都能使隱含層輸入通過(guò)激活函數(shù)之后不會(huì)大量映射到飽和狀態(tài)。那么如何確定仿射參數(shù)就是一個(gè)尋優(yōu)的過(guò)程,文中采用梯度下降算法優(yōu)化縮放和平移參數(shù),能夠使隱含層輸出服從高斯分布。這種縮放、平移參數(shù)的設(shè)置能夠很好地調(diào)節(jié)隱含層輸出的范圍,極大地提高了模型的泛化性能。

        2.2 在高斯分布下的仿射變換的參數(shù)優(yōu)化

        在原始ELM 算法中,數(shù)據(jù)集均生成在一定范圍內(nèi),給出預(yù)處理之后的訓(xùn)練集,隨機(jī)生成隱含層輸入權(quán)重和偏置,讓G(wi,bi,xj)作為整個(gè)數(shù)據(jù)集的激活函數(shù),且固定不變,計(jì)算得出訓(xùn)練樣本的隱含層網(wǎng)絡(luò)輸入矩陣V:

        本文在參數(shù)優(yōu)化過(guò)程中,為每個(gè)仿射參數(shù)得出相對(duì)應(yīng)的誤差函數(shù),進(jìn)行迭代優(yōu)化。其目標(biāo)優(yōu)化函數(shù)為:

        式中,m和n為仿射變換參數(shù),其為隱含層激活函數(shù)輸出范圍內(nèi)隨機(jī)生成的兩個(gè)高斯分布隨機(jī)數(shù),列向量v是由矩陣V中的每一個(gè)元素按從小到大排列而成,v=[v1,v2,…,vk,…,vN×L]T(v1<v2<…<vN×L),I=[1,1,…,1]T∈RN×L是元素全為1 的列向量,向量u表示為v的同型向量,且其中的每一個(gè)元素都是服從高斯分布的隨機(jī)數(shù),并在隱含層激活函數(shù)輸出范圍內(nèi)按從小到大排列u=[u1,u2,…,uk,…,uN×L]T(u1<u2<…<uN×L)。

        式(12)和式(13)可以進(jìn)一步化簡(jiǎn)為:

        可以發(fā)現(xiàn)在計(jì)算對(duì)m和n的偏導(dǎo)時(shí),對(duì)于每一組仿射參數(shù)均可提前計(jì)算找公共部分,這樣可以降低計(jì)算的復(fù)雜度,提高模型效率。然后,利用梯度下降算法分別為仿射參數(shù)進(jìn)行優(yōu)化,得到全局最優(yōu)解。本文所述方法能夠讓隱含層輸入輸出數(shù)據(jù)映射到高斯分布的空間中去。

        本文中GAT-ELM 算法思想是在AT-ELM1算法上改進(jìn),對(duì)比基于極大熵原理的AT-ELM1算法,GATELM 算法無(wú)論在公式上,還是結(jié)果上都與之不同。主要不同之處在于求解仿射參數(shù)的方法,讓高斯隨機(jī)數(shù)組成的向量u放入目標(biāo)函數(shù)中。實(shí)驗(yàn)對(duì)比,通過(guò)算法1 優(yōu)化,能夠得到更佳的效果。

        具體的仿射參數(shù)的計(jì)算方法如下所示。

        算法1高斯分布下的仿射變換的參數(shù)優(yōu)化方法

        輸入:設(shè)定激活函數(shù)為Sigmoid 函數(shù),梯度下降算法的輸入步長(zhǎng)η(按照實(shí)際情況),最小度量ε,最大迭代次數(shù)K,設(shè)置下采樣Nd。

        輸出:仿射參數(shù)m和n。

        1.計(jì)算出合適的仿射參數(shù)

        1.2 隱含層輸入權(quán)重W和偏置b隨機(jī)產(chǎn)生,計(jì)算出隱含層輸入矩陣V,并將V中的每一個(gè)元素按從小到大排列。

        1.3 在激活函數(shù)的特征空間? 內(nèi)生成高斯分布隨機(jī)數(shù),并從小到大排列成u=[u1,u2,…,uk,…,uN×L]T。

        1.4 根據(jù)下采樣Nd,得到采樣后的。

        1.5 隨機(jī)初始化仿射參數(shù)m、n,計(jì)算出式(14)的初始值,并計(jì)算φ。

        1.6 按照梯度下降算法迭代計(jì)算m、n,更新式(14),得到每次迭代后的φ值。

        1.7 輸出優(yōu)化后的仿射參數(shù)m、n的值。

        end

        由于假定對(duì)隱含層網(wǎng)絡(luò)輸入數(shù)據(jù)的分布方式?jīng)]有任何限制,即此算法適用于訓(xùn)練數(shù)據(jù)的任何分布方式和任何隨機(jī)生成的隱含層輸入權(quán)重和偏置。在算法1 中,考慮到訓(xùn)練樣本和隱節(jié)點(diǎn)的個(gè)數(shù)嚴(yán)重影響著計(jì)算仿射變換參數(shù)m、n的時(shí)間復(fù)雜度,本文中引入下采樣計(jì)算方法,在較小影響精度的前提下,極大地降低算法的時(shí)間復(fù)雜度。

        2.3 優(yōu)化正則化參數(shù)和隱含層輸出權(quán)重算法

        求解正則化參數(shù)的方法來(lái)源于RELM 算法中的LOO(leave one out)交叉驗(yàn)證策略[29],主要原理是指整體樣本分割成N個(gè)子樣本,其中N-1 個(gè)樣本為訓(xùn)練集,剩余的一個(gè)為測(cè)試集,多次實(shí)驗(yàn),對(duì)λ進(jìn)行尋優(yōu),一般地,正則化參數(shù)在區(qū)間[λmin,λmax]選擇[29]。

        在優(yōu)化λ的過(guò)程中為了減少LOO 中性能評(píng)估指標(biāo)MSEpress公式的計(jì)算復(fù)雜度,降低HAT 公式中的矩陣H重復(fù)計(jì)算,引入SVD 算法,令H=UDVT,U,V均為酉矩陣,即UTU=I,VTV=I。由此解出隱含層輸出權(quán)重β[29]:

        式中,當(dāng)L≤N時(shí),HTH=VD2VT,利用SVD 算法,VTHTT和HV均可提前求出;當(dāng)L>N時(shí),HHT=UD2UT,同樣,HTU和UTT也可提前解出。

        本文中的ELM 算法可以大致描述為:首先利用算法1 來(lái)優(yōu)化仿射參數(shù)m、n,然后通過(guò)RELM 中的LOO 交叉驗(yàn)證方法和MSEpress計(jì)算優(yōu)化λ算法。最后通過(guò)在高斯分布下優(yōu)化的仿射參數(shù)m、n和正則化參數(shù)λ計(jì)算隱含層輸出權(quán)重,如下描述優(yōu)化ATELM1中的λ參數(shù)和隱含層輸出權(quán)重β。

        算法2優(yōu)化隱含層輸出權(quán)重算法

        輸出:隱含層輸出權(quán)重和正則化參數(shù)。

        1.計(jì)算出隱含層輸出權(quán)重

        1.3 利用算法1 中優(yōu)化計(jì)算后的仿射參數(shù)mopt、nopt,計(jì)算隱含層輸出矩陣。

        1.4 當(dāng)L≤N時(shí),計(jì)算E=HV,F=ETT和d=(diag(D2))T;當(dāng)L>N時(shí),計(jì)算E=HHTV,F=UTT和d=(diag(D2))T。

        1.5G=E⊙repmat(1./(d+λ),N,1),R=norm((T-GF)./repmat(1-sum(G⊙E,2),1,m)),MSEpress=R2/N,當(dāng)MSEpress取最小時(shí),輸出此時(shí)的λopt。

        1.6 通過(guò)公式求出βopt:當(dāng)L≤N時(shí)βopt=V⊙repmat(1./(d+λopt),L,1)F;反之βopt=HT(U⊙repmat(1./(d+λopt),N,1))F。

        end

        為了表現(xiàn)算法的改進(jìn)效果,與原始ELM、ATELM1進(jìn)行了比較。同時(shí),為了能夠更加實(shí)際地與AT-ELM1算法比較,文中所涉及的數(shù)據(jù)集與AT-ELM1文獻(xiàn)中的保持一致。

        3 實(shí)驗(yàn)結(jié)果和分析

        3.1 實(shí)驗(yàn)設(shè)置

        為了體現(xiàn)GAT-ELM 算法在實(shí)驗(yàn)穩(wěn)定性方面的優(yōu)勢(shì),本文選取了傳統(tǒng)的ELM 算法和文獻(xiàn)[16]提出的AT-ELM1算法進(jìn)行比較。

        隱含層節(jié)點(diǎn)數(shù)目L的尋優(yōu)范圍根據(jù)樣本大小分別標(biāo)明,梯度下降算法的實(shí)際步長(zhǎng)、最小度量、最大迭代次數(shù)、下采樣數(shù)設(shè)置如表1 所示。

        實(shí)驗(yàn)過(guò)程中,按照不同的比例把實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練樣本和測(cè)試樣本,為了有效評(píng)估算法的性能,采用正確率和標(biāo)準(zhǔn)差作為性能指標(biāo)。此外,參數(shù)規(guī)模設(shè)置分析如下:

        (1)由式(1)可知,樣本個(gè)數(shù)設(shè)置為N,隱含層節(jié)點(diǎn)數(shù)設(shè)置為L(zhǎng),輸出層節(jié)點(diǎn)數(shù)為m個(gè)。這部分主要分為三步,首先輸入層到隱含層,其次隱含層激活函數(shù)映射,最后隱含層到輸出層,那么總的參數(shù)規(guī)模為N×L+N×L+N×m。

        Table 1 Gradient descent algorithm parameter settings表1 梯度下降算法參數(shù)設(shè)置

        (2)由算法1 可知,梯度下降算法中迭代次數(shù)為K,下采樣數(shù)為Nd,則算法1 參數(shù)規(guī)模為K×Nd。

        (3)由算法2 可知,假設(shè)正則化參數(shù)λ有M個(gè),此參數(shù)規(guī)模為M+m×L。

        則累加為N×L+N×L+N×m+K×Nd+M+m×L。

        實(shí)驗(yàn)平臺(tái)為Intel Core i5-3470 處理器;主頻為3.60 GHz;內(nèi)存為8 GB;系統(tǒng)類(lèi)型為Win7 32 位操作系統(tǒng);編程環(huán)境為Matlab R2018a。

        3.2 以實(shí)際手寫(xiě)數(shù)據(jù)集為例演示重要步驟及反映真實(shí)結(jié)果

        為了測(cè)試仿射變換參數(shù)的效率,本文測(cè)試了MNIST(有關(guān)數(shù)據(jù)庫(kù)的詳細(xì)描述,請(qǐng)參見(jiàn)第3.3 節(jié))數(shù)據(jù)集。MNIST 包含了手寫(xiě)數(shù)據(jù)的二進(jìn)制圖像,原始數(shù)據(jù)集包含了60 000 個(gè)訓(xùn)練樣本和10 000 個(gè)測(cè)試樣本。文中采用了兩種設(shè)置方法,假設(shè)訓(xùn)練樣本和測(cè)試樣本共享相同的分布。對(duì)于每個(gè)圖像而言,灰度像素均為特征。測(cè)試1,在訓(xùn)練樣本中隨機(jī)選取2 000 個(gè)用于訓(xùn)練,測(cè)試樣本也選取2 000 個(gè),其隱節(jié)點(diǎn)范圍為[400:200:2 000]。測(cè)試2,在訓(xùn)練樣本中隨機(jī)選取10 000 個(gè)用于訓(xùn)練,測(cè)試樣本則選取全部,隱節(jié)點(diǎn)取值范圍為[2 000:200:4 000]。在兩者實(shí)驗(yàn)中,LOO 交叉驗(yàn)證算法的搜索范圍均為利用固定的隱節(jié)點(diǎn)激活功能,ELM 對(duì)輸入變量的范圍縮放非常敏感。分析這兩個(gè)實(shí)例可以得出,ELM 的輸入數(shù)據(jù)放縮在[-10,10]之間,其表現(xiàn)良好,然后再通過(guò)不同的縮放因子γ調(diào)整數(shù)據(jù)的大小,以研究該算法的實(shí)際泛化性能,也就是說(shuō),文中所有用到的數(shù)據(jù)集,在預(yù)處理階段,原始樣本都在[-10,10]中生成,然后按如下因子縮放:

        對(duì)于每個(gè)縮放因子,文中均采取了10 次實(shí)驗(yàn),計(jì)算平均結(jié)果。分別計(jì)算出三種算法(ELM、AT-ELM1、GAT-ELM)每個(gè)縮放因子的均方誤差并做出比較。如圖4(a)中,當(dāng)使用固定的Sigmoid 時(shí),GAT-ELM 算法的性能比ELM 和AT-ELM1都有一定幅度改進(jìn)。對(duì)比ELM 算法而言,RMSE 降低了39.28%,同樣對(duì)于AT-ELM1也降低了10.52%??傮w而言GAT-ELM 相比于前兩個(gè)有著明顯的提升。對(duì)圖4(b)具體說(shuō),當(dāng)γ大于100 時(shí),ELM 算法中RMSE 值越來(lái)越大。相反,由于激活函數(shù)可以調(diào)整仿射參數(shù)讓隱含層輸出服從高斯分布,因此本文中的GAT-ELM對(duì)于所測(cè)試的縮放因子均具有良好的一致性。以具體結(jié)果為例:當(dāng)γ=0.1 時(shí),所得到仿射參數(shù)(aopt,bopt)=(-1.404 0,0.049 5)。在γ=100的情況下,為了彌補(bǔ)樣本輸入中縮放因子的變大,得到仿射參數(shù)(aopt,bopt)=(-0.151 5,0.145 1)。

        Fig.4 Comparison of experimental results圖4 實(shí)驗(yàn)結(jié)果比較

        為了更好地比較文中GAT-ELM 算法與AT-ELM1算法,測(cè)試結(jié)果如表2 所示。

        Table 2 Results of test 1 and test 2表2 測(cè)試1 和測(cè)試2 的結(jié)果

        對(duì)比三種算法,得到如下結(jié)論:

        在測(cè)試1 中GAT-ELM 算法相較于ELM,精度提高了8.05%,標(biāo)準(zhǔn)差降低了34.32%;同樣對(duì)于ATELM1,精度提高了1.60%,標(biāo)準(zhǔn)差降低了15.4%。

        在測(cè)試2 中GAT-ELM 算法相較于ELM,精度提高了1.50%,標(biāo)準(zhǔn)差降低了50.00%;同樣對(duì)于ATELM1,精度提高了1.29%,標(biāo)準(zhǔn)差降低了20.00%。

        根據(jù)實(shí)驗(yàn)結(jié)果可以知道,在測(cè)試1 和測(cè)試2 中,在高斯分布下計(jì)算的仿射參數(shù),提高了算法的穩(wěn)定性,并且泛化性能也有一定的提升。除了泛化性能外,訓(xùn)練時(shí)間是ELM 算法中的另一個(gè)問(wèn)題。文中的算法時(shí)間主要是通過(guò)LOO 交叉驗(yàn)證算法尋找最優(yōu)λ的代價(jià)時(shí)間,那么λ∈[λmin,λmax]的范圍越大,訓(xùn)練時(shí)間就越長(zhǎng)。由于AT-ELM1和文中GAT-ELM 的正則化參數(shù)λ的范圍是一致的,并且梯度下降算法中各個(gè)參數(shù)設(shè)置一致,整個(gè)模型的參數(shù)規(guī)??梢允墙咏?,參數(shù)規(guī)模且都高于原始ELM,即兩個(gè)算法的訓(xùn)練時(shí)間總體是一致的,都明顯高于原始ELM。

        3.3 真實(shí)數(shù)據(jù)集中的分類(lèi)

        為了更好評(píng)估算法的性能,測(cè)試了12 種涵蓋了許多實(shí)際應(yīng)用的基準(zhǔn)分類(lèi)數(shù)據(jù)集,前9 個(gè)來(lái)自UCI 數(shù)據(jù)集網(wǎng)站(http://archive.ics.uci.edu/ml/index.php),后面3 個(gè)來(lái)自特征選擇網(wǎng)站(http://featureselection.asu.edu/datasets.php)。如表3 所示,表中涵蓋了所測(cè)試的基準(zhǔn)分類(lèi)數(shù)據(jù)集的樣本特征維數(shù)、訓(xùn)練樣本數(shù)、測(cè)試樣本數(shù)和類(lèi)別數(shù)。

        對(duì)于所有數(shù)據(jù)集,所有樣本均用于分類(lèi)算法的訓(xùn)練和測(cè)試,為了更加直觀對(duì)比AT-ELM1算法,本文實(shí)驗(yàn)中的訓(xùn)練樣本和測(cè)試樣本都與AT-ELM1算法中的分配所相同,與此同時(shí),其隱含層尋優(yōu)區(qū)間也相似。對(duì)于較小的數(shù)據(jù)集,例如Breast、Diabetic 和wine在[100:50:600]之間尋找最佳的隱節(jié)點(diǎn)數(shù)。像大樣本數(shù)據(jù)集OnlineNews 在[500:100:2 500]范圍內(nèi)搜索隱節(jié)點(diǎn)的最佳數(shù)目。剩余數(shù)據(jù)集在[500:100:1 500]尋找最佳的隱節(jié)點(diǎn)數(shù)目。算法2 利用LOO 交叉驗(yàn)證方法在{e[-10:0.2:10]}尋找最優(yōu)正則化參數(shù)λ。原始ELM、AT-ELM1和本文中GAT-ELM 的精度和標(biāo)準(zhǔn)差結(jié)果都在如下表格中進(jìn)行比較。其中Percentage1=(GAT-ELMELM)/ELM 和Percentage2=(GAT-ELM-AT-ELM1)/AT-ELM1分別表示GAT-ELM 算法對(duì)比原始ELM 算法和AT-ELM1算法的精度和標(biāo)準(zhǔn)差的變化率,Ai-Rate 表示新的算法精度相較于對(duì)比算法提高的百分比,R-Std 表示新的算法方差相較于第一個(gè)算法降低的百分比。

        Table 3 Details of 12 datasets for UCI and feature selection表3 UCI和特征選擇的12 個(gè)數(shù)據(jù)集的詳細(xì)信息

        針對(duì)ELM、AT-ELM1、GAT-ELM 三種算法,表4對(duì)最優(yōu)精度采用加粗,對(duì)最優(yōu)標(biāo)準(zhǔn)差加下劃線(xiàn)。在這12個(gè)分類(lèi)數(shù)據(jù)集中,由于引入了仿射參數(shù),AT-ELM1算法和GAT-ELM 算法的分類(lèi)精度和標(biāo)準(zhǔn)差均優(yōu)于原始ELM 模型。對(duì)于多數(shù)分類(lèi)數(shù)據(jù)集而言,GATELM 算法的標(biāo)準(zhǔn)差明顯低于AT-ELM1,在所測(cè)數(shù)據(jù)集中,可以發(fā)現(xiàn)Breast、Diabetic、Letter、Opt-digits、Pen-digits、wine、Isolet、PCMAC、warpAR10P 數(shù)據(jù)集在GAT-ELM 算法中的測(cè)試精度更加集中,并且兩種算法精度之間的落差范圍很微小。

        同樣,Breast、Cardgraphy、Magic、OnlineNews、Opt-digits、Pen-digits、wine、Isolet、PCMAC 數(shù)據(jù)集在測(cè)試精度上GAT-ELM 比AT-ELM1高。Breast、Optdigits、Pen-digits、Isolet、PCMAC 數(shù)據(jù)集在精度和標(biāo)準(zhǔn)差上GAT-ELM 均優(yōu)于AT-ELM1。并且,GAT-ELM算法比較原始ELM 算法,在精度提升方面最高達(dá)到112.44%,并且在標(biāo)準(zhǔn)差上也有明顯的改善。同時(shí)對(duì)比AT-ELM1算法,在精度方面變化率保持在(-1.5%,2.5%)之間,但標(biāo)準(zhǔn)差方面最高有著53.85%的下降。

        Table 4 Test results and performance comparison of benchmark datasets using Sigmoid function表4 使用Sigmoid 函數(shù)對(duì)基準(zhǔn)數(shù)據(jù)集的測(cè)試結(jié)果與性能比較

        與此同時(shí),本文中對(duì)比分析隱含層輸出情況,原始ELM 的性能較差主要是由于這些數(shù)據(jù)庫(kù)的隱藏節(jié)點(diǎn)輸出大部分位于Sigmoid 的飽和區(qū)域或平坦區(qū)域中。為了直觀表現(xiàn),本文用案例進(jìn)行了可視化分析,圖5 比較了warpAR10P 和Pen-digits 數(shù)據(jù)集在原始ELM、AT-ELM1和GAT-ELM 的隱節(jié)點(diǎn)輸出。在ELM算法中,使用固定的Sigmoid 函數(shù),warpAR10P 和Pen-digits 的隱節(jié)點(diǎn)輸出主要在激活函數(shù)特征空間的平坦區(qū)域。在AT-ELM1算法中,隱含層輸出無(wú)法真正達(dá)到均勻分布。相反,本文中介紹的讓隱含層服從高斯分布的GAT-ELM 算法能夠讓隱含層輸出更加契合高斯分布。

        由于采用不同的隱節(jié)點(diǎn)數(shù),縮放參數(shù)和下采樣率可能會(huì)影響分類(lèi)精度,針對(duì)warpAR10P 和Pendigits 數(shù)據(jù)集的結(jié)果,文中測(cè)試隱節(jié)點(diǎn)數(shù)均為1 500,縮放參數(shù)均為0.1,下采樣率分別為500 和5 000,對(duì)正則化參數(shù)利用LOO 交叉驗(yàn)證方法尋優(yōu)的結(jié)果分別是0.110 8 和1.822 1,所求精度也均高于平均精度。

        3.4 圖像回歸

        本節(jié)介紹了4 種圖像數(shù)據(jù)庫(kù),詳細(xì)描述如下:

        Fig.5 ELM,AT-ELM1,GAT-ELM hidden node output of warpAR10P and Pen-digits datasets圖5 warpAR10P 和Pen-digits數(shù)據(jù)集的ELM、AT-ELM1、GAT-ELM 的隱節(jié)點(diǎn)輸出

        Table 5 Test results and performance comparison of image datasets using Sigmoid function表5 使用Sigmoid 函數(shù)對(duì)圖像數(shù)據(jù)集的測(cè)試結(jié)果與性能比較

        USPS 數(shù)據(jù)庫(kù):包括0~9 的10 個(gè)數(shù)字,總計(jì)9 298個(gè)手寫(xiě)樣本。每個(gè)樣本的16×16 灰度圖像直接用數(shù)字表示,7 500個(gè)樣本用于訓(xùn)練,其余用于測(cè)試。

        Yale 數(shù)據(jù)庫(kù):165 張表情圖像,包括15 個(gè)類(lèi)別數(shù)。每個(gè)樣本由32×32 灰度圖像構(gòu)成,實(shí)驗(yàn)中,60%的訓(xùn)練樣本隨機(jī)生成,其余用于測(cè)試。

        Yale(B)數(shù)據(jù)庫(kù):包括38 個(gè)不同的個(gè)體共2 204 個(gè)樣本。每個(gè)樣本有32 256 個(gè)特征,實(shí)驗(yàn)中,隨機(jī)產(chǎn)生50%的訓(xùn)練樣本,另一半用于測(cè)試。

        ORL 人臉數(shù)據(jù)庫(kù):有40 個(gè)不同對(duì)象的相同圖片,每個(gè)對(duì)象收集了10 個(gè)不同細(xì)節(jié),采用32×32 的灰度圖像的像素作為特征。隨機(jī)產(chǎn)生60%的樣本用于訓(xùn)練,其余用于測(cè)試。

        與分類(lèi)數(shù)據(jù)集一致,圖像數(shù)據(jù)集也需要在一定的范圍搜索最佳隱節(jié)點(diǎn)數(shù)目,對(duì)于ORL 數(shù)據(jù)集為[100:100:1 000],而對(duì)于Yale 數(shù)據(jù)集、Yale(B)數(shù)據(jù)集則在[400:200:2 000]中尋找,[1 000:200:3 000]適用于USPS 數(shù)據(jù)集。針對(duì)ELM、AT-ELM1、GAT-ELM 三種算法,表5 對(duì)最優(yōu)精度采用加粗,對(duì)最優(yōu)標(biāo)準(zhǔn)差加下劃線(xiàn)。在這4 個(gè)圖像數(shù)據(jù)集中,由于引入了仿射參數(shù),AT-ELM1算法和GAT-ELM 算法的分類(lèi)精度和標(biāo)準(zhǔn)差均優(yōu)于原始ELM 模型。與此同時(shí),在4 個(gè)測(cè)試實(shí)驗(yàn)中,GAT-ELM 的標(biāo)準(zhǔn)差明顯低于AT-ELM1,精度都有小幅度提升。為了進(jìn)一步直觀表明GAT-ELM的性能,表5 計(jì)算出了性能表現(xiàn)率,從表中可以清楚看出,GAT-ELM 算法與原始ELM 算法相比,精度提高率最高達(dá)到44.68%,并且標(biāo)準(zhǔn)差下降了93.59%。同樣對(duì)于AT-ELM1算法而言,精度之差在[0.20%,1.60%],相比較精度變化范圍不大,標(biāo)準(zhǔn)差變化明顯,GAT-ELM 算法下降了最高62.96%。

        對(duì)比4 組測(cè)試實(shí)驗(yàn),可以發(fā)現(xiàn)在這些數(shù)據(jù)集中,本文介紹的GAT-ELM 算法在精度方面略?xún)?yōu)于ATELM1,而算法的穩(wěn)定性卻得到很大的提高。

        4 結(jié)束語(yǔ)

        本文從理論上分析了讓隱含層輸出近似服從均勻分布卻無(wú)法真正達(dá)到這一問(wèn)題。探討了節(jié)點(diǎn)依賴(lài)關(guān)系必要性。針對(duì)這一研究,本文提出了一種在高斯分布下計(jì)算仿射參數(shù)的算法。上述算法首先對(duì)原始輸入數(shù)據(jù)尋找合適的放縮參數(shù)和最佳隱節(jié)點(diǎn)參數(shù),然后通過(guò)梯度下降算法優(yōu)化仿射參數(shù),最后利用均方誤差最小值確定最優(yōu)正則化參數(shù)和隱含層輸出權(quán)重。實(shí)驗(yàn)表明:該算法與AT-ELM1有著近似的計(jì)算時(shí)間,并且在保留隱節(jié)點(diǎn)依賴(lài)性的基礎(chǔ)上,利用梯度下降優(yōu)化仿射參數(shù)讓隱節(jié)點(diǎn)輸入與輸出都共同滿(mǎn)足高斯分布比利用極大熵原理的AT-ELM1表現(xiàn)得出色。在實(shí)驗(yàn)結(jié)果上,大多數(shù)數(shù)據(jù)集在高斯分布下取得更好的效果。

        猜你喜歡
        優(yōu)化
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        PEMFC流道的多目標(biāo)優(yōu)化
        能源工程(2022年1期)2022-03-29 01:06:28
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
        事業(yè)單位中固定資產(chǎn)會(huì)計(jì)處理的優(yōu)化
        4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
        幾種常見(jiàn)的負(fù)載均衡算法的優(yōu)化
        電子制作(2017年20期)2017-04-26 06:57:45
        热99re久久精品这里都是免费| 久久久人妻一区二区三区蜜桃d| 中文字幕一区二区三区| 尤物国产一区二区三区在线观看| 日韩a级精品一区二区| 久久99国产综合精品| 久久精品国产亚洲av天美| 亚洲av综合av一区| 少妇无套裸按摩呻吟无呜| а√中文在线资源库| 少妇丰满大乳被男人揉捏视频| 一本久久伊人热热精品中文字幕| 一本一道久久综合狠狠老| 亚洲男人天堂2019| 40分钟永久免费又黄又粗| 我的极品小姨在线观看| 日韩一区二区三区人妻免费观看| 亚洲自偷精品视频自拍| 免费1级做爰片1000部视频| 曰本女人与公拘交酡免费视频| 女人体免费一区二区| 亚洲av五月天天堂网| 小黄片免费在线播放观看| 亚洲最新国产av网站| 琪琪色原网站在线观看| 亚洲亚洲人成综合网络| 国产目拍亚洲精品一区二区| 久久久一本精品99久久| 亚洲黄片av在线免费观看| 国产激情视频在线观看大全| 又色又爽又黄的视频软件app| 国产免国产免费| 五月丁香六月综合激情在线观看| 日本一区二区三区的免费视频观看| 亚洲国产国语对白在线观看 | 性人久久久久| 另类内射国产在线| 国产真实乱XXXⅩ视频| 亚洲人妻av综合久久| 风韵丰满熟妇啪啪区99杏| av永久天堂一区二区三区|