亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        環(huán)狀掃描的強(qiáng)深度森林

        2021-04-23 04:31:40周博文
        關(guān)鍵詞:級(jí)聯(lián)子集準(zhǔn)確率

        周博文,皋 軍,,邵 星

        1.江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江212003

        2.鹽城工學(xué)院 信息工程學(xué)院,江蘇 鹽城224002

        神經(jīng)網(wǎng)絡(luò)算法因其強(qiáng)大的泛化能力和非線性映射能力而被人們所青睞,同時(shí)也存在著明顯的不足,比如需要大量調(diào)參,才得以找到最合適的參數(shù)來(lái)發(fā)揮最大性能,而且需要大量的數(shù)據(jù)來(lái)訓(xùn)練模型。近年來(lái),周志華老師提出的深度森林模型一定程度上避免了以上問(wèn)題[1]。文獻(xiàn)[1]的實(shí)驗(yàn)結(jié)果已經(jīng)說(shuō)明了深度森林的優(yōu)越性能。

        但是深度森林模型也存在不足:(1)在多粒度掃描階段,每個(gè)特征子集是按照滑動(dòng)窗口選取的,假設(shè)數(shù)據(jù)集總的特征維數(shù)為n,窗口大小為m,m>2,則窗口第一次滑動(dòng)生成的特征子集是從第1維到第m維,窗口第二次滑動(dòng)生成的特征子集是從第2 維到第m+1 維,顯然,第一維的特征只被掃描了一次,第二維的特征被掃描了兩次……最后一維同理僅被掃描到一次。只有第m維到第n-m+1 維,每一維的特征才可被充分掃描到。由此可以看出,原始模型的多粒度掃描階段不能充分得到特征子集,忽略了數(shù)據(jù)兩端子集所攜帶的信息,若被忽略的子集經(jīng)轉(zhuǎn)換后生成的新特征的重要度非常大,那么就勢(shì)必會(huì)影響后續(xù)的級(jí)聯(lián)階段,隨著級(jí)數(shù)的增加,這種影響會(huì)逐漸變大,最終降低深度森林模型的預(yù)測(cè)準(zhǔn)確率。(2)在級(jí)聯(lián)階段,僅僅是把前一層級(jí)生成的類分布向量作為增強(qiáng)特征,沒(méi)有重視之前級(jí)聯(lián)層的類分布向量,會(huì)降低收斂速度,從而降低算法的效率。而且,每層概率攜帶的信息是逐層遞減的,只將前一層的類概率向量拼接,模型的準(zhǔn)確率提高有限。

        對(duì)于以上問(wèn)題,本文做出兩點(diǎn)改進(jìn),一是針對(duì)原始深度森林模型在多粒度掃描階段不能充分得到每個(gè)特征子集的問(wèn)題,提出一種較全面的環(huán)狀掃描的方法,此方法對(duì)數(shù)據(jù)兩端的信息加以重視,可得到每個(gè)特征子集,進(jìn)而進(jìn)行充分的特征轉(zhuǎn)換;二是對(duì)于級(jí)聯(lián)階段不能充分重視之前級(jí)聯(lián)層輸出類向量的問(wèn)題,在文獻(xiàn)[2]的基礎(chǔ)上進(jìn)一步改進(jìn),即對(duì)將要堆疊的類向量做個(gè)判斷,若屬于有效表征,則將其并入原始特征,反之則舍去。

        1 相關(guān)工作

        深度森林模型因其優(yōu)越的性能和便捷性,被應(yīng)用在多個(gè)領(lǐng)域。文獻(xiàn)[2]提出一種深度堆疊森林模型,先在掃描階段采用隨機(jī)抽樣的方法得到特征子集進(jìn)行特征轉(zhuǎn)換,然后在級(jí)聯(lián)階段拼接每一層的類向量,加強(qiáng)級(jí)聯(lián)結(jié)構(gòu)的表征學(xué)習(xí)能力,將新模型用于軟件缺陷檢測(cè)任務(wù);但是也無(wú)法全面提取特征子集,不能進(jìn)行充分的特征轉(zhuǎn)換,而且級(jí)聯(lián)階段也導(dǎo)致了特征維度增加,只是無(wú)選擇的拼接,會(huì)使時(shí)間和空間開銷增大。文獻(xiàn)[3]構(gòu)建了一種具有雙視角、深層多粒度掃描的模型,將其用于火焰檢測(cè),此模型適用性有限。文獻(xiàn)[4]在文獻(xiàn)[5]的基礎(chǔ)上進(jìn)一步改進(jìn)級(jí)聯(lián)森林的輸入,即對(duì)之前每一層生成的類向量求和取平均值,然后拼接,從而提升性能,應(yīng)用在情感分類任務(wù)上,但取平均會(huì)改變生成類向量的原始信息。文獻(xiàn)[6-10]在圖像和火焰識(shí)別上有較好應(yīng)用。文獻(xiàn)[11]通過(guò)調(diào)整子樹權(quán)重來(lái)提高性能。本文在兩個(gè)階段分別做出改進(jìn),首先通過(guò)環(huán)狀掃描,重視數(shù)據(jù)邊緣的信息,充分得到特征子集,然后在級(jí)聯(lián)階段加入一個(gè)有效特征選擇過(guò)程,從兩方面來(lái)提高模型性能。

        2 深度森林

        2.1 多粒度掃描森林

        深度森林模型是通過(guò)多級(jí)多層結(jié)構(gòu)來(lái)增強(qiáng)表征學(xué)習(xí)能力的,和深度神經(jīng)網(wǎng)絡(luò)類似,以此提升學(xué)習(xí)能力。深度森林主要由兩部分組成,第一部分是多粒度掃描森林,第二部分是級(jí)聯(lián)森林。多粒度掃描過(guò)程是為了進(jìn)行特征轉(zhuǎn)換,來(lái)構(gòu)建更加有效的特征,從而提高級(jí)聯(lián)森林結(jié)構(gòu)的分類能力。原始數(shù)據(jù)經(jīng)過(guò)不同尺度窗口的掃描,對(duì)原始的特征進(jìn)行一系列的轉(zhuǎn)換,可以得到更加豐富、更加具有差異性的特征子集,特征子集作為輸入進(jìn)入分類器,會(huì)產(chǎn)生對(duì)應(yīng)的類概率向量,并將其作為新的特征成為級(jí)聯(lián)森林的輸入,特征轉(zhuǎn)換過(guò)程到此結(jié)束。多粒度掃描圖像數(shù)據(jù)的過(guò)程如圖1所示。

        對(duì)于n×n的圖像數(shù)據(jù),模型首先以大小為m×m的窗口進(jìn)行滑動(dòng),會(huì)生成(n-m+1)2個(gè)窗口,把這些窗口分別送入一個(gè)隨機(jī)森林和一個(gè)完全隨機(jī)森林,假設(shè)是c分類的話,每個(gè)窗口都會(huì)生成一個(gè)c維類概率向量,共生成2(n-m+1)2個(gè)類向量,在將向量拼接,成為一個(gè)1×2c(n-m+1)2的輸入,把n×n的圖像數(shù)據(jù)用1×2c(n-m+1)2的序列數(shù)據(jù)來(lái)表示。多粒度掃描序列數(shù)據(jù)的過(guò)程如圖2所示。

        同樣,對(duì)于1×n的序列數(shù)據(jù),以大小為1×m的窗口進(jìn)行滑動(dòng),產(chǎn)生n-m+1 個(gè)窗口,產(chǎn)生2(n-m+1)個(gè)類概率向量,把它們拼接成為一個(gè)1×2c(n-m+1)的序列數(shù)據(jù)作為級(jí)聯(lián)森林的輸入。

        圖1 多粒度掃描圖像數(shù)據(jù)

        圖2 多粒度掃描序列數(shù)據(jù)

        圖3 級(jí)聯(lián)森林

        圖4 流程圖

        2.2 級(jí)聯(lián)森林

        級(jí)聯(lián)部分將多粒度掃描結(jié)構(gòu)的輸出作為輸入,用轉(zhuǎn)換后的特征向量作為級(jí)聯(lián)部分的輸入特征,進(jìn)入每一層訓(xùn)練層,并經(jīng)過(guò)交叉驗(yàn)證來(lái)避免過(guò)擬合現(xiàn)象,每層都會(huì)驗(yàn)證當(dāng)前層的分類準(zhǔn)確率,如果性能在設(shè)定的層數(shù)閾值內(nèi)沒(méi)有提升,則停止生成下一層,此層成為最后一層,在對(duì)真實(shí)數(shù)據(jù)預(yù)測(cè)時(shí),會(huì)級(jí)聯(lián)到此層停止,根據(jù)最后一層的預(yù)測(cè)概率,把每個(gè)分類器生成的類分布向量求和,然后取平均值來(lái)作為最終的預(yù)測(cè)結(jié)果。假設(shè)多粒度森林輸出了n維向量,且是c分類任務(wù),首先經(jīng)過(guò)四個(gè)隨機(jī)森林生成4c維類概率向量,之后每層的輸入都為n+4c維,直至級(jí)聯(lián)到最后一層,模型停止。級(jí)聯(lián)森林的部分如圖3所示。

        3 環(huán)狀掃描的強(qiáng)級(jí)聯(lián)深度森林

        從上述模型可以發(fā)現(xiàn),傳統(tǒng)的方法在多粒度掃描過(guò)程中對(duì)邊緣數(shù)據(jù)不夠重視,若總的特征維數(shù)為n,窗口大小為m,m>2,則第一個(gè)窗口生成的特征子集是從第1維到第m維,第二個(gè)窗口生成的特征子集是從第2維到第m+1 維……顯然,第一維的特征只被掃描了一次,第二維的特征被掃描了兩次,最后一維也是如此。只有從第m維到第n-m+1 維,每一維的特征才被充分掃描到;級(jí)聯(lián)森林每一層得到的新特征有限,故表征學(xué)習(xí)能力得不到有效提高,降低了模型的收斂速度。CSDF 分別從這兩方面做出改進(jìn),首先通過(guò)環(huán)狀掃描重視邊緣數(shù)據(jù),繼而通過(guò)有效特征選擇來(lái)提高表征學(xué)習(xí)能力。總體流程如圖4所示。

        3.1 環(huán)狀掃描森林

        原始的深度森林模型在多粒度掃描階段不能充分得到每個(gè)特征子集,會(huì)導(dǎo)致兩端的信息特征轉(zhuǎn)換不夠充分,換言之,有一部分子集未被轉(zhuǎn)換,倘若被忽略的子集可以轉(zhuǎn)換成有效特征的話,那么這種忽略必定會(huì)對(duì)轉(zhuǎn)換后產(chǎn)生的新向量產(chǎn)生一定影響,最終導(dǎo)致分類結(jié)果的偏差,使分類器的準(zhǔn)確度下降。假設(shè)圖像數(shù)據(jù)大小為n×n,窗口大小為m×m,會(huì)忽略圖像四周的信息,只有從第m行、列到第n-m+1 行、列才能被充分掃描。序列數(shù)據(jù)同理,若窗口大小是1×m,那么第一維和最后一維特征只被掃描一次,從第m維到第n-m+1 維才能被充分掃描。文獻(xiàn)[2]通過(guò)隨機(jī)抽樣來(lái)解決這一問(wèn)題,但是也不能充分得到每個(gè)特征子集,所以本文提出了一種環(huán)狀掃描的方法來(lái)解決此問(wèn)題,如圖5、圖6所示。

        圖5 環(huán)狀掃描圖像數(shù)據(jù)

        圖6 環(huán)狀掃描序列數(shù)據(jù)

        對(duì)于圖像數(shù)據(jù),假設(shè)滑動(dòng)窗口大小為W_x×W_y,僅以寬度為第一行到第W_y行的數(shù)據(jù)為例說(shuō)明,傳統(tǒng)方法掃描每張圖片會(huì)得到n-W_x+1 個(gè)子窗口,每個(gè)窗口又會(huì)被轉(zhuǎn)換成一個(gè)類概率向量,但是轉(zhuǎn)換不夠充分,分析可知后端的W_x-1 維數(shù)據(jù)和前端的第一維數(shù)據(jù)也可以作為一個(gè)窗口,同樣后端的W_x-2 維數(shù)據(jù)和前端的前兩維數(shù)據(jù)也可以作為一個(gè)窗口,故為了使模型充分將邊緣數(shù)據(jù)所攜帶的信息也轉(zhuǎn)換成類概率向量,可將圖像改進(jìn)成為一個(gè)左右相接,上下相連的圖像,使其成為一個(gè)球狀數(shù)據(jù)面,把尾部的W_x-1 列拼接到首部,把下部的W_y-1 行拼接到上部,同時(shí)將右下角的數(shù)據(jù)拼到左上方,顯然,變換后數(shù)據(jù)的每個(gè)子窗口都可以被充分提取到,進(jìn)而轉(zhuǎn)換成類概率向量,更充分、更全面地構(gòu)建級(jí)聯(lián)森林的輸入特征向量。寬度為第n行到第n+W_y-1 行的數(shù)據(jù)不再贅述。

        序列數(shù)據(jù)同理,假設(shè)掃描的窗口大小為1×W_x,傳統(tǒng)方法掃描每條數(shù)據(jù)會(huì)得到m-W_x+1 個(gè)子特征集,每個(gè)特征集被轉(zhuǎn)換成一個(gè)類概率向量,轉(zhuǎn)換同樣欠充分,后端的W_x-1 維數(shù)據(jù)和前端的第一維數(shù)據(jù)可作為一個(gè)子集,后端的W_x-2 維數(shù)據(jù)和前端的前兩維數(shù)據(jù)也可作為一個(gè)子集,故將尾部的W_x-1 維特征拼接到首部,使得原始信息成為一個(gè)環(huán)狀數(shù)據(jù)帶,改動(dòng)之后,可以使兩端的特征和中間部分的特征被同等重視,即可被掃描同樣的次數(shù),從而使模型把每個(gè)數(shù)據(jù)子集都轉(zhuǎn)換為對(duì)應(yīng)的類概率,將其聚合為較全面的特征向量。

        3.2 強(qiáng)級(jí)聯(lián)森林

        在級(jí)聯(lián)階段,僅把前一級(jí)生成的類向量作為增強(qiáng)特征,每層只得到較少的增強(qiáng)特征,而且沒(méi)有重視之層級(jí)的類向量,使準(zhǔn)確率不穩(wěn)定,文獻(xiàn)[5]稱此為疏通連貫性,為防止信息削弱,把之前每層向量拼接,但會(huì)引發(fā)兩個(gè)問(wèn)題,一是必定會(huì)引起更大的空間復(fù)雜度,降低效率;二是不能選擇有效表征,若加入冗余特征,既增大了空間和時(shí)間復(fù)雜度,又降低準(zhǔn)確率。為解決此問(wèn)題,提出一種強(qiáng)級(jí)聯(lián)森林,在拼接類向量前,先通過(guò)前層準(zhǔn)確率判斷一下此概率向量是否會(huì)提高模型的準(zhǔn)確率,若可提高,則將其加入初始的特征向量,使其成為特征向量的一部分,反之,初始特征不變。此方法既不會(huì)增加維度,又對(duì)每層生成的類向量做一個(gè)選擇,挑選有效表征。第0層的輸入是多粒度森林的輸出,第1層的輸入是第0層的輸出和原始向量的拼接,從第2 層開始,在每次拼接之前都會(huì)先判斷增強(qiáng)向量是否會(huì)提高模型的準(zhǔn)確率。假設(shè)模型此時(shí)準(zhǔn)備進(jìn)入第2 層,首先比較0 層和1 層的準(zhǔn)確率,若后者較大,則說(shuō)明0層的輸出類向量有效,將其并入原始特征向量,特征向量得到更新,反之,特征向量不做任何改變。在之后的層級(jí)時(shí),更新特征向量的判別條件會(huì)自動(dòng)更改為與當(dāng)前層級(jí)中準(zhǔn)確率最高的作比較,以此來(lái)決定更新特征向量與否。直到模型的準(zhǔn)確率不再提升,或者達(dá)到設(shè)定的閾值時(shí),訓(xùn)練終止。在測(cè)試數(shù)據(jù)時(shí),通過(guò)置位標(biāo)志來(lái)決定增強(qiáng)向量的取舍。理論上來(lái)說(shuō),當(dāng)類別越多,即c越大時(shí),類概率向量的維數(shù)就會(huì)越多,故增強(qiáng)向量的維數(shù)隨之越多,進(jìn)而在分類任務(wù)中的影響就會(huì)越大;c越少時(shí),影響就會(huì)越少。僅以二分類問(wèn)題為例,假如級(jí)聯(lián)森林由兩個(gè)隨機(jī)森林和兩個(gè)完全隨機(jī)森林組成,那么增強(qiáng)特征只是一個(gè)8 維特征,而經(jīng)過(guò)掃描階段轉(zhuǎn)換出的特征維數(shù)通常會(huì)遠(yuǎn)遠(yuǎn)大于這個(gè)數(shù)字,只有當(dāng)面對(duì)多分類問(wèn)題時(shí),增強(qiáng)特征才會(huì)一定程度上起到更大的作用。強(qiáng)級(jí)聯(lián)森林如圖7 所示。級(jí)聯(lián)森林選擇增強(qiáng)特征向量的算法1 如下所示。其中X為待輸入的特征向量,X'為更新后的特征向量。

        算法1 特征選擇

        輸入:X

        輸出:X'

        1. 進(jìn)入到i層

        2. 置位標(biāo)志=No

        3. ifi==0

        X'=多粒度掃描森林的輸出

        elifi==1

        X'=(X原+類向量0)

        else

        if 準(zhǔn)確率i-1 >準(zhǔn)確率i-2

        X'=(X原+類向量i-2)

        置位標(biāo)志=Yes

        else

        X'=X原

        4. end

        綜上,整個(gè)模型完整的過(guò)程如算法2所示。

        算法2 CSDF

        輸入:訓(xùn)練集T,測(cè)試集S

        輸出:預(yù)測(cè)結(jié)果的準(zhǔn)確率H

        1. ifT是高維數(shù)據(jù)

        X'=環(huán)狀掃描(T)

        2.H=強(qiáng)級(jí)聯(lián)森林(X')

        3. if沒(méi)有到達(dá)停止條件

        調(diào)用算法1,訓(xùn)練決策樹

        4. 輸出H,訓(xùn)練結(jié)束。

        5. ifS是高維數(shù)據(jù)

        X'=環(huán)狀掃描(S)

        圖7 強(qiáng)級(jí)聯(lián)森林

        6.H=強(qiáng)級(jí)聯(lián)森林(X')

        7. 根據(jù)訓(xùn)練時(shí)的置位標(biāo)志,來(lái)決定生成類向量的取舍

        if 置位標(biāo)志=Yes

        X'=(X原+類向量i-2)

        else

        X'=X原

        8. 到達(dá)停止條件時(shí),輸出預(yù)測(cè)結(jié)果。

        3.3 時(shí)間和空間復(fù)雜度分析

        通過(guò)環(huán)狀掃描,數(shù)據(jù)的邊界部分也會(huì)掃描出特征子集,因此會(huì)比原始的深度森林模型得到更多的特征子集,從而降低模型的訓(xùn)練效率。深度森林模型的滑動(dòng)窗口大小是一個(gè)超參數(shù),對(duì)于原始模型來(lái)說(shuō),窗口設(shè)置得越大,那么生成的窗口數(shù)量就會(huì)越少,被忽略的信息會(huì)越多,掃描后聚合特征的維數(shù)會(huì)越少。窗口大小設(shè)置成和原始數(shù)據(jù)同樣大時(shí),達(dá)到極端情況,即子窗口就是原數(shù)據(jù)的特征集,那么多粒度掃描階段將毫無(wú)意義,僅僅用一個(gè)類概率向量作為原數(shù)據(jù)集的特征,此時(shí)就可以根據(jù)類概率大小直接判斷類別,無(wú)需后續(xù)的級(jí)聯(lián)森林再次分類。窗口設(shè)置得過(guò)小,那么生成的窗口數(shù)量會(huì)增多,雖然被忽略的信息會(huì)越少,但是由于每個(gè)窗口掃描出的子集都會(huì)作為一條數(shù)據(jù)通過(guò)隨機(jī)森林和完全隨機(jī)森林產(chǎn)生類概率向量,故窗口變多顯然會(huì)加大時(shí)間和空間復(fù)雜度。窗口大小設(shè)置為1 時(shí),達(dá)到另一個(gè)極端情況,每一維特征都會(huì)產(chǎn)生一個(gè)類概率向量,若是一個(gè)c分類任務(wù),一方面由于每個(gè)窗口都會(huì)作為一條數(shù)據(jù),掃描時(shí)相當(dāng)于將原始數(shù)據(jù)集擴(kuò)大了c倍,導(dǎo)致特征轉(zhuǎn)換時(shí)加大了訓(xùn)練量,另一方面會(huì)使聚合特征的維數(shù)也擴(kuò)大c倍,降低級(jí)聯(lián)森林的特征篩選效率,從而會(huì)帶來(lái)額外的時(shí)間和空間開銷。假設(shè)對(duì)于n×n的圖像數(shù)據(jù),原始模型以大小為m×m的窗口進(jìn)行滑動(dòng),會(huì)生成(n-m+1)2個(gè)子窗口,環(huán)狀掃描模型會(huì)生成n2個(gè)子窗口,從而充分將每個(gè)子集都轉(zhuǎn)換成對(duì)應(yīng)的類概率向量。對(duì)于1×d的序列數(shù)據(jù),窗口設(shè)置為x,那么傳統(tǒng)模型會(huì)生成(d-x)+1 個(gè)特征子集,本文的模型重視每一維特征,生成d個(gè)特征子集,充分進(jìn)行特征轉(zhuǎn)換。

        以上轉(zhuǎn)換方法之所以會(huì)一定程度上帶來(lái)空間和時(shí)間復(fù)雜度的增大,是因?yàn)槊繌垐D片或每條數(shù)據(jù)都會(huì)生成多個(gè)特征子集,每個(gè)特征子集作為一條新的數(shù)據(jù),輸入分類器中,得到類概率向量,原本一條數(shù)據(jù),擴(kuò)充成了多條數(shù)據(jù),無(wú)疑加大了時(shí)間和空間復(fù)雜度。以上分析可知,特征子集過(guò)多是根本問(wèn)題所在。故通過(guò)調(diào)節(jié)窗口滑動(dòng)的步長(zhǎng)來(lái)減少子集的數(shù)量,從而弱化此問(wèn)題。對(duì)于圖像數(shù)據(jù),選定第1行到第m行,首先橫向掃描窗口,若設(shè)置步長(zhǎng)為p,那么第一個(gè)窗口是第1維到第m維,第二個(gè)窗口是第1+p維到第1+p+m維,則共生成n/p個(gè)特征子集,接著會(huì)選定第1+p行到第1+p+m行開始橫向掃描,同樣生成n/p個(gè)特征子集,直到最后共掃描得到(n/p)2個(gè)子集,子集數(shù)量變?yōu)樵瓉?lái)的1/p2;對(duì)于序列數(shù)據(jù),若設(shè)置步長(zhǎng)為p,第一個(gè)窗口是第1 維到第x維,第二個(gè)窗口是第1+p維到第1+p+x維,則共生成d/p個(gè)特征子集,子集數(shù)量變?yōu)樵瓉?lái)的1/p,這無(wú)疑降低了算法的時(shí)間和空間復(fù)雜度。此方法在重視每一維的特征向量的同時(shí)又減少了子集數(shù)量。

        其次,當(dāng)進(jìn)入強(qiáng)級(jí)聯(lián)階段時(shí),傳統(tǒng)模型經(jīng)過(guò)窗口滑動(dòng)生成的類概率,送入兩個(gè)隨機(jī)森林,圖像數(shù)據(jù)經(jīng)轉(zhuǎn)換后的特征維數(shù)為[(n-m+1)2]×2c維,序列數(shù)據(jù)為[(d-x)+1]×2c維,而環(huán)狀掃描后,特征維數(shù)分別為2cn2、2cd維,若設(shè)置步長(zhǎng)為p時(shí),轉(zhuǎn)換后的特征維數(shù)分別為2cn2/p2、2cd/p維,所以很大程度上減少了級(jí)聯(lián)森林的輸入維數(shù),由于兩種隨機(jī)森林訓(xùn)練時(shí)會(huì)對(duì)特征進(jìn)行篩選,選擇可以使劃分后基尼指數(shù)最小的特征作為劃分點(diǎn),所以特征維數(shù)減少會(huì)一定程度上降低時(shí)間和空間復(fù)雜度。理論上來(lái)說(shuō)雖然準(zhǔn)確率和特征維數(shù)之間有一定的聯(lián)系,但是這并不意味著維數(shù)越多,準(zhǔn)確率就越高,若特征足夠好的話,維數(shù)較少時(shí)也可以達(dá)到一個(gè)比較理想的準(zhǔn)確率。

        文獻(xiàn)[2]的算法是在掃描階段隨機(jī)抽取特征進(jìn)行轉(zhuǎn)換,同樣面臨著特征轉(zhuǎn)換不充分的問(wèn)題,抽取到的特征向量若恰好可轉(zhuǎn)換出有效特征的話,那么就會(huì)提高準(zhǔn)確率,反之,則不會(huì)有明顯的優(yōu)勢(shì)。其次因?yàn)槭怯蟹呕氐某槿。怨狡鹨?jiàn),抽取次數(shù)應(yīng)該和傳統(tǒng)模型生成的窗口數(shù)相同,所以有很小的概率會(huì)抽到同樣的特征,假如抽到,就會(huì)減少此特征轉(zhuǎn)換成類概率的時(shí)間,從而減小少量的運(yùn)算復(fù)雜度。綜上,文獻(xiàn)[2]的算法一定程度上存在著不穩(wěn)定性。文獻(xiàn)[4]算法是在級(jí)聯(lián)階段將每層的概率求和取平均得到的,所以維數(shù)不會(huì)改變,僅僅是多了一個(gè)類概率求平均的步驟,即時(shí)間和空間復(fù)雜度基本持平。文獻(xiàn)[2]和文獻(xiàn)[5]的算法在級(jí)聯(lián)階段做出的改進(jìn)相同,都是聚合了每一層的類概率,特征維數(shù)逐層遞增,換言之,層數(shù)越深,特征維數(shù)越大,時(shí)間和空間復(fù)雜度越大。通過(guò)上述分析,理論上來(lái)說(shuō),掃描階段時(shí),本文方法通過(guò)設(shè)定合適的步長(zhǎng)來(lái)減少空間和時(shí)間開銷,使模型效率均優(yōu)于傳統(tǒng)算法和文獻(xiàn)[2]的算法;級(jí)聯(lián)階段時(shí),文獻(xiàn)[5]的算法效率最低,其他幾種方法的效率基本持平,傳統(tǒng)方法效率最高。

        4 實(shí)驗(yàn)

        4.1 數(shù)據(jù)集和算法選擇

        4.1.1 參與實(shí)驗(yàn)的數(shù)據(jù)集

        實(shí)驗(yàn)的圖像數(shù)據(jù)集選擇手寫數(shù)字識(shí)別Mnist[12],十分類,分別為數(shù)字0到9;人臉識(shí)別Olivettiface[13],四十分類,四十張不同的人臉;下面列舉出了部分圖像數(shù)據(jù),如圖8、圖9所示。高維數(shù)據(jù)集選擇手部運(yùn)動(dòng)數(shù)據(jù)Semg[14],六分類;影評(píng)數(shù)據(jù)Imdb[15],二分類。低維數(shù)據(jù)集選擇收入預(yù)測(cè)數(shù)據(jù)Adult[16],二分類;字母識(shí)別數(shù)據(jù)Letter[17],二十六分類;酵母菌種類預(yù)測(cè)數(shù)據(jù)Yeast[18],十分類。其中Semg 數(shù) 據(jù) 集 選 取Database 2 中 的male_day_1.mat、male_day_2.mat 進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集和測(cè)試集以0.8 的比例來(lái)劃分;Mnist、Imdb數(shù)據(jù)集均選取原數(shù)據(jù)集的一萬(wàn)條數(shù)據(jù)進(jìn)行訓(xùn)練,兩千條數(shù)據(jù)進(jìn)行測(cè)試。本文數(shù)據(jù)集的具體描述如表1所示。

        表1 數(shù)據(jù)集具體描述

        4.1.2 參與實(shí)驗(yàn)的算法

        目前深度森林的改進(jìn)算法已有多種,其中文獻(xiàn)[2]和文獻(xiàn)[3]對(duì)多粒度掃描部分改進(jìn),但是后者只針對(duì)于圖像數(shù)據(jù)做出了改進(jìn),適用性較小,故選擇文獻(xiàn)[2]的算法參與實(shí)驗(yàn),和CSDF滑步值分別取1、2、3時(shí)的CSDF-1、CSDF-2、CSDF-3 的算法,文獻(xiàn)[4]和文獻(xiàn)[5]的算法對(duì)于級(jí)聯(lián)部分做出改進(jìn),故也將其加入對(duì)比實(shí)驗(yàn),共7 種算法,分別是DF 算法、文獻(xiàn)[2]、文獻(xiàn)[4]、文獻(xiàn)[5]的算法以及CSDF 的3 種算法。低維數(shù)據(jù)由于特征數(shù)量較少,則沒(méi)有必要進(jìn)行環(huán)狀多粒度掃描。文獻(xiàn)[2]和文獻(xiàn)[5]的算法在級(jí)聯(lián)階段改進(jìn)方法是相同的,故低維數(shù)據(jù)集上的實(shí)驗(yàn)算法共4 種,分別是DF 算法、文獻(xiàn)[4]、文獻(xiàn)[5]的算法以及CSDF算法。所有實(shí)驗(yàn)結(jié)果均為平均結(jié)果。

        4.2 實(shí)驗(yàn)參數(shù)

        每個(gè)森林包括100棵子樹,隨機(jī)森林隨機(jī)選取高維數(shù)據(jù)的特征數(shù)為(d為特征數(shù)量),為了公平起見(jiàn),實(shí)驗(yàn)采用和傳統(tǒng)模型同樣的窗口設(shè)置,Mnist 數(shù)據(jù)集的窗口大小分別為13×13、10×10、7×7,Olivettiface數(shù)據(jù)集的窗口大小分別為32×32、16×16、8×8,其他數(shù)據(jù)集的窗口大小分別為d/4、d/8、d/16,并且文獻(xiàn)[2]模型每次抽取的窗口大小和抽取窗口次數(shù)都應(yīng)與傳統(tǒng)深度森林模型相同。級(jí)聯(lián)森林中,每層包含2 個(gè)隨機(jī)森林和2 個(gè)完全隨機(jī)森林,高維數(shù)據(jù)實(shí)驗(yàn)均采用3 折交叉驗(yàn)證,低維數(shù)據(jù)實(shí)驗(yàn)均采用5 折交叉驗(yàn)證。實(shí)驗(yàn)的窗口大小如表2所示。

        表2 數(shù)據(jù)集窗口大小設(shè)置

        4.3 實(shí)驗(yàn)平臺(tái)

        計(jì)算機(jī)配置如下:Intel?CoreTMi7-6700,3.40 GHz處理器,16 GB內(nèi)存,8核CPU。軟件環(huán)境為Windows 7系統(tǒng)下的Python3.5。

        4.4 實(shí)驗(yàn)結(jié)果

        4.4.1 高維數(shù)據(jù)結(jié)果及分析

        圖8 Mnist數(shù)據(jù)集部分?jǐn)?shù)據(jù)

        圖9 Olivettiface數(shù)據(jù)集部分?jǐn)?shù)據(jù)

        圖10 圖像數(shù)據(jù)的準(zhǔn)確率對(duì)比

        圖11 圖像數(shù)據(jù)的運(yùn)行時(shí)間對(duì)比

        圖12 序列數(shù)據(jù)的準(zhǔn)確率對(duì)比

        圖13 序列數(shù)據(jù)的運(yùn)行時(shí)間對(duì)比

        從圖10~圖13 可看出,對(duì)Mnist 數(shù)據(jù),文獻(xiàn)[2]算法準(zhǔn)確率在93.00%左右,而另外幾種算法的準(zhǔn)確率在96.90%左右;對(duì)于Olivettiface 數(shù)據(jù)集,文獻(xiàn)[2]算法準(zhǔn)確率在92.50%左右,另外幾種算法的準(zhǔn)確率在96.25%左右,文獻(xiàn)[2]較低的原因是處理維數(shù)較多的數(shù)據(jù)時(shí),由于特征是隨機(jī)抽取,無(wú)法判斷轉(zhuǎn)換后特征的有效程度,故維數(shù)越多時(shí),不確定性越大,對(duì)準(zhǔn)確率的影響也會(huì)越大。本文算法對(duì)高維數(shù)據(jù)中的圖像數(shù)據(jù)集的準(zhǔn)確率提升幅度較小,究其原因,一是圖像數(shù)據(jù)的特征之間有關(guān)聯(lián),二是邊緣部分所攜帶的信息基本相同,非冗余信息大部分位于圖像中間,所以轉(zhuǎn)換出的特征不夠有效,導(dǎo)致算法準(zhǔn)確率的提升有限。對(duì)于序列數(shù)據(jù),Semg 數(shù)據(jù)集在傳統(tǒng)模型上約為71.25%,文獻(xiàn)[2]模型上有所降低,66.00%左右,其他模型的結(jié)果基本與原模型持平,本文算法最高可達(dá)到73.54%左右。Imdb 數(shù)據(jù)集在傳統(tǒng)模型上約為54.10%,在文獻(xiàn)[2]模型上52.00%左右,其他模型的結(jié)果同樣基本與原模型持平,本文算法最高可達(dá)到57.85%左右。由于充分關(guān)注了每一維的特征,并轉(zhuǎn)換出對(duì)應(yīng)的概率向量,所以提升比較樂(lè)觀,文獻(xiàn)[4]、文獻(xiàn)[5]的算法基本持平的原因在于二者在掃描階段時(shí)方法是相同的,故轉(zhuǎn)換的特征向量也基本相同。運(yùn)行時(shí)間方面,以圖像數(shù)據(jù)Minst 為例,當(dāng)步長(zhǎng)取值為1時(shí),原模型運(yùn)行時(shí)間為2.3 h左右,文獻(xiàn)[2]的模型由于產(chǎn)生的特征子集數(shù)量和原模型相同,故時(shí)間也大致相同,本文算法由于重視了邊緣數(shù)據(jù),所以產(chǎn)生了更多的特征子集,時(shí)間達(dá)到了4 h 左右。當(dāng)步長(zhǎng)取值設(shè)置為2 時(shí),雖然準(zhǔn)確率較前者有所降低,但仍高于原始模型,而且時(shí)間僅需1.1 h。究其原因,步長(zhǎng)為2 的新模型生成的特征子集數(shù)量少于原模型,只是原來(lái)的1/4,這大大降低了送入級(jí)聯(lián)森林的特征維數(shù)。當(dāng)步長(zhǎng)為3時(shí),準(zhǔn)確率已較為接近原始模型。高維數(shù)據(jù)僅以Semg為例,步長(zhǎng)為1 時(shí),原始模型運(yùn)行時(shí)間為9.5 h 左右,文獻(xiàn)[2]的模型是隨機(jī)抽取子集,時(shí)間為6.5 h 左右,本文算法產(chǎn)生了更多的特征子集,時(shí)間達(dá)到了13 h 左右。當(dāng)步長(zhǎng)取值設(shè)置為2 時(shí),時(shí)間為3.6 h。充分說(shuō)明了當(dāng)數(shù)據(jù)的維數(shù)越多時(shí),本文的算法優(yōu)勢(shì)越明顯,時(shí)間復(fù)雜度越低。綜合考慮,步長(zhǎng)為2 的模型更優(yōu)越,既通過(guò)重視每一維特征提高了準(zhǔn)確率,又減少了時(shí)間和空間復(fù)雜度,而且當(dāng)特征維數(shù)越多、數(shù)據(jù)量越大時(shí),這種優(yōu)勢(shì)越為明顯。

        4.4.2 低維數(shù)據(jù)結(jié)果及分析

        圖14~圖17 的結(jié)果表明,Adult 數(shù)據(jù)集在四種算法上的準(zhǔn)確度基本持平,分別為86.26%、86.23%、86.32%、86.37%左右;Letter 數(shù)據(jù)集在四種算法上的準(zhǔn)確度約為97.31%、97.45%、97.38%、97.43%左右;Yeast 數(shù)據(jù)集在四種算法上的準(zhǔn)確度約為61.62%、61.28%、61.58%、61.55%左右,并且波動(dòng)較大,主要原因是此數(shù)據(jù)集的特征維數(shù)較少,并且訓(xùn)練樣本不夠多;總體來(lái)說(shuō),低維數(shù)據(jù)自身的維數(shù)較少,特征不夠有效,對(duì)于相似的數(shù)據(jù),不能達(dá)到準(zhǔn)確的分類,故四種算法的性能相當(dāng)。模型的收斂速度大致可以用模型進(jìn)入的層數(shù)判斷,進(jìn)入的層數(shù)越少,也就意味著模型的收斂速度越快,可以盡早停止不必要的訓(xùn)練。從實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)的深度森林模型平均進(jìn)入5 層,文獻(xiàn)[5]的模型平均進(jìn)入6 層,其他兩種模型都平均進(jìn)入5.3層。由此可知,對(duì)于低維數(shù)據(jù),四種改進(jìn)模型都有著相當(dāng)?shù)男阅?,而且后兩種算法收斂速度略快于第二種算法。具體的實(shí)驗(yàn)結(jié)果準(zhǔn)確率對(duì)比數(shù)據(jù)如表3、表4所示。

        圖14 Adult數(shù)據(jù)的準(zhǔn)確率對(duì)比

        圖15 Letter數(shù)據(jù)的準(zhǔn)確率對(duì)比

        圖16 Yeast數(shù)據(jù)的準(zhǔn)確率對(duì)比

        圖17 低維數(shù)據(jù)的層數(shù)對(duì)比

        表3 高維數(shù)據(jù)實(shí)驗(yàn)結(jié)果對(duì)比 %

        表4 低維數(shù)據(jù)實(shí)驗(yàn)結(jié)果對(duì)比 %

        5 結(jié)束語(yǔ)

        本文針對(duì)深度森林算法在多粒度掃描階段不能充分將樣本兩端數(shù)據(jù)的信息轉(zhuǎn)換成對(duì)應(yīng)的特征以及在級(jí)聯(lián)森林階段每層獲得增強(qiáng)特征較少的問(wèn)題,提出了一種環(huán)狀多粒度掃描的算法,通過(guò)此方法在一定程度上充分轉(zhuǎn)換特征向量,構(gòu)造出較完備的特征,并在不同數(shù)據(jù)集上的實(shí)驗(yàn),驗(yàn)證了此方法可以提高深度森林模型的性能。但這種方法也存在著不足,首先CSDF方法若對(duì)原始數(shù)據(jù)進(jìn)行充分轉(zhuǎn)換,就會(huì)生成更多特征子集,一定程度上提高時(shí)間和空間復(fù)雜度;其次級(jí)聯(lián)部分的表征階段雖然選擇了較為有效的特征,但是也不能對(duì)模型起到較大程度的影響,算法的性能仍然提高幅度有限。下一步將圍繞如何兼顧掃描階段的效率和準(zhǔn)確率以及更有效、更全面地選擇級(jí)聯(lián)層的有效表征的問(wèn)題來(lái)展開研究。

        猜你喜歡
        級(jí)聯(lián)子集準(zhǔn)確率
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        關(guān)于奇數(shù)階二元子集的分離序列
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
        電子制作(2016年15期)2017-01-15 13:39:09
        基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
        每一次愛(ài)情都只是愛(ài)情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        JIZZJIZZ国产| 女的扒开尿口让男人桶30分钟| 国产乱人视频在线播放| 亚洲区在线播放| 91青青草免费在线视频| 国产精品高潮呻吟av久久黄| 97在线观看播放| 波多野结衣一区| 免费人成黄页网站在线观看国产| 国产免费人成视频网站在线18 | 日韩人妻无码精品久久| 欧美激情在线不卡视频网站| 老肥熟女老女人野外免费区 | 少妇被粗大的猛进69视频| 老子影院午夜伦不卡| 国产剧情av麻豆香蕉精品| 久久er这里都是精品23| 亚洲中文字幕精品久久吃奶| 熟女少妇内射日韩亚洲| 91视频88av| 中文字幕一区二区三区喷水| 人妖一区二区三区四区| 国产女主播喷水视频在线观看| 国产精品久久久久久久专区| 日本女优久久精品观看| 国内精品久久久久伊人av| 国产剧情国产精品一区| 好爽要高潮了在线观看| 亚洲国产精品不卡av在线| 麻豆果冻传媒在线观看| 亚洲欧美日韩一区二区在线观看| 亚洲女人毛茸茸的视频| 亚洲女同一区二区| 国产成人v爽在线免播放观看| 免费在线av一区二区| 亚洲开心婷婷中文字幕| 爱情岛论坛亚洲品质自拍hd| 无遮挡粉嫩小泬| 99久久婷婷国产亚洲终合精品| 乌克兰少妇xxxx做受野外| 国内精品久久久久国产盗摄 |