亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合近似馬爾科夫毯的隨機(jī)森林優(yōu)化算法

        2023-10-30 08:57:50羅計(jì)根熊玲珠杜建強(qiáng)熊旺平李郅琴
        關(guān)鍵詞:馬爾科夫子集決策樹

        羅計(jì)根,熊玲珠,杜建強(qiáng),聶 斌,熊旺平,李郅琴

        1.江西中醫(yī)藥大學(xué) 計(jì)算機(jī)學(xué)院,南昌 330004

        2.江西師范大學(xué) 信息化辦公室,南昌 330022

        隨機(jī)森林(random forest,RF)[1]是集成分類模型,通過多棵決策樹共同投票使模型具有高穩(wěn)定性,同時(shí)也因其強(qiáng)大的分類能力使得它在各類數(shù)據(jù)挖掘比賽中脫穎而出,成為各家競(jìng)相追捧的算法之一。在惡意軟件檢測(cè)[2]、情境感知推薦[3]、疾病診斷[4]中有廣泛的應(yīng)用。

        RF算法具有高準(zhǔn)確率、泛化性強(qiáng)等諸多優(yōu)勢(shì),但也存在不足。在遇到高維數(shù)據(jù)的時(shí)候,因其特征隨機(jī)抽取機(jī)制,導(dǎo)致抽取的特征和類別變量相關(guān)性差,此外,隨機(jī)抽取的自變量可能存在高度冗余,直接影響隨機(jī)森林隨機(jī)特征子集的質(zhì)量,導(dǎo)致隨機(jī)森林的收斂性減弱,降低隨機(jī)森林模型的準(zhǔn)確度、泛化能力及性能。因此,隨機(jī)抽取的特征子集優(yōu)劣是保證RF高準(zhǔn)確率的前提。針對(duì)數(shù)據(jù)維度高,特征間高度冗余給隨機(jī)森林模型帶來的準(zhǔn)確率不高的問題,本文提出一種融合近似馬爾科夫毯的隨機(jī)森林優(yōu)化算法。

        1 相關(guān)研究

        針對(duì)隨機(jī)森林模型隨機(jī)抽取特征時(shí)所造成的自變量間存在相關(guān)性和冗余性等問題,Wu 等人[5]指出RF 算法,在特征子集選擇時(shí),會(huì)有大量不相關(guān)的特征進(jìn)入特征子空間,從而影響分類器性能,提出一種分層采樣特征子集空間的RF改進(jìn)算法,分層采樣的RF方法可以獲得更高的分類正確率;姚登舉[6]針對(duì)臨床高維數(shù)據(jù)和特征間高度相關(guān)性等問題,提出在Filter 式特征選擇基礎(chǔ)上構(gòu)建RF,先用RF 算法變量重要性對(duì)特征排序,然后通過迭代實(shí)驗(yàn)確定特征選擇的閾值,選擇特征重要性較大的特征構(gòu)成RF的特征子集;針對(duì)高維特征冗余問題,姚登舉等人還提出一種基于RF和序列聯(lián)合搜索策略的Wrapper式特征選擇算法,該算法利用RF善于從具有小邊際效應(yīng)和復(fù)雜相互作用的特征中識(shí)別主要相關(guān)特征的能力,以RF變量重要性分?jǐn)?shù)作為特征重要性度量,采用序列后向和序列前向相結(jié)合的序列聯(lián)合特征搜索策略選擇特征子集,以特征子集上分類器的分類正確率評(píng)價(jià)特征子集的質(zhì)量,最后選擇分類正確率最高的特征子集作為最優(yōu)特征子集;馮盼峰等人[7]提出兩階段逐步變量選擇的隨機(jī)森林算法,第一階段提出變量重要性排序,目的是進(jìn)一步提高重要變量與無關(guān)或者冗余變量的區(qū)分度,第二階段完成隨機(jī)森林的構(gòu)建。

        此外Amaratunga 等人[8]提出一種特殊RF 算法,該方法加權(quán)隨機(jī)采樣和特征排序方法提高RF 的分類性能,在10組真實(shí)的基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)表明,特殊RF 方法的分類性能優(yōu)于基本的RF 方法;Svetnik 等人[9]通過交叉驗(yàn)證的方法計(jì)算數(shù)據(jù)每個(gè)特征的重要性評(píng)分并排序,重復(fù)20 次選取前50%的特征建立RF 模型;Genuer 等人[10]提出“兩步法”構(gòu)建RF 模型,第一步對(duì)特征降序排列,初步剔除不重要特征,第二步選擇降序排列前K個(gè)變量,建立RF 算法,最終選擇袋外數(shù)據(jù)驗(yàn)證誤差最小的模型;同樣Díaz-Uriarte 等人[11]提出建立RF判別模型,該方法通過計(jì)算特征重要性評(píng)分,不斷剔除20%的變量,對(duì)剩余的特征建立RF判別模型,最后選擇所含變量相對(duì)最少,分類精度最高的RF 模型。通過以上研究看出,現(xiàn)階段對(duì)于高維樣本構(gòu)建RF 模型存在的特征相關(guān)性較差且存在冗余的問題,大部分研究集中剔除重要性偏低的屬性,但會(huì)造成構(gòu)建RF時(shí),變量隨機(jī)抽樣存在多樣性不高的情況,導(dǎo)致RF 的泛化能力不強(qiáng)的問題。

        基于上述問題,本文在建立RF 算法隨機(jī)抽取特征的多樣性的基礎(chǔ)上,消除特征相關(guān)和冗余特征的干擾,提出一種融合近似馬爾科夫毯的隨機(jī)森林優(yōu)化算法AMBRF(random forest model combining with approximate Markov blanket),利用近似馬爾科夫毯對(duì)原始特征構(gòu)建相似特征組,得到不同的特征組合,決策樹節(jié)點(diǎn)分裂前按照比例從每個(gè)相似特征組隨機(jī)抽取一定比例的特征,得到最佳特征子集,完成決策樹的構(gòu)建,重復(fù)上述過程多次,達(dá)到隨機(jī)森林規(guī)模,再根據(jù)改進(jìn)的OOB測(cè)試方法得到最終模型評(píng)價(jià)結(jié)果。

        2 隨機(jī)森林

        隨機(jī)森林(RF)是一種經(jīng)典的集成分類模算法,由多棵決策樹(decision tree,DT)構(gòu)成。RF對(duì)數(shù)據(jù)采取有放回隨機(jī)抽樣方法產(chǎn)生訓(xùn)練樣本,假設(shè)數(shù)據(jù)集D的樣本量為M,采用Bootstrap 有放回抽樣時(shí),單個(gè)樣本被抽中的概率為1/M,通過抽取M次之后,單個(gè)樣本沒有被抽取到的概率為(1-1/M)M。只要樣本量M足夠大,數(shù)據(jù)集D會(huì)留下37%的樣本未被抽中,這部分稱為袋外數(shù)據(jù)(out of bag,OOB),用于模型評(píng)估。然后,訓(xùn)練樣本采用隨機(jī)抽樣的方法抽取特征子集,特征抽取個(gè)數(shù)一般為,n為數(shù)據(jù)集D的特征個(gè)數(shù)。構(gòu)建完多棵決策樹后形成隨機(jī)森林,通過對(duì)單個(gè)樣本結(jié)果投票的方式得到測(cè)試樣本的最終結(jié)果。隨機(jī)森林算法的偽代碼如下所示。

        算法1隨機(jī)森林(RF)算法

        3 近似馬爾科夫毯

        針對(duì)RF 算法在高維數(shù)據(jù)集上表現(xiàn)出的不足,特征選擇是有效解決辦法之一。特征可以分為無關(guān)特征、弱相關(guān)且冗余、弱相關(guān)非冗余、強(qiáng)相關(guān)特四種[12]。好的特征選擇方法則需要去無關(guān)、弱相關(guān)且冗余,保留弱相關(guān)非冗余、強(qiáng)相關(guān)特征。就近似馬爾科夫毯[13(]approximate Markov blanket,AMB)方法給出如下定義:

        設(shè)特征集合F、特征fi(fi∈F)、特征子集Mi?F(Mi≠fi),分類的類別標(biāo)簽為C,概率為P。

        定義1(強(qiáng)相關(guān)特征)特征fi是強(qiáng)相關(guān)特征時(shí)候,當(dāng)且僅當(dāng)[13]:

        強(qiáng)相關(guān)特征是構(gòu)建隨機(jī)森林模型必不可少的,否則將影響數(shù)據(jù)分布。

        定義2(弱相關(guān)特征)特征fi是弱相關(guān)特征時(shí),當(dāng)且僅當(dāng)[14]:

        定義3(無關(guān)特征)特征fi是無關(guān)特征當(dāng)且僅當(dāng)[14]:

        最優(yōu)特征子集不能包含無關(guān)特征。

        定義4(馬爾科夫毯)特征子集Mi是fi的馬爾科夫毯[15]當(dāng)且僅當(dāng)在給定Mi條件下面特征fi和FMi-{fi}獨(dú)立,即:

        如果特征子集Mi是特征fi的馬爾科夫毯,則fi一個(gè)特征即可表達(dá)特征子集Mi的全部信息,也包括特征子集Mi對(duì)類別C的表達(dá),即當(dāng)fi存在的時(shí)候,形成的Mi對(duì)分類沒有貢獻(xiàn)能力,可以選擇丟棄,視Mi為fi的冗余特征,強(qiáng)相關(guān)特征是不存在馬爾科夫毯。

        定義5(近似馬爾科夫毯)特征fi是特征fj的近似馬爾科夫毯[16]的條件為:

        其中,表達(dá)式J(fi,C)表示特征fi和類別C的相關(guān)性,J(fi,fj)表示fi和fj的相關(guān)性,本文中使用J(·)選擇最大信息系數(shù)[17(]maximal information coefficient,MIC)計(jì)算,如公式(1)所示:

        其中,D={(f1i,f2i),i=1,2,…,n} 是有序?qū)?,X表示將f1的值域劃為X段,Y表示將f2的值域劃分為Y段,XY <B(n)表示網(wǎng)格數(shù)目不大于B(n),分子I*(D,X,Y)表示不同X×Y網(wǎng)格劃分下的互信息最大值,分母ln(min(X,Y))表示將不同劃分下最大互信息歸一化的值。MIC(D)∈[0,1],越接近1 表示兩者相關(guān)性越高,反之相關(guān)性越低。

        定義6(相似特征)特征fj是fi特征的相似特征[18]的條件是:fi是fj的近似馬爾科夫毯。

        fi和fj擁有相似的信息,都是對(duì)類別標(biāo)簽的同一部分信息進(jìn)行表達(dá)。

        定義7(相似特征組)相似特征組是近似馬爾科夫毯fi和fj的所有相似特征的集合。

        為了使得RF算法在隨機(jī)抽取到的特征與類別C具有相關(guān)性且滿足RF算法特征多樣性的要求,利用AMB構(gòu)造相似特征組。算法偽代碼如下所示。

        算法2基于近似馬爾科夫毯的相似特征組聚類算法

        4 融合近似馬爾科夫毯的隨機(jī)森林模型

        RF 算法強(qiáng)大的分類能力離不開兩個(gè)隨機(jī),隨機(jī)之一即為特征隨機(jī)抽取,RF在處理高維樣本時(shí),極有可能抽到大部分特征都是無關(guān)特征或者弱相關(guān)冗余特征,將造成RF算法精度降低,泛化能力減小。AMB算法可有效地將相關(guān)特征聚類,形成相似特征組,即在相似特征組中,隨意抽取一定比例特征fi可代表該整組特征的全部信息,也可以包含對(duì)分類標(biāo)簽C的表達(dá)。融合近似馬爾科夫毯的隨機(jī)森林模型先利用AMB算法構(gòu)造相似特征組G={G1,G2,…,Gp},再根據(jù)特征比例從每組特征Gi隨機(jī)抽取特征構(gòu)造RF算法單棵決策樹的劃分屬性。該模型構(gòu)造流程如圖1所示。

        圖1融合近似馬爾科夫毯的隨機(jī)森林模型(AMBRF)流程圖,輸入樣本的特征維度是n,根據(jù)文獻(xiàn)[19],單個(gè)決策樹分裂屬性個(gè)數(shù)定為,由AMB 算法得到p相似特征組,其中相似特征組Gi包含xi個(gè)特征,則按照比例應(yīng)從該相似特征組Gi中隨機(jī)抽取個(gè)屬性,按照同樣的思想從其他相似特征組中抽取部分屬性,構(gòu)建單棵決策樹。重復(fù)上述過程多次,直到滿足隨機(jī)森林規(guī)模后停止構(gòu)樹。融合近似馬爾科夫毯的隨機(jī)森林(AMBRF)算法偽代碼如下所示。

        算法3融合近似馬爾科夫毯的隨機(jī)森林算法

        當(dāng)樣本數(shù)量m足夠大的時(shí)候,理想情況下總會(huì)留下約37%的樣本抽不到而成為OOB 數(shù)據(jù),但是現(xiàn)實(shí)中樣本有限,如果以O(shè)OB數(shù)據(jù)作為測(cè)試樣本,存在測(cè)試樣本不足的情況。因此對(duì)隨機(jī)森林的精確測(cè)試上,改變傳統(tǒng)OOB 測(cè)試的方法,提出樣本單棵決策樹輪空測(cè)試法進(jìn)行實(shí)驗(yàn)驗(yàn)證。具體思想為:遍歷所有樣本,取到樣本i之后,遍歷RF中所有決策樹,如果樣本i不作為第j棵決策樹的訓(xùn)練樣本,則進(jìn)行測(cè)試,得到該樣本的預(yù)測(cè)標(biāo)簽,直到所有決策樹預(yù)測(cè)完之后,投票表決樣本i的類別標(biāo)簽,直至所有樣本驗(yàn)證完成結(jié)束算法。

        假設(shè)訓(xùn)練集樣本個(gè)數(shù)為m,構(gòu)建為k棵CART決策樹,特征數(shù)為n,原始隨機(jī)森林的時(shí)間復(fù)雜度為O(kmn(logm)2)[20]。本文提出的AMBRF算法共分成兩部分:構(gòu)建近似馬爾科夫毯相似特征組和建立隨機(jī)森林模型。對(duì)于第一部分,其時(shí)間主要花在計(jì)算兩個(gè)特征之間的相關(guān)性MIC值,時(shí)間復(fù)雜度為O(m2.4)[21],因此本部分的時(shí)間復(fù)雜度為O(nm2.4),第二部分為隨機(jī)森林構(gòu)建,設(shè)此階段需要從p個(gè)相似特征組中抽取部分特征,時(shí)間復(fù)雜度為O(kpmn(logm)2),綜上可知,本文提出AMBRF算法的時(shí)間復(fù)雜度為兩部分之和,即O(nm2.4+kpmn(logm)2)。

        5 實(shí)驗(yàn)結(jié)果及分析

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        為了客觀且全面地驗(yàn)證本文提出的融合近似馬爾科夫毯的隨機(jī)森林模型(AMBRF)的優(yōu)勢(shì),分析AMBRF在不同特征維度的數(shù)據(jù)集適應(yīng)性,選取UCI上12 組不同維度的數(shù)據(jù)集,表1為12組數(shù)據(jù)集的基本信息。

        表1 UCI數(shù)據(jù)集Table 1 UCIdata set

        5.2 評(píng)價(jià)指標(biāo)

        本文提供的模型評(píng)價(jià)指標(biāo)有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F 值,依據(jù)表2 所示的混淆矩陣,可以得到這些評(píng)價(jià)指標(biāo)的計(jì)算公式:

        表2 混淆矩陣Table 2 Confusion matrix

        為全面評(píng)價(jià)本文提出的AMBRF算法,從近似馬爾科夫毯構(gòu)建相似特征組時(shí)間、特征相關(guān)性的誤差平方和、AMBRF 和其他分類算法各類評(píng)價(jià)指標(biāo)等角度分析本文實(shí)驗(yàn)。

        5.3 實(shí)驗(yàn)結(jié)果及分析

        本實(shí)驗(yàn)設(shè)備采用Intel?CoreTMi7-10510U CPU @2.30 GHz,RAM 16.0 GB,64 位Windows10 操作系統(tǒng),對(duì)以上12組實(shí)驗(yàn)數(shù)據(jù),共設(shè)置3組對(duì)比實(shí)驗(yàn),就以上4個(gè)評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析。

        實(shí)驗(yàn)一為構(gòu)建基于近似馬爾科夫毯的相似特征組所耗時(shí)間和均方根誤差RMSE分析,實(shí)驗(yàn)結(jié)果見表3所示。

        表3 構(gòu)建基于AMB的相似特征組所耗時(shí)間和RMSE分析Table 3 Time and RMSE analysis of building AMB based feature similarity groups

        由表3 的實(shí)驗(yàn)結(jié)果可知,RMSE 在各組數(shù)據(jù)上均保持在較低的水平,表明構(gòu)建基于AMB 的相似特征組和因變量的相關(guān)性較大,能很好地反映各個(gè)相似特征組對(duì)因變量的表達(dá)具有較高的全面性。

        結(jié)合表1的數(shù)據(jù)信息內(nèi)容和表3的實(shí)驗(yàn)數(shù)據(jù)可以看出,構(gòu)建基于AMB 的相似特征組所耗時(shí)間跟樣本數(shù)量和特征數(shù)量存在明顯的關(guān)系,TT3600 數(shù)據(jù)集的樣本量達(dá)到3 600條,特征數(shù)量達(dá)4 813個(gè),是12個(gè)數(shù)據(jù)集中規(guī)模最大,因此在構(gòu)建該數(shù)據(jù)集的相似特征組所耗時(shí)間為2 033.724 2 s。AFTS數(shù)據(jù)的樣本量雖然達(dá)到60 000條,但是因?yàn)槠涮卣鱾€(gè)數(shù)只有170個(gè),因此所構(gòu)建的相似特征組就少,耗費(fèi)時(shí)間較少,只要42.437 7 s。

        實(shí)驗(yàn)二為RF和AMBRF以及文獻(xiàn)[22]利用Fisher系數(shù)對(duì)特征排序,再按組隨機(jī)抽取特征的FisherRF三組算法的各種評(píng)價(jià)指標(biāo)對(duì)比實(shí)驗(yàn),表4即對(duì)比實(shí)驗(yàn)的結(jié)果。

        表4 RF和AMBRF算法的準(zhǔn)確性對(duì)比實(shí)驗(yàn)Table 4 Accuracy comparison test of RF and AMBRF algorithms

        為了直觀地展示三個(gè)算法在12 組數(shù)據(jù)中的效果,繪制如圖2所示的柱狀圖。

        圖2 各組數(shù)據(jù)集對(duì)比實(shí)驗(yàn)柱狀圖Fig.2 Comparison test histogram for each data set

        根據(jù)表4和圖2所示,RF和FisherRF、AMBRF在各組數(shù)據(jù)上的對(duì)比實(shí)驗(yàn)結(jié)果可以看出,AMBRF 在高維數(shù)據(jù)中各項(xiàng)評(píng)價(jià)指標(biāo)上均有明顯的提升,具體分析如下:

        (1)在German、breast_data、dermatology、HVWN 四組低維數(shù)據(jù)集上,AMBRF算法各項(xiàng)指標(biāo)均不如傳統(tǒng)RF和文獻(xiàn)方法FisherRF,但是三種算法在綜合指標(biāo)F 值上相差不大,甚至接近。因?yàn)樗慕M數(shù)據(jù)的維度相對(duì)較低,均在100 維以下,特征之間的冗余度不高,特征之間卻存在不相關(guān)性,所以FisherRF 更加適宜于這種情況,由實(shí)驗(yàn)結(jié)果也可反映出這種問題。而AMBRF 算法在構(gòu)建基于AMB 的相似特征組時(shí),由于需要從每個(gè)特征組合中隨機(jī)抽取一定比例的特征個(gè)數(shù),這將導(dǎo)致構(gòu)建每棵樹的特征多樣性減少,使得AMBRF算法的決策樹多樣性減弱,導(dǎo)致整個(gè)模型的效果偏低。

        (2)對(duì)于Clean、AFTS、Arrhythmia、PSF 數(shù)據(jù)中,特征維度在100到1 000之間,這四組數(shù)據(jù)中,本文提出的AMBRF 和文獻(xiàn)FisherRF 各有所長(zhǎng)。在Clean、AFTS 這兩組數(shù)據(jù)中,AMBRF 的各項(xiàng)評(píng)價(jià)指標(biāo)高于FisherRF 算法;在Arrhythmia、PSF 這兩組數(shù)據(jù)中,F(xiàn)isherRF 的各項(xiàng)評(píng)價(jià)指標(biāo)高于AMBRF算法;為了驗(yàn)證在特征維度適中情況下,AMBRF 和FisherRF 算法的優(yōu)劣性,設(shè)置AMB構(gòu)建相似組對(duì)比實(shí)驗(yàn),根據(jù)相似組個(gè)數(shù)、每個(gè)相似組的特征個(gè)數(shù)等角度解釋造成上述現(xiàn)象的原因。

        如表5 所示,通過查看每個(gè)相似特征組的特征個(gè)數(shù),以及每個(gè)數(shù)據(jù)集構(gòu)建的相似組個(gè)數(shù)可知,Clean數(shù)據(jù)集的每個(gè)相似組中均有多個(gè)屬性,特征間的冗余性較大,同理AFTS數(shù)據(jù)集的每個(gè)相似組也存在這種特征之間冗余性較大的情況。但在Arrhythmia、PSF 兩組數(shù)據(jù)上,構(gòu)建的相似組更多,存在多個(gè)相似組只有1 個(gè)特征的情況(Arrhythmia數(shù)據(jù)集構(gòu)建了18個(gè)特征組均只含有1個(gè)特征,PSF數(shù)據(jù)集構(gòu)建了6個(gè)特征組均只含有1個(gè)特征,而Clean和AFTS兩組數(shù)據(jù)集都只存在1個(gè)相似組含有1個(gè)特征,相似組內(nèi)特征越少冗余性越低),根據(jù)算法3可知,從這些相似特征組中抽取的特征子集較為單一,多樣性不高。相比于Clean和AFTS數(shù)據(jù)集,Arrhythmia、PSF 數(shù)據(jù)集特征維度較高,但是特征間的冗余性不大。綜上分析,AMBRF 更加適用于存在大量冗余特征的數(shù)據(jù)集,對(duì)特征存在高度冗余的數(shù)據(jù)集有更好的效果,也可反映出文獻(xiàn)算法FisherRF 可以解決特征無關(guān)特征對(duì)隨機(jī)森林構(gòu)建的干擾,對(duì)特征冗余性較高的數(shù)據(jù)集效果不明顯。

        表5 AMB構(gòu)建相似組對(duì)比實(shí)驗(yàn)詳情Table 5 Details of comparative experiment of similar groups constructed by AMB

        (3)在剩下的4 組數(shù)據(jù)中,ABD 數(shù)據(jù)的特征個(gè)數(shù)達(dá)到8 266 維,其余三組數(shù)據(jù)QAR、TT3600、DB 也都超過1 000維,此時(shí)改進(jìn)算法AMBRF的效果明顯優(yōu)于FisherRF和傳統(tǒng)RF。在數(shù)據(jù)集QAR 上,改進(jìn)算法AMBRF 的綜合評(píng)價(jià)指標(biāo)F 值為0.826 0,傳統(tǒng)RF 的F 值為0.665 2,F(xiàn)isherRF 的F 值0.815 3,均有所提升;在數(shù)據(jù)集TT3600上,AMBRF 的綜合評(píng)價(jià)指標(biāo)F 值為0.708 5,傳統(tǒng)RF 的F 值只有0.295 8,F(xiàn)isherRF 的F 值僅為0.390 2。在這組數(shù)據(jù)集上,AMBRF相較其他算法提升幅度達(dá)到31%;在數(shù)據(jù)集DB 上,改進(jìn)算法AMBRF 的綜合評(píng)價(jià)指標(biāo)F 值為0.938 5,傳統(tǒng)RF 的F 值為0.760 1,F(xiàn)isherRF 的F 值為0.845 6,AMBRF 相較其他算法提升幅度達(dá)到9%;數(shù)據(jù)集ABD 上,改進(jìn)算法AMBRF 的綜合評(píng)價(jià)指標(biāo)F 值為0.739 3,傳統(tǒng)RF 的F 值只有0.359 7,F(xiàn)isherRF 的F 值為0.550 8,AMBRF 相較其他算法提升幅度達(dá)到19%。通過上述分析知道,AMBRF 算法在TT3600、ABD 兩組數(shù)據(jù)集上表現(xiàn)異常突出,究其數(shù)據(jù)特點(diǎn)可知,這兩組數(shù)據(jù)均為文本分類任務(wù)構(gòu)建的詞袋模型,特征維度較高且稀疏,存在大量的冗余特征,因此通過隨機(jī)抽取相似特征組中特征可以有效避免傳統(tǒng)RF隨機(jī)抽取特征形成冗余特征子集。

        綜上所述,本文提出的AMBRF算法相比于其他兩種算法具有更好的實(shí)驗(yàn)效果,尤其是對(duì)高維數(shù)據(jù),或者是存在高度冗余特征的數(shù)據(jù)中具有明顯的優(yōu)勢(shì)。

        實(shí)驗(yàn)三為RF、FisherRF和AMBRF三組算法隨機(jī)森林構(gòu)建時(shí)間對(duì)比實(shí)驗(yàn)(不包括相似特征組構(gòu)建時(shí)間),表6展示三個(gè)算法對(duì)比實(shí)驗(yàn)的結(jié)果。

        表6 構(gòu)建隨機(jī)森林的時(shí)間對(duì)比實(shí)驗(yàn)Table 6 Time comparison test of constructing random forest 單位:s

        由表6 可知,當(dāng)特征維度比較低時(shí),RF、FisherRF、AMBRF 三種算法在構(gòu)建隨機(jī)森林消耗時(shí)間更加接近。特征維度較高時(shí),RF 和FisherRF 在構(gòu)建森林時(shí)所耗時(shí)間整體上低于改進(jìn)算法AMBRF 構(gòu)建森林的時(shí)間。這是因?yàn)槭褂肁MBRF構(gòu)建隨機(jī)森林的時(shí)候,要求先構(gòu)建相似特征組,構(gòu)建單棵決策樹的時(shí)候需要遍歷所有的相似組特征,按比例從其中抽取部分特征,合成最優(yōu)特征子集,因此構(gòu)建100 棵樹時(shí),需要重復(fù)上述循環(huán)100 次,導(dǎo)致改進(jìn)算法AMBRF 在建立隨機(jī)森林時(shí)耗費(fèi)的時(shí)間比其他兩種算法更長(zhǎng)。由AMBRF 的時(shí)間復(fù)雜度O(nm2.4+kpmn(logm)2)可知,耗時(shí)的長(zhǎng)短主要由樣本數(shù)量m決定,當(dāng)樣本量較大時(shí),構(gòu)建隨機(jī)森林消耗時(shí)間更長(zhǎng),由TT3600 數(shù)據(jù)集的時(shí)間對(duì)比實(shí)驗(yàn)可以明顯看出,AMBRF構(gòu)建隨機(jī)森林時(shí)間為4 374.47 s,是其他兩種算法的8 倍,從實(shí)驗(yàn)角度驗(yàn)證本文分析的AMBRF 算法時(shí)間復(fù)雜度的正確性。

        6 總結(jié)

        針對(duì)特征的相關(guān)和冗余,影響隨機(jī)森林(RF)隨機(jī)抽取特征的質(zhì)量等問題。本文提出一種融合近似馬爾科夫毯(AMB)的隨機(jī)森林算法(AMBRF),該算法先利用AMB 構(gòu)建多個(gè)相似特征組;再?gòu)拿總€(gè)相似組中按照比例抽取特征形成單棵決策樹的最佳特征子集,重復(fù)上述過程多次。該算法利用AMB消除特征間的相關(guān)性和冗余性,提高隨機(jī)抽取特征的質(zhì)量。通過大量驗(yàn)證性實(shí)驗(yàn)得出本文提出的改進(jìn)算法AMBRF優(yōu)于傳統(tǒng)RF算法及FisherRF算法,對(duì)高維樣本和具有冗余特征的樣本更加切實(shí)可行。但是,對(duì)于特征數(shù)較少的數(shù)據(jù)集會(huì)增加各決策樹之間的相關(guān)性,使決策樹不具備多樣性,效果不佳;AMBRF 構(gòu)建隨機(jī)森林的復(fù)雜度明顯高于其他兩種算法,使得運(yùn)行時(shí)間較大;在今后的工作中,將重點(diǎn)考慮這兩個(gè)問題。

        猜你喜歡
        馬爾科夫子集決策樹
        由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        基于疊加馬爾科夫鏈的邊坡位移預(yù)測(cè)研究
        基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機(jī)沉降中的應(yīng)用
        關(guān)于奇數(shù)階二元子集的分離序列
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹的出租車乘客出行目的識(shí)別
        馬爾科夫鏈在教學(xué)評(píng)價(jià)中的應(yīng)用
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        久久亚洲av成人无码国产 | 免费看黄片的视频在线观看| 久久精品日韩免费视频| 日韩女优图播一区二区| 午夜性色一区二区三区不卡视频 | 午夜av福利亚洲写真集| 一个少妇的淫片免费看 | 女同另类激情在线三区| 久久精品国产亚洲av热九 | 亚洲日韩精品a∨片无码加勒比| 无码国产精品久久一区免费 | 亚洲国产成人无码影院| 亚洲综合精品一区二区三区| 中国亚洲一区二区视频| 亚洲人成人网站在线观看| 国产欧美va欧美va香蕉在线观| 久久亚洲第一视频黄色| av有码在线一区二区三区| 曰批免费视频播放免费| 无码国内精品久久人妻| 最新亚洲av日韩av二区| 亚洲色图在线视频免费观看| 亚洲综合在线观看一区二区三区| 色88久久久久高潮综合影院| 精品少妇无码av无码专区| 国产91中文| 熟女丝袜美腿亚洲一区二区三区| 国产一区二区av免费在线观看| 18禁黄久久久aaa片| 国产色诱视频在线观看| 2022AV一区在线| 美女视频一区二区三区在线 | 国产av激情舒服刺激| av潮喷大喷水系列无码| 久久国产精品免费一区二区| 日韩精品免费av一区二区三区 | 国内激情一区二区视频| 国产成人无码精品久久久免费| 日本大片在线看黄a∨免费| 中文字幕一区韩国三级| 亚洲av熟女天堂久久天堂|