亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于貪婪選擇的半樸素貝葉斯分類器研究

        2018-06-27 07:53:28李玉杰
        關(guān)鍵詞:樸素貝葉斯分類器

        王 輝,張 帆,李玉杰

        (中央民族大學(xué)信息工程學(xué)院,北京 100081)

        0 引言

        數(shù)據(jù)挖掘的深入發(fā)展,賦予數(shù)據(jù)新的意義,通過數(shù)據(jù)的不斷積累和挖掘,可以從數(shù)據(jù)中獲得更多有價(jià)值和有意義的信息,因此數(shù)據(jù)挖掘(Data mining,DM)[1]的重要性尤其突出.樸素貝葉斯分類器(Naive Bayes Classifiers,NBC)[2]作為經(jīng)典的數(shù)據(jù)挖掘算法,在科研領(lǐng)域快速發(fā)展,但NBC假設(shè)屬性間條件獨(dú)立,忽略它們之間應(yīng)用的聯(lián)系.

        對(duì)NBC的改進(jìn)相對(duì)比較發(fā)散,不同應(yīng)用場景下對(duì)NBC的改進(jìn)方式也是千差萬別的,但歸結(jié)起來,主要有以下幾種思路:(1)基于貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展技術(shù)放寬屬性獨(dú)立性假設(shè)方面的改進(jìn),典型代表為樹依賴擴(kuò)展的著名TAN分類器[3];(2)基于屬性選擇技術(shù),改進(jìn)模型分類方法,此種方法可以借助聚類、互信息[4]、屬性貪婪搜索算法等對(duì)屬性空間進(jìn)行子集化分,剔除無關(guān)噪聲屬性,對(duì)屬性進(jìn)行分組保留,這類分類器稱為選擇性貝葉斯分類器[5](Selective Bayesian Classifier,SBC);(3)基于概率調(diào)整技術(shù)改進(jìn)NBC的算法,如采用了充分加權(quán)算子作為概率乘積的權(quán)重來擴(kuò)展NBC[6];(4)王雙成等[7]基于TAN分類器進(jìn)行無向網(wǎng)絡(luò)依賴擴(kuò)展,把屬性之間的樹結(jié)構(gòu)擴(kuò)展成可分解馬爾科夫網(wǎng)絡(luò),使經(jīng)過依賴擴(kuò)展得到的分類器能夠更有效地利用屬性間的依賴信息,提高分類能力,并能夠通過調(diào)節(jié)閾值大小避免過度擬合.

        各種對(duì)NBC獨(dú)立性假設(shè)方面的改進(jìn),在不同數(shù)據(jù)集上不同程度地提高了數(shù)據(jù)分類準(zhǔn)確性,說明從獨(dú)立性假設(shè)方面改進(jìn)NBC是有效可行的.

        本文將貪婪選擇算法思想運(yùn)用于半樸素貝葉斯分類器的屬性分組,通過對(duì)屬性的循環(huán)掃描獲取到最優(yōu)屬性分組,直至所有屬性劃分結(jié)束,獲得最終分組結(jié)果,最后利用所獲取的分組進(jìn)行分類預(yù)測,較好地改進(jìn)了樸素貝葉斯分類器的不足.

        1 半樸素貝葉斯分類器

        半樸素貝葉斯分類器[8](Semi-Naive Bayesian Classifier,SNBC)是通過尋找并利用NBC的屬性依賴關(guān)系進(jìn)行依賴擴(kuò)展的分類器.用πi作為變量集合X的一個(gè)劃分(組的劃分方法將在下文中給出介紹),假設(shè)待分類數(shù)據(jù)各組之間條件相互獨(dú)立,組內(nèi)數(shù)據(jù)各屬性相互依賴,通過合理選取依賴性強(qiáng)的幾個(gè)屬性作為屬性組來達(dá)到改進(jìn)分類器的目的,依賴性強(qiáng)弱模型可以表示為

        (1)

        推知SNBC模型為

        (2)

        通過(2)式可知分母的值對(duì)于選定的數(shù)據(jù)集是一個(gè)定值,使用中以常數(shù)對(duì)待,重點(diǎn)解決求解分子問題,取其最大值表示屬性組π屬于類C的可能性.SNBC表示為

        (3)

        2 模型建立與評(píng)價(jià)體系

        本文將貪婪選擇算法思想融入到樸素貝葉斯分類器的改進(jìn)過程中,結(jié)合分類器判別標(biāo)準(zhǔn)進(jìn)行相應(yīng)的實(shí)驗(yàn).

        2.1 貪婪選擇算法

        貪婪選擇算法(Greedy Selection Algorithm,GSA)又稱為貪心算法[9],在尋找最優(yōu)解或最佳路徑問題中有著廣泛的應(yīng)用.實(shí)際應(yīng)用中將待求解問題分拆成多個(gè)步驟進(jìn)行,分步求得局部最優(yōu)解,以最優(yōu)解為所需結(jié)果.在求解過程中,通過一次次的局部最優(yōu)解的求解,獲得一系列局部最優(yōu)選擇,從而找出所求問題的全局最優(yōu)解.

        2.2 數(shù)據(jù)來源及模型建立

        (1) 數(shù)據(jù)來源.實(shí)驗(yàn)所用數(shù)據(jù)來自國際標(biāo)準(zhǔn)數(shù)據(jù)集倉庫UCI,選取21個(gè)數(shù)據(jù)集用于實(shí)驗(yàn),進(jìn)行貝葉斯分類的學(xué)習(xí).

        (2) 模型建立.分組模型采用貪婪選擇算法順序求解,按照尋求最優(yōu)的原則進(jìn)行,在實(shí)驗(yàn)過程中通過相關(guān)參數(shù)的調(diào)整,獲取最優(yōu)的分類效果,實(shí)驗(yàn)步驟如下:

        步驟2:利用3種判別標(biāo)準(zhǔn)(概率最大原則、屬性出現(xiàn)次數(shù)最少原則、屬性出現(xiàn)次數(shù)最少原則基礎(chǔ)上的概率最大化原則),分別獲取最佳屬性分組.

        步驟3:重新組合數(shù)據(jù),獲取分類結(jié)果.

        步驟4:利用步驟1獲取到的結(jié)果,重復(fù)步驟2、步驟3,設(shè)定不同的權(quán)值和參數(shù),獲取最佳分類效果.

        步驟5:利用實(shí)驗(yàn)所選取的數(shù)據(jù)集,與主流分類器做對(duì)比實(shí)驗(yàn).

        2.3 評(píng)價(jià)標(biāo)準(zhǔn)

        本文以分類器的分類準(zhǔn)確率作為判斷分類器性能的標(biāo)準(zhǔn),準(zhǔn)確率是目錄最為常用的分類器判斷標(biāo)準(zhǔn),特點(diǎn)是計(jì)算簡單,能體現(xiàn)出分類器的實(shí)際分類效果.計(jì)算公式為

        在分類器分類性能驗(yàn)證過程中,采用國際通用的十折交叉驗(yàn)證(10-fold cross-validation)方法[9],即在實(shí)驗(yàn)過程中,將每一個(gè)數(shù)據(jù)集D均分為10份(D1,D2,…,D10),對(duì)每一份實(shí)驗(yàn)數(shù)據(jù)單獨(dú)訓(xùn)練分類模型,對(duì)訓(xùn)練好的模型應(yīng)用于其他兄弟集進(jìn)行分類準(zhǔn)確性驗(yàn)證,保證了在小數(shù)據(jù)集情況下也可以得到很好的分類效果.十折交叉法表達(dá)式為

        (4)

        為了獲得更好的測試效果,D1,D2,…,D10利用隨機(jī)算法隨機(jī)產(chǎn)生,保證分類器選用訓(xùn)練集的普適性.當(dāng)k=|D|時(shí),使用leave-one-out法(每次測試僅用一個(gè)測試數(shù)據(jù),其他數(shù)據(jù)用于訓(xùn)練)進(jìn)行估計(jì),對(duì)不同分類器分類準(zhǔn)確性進(jìn)行比較.本文采用Everitt提出的比較方法McNemar測試[10],該方法要求把數(shù)據(jù)集D分成訓(xùn)練集Dh和測試集Dt2個(gè)部分,在訓(xùn)練集上利用不同的學(xué)習(xí)算法A和B,得到對(duì)應(yīng)的分類器FA和FB,之后通過測試集對(duì)訓(xùn)練出的分類器進(jìn)行測試,并構(gòu)造出列聯(lián)表(見表1).

        表1 列聯(lián)表

        表中分類數(shù)據(jù)總和為n00+n01+n10+n11.

        3 實(shí)驗(yàn)與分析

        利用貪婪搜索算法構(gòu)建分類模型,進(jìn)行反復(fù)對(duì)比實(shí)驗(yàn)并調(diào)整參數(shù),獲得最佳實(shí)驗(yàn)結(jié)果.在實(shí)驗(yàn)過程中,采用樸素貝葉斯(NB)分類器、樸素貝葉斯的鏈擴(kuò)展(CENB)分類器、樸素貝葉斯的樹擴(kuò)展(TENB)分類器、樸素貝葉斯的圖擴(kuò)展(GENB)分類器、C4.5分類器(C4.5)、分類與回歸樹(CARET)分類器和BP神經(jīng)網(wǎng)絡(luò)(BPNN)分類器、貪婪選擇算法改進(jìn)的NBC(GSA-NB)進(jìn)行分類實(shí)驗(yàn)[11],其中GSA-NB1、 GSA-NB2 、GSA-NB3代表3種分組原則獲取的分類準(zhǔn)確率(見表2).

        表2 實(shí)驗(yàn)結(jié)果與其他分類器分類結(jié)果對(duì)比

        由表2可知:對(duì)不同的數(shù)據(jù)集,改進(jìn)方式體現(xiàn)出了差異性.3種分類原則在數(shù)據(jù)集上平均分類效果優(yōu)于對(duì)比分類器,大部分?jǐn)?shù)據(jù)集分類準(zhǔn)確率有了不同程度的提升,個(gè)別數(shù)據(jù)集改進(jìn)效果不明顯.

        GSA-NB3與其他分類器在21個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比,分類準(zhǔn)確率的散點(diǎn)對(duì)比情況見圖1.圖1中的點(diǎn)代表對(duì)應(yīng)分類器的準(zhǔn)確率,對(duì)角線上方的點(diǎn)代表在相同數(shù)據(jù)集下的縱坐標(biāo)對(duì)應(yīng)分類器的分類準(zhǔn)確率高于橫坐標(biāo)分類器,反之則代表小于橫坐標(biāo)分類器.

        (a)NB與GSA-NB

        (c)TENB與GSA-NB

        (e)C4.5與GSA-NB

        從圖1可以看出,GSA-NB3分類準(zhǔn)確率除個(gè)別數(shù)據(jù)集略遜于對(duì)比分類器外,分類效果有明顯提升,在21個(gè)數(shù)據(jù)集中,以GSA-NB3與對(duì)比分類器在分類準(zhǔn)確率方面做差異統(tǒng)計(jì),以區(qū)段([0.5%,∞)、(-0.5%,0.5%)、(-∞,-0.5%])作為對(duì)比分類器計(jì)數(shù)依據(jù)獲得百分比統(tǒng)計(jì)結(jié)果如表3所示.

        表3 GSA-NB3與其他分類器分類結(jié)果對(duì)比 %

        在所選取的21個(gè)相同數(shù)據(jù)集下各分類器分類準(zhǔn)確率的差異統(tǒng)計(jì)中,GSA-NB3的平均分類準(zhǔn)確率明顯優(yōu)于對(duì)比分類器,說明改進(jìn)的分類器GSA-NB在分類準(zhǔn)確率方面優(yōu)于其他分類器.

        4 小結(jié)

        本文在NBC和SNBC理論基礎(chǔ)上,建立了基于貪婪選擇算法的GSA-NB分類器.GSA-NB在屬性組合方面選用合理的分組規(guī)則,在實(shí)驗(yàn)過程中進(jìn)行參數(shù)調(diào)整,充分利用了屬性間的依賴關(guān)系.實(shí)驗(yàn)過程從UCI數(shù)據(jù)庫中選取21個(gè)數(shù)據(jù)集進(jìn)行分類和對(duì)比實(shí)驗(yàn),分別從理論和實(shí)驗(yàn)驗(yàn)證了對(duì)NBC進(jìn)行擴(kuò)展的必要性和擴(kuò)展方法的合理有效性.

        [參 考 文 獻(xiàn)]

        [1] 黃春華,陳忠偉,李石君.貝葉斯決策樹方法在招生數(shù)據(jù)挖掘中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(4):114-118.

        [2] 王輝,王雙成,周顏軍,等.基于廣義樸素貝葉斯分類器的空值處理方法[J].東北師大學(xué)報(bào)(自然科學(xué)版),2004,36(1):34-38.

        [3] PERNKOPF F,BILMES J A.Efficient heuristics for discrimi-naive structure learning of Bayesian network classifiers[J].Journal of Machine Learning Research,2010,11:2323-2360.

        [4] 趙亮,劉建輝,崔彩峰.互信息匹配的半樸素貝葉斯分類器[J].計(jì)算機(jī)工程與應(yīng)用,2015(18):84-87.

        [5] 王輝,韓旭,王雙成,等.連續(xù)屬性樸素貝葉斯分類器的依賴擴(kuò)展研究[J].東北師大學(xué)報(bào)(自然科學(xué)版),2012,44(2):41-45.

        [6] YAGER-R R.An extension of the Na?ve Bayesian classifier[J].Information Science,2006,176:577-588.

        [7] 王雙成,高瑞,杜瑞杰.具有超文結(jié)點(diǎn)時(shí)間序列貝葉斯網(wǎng)絡(luò)集成回歸模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(12):2748-2761.

        [8] JULIA M,F(xiàn)LORES J A,GAMEZ J M,et al.Domains of competence of the semi-naive Bayesian network classifiers[J].Information Sciences,2014,260(1):120-148.

        [9] CHICKERING D M.Learning equivalence classes of Bayesian network structures[J].Journal of Machine Learning Research,2002,2(3):445-498.

        [10] ADEDOKUN OA,BURGESS WD.Analysis of paired dichotomous data:a gentle introduction to the McNemar test in SPSS[J].Journal of Multidisciplinary Evaluation,2012,8(17):125-131.

        [11] 王雙成,高瑞,杜瑞杰.基于高斯Copula的約束貝葉斯網(wǎng)絡(luò)分類器研究[J].計(jì)算機(jī)學(xué)報(bào),2016,39(8):1612-1625.

        猜你喜歡
        樸素貝葉斯分類器
        隔離樸素
        樸素的安慰(組詩)
        他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
        最神奇最樸素的兩本書
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        貝葉斯公式及其應(yīng)用
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        基于貝葉斯估計(jì)的軌道占用識(shí)別方法
        一種基于貝葉斯壓縮感知的說話人識(shí)別方法
        電子器件(2015年5期)2015-12-29 08:43:15
        亚洲av色先锋资源电影网站| 在线国人免费视频播放| av最新版天堂在资源在线| 日韩在线中文字幕一区二区三区| 97久久综合精品国产丝袜长腿 | 在线精品国产亚洲av蜜桃 | 久久无码字幕中文久久无码| 69精品人人人人| 国产精品无码无片在线观看3d| 免费人成视频xvideos入口| 亚洲日韩成人av无码网站| 亚洲毛片网| 青青青伊人色综合久久亚洲综合| 亚洲精品一区二区三区国产| 日本顶级片一区二区三区| 国产在线精品观看一区二区三区| 极品尤物在线精品一区二区三区| 中文人妻av久久人妻水蜜桃| 亚洲精品v欧洲精品v日韩精品| 国产av无码专区亚洲av琪琪| 18禁男女爽爽爽午夜网站免费| 成年女人片免费视频播放A| 我想看久久久一级黄片| 亚洲写真成人午夜亚洲美女| 久久综合久久美利坚合众国| 精品国产一二三产品区别在哪| 国产人妻久久精品二区三区| 欧美日韩一线| 国产偷拍自拍在线观看| 最新国产激情视频在线观看| 真人抽搐一进一出视频| 另类内射国产在线| 久久久国产不卡一区二区| 国成成人av一区二区三区| 亚洲成av人片在www鸭子| 亚洲人成无码网站在线观看| 国产农村三片免费网站| 一本久道在线视频播放| 亚洲丰满熟女一区二亚洲亚洲| 无码a级毛片免费视频内谢| 痉挛高潮喷水av无码免费|