亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機器學(xué)習(xí)算法原理及效率分析

        2018-01-26 04:58:09中國人民大學(xué)附屬中學(xué)葛恭豪
        電子世界 2018年1期
        關(guān)鍵詞:超平面決策樹分類器

        中國人民大學(xué)附屬中學(xué) 葛恭豪

        一、引言

        上個世紀(jì)五十年代,人工智能的概念首先在Dartmouth學(xué)會上被提出,之后卻由于眾多技術(shù)的限制而未能得到很好的發(fā)展。自進(jìn)入21世紀(jì),人工智能進(jìn)展飛速。Siri、AlphaGo等眾多新事物進(jìn)入了人們的生活,人工智能也逐漸成為普通人生活的一部分。

        二、常用算法及原理簡介

        1.樸素貝葉斯(Naive Bayes classifier,NB)

        NB分類器是線性分類器,它以貝葉斯定理為依據(jù),時間效率高,常用于大規(guī)模數(shù)據(jù)處理。貝葉斯定理即根據(jù)先驗概率求后驗概率,表達(dá)式為:

        可預(yù)測未知樣本x所屬類別的可能性,選擇其中可能性大的作為x的類。

        2.k-近鄰(k-Nearest Neighbors,KNN)

        KNN是線性分類方法,簡單高效。它找出未知樣本x周圍最近的k個樣本作為近鄰,針對這k個樣本,將x歸類為多于k/2數(shù)量樣本的類。

        3.邏輯回歸(Logistic Regression)

        LR是一種十分強大的線性分類算法,它根據(jù)LR模型對數(shù)據(jù)進(jìn)行處理,它可以處理有多個解釋變量的數(shù)據(jù)。LR處理數(shù)據(jù)時先建立二項式模型,再進(jìn)行概率估計。

        4.決策樹(Decision Tree,DT)

        DT可用于回歸預(yù)測,處理數(shù)據(jù)時,它會構(gòu)建一種非常直觀的樹狀結(jié)構(gòu)對樣本進(jìn)行分類,依特征對樣本分類,目標(biāo)是構(gòu)建最優(yōu)的決策樹。DT算法系統(tǒng)化、結(jié)構(gòu)化,可找出屬性和類別之間的關(guān)系,并預(yù)測出未知類別。

        5.隨機森林(Random Forest,RF)

        RF處理數(shù)據(jù)時,會通過矩陣創(chuàng)建多棵決策樹,將數(shù)據(jù)投入決策樹中。決策樹分類后,依據(jù)被預(yù)測最多的類屬決定最終分類結(jié)果。

        6.梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)

        GBDT是基于決策樹的線性回歸算法,與隨機森林類似,由多棵決策樹組成,處理結(jié)果為多棵決策樹結(jié)果。GBDT中的決策樹是回歸樹,因此常被用于回歸預(yù)測方面。

        7.支持向量機(Support Vector Machine,SVM)

        SVM是一種非線性的機器學(xué)習(xí)算法,它旨在尋找一個超平面,將訓(xùn)練數(shù)據(jù)分開。根據(jù)結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則計算,使兩類數(shù)據(jù)邊緣部分垂直于超平面的距離最大時,成為最優(yōu)超平面。通過構(gòu)造最優(yōu)超平面,SVM能夠高精度地處理數(shù)據(jù)。

        8.人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)

        ANN是近年的研究熱點,它是一種類似于生物神經(jīng)網(wǎng)絡(luò)的非線性算法,由多個類似于神經(jīng)元的單元組成。ANN基于風(fēng)險最小化原則,所以有些缺陷,比如易陷入局部極小等。

        三、機器學(xué)習(xí)評價指標(biāo)

        1.分類算法的指標(biāo)

        (1)精確率與召回率

        (3)ROC曲線和AUC

        ROC曲線適用于二分類問題,它描述了分類器分類正確的正樣本個數(shù)占總正樣本個數(shù)的比例。ROC曲線下的面積越大則分類器效果越好。AUC指的是ROC曲線下的面積,AUC的值就是ROC曲線下部分的面積大小。

        (4)支持度和置信度

        四、實驗

        1.數(shù)據(jù)集

        數(shù)據(jù)集選用MNIST手寫數(shù)字?jǐn)?shù)據(jù)集,數(shù)據(jù)集分訓(xùn)練集和測試集,用于訓(xùn)練模型和檢測結(jié)果。其中訓(xùn)練集有60000樣本,測試集為10000樣本,維度為784。

        MNIST訓(xùn)練集由SD-3的30,000個模式和來自SD-1的30,000個模式組成。這60,000個模式訓(xùn)練集包含大約250位作家的手寫用例。

        2.實驗?zāi)康募胺桨?/h3>

        常用的機器學(xué)習(xí)分類算法中,屬于線性的有NB、LR,非線性的有DT、RF。實驗的目的是對比它們的時間效率、準(zhǔn)確率的情況,得出相應(yīng)的結(jié)論。

        基于MNIST數(shù)據(jù)集,選用pycarm和anaconda平臺,調(diào)用python的sklearn包里的機器學(xué)習(xí)算法作測試,然后對比分析。

        3.實驗結(jié)果

        kNN、LR、RF、SVM、GBDT準(zhǔn)確率都相對較高,從時間效率看,SVM、GBDT時間成本大,這樣就顯示出kNN、LR和RF的輕便。而NB時間效率最高,但準(zhǔn)確率83.69%較低。

        表1 時間和準(zhǔn)確率對比

        RF的時間效率高,準(zhǔn)確率也高;DT結(jié)構(gòu)簡單,但處理數(shù)據(jù)的準(zhǔn)確率和時間效率都不高;SVM和GBDT準(zhǔn)確率都高,說明非線性算法擬合數(shù)據(jù)后處理效果好,處理時間分別是3682.412秒和7036.34秒。

        原理上,NB算法簡單,基于貝葉斯定理對樣本的類別進(jìn)行預(yù)測,時間效率高,快過其它,但準(zhǔn)確度不高。kNN是尋找未知樣本周圍的樣本,并依據(jù)周圍樣本的分類對未知樣本進(jìn)行分類。因而它比NB計算量大,時間效率低。kNN相比它非線性算法較快,準(zhǔn)確率高。

        LR算法的準(zhǔn)確率為91.98%,比NB、DT高,但比其它算法低。它運行時間為80.523秒,因為計算量較大,比其它線性分類算法慢,但比SVM和GBDT快。綜合分析,線性分類算法優(yōu)勢在于時間效率高,非線性的結(jié)果更好,能更好地擬合數(shù)據(jù)。究其原因,在于線性分類算法對特征的依賴較多,它要求數(shù)據(jù)的特征線性可分,線性分類算法時間效率高。

        線性分類算法需要更多的數(shù)據(jù)預(yù)處理工作,預(yù)先選擇特征、變換特征或者組合特征,使得特征可區(qū)分。而非線性分類算法相當(dāng)于集成了數(shù)據(jù)的預(yù)處理工作,通過自身的建模,對非線性數(shù)據(jù)也能展示良好的處理性能。

        五、總結(jié)與展望

        本文介紹了8種常用的機器學(xué)習(xí)算法和11種效果評估指標(biāo)。不同算法在相同的環(huán)境內(nèi)的效果也都不一樣。用來評價算法效果的方法有很多種,各種方法反映出各種算法的優(yōu)缺點也各不相同。

        通過實驗對比不同的算法在基于MNIST數(shù)據(jù)集的情況下的準(zhǔn)確度和時間效率。如果繼續(xù)研究,可以選取更多的算法,并使其基于更多的數(shù)據(jù)集,例如Car Evaluation、Wine、Adult等。如果想要獲得更全面的實驗結(jié)果,可以用更多的機器學(xué)習(xí)評價指標(biāo)對實驗進(jìn)行評估。

        [1]張曉芳,張磊.論機器學(xué)習(xí)及其在教育中的應(yīng)用[J].信息與電腦:理論版,2015(24):165-166.

        猜你喜歡
        超平面決策樹分類器
        全純曲線的例外超平面
        涉及分擔(dān)超平面的正規(guī)定則
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        基于決策樹的出租車乘客出行目的識別
        分擔(dān)超平面的截斷型亞純映射退化性定理
        国产自拍在线视频91| 久热香蕉av在线爽青青| 丰满少妇高潮在线观看| 精品久久综合日本久久综合网| 亚洲精品~无码抽插| 比比资源先锋影音网| 国产传媒在线视频| 成人大片在线观看视频| 中国美女a级毛片| 97一区二区国产好的精华液| 成年视频网站在线观看777| 国产交换精品一区二区三区| 欧美黑寡妇特a级做爰| 亚洲av之男人的天堂| 成在线人免费视频播放| 男女射黄视频网站在线免费观看| 亚洲精品一区国产欧美| 91视频88av| 极品少妇在线观看视频| 老女老肥熟女一区二区| 大肉大捧一进一出好爽视频mba| 日韩偷拍一区二区三区视频 | 国产七十六+老熟妇| 日本动态120秒免费| 成人免费视频自偷自拍| 亚洲亚色中文字幕剧情| 国产精品毛片久久久久久久| 一区二区韩国福利网站| 懂色av一区二区三区网久久 | 国产成人av性色在线影院色戒| 久久成人永久免费播放| 亚洲综合中文日韩字幕| 精品久久久久久久无码人妻热| 亚洲无码精品免费片| 少妇勾引视频网站在线观看| 欧美激情视频一区二区三区免费| 国外精品视频在线观看免费| 欧美亚洲国产丝袜在线| 中文字幕午夜精品久久久| 中文字幕亚洲乱码熟女在线| 亚洲国产成人久久综合一区77|