亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹分類模型預(yù)測(cè)網(wǎng)站熱度

        2018-04-15 16:14:25河南省實(shí)驗(yàn)中學(xué)李鈺通
        電子世界 2018年14期
        關(guān)鍵詞:決策樹預(yù)測(cè)評(píng)估

        河南省實(shí)驗(yàn)中學(xué) 李鈺通

        1 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,瀏覽網(wǎng)站已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)站分為熱門網(wǎng)站和非熱門網(wǎng)站,熱門網(wǎng)站可以產(chǎn)生巨大的經(jīng)濟(jì)效益,因此預(yù)測(cè)網(wǎng)站的熱度具有重大意義。預(yù)測(cè)網(wǎng)站熱度,對(duì)投資人來說,他們可以評(píng)判一個(gè)網(wǎng)站是否值得投資,避免在投資過程中產(chǎn)生資源的浪費(fèi);對(duì)管理者來說,網(wǎng)站熱度的預(yù)測(cè)則可以更好且較為準(zhǔn)確地預(yù)估網(wǎng)站發(fā)展的趨勢(shì),可以指導(dǎo)網(wǎng)站管理者做出相應(yīng)的調(diào)整。這對(duì)網(wǎng)站的運(yùn)營(yíng)工作起到了一定的指導(dǎo)作用。

        決策樹算法經(jīng)常被應(yīng)用于大數(shù)據(jù)的處理中[1]。網(wǎng)站熱度的預(yù)測(cè)中,需要處理大量的信息,決策樹算法可以很好地處理這個(gè)方面的問題。我們運(yùn)用Spark平臺(tái)的并行計(jì)算能力實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)的高效準(zhǔn)確處理,對(duì)網(wǎng)站的熱度進(jìn)行預(yù)測(cè)。

        2 決策樹分類算法

        2.1 算法原理

        決策樹分類算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,屬于數(shù)據(jù)分類方法。決策樹學(xué)習(xí)著眼于從一組無秩序、無規(guī)則的事實(shí)中推理出決策樹表示形式的分類規(guī)則,通常用來形成分類器和預(yù)測(cè)模型。

        2.2 決策樹算法的優(yōu)點(diǎn)

        決策樹算法相比于其他算法,擁有以下幾個(gè)優(yōu)點(diǎn):

        (1)決策樹易于理解和掌握,人們?cè)谕ㄟ^解釋后都有能力去理解決策樹所表達(dá)的意思并進(jìn)行應(yīng)用。

        (2)決策樹模型是一個(gè)白盒模型。如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易就能推出相應(yīng)的邏輯表達(dá)式。

        (3)易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè)。

        (4)在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

        2.3 決策樹算法的并行化

        算法是求解問題的方法和步驟,并行算法可以實(shí)現(xiàn)在并行系統(tǒng)上用多個(gè)處理器聯(lián)合求解問題。當(dāng)需要處理海量信息時(shí),利用并行算法可以極大提高運(yùn)行效率和結(jié)果的質(zhì)量[2]。傳統(tǒng)的串行化算法在面對(duì)數(shù)據(jù)量較小的情況時(shí)具有較快的運(yùn)行速度和準(zhǔn)確率。但當(dāng)用串行算法計(jì)算海量數(shù)據(jù)時(shí),就會(huì)導(dǎo)致計(jì)算時(shí)間長(zhǎng),工作效率低,預(yù)測(cè)精確度有偏差的情況。這時(shí)并行計(jì)算便體現(xiàn)出它的優(yōu)越性來,多個(gè)處理器同時(shí)計(jì)算,既提高了效率,又提升了準(zhǔn)確度,在大數(shù)據(jù)應(yīng)用方面起到了相當(dāng)廣泛且重要的作用[3]。

        Spark是由加州大學(xué)伯克利分校開發(fā)的大數(shù)據(jù)處理平臺(tái),其性能優(yōu)于Hadoop,擁有更快的速度,提供了80多個(gè)高級(jí)計(jì)算符,易用性強(qiáng),支持多種資源管理器[4]。本次實(shí)驗(yàn)探究選用Spark平臺(tái)作為大數(shù)據(jù)處理工具,得到的實(shí)驗(yàn)結(jié)果快速準(zhǔn)確,有效地保證了實(shí)驗(yàn)的正常進(jìn)行[5]。

        3 網(wǎng)站熱度預(yù)測(cè)模型建模過程

        3.1 數(shù)據(jù)源和數(shù)據(jù)說明

        本次研究中所用數(shù)據(jù)來源為www.kaggle.com/c/stumbleupon/data。數(shù)據(jù)集中,每條記錄包括27個(gè)字段。其中,字段1-3是網(wǎng)站的描述字段,不作為分析時(shí)的特征屬性。字段4-26為算法分析中的特征字段,包括網(wǎng)站分類、網(wǎng)站分類的評(píng)分等。最后一個(gè)字段為label字段,代表了網(wǎng)站的分類信息。其中,0代表網(wǎng)頁為非熱門網(wǎng)站,1代表網(wǎng)站為熱門網(wǎng)站。

        3.2 數(shù)據(jù)預(yù)處理

        運(yùn)行Spark平臺(tái),經(jīng)過數(shù)據(jù)轉(zhuǎn)換產(chǎn)生RDD,然后將實(shí)驗(yàn)數(shù)據(jù)以8:1:1的比例隨機(jī)分成三個(gè)數(shù)據(jù)集:訓(xùn)練集,校驗(yàn)集和測(cè)試集,以用于實(shí)驗(yàn)的下一部分[6]。其中,訓(xùn)練模型使用訓(xùn)練集,評(píng)估模型使用校驗(yàn)集。為了提高程序的運(yùn)行效率,將數(shù)據(jù)暫時(shí)存放在內(nèi)存中[7]。

        3.3 超參數(shù)

        算法的超參數(shù)分別為:maxBins參數(shù)、maxDepth參數(shù)和Impurity參數(shù)[8]。其中,maxBins參數(shù)代表決策樹每個(gè)節(jié)點(diǎn)的最大分支數(shù)目,maxDepth參數(shù)表示決策樹的最大深度,Impurity參數(shù)表示評(píng)判決策樹分裂優(yōu)劣的方式,其值包含兩種,分別為基尼指數(shù)(gini)和熵(entropy)。

        3.4 模型的評(píng)估指標(biāo)

        決策樹分類模型的評(píng)估指標(biāo)是AUC(精確度)[8]。AUC越高,模型的精確度越高,預(yù)測(cè)越準(zhǔn)確;反之,AUC越低,則模型的精確度越低,與真實(shí)情況越不符合。

        3.5 訓(xùn)練評(píng)估模型

        (1)使用2個(gè)不同的Impurity參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型。經(jīng)過Spark平臺(tái)的處理,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。根據(jù)圖像可以看出,對(duì)于Impurity參數(shù)而言,值為gini(基尼指數(shù))時(shí)與值為entropy(熵)時(shí)相比,訓(xùn)練得到的模型的AUC相差不大,而gini所需要的時(shí)間卻是entropy的2.5倍左右。Impurity參數(shù)值為entropy時(shí)所用的時(shí)間短,而且訓(xùn)練得出的模型的AUC高,因此在這種情況之下應(yīng)該將Impurity參數(shù)的值設(shè)置為entropy。

        (2)使用6個(gè)不同的maxDepth參數(shù),其他參數(shù)的值保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。從訓(xùn)練評(píng)估的結(jié)果來看,隨著maxDepth參數(shù)的增大,訓(xùn)練模型所需要的時(shí)間也逐漸增大。當(dāng)maxDepth的值為25時(shí),訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,這種情況下選擇5作為maxDepth參數(shù)的值訓(xùn)練模型更加有效。

        (3)使用6個(gè)不同的maxBins參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。由實(shí)驗(yàn)結(jié)果圖像得出,當(dāng)maxBins為10的時(shí)候,訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,在這種情況下將max-Bins參數(shù)的值設(shè)置為10,可以花費(fèi)更少的時(shí)間訓(xùn)練出最優(yōu)模型。

        (4)將所有的參數(shù)值排列組合,得到72個(gè)不同的參數(shù)組合,使用它們分別訓(xùn)練評(píng)估模型,并從得出的72個(gè)模型之中選擇出一個(gè)AUC(精確度)最高的模型,即最優(yōu)模型。最優(yōu)模型對(duì)應(yīng)的參數(shù)組合即最優(yōu)參數(shù)組合。實(shí)驗(yàn)得出,最優(yōu)參數(shù)組合為(Impurity:entropy,maxDepth:5,maxBins:10),最優(yōu)模型的AUC值為0.797。

        3.6 測(cè)試模型

        使用測(cè)試集測(cè)試模型,將得到的AUC和訓(xùn)練評(píng)估階段得到的最優(yōu)模型的AUC比較,如果兩者相差不大,就代表此模型不存在過擬合問題。實(shí)驗(yàn)得出,測(cè)試階段中模型的AUC為0.756,與訓(xùn)練評(píng)估階段得出的AUC相近,所以此模型不存在過擬合問題,可以用于實(shí)際的預(yù)測(cè)中。

        3.7 預(yù)測(cè)數(shù)據(jù)

        最后,我們?cè)趯?shí)驗(yàn)中使用無過擬合問題的最優(yōu)模型對(duì)網(wǎng)站的熱門程度進(jìn)行預(yù)測(cè),得到一系列預(yù)測(cè)結(jié)果。例如,www.lynnskichenadventures.com被預(yù)測(cè)為熱門網(wǎng)站,www.xcelerationfitness.com被預(yù)測(cè)為非熱門網(wǎng)站。

        4 結(jié)束語

        我們正處于大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)中的數(shù)據(jù)呈“爆炸式”增長(zhǎng),傳統(tǒng)的處理方法越來越無法適應(yīng)當(dāng)今海量數(shù)據(jù)處理的需求,而大數(shù)據(jù)技術(shù)很好地解決了這一問題。本次研究中,利用Spark大數(shù)據(jù)處理平臺(tái)的計(jì)算能力,使用并行化的決策樹算法訓(xùn)練模型,最終得出最優(yōu)的預(yù)測(cè)模型。該模型可以較為精確地預(yù)測(cè)網(wǎng)站的熱度,具有較高的實(shí)用價(jià)值。

        猜你喜歡
        決策樹預(yù)測(cè)評(píng)估
        無可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        不必預(yù)測(cè)未來,只需把握現(xiàn)在
        基于決策樹的出租車乘客出行目的識(shí)別
        評(píng)估依據(jù)
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        立法后評(píng)估:且行且盡善
        浙江人大(2014年5期)2014-03-20 16:20:25
        日本三区在线观看视频| www国产精品内射熟女| 中文字幕无码毛片免费看| 国产山东熟女48嗷嗷叫| 国产成人综合久久精品推荐免费 | 欧美日韩免费一区中文字幕| 91超碰在线观看免费| 亚洲综合有码中文字幕| 青青久在线视频免费视频| 精品国产一区二区三区三| 国产精品久久久爽爽爽麻豆色哟哟| 综合色区亚洲熟妇另类| 中文成人无字幕乱码精品区| 精品国产国产AV一区二区| 3亚洲日韩在线精品区| 女同视频网站一区二区| 亚洲男人的天堂av一区| 18禁黄污吃奶免费看网站| 亚洲综合色丁香婷婷六月图片| 亚洲欧洲无码精品ⅤA| 一区二区三区亚洲视频| 国产爆乳美女娇喘呻吟| 日日碰狠狠添天天爽超碰97| 91精品日本久久久久久牛牛| 亚洲熟女一区二区三区不卡 | 在教室伦流澡到高潮hnp视频| 人妻精品丝袜一区二区无码AV | 久久精品国产亚洲av日韩精品| 一本色道无码不卡在线观看| 亚洲精品无码永久在线观看你懂的 | 国产视频在线播放亚洲| 亚洲av熟女一区二区三区站| 国产麻传媒精品国产av| 亚洲日本va中文字幕久久| 成在线人免费视频播放| 国产亚洲超级97免费视频| 久久久久久久综合综合狠狠| 欧美国产小视频| 国产毛片A啊久久久久| 美艳善良的丝袜高跟美腿| 亚洲一区二区三区播放|