亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹分類模型預(yù)測(cè)網(wǎng)站熱度

        2018-04-15 16:14:25河南省實(shí)驗(yàn)中學(xué)李鈺通
        電子世界 2018年14期
        關(guān)鍵詞:模型

        河南省實(shí)驗(yàn)中學(xué) 李鈺通

        1 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,瀏覽網(wǎng)站已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)站分為熱門網(wǎng)站和非熱門網(wǎng)站,熱門網(wǎng)站可以產(chǎn)生巨大的經(jīng)濟(jì)效益,因此預(yù)測(cè)網(wǎng)站的熱度具有重大意義。預(yù)測(cè)網(wǎng)站熱度,對(duì)投資人來說,他們可以評(píng)判一個(gè)網(wǎng)站是否值得投資,避免在投資過程中產(chǎn)生資源的浪費(fèi);對(duì)管理者來說,網(wǎng)站熱度的預(yù)測(cè)則可以更好且較為準(zhǔn)確地預(yù)估網(wǎng)站發(fā)展的趨勢(shì),可以指導(dǎo)網(wǎng)站管理者做出相應(yīng)的調(diào)整。這對(duì)網(wǎng)站的運(yùn)營(yíng)工作起到了一定的指導(dǎo)作用。

        決策樹算法經(jīng)常被應(yīng)用于大數(shù)據(jù)的處理中[1]。網(wǎng)站熱度的預(yù)測(cè)中,需要處理大量的信息,決策樹算法可以很好地處理這個(gè)方面的問題。我們運(yùn)用Spark平臺(tái)的并行計(jì)算能力實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)的高效準(zhǔn)確處理,對(duì)網(wǎng)站的熱度進(jìn)行預(yù)測(cè)。

        2 決策樹分類算法

        2.1 算法原理

        決策樹分類算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,屬于數(shù)據(jù)分類方法。決策樹學(xué)習(xí)著眼于從一組無秩序、無規(guī)則的事實(shí)中推理出決策樹表示形式的分類規(guī)則,通常用來形成分類器和預(yù)測(cè)模型。

        2.2 決策樹算法的優(yōu)點(diǎn)

        決策樹算法相比于其他算法,擁有以下幾個(gè)優(yōu)點(diǎn):

        (1)決策樹易于理解和掌握,人們?cè)谕ㄟ^解釋后都有能力去理解決策樹所表達(dá)的意思并進(jìn)行應(yīng)用。

        (2)決策樹模型是一個(gè)白盒模型。如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易就能推出相應(yīng)的邏輯表達(dá)式。

        (3)易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè)。

        (4)在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

        2.3 決策樹算法的并行化

        算法是求解問題的方法和步驟,并行算法可以實(shí)現(xiàn)在并行系統(tǒng)上用多個(gè)處理器聯(lián)合求解問題。當(dāng)需要處理海量信息時(shí),利用并行算法可以極大提高運(yùn)行效率和結(jié)果的質(zhì)量[2]。傳統(tǒng)的串行化算法在面對(duì)數(shù)據(jù)量較小的情況時(shí)具有較快的運(yùn)行速度和準(zhǔn)確率。但當(dāng)用串行算法計(jì)算海量數(shù)據(jù)時(shí),就會(huì)導(dǎo)致計(jì)算時(shí)間長(zhǎng),工作效率低,預(yù)測(cè)精確度有偏差的情況。這時(shí)并行計(jì)算便體現(xiàn)出它的優(yōu)越性來,多個(gè)處理器同時(shí)計(jì)算,既提高了效率,又提升了準(zhǔn)確度,在大數(shù)據(jù)應(yīng)用方面起到了相當(dāng)廣泛且重要的作用[3]。

        Spark是由加州大學(xué)伯克利分校開發(fā)的大數(shù)據(jù)處理平臺(tái),其性能優(yōu)于Hadoop,擁有更快的速度,提供了80多個(gè)高級(jí)計(jì)算符,易用性強(qiáng),支持多種資源管理器[4]。本次實(shí)驗(yàn)探究選用Spark平臺(tái)作為大數(shù)據(jù)處理工具,得到的實(shí)驗(yàn)結(jié)果快速準(zhǔn)確,有效地保證了實(shí)驗(yàn)的正常進(jìn)行[5]。

        3 網(wǎng)站熱度預(yù)測(cè)模型建模過程

        3.1 數(shù)據(jù)源和數(shù)據(jù)說明

        本次研究中所用數(shù)據(jù)來源為www.kaggle.com/c/stumbleupon/data。數(shù)據(jù)集中,每條記錄包括27個(gè)字段。其中,字段1-3是網(wǎng)站的描述字段,不作為分析時(shí)的特征屬性。字段4-26為算法分析中的特征字段,包括網(wǎng)站分類、網(wǎng)站分類的評(píng)分等。最后一個(gè)字段為label字段,代表了網(wǎng)站的分類信息。其中,0代表網(wǎng)頁(yè)為非熱門網(wǎng)站,1代表網(wǎng)站為熱門網(wǎng)站。

        3.2 數(shù)據(jù)預(yù)處理

        運(yùn)行Spark平臺(tái),經(jīng)過數(shù)據(jù)轉(zhuǎn)換產(chǎn)生RDD,然后將實(shí)驗(yàn)數(shù)據(jù)以8:1:1的比例隨機(jī)分成三個(gè)數(shù)據(jù)集:訓(xùn)練集,校驗(yàn)集和測(cè)試集,以用于實(shí)驗(yàn)的下一部分[6]。其中,訓(xùn)練模型使用訓(xùn)練集,評(píng)估模型使用校驗(yàn)集。為了提高程序的運(yùn)行效率,將數(shù)據(jù)暫時(shí)存放在內(nèi)存中[7]。

        3.3 超參數(shù)

        算法的超參數(shù)分別為:maxBins參數(shù)、maxDepth參數(shù)和Impurity參數(shù)[8]。其中,maxBins參數(shù)代表決策樹每個(gè)節(jié)點(diǎn)的最大分支數(shù)目,maxDepth參數(shù)表示決策樹的最大深度,Impurity參數(shù)表示評(píng)判決策樹分裂優(yōu)劣的方式,其值包含兩種,分別為基尼指數(shù)(gini)和熵(entropy)。

        3.4 模型的評(píng)估指標(biāo)

        決策樹分類模型的評(píng)估指標(biāo)是AUC(精確度)[8]。AUC越高,模型的精確度越高,預(yù)測(cè)越準(zhǔn)確;反之,AUC越低,則模型的精確度越低,與真實(shí)情況越不符合。

        3.5 訓(xùn)練評(píng)估模型

        (1)使用2個(gè)不同的Impurity參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型。經(jīng)過Spark平臺(tái)的處理,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。根據(jù)圖像可以看出,對(duì)于Impurity參數(shù)而言,值為gini(基尼指數(shù))時(shí)與值為entropy(熵)時(shí)相比,訓(xùn)練得到的模型的AUC相差不大,而gini所需要的時(shí)間卻是entropy的2.5倍左右。Impurity參數(shù)值為entropy時(shí)所用的時(shí)間短,而且訓(xùn)練得出的模型的AUC高,因此在這種情況之下應(yīng)該將Impurity參數(shù)的值設(shè)置為entropy。

        (2)使用6個(gè)不同的maxDepth參數(shù),其他參數(shù)的值保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。從訓(xùn)練評(píng)估的結(jié)果來看,隨著maxDepth參數(shù)的增大,訓(xùn)練模型所需要的時(shí)間也逐漸增大。當(dāng)maxDepth的值為25時(shí),訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,這種情況下選擇5作為maxDepth參數(shù)的值訓(xùn)練模型更加有效。

        (3)使用6個(gè)不同的maxBins參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。由實(shí)驗(yàn)結(jié)果圖像得出,當(dāng)maxBins為10的時(shí)候,訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,在這種情況下將max-Bins參數(shù)的值設(shè)置為10,可以花費(fèi)更少的時(shí)間訓(xùn)練出最優(yōu)模型。

        (4)將所有的參數(shù)值排列組合,得到72個(gè)不同的參數(shù)組合,使用它們分別訓(xùn)練評(píng)估模型,并從得出的72個(gè)模型之中選擇出一個(gè)AUC(精確度)最高的模型,即最優(yōu)模型。最優(yōu)模型對(duì)應(yīng)的參數(shù)組合即最優(yōu)參數(shù)組合。實(shí)驗(yàn)得出,最優(yōu)參數(shù)組合為(Impurity:entropy,maxDepth:5,maxBins:10),最優(yōu)模型的AUC值為0.797。

        3.6 測(cè)試模型

        使用測(cè)試集測(cè)試模型,將得到的AUC和訓(xùn)練評(píng)估階段得到的最優(yōu)模型的AUC比較,如果兩者相差不大,就代表此模型不存在過擬合問題。實(shí)驗(yàn)得出,測(cè)試階段中模型的AUC為0.756,與訓(xùn)練評(píng)估階段得出的AUC相近,所以此模型不存在過擬合問題,可以用于實(shí)際的預(yù)測(cè)中。

        3.7 預(yù)測(cè)數(shù)據(jù)

        最后,我們?cè)趯?shí)驗(yàn)中使用無過擬合問題的最優(yōu)模型對(duì)網(wǎng)站的熱門程度進(jìn)行預(yù)測(cè),得到一系列預(yù)測(cè)結(jié)果。例如,www.lynnskichenadventures.com被預(yù)測(cè)為熱門網(wǎng)站,www.xcelerationfitness.com被預(yù)測(cè)為非熱門網(wǎng)站。

        4 結(jié)束語(yǔ)

        我們正處于大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)中的數(shù)據(jù)呈“爆炸式”增長(zhǎng),傳統(tǒng)的處理方法越來越無法適應(yīng)當(dāng)今海量數(shù)據(jù)處理的需求,而大數(shù)據(jù)技術(shù)很好地解決了這一問題。本次研究中,利用Spark大數(shù)據(jù)處理平臺(tái)的計(jì)算能力,使用并行化的決策樹算法訓(xùn)練模型,最終得出最優(yōu)的預(yù)測(cè)模型。該模型可以較為精確地預(yù)測(cè)網(wǎng)站的熱度,具有較高的實(shí)用價(jià)值。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        亚洲av无码av制服丝袜在线| 无码一区二区三区网站| 国产高清吃奶成免费视频网站| 丰满人妻无套中出中文字幕 | 亚洲av无码乱码精品国产| 亚洲av日韩综合一区久热| 中国老熟女重囗味hdxx| 柠檬福利第一导航在线| 精品久久亚洲中文无码| 精品人妻无码视频中文字幕一区二区三区| 有码精品一二区在线| 亚洲女同成av人片在线观看 | 中文亚洲一区二区三区| 视频一区二区三区黄色| 老熟女富婆激情刺激对白| 亚洲av无码av制服另类专区| 无码国产精品一区二区免费97| 国产精品女丝袜白丝袜 | 成人中文乱幕日产无线码| 少妇av射精精品蜜桃专区| 国内精品一区视频在线播放| 中文字幕一区二区三区在线乱码| 青青草手机在线免费视频| 伊人加勒比在线观看视频| 国产毛多水多高潮高清| 另类老妇奶性生bbwbbw| 亚洲欧洲日产国产AV无码| 亚洲一区二区三区1区2区| 国产精品亚洲精品日韩已方| 99蜜桃在线观看免费视频网站| 欧美在线成人免费国产| 国产高清一区二区三区视频| 玖玖色玖玖草玖玖爱在线精品视频| 久久久噜噜噜久久中文福利| 精品国产18久久久久久| 国产人妖xxxx做受视频| 亚洲高清精品一区二区| 亚洲毛片在线免费视频| 久久精品国产网红主播| 国产精品一区二区资源| 亚洲一区二区三区福利久久蜜桃|