亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹分類模型預(yù)測(cè)網(wǎng)站熱度

        2018-04-15 16:14:25河南省實(shí)驗(yàn)中學(xué)李鈺通
        電子世界 2018年14期
        關(guān)鍵詞:模型

        河南省實(shí)驗(yàn)中學(xué) 李鈺通

        1 引言

        隨著互聯(lián)網(wǎng)的發(fā)展,瀏覽網(wǎng)站已經(jīng)成為人們生活中不可或缺的一部分。網(wǎng)站分為熱門網(wǎng)站和非熱門網(wǎng)站,熱門網(wǎng)站可以產(chǎn)生巨大的經(jīng)濟(jì)效益,因此預(yù)測(cè)網(wǎng)站的熱度具有重大意義。預(yù)測(cè)網(wǎng)站熱度,對(duì)投資人來說,他們可以評(píng)判一個(gè)網(wǎng)站是否值得投資,避免在投資過程中產(chǎn)生資源的浪費(fèi);對(duì)管理者來說,網(wǎng)站熱度的預(yù)測(cè)則可以更好且較為準(zhǔn)確地預(yù)估網(wǎng)站發(fā)展的趨勢(shì),可以指導(dǎo)網(wǎng)站管理者做出相應(yīng)的調(diào)整。這對(duì)網(wǎng)站的運(yùn)營(yíng)工作起到了一定的指導(dǎo)作用。

        決策樹算法經(jīng)常被應(yīng)用于大數(shù)據(jù)的處理中[1]。網(wǎng)站熱度的預(yù)測(cè)中,需要處理大量的信息,決策樹算法可以很好地處理這個(gè)方面的問題。我們運(yùn)用Spark平臺(tái)的并行計(jì)算能力實(shí)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)的高效準(zhǔn)確處理,對(duì)網(wǎng)站的熱度進(jìn)行預(yù)測(cè)。

        2 決策樹分類算法

        2.1 算法原理

        決策樹分類算法是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,屬于數(shù)據(jù)分類方法。決策樹學(xué)習(xí)著眼于從一組無秩序、無規(guī)則的事實(shí)中推理出決策樹表示形式的分類規(guī)則,通常用來形成分類器和預(yù)測(cè)模型。

        2.2 決策樹算法的優(yōu)點(diǎn)

        決策樹算法相比于其他算法,擁有以下幾個(gè)優(yōu)點(diǎn):

        (1)決策樹易于理解和掌握,人們?cè)谕ㄟ^解釋后都有能力去理解決策樹所表達(dá)的意思并進(jìn)行應(yīng)用。

        (2)決策樹模型是一個(gè)白盒模型。如果給定一個(gè)觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易就能推出相應(yīng)的邏輯表達(dá)式。

        (3)易于通過靜態(tài)測(cè)試來對(duì)模型進(jìn)行評(píng)測(cè)。

        (4)在相對(duì)短的時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且效果良好的結(jié)果。

        2.3 決策樹算法的并行化

        算法是求解問題的方法和步驟,并行算法可以實(shí)現(xiàn)在并行系統(tǒng)上用多個(gè)處理器聯(lián)合求解問題。當(dāng)需要處理海量信息時(shí),利用并行算法可以極大提高運(yùn)行效率和結(jié)果的質(zhì)量[2]。傳統(tǒng)的串行化算法在面對(duì)數(shù)據(jù)量較小的情況時(shí)具有較快的運(yùn)行速度和準(zhǔn)確率。但當(dāng)用串行算法計(jì)算海量數(shù)據(jù)時(shí),就會(huì)導(dǎo)致計(jì)算時(shí)間長(zhǎng),工作效率低,預(yù)測(cè)精確度有偏差的情況。這時(shí)并行計(jì)算便體現(xiàn)出它的優(yōu)越性來,多個(gè)處理器同時(shí)計(jì)算,既提高了效率,又提升了準(zhǔn)確度,在大數(shù)據(jù)應(yīng)用方面起到了相當(dāng)廣泛且重要的作用[3]。

        Spark是由加州大學(xué)伯克利分校開發(fā)的大數(shù)據(jù)處理平臺(tái),其性能優(yōu)于Hadoop,擁有更快的速度,提供了80多個(gè)高級(jí)計(jì)算符,易用性強(qiáng),支持多種資源管理器[4]。本次實(shí)驗(yàn)探究選用Spark平臺(tái)作為大數(shù)據(jù)處理工具,得到的實(shí)驗(yàn)結(jié)果快速準(zhǔn)確,有效地保證了實(shí)驗(yàn)的正常進(jìn)行[5]。

        3 網(wǎng)站熱度預(yù)測(cè)模型建模過程

        3.1 數(shù)據(jù)源和數(shù)據(jù)說明

        本次研究中所用數(shù)據(jù)來源為www.kaggle.com/c/stumbleupon/data。數(shù)據(jù)集中,每條記錄包括27個(gè)字段。其中,字段1-3是網(wǎng)站的描述字段,不作為分析時(shí)的特征屬性。字段4-26為算法分析中的特征字段,包括網(wǎng)站分類、網(wǎng)站分類的評(píng)分等。最后一個(gè)字段為label字段,代表了網(wǎng)站的分類信息。其中,0代表網(wǎng)頁(yè)為非熱門網(wǎng)站,1代表網(wǎng)站為熱門網(wǎng)站。

        3.2 數(shù)據(jù)預(yù)處理

        運(yùn)行Spark平臺(tái),經(jīng)過數(shù)據(jù)轉(zhuǎn)換產(chǎn)生RDD,然后將實(shí)驗(yàn)數(shù)據(jù)以8:1:1的比例隨機(jī)分成三個(gè)數(shù)據(jù)集:訓(xùn)練集,校驗(yàn)集和測(cè)試集,以用于實(shí)驗(yàn)的下一部分[6]。其中,訓(xùn)練模型使用訓(xùn)練集,評(píng)估模型使用校驗(yàn)集。為了提高程序的運(yùn)行效率,將數(shù)據(jù)暫時(shí)存放在內(nèi)存中[7]。

        3.3 超參數(shù)

        算法的超參數(shù)分別為:maxBins參數(shù)、maxDepth參數(shù)和Impurity參數(shù)[8]。其中,maxBins參數(shù)代表決策樹每個(gè)節(jié)點(diǎn)的最大分支數(shù)目,maxDepth參數(shù)表示決策樹的最大深度,Impurity參數(shù)表示評(píng)判決策樹分裂優(yōu)劣的方式,其值包含兩種,分別為基尼指數(shù)(gini)和熵(entropy)。

        3.4 模型的評(píng)估指標(biāo)

        決策樹分類模型的評(píng)估指標(biāo)是AUC(精確度)[8]。AUC越高,模型的精確度越高,預(yù)測(cè)越準(zhǔn)確;反之,AUC越低,則模型的精確度越低,與真實(shí)情況越不符合。

        3.5 訓(xùn)練評(píng)估模型

        (1)使用2個(gè)不同的Impurity參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型。經(jīng)過Spark平臺(tái)的處理,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。根據(jù)圖像可以看出,對(duì)于Impurity參數(shù)而言,值為gini(基尼指數(shù))時(shí)與值為entropy(熵)時(shí)相比,訓(xùn)練得到的模型的AUC相差不大,而gini所需要的時(shí)間卻是entropy的2.5倍左右。Impurity參數(shù)值為entropy時(shí)所用的時(shí)間短,而且訓(xùn)練得出的模型的AUC高,因此在這種情況之下應(yīng)該將Impurity參數(shù)的值設(shè)置為entropy。

        (2)使用6個(gè)不同的maxDepth參數(shù),其他參數(shù)的值保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。從訓(xùn)練評(píng)估的結(jié)果來看,隨著maxDepth參數(shù)的增大,訓(xùn)練模型所需要的時(shí)間也逐漸增大。當(dāng)maxDepth的值為25時(shí),訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,這種情況下選擇5作為maxDepth參數(shù)的值訓(xùn)練模型更加有效。

        (3)使用6個(gè)不同的maxBins參數(shù),其他參數(shù)保持不變,分別訓(xùn)練評(píng)估模型,得到了不同參數(shù)組合下訓(xùn)練出的模型的AUC和訓(xùn)練時(shí)間圖像。由實(shí)驗(yàn)結(jié)果圖像得出,當(dāng)maxBins為10的時(shí)候,訓(xùn)練模型所需要的時(shí)間較少,且AUC最高。因此,在這種情況下將max-Bins參數(shù)的值設(shè)置為10,可以花費(fèi)更少的時(shí)間訓(xùn)練出最優(yōu)模型。

        (4)將所有的參數(shù)值排列組合,得到72個(gè)不同的參數(shù)組合,使用它們分別訓(xùn)練評(píng)估模型,并從得出的72個(gè)模型之中選擇出一個(gè)AUC(精確度)最高的模型,即最優(yōu)模型。最優(yōu)模型對(duì)應(yīng)的參數(shù)組合即最優(yōu)參數(shù)組合。實(shí)驗(yàn)得出,最優(yōu)參數(shù)組合為(Impurity:entropy,maxDepth:5,maxBins:10),最優(yōu)模型的AUC值為0.797。

        3.6 測(cè)試模型

        使用測(cè)試集測(cè)試模型,將得到的AUC和訓(xùn)練評(píng)估階段得到的最優(yōu)模型的AUC比較,如果兩者相差不大,就代表此模型不存在過擬合問題。實(shí)驗(yàn)得出,測(cè)試階段中模型的AUC為0.756,與訓(xùn)練評(píng)估階段得出的AUC相近,所以此模型不存在過擬合問題,可以用于實(shí)際的預(yù)測(cè)中。

        3.7 預(yù)測(cè)數(shù)據(jù)

        最后,我們?cè)趯?shí)驗(yàn)中使用無過擬合問題的最優(yōu)模型對(duì)網(wǎng)站的熱門程度進(jìn)行預(yù)測(cè),得到一系列預(yù)測(cè)結(jié)果。例如,www.lynnskichenadventures.com被預(yù)測(cè)為熱門網(wǎng)站,www.xcelerationfitness.com被預(yù)測(cè)為非熱門網(wǎng)站。

        4 結(jié)束語(yǔ)

        我們正處于大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)中的數(shù)據(jù)呈“爆炸式”增長(zhǎng),傳統(tǒng)的處理方法越來越無法適應(yīng)當(dāng)今海量數(shù)據(jù)處理的需求,而大數(shù)據(jù)技術(shù)很好地解決了這一問題。本次研究中,利用Spark大數(shù)據(jù)處理平臺(tái)的計(jì)算能力,使用并行化的決策樹算法訓(xùn)練模型,最終得出最優(yōu)的預(yù)測(cè)模型。該模型可以較為精確地預(yù)測(cè)網(wǎng)站的熱度,具有較高的實(shí)用價(jià)值。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        久久99久久99精品免观看女同| 亚洲av无码精品色午夜果冻不卡| 东京热加勒比久久精品| 日韩高清不卡一区二区三区| 国产精品亚洲第一区二区三区 | 狠狠色丁香久久婷婷综合蜜芽五月| 在线精品日韩一区二区三区| 小13箩利洗澡无码免费视频| 国产一区二区av男人| 午夜一区二区三区免费观看| 久久免费亚洲免费视频| 人妻少妇久久久久久97人妻| 在熟睡夫面前侵犯我在线播放| 男女性高爱潮免费网站| 成年女人毛片免费视频| 91老司机精品视频| 国产真实乱XXXⅩ视频| 国产女人高潮的av毛片| 国产在线一区二区三区乱码| 亚洲综合成人婷婷五月网址| 久久精品成人无码观看不卡| 夫妇交换刺激做爰视频| 精品的一区二区三区| 日本老熟妇五十路一区二区三区| 西川结衣中文字幕在线| 国产特级毛片aaaaaaa高清| 风韵饥渴少妇在线观看| A午夜精品福利在线| 精品国产亚欧无码久久久| 国产美女胸大一区二区三区| 日韩三级一区二区三区四区| 欧美性生交活xxxxxdddd | 日韩精品免费av一区二区三区 | 亚无码乱人伦一区二区| 国产 麻豆 日韩 欧美 久久| 最近中文字幕mv在线资源| 在线播放国产女同闺蜜| 亚洲精品天堂在线观看| 国产又湿又爽又猛的视频| 久久无码字幕中文久久无码 | 欧美拍拍视频免费大全|