楊偉光
摘要
隨著信息數(shù)據(jù)時(shí)代的到來,實(shí)現(xiàn)了海量數(shù)據(jù)的存儲(chǔ)與計(jì)算人們統(tǒng)計(jì)和分析的數(shù)據(jù)量越來越大,因此這就給數(shù)據(jù)的存儲(chǔ)設(shè)備以及存儲(chǔ)方式提出了相應(yīng)的挑戰(zhàn),數(shù)據(jù)處理的速度已經(jīng)成為大數(shù)據(jù)技術(shù)的關(guān)鍵所在。在傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析過程中,決策樹方法是最為常用的大數(shù)據(jù)分析方法,但是隨著海量數(shù)據(jù)的出現(xiàn),傳統(tǒng)的決策樹方法已經(jīng)不能夠滿足信息時(shí)代的需求,必須要對(duì)決策樹算法進(jìn)行一定參數(shù)的優(yōu)化,以此來滿足現(xiàn)代信息社會(huì)對(duì)海量數(shù)據(jù)的處理要求。本文對(duì)基于決策樹算法分析的大數(shù)據(jù)研究進(jìn)行了闡述,并且深入淺出的介紹了全速算法的運(yùn)行平臺(tái),并且分析了決策樹方法,在大數(shù)據(jù)分析中未來的發(fā)展方向,希望相關(guān)研究人員借鑒和參考。
【關(guān)鍵詞】大數(shù)據(jù) 決策樹 算法研究
21世紀(jì)是互聯(lián)網(wǎng)信息時(shí)代,網(wǎng)絡(luò)信息時(shí)代最為明顯的特征是海量數(shù)據(jù)融入到人們的社會(huì)生活各個(gè)角落,對(duì)這些海量數(shù)據(jù)進(jìn)行提取和加工進(jìn)行分析,從中得到相應(yīng)的規(guī)律符合現(xiàn)在社會(huì)對(duì)于數(shù)據(jù)分析的要求。大數(shù)據(jù)由于其海量數(shù)據(jù)特征,因此傳統(tǒng)的存儲(chǔ)設(shè)備已經(jīng)不能夠滿足現(xiàn)代信息的需求,由于信息數(shù)據(jù)處理的方式發(fā)生了巨大的變革,傳統(tǒng)處理數(shù)據(jù)的技術(shù)已經(jīng)不能夠應(yīng)用于大數(shù)據(jù)分析處理中。傳統(tǒng)的決策樹算法適用于數(shù)據(jù)集合較大的特征值計(jì)算,因此利用決策樹算法可以作為進(jìn)行大數(shù)據(jù)分析的重要武器。傳統(tǒng)的決策樹算法由于其自身架構(gòu)的局限性,在處理海量數(shù)據(jù)特征是仍然存在相應(yīng)的缺陷,不能夠達(dá)到充分分析數(shù)據(jù)特征的需求,因此在傳統(tǒng)的決策樹算法上必須要對(duì)其參數(shù)進(jìn)行優(yōu)化,然后得到相應(yīng)的特征值,最終求得大數(shù)據(jù)的整體特征。
1 決策樹算法的境界
決策樹算法是一種離散函數(shù)的逼近方法,它是一種比較典型的數(shù)據(jù)分類與處理的技術(shù)手段,決策樹算法首先對(duì)數(shù)據(jù)進(jìn)行分類,然后利用歸納原則生成可讀的決策樹規(guī)則,最后對(duì)決策數(shù)據(jù)進(jìn)行分析和判斷。從本質(zhì)上來講決策樹算法是一種通過歸類來解決數(shù)據(jù)特征的技術(shù)手段。
在決策樹算法中蘊(yùn)含的規(guī)律的原理,必須要達(dá)到訓(xùn)練程度較高以及規(guī)模較小的核心模型。在決策樹算法中主要分為兩步,第一步是生成決策樹;第二部是決策樹的減枝過程。決策樹的減枝過程就是對(duì)上一階段的決策樹進(jìn)行檢驗(yàn),然后通過得到新的測(cè)試機(jī)來產(chǎn)生初步的規(guī)則。
2 基于決策樹算法的大數(shù)據(jù)處理技術(shù)優(yōu)化
2.1 特征值優(yōu)化算法
特征值優(yōu)化算法是指在原有的集合中將數(shù)據(jù)重新分類,然后形成一個(gè)數(shù)據(jù)子集,對(duì)數(shù)據(jù)子集進(jìn)行處理分析。特征值優(yōu)化算法原理較為簡(jiǎn)單,并且在實(shí)踐中應(yīng)用較為簡(jiǎn)便。利用特征選擇值進(jìn)行算法計(jì)算主要可以分為兩類,一種是篩選器,一種是封裝器。篩選器是指集合內(nèi)部信息衡量,然后獨(dú)立于分類算法,這是一個(gè)預(yù)處理過程。通過相關(guān)系數(shù)標(biāo)本進(jìn)行評(píng)價(jià),以達(dá)到數(shù)據(jù)處理的目的。
2.2 集中優(yōu)化算法
集中優(yōu)化算法適用于處理數(shù)據(jù)集合等較為龐大的計(jì)算模式,對(duì)其內(nèi)存進(jìn)行計(jì)算過程中沒有方法將全部數(shù)據(jù)內(nèi)容一次性處理完畢,因此許多數(shù)據(jù)需要暫時(shí)存放在存儲(chǔ)器之中。由于決速算法自身的讀寫操作,因此讀寫速度比較緩慢,比較適合對(duì)這種決策樹算法采取優(yōu)化措施。減少其讀寫操作的程序成為了決策樹算法進(jìn)行優(yōu)化的主要方向。在這其中SICU就是一種主要的優(yōu)化算法,這種優(yōu)化算法通過使用廣度排序以及優(yōu)先原則來達(dá)到減少存儲(chǔ)器內(nèi)部讀寫出生的目的,并且極大提高拳速算法的整體效率,除此之外還有boat算法的優(yōu)化。
2.3 分布式的計(jì)算方法
分布式計(jì)算方法對(duì)其子集進(jìn)行了擴(kuò)展,因此在數(shù)據(jù)處理能力上達(dá)到了空前的提高,他能夠有效加快數(shù)據(jù)讀取數(shù)據(jù)的整體能力,并且提高運(yùn)行的整體速度,因此分布式算法開發(fā)比較早。此后谷歌開發(fā)了相應(yīng)的可擴(kuò)展式的計(jì)算機(jī)框架,這個(gè)計(jì)算機(jī)框架以控制器作為其整體的核心,然后對(duì)決策樹進(jìn)行調(diào)控。調(diào)控的主要目的是利用大數(shù)據(jù)模型來進(jìn)行整體的訓(xùn)練。同時(shí)控制器能夠有效接入計(jì)算機(jī)群中,在學(xué)習(xí)決策樹模型中集成方法也可以解決大數(shù)據(jù)分布式的問題。
2.4 面向流數(shù)據(jù)的整體優(yōu)化算法
流數(shù)據(jù)整體優(yōu)化算法可以作為大數(shù)據(jù)的源頭,同時(shí)對(duì)于葉子階段相關(guān)的統(tǒng)計(jì)信息能夠有效進(jìn)行處理,用于代替中間的決策節(jié)點(diǎn),形成新的決策樹。在數(shù)據(jù)整體路以后實(shí)現(xiàn)節(jié)點(diǎn)分類處理。它能夠有效實(shí)現(xiàn)統(tǒng)計(jì)信息的更新。面向流數(shù)據(jù)的整體優(yōu)化算法使得時(shí)間成本得到優(yōu)化,但是其自身的缺點(diǎn)也很明顯,缺乏連續(xù)處理素質(zhì)的能力,同時(shí)還可能出現(xiàn)數(shù)據(jù)的漂流情況。最終的情況會(huì)導(dǎo)致大數(shù)據(jù)信息處理數(shù)據(jù)準(zhǔn)確度有所降低。但是隨著現(xiàn)代研究的深入,面向流數(shù)據(jù)的整體優(yōu)化算法能夠有效支持?jǐn)?shù)值屬性的優(yōu)化處理,因此預(yù)測(cè)的整體準(zhǔn)確性得到了充分的提高,在大數(shù)據(jù)分析和處理中得到了廣泛的應(yīng)用。
3 大數(shù)據(jù)處理的相關(guān)服務(wù)平臺(tái)
大數(shù)據(jù)數(shù)據(jù)處理基本上為開源的服務(wù)軟件,因此許多服務(wù)平臺(tái)都是非營利的組織,能夠提供不同組織的大數(shù)據(jù)開發(fā)平臺(tái)服務(wù)工作。當(dāng)前比較流行的開源計(jì)算機(jī)集群系統(tǒng)中計(jì)算機(jī)集成系統(tǒng)的核心是機(jī)器的整體學(xué)習(xí)庫,并且在數(shù)據(jù)生成與預(yù)測(cè)方面有著廣泛的應(yīng)用??傮w數(shù)據(jù)大數(shù)據(jù)處理中能夠簡(jiǎn)化其機(jī)制,并且提供免費(fèi)的開源式的計(jì)算機(jī)系統(tǒng),同時(shí)在機(jī)器學(xué)習(xí)方面能夠提供在線學(xué)習(xí)的模式。但是由于數(shù)據(jù)呈現(xiàn)整體多流失的模式發(fā)展,因此決策樹算法本身平臺(tái)不斷拓展,是其一個(gè)較為良好的選擇。
4 結(jié)束語
基于決策樹優(yōu)化算法,能夠有效解決大數(shù)據(jù)存儲(chǔ)以及分析的問題,它能夠有效加強(qiáng)數(shù)據(jù)的相關(guān)屬性質(zhì)量。在大數(shù)據(jù)存儲(chǔ)過程中經(jīng)常會(huì)出現(xiàn)屬性缺失,這些現(xiàn)象對(duì)于計(jì)算結(jié)果有很大的影響,可能會(huì)導(dǎo)致決策算法出現(xiàn)錯(cuò)誤。對(duì)于缺失的數(shù)據(jù)處理一直是機(jī)器學(xué)習(xí)的相關(guān)重點(diǎn)研究?jī)?nèi)容,因此也是決策樹算法重點(diǎn)研究關(guān)注的對(duì)象;必須要對(duì)于樣本的比例進(jìn)行調(diào)整,在對(duì)數(shù)據(jù)進(jìn)行分析處理時(shí),由于樣本整體相差過大,可能會(huì)導(dǎo)致樣本數(shù)據(jù)分類被忽略,利用少數(shù)據(jù)進(jìn)行分析是整個(gè)決策樹模型的關(guān)鍵所在;需要更新決策的模型,隨著時(shí)間的變化數(shù)據(jù)的匹配規(guī)律可能不能較好的匹配原有的參數(shù),必須要對(duì)新的模型進(jìn)行改變,同時(shí)單一模型缺少對(duì)于數(shù)據(jù)的全面闡述,因此需要根據(jù)數(shù)據(jù)的變化來及時(shí)更新決策模型,這也是未來全是模型的相關(guān)發(fā)展研究方向。
參考文獻(xiàn)
[1]張棪,曹健.面向大數(shù)據(jù)分析的決策樹算法[J].計(jì)算機(jī)科學(xué),2016(S1):374-379+383.
[2]杜麗英.基于數(shù)據(jù)挖掘的決策樹算法分析[J].吉林建筑工程學(xué)院學(xué)報(bào),2014(05):48-50.