亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        動(dòng)態(tài)云模型大規(guī)模數(shù)據(jù)挖掘算法

        2014-03-26 07:33:00黃取治
        關(guān)鍵詞:排序數(shù)據(jù)挖掘分類

        黃取治

        (福建師范大學(xué)信息技術(shù)學(xué)院,福建福州 350007)

        0 引 言

        云計(jì)算的發(fā)展為互聯(lián)網(wǎng)的發(fā)展提供了新的機(jī)遇,它有效地降低了企業(yè)在IT設(shè)備上的成本投入,提高了企業(yè)的工作效率。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中找到需要、有用數(shù)據(jù)中有的過程。數(shù)據(jù)挖掘從統(tǒng)計(jì)學(xué)上可以認(rèn)為,是通過計(jì)算機(jī)對(duì)大量的復(fù)雜數(shù)據(jù)集的自動(dòng)分析。數(shù)據(jù)挖掘是為了確定數(shù)據(jù)的模式,它需要對(duì)觀察到的數(shù)據(jù)庫進(jìn)行處理。數(shù)據(jù)挖掘涉及對(duì)數(shù)據(jù)庫管理、人工智能、模式識(shí)別以及數(shù)據(jù)可視化等內(nèi)容。

        1 云計(jì)算和數(shù)據(jù)挖掘簡(jiǎn)介

        云計(jì)算是一種新的計(jì)算模型,它可以將計(jì)算任務(wù)用分布式技術(shù)通過大量互連的計(jì)算機(jī)協(xié)同工作,從而得到需要的計(jì)算資源和其它服務(wù)信息。云計(jì)算為互聯(lián)網(wǎng)時(shí)代海量數(shù)據(jù)的處理和分析提供了高效的平臺(tái)。云計(jì)算可以將海量數(shù)據(jù)分解為同樣大小的信息并且進(jìn)行分布存儲(chǔ),然后利用MapReduce等模型進(jìn)行編程,這種技術(shù)已經(jīng)在搜索引擎中得到了廣泛的應(yīng)用并且取得了良好的效果[1]。用云計(jì)算的方式來進(jìn)行數(shù)據(jù)挖掘,主要是由于數(shù)據(jù)挖掘所面臨的數(shù)據(jù)是海量的,在云技術(shù)出現(xiàn)以前都希望由高性能機(jī)或者是大規(guī)模的計(jì)算設(shè)備來完成,但是計(jì)算機(jī)服務(wù)器的功能總是有限的。同時(shí),在海量數(shù)據(jù)的挖掘中還有比較特殊的要求,這對(duì)數(shù)據(jù)挖掘的開發(fā)環(huán)境和應(yīng)用環(huán)境提出了新的要求,而云計(jì)算的方式能夠有效滿足數(shù)據(jù)挖掘的特殊需要。

        數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中挖掘出有用的信息,來滿足人們的特定需要。有專家預(yù)測(cè)隨著互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)的不斷積累和計(jì)算機(jī)的普及,數(shù)據(jù)挖掘?qū)⒃谖覈纬梢粋€(gè)新的高科技產(chǎn)業(yè)。數(shù)據(jù)挖掘使數(shù)據(jù)庫技術(shù)進(jìn)入到了一個(gè)新的發(fā)展階段,它不僅能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)的查詢,而且能夠找到數(shù)據(jù)之間的聯(lián)系,從而促進(jìn)信息的應(yīng)用和傳遞。數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)真正的按需服務(wù),用戶可以根據(jù)自己的需求選擇相應(yīng)的服務(wù)模式?;谠朴?jì)算的數(shù)據(jù)挖掘計(jì)算的一般過程如圖1所示。

        圖1 云計(jì)算數(shù)據(jù)挖掘計(jì)算過程

        2 云計(jì)算和數(shù)據(jù)挖掘之間的關(guān)系分析

        云計(jì)算是一種基于互聯(lián)網(wǎng)的的計(jì)算模式,其計(jì)算過程、計(jì)算能力、交互能力等功能是一個(gè)動(dòng)態(tài)、虛擬化的過程[2]。云計(jì)算的動(dòng)態(tài)和可伸縮的計(jì)算能力為數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)帶來了可能性,云計(jì)算環(huán)境為新的數(shù)據(jù)挖掘方法的研究提供了新的環(huán)境,云計(jì)算也使面向大眾的數(shù)據(jù)挖掘成為了可能。同時(shí),云計(jì)算的發(fā)展也離不開數(shù)據(jù)挖掘的支持,在基于云計(jì)算的搜索中就包含了網(wǎng)頁存儲(chǔ)、搜索處理等內(nèi)容。數(shù)據(jù)挖掘在搜索服務(wù)中具有廣泛應(yīng)用,在網(wǎng)頁存儲(chǔ)中網(wǎng)頁去重、搜索處理中網(wǎng)頁排序等,其中每項(xiàng)服務(wù)的實(shí)現(xiàn)都需要數(shù)據(jù)挖掘技術(shù)來提供支持[3]。

        新型的數(shù)據(jù)挖掘技術(shù)包括了面向異構(gòu)數(shù)據(jù)、同構(gòu)數(shù)據(jù)和跨域數(shù)據(jù)等不同的數(shù)據(jù)挖掘方法,在同構(gòu)海量數(shù)據(jù)挖掘方法中,節(jié)點(diǎn)所存儲(chǔ)的數(shù)據(jù)都具有同樣的屬性。云計(jì)算平臺(tái)采用集成學(xué)習(xí)的方式來完成預(yù)測(cè)分析,并且在同構(gòu)節(jié)點(diǎn)的基礎(chǔ)上實(shí)現(xiàn)了數(shù)據(jù)挖掘的增量學(xué)習(xí)方法,從而滿足了實(shí)時(shí)性的要求。在異構(gòu)數(shù)據(jù)挖掘技術(shù)中,云計(jì)算平臺(tái)能夠根據(jù)數(shù)據(jù)的模態(tài)將數(shù)據(jù)進(jìn)行分類,并提供數(shù)據(jù)相關(guān)性度量和集成。同時(shí)數(shù)據(jù)挖掘技術(shù)還存在特殊性的應(yīng)用,而云計(jì)算平臺(tái)能夠?yàn)楹A繑?shù)據(jù)的遷移挖掘提供方法上的支持,這不僅擴(kuò)大了云計(jì)算環(huán)境下數(shù)據(jù)挖掘應(yīng)用的范圍,同時(shí)也更好地滿足了數(shù)據(jù)挖掘用戶的需要。

        3 數(shù)據(jù)挖掘算法研究

        樹型機(jī)構(gòu)是一種非線性的結(jié)構(gòu),在數(shù)據(jù)庫的信息組織中得到了廣泛的應(yīng)用。1986年,Quinlan提出了數(shù)據(jù)網(wǎng)挖掘的ID3算法,然后Quinlan在ID3算法的基礎(chǔ)上又提出了C4.5算法。同時(shí)為了滿足海量數(shù)據(jù)處理的需要,又提出了一系列的改進(jìn)的算法,其中SLIQ和SPRINT是比較有代表性的兩個(gè)算法[4]。

        ID3算法是一種分類預(yù)測(cè)算法,其核心是信息熵,信息上是一種數(shù)據(jù)所包含的信息。一組無序數(shù)據(jù)的信息熵越高,那么其熵也就越大。分類預(yù)測(cè)法可以對(duì)目標(biāo)數(shù)據(jù)進(jìn)行分級(jí)處理,具體表現(xiàn)在構(gòu)建決策樹的過程中。通過生成決策樹并且按照相應(yīng)的規(guī)則來判斷數(shù)據(jù)。ID3算法用信息增益作為屬性的選擇標(biāo)準(zhǔn),ID3算法在工作中需要檢測(cè)所有數(shù)據(jù)的屬性,然后將信息增益最大的屬性來作為決策樹的結(jié)點(diǎn)。信息增益作為判斷屬性的標(biāo)準(zhǔn),通過計(jì)算每個(gè)屬性的信息增益,然后比較它們的大小,就能夠得到最大信息增益的屬性。可以假設(shè)S是包含了s個(gè)數(shù)據(jù)樣本的集合,其中類標(biāo)號(hào)屬性有m個(gè)不同值,定義為m個(gè)不同類Ci(i=1,2,…,m),其中假設(shè)si是類Ci中的樣本數(shù)量。假設(shè)屬性A具有v個(gè)不同的值,其集合為{a1,a2,…,av}。用屬性A將S劃分為v個(gè)不同的子集{S1,S2,…,Sv},其中Sj中的樣本表示在屬性A上具有同樣的值aj(j=1,2,…,v),設(shè)sij是子集Sj中Ci的樣本數(shù)量。C4.5算法延續(xù)了ID3算法的優(yōu)點(diǎn),并且對(duì)ID3算法進(jìn)行了優(yōu)化改進(jìn)。用信息增益率來選擇屬性,避免了利用信息增益過程中屬性不足的現(xiàn)象。在構(gòu)建樹的過程中進(jìn)行了剪枝處理,并且對(duì)連續(xù)屬性的離散化處理。C4.5算法具有獨(dú)特的優(yōu)點(diǎn),其分類規(guī)則更容易被理解,而且準(zhǔn)確率也比較高。但是其缺點(diǎn)也比較明顯,需要對(duì)數(shù)據(jù)集進(jìn)行多次排序,因此在數(shù)據(jù)挖掘的過程中其算法的效率比較低。C4.5在一些駐留內(nèi)存的數(shù)據(jù)集中應(yīng)用比較廣泛,當(dāng)數(shù)據(jù)集在內(nèi)存無法容納時(shí)程序就難以有效地運(yùn)行[5]。

        SLIQ算法對(duì)C4.5分類算法進(jìn)行了有效的改進(jìn),在決策樹的構(gòu)造過程中采用了預(yù)排序和廣度優(yōu)先策略兩種技術(shù)來對(duì)數(shù)據(jù)的采集進(jìn)行優(yōu)化。在C4.5算法中預(yù)排序是在連續(xù)屬性內(nèi)部結(jié)點(diǎn)中尋找最優(yōu)分裂標(biāo)準(zhǔn)時(shí),對(duì)訓(xùn)練集按屬性值的大小進(jìn)行排序,而排序則需要一定的時(shí)間等待。為了提高數(shù)據(jù)采集的效率,SLIQ算法應(yīng)用了預(yù)排序技術(shù)。預(yù)排序是通過對(duì)每個(gè)屬性進(jìn)行取值,并且把所記錄的數(shù)據(jù)屬性值按照從小到大的順序進(jìn)行排序,從而避免在決策樹建立的過程中對(duì)每個(gè)結(jié)點(diǎn)數(shù)據(jù)集進(jìn)行排序而花費(fèi)大量額外的時(shí)間。在實(shí)際的操作時(shí)需要根據(jù)訓(xùn)練數(shù)據(jù)集的屬性來創(chuàng)建針對(duì)性的屬性列表,同時(shí)根據(jù)類別的屬性創(chuàng)建相應(yīng)的類別列表。在C4.5算法中樹的構(gòu)造是根據(jù)深度的優(yōu)先來進(jìn)行的,在具體的工作時(shí)需要對(duì)每個(gè)屬性列表的結(jié)點(diǎn)都進(jìn)行掃描,需要花費(fèi)大量的時(shí)間。為了提高數(shù)據(jù)挖掘的效率,SLIQ算法采用了廣度優(yōu)先的方法來構(gòu)建決策樹,在決策樹的每一層上只需要對(duì)屬性列表掃描一次就可以為決策樹中的每個(gè)結(jié)點(diǎn)找到最佳的分裂標(biāo)準(zhǔn)[6]。

        Bayes法是一種在已知先驗(yàn)概率與類條件概率的情況下的模式分類方法,待分樣本的分類結(jié)果取決于各類域中樣本的全體。設(shè)訓(xùn)練樣本集分為M類,記為C={c1,…,ci,…cM},每類的先驗(yàn)概率為P(ci),i=1,2,…,M。當(dāng)樣本集非常大時(shí),可以認(rèn)為P(ci)=ci類樣本數(shù)/總樣本數(shù)。對(duì)于一個(gè)待分樣本X,其歸于cj類的類條件概率是P(X/ci),則根據(jù)Bayes定理,可得到cj類的后驗(yàn)概率P(ci/X):

        式(2)是最大后驗(yàn)概率判決準(zhǔn)則,將式(1)代入式(2),則有,若

        這就是常用到的Bayes分類判決準(zhǔn)則。經(jīng)過長期的研究,Bayes分類方法在理論上論證得比較充分,在應(yīng)用上也是非常廣泛的。Bayes方法的薄弱環(huán)節(jié)在于實(shí)際情況下,類別總體的概率分布和各類樣本的概率分布函數(shù)(或密度函數(shù))常常是不知道的。為了獲得它們,就要求樣本足夠大。另外,Bayes法要求表達(dá)文本的主題詞相互獨(dú)立,這樣的條件在實(shí)際文本中一般很難滿足,因此,該方法往往在效果上難以達(dá)到理論上的最大值。

        為了減少內(nèi)存中的數(shù)據(jù)量,SPRINT算法又對(duì)決策樹中的算法數(shù)據(jù)結(jié)構(gòu)進(jìn)行了進(jìn)一步的改進(jìn),SPRINT算法改變了SLIQ算法中保存在內(nèi)存中的類別列表,將類別列表合并到了屬性列表中。這樣在掃描屬性列表尋找結(jié)點(diǎn)的最佳分裂標(biāo)準(zhǔn)時(shí),不需要參考其它的信息就可以將結(jié)點(diǎn)的分裂劃歸到屬性列表中進(jìn)行分裂,將每一個(gè)屬性列表分成兩個(gè)分別存放各個(gè)結(jié)點(diǎn)的記錄。SPRINT算法使尋找每個(gè)結(jié)點(diǎn)的最佳分裂標(biāo)準(zhǔn)變得更簡(jiǎn)單,但是也存在著對(duì)非分裂屬性列表進(jìn)行分裂時(shí)比較困難[7]。為了改變這種缺點(diǎn),在對(duì)分裂屬性進(jìn)行分裂時(shí),可以用哈希表記錄屬于某個(gè)屬性的結(jié)點(diǎn),如果內(nèi)存能夠容下整個(gè)哈希表,那么其它不同的屬性列表的分裂可以只參照哈希表。哈希表的大小和訓(xùn)練集的大小成正比,當(dāng)訓(xùn)練集很大時(shí),哈希表仍然可能完成保存在內(nèi)存中,這種情況下分裂只能進(jìn)行分批進(jìn)行,這說明了SPRINT算法的可伸縮性仍然需要繼續(xù)改進(jìn)。

        基于云計(jì)算的并行數(shù)據(jù)挖掘服務(wù)模式是將同一個(gè)算法分布到不同的多個(gè)節(jié)點(diǎn)上,這些算法在工作的過程中是并行的、互不干擾的,而且計(jì)算資源能夠進(jìn)行按需分配。分布式計(jì)算采用了云計(jì)算的模式,而數(shù)據(jù)挖掘的關(guān)鍵就是實(shí)現(xiàn)數(shù)據(jù)挖掘算法的并行化。云計(jì)算采用MapReduce等新的計(jì)算模型,所以現(xiàn)有的數(shù)據(jù)挖掘算法和并行化不能直接應(yīng)用到云計(jì)算平臺(tái)上,它需要經(jīng)過一系列的改造才能滿足數(shù)據(jù)挖掘的要求。因此在云計(jì)算的模式下,需要研究數(shù)據(jù)挖掘算法的并行化策略,從而實(shí)現(xiàn)云計(jì)算平臺(tái)下的并行數(shù)據(jù)挖掘算法。并行數(shù)據(jù)挖掘算法包括并行分類算法和并行聚類算法等,能夠進(jìn)行數(shù)據(jù)分類或者預(yù)測(cè),以及數(shù)據(jù)總結(jié)、聚類、異常和趨勢(shì)發(fā)現(xiàn)等。通過借助并行處理技術(shù),在基于數(shù)據(jù)挖掘算法的特點(diǎn)上對(duì)云計(jì)算模型進(jìn)行優(yōu)化,使其能夠更加滿足數(shù)據(jù)挖掘的需要。分布式計(jì)算是解決數(shù)據(jù)挖掘任務(wù)的需要,它能夠有效地提高數(shù)據(jù)挖掘的效率。分布式數(shù)據(jù)挖掘技術(shù)主要有基于網(wǎng)格的分布式數(shù)據(jù)挖掘、基于云的分布式數(shù)據(jù)挖掘等,同時(shí)數(shù)據(jù)挖掘一個(gè)核心問題是實(shí)現(xiàn)數(shù)據(jù)挖掘算法的并行化[8]。

        在利用云計(jì)算進(jìn)行數(shù)據(jù)挖掘時(shí)需要選擇恰當(dāng)?shù)乃惴?,不是所有的算法都能夠滿足數(shù)據(jù)挖掘的策略。通過選擇合適的算法,并且應(yīng)用相應(yīng)的并行辦法才能有效地提高數(shù)據(jù)挖掘的效率。在數(shù)據(jù)挖掘中存在著很多不確定性,所以在應(yīng)用數(shù)據(jù)挖掘算法的過程中,應(yīng)當(dāng)注意不確定性所帶來的消極影響。數(shù)據(jù)挖掘任務(wù)存在著比較大的不確定性,數(shù)據(jù)的預(yù)處理和采集也存在非常多的不確定性,數(shù)據(jù)挖掘方法和結(jié)果也存在比較大的不確定性,所以要快速找到需要的數(shù)據(jù)信息[9]。在利用云計(jì)算進(jìn)行數(shù)據(jù)挖掘時(shí)還需要對(duì)評(píng)價(jià)的結(jié)果進(jìn)行評(píng)價(jià),用戶的需求不同評(píng)價(jià)的目標(biāo)也不同,所以導(dǎo)致了對(duì)挖掘結(jié)果評(píng)價(jià)的不確定性。同時(shí)在云計(jì)算環(huán)境下進(jìn)行數(shù)據(jù)挖掘,對(duì)于云服務(wù)軟件的可信度也比較重要,例如其服務(wù)是否正確或者恰當(dāng),對(duì)隱私數(shù)據(jù)的保護(hù)等,都是數(shù)據(jù)挖掘所關(guān)注的內(nèi)容。數(shù)據(jù)挖掘的算法和模型應(yīng)當(dāng)保持一致性,這樣才能保證數(shù)據(jù)挖掘結(jié)果的正確性。

        4 結(jié) 語

        通過云計(jì)算的海量數(shù)據(jù)存儲(chǔ)和分布計(jì)算,為云計(jì)算環(huán)境下的數(shù)據(jù)挖掘提供了新方法和手段,有效解決了海量數(shù)據(jù)挖掘的分布存儲(chǔ)和高效計(jì)算問題。通過開展基于云計(jì)算特點(diǎn)的數(shù)據(jù)挖掘算法的研究,可以為更多、更復(fù)雜的數(shù)據(jù)挖掘提供新的應(yīng)用平臺(tái)。通過云計(jì)算滿足了數(shù)據(jù)挖掘的個(gè)性化和多樣性的需要,同時(shí)由于數(shù)據(jù)的多樣性,如高維的、動(dòng)態(tài)的數(shù)據(jù),都需要云計(jì)算技術(shù)來實(shí)現(xiàn)。

        [1] 郭鑫,顏一鳴,徐洪智,等.動(dòng)態(tài)云平臺(tái)下的快速閉樹聚類并行算法[J].計(jì)算機(jī)工程,2013(9):80-83.

        [2] 郭鑫,李云,黃云,等.最小閉樹特征集的聚類與分類方法[J].計(jì)算機(jī)應(yīng)用,2010,30(2):423-426,448.

        [3] 郭鑫,顏一鳴.一種動(dòng)態(tài)云模型下樹數(shù)據(jù)挖掘算法[J].小型微型計(jì)算機(jī)系統(tǒng),2013,34(12):2749-2752.

        [4] 宋晶.基于云模型和粗糙集的分類挖掘方法研究[D]:[碩士學(xué)位論文].成都:西南交通大學(xué),2007.

        [5] 遲慶云.基于決策樹的分類算法研究和應(yīng)用[D]:[碩士學(xué)位論文].濟(jì)南:山東師范大學(xué),2005.

        [6] 黃華.基于大云數(shù)據(jù)快速挖掘過程的研究與仿真[J].計(jì)算機(jī)仿真,2013,30(4):386-389.

        [7] 宛婉,周國祥.基于并行抽樣的海量數(shù)據(jù)關(guān)聯(lián)挖掘算法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2013,36(8):933-937.

        [8] 程苗.基于云計(jì)算的用戶瀏覽偏愛路徑挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(29):85-89.

        [9] 陳湘濤,張超,韓茜.基于Hadoop的并行共享決策樹挖掘算法研究[J].計(jì)算機(jī)科學(xué),2013,47(11):258-259.

        猜你喜歡
        排序數(shù)據(jù)挖掘分類
        排序不等式
        分類算一算
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        恐怖排序
        分類討論求坐標(biāo)
        節(jié)日排序
        數(shù)據(jù)分析中的分類討論
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        教你一招:數(shù)的分類
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        天天插视频| 久久久精品一区aaa片| 精品欧洲av无码一区二区三区 | 青青草视频在线播放81| 国产一区白浆在线观看| 先锋五月婷婷丁香草草| 欧美黑人巨大xxxxx| 最近最好的中文字幕2019免费| 在线播放国产女同闺蜜| 亚洲A∨日韩Av最新在线| 国产中文字幕一区二区视频 | 亚洲 卡通 欧美 制服 中文| 国产午夜激无码av毛片| 国产精品美女久久久浪潮av| 狼人精品剧情av在线观看| 天天爽夜夜爽人人爽| 亚洲经典三级| 丰满少妇棚拍无码视频| 国产一区二区三区的区| 亚洲最大av网站在线观看| 国偷自产av一区二区三区| 中文字幕亚洲乱亚洲乱妇| 在线播放草猛免费视频| 亚洲av不卡一区二区三区| 欧美一级特黄AAAAAA片在线看| 日本久久精品国产精品| 日本中文字幕有码网站| 欧美金发尤物大战黑人| 91国在线啪精品一区| 蜜桃传媒免费观看视频| 少妇伦子伦情品无吗| 国产精品免费久久久久影院| 亚洲在线一区二区三区四区| 成人久久久精品乱码一区二区三区| 国产在线观看无码免费视频| 国产无套露脸| 人妻丰满熟妇一二三区| 婷婷综合另类小说色区| 国产成人无码区免费网站| 精品中文字幕手机在线| 国产中文色婷婷久久久精品|