賀俊
摘 要:在存留和解析多樣數(shù)據(jù)時(shí),云計(jì)算能供應(yīng)實(shí)效凸顯的解決路徑。明晰數(shù)據(jù)挖掘用到的特有算法,帶有側(cè)重的價(jià)值。建構(gòu)在SLIQ之上的算法,采用逐一遍歷以及伸縮性指標(biāo)的計(jì)算方法,尋找到精準(zhǔn)的分裂點(diǎn)。建構(gòu)出來的模型,能促動(dòng)算法實(shí)效的升高。經(jīng)由改進(jìn),SLIQ框架下的算法,增添了并行化情形下的挖掘效率。
關(guān)鍵詞:計(jì)算機(jī)云計(jì)算;SLIQ;并行算法
數(shù)目偏多的數(shù)據(jù),經(jīng)由數(shù)據(jù)挖掘,被歸整和處理。陳舊的挖掘算法,只可以輸入那種規(guī)模偏小的數(shù)據(jù)量;若數(shù)據(jù)量遞增,那么這樣的算法會(huì)縮減速率,很難提升原有的運(yùn)算成效。云計(jì)算框架下的運(yùn)算,能處理這種規(guī)模偏大的數(shù)據(jù)。若能摸索出并行化情形下的數(shù)據(jù)挖掘,就可化解掉這樣的疑難。SLIQ接納了新穎的編程模型,在既有的環(huán)境之下,建構(gòu)出決策規(guī)則情形中的數(shù)據(jù)挖掘。
1 新穎算法概述
建構(gòu)在SLIQ框架下的新穎算法,歸屬于決策樹分類這種算法,并凸顯了代表性。這樣的算法,可處理數(shù)目偏多的數(shù)據(jù);而陳舊的分類器帶有的處理容量,只能升至600KB左右。因此,建構(gòu)在SLIQ框架下的新穎算法,打破了陳舊算法特有的瓶頸。經(jīng)由改進(jìn)的SLIQ,帶有凸顯的分布特性,能與現(xiàn)有的數(shù)據(jù)挖掘狀態(tài)契合。
上世紀(jì)末這一時(shí)段內(nèi),學(xué)者經(jīng)由摸索,創(chuàng)設(shè)出了新穎的SLIQ。這樣的新算法,速率很高,且能被延展,它建構(gòu)在特有的模型之上,即決策樹這種模型。SLIQ可分出三個(gè)獨(dú)特階段,即預(yù)處理用到的階段、構(gòu)建樹的獨(dú)特階段、修剪樹的獨(dú)特階段。預(yù)處理用到的階段以內(nèi),要排列出各類別數(shù)值帶有的屬性。在制備出來的類表以內(nèi),對(duì)葉的那些節(jié)點(diǎn)索引,朝向決策樹搭配著的根節(jié)點(diǎn)。建構(gòu)樹用到的階段以內(nèi),采納新穎的、遞歸調(diào)用必備的路徑。修剪樹用到的階段以內(nèi),特有的修剪算法,描述的是獨(dú)特的最小長度。
2 經(jīng)由改進(jìn)的新算法
2.1 獨(dú)特的屬性分裂路徑
SLIQ框架下的新穎算法,搭配著可伸縮的新指標(biāo)。用這樣的新指標(biāo),替換掉舊有的信息量。這樣一來,就生成了最適宜的那種決策樹。在計(jì)算體系帶有的特征值時(shí),索引只考量類值現(xiàn)有的分布情形。對(duì)數(shù)值型的、帶有連續(xù)性的獨(dú)特字段,在尋找出分裂點(diǎn)的路徑中,可設(shè)定出如下幾步:設(shè)定一個(gè)特有的字段a,經(jīng)由排序,可獲取到獨(dú)特?cái)?shù)列,含有m個(gè)數(shù)值。分裂這樣的事件,會(huì)在帶有鄰近特性的那些節(jié)點(diǎn)中產(chǎn)出,因此,就運(yùn)算出了m種這樣的可能性。選取數(shù)列涵蓋著的中點(diǎn),當(dāng)成備選情形下的分裂點(diǎn)。依循由小到大這樣的次序,選取出能用到的分裂點(diǎn)。在這之中,最小點(diǎn)歸屬于最佳的備選數(shù)值。
對(duì)那些帶有離散特性的獨(dú)特字段,要經(jīng)由分裂測(cè)試,選取出字段含有的所有子集。把原有的字段,分出兩個(gè)獨(dú)特成分,運(yùn)算得來不同的索引。當(dāng)選取到那個(gè)最小狀態(tài)下的索引時(shí),就尋找到了最好的那個(gè)分裂點(diǎn)。然而,要遍歷字段涵蓋著的一切子集,會(huì)耗費(fèi)掉偏多的時(shí)間。
2.2 并行化路徑
經(jīng)由改進(jìn),SLIQ框架下的新穎算法,可以并行化路徑。具體而言,要把體系搭配著的一切類表,存留在現(xiàn)有的處理機(jī)以內(nèi)。在并行框架下,建構(gòu)樹用到的階段,應(yīng)被側(cè)重探究,而剪枝時(shí)段,不會(huì)耗費(fèi)掉偏多的時(shí)間。要?jiǎng)?chuàng)設(shè)出并行建樹必備的路徑,就應(yīng)尋找出最好的那個(gè)分裂點(diǎn),同時(shí)建構(gòu)出能用到的新節(jié)點(diǎn)。
若要執(zhí)行這樣的分裂路徑,則要更替樣本涵蓋著的類表,以及特有的直方圖。直方圖含有的獨(dú)特字段,可借助運(yùn)算得來索引。還應(yīng)借助特有的哈希表,以便存留住分割點(diǎn)搭配著的兩側(cè)數(shù)值,并供應(yīng)并行節(jié)點(diǎn)必備的分隔根據(jù)。經(jīng)由改進(jìn),SLIQ框架下的算法,能存留偏多的內(nèi)存,提升原有速率;同時(shí),在很短時(shí)段內(nèi),可生成期待中的目標(biāo)數(shù)。
3 可用的改進(jìn)途徑
借助特有的編程模型,改進(jìn)了陳舊算法,獲取到SLIQ框架下的新算法。編程模型搭配著的函數(shù),會(huì)把各類別根節(jié)點(diǎn)既有的記錄,予以水平方位內(nèi)的劃分。這樣一來,就分出了N個(gè)等同規(guī)模之下的子集,并獲取到特有的數(shù)據(jù)塊。對(duì)N個(gè)這樣的子集,增添現(xiàn)有的格式化特性。Map框架下的操作,會(huì)經(jīng)由掃描,錄入各類別的記錄。在這以后,分出同種類別下的key,對(duì)應(yīng)到精準(zhǔn)的文件內(nèi)。選取特有的模計(jì)算,把這些文件,搭配到既有的模型之上。
對(duì)那些帶有連續(xù)屬性的獨(dú)特字段,要依循由小到大這樣的次序,排列出字段涵蓋著的屬性值。與此同時(shí),要生成精準(zhǔn)的直方圖。初始數(shù)值,被設(shè)定成零。要經(jīng)由運(yùn)算,得來分裂點(diǎn)搭配著的索引數(shù)值。隨時(shí)去更替現(xiàn)有的直方圖,對(duì)那些離散情形下的連續(xù)字段,可以不排出次序,也可以不去更替原有的直方圖。初次掃描,可歸結(jié)出特有的直方圖,運(yùn)算得來子集搭配著的索引數(shù)值。
SLIQ框架下的獨(dú)特操作,會(huì)依循既有的分裂點(diǎn),建構(gòu)出可用的哈希表。這種表單內(nèi),第m條獨(dú)特記錄,就表征著源數(shù)據(jù)含有的第m個(gè)獨(dú)特樹節(jié)點(diǎn)。比對(duì)現(xiàn)有的輸出數(shù)值,選取出最小的那種索引,關(guān)聯(lián)起既有屬性,以及既有的數(shù)據(jù)表。對(duì)各類別工作站含有的偏小的索引,比對(duì)它們搭配著的屬性數(shù)值。這樣一來,就獲取到了最小情形下的指標(biāo)值,它就歸屬于最好的那種分割點(diǎn)。經(jīng)由年齡框架下的直方圖,可運(yùn)算得來Age表征著的屬性。經(jīng)由遍歷,可獲取到最好的那種分割點(diǎn),這就增添了運(yùn)算實(shí)效。
[參考文獻(xiàn)]
[1]楊長春,沈曉玲.基于云計(jì)算的SLIQ并行算法研究[J].計(jì)算機(jī)工程與科學(xué),2012(03).
[2]王鄂,李銘.云計(jì)算下的海量數(shù)據(jù)挖掘研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2009(11).
[3]高勛.基于云計(jì)算的Web結(jié)構(gòu)挖掘算法研究[D].北京交通大學(xué),2010(06).