張小軍+金志偉+張浩
摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。
關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化
1 數(shù)據(jù)挖掘算法概述
數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。
從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:
1.1 分類(lèi)分析
分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。
1.2 關(guān)聯(lián)分析
在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。
1.3 聚類(lèi)分析
聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。
2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化
在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。
云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶(hù)的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。
這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。
2.1 并行關(guān)聯(lián)規(guī)則挖掘算法
在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:
設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為
總事務(wù)條數(shù)為
關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:
基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:
(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。
(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。
2.2 并行MC-Apriori算法
關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。
3 結(jié)束語(yǔ)
總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿(mǎn)足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。
參考文獻(xiàn)
[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.
[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.
作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint
摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。
關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化
1 數(shù)據(jù)挖掘算法概述
數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。
從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:
1.1 分類(lèi)分析
分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。
1.2 關(guān)聯(lián)分析
在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。
1.3 聚類(lèi)分析
聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。
2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化
在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。
云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶(hù)的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。
這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。
2.1 并行關(guān)聯(lián)規(guī)則挖掘算法
在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:
設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為
總事務(wù)條數(shù)為
關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:
基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:
(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。
(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。
2.2 并行MC-Apriori算法
關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。
3 結(jié)束語(yǔ)
總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿(mǎn)足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。
參考文獻(xiàn)
[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.
[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.
作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint
摘 要:在當(dāng)前信息化的時(shí)代背景下,數(shù)據(jù)和信息成為決定企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的關(guān)鍵措施,企業(yè)要想獲得良好的發(fā)展,必須從海量的數(shù)據(jù)中迅速找出有用信息,為自身的運(yùn)營(yíng)和生產(chǎn)決策提供科學(xué)合理的服務(wù)。針對(duì)這種需求,數(shù)據(jù)挖掘?qū)W科應(yīng)運(yùn)而生,并且迅速發(fā)展,形成了一套較為完整的理論體系。而在計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)不斷發(fā)展的推動(dòng)下,數(shù)據(jù)挖掘算法有了新的變化,需要相關(guān)科研人員的重視。文章結(jié)合現(xiàn)代云環(huán)境下,數(shù)據(jù)挖掘算法的并行化措施進(jìn)行了分析和探討,以提高數(shù)據(jù)挖掘工作的效率和質(zhì)量。
關(guān)鍵詞:現(xiàn)代云環(huán)境;數(shù)據(jù)挖掘算法;并行化
1 數(shù)據(jù)挖掘算法概述
數(shù)據(jù)挖掘,又稱(chēng)知識(shí)發(fā)現(xiàn),是計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)學(xué)的一個(gè)交叉點(diǎn),主要是指從不同的角度,對(duì)數(shù)據(jù)進(jìn)行分析和整理,從海量的數(shù)據(jù)中總結(jié)出有用信息。換言之,就是從大量繁雜模糊的數(shù)據(jù)中,提取出有效信息的過(guò)程。從某種程度上講,數(shù)據(jù)挖掘?qū)儆谝环N企業(yè)數(shù)據(jù)處理技術(shù),通過(guò)對(duì)企業(yè)在商業(yè)活動(dòng)中產(chǎn)生的業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換以及分析和模型化處理,提取出關(guān)鍵性的數(shù)據(jù)信息,為企業(yè)經(jīng)營(yíng)管理決策的制定提供科學(xué)的參考依據(jù)。
從目前的發(fā)展情況看,數(shù)據(jù)挖掘的內(nèi)容可以分為以下幾個(gè)方面:
1.1 分類(lèi)分析
分類(lèi)分析,是指對(duì)數(shù)據(jù)信息進(jìn)行分類(lèi)處理,為數(shù)據(jù)信息的區(qū)分和處理提供便利,從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)類(lèi)型的預(yù)測(cè)。分類(lèi)的主要概念在于訓(xùn)練集,可以結(jié)合特定的數(shù)據(jù)模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。當(dāng)前應(yīng)用最為廣泛的數(shù)據(jù)分類(lèi)模型是樸素貝葉斯模型和決策樹(shù)模型。
1.2 關(guān)聯(lián)分析
在關(guān)聯(lián)分析中,主要是利用數(shù)據(jù)之間的相互關(guān)聯(lián),結(jié)合已知數(shù)據(jù)對(duì)未知數(shù)據(jù)或者模糊數(shù)據(jù)進(jìn)行推導(dǎo)和預(yù)測(cè)。在關(guān)聯(lián)分析中,應(yīng)用最多的是Apriori算法,在對(duì)關(guān)聯(lián)規(guī)則進(jìn)行研究時(shí),通常也是在該算法的基礎(chǔ)上進(jìn)行修改和擴(kuò)展。但是,Apriori算法在對(duì)支持度進(jìn)行計(jì)算時(shí),需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次全面掃描,生成的候選集存在較多的冗雜項(xiàng),因此存在一定的性能瓶頸,需要進(jìn)行改進(jìn)和解決。
1.3 聚類(lèi)分析
聚類(lèi)分析是一種具有良好實(shí)用性的數(shù)據(jù)挖掘技術(shù),可以對(duì)無(wú)規(guī)律的數(shù)據(jù)進(jìn)行有效分析,并從數(shù)據(jù)中找出有用的信息,在市場(chǎng)分析、信息檢索、衛(wèi)生醫(yī)療等領(lǐng)域得到了廣泛的應(yīng)用。聚類(lèi)分析,實(shí)際上是通過(guò)觀察以及非示例性的學(xué)習(xí),完成對(duì)于數(shù)據(jù)對(duì)象的分類(lèi),以K-means算法為常用算法,但是該算法同樣存在一定的性能瓶頸,K值的準(zhǔn)確性受使用者自身知識(shí)水平的英系那個(gè),可能造成算法性能的不穩(wěn)定或者聚類(lèi)結(jié)果的偏差,因此在利用時(shí)需要格外注意。
2 云環(huán)境下數(shù)據(jù)挖掘算法的并行化
在當(dāng)前的大數(shù)據(jù)時(shí)代,面對(duì)海量的數(shù)據(jù)處理問(wèn)題,絕大部分傳統(tǒng)數(shù)據(jù)挖掘算法其實(shí)都存在一定的性能瓶頸,很難準(zhǔn)確高效地完成大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘工作。因此,在這樣的情況下,提出了將云計(jì)算技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合的方法,可以有效解決這些問(wèn)題,針對(duì)算法的性能瓶頸進(jìn)行改進(jìn),使其更好的適應(yīng)當(dāng)前的云環(huán)境,具有一定的現(xiàn)實(shí)意義。
云計(jì)算是隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生和發(fā)展起來(lái)的,是一種基于互聯(lián)網(wǎng)的計(jì)算方式,能夠結(jié)合用戶(hù)的實(shí)際需求,對(duì)于服務(wù)器、存儲(chǔ)、軟件、服務(wù)和網(wǎng)絡(luò)等資源進(jìn)行動(dòng)態(tài)分配,通過(guò)合理有效的設(shè)計(jì)和調(diào)整,使得資源的利用率達(dá)到最高。在云計(jì)算背景下,可以提供高效的并行化計(jì)算能力,從而提高數(shù)據(jù)挖掘的高效性和實(shí)用性,方便對(duì)于海量數(shù)據(jù)的處理。
這里主要針對(duì)MC-Apriori算法的并行化改進(jìn)進(jìn)行分析和探討。
2.1 并行關(guān)聯(lián)規(guī)則挖掘算法
在不斷的發(fā)展過(guò)程中,相關(guān)研究人員提出了多種關(guān)聯(lián)規(guī)則算法,但是從本質(zhì)上來(lái)說(shuō),都是在Apriori算法的基礎(chǔ)上,進(jìn)行改進(jìn)和創(chuàng)新,這些算法主要是針對(duì)原有算法中存在的問(wèn)題的改進(jìn),屬于一種串行算法。這些改進(jìn)后的算法雖然能夠提升算法的性能,但是在當(dāng)前大數(shù)據(jù)背景下,單機(jī)算法對(duì)于大數(shù)據(jù)的處理很有些力不從心,因此需要采用并行計(jì)算,對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn)。描述如下:
設(shè)計(jì)算機(jī)集群中n臺(tái)計(jì)算機(jī)節(jié)點(diǎn)N1,N2…,Nn,相互之間只有網(wǎng)絡(luò)通信,則每個(gè)節(jié)點(diǎn)存放子事務(wù)數(shù)據(jù)庫(kù)Dk(1≤k≤n),包含TCk條業(yè)務(wù),則總交替數(shù)據(jù)庫(kù)為
總事務(wù)條數(shù)為
關(guān)聯(lián)規(guī)則的并行化,主要可以分為兩種形式,即基于內(nèi)存共享和基于存儲(chǔ)共享。關(guān)聯(lián)規(guī)則的挖掘模型如下:
基于并行計(jì)算理論,對(duì)現(xiàn)有的關(guān)聯(lián)規(guī)則算法進(jìn)行改進(jìn),可以實(shí)行多種新的算法,這些算法的并行點(diǎn)多在候選集和頻繁集計(jì)算。主要包括以下幾種:
(1)CD算法:這種算法是對(duì)Apriori算法的簡(jiǎn)單并行,主要是將事務(wù)數(shù)據(jù)庫(kù)分到n個(gè)節(jié)點(diǎn),然后在單個(gè)節(jié)點(diǎn),運(yùn)行Apriori算法,每一個(gè)節(jié)點(diǎn)的候選集支持度計(jì)算,最后,進(jìn)行全局同步以及共享計(jì)數(shù)。這種算法具有較高的并行性,但是數(shù)據(jù)的輸出和輸出成本高,沒(méi)有對(duì)內(nèi)存進(jìn)行有效利用。
(2)DD算法:DD算法是通過(guò)循環(huán)的方式,將候選集分配到多個(gè)節(jié)點(diǎn),之后在單個(gè)節(jié)點(diǎn)上對(duì)候選集的支持度進(jìn)行計(jì)算,需要使用其他節(jié)點(diǎn)的數(shù)據(jù)集時(shí),可以通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)傳輸。因此,不需要全局同步候選集計(jì)數(shù),但是,在實(shí)用性方面存在一定的不足,不僅網(wǎng)絡(luò)需求高,而且事物處理存在一定的冗余。
2.2 并行MC-Apriori算法
關(guān)聯(lián)規(guī)則并行化算法的核心,是將數(shù)據(jù)集劃分為多個(gè)數(shù)據(jù)塊,然后掃描數(shù)據(jù)塊,挖掘其中存在的關(guān)聯(lián)規(guī)則。MC-Apriori算法可以實(shí)現(xiàn)并行化運(yùn)算,主要是在單機(jī)的情況下,結(jié)合計(jì)算項(xiàng)的個(gè)數(shù),對(duì)1-頻繁集進(jìn)行計(jì)算,生成相應(yīng)的k-1-候選集,并通過(guò)對(duì)候選集的修剪,得到k頻繁集。在對(duì)候選集的支持度進(jìn)行計(jì)算的過(guò)程中,可以并行化處理,在多個(gè)節(jié)點(diǎn)對(duì)本地候選集的本地支持度進(jìn)行計(jì)數(shù),之后合并成為全局候選集的支持度技術(shù),并由此得出頻繁集。在并行關(guān)聯(lián)規(guī)則挖掘算法中,數(shù)據(jù)劃分的方式不同,則算法的挖掘效率也存在很大的差異。有效的數(shù)據(jù)劃分,最好是讓一個(gè)頻繁項(xiàng)集對(duì)應(yīng)的事務(wù)處于最少的數(shù)據(jù)塊上,在MC-Apriori算法中,由于需要將事務(wù)數(shù)據(jù)轉(zhuǎn)化為矩陣,因此一個(gè)事務(wù)數(shù)據(jù)最好可以保存在單個(gè)數(shù)據(jù)塊中。
3 結(jié)束語(yǔ)
總而言之,在當(dāng)前的大數(shù)據(jù)背景下,傳統(tǒng)數(shù)據(jù)挖掘算法無(wú)法滿(mǎn)足海量數(shù)據(jù)的挖掘和處理要求,因此需要對(duì)其進(jìn)行改進(jìn)。本文針對(duì)現(xiàn)代云環(huán)境下的數(shù)據(jù)挖掘算法的并行化進(jìn)行了分析和探討,希望能夠?yàn)橄嚓P(guān)數(shù)據(jù)挖掘算法的研究提供一定的參考。
參考文獻(xiàn)
[1]胡善杰.在云環(huán)境下的數(shù)據(jù)挖掘算法的并行化研究[D].電子科技大學(xué),2013.
[2]丁巖.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,(1):77-80.
作者簡(jiǎn)介:張小軍(1980,1-),男,籍貫:河南,研究方向(從事的什么研究)云計(jì)算,數(shù)據(jù)挖掘,通信技術(shù),職稱(chēng):講師。endprint