王 霞, 李文明
(福建船政交通職業(yè)學(xué)院 a.信息工程系; b.航海技術(shù)系,福州 350007)
近年來(lái),隨著IT信息技術(shù)和應(yīng)用的蓬勃發(fā)展,數(shù)據(jù)挖掘平臺(tái)的構(gòu)建已經(jīng)發(fā)展成為一個(gè)用戶數(shù)量多、信息量巨大的數(shù)據(jù)信息庫(kù)[1].隨著網(wǎng)絡(luò)普及,許多用戶已經(jīng)逐漸習(xí)慣網(wǎng)絡(luò)上針對(duì)重大數(shù)據(jù)挖掘進(jìn)行討論,分享自己的觀點(diǎn)[2-3].在互聯(lián)網(wǎng)時(shí)代,對(duì)大數(shù)據(jù)信息進(jìn)行并行化處理是挖掘數(shù)據(jù)的主要方法之一.此方法的實(shí)質(zhì)是依次抽取大數(shù)據(jù),通過(guò)對(duì)大數(shù)據(jù)的特征值進(jìn)行分析,找到其隨著時(shí)間變化而改變自身特性的現(xiàn)象,接著將具有一樣特性的信息數(shù)據(jù)進(jìn)行高效聚合,最后形成數(shù)據(jù)挖掘庫(kù)[4].但是,目前學(xué)者的研究大多集中在數(shù)據(jù)批量處理方面,而如何對(duì)大數(shù)據(jù)進(jìn)行并行運(yùn)算處理研究的比較少[5].
針對(duì)上述問(wèn)題,本文通過(guò)在數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)上進(jìn)行數(shù)據(jù)并行化運(yùn)算,此數(shù)據(jù)挖掘方法伴隨著網(wǎng)絡(luò)大數(shù)據(jù)的不斷增加,用戶開(kāi)始使用網(wǎng)絡(luò)進(jìn)行信息共享與交流,所以可以通過(guò)分析網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中數(shù)據(jù)態(tài)勢(shì)變化趨向以完成挖掘數(shù)據(jù)價(jià)值信息的目的.最后通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證,本文設(shè)計(jì)的算法可高效挖掘出數(shù)據(jù)的價(jià)值信息,具有一定的實(shí)用性和價(jià)值性.
定義1 大數(shù)據(jù)中的數(shù)據(jù)
定義2 序列
E=
其中,ei表示一類數(shù)據(jù)符號(hào),包含一種或多種相似的符號(hào),n為種類的個(gè)數(shù).
定義3 并行數(shù)據(jù)挖掘向量
(1)
對(duì)于每個(gè)數(shù)據(jù)組特征項(xiàng),運(yùn)算其在并行處理時(shí)間T內(nèi)的值來(lái)表示評(píng)價(jià)其重要程度,選用余弦相似度來(lái)分別驗(yàn)算大數(shù)據(jù)占據(jù)的空間及其相似度數(shù)值.數(shù)據(jù)組di和dj的相似度表達(dá)式如下:
S(i,j)i≠j=Sim(di,dj)=
β·SimNE(di,dj)+(1-β)·SimO(di,dj)
(2)
式中,β為平滑系數(shù)且β>0.5.
假如S(i≠j)的中值大小為η,第i個(gè)數(shù)據(jù)組d包含的待挖掘數(shù)據(jù)量為μ,數(shù)據(jù)組的平均可挖掘數(shù)據(jù)為ζ,使用Sigmoid函數(shù)對(duì)數(shù)據(jù)參考度進(jìn)行設(shè)置:
(3)
假設(shè)數(shù)據(jù)并行運(yùn)算時(shí)間T的值設(shè)定為1 h,最短時(shí)間間隔t*的數(shù)值為1 min,來(lái)驗(yàn)證本文所提算法的實(shí)用性.設(shè)需要使用并行算法進(jìn)行處理的待挖掘數(shù)據(jù)為maxits=1 000,在數(shù)據(jù)聚類中心之間反復(fù)出現(xiàn)的數(shù)據(jù)次數(shù)為convits=20,挖掘數(shù)據(jù)重合度θ1為0.6,采用的余弦相似度的數(shù)值θ2和θ3全部選定0.8,為了驗(yàn)證本文設(shè)計(jì)的算法的有效性,在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下,如果使用人工分析數(shù)據(jù)將會(huì)耗費(fèi)大量時(shí)間,所以,使用從以下幾個(gè)指標(biāo)來(lái)評(píng)價(jià)本文算法.
(1)挖掘數(shù)據(jù)覆蓋率
數(shù)據(jù)覆蓋率是本文使用并行算法得到待挖掘數(shù)據(jù)占參考數(shù)據(jù)的比重,它主要能夠反映出并行算法的數(shù)據(jù)運(yùn)算能力.本文在參考各種數(shù)據(jù)處理算法的基礎(chǔ)上,用此算法作為基礎(chǔ)進(jìn)行數(shù)據(jù)運(yùn)算能力的判斷.從并行算法實(shí)現(xiàn)的過(guò)程,可以得出該算法能夠挖掘出數(shù)據(jù)的價(jià)值信息.所以,使用在實(shí)際數(shù)據(jù)處理中的挖掘數(shù)據(jù)很少會(huì)出現(xiàn)遺漏情況.
(2)挖掘數(shù)據(jù)準(zhǔn)確率
準(zhǔn)確率是對(duì)并行算法運(yùn)算后得到待挖掘數(shù)據(jù)精準(zhǔn)程度的描述.對(duì)于待挖掘數(shù)據(jù)集合,可以隨機(jī)抽取數(shù)據(jù)庫(kù)中的50個(gè)數(shù)據(jù),經(jīng)過(guò)并行運(yùn)算后,對(duì)挖掘數(shù)據(jù)的準(zhǔn)確率進(jìn)行比較.各種算法對(duì)比結(jié)果如表1所示.
表1 算法準(zhǔn)確率比較
從表1可以得出:本文所提的并行算法的準(zhǔn)確率很高,平均準(zhǔn)確率可達(dá)85%.而與其他四個(gè)數(shù)據(jù)處理算法相比,本文算法具有一定優(yōu)勢(shì).
(3)挖掘數(shù)據(jù)運(yùn)算時(shí)間
挖掘數(shù)據(jù)處理時(shí)間是指從計(jì)算機(jī)網(wǎng)絡(luò)獲得的大數(shù)據(jù)與挖掘數(shù)據(jù)價(jià)值信息后,將其價(jià)值信息進(jìn)行反饋的時(shí)間段,它是對(duì)并行算法處理數(shù)據(jù)高效率的反映.并行處理挖掘數(shù)據(jù)越短,則表明算法可以迅速的挖掘出數(shù)據(jù)價(jià)值信息.
圖1 各數(shù)據(jù)挖掘算法的效率對(duì)比
從圖1的實(shí)驗(yàn)曲線圖可以得出,本文設(shè)計(jì)的并行算法能夠迅速的挖掘數(shù)據(jù)平臺(tái)的價(jià)值信息.實(shí)際上,本算法滿足網(wǎng)絡(luò)上大數(shù)據(jù)實(shí)時(shí)在線的請(qǐng)求,在并行算法處理后的大數(shù)據(jù)庫(kù)內(nèi)進(jìn)行挖掘數(shù)據(jù)的隨機(jī)抽取,約60%的數(shù)據(jù)被歸類到非挖掘數(shù)據(jù),使得在線處理挖掘數(shù)據(jù)的時(shí)間極大地得到了減少.雖然挖掘數(shù)據(jù)平臺(tái)一般含有2 000個(gè)待挖掘數(shù)據(jù),首先通過(guò)主成分分析法對(duì)挖掘數(shù)據(jù)進(jìn)行分析,此方法可以減少算法運(yùn)行時(shí)間,進(jìn)一步提高并行算法的數(shù)據(jù)處理時(shí)間和精確度.從圖1中可以看出,對(duì)于相同的數(shù)據(jù)庫(kù),如果數(shù)據(jù)庫(kù)相對(duì)較小,各算法在處理數(shù)據(jù)的運(yùn)行時(shí)間上相差不是很大.但如果增加數(shù)據(jù)規(guī)模,算法的運(yùn)行時(shí)間曲線的斜率都會(huì)變大,即算法運(yùn)行所用時(shí)間減少的的速度將會(huì)變大.隨著挖掘數(shù)據(jù)的變多,本文算法的運(yùn)行時(shí)間趨于穩(wěn)定,這是因?yàn)楦鲾?shù)據(jù)間的通信隨著挖掘數(shù)據(jù)的增加,計(jì)算過(guò)程中的額外開(kāi)銷也會(huì)總體較小,況且測(cè)試數(shù)據(jù)集本身并不發(fā)生改變,實(shí)驗(yàn)所搭建的集群也不改變,因此運(yùn)行時(shí)間的差異逐漸減小.
隨著信息技術(shù)的不斷創(chuàng)新,大數(shù)據(jù)已經(jīng)呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),大數(shù)據(jù)產(chǎn)業(yè)同時(shí)也經(jīng)歷著從IT到DT的巨大轉(zhuǎn)變.如何提高挖掘大數(shù)據(jù)背后所隱藏的價(jià)值信息,成為現(xiàn)階段許多國(guó)內(nèi)外研究的一個(gè)難題.本文針對(duì)大數(shù)據(jù)背景下數(shù)據(jù)挖掘問(wèn)題,提出了一種高效的數(shù)據(jù)挖掘方法,將并行算法應(yīng)用到數(shù)據(jù)挖掘平臺(tái)之中.實(shí)驗(yàn)證明,本文提出的方法具有較高的數(shù)據(jù)處理能力,能夠?qū)τ?jì)算機(jī)網(wǎng)絡(luò)中的大數(shù)據(jù)進(jìn)行在線數(shù)據(jù)挖掘.