亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于并行算法的數(shù)據(jù)挖掘平臺(tái)研究

        2019-01-10 06:40:22李文明
        關(guān)鍵詞:并行算法數(shù)據(jù)處理數(shù)據(jù)挖掘

        王 霞, 李文明

        (福建船政交通職業(yè)學(xué)院 a.信息工程系; b.航海技術(shù)系,福州 350007)

        近年來(lái),隨著IT信息技術(shù)和應(yīng)用的蓬勃發(fā)展,數(shù)據(jù)挖掘平臺(tái)的構(gòu)建已經(jīng)發(fā)展成為一個(gè)用戶數(shù)量多、信息量巨大的數(shù)據(jù)信息庫(kù)[1].隨著網(wǎng)絡(luò)普及,許多用戶已經(jīng)逐漸習(xí)慣網(wǎng)絡(luò)上針對(duì)重大數(shù)據(jù)挖掘進(jìn)行討論,分享自己的觀點(diǎn)[2-3].在互聯(lián)網(wǎng)時(shí)代,對(duì)大數(shù)據(jù)信息進(jìn)行并行化處理是挖掘數(shù)據(jù)的主要方法之一.此方法的實(shí)質(zhì)是依次抽取大數(shù)據(jù),通過(guò)對(duì)大數(shù)據(jù)的特征值進(jìn)行分析,找到其隨著時(shí)間變化而改變自身特性的現(xiàn)象,接著將具有一樣特性的信息數(shù)據(jù)進(jìn)行高效聚合,最后形成數(shù)據(jù)挖掘庫(kù)[4].但是,目前學(xué)者的研究大多集中在數(shù)據(jù)批量處理方面,而如何對(duì)大數(shù)據(jù)進(jìn)行并行運(yùn)算處理研究的比較少[5].

        針對(duì)上述問(wèn)題,本文通過(guò)在數(shù)據(jù)挖掘平臺(tái)的基礎(chǔ)上進(jìn)行數(shù)據(jù)并行化運(yùn)算,此數(shù)據(jù)挖掘方法伴隨著網(wǎng)絡(luò)大數(shù)據(jù)的不斷增加,用戶開(kāi)始使用網(wǎng)絡(luò)進(jìn)行信息共享與交流,所以可以通過(guò)分析網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中數(shù)據(jù)態(tài)勢(shì)變化趨向以完成挖掘數(shù)據(jù)價(jià)值信息的目的.最后通過(guò)實(shí)驗(yàn)結(jié)果驗(yàn)證,本文設(shè)計(jì)的算法可高效挖掘出數(shù)據(jù)的價(jià)值信息,具有一定的實(shí)用性和價(jià)值性.

        1 數(shù)據(jù)挖掘平臺(tái)的構(gòu)建

        1.1 數(shù)據(jù)挖掘的定義

        定義1 大數(shù)據(jù)中的數(shù)據(jù)

        定義2 序列

        E=

        其中,ei表示一類數(shù)據(jù)符號(hào),包含一種或多種相似的符號(hào),n為種類的個(gè)數(shù).

        定義3 并行數(shù)據(jù)挖掘向量

        1.2 并行算法的實(shí)現(xiàn)

        (1)

        對(duì)于每個(gè)數(shù)據(jù)組特征項(xiàng),運(yùn)算其在并行處理時(shí)間T內(nèi)的值來(lái)表示評(píng)價(jià)其重要程度,選用余弦相似度來(lái)分別驗(yàn)算大數(shù)據(jù)占據(jù)的空間及其相似度數(shù)值.數(shù)據(jù)組di和dj的相似度表達(dá)式如下:

        S(i,j)i≠j=Sim(di,dj)=

        β·SimNE(di,dj)+(1-β)·SimO(di,dj)

        (2)

        式中,β為平滑系數(shù)且β>0.5.

        假如S(i≠j)的中值大小為η,第i個(gè)數(shù)據(jù)組d包含的待挖掘數(shù)據(jù)量為μ,數(shù)據(jù)組的平均可挖掘數(shù)據(jù)為ζ,使用Sigmoid函數(shù)對(duì)數(shù)據(jù)參考度進(jìn)行設(shè)置:

        (3)

        2 實(shí)驗(yàn)結(jié)果及分析

        2.1 實(shí)驗(yàn)結(jié)果

        假設(shè)數(shù)據(jù)并行運(yùn)算時(shí)間T的值設(shè)定為1 h,最短時(shí)間間隔t*的數(shù)值為1 min,來(lái)驗(yàn)證本文所提算法的實(shí)用性.設(shè)需要使用并行算法進(jìn)行處理的待挖掘數(shù)據(jù)為maxits=1 000,在數(shù)據(jù)聚類中心之間反復(fù)出現(xiàn)的數(shù)據(jù)次數(shù)為convits=20,挖掘數(shù)據(jù)重合度θ1為0.6,采用的余弦相似度的數(shù)值θ2和θ3全部選定0.8,為了驗(yàn)證本文設(shè)計(jì)的算法的有效性,在大數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下,如果使用人工分析數(shù)據(jù)將會(huì)耗費(fèi)大量時(shí)間,所以,使用從以下幾個(gè)指標(biāo)來(lái)評(píng)價(jià)本文算法.

        (1)挖掘數(shù)據(jù)覆蓋率

        數(shù)據(jù)覆蓋率是本文使用并行算法得到待挖掘數(shù)據(jù)占參考數(shù)據(jù)的比重,它主要能夠反映出并行算法的數(shù)據(jù)運(yùn)算能力.本文在參考各種數(shù)據(jù)處理算法的基礎(chǔ)上,用此算法作為基礎(chǔ)進(jìn)行數(shù)據(jù)運(yùn)算能力的判斷.從并行算法實(shí)現(xiàn)的過(guò)程,可以得出該算法能夠挖掘出數(shù)據(jù)的價(jià)值信息.所以,使用在實(shí)際數(shù)據(jù)處理中的挖掘數(shù)據(jù)很少會(huì)出現(xiàn)遺漏情況.

        (2)挖掘數(shù)據(jù)準(zhǔn)確率

        準(zhǔn)確率是對(duì)并行算法運(yùn)算后得到待挖掘數(shù)據(jù)精準(zhǔn)程度的描述.對(duì)于待挖掘數(shù)據(jù)集合,可以隨機(jī)抽取數(shù)據(jù)庫(kù)中的50個(gè)數(shù)據(jù),經(jīng)過(guò)并行運(yùn)算后,對(duì)挖掘數(shù)據(jù)的準(zhǔn)確率進(jìn)行比較.各種算法對(duì)比結(jié)果如表1所示.

        表1 算法準(zhǔn)確率比較

        從表1可以得出:本文所提的并行算法的準(zhǔn)確率很高,平均準(zhǔn)確率可達(dá)85%.而與其他四個(gè)數(shù)據(jù)處理算法相比,本文算法具有一定優(yōu)勢(shì).

        (3)挖掘數(shù)據(jù)運(yùn)算時(shí)間

        挖掘數(shù)據(jù)處理時(shí)間是指從計(jì)算機(jī)網(wǎng)絡(luò)獲得的大數(shù)據(jù)與挖掘數(shù)據(jù)價(jià)值信息后,將其價(jià)值信息進(jìn)行反饋的時(shí)間段,它是對(duì)并行算法處理數(shù)據(jù)高效率的反映.并行處理挖掘數(shù)據(jù)越短,則表明算法可以迅速的挖掘出數(shù)據(jù)價(jià)值信息.

        2.2 算法及結(jié)果分析

        圖1 各數(shù)據(jù)挖掘算法的效率對(duì)比

        從圖1的實(shí)驗(yàn)曲線圖可以得出,本文設(shè)計(jì)的并行算法能夠迅速的挖掘數(shù)據(jù)平臺(tái)的價(jià)值信息.實(shí)際上,本算法滿足網(wǎng)絡(luò)上大數(shù)據(jù)實(shí)時(shí)在線的請(qǐng)求,在并行算法處理后的大數(shù)據(jù)庫(kù)內(nèi)進(jìn)行挖掘數(shù)據(jù)的隨機(jī)抽取,約60%的數(shù)據(jù)被歸類到非挖掘數(shù)據(jù),使得在線處理挖掘數(shù)據(jù)的時(shí)間極大地得到了減少.雖然挖掘數(shù)據(jù)平臺(tái)一般含有2 000個(gè)待挖掘數(shù)據(jù),首先通過(guò)主成分分析法對(duì)挖掘數(shù)據(jù)進(jìn)行分析,此方法可以減少算法運(yùn)行時(shí)間,進(jìn)一步提高并行算法的數(shù)據(jù)處理時(shí)間和精確度.從圖1中可以看出,對(duì)于相同的數(shù)據(jù)庫(kù),如果數(shù)據(jù)庫(kù)相對(duì)較小,各算法在處理數(shù)據(jù)的運(yùn)行時(shí)間上相差不是很大.但如果增加數(shù)據(jù)規(guī)模,算法的運(yùn)行時(shí)間曲線的斜率都會(huì)變大,即算法運(yùn)行所用時(shí)間減少的的速度將會(huì)變大.隨著挖掘數(shù)據(jù)的變多,本文算法的運(yùn)行時(shí)間趨于穩(wěn)定,這是因?yàn)楦鲾?shù)據(jù)間的通信隨著挖掘數(shù)據(jù)的增加,計(jì)算過(guò)程中的額外開(kāi)銷也會(huì)總體較小,況且測(cè)試數(shù)據(jù)集本身并不發(fā)生改變,實(shí)驗(yàn)所搭建的集群也不改變,因此運(yùn)行時(shí)間的差異逐漸減小.

        3 結(jié)論

        隨著信息技術(shù)的不斷創(chuàng)新,大數(shù)據(jù)已經(jīng)呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),大數(shù)據(jù)產(chǎn)業(yè)同時(shí)也經(jīng)歷著從IT到DT的巨大轉(zhuǎn)變.如何提高挖掘大數(shù)據(jù)背后所隱藏的價(jià)值信息,成為現(xiàn)階段許多國(guó)內(nèi)外研究的一個(gè)難題.本文針對(duì)大數(shù)據(jù)背景下數(shù)據(jù)挖掘問(wèn)題,提出了一種高效的數(shù)據(jù)挖掘方法,將并行算法應(yīng)用到數(shù)據(jù)挖掘平臺(tái)之中.實(shí)驗(yàn)證明,本文提出的方法具有較高的數(shù)據(jù)處理能力,能夠?qū)τ?jì)算機(jī)網(wǎng)絡(luò)中的大數(shù)據(jù)進(jìn)行在線數(shù)據(jù)挖掘.

        猜你喜歡
        并行算法數(shù)據(jù)處理數(shù)據(jù)挖掘
        認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
        ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
        地圖線要素綜合化的簡(jiǎn)遞歸并行算法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于GPU的GaBP并行算法研究
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
        基于GPU的分類并行算法的研究與實(shí)現(xiàn)
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        国产一品道av在线一二三区| 亚洲国产成人av二区| 日日摸天天摸97狠狠婷婷| 黑人巨大白妞出浆| 国产激情无码Av毛片久久| 日本一二三区在线不卡| 噜噜噜噜私人影院| 麻豆高清免费国产一区| 国产av专区一区二区三区| 国产在线视频一区二区三区不卡| 日韩av无码一区二区三区| 亚洲av电影天堂男人的天堂| 欧美日韩一区二区三区色综合| av在线资源一区二区| 国产欧美日韩一区二区加勒比| 一二三四在线视频观看社区| 日韩一二三四精品免费| 国产精女同一区二区三区久| 久久久久亚洲av成人网人人软件| a级毛片毛片免费观看久潮喷| 精品一区二区三区影片| 女女同女同一区二区三区| 国产超碰人人做人人爽av大片 | 亚洲av在线观看播放| 国产超碰女人任你爽| 无码不卡高清毛片免费| 91蜜桃精品一区二区三区毛片| 精品国产一区二区三区色搞| 国产精品igao视频| 久久91精品国产91久| 偷拍综合在线视频二区日韩| 中文字幕人妻中文| 精品无码av不卡一区二区三区| 人妻熟女中文字幕av| 少妇愉情理伦片丰满丰满| 99久久夜色精品国产网站| 九色精品国产亚洲av麻豆一| 国产成人自拍高清在线| 丰满少妇高潮惨叫正在播放 | 亚洲国产都市一区二区| 欧美日韩午夜群交多人轮换|