張文 蘇玉
摘 要: 基于梯度采樣的大數(shù)據(jù)特征挖掘方法在大數(shù)據(jù)挖掘過程中,邏輯性較差,僅從單層角度進(jìn)行大數(shù)據(jù)特征挖掘,極大降低大數(shù)據(jù)特征挖掘的精度。對(duì)此,提出基于云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘模型的特征挖掘方法,其大數(shù)據(jù)存儲(chǔ)體系層包括多源信息資源服務(wù)層、核心技術(shù)層、多源信息資源平臺(tái)服務(wù)層以及多源信息資源基礎(chǔ)層,采用大數(shù)據(jù)特征分布函數(shù)實(shí)施大數(shù)據(jù)特征匹配,實(shí)現(xiàn)大數(shù)據(jù)特征初步挖掘;大數(shù)據(jù)特征挖掘處理層對(duì)存儲(chǔ)體系層中的大數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、清洗、集成與加載實(shí)現(xiàn)大數(shù)據(jù)預(yù)處理,采用FP?tree對(duì)預(yù)處理后的大數(shù)據(jù)進(jìn)行準(zhǔn)確特征挖掘,通過用戶層將獲取的大數(shù)據(jù)特征挖掘結(jié)果反饋給用戶,完成云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘。實(shí)驗(yàn)結(jié)果表明,所提方法在云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘方面準(zhǔn)確率較高,具有低能量開銷的優(yōu)勢(shì)。
關(guān)鍵詞: 云計(jì)算; 梯度采樣; 大數(shù)據(jù); 存儲(chǔ)體系; 特征挖掘; 能量開銷
中圖分類號(hào): TN919?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)20?0161?04
Abstract: The big data feature mining method based on gradient sampling has poor logicality during the process of big data mining, and conducts big data feature mining only from the single layer perspective, which greatly reduces the precision of big data feature mining. Therefore, a feature mining method based on the cloud computing environment is proposed for the big data feature mining model. The big data storage system layer consists of the multi?source information resource service layer, core technology layer, multi?source information resource platform service layer, and multi?source information resource base layer. The big data feature distribution function is used to implement big data feature matching and realize initial mining of big data features. In the big data feature mining processing layer, extraction, transformation, cleaning, integration and loading of big data in the storage system layer are conducted to realize big data preprocessing. The FP?tree is used to conduct accurate feature mining of preprocessed data. The obtained big data feature mining results are fed back to users by means of the user layer, so as to complete big data feature mining in the cloud computing environment. The experimental results show that the proposed method has high accuracy of big data feature mining in the cloud computing environment, and has the advantage of low energy overhead.
Keywords: cloud computing; gradient sampling; big data; storage system; feature mining; energy overhead
云計(jì)算平臺(tái)具有高效分配動(dòng)態(tài)資源、根據(jù)用戶請(qǐng)求生成動(dòng)態(tài)計(jì)算與存儲(chǔ)等功能[1],為大數(shù)據(jù)特征分析與挖掘提供良好平臺(tái)[2]。在云計(jì)算環(huán)境下進(jìn)行大數(shù)據(jù)特征挖掘是信息時(shí)代海量數(shù)據(jù)高效應(yīng)用的有效方法。基于梯度采樣的大數(shù)據(jù)特征挖掘方法在大數(shù)據(jù)挖掘過程中,邏輯性較差,僅從單層角度進(jìn)行大數(shù)據(jù)特征挖掘,降低了大數(shù)據(jù)特征挖掘的精度[3]。針對(duì)這一不足,提出基于云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘模型的特征挖掘方法。通過實(shí)驗(yàn)驗(yàn)證了該方法具有較高的數(shù)據(jù)挖掘性能,為社會(huì)生產(chǎn)各行業(yè)大數(shù)據(jù)特征挖掘提供有效手段。
1.1 云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘模型
文章采用云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘模型實(shí)現(xiàn)大數(shù)據(jù)特征挖掘,該模型如圖1所示。
分析圖1所示的云計(jì)算環(huán)境下大數(shù)據(jù)挖掘模型可知,該模型主要包括大數(shù)據(jù)存儲(chǔ)體系層、大數(shù)據(jù)挖掘處理層以及用戶層[4?5],下面進(jìn)行詳細(xì)研究。
1.2 大數(shù)據(jù)存儲(chǔ)體系層
云計(jì)算中多源數(shù)據(jù)信息的交互、網(wǎng)絡(luò)技術(shù)的集成依賴于云計(jì)算環(huán)境中的三個(gè)不同模型分別是I/O,USB及磁盤層[6],圖2為云計(jì)算環(huán)境下大數(shù)據(jù)存儲(chǔ)體系層的架構(gòu)。
分析圖2能夠看出,云計(jì)算環(huán)境下大數(shù)據(jù)存儲(chǔ)體系包括多源信息資源服務(wù)層、核心技術(shù)層、多源信息資平臺(tái)服務(wù)層以及多源信息資源基礎(chǔ)層。
1.3 大數(shù)據(jù)特征挖掘處理層
1.3.1 大數(shù)據(jù)預(yù)處理
對(duì)大數(shù)據(jù)進(jìn)行預(yù)處理獲取符合特征挖掘標(biāo)準(zhǔn)的高質(zhì)量大數(shù)據(jù),保證特征挖掘結(jié)果的真實(shí)性、可靠性[7]。大數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、集成與加載是大數(shù)據(jù)預(yù)處理的主要流程,通過該方法獲取規(guī)則、可靠的大數(shù)據(jù),基于該結(jié)果進(jìn)行大數(shù)據(jù)特征挖掘[8]。
1.3.2 基于FP?tree的大數(shù)據(jù)特征挖掘
第1.3.1小節(jié)大數(shù)據(jù)特征挖掘過程進(jìn)行大數(shù)據(jù)特征挖掘時(shí),存在分類精度低、用時(shí)長(zhǎng)的缺點(diǎn),為解決該問題,本文提出一種新的、高效率基于FP?tree的大數(shù)據(jù)特征分類挖掘方法,詳細(xì)步驟如圖3所示。
分析圖3能夠看出:第一步,對(duì)獲取大數(shù)據(jù)訓(xùn)練集進(jìn)行map分解,接著對(duì)大數(shù)據(jù)訓(xùn)練集生成FP?tree;第二步,基于FP?tree獲取頻繁項(xiàng)集;第三步,根據(jù)reduce實(shí)施歸并,關(guān)聯(lián)規(guī)則可通過頻繁項(xiàng)集進(jìn)行獲取,接著實(shí)施剪枝[9]獲取分類規(guī)則,基于分類規(guī)則構(gòu)建大數(shù)據(jù)特征分類器,實(shí)現(xiàn)大數(shù)據(jù)特征的有效分類與挖掘。
1.4 用戶層
用戶層中的用戶輸入模塊為用戶提供表達(dá)請(qǐng)求的平臺(tái)。該模塊對(duì)用戶輸入的數(shù)據(jù)信息進(jìn)行分析,匹配合理的數(shù)據(jù)挖掘方法[10]。采用該方法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行數(shù)據(jù)特征挖掘,基于結(jié)果展示模塊用戶能夠獲取相應(yīng)的大數(shù)據(jù)特征挖掘結(jié)果,實(shí)現(xiàn)云計(jì)算環(huán)境下的大數(shù)據(jù)特征挖掘。
2.1 大數(shù)據(jù)特征挖掘準(zhǔn)確率分析
為了驗(yàn)證本文方法進(jìn)行云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘的有效性,對(duì)其展開仿真實(shí)驗(yàn)研究。具體實(shí)驗(yàn)設(shè)置如下:一臺(tái)PC機(jī)配備Windows 7系統(tǒng),2.89 Hz雙核Core四處理器,存儲(chǔ)空間為1 GB;采用Matlab 7仿真軟件、覆蓋范圍300×300的云計(jì)算設(shè)備,大數(shù)據(jù)庫(kù)B500C30D50提供實(shí)驗(yàn)數(shù)據(jù)集,包含44 878 308條記錄。在上述實(shí)驗(yàn)環(huán)境下,采用本文方法對(duì)大數(shù)據(jù)進(jìn)行特征匹配,獲取的匹配結(jié)果如圖4所示。
分析圖4能夠看出,采用本文方法實(shí)施大數(shù)據(jù)特征匹配,在時(shí)間為30 s時(shí)歸一化投影值為0.14;隨著時(shí)間的增加,相應(yīng)的歸一化投影值增大,在時(shí)間為35 s時(shí)出現(xiàn)歸一化投影值峰值0.8,在40 s時(shí)歸一化投影值為0.18??傮w看來,采用本文方法進(jìn)行大數(shù)據(jù)特征匹配獲取的歸一化投影值以時(shí)間35 s處為中心呈對(duì)稱狀態(tài)分布。
將上述獲取的大數(shù)據(jù)特征匹配結(jié)果作為特征數(shù)據(jù)實(shí)施大數(shù)據(jù)特征挖掘,獲取的大數(shù)據(jù)特征分類挖掘結(jié)果如圖5所示。
分析圖5可知,圖中中間處圖形為特征挖掘前數(shù)據(jù)形態(tài),左右兩側(cè)兩條圖形是采用本文方法后獲取的大數(shù)據(jù)特征挖掘形態(tài),通過對(duì)比能夠看出,采用本文方法獲取的數(shù)據(jù)挖掘結(jié)果不存在特征交叉、融合的現(xiàn)象,大數(shù)據(jù)特征得到有效分割,在去除原始數(shù)據(jù)集冗余特征的基礎(chǔ)上獲取規(guī)則、可靠的大數(shù)據(jù)特征挖掘結(jié)果。
將本文方法與基于時(shí)空分析的大數(shù)據(jù)特征挖掘方法、基于梯度采樣的大數(shù)據(jù)特征挖掘方法進(jìn)行對(duì)比實(shí)驗(yàn),采用三種方法進(jìn)行10次大數(shù)據(jù)特征挖掘準(zhǔn)確率測(cè)試,獲取的結(jié)果如表1所示。
分析表1能夠看出三種方法進(jìn)行大數(shù)據(jù)特征挖掘的準(zhǔn)確率對(duì)比情況。本文方法在10次準(zhǔn)確率測(cè)試中獲取的準(zhǔn)確率均在95%以上,在第10次測(cè)試中準(zhǔn)確率達(dá)到最大值99.4%,在第8次測(cè)試中達(dá)到準(zhǔn)確率最小值95.6%,本文方法進(jìn)行大數(shù)據(jù)特征挖掘的平均準(zhǔn)確率為97.6%。基于時(shí)空分析的大數(shù)據(jù)特征挖掘方法在10次準(zhǔn)確率測(cè)試中獲取的準(zhǔn)確率均在90%~96%之間,其準(zhǔn)確率均值為92.1%,在第9次測(cè)試中該方法的準(zhǔn)確率達(dá)到最大值95.2%,其余測(cè)試中準(zhǔn)確率均在92%上下,低于本文方法?;谔荻炔蓸拥拇髷?shù)據(jù)特征挖掘方法的準(zhǔn)確率均值為95.9%,雖然與本文方法的準(zhǔn)確率均值僅相差1.7%,總體看來該方法的大數(shù)據(jù)特征挖掘準(zhǔn)確率較高,難以凸顯本文方法的優(yōu)勢(shì)。因此采用本文方法與基于梯度采樣的大數(shù)據(jù)特征挖掘方法再次進(jìn)行對(duì)比實(shí)驗(yàn)。詳細(xì)實(shí)驗(yàn)方法為:在相同實(shí)驗(yàn)環(huán)境下采用本文方法與基于梯度采樣的大數(shù)據(jù)特征挖掘方法進(jìn)行5次大數(shù)據(jù)特征挖掘測(cè)試并記錄準(zhǔn)確率結(jié)果,制成條形圖如圖6所示。
分析圖6能夠明顯看出本文方法與基于梯度采樣的大數(shù)據(jù)特征挖掘方法準(zhǔn)確率對(duì)比情況,本文方法準(zhǔn)確率明顯高于基于梯度采樣的大數(shù)據(jù)特征挖掘方法。
2.2 數(shù)據(jù)挖掘開銷分析
為驗(yàn)證本文方法優(yōu)勢(shì),以大數(shù)據(jù)特征挖掘能量開銷為測(cè)試指標(biāo),三種方法獲取的能量開銷結(jié)果見圖7。
分析圖7,基于時(shí)空分析的大數(shù)據(jù)特征挖掘方法能量開銷曲線位于曲線圖的最上方。從實(shí)驗(yàn)數(shù)據(jù)能夠看出,該方法進(jìn)行大數(shù)據(jù)特征挖掘的總體能量開銷最大,且隨著云計(jì)算設(shè)備的增加,該方法的能量開銷并未減少,而是呈無規(guī)律狀態(tài)大幅度波動(dòng)。其中出現(xiàn)兩次能量開銷高峰,說明該方法的穩(wěn)定性較差?;谔荻炔蓸拥拇髷?shù)據(jù)特征挖掘方法的能量開銷位居第二位。隨著云計(jì)算設(shè)備數(shù)量的增加,該方法的能量開銷呈逐漸減少的趨勢(shì),相對(duì)基于時(shí)空分析的大數(shù)據(jù)特征挖掘方法而言,該方法的大數(shù)據(jù)特征挖掘性能較強(qiáng),但仍低于本文方法。本文方法能量開銷曲線位于曲線圖最下方,隨著云計(jì)算設(shè)備數(shù)量增加,本文方法能量開銷逐漸減少。與基于時(shí)空分析的大數(shù)據(jù)特征挖掘方法相比,本文方法能量開銷降低了約10倍,大大節(jié)省了大數(shù)據(jù)特征挖掘能量消耗,而且本文方法能量開銷基本穩(wěn)定,無大幅度波動(dòng)。
文章提出基于云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘模型的特征挖掘方法,從云計(jì)算環(huán)境下大數(shù)據(jù)存儲(chǔ)體系層、大數(shù)據(jù)特征挖掘處理層以及用戶層三個(gè)層次實(shí)現(xiàn)云計(jì)算環(huán)境下大數(shù)據(jù)特征挖掘。經(jīng)過實(shí)驗(yàn)驗(yàn)證,本文方法在云計(jì)算環(huán)境下進(jìn)行大數(shù)據(jù)特征挖掘的準(zhǔn)確率較高,且具有能量開銷低的優(yōu)勢(shì)。
注:本文通訊作者為蘇玉。
參考文獻(xiàn)
[1] 張晉芳,王清心,丁家滿,等.一種云計(jì)算環(huán)境下大數(shù)據(jù)動(dòng)態(tài)遷移策略[J].計(jì)算機(jī)工程,2016,42(5):13?17.
ZHANG Jinfang, WANG Qingxin, DING Jiaman, et al. A big data dynamic migration strategy in cloud computing environment [J]. Computer engineering, 2016, 42(5): 13?17.
[2] 王欣,周曉梅.云計(jì)算環(huán)境下大數(shù)據(jù)合理分流技術(shù)研究與仿真[J].計(jì)算機(jī)仿真,2016,33(3):292?295.
WANG Xin, ZHOU Xiaomei. Research and simulation on big data reasonable splitting technology in cloud computing environment [J]. Computer simulation, 2016, 33(3): 292?295.
[3] MANIKYAM N R H, KUMAR S M. Methods and techniques to deal with big data analytics and challenges in cloud computing environment [J]. International journal of civil engineering & technology, 2017, 8(4): 669?678.
[4] 申琢.基于云計(jì)算和大數(shù)據(jù)挖掘的礦山事故預(yù)警系統(tǒng)研究與設(shè)計(jì)[J].中國(guó)煤炭,2017,43(12):109?114.
SHEN Zhuo. Study on early warning system of coal mine accidents based on cloud computing and big data crunching platform [J]. China coal, 2017, 43(12): 109?114.
[5] GHORBEL A, GHORBEL M, JMAIEL M. Privacy in cloud computing environments: a survey and research challenges [J]. Journal of supercomputing, 2017, 73(6): 2763?2800.
[6] LIAO L, HUANG Y, LIU X. Study on the mining method for specific fault data of multimedia sensor networks in cloud computing environment [J]. Multimedia tools & applications, 2016, 76(16): 1?16.
[7] 樓鳳丹,裴旭斌,王志強(qiáng),等.基于云計(jì)算及大數(shù)據(jù)技術(shù)的電力搜索引擎技術(shù)研究[J].電網(wǎng)與清潔能源,2016,32(12):86?92.
LOU Fengdan, PEI Xubin, WANG Zhiqiang, et al. Research on power search engine technology based on cloud computing and large data [J]. Advances of power system & hydroelectric engineering, 2016, 32(12): 86?92.
[8] GOLI?MALEKABADI Z, SARGOLZAEI?JAVAN M, AKBARI M K. An effective model for store and retrieve big health data in cloud computing [J]. Computer methods and programs in biomedicine, 2016, 132: 75?82.
[9] HUA M A, ZHI?GANG H U, ZHANG H Y, et al. Personalized fusion method of service trust evaluation in cloud computing environment [J]. Journal of Chinese computer systems, 2014, 35(4): 776?780.
[10] 吳凱峰,劉萬(wàn)濤,李彥虎,等.基于云計(jì)算的電力大數(shù)據(jù)分析技術(shù)與應(yīng)用[J].中國(guó)電力,2015,48(2):111?116.
WU Kaifeng, LIU Wantao, LI Yanhu, et al. Cloud?computing based power big data analysis technology and its application [J]. Electric power, 2015, 48(2): 111?116.