覃兵文
摘 要: 為了提高大數(shù)據(jù)的分類識(shí)別和檢索性能,需要進(jìn)行大數(shù)據(jù)優(yōu)化挖掘,故提出一種基于弱關(guān)聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法。對(duì)大數(shù)據(jù)信息流采用稀疏性融合方法進(jìn)行聚類空間劃分,通過(guò)自相關(guān)特征匹配方法進(jìn)行大數(shù)據(jù)高維分形特征重組,采用向量量化方法進(jìn)行大數(shù)據(jù)的基元分類的收斂性控制,提取大數(shù)據(jù)信息流的弱關(guān)聯(lián)性指數(shù)特征,實(shí)現(xiàn)大數(shù)據(jù)的優(yōu)化分類和挖掘。仿真結(jié)果表明,采用該方法進(jìn)行大數(shù)據(jù)分類挖掘,提高了大數(shù)據(jù)挖掘檢索的查準(zhǔn)性和查全性,挖掘的準(zhǔn)確性較高,抗干擾能力較好。
關(guān)鍵詞: 大數(shù)據(jù); 信息融合; 分類挖掘; 聚類空間劃分; 特征提取
中圖分類號(hào): TN911?34; TP311 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)24?0034?03
Abstract: As big data optimization mining is needed to improve classification recognition and retrieval performance of big data, a big data classification mining method based on distributional extraction of weak correlation index features is proposed. The sparse fusion method is adopted to perform clustering space division for big data flow. The high?dimensional fractal features of big data are reorganized by using the self?correlation feature matching method. The vector quantification method is adopted for convergence control of base element classification of big data. The weak correlation index features of big data information flow are extracted to realize optimization classification and mining of big data. The simulation results show that the method for data classification and mining improves the precision and recall performance of big data mining and retrieval, and has high mining accuracy and good anti?interference capability.
Keywords: big data; information fusion; classification mining; clustering space division; feature extraction
0 引 言
隨著網(wǎng)絡(luò)空間的不斷擴(kuò)容以及網(wǎng)絡(luò)信息技術(shù)的發(fā)展,在網(wǎng)絡(luò)云存儲(chǔ)數(shù)據(jù)庫(kù)中,大數(shù)據(jù)存在較大的差異性特征,需要對(duì)大數(shù)據(jù)進(jìn)行分類挖掘,提高對(duì)大數(shù)據(jù)信息庫(kù)的檢索和分類識(shí)別能力,研究大數(shù)據(jù)分類挖掘技術(shù),在提高大數(shù)據(jù)檢索、訪問(wèn)、調(diào)度和特征提取能力方面具有重要意義,相關(guān)的數(shù)據(jù)分類挖掘方法研究受到人們的極大重視[1]。當(dāng)前主要采用主成分挖掘方法、粒子群分布式挖掘方法以及統(tǒng)計(jì)特征提取的大數(shù)據(jù)挖掘方法[2]。通過(guò)自適應(yīng)分布式學(xué)習(xí)算法實(shí)現(xiàn)大數(shù)據(jù)挖掘,把網(wǎng)絡(luò)分布式云存儲(chǔ)大數(shù)據(jù)時(shí)間序列解析模型分解為含有多個(gè)非線性成分的統(tǒng)計(jì)量,進(jìn)行數(shù)據(jù)的分布式特征重構(gòu),提高數(shù)據(jù)挖掘的抗干擾能力。但是隨著數(shù)據(jù)規(guī)模的擴(kuò)大,挖掘的準(zhǔn)確性不好,提出基于弱關(guān)聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法,首先進(jìn)行大數(shù)據(jù)分布的統(tǒng)計(jì)特征分析,然后進(jìn)行特征提取和數(shù)據(jù)分類算法設(shè)計(jì),最后進(jìn)行數(shù)據(jù)挖掘仿真實(shí)驗(yàn),得出有效性結(jié)論。
1 大數(shù)據(jù)的統(tǒng)計(jì)性特征分析
1.1 大數(shù)據(jù)的稀疏性融合
為了實(shí)現(xiàn)對(duì)大數(shù)據(jù)的分類挖掘優(yōu)化,首先采用統(tǒng)計(jì)特征分析方法進(jìn)行大數(shù)據(jù)特征提取和信息重構(gòu),對(duì)大數(shù)據(jù)信息流采用稀疏性融合方法進(jìn)行聚類空間劃分。本文研究的大數(shù)據(jù)對(duì)象為網(wǎng)絡(luò)分布式云存儲(chǔ)大數(shù)據(jù)。用圖表示網(wǎng)絡(luò)分布式云存儲(chǔ)大數(shù)據(jù)的輸入模型,統(tǒng)計(jì)特征分布的向量量化邊集為,單個(gè)存儲(chǔ)分布節(jié)點(diǎn)的信息覆蓋域?yàn)閞,設(shè),且,得到網(wǎng)絡(luò)分布式云存儲(chǔ)大數(shù)據(jù)的信息融合支持向量集為:
式中:和分別表示網(wǎng)絡(luò)分布式云存儲(chǔ)大數(shù)據(jù)的時(shí)域和頻域分布結(jié)構(gòu)特征;和分別表示大數(shù)據(jù)的采樣時(shí)間間隔和波束分布間隔。采用觀測(cè)或?qū)嶒?yàn)手段獲得網(wǎng)絡(luò)分布式云存儲(chǔ)采樣的先驗(yàn)知識(shí)[3],通過(guò)對(duì)數(shù)據(jù)的多元信息融合處理得到網(wǎng)絡(luò)分布式云存儲(chǔ)并行調(diào)度和重構(gòu)的特征分布向量定義為:
式中:為網(wǎng)絡(luò)分布式云存儲(chǔ)特征分布矩陣的對(duì)角元素值;為測(cè)量誤差。通過(guò)大數(shù)據(jù)的稀疏性融合,得到網(wǎng)絡(luò)分布式云存儲(chǔ)重構(gòu)的約束指標(biāo)分布向量集,以此為特征基礎(chǔ)進(jìn)行向量量化分析和數(shù)據(jù)重構(gòu)。
1.2 大數(shù)據(jù)分類挖掘的聚類空間劃分
基于奈奎斯特采樣定理[4],結(jié)合大數(shù)據(jù)稀疏性融合結(jié)果,進(jìn)行大數(shù)據(jù)分類挖掘聚類空間劃分,對(duì)大數(shù)據(jù)信息流特征重組模型進(jìn)行歸一化處理,得數(shù)據(jù)分類挖掘指向性維數(shù)滿足:
式中,為對(duì)取模。對(duì)大數(shù)據(jù)聚類空間劃分,進(jìn)行大數(shù)據(jù)信息流時(shí)頻分解,得分解式為:
式中,表示數(shù)據(jù)弱關(guān)聯(lián)指向性分布函數(shù),將提取指向性特征輸入到大數(shù)據(jù)分類挖掘傳輸信道中,進(jìn)行向量量化分解。假設(shè)為時(shí)間窗函數(shù),通過(guò)構(gòu)建大數(shù)據(jù)分類挖掘知識(shí)庫(kù)模型,得到數(shù)據(jù)的副本信息融合嵌入維數(shù)m滿足:endprint
通過(guò)自相關(guān)特征匹配方法進(jìn)行大數(shù)據(jù)高維分形特征重組,假設(shè)分類特征重組的傳遞函數(shù),采用一個(gè)二維的連續(xù)函數(shù)進(jìn)行大數(shù)據(jù)聚類的收斂性控制,得到大數(shù)據(jù)分類挖掘的極大熵的判決特征函數(shù)式為:
當(dāng)網(wǎng)絡(luò)分布式云存儲(chǔ)數(shù)據(jù)是局部平穩(wěn)的,通過(guò)構(gòu)造數(shù)據(jù)集的規(guī)則向量集,得到大數(shù)據(jù)分類挖掘的聚類空間為:
結(jié)合訓(xùn)練數(shù)據(jù)集的規(guī)則向量子集解向量分布融合結(jié)果[5],得到大數(shù)據(jù)分類挖掘聚類空間分布的指向性函數(shù)為:
2 大數(shù)據(jù)分類挖掘?qū)崿F(xiàn)
在對(duì)大數(shù)據(jù)信息流采用稀疏性融合方法進(jìn)行聚類空間劃分的基礎(chǔ)上,進(jìn)行數(shù)據(jù)分類特征提取和挖掘過(guò)程優(yōu)化,本文提出一種基于弱關(guān)聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法,采用向量量化方法進(jìn)行大數(shù)據(jù)的基元分類的收斂性控制[6],向量量化的特征函數(shù)為:
式中:表示大數(shù)據(jù)特征序列的相關(guān)性指數(shù)系數(shù);表示先驗(yàn)點(diǎn)簇;表示信息融合的深度;為數(shù)據(jù)的關(guān)聯(lián)維。
利用數(shù)據(jù)集的相似性分布式重建方法,得到數(shù)據(jù)的時(shí)頻分解的變換定義為:
經(jīng)自相關(guān)特征匹配,則數(shù)據(jù)聚類目標(biāo)函數(shù)為:
式中,為數(shù)據(jù)特征分布子帶信息。采用向量量化方法進(jìn)行大數(shù)據(jù)的基元分類的收斂性控制[7],提取數(shù)據(jù)的能量密度譜(Spectrogram,SPEC)為:
基于模糊聚類方法進(jìn)行數(shù)據(jù)分類挖掘,數(shù)據(jù)分類挖掘的特征空間的維數(shù)滿足: (14)
網(wǎng)絡(luò)分布式云存儲(chǔ)重構(gòu)的誤差項(xiàng)滿足高斯?馬爾科夫假設(shè)。將網(wǎng)絡(luò)分布式云存儲(chǔ)重構(gòu)的約束指標(biāo)矩陣改寫為邊緣分布矩陣為:
式中:為的關(guān)聯(lián)維向量;為的云數(shù)據(jù)的聚類指向性分布矩陣;為的參數(shù)向量;為的網(wǎng)絡(luò)分布式云存儲(chǔ)聚類的誤差向量。提取大數(shù)據(jù)信息流的弱關(guān)聯(lián)性指數(shù)特征,得到關(guān)聯(lián)數(shù)據(jù)的線性組合為:
利用IFFT變換進(jìn)行大數(shù)據(jù)的弱關(guān)聯(lián)性特征估計(jì),得到:
分析上述提取的特征估計(jì)結(jié)果得知,由于大數(shù)據(jù)分類挖掘的過(guò)程受到大數(shù)據(jù)的基元分類的收斂性控制,所以大數(shù)據(jù)分類挖掘的收斂性較好,準(zhǔn)確性得以提高。
3 實(shí)驗(yàn)分析
對(duì)大數(shù)據(jù)分類挖掘的仿真實(shí)驗(yàn)建立在Matlab仿真環(huán)境基礎(chǔ)上,大數(shù)據(jù)為網(wǎng)絡(luò)分布式云存儲(chǔ)大數(shù)據(jù),實(shí)驗(yàn)仿真環(huán)境為:Intel Core3?530 1 GB內(nèi)存,操作系統(tǒng)為Windows 7,大數(shù)據(jù)分布的陣元數(shù)目為64,初始采樣的信噪比定為8 dB,數(shù)據(jù)特征分布的隨機(jī)點(diǎn)個(gè)數(shù)為3,數(shù)據(jù)分布的頻帶為4~25 kHz。根據(jù)上述仿真設(shè)定,得大數(shù)據(jù)的原始分布時(shí)域波形如圖1所示。
以圖1給出的大數(shù)據(jù)為研究對(duì)象,進(jìn)行分類挖掘,提取大數(shù)據(jù)信息流的弱關(guān)聯(lián)性指數(shù)特征,實(shí)現(xiàn)大數(shù)據(jù)分類挖掘。圖2給出了采用本文方法和傳統(tǒng)的統(tǒng)計(jì)特征分析方法進(jìn)行數(shù)據(jù)分類挖掘的準(zhǔn)確性對(duì)比。分析得知,采用本文方法進(jìn)行大數(shù)據(jù)挖掘檢索的查準(zhǔn)性和查全性較高,提高了大數(shù)據(jù)挖掘的準(zhǔn)確性。
4 結(jié) 語(yǔ)
本文提出一種基于弱關(guān)聯(lián)性指數(shù)特征分布提取的大數(shù)據(jù)分類挖掘方法,對(duì)大數(shù)據(jù)信息流采用稀疏性融合方法進(jìn)行聚類空間劃分。通過(guò)自相關(guān)特征匹配方法進(jìn)行大數(shù)據(jù)高維分形特征重組,采用向量量化方法進(jìn)行大數(shù)據(jù)的基元分類的收斂性控制,提取大數(shù)據(jù)信息流的弱關(guān)聯(lián)性指數(shù)特征,實(shí)現(xiàn)大數(shù)據(jù)的優(yōu)化分類和挖掘。研究得知,采用該方法進(jìn)行大數(shù)據(jù)分類挖掘,提高了大數(shù)據(jù)挖掘檢索的查準(zhǔn)性和查全性,挖掘的準(zhǔn)確性較高,抗干擾能力較好,具有很好的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] 王變琴,余順爭(zhēng).自適應(yīng)網(wǎng)絡(luò)應(yīng)用特征發(fā)現(xiàn)方法[J].通信學(xué)報(bào),2013,34(4):127?137.
[2] 何力,丁兆云,賈焰,等.大規(guī)模層次分類中的候選類別搜索[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):41?49.
[3] 李保利.基于類別層次結(jié)構(gòu)的多層文本分類樣本擴(kuò)展策略[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,51(2):357?366.
[4] HE Y, ZHANG C S, TANG X M, et al. Coherent integration loss due to pulses loss and phase modulation in passive bistatic radar [J]. Digital signal processing, 2013, 23(4): 1265?1276.
[5] HAO H. Multi component LFM signal detection and parameter estimation based on EEMD?FRFT [J]. International journal for light and electron optics, 2013, 124(23): 6093?6096.
[6] GOVONI M A, LI H, KOSINSKI J A. Range?doppler resolution of the linear?FM noise radar waveform [J]. IEEE transactions on aerospace and electronic systems, 2013, 49(1): 658?664.
[7] 狄嵐,于曉瞳,梁久禎.基于信息濃縮的隱私保護(hù)支持向量機(jī)分類算法[J].計(jì)算機(jī)應(yīng)用,2016,36(2):392?396.endprint