孫柳
(廣東工業(yè)大學(xué) 華立學(xué)院,廣州 511325)
隨著云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)存儲(chǔ)和信息傳輸技術(shù)的發(fā)展,云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)的數(shù)據(jù)信息維數(shù)越來(lái)越多,需要結(jié)合大數(shù)據(jù)和云信息處理技術(shù),構(gòu)建云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)的大數(shù)據(jù)并行聚類(lèi)模型,提高云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)數(shù)據(jù)的檢測(cè)和識(shí)別能力。通過(guò)云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)和特征分析,構(gòu)建云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)分析模型[1],提高云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)的信息管理能力。相關(guān)的并行聚類(lèi)方法研究,在云存儲(chǔ)和資源分布數(shù)據(jù)庫(kù)的組網(wǎng)設(shè)計(jì)和大數(shù)據(jù)信息管理中具有重要意義[2]。
對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)是建立在對(duì)數(shù)據(jù)的候選特征分析基礎(chǔ)上,通過(guò)貝葉斯關(guān)聯(lián)規(guī)則分析,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)[3]。傳統(tǒng)方法中,對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)方法主要有:基于模糊信息檢測(cè)的云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)方法[4]、基于統(tǒng)計(jì)分析的云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)方法[5]、基于粗糙集特征匹配的云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)方法[6]等。由于傳統(tǒng)方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)存在適應(yīng)度水平不高,抗干擾性不好等問(wèn)題。對(duì)此,本文提出基于多種群協(xié)同進(jìn)化算法的云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)方法。首先構(gòu)建云存儲(chǔ)空間多維資源數(shù)據(jù)的參數(shù)采集模型,對(duì)采集的云存儲(chǔ)空間多維資源數(shù)據(jù)進(jìn)行模糊并行特征分布式重組,提取云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)特征參數(shù)集,采用關(guān)聯(lián)粗糙集特征分析方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的多尺度小波結(jié)構(gòu)分解,然后采用多種群協(xié)同控制的方法,建立云存儲(chǔ)空間多維資源數(shù)據(jù)的并行聚類(lèi)模型。通過(guò)關(guān)聯(lián)協(xié)同濾波檢測(cè)方法,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的分組特征檢測(cè)和融合聚類(lèi)處理,利用差分進(jìn)化方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的聚類(lèi)中心尋優(yōu),遍歷云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)區(qū)域的候選目標(biāo)集,實(shí)現(xiàn)對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)的并行關(guān)聯(lián)規(guī)則聚類(lèi)和可靠性挖掘。經(jīng)仿真測(cè)試分析,展示了本文方法在提高云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)能力方面的優(yōu)越性能。
為了實(shí)現(xiàn)基于多種群協(xié)同進(jìn)化算法的云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi),構(gòu)建云存儲(chǔ)空間多維資源數(shù)據(jù)的參數(shù)采集和優(yōu)化存儲(chǔ)結(jié)構(gòu)模型,采用多維特征空間融合和匹配調(diào)度的方法,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的傳輸結(jié)構(gòu)分析,通過(guò)信道轉(zhuǎn)換和均衡配置,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)融合[7],得到云存儲(chǔ)空間多維資源數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型如圖1 所示。
圖1 云存儲(chǔ)空間多維資源數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型Fig.1 Cloud storage space multi-dimensional resource data storage structure model
在云存儲(chǔ)空間多維資源數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)模型中,采用演化貝葉斯準(zhǔn)參數(shù)估計(jì)方法,構(gòu)造云存儲(chǔ)空間多維資源數(shù)據(jù)的分類(lèi)存儲(chǔ)器,通過(guò)多維信息重組和分塊區(qū)域重構(gòu),進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的網(wǎng)格分塊區(qū)域調(diào)度[8]。在臨近區(qū)域中,邊緣特征融合測(cè)度作為云存儲(chǔ)空間多維資源數(shù)據(jù)挖掘的候選區(qū)域,遍歷這些區(qū)域獲得云存儲(chǔ)空間多維資源數(shù)據(jù)的聚類(lèi)中心子集,在候選目標(biāo)集中,得到云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)信息熵為:
采用熵函數(shù)聚類(lèi)方法,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)分布式概率密度重組,得到云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)的隨機(jī)概率密度條件p(vi |y=1)、p(vi |y=0),其滿(mǎn)足高斯分布:
式中,μ1、σ1和μ0、σ0分別為云存儲(chǔ)空間多維資源數(shù)據(jù)的目標(biāo)樣本數(shù)據(jù)和標(biāo)準(zhǔn)信息差。
采用多維特征分解方法,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)信息特征重構(gòu),得到云存儲(chǔ)空間多維資源數(shù)據(jù)的模糊信息聚類(lèi)樣本分布為:
式中,α <ζ <β,l(z)為云存儲(chǔ)空間多維資源數(shù)據(jù)樣本位置;lt為云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)區(qū)域位置;Dα和Dζ,β分別為正樣本和負(fù)樣本。根據(jù)云存儲(chǔ)空間多維資源數(shù)據(jù)的結(jié)構(gòu)參數(shù)分析,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的優(yōu)化聚類(lèi)和挖掘[9]。
采用關(guān)聯(lián)粗糙集特征分析方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的多尺度小波結(jié)構(gòu)分解,結(jié)合特征收斂性控制的方法,通過(guò)云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)多屬性樣本重組[10],得到云存儲(chǔ)空間多維資源數(shù)據(jù)的模糊相關(guān)系數(shù):
結(jié)合灰度特征重組和語(yǔ)義分布式融合方法,得到云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)的隨機(jī)概率密度分布集。云存儲(chǔ)空間多維資源數(shù)據(jù)的多維概率密度函數(shù)為:
采用機(jī)器學(xué)習(xí)的分類(lèi)學(xué)習(xí)方法,得到云存儲(chǔ)空間多維資源數(shù)據(jù)的聯(lián)合特征分布參數(shù)φ和θ。采用重采樣策略,得到云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)的特征分配概率P(zi=j(luò)|z-i,wi)的算式為:
綜上分析,構(gòu)建了云存儲(chǔ)空間的多維資源數(shù)據(jù)融合模型,結(jié)合特征檢測(cè)方法,實(shí)現(xiàn)數(shù)據(jù)并行聚類(lèi)分析[11]。
采用多種群協(xié)同控制的方法,建立云存儲(chǔ)空間多維資源數(shù)據(jù)的并行聚類(lèi)模型,通過(guò)關(guān)聯(lián)協(xié)同濾波檢測(cè)方法[12],得到云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)的更新規(guī)則約束參量的解:
根據(jù)云存儲(chǔ)空間多維資源數(shù)據(jù)的屬性分布進(jìn)行模糊聚類(lèi),得到云存儲(chǔ)空間多維資源數(shù)據(jù)的差分進(jìn)化約束的相關(guān)性因子為:
其中,云存儲(chǔ)空間多維資源數(shù)據(jù)融合的特征分布矩陣為R=(rij,aij)m ×n,基于數(shù)據(jù)層面構(gòu)建大數(shù)據(jù)分類(lèi)模型,得到云存儲(chǔ)空間多維資源數(shù)據(jù)分類(lèi)的聯(lián)合特征解為:
獲取原始數(shù)據(jù)集,引入云存儲(chǔ)空間多維資源數(shù)據(jù)的互信息熵,即:
以P為云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)多屬性分布的概率密度為:
根據(jù)云存儲(chǔ)空間多維資源數(shù)據(jù)的融合參數(shù)應(yīng)滿(mǎn)足:
用Ui,j(t) 表示的云存儲(chǔ)空間多維資源數(shù)據(jù)動(dòng)態(tài)特征分布信息熵。
基于決策邊界的類(lèi)樣本分析方法[13],得到共享的通道數(shù)為P,構(gòu)建云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)的聯(lián)合關(guān)聯(lián)決策函數(shù)為:
其中,d(omi,rmi)表示聯(lián)合度評(píng)估系數(shù)。充分利用數(shù)據(jù)空間的類(lèi)間指數(shù)分布,采用差分進(jìn)化方法,基于高斯概率分布方法,云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)多屬性特征融合輸出為Ek∈E(k=1,2,…,t)。根據(jù)類(lèi)別的不同屬性,得到云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)多屬性數(shù)據(jù)特征融合模型為Pi∈P(i=1,2,…,m)。
綜上分析,采用差分進(jìn)化方法,進(jìn)行云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)多屬性參數(shù)識(shí)別和聚類(lèi)[14]。
其中,Vi為云存儲(chǔ)空間多維資源數(shù)據(jù)的關(guān)聯(lián)分析度量值,使用聯(lián)合特征分布式進(jìn)化方法,得到云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)的聯(lián)合公式為:
在非線性可分的數(shù)據(jù)集中,得到云存儲(chǔ)空間多維資源分布數(shù)據(jù)庫(kù)多屬性并行聚類(lèi)輸出的相似度系數(shù)為:
其中:p為云存儲(chǔ)空間多維資源數(shù)據(jù)的分布集,f為云存儲(chǔ)空間多維資源數(shù)據(jù)分布的聯(lián)合特征參數(shù)分布集。用4 元組(Ei,Ej,d,t) 來(lái)表示云存儲(chǔ)空間多維資源數(shù)據(jù)的主特征量,采用決策樹(shù)調(diào)度和多屬性差分進(jìn)化方法,得到并行聚類(lèi)輸出的聯(lián)合特征量:
式中,m為云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)的進(jìn)化維數(shù),(dik)2為非線性數(shù)據(jù)集。
綜上分析,通過(guò)差分進(jìn)化方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的聚類(lèi)中心尋優(yōu),實(shí)現(xiàn)對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)的并行關(guān)聯(lián)規(guī)則聚類(lèi)和可靠性挖掘。
對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)采集的樣本長(zhǎng)度為1024,云存儲(chǔ)空間的特征分布維數(shù)為3,嵌入維數(shù)為125,數(shù)據(jù)分類(lèi)的屬性為6,多種群迭代的部署為24,差分進(jìn)化的迭代數(shù)為100。根據(jù)上述參數(shù)設(shè)定,得到云存儲(chǔ)空間多維資源數(shù)據(jù)統(tǒng)計(jì)特征量分布如圖2 所示。
圖2 云存儲(chǔ)空間多維資源數(shù)據(jù)統(tǒng)計(jì)特征量分布Fig.2 Distribution of statistical characteristics of multi-dimensional resource data in cloud storage space
根據(jù)圖2 大數(shù)據(jù)檢測(cè)結(jié)果,實(shí)現(xiàn)云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi),得到并行聚類(lèi)預(yù)測(cè)值如圖3 所示。
圖3 數(shù)據(jù)并行聚類(lèi)預(yù)測(cè)值Fig.3 Data parallel clustering predicted value
分析圖3 得知,本文方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的特征并行聚類(lèi)的聚斂度水平較高,數(shù)據(jù)聚類(lèi)融合性較好。測(cè)試數(shù)據(jù)分類(lèi)的準(zhǔn)確率,得到聚類(lèi)誤差收斂結(jié)果如圖4 所示。
圖4 數(shù)據(jù)聚類(lèi)收斂曲線Fig.4 Data clustering convergence curve
分析圖4 得知,本文方法對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)分類(lèi)的正確率較高。在不同的數(shù)據(jù)聚類(lèi)中心,測(cè)試云存儲(chǔ)空間多維資源數(shù)據(jù)挖掘的識(shí)別率,得到測(cè)試結(jié)果如圖5 所示。
圖5 數(shù)據(jù)并行聚類(lèi)的識(shí)別率Fig.5 Recognition rate of data parallel clustering
根據(jù)圖5 仿真結(jié)果得知,本文方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)處理,提高了數(shù)據(jù)的識(shí)別率。
本文提出基于多種群協(xié)同進(jìn)化算法的云存儲(chǔ)空間多維資源數(shù)據(jù)并行聚類(lèi)方法,采用多維特征空間融合和匹配調(diào)度,進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)的傳輸結(jié)構(gòu)分析,結(jié)合灰度特征重組和語(yǔ)義分布式融合方法,得到云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)的隨機(jī)概率密度分布集?;跊Q策邊界的多數(shù)類(lèi)樣本分析方法,充分利用數(shù)據(jù)空間的類(lèi)間指數(shù)分布,采用差分進(jìn)化方法,遍歷云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)區(qū)域的候選目標(biāo)集,實(shí)現(xiàn)對(duì)云存儲(chǔ)空間多維資源數(shù)據(jù)的并行關(guān)聯(lián)規(guī)則聚類(lèi)和可靠性挖掘。研究得知,本文方法進(jìn)行云存儲(chǔ)空間多維資源數(shù)據(jù)聚類(lèi)的收斂性較好,并行關(guān)聯(lián)規(guī)則聚類(lèi)性較強(qiáng),提高了數(shù)據(jù)的檢測(cè)識(shí)別率。