王東強(qiáng),王曉霞
(青島農(nóng)業(yè)大學(xué) 理學(xué)與信息科學(xué)學(xué)院,山東 青島 266109)
云存儲(chǔ)中大數(shù)據(jù)優(yōu)化粒子群聚類(lèi)算法
王東強(qiáng),王曉霞
(青島農(nóng)業(yè)大學(xué) 理學(xué)與信息科學(xué)學(xué)院,山東 青島 266109)
對(duì)云存儲(chǔ)系統(tǒng)中的大數(shù)據(jù)進(jìn)行優(yōu)化聚類(lèi)設(shè)計(jì),降低存儲(chǔ)開(kāi)銷(xiāo),提高數(shù)據(jù)管理和調(diào)度能力,傳統(tǒng)方法中對(duì)云存儲(chǔ)大數(shù)據(jù)聚類(lèi)方法采用量子進(jìn)化方法,當(dāng)量子群個(gè)體存在非線性偏移時(shí),數(shù)據(jù)聚類(lèi)存在局部收斂,導(dǎo)致聚類(lèi)準(zhǔn)確度降低。提出一種基于優(yōu)化粒子群算法的云存儲(chǔ)中大數(shù)據(jù)優(yōu)化聚類(lèi)算法,進(jìn)行了云存儲(chǔ)大數(shù)據(jù)聚類(lèi)的原理分析,在傳統(tǒng)的模糊C均值聚類(lèi)的基礎(chǔ)上,采用粒子群聚類(lèi)算法進(jìn)行大數(shù)據(jù)聚類(lèi)算法改進(jìn)設(shè)計(jì),把數(shù)據(jù)的分割轉(zhuǎn)化為對(duì)空間的分割,得到云存儲(chǔ)系統(tǒng)中海量數(shù)據(jù)的模糊聚類(lèi)中心矢量,采用粒子群聚類(lèi)方法對(duì)聚類(lèi)數(shù)據(jù)的離散樣本進(jìn)行動(dòng)態(tài)分配,得到數(shù)據(jù)聚類(lèi)的信息素濃度,結(jié)合粒子群優(yōu)化聚類(lèi)的約束條件,求得云存儲(chǔ)中大數(shù)據(jù)聚類(lèi)的中心最優(yōu)解。仿真結(jié)果表明,采用該算法進(jìn)行云存儲(chǔ)中大數(shù)據(jù)優(yōu)化粒子群聚類(lèi),數(shù)據(jù)聚類(lèi)的聚類(lèi)準(zhǔn)確度高,收斂性能較好,能在較短的迭代步數(shù)下計(jì)算得到最優(yōu)解,在模式識(shí)別等領(lǐng)域展示了較好的應(yīng)用價(jià)值。
云存儲(chǔ);粒子群;大數(shù)據(jù);聚類(lèi)算法
隨著云計(jì)算的出現(xiàn),云存儲(chǔ)服務(wù)的誕生與發(fā)展,基于云存儲(chǔ)系統(tǒng)的大數(shù)據(jù)云計(jì)算為云用戶提供了廉價(jià)的存儲(chǔ)空間[1]。從分配與數(shù)據(jù)管制形式來(lái)看,云存儲(chǔ)能夠劃分成公共云、私有云及混合云等類(lèi)別。經(jīng)過(guò)云計(jì)算,將云存儲(chǔ)系統(tǒng)里的資源數(shù)據(jù)實(shí)行統(tǒng)一調(diào)度與信息處置,經(jīng)過(guò)資源融合,使用云網(wǎng)格估算,將一個(gè)須要相當(dāng)大的估算問(wèn)題劃分為很多小的部分,然后將這些局部一個(gè)一個(gè)分散到很多低性能的計(jì)算機(jī)來(lái)處置,達(dá)成以虛擬化為關(guān)鍵的云平臺(tái)架構(gòu),通過(guò)云存儲(chǔ)實(shí)現(xiàn)大數(shù)據(jù)的調(diào)度和管理,大數(shù)據(jù)調(diào)度的重要基礎(chǔ)是進(jìn)行數(shù)據(jù)聚類(lèi),數(shù)據(jù)聚類(lèi)是實(shí)現(xiàn)模式識(shí)別的根本。
傳統(tǒng)方法中對(duì)云存儲(chǔ)系統(tǒng)中的數(shù)據(jù)聚類(lèi)方法主要有基于FCM的數(shù)據(jù)聚類(lèi)算法、基于支持向量機(jī)SVM分解的數(shù)據(jù)聚類(lèi)算法和基于BP神經(jīng)網(wǎng)絡(luò)控制的數(shù)據(jù)聚類(lèi)算法等[2-3],但是傳統(tǒng)方法在數(shù)據(jù)聚類(lèi)過(guò)程中容易陷入局部收斂,導(dǎo)致聚類(lèi)的準(zhǔn)確度降低,對(duì)此,有關(guān)文獻(xiàn)實(shí)行了算法改進(jìn),當(dāng)中,文獻(xiàn)[4]提出基于混沌差分進(jìn)化的云存儲(chǔ)系統(tǒng)大數(shù)據(jù)聚類(lèi)算法,采用層次聚類(lèi)進(jìn)行大數(shù)據(jù)的特征提取,在層次聚類(lèi)過(guò)程中隨著類(lèi)別層次的變化導(dǎo)致聚類(lèi)中心矢量偏移,性能不好。文獻(xiàn)[5]中,對(duì)云存儲(chǔ)大數(shù)據(jù)聚類(lèi)方法采用量子進(jìn)化方法,當(dāng)量子群個(gè)體存在非線性偏移時(shí),數(shù)據(jù)聚類(lèi)存在局部收斂,導(dǎo)致聚類(lèi)準(zhǔn)確度降低[6-7]。文中提出一種基于優(yōu)化粒子群算法的云存儲(chǔ)中大數(shù)據(jù)優(yōu)化聚類(lèi)算法,首先進(jìn)行了云存儲(chǔ)大數(shù)據(jù)聚類(lèi)的原理分析,在傳統(tǒng)的模糊C均值聚類(lèi)的基礎(chǔ)上,采用粒子群聚類(lèi)算法實(shí)行大數(shù)據(jù)聚類(lèi)算法改革設(shè)計(jì),最后經(jīng)過(guò)仿真實(shí)驗(yàn)實(shí)行了性能檢驗(yàn)及證明,展現(xiàn)出了文中算法在實(shí)際大數(shù)據(jù)聚類(lèi)里的優(yōu)越性能,得出有效性結(jié)論,在模式識(shí)別等領(lǐng)域展示了較好的應(yīng)用價(jià)值[8]。
1.1 云存儲(chǔ)及大數(shù)據(jù)聚類(lèi)問(wèn)題描述
云存儲(chǔ)系統(tǒng)是云計(jì)算的核心問(wèn)題之一,構(gòu)建云存儲(chǔ)及大數(shù)據(jù)聚類(lèi)算法,將資源多源性簡(jiǎn)化為單一資源進(jìn)行重構(gòu),提高云計(jì)算中多源信息資源的高效分配[9-11]。在云計(jì)算大數(shù)據(jù)管理中,需要對(duì)大數(shù)據(jù)進(jìn)行數(shù)據(jù)聚類(lèi),通過(guò)數(shù)據(jù)聚類(lèi),提高數(shù)據(jù)的調(diào)度和擴(kuò)展能力,在云存儲(chǔ)系統(tǒng)中,需要構(gòu)建云存儲(chǔ)系統(tǒng),典型的大數(shù)據(jù)云儲(chǔ)存系統(tǒng)模型設(shè)計(jì)如圖1所示。
圖1 典型大數(shù)據(jù)云存儲(chǔ)結(jié)構(gòu)模型構(gòu)建
其中,云存儲(chǔ)的樣本集x={x1,x2,…,xn}數(shù)據(jù)分析的聚類(lèi)中心{a1,a2,…,ak},在第k+1次迭代過(guò)程中的粒子群的聚類(lèi)中心矢量為:
其中ws和we表示云存儲(chǔ)系統(tǒng)的慣性權(quán)值,取值分別為0.95和0.4,在上述模型設(shè)計(jì)的基礎(chǔ)上,進(jìn)行云存儲(chǔ)中大數(shù)據(jù)聚類(lèi)算法研究,提高數(shù)據(jù)的聚類(lèi)性能。
1.2 云存儲(chǔ)系統(tǒng)中的大數(shù)據(jù)聚類(lèi)原理分析
在大數(shù)據(jù)環(huán)境下,對(duì)信任節(jié)點(diǎn)的數(shù)據(jù)種類(lèi)進(jìn)行區(qū)分治理,數(shù)量非常少的一類(lèi)被叫作少數(shù)類(lèi),而另一類(lèi)就被叫作多數(shù)類(lèi),具備這樣特點(diǎn)的兩區(qū)分?jǐn)?shù)據(jù)集則被叫作是不平衡的[12-15]。文中在傳統(tǒng)的模糊C均值聚類(lèi)的根本上,使用粒子群聚類(lèi)算法實(shí)行大數(shù)據(jù)聚類(lèi)算法改進(jìn)設(shè)計(jì),首先給出傳統(tǒng)的模糊C均值聚類(lèi)算法設(shè)計(jì)模型,算法具體描述如下:
在云計(jì)算存儲(chǔ)系統(tǒng)中,假設(shè)有限特征解的海量數(shù)據(jù)集:
用基于M-Learning學(xué)習(xí)網(wǎng)絡(luò)局部性交叉性信息鏈模型,得到云存儲(chǔ)系統(tǒng)中的海量數(shù)據(jù)集合中含有n個(gè)樣本,數(shù)據(jù)的分割成均勻分布的粒子群,得到聚類(lèi)樣本xi,i=1,2,…n的特征矢量為:
采用解析排隊(duì)模型進(jìn)行數(shù)據(jù)聚類(lèi)的信道補(bǔ)償,把有限數(shù)據(jù)集合X分為c類(lèi),其中1<c<n,通過(guò)上述處理,把數(shù)據(jù)的分割轉(zhuǎn)化為對(duì)空間的分割,得到云存儲(chǔ)系統(tǒng)中海量數(shù)據(jù)的模糊聚類(lèi)中心矢量為:
其中vi為存儲(chǔ)結(jié)構(gòu)中心的第i個(gè)特征向量,(第i個(gè)聚類(lèi)中心矢量)。大數(shù)據(jù)特征聚類(lèi)中心VMi的聚類(lèi)劃分矩陣表示為:
通過(guò)定義,得到模糊C均值聚類(lèi)算法,在大數(shù)據(jù)調(diào)度環(huán)境下,采用粒子群聚類(lèi)方法對(duì)聚類(lèi)數(shù)據(jù)的離散樣本進(jìn)行動(dòng)態(tài)分配,得到數(shù)據(jù)聚類(lèi)的信息素濃度為:
式中,m為權(quán)重指數(shù),(dik)2為樣本xk與Vi的大數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu)中心矢量,用歐式距離表示,為:
數(shù)據(jù)聚類(lèi)中心的粒子最優(yōu)解為:
結(jié)合約束條件,采用李雅普諾夫極限定理,求云存儲(chǔ)中大數(shù)據(jù)聚類(lèi)的中心極值為:
對(duì)上述求最優(yōu)解,得到數(shù)據(jù)聚類(lèi)中心,進(jìn)行數(shù)據(jù)聚類(lèi)。
在上述進(jìn)行云存儲(chǔ)系統(tǒng)結(jié)構(gòu)模型構(gòu)建和模糊C均值聚類(lèi)算法描述的基礎(chǔ)上,進(jìn)行粒子群聚類(lèi)算法改進(jìn)設(shè)計(jì),對(duì)云存儲(chǔ)系統(tǒng)中的大數(shù)據(jù)進(jìn)行優(yōu)化聚類(lèi)設(shè)計(jì),降低存儲(chǔ)開(kāi)銷(xiāo),提高數(shù)據(jù)管理和調(diào)度能力,傳統(tǒng)方法中對(duì)云存儲(chǔ)大數(shù)據(jù)聚類(lèi)方法采用量子進(jìn)化方法,當(dāng)量子群個(gè)體存在非線性偏移時(shí),數(shù)據(jù)聚類(lèi)存在局部收斂,導(dǎo)致聚類(lèi)準(zhǔn)確度降低。為了克服傳統(tǒng)方法的弊端,文中提出一種基于優(yōu)化粒子群算法的云存儲(chǔ)中大數(shù)據(jù)優(yōu)化聚類(lèi)算法。
假設(shè)在D維大數(shù)據(jù)云存儲(chǔ)聚類(lèi)特征空間中,有m個(gè)粒子組成一個(gè)種群,當(dāng)擾動(dòng)序列加入種群中,影響了聚類(lèi)精度,對(duì)此,文中把數(shù)據(jù)聚類(lèi)問(wèn)題轉(zhuǎn)化為一個(gè)多目標(biāo)優(yōu)化問(wèn)題,云存儲(chǔ)中大數(shù)據(jù)聚類(lèi)的數(shù)學(xué)描述如下:
其中,fi(x)(i=1,2,…,n)為目標(biāo)函數(shù),gi(x)系統(tǒng)有兩個(gè)不穩(wěn)定的1周期點(diǎn)x=0和x=1-1/μ,hj(x)為等式約束。這里,引入混沌粒子群擾動(dòng)概念,得到?jīng)Q策變量x*支配的聚類(lèi)中心的特征解為:
為了避免粒子陷入局部最優(yōu),對(duì)于每個(gè)大數(shù)據(jù)信息特征矢量Xi進(jìn)行存檔,為:
其中,fi是Pareto最優(yōu)解,Pij(k)表示 k時(shí)刻第i個(gè)決策變量,不等式fi(X*)≤fi(X)成立,其中i=1,2,…,n,設(shè)置聚類(lèi)的閾值Nth,當(dāng)Neff<Nth時(shí),搜索區(qū)域的Oα和Oβ兩個(gè)區(qū)間的聚類(lèi)正確的概率為:
采用粒子群跳數(shù)改進(jìn)機(jī)制進(jìn)行存儲(chǔ)庫(kù)中的粒子更新,粒子群跳數(shù)改進(jìn)機(jī)制原理如圖2所示。
圖2 粒子群跳數(shù)改進(jìn)機(jī)制原理
更新粒子群中每個(gè)粒子的空間位置
其中,xk為搜索該區(qū)域內(nèi)的慣性權(quán)重,a為聚類(lèi)中心的非劣解,de為極值點(diǎn)到非劣解的距離,在評(píng)估解集分布的均勻程度時(shí),計(jì)算按最優(yōu)聚類(lèi)中心矢量函數(shù),根據(jù)模因組中的更新迭代順序,得到:
由此得到云存儲(chǔ)中大數(shù)據(jù)聚類(lèi)的粒子適應(yīng)度函數(shù)為:
其中,{α,β}為分集聚斂目標(biāo)函數(shù),通過(guò)優(yōu)化PSO聚類(lèi)方法實(shí)現(xiàn)對(duì)云存儲(chǔ)中大數(shù)據(jù)聚類(lèi),由此實(shí)現(xiàn)算法改進(jìn)。算法改進(jìn)實(shí)現(xiàn)流程如圖3所示。
最后通過(guò)仿真實(shí)驗(yàn)對(duì)本文設(shè)計(jì)的數(shù)據(jù)聚類(lèi)算法進(jìn)行性能測(cè)試和驗(yàn)證,實(shí)驗(yàn)的計(jì)算機(jī)硬件環(huán)境為:處理器Intel(R)Core(TM)2 Duo CPU主頻2.93 GHz,內(nèi)存2 GB。操作系統(tǒng):Windows 7。采用Matlab數(shù)學(xué)仿真軟件進(jìn)行算法編程實(shí)現(xiàn),云存儲(chǔ)系統(tǒng)設(shè)計(jì)中,通過(guò)粒子群重采樣策略實(shí)現(xiàn)對(duì)DOM函數(shù)的修改,采用eval()、setTimeout()、setInterval()等直接執(zhí)行腳本函數(shù)進(jìn)行粒子的多樣性濾波,仿真實(shí)驗(yàn)中,粒子群的額種群規(guī)模為300,進(jìn)化次數(shù)為1024,跳數(shù)機(jī)制為100,云存儲(chǔ)中的干擾向量的擾動(dòng)率為0.2,分別取粒子數(shù)Ns=200,500,700,1000,以n=30K,m={20,50,100}和n=100K,m=100四種情況為例在進(jìn)行云存儲(chǔ)大數(shù)據(jù)聚類(lèi)仿真,在云存儲(chǔ)環(huán)境下,進(jìn)行數(shù)據(jù)聚類(lèi)測(cè)試,首先進(jìn)行原始大數(shù)據(jù)采樣,得到原始數(shù)據(jù)結(jié)果如圖4所示。
圖3 大數(shù)據(jù)聚類(lèi)算法實(shí)現(xiàn)流程
圖4 云存儲(chǔ)中的原始大數(shù)據(jù)采樣結(jié)果
上述數(shù)據(jù)由于相互特征差異不明顯,難以有效區(qū)分,采用文中算法進(jìn)行數(shù)據(jù)聚類(lèi),實(shí)現(xiàn)模式識(shí)別,得到數(shù)據(jù)聚類(lèi)結(jié)果如圖5所示。
從圖可見(jiàn),采用文中算法進(jìn)行數(shù)據(jù)聚類(lèi),具有較大的特征差異性,各類(lèi)數(shù)據(jù)之間得到有效區(qū)分,對(duì)云存儲(chǔ)系統(tǒng)中的數(shù)據(jù)聚類(lèi)性能較好,為了對(duì)比算法性能,以數(shù)據(jù)聚類(lèi)的收斂度為測(cè)試指標(biāo),獲得仿真后果像圖6所示,由圖可知,使用文中算法,可以在限制的迭代步數(shù)下實(shí)現(xiàn)最優(yōu)化聚類(lèi),收斂性能較好,展示了較好的應(yīng)用價(jià)值。
圖5 數(shù)據(jù)聚類(lèi)結(jié)果
圖6 大數(shù)據(jù)聚類(lèi)收斂性能對(duì)比
對(duì)云存儲(chǔ)系統(tǒng)中的大數(shù)據(jù)進(jìn)行優(yōu)化聚類(lèi)設(shè)計(jì),降低存儲(chǔ)開(kāi)銷(xiāo),提高數(shù)據(jù)管理和調(diào)度能力,傳統(tǒng)方法中對(duì)云存儲(chǔ)大數(shù)據(jù)聚類(lèi)方法采用量子進(jìn)化方法,當(dāng)量子群個(gè)體存在非線性偏移時(shí),數(shù)據(jù)聚類(lèi)存在局部收斂,導(dǎo)致聚類(lèi)準(zhǔn)確度降低。提出一種基于優(yōu)化粒子群算法的云存儲(chǔ)中大數(shù)據(jù)優(yōu)化聚類(lèi)算法、首先進(jìn)行了云存儲(chǔ)大數(shù)據(jù)聚類(lèi)的原理分析,在傳統(tǒng)的模糊C均值聚類(lèi)的基礎(chǔ)上,采用粒子群聚類(lèi)算法實(shí)行大數(shù)據(jù)聚類(lèi)算法改革設(shè)計(jì),最后經(jīng)過(guò)仿真實(shí)驗(yàn)實(shí)行了性能檢測(cè)及證明,展現(xiàn)出了文中算法在實(shí)際大數(shù)據(jù)聚類(lèi)里的優(yōu)越性能,實(shí)驗(yàn)后果證明,使用文中算法實(shí)行數(shù)據(jù)聚類(lèi)的聚斂性能較好,能在較短的迭代步數(shù)下計(jì)算得到最優(yōu)解,在模式識(shí)別等領(lǐng)域展示了較好的應(yīng)用價(jià)值。
[1]譚鵬許,陳越,蘭巨龍,等.用于云存儲(chǔ)的安全容錯(cuò)編碼[J].通信學(xué)報(bào),2014,35(3):109-114.
[2]魏理豪,王甜,陳飛,等.基于層次分析法的信息系統(tǒng)實(shí)用化評(píng)價(jià)研究 [J].科技通報(bào),2014,30(2): 142-148.
[3]吳濤陳黎飛郭躬德.優(yōu)化子空間的高維聚類(lèi)算法[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2279-2284.
[4]辛宇,楊靜,湯楚蘅,等.基于局部語(yǔ)義聚類(lèi)的語(yǔ)義重疊社區(qū)發(fā)現(xiàn)算法 [J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1510-1521.
[5]徐向平,魯海燕,徐迅.基于環(huán)形鄰域的混沌粒子群聚類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(2): 54-60.
[6]LIAO Lü-chao,JIANG Xin-hua,ZOU Fu-min,HE Wen-wu,QIU Huai.A Spectral Clustering Method for Big Trajectory Data Mining with Latent Semantic Correlation [J].Chinese JournalofElectronics,2015,43(5):956-964.
[7]余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺(jué)模糊核聚類(lèi)算法研究 [J].通信學(xué)報(bào),2015(5): 2015099.
[8]熊眾望,羅可.基于改進(jìn)的簡(jiǎn)化粒子群聚類(lèi)算法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(12):115-123.
[9]茍杰,馬自堂.基于MapReduce的并行SFLA-FCM聚類(lèi)算法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(1):66-70.
[10]WANG Yong-gui,LIN Lin,LIU Xian-guo.結(jié)合雙粒子群和K-means的混合文本聚類(lèi)算法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(2):364-368.
[11]馬艷英.基于遺傳算法的Web文檔聚類(lèi)算法[J].現(xiàn)代電子技術(shù),2016,39(1):148-152.
[12]沈艷,余冬華,王昊雷.粒子群K-means聚類(lèi)算法的改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(21):125-128.
[13]王楊.基于改進(jìn)的粒子群優(yōu)化的模糊C-均值聚類(lèi)算法[J].計(jì)算機(jī)與數(shù)字工程,2014,42(9):1610-1612.
[14]錢(qián)潮愷,黃德才.基于維度頻率相異度和強(qiáng)連通融合的混合數(shù)據(jù)聚類(lèi)算法[J].模式識(shí)別與人工智能,2016,29(1):82-89.
[15]許成鵬,朱志祥.一種基于云計(jì)算平臺(tái)的數(shù)據(jù)庫(kù)加密保護(hù)系統(tǒng)[J].電子設(shè)計(jì)工程,2015(19):97-100.
Large data optimization particle swarm clustering algorithm based on cloud storage
WANG Dong-qiang,WANG Xiao-xia
(Science and Information College,Qingdao Agricultural University,Qingdao 266109,China)
The large data of cloud storage system is optimized for clustering design,reducing storage overhead,improving data management and scheduling ability.The traditional method uses quantum evolutionary algorithm to cluster large data clustering method.When the quantum group has a nonlinear shift,data clustering has local convergence,which leads to the decrease of clustering accuracy.A large data clustering algorithm based on particle swarm optimization is proposed,which is based on the traditional fuzzy C means clustering.The clustering algorithm is used to improve the design.The data is transformed into the spatial segmentation.The clustering algorithm is used to obtain the data concentration.The optimal solution is obtained.The simulation results show that this algorithm is used to optimize the particle swarm optimization in cloud storage.The clustering accuracy is high,and the convergence performance is better,and the optimal solution can be obtained in the short iterative step.
cloud storage;particle swarm;large data;clustering algorithm
TP391
:A
:1674-6236(2017)02-0026-05
2016-05-17稿件編號(hào):201605165
山東省自然科學(xué)基金(20015CAZ185);校級(jí)課題(SYJK13-26)
王東強(qiáng)(1974—),男,山東招遠(yuǎn)人,碩士研究生,實(shí)驗(yàn)師。研究方向:計(jì)算機(jī)工程,網(wǎng)絡(luò)安全。