張麗萍
〔摘要〕 求解期刊分類大數(shù)據(jù)自動(dòng)存儲問題時(shí),傳統(tǒng)方法在分解的過程中無法保證準(zhǔn)確性與合理性,對解的合并策略選擇不合理,導(dǎo)致尋優(yōu)過程中出現(xiàn)一定的偏差,造成期刊分類存儲效率大大降低。為此,需要提出一種新的基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲方法。確定徑向基神經(jīng)網(wǎng)絡(luò)的初始結(jié)構(gòu),通過樣本分布計(jì)算徑基寬度獲取隱節(jié)點(diǎn)群,將其當(dāng)成初始集合。將分類存儲精度最高、Fmeasure最大、期刊特征相似性最高作為目標(biāo)函數(shù),將其加權(quán)和作為適應(yīng)函數(shù)。在求解過程中,各子群內(nèi)部通過模擬退火法將分布估計(jì)算法和遺傳算法結(jié)合在一起,產(chǎn)生新個(gè)體,利用群體協(xié)同合作的方式實(shí)現(xiàn)智能聚類。通過進(jìn)化獲取最優(yōu)個(gè)體,得到最終精英集合,將其看作最后得到的徑向基神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過得到的徑向基神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)期刊分類大數(shù)據(jù)自動(dòng)存儲。實(shí)驗(yàn)結(jié)果表明,所提方法期刊分類大數(shù)據(jù)存儲性能強(qiáng)。
〔關(guān)鍵詞〕 群體協(xié)同智能聚類;期刊分類;大數(shù)據(jù);存儲
〔中圖分類號〕TP391〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-2689(2019)02-0067-06
引言
大數(shù)據(jù)時(shí)代,人們接觸媒體的成本逐漸減少,網(wǎng)絡(luò)閱讀逐漸變成一種習(xí)慣,大部分期刊社均已經(jīng)進(jìn)行自助網(wǎng)絡(luò)出版,期刊數(shù)字出版迅猛發(fā)展[1][2]?,F(xiàn)階段大部分國內(nèi)外科研人員早已習(xí)慣查看網(wǎng)絡(luò)數(shù)據(jù)資源,對紙質(zhì)期刊的依賴性逐漸降低[3]。隨著數(shù)字期刊量的迅猛增加,對期刊的準(zhǔn)確查詢也開始變得越來越困難,需研究一種有效的期刊分類大數(shù)據(jù)自動(dòng)存儲方法,為大數(shù)據(jù)查詢提供有效的技術(shù)支持。
傳統(tǒng)期刊分類大數(shù)據(jù)自動(dòng)存儲方法存在不完善的地方,無法有效反映更加普遍意義的協(xié)同思想[4][5]。傳統(tǒng)的大數(shù)據(jù)自動(dòng)存儲方法在分解的過程中無法保證準(zhǔn)確性與合理性,而分解不合理,在解的結(jié)合過程中將出現(xiàn)很大問題,造成期刊分類存儲失敗。不僅如此,傳統(tǒng)方法對解的合并策略選擇不合理,更將會(huì)導(dǎo)致合并后解的適應(yīng)能力差,在尋優(yōu)過程中出現(xiàn)一定的偏差,使得期刊分類存儲效率大大降低。為此,急需發(fā)展出一套新的基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲方法。此方法簡單說就是,首先將大數(shù)據(jù)進(jìn)行人工的分類,來獲取期刊分類大數(shù)據(jù)的樣本;然后為了消除多余數(shù)據(jù)之間存在的可能性的矛盾對樣本進(jìn)行并行聚類,通過FCM算法使得多個(gè)進(jìn)程同時(shí)并行完成期刊分類大數(shù)據(jù)的聚類任務(wù);最后對性能改進(jìn)型評估,以便聚類方法的性能得到改善,從而實(shí)現(xiàn)期刊分類大數(shù)據(jù)自動(dòng)存儲。
一、? 期刊分類大數(shù)據(jù)的預(yù)處理
本文基于群體協(xié)同智能聚類,通過衰減半徑聚類法[6]獲取徑向神經(jīng)網(wǎng)絡(luò)初始結(jié)構(gòu),新添加一個(gè)聚類層,也就是通過Kmeans法對已經(jīng)求出的初始隱層節(jié)點(diǎn)聚集在一起,將性質(zhì)類似的引接點(diǎn)聚集為隱節(jié)點(diǎn)群,結(jié)合子種群完成進(jìn)化。
(一)? 隱節(jié)點(diǎn)結(jié)構(gòu)與參數(shù)的混合編碼
依據(jù)徑向神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn),通過含網(wǎng)絡(luò)隱節(jié)點(diǎn)結(jié)構(gòu)與相關(guān)參數(shù)矩陣式混合編碼形式[7]。與各個(gè)體相應(yīng)的隱節(jié)點(diǎn)相應(yīng)的并非一個(gè)隱節(jié)點(diǎn),而是隱節(jié)點(diǎn)群。Csk用于描述第k個(gè)隱節(jié)點(diǎn)群中第s個(gè)個(gè)體代表的隱節(jié)點(diǎn)中心,k用于描述種群量,s用于描述子種群大小。所有Csk都是nk×d+2的矩陣,nk用于描述隱節(jié)點(diǎn)群所含的節(jié)點(diǎn)數(shù)量, d用于描述輸入向量維數(shù)。通過隱節(jié)點(diǎn)與參數(shù)的混合編碼計(jì)算,得rksi=1表示隱節(jié)點(diǎn)的存在。
(二) 初始化
聚類中心的主進(jìn)程初始化主要包括以下幾個(gè)部分:
首先把期刊樣本集合劃分為訓(xùn)練集、評價(jià)集以及測試集,確定初始隱層節(jié)點(diǎn)φj,通過樣本空間信息獲取λ初始值。其次通過優(yōu)化的Kmeans法[7]完成對求出隱層節(jié)點(diǎn)的聚類處理,產(chǎn)生若干節(jié)點(diǎn)。最后針對各隱節(jié)點(diǎn)群,通過任意選擇的部分隱節(jié)點(diǎn),得到初始群體的個(gè)體數(shù),并且使得起作用的隱節(jié)點(diǎn)相應(yīng)的控制分量位rksi=1。
(三) 群體協(xié)同智能聚類
在協(xié)同進(jìn)化遺傳算法的基礎(chǔ)上,結(jié)合Pareto支配概念與精英保留策略把協(xié)同進(jìn)化遺傳算法引入期刊分類大數(shù)據(jù)自動(dòng)存儲多目標(biāo)優(yōu)化問題的求解中[8]。設(shè)置一種外部精英集合,通過擁擠距離提高外部種群的多樣性,同時(shí)依據(jù)聚類思想完成對外部種群的分類處理,對各類構(gòu)造對應(yīng)概率模型。在進(jìn)化時(shí)各子群內(nèi)部通過模擬退火法將分布估計(jì)算法和遺傳算法結(jié)合在一起,產(chǎn)生新個(gè)體,然后利用群體協(xié)同合作的方式實(shí)現(xiàn)智能聚類。
1 父種群生成
本節(jié)設(shè)置外部精英集合,對當(dāng)前搜尋的優(yōu)秀完整個(gè)體進(jìn)行存儲,父種群生成過程可描述為:
首先完成對精英集合的聚類處理。假設(shè)精英集合被劃分成2種聚類,依次針對2種聚類,依據(jù)種群1到種群C的順序,按照不同群的個(gè)體,依次構(gòu)造對應(yīng)概率模型,使得全部種群向更好的方向進(jìn)化,優(yōu)化解集的分布性。對算法截至當(dāng)前搜尋的優(yōu)秀解進(jìn)行保存,避免出現(xiàn)進(jìn)化倒退的現(xiàn)象。
針對父種群的候選集,從第2代開始,直接從精英集合中選擇最優(yōu)個(gè)體形成,所以在進(jìn)化時(shí),算法一直在優(yōu)秀種群中完成搜尋,找到更優(yōu)個(gè)體后,對精英集合進(jìn)行補(bǔ)充。
在進(jìn)化的初始階段,精英集合發(fā)揮著很大的作用,需通過精英集合構(gòu)造概率模型,提高種群找到Pareto前沿的速度,并且搜尋到更優(yōu)個(gè)體。然而在初始階段,精英集合中個(gè)體數(shù)量不多,需完成對其的擴(kuò)充,令其可構(gòu)造概率模型,同時(shí)將其看作下一代父種群的候選種群。假設(shè)外部集合的最小容量是R,為了形成下一代父種群,外部集合容量需高于子種群規(guī)模M。
2 新種群產(chǎn)生
通過基因混合模型形成新的個(gè)體?;蚧旌系幕驹頌樾纬蓚€(gè)體的基因源于各種存在差異的算法。
完整個(gè)體通過7個(gè)個(gè)體基因構(gòu)成,個(gè)體基因通過不同算法形成,個(gè)體基因通過EDA與GA兩種算法結(jié)合在一起形成的,其中一部分通過EDA建立的概率模型獲取,剩余部分通過GA交叉變異獲取。
通過模擬退火法[9]把EDA與GA兩種算法結(jié)合在一起,在進(jìn)化的初始階段,通過EDA的全局搜尋性能獲取Pareto前沿,之后,通過GA較差變異在優(yōu)秀種群中繼續(xù)搜尋,發(fā)揮其局部搜尋能力,保證個(gè)體的多樣性[10]。首先,EDA算法實(shí)現(xiàn)過程如下:
(1) 從種群中任意選取L個(gè)優(yōu)秀群體,對柯西分布函數(shù)中的參數(shù)進(jìn)行計(jì)算;
(2) 在優(yōu)秀群體的基礎(chǔ)上,通過clayton copula函數(shù)的參數(shù)估計(jì)獲取均勻分布的隨機(jī)序列a;
(3) 按照柯西分布的逆累積分布函數(shù)獲取相應(yīng)向量。
其次GA算法實(shí)現(xiàn)過程如下:
(1) 運(yùn)行GA算法40次,獲取聚類中心矩陣;
(2) 初始化種群。在針對獲取的N個(gè)聚類成員,用一個(gè)染色體代表一個(gè)成員,通過實(shí)數(shù)編碼方式對染色體進(jìn)行描述;
(3) 針對各聚類成員,按照適應(yīng)度函數(shù)求出其適應(yīng)度值;
(4) 針對各聚類成員,依據(jù)適應(yīng)度函數(shù)值,通過輪盤法判斷個(gè)體的去留,形成規(guī)模一致的新一代種群;
(5) 針對復(fù)制形成的新種群,從種群中依據(jù)交叉概率與變異概率選擇染色體完成交叉和變異處理,得到新種群;
(6) 重復(fù)進(jìn)行上述步驟,直至達(dá)到收斂。
在進(jìn)化時(shí),為了有效均衡EDA和GA算法,通過模擬退火技術(shù),引入尺度因子實(shí)現(xiàn)控制。尺度因子的結(jié)果數(shù)值分為兩種條件獲取,當(dāng)t=1時(shí),尺度因子的結(jié)果數(shù)值即為設(shè)定尺度因子上限;當(dāng)t≠1時(shí),尺度因子的結(jié)果數(shù)值通過設(shè)定尺度因子上限與退火因子的乘積,加上設(shè)定尺度因子下限的總和得到。其中退火因子,取值范圍是0到1。
均衡合并策略為:將隨機(jī)數(shù)與尺度因子相比,在隨機(jī)數(shù)小于尺度因子的情況下,選用EDA算法,反之,選用GA算法。
二、? 期刊分類大數(shù)據(jù)自動(dòng)存儲的實(shí)現(xiàn)
基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲實(shí)現(xiàn)過程如下:
第一,確定徑向基神經(jīng)網(wǎng)絡(luò)的初始結(jié)構(gòu)。通過樣本分布計(jì)算徑基寬度,完成對初始隱層的聚類處理,獲取隱節(jié)點(diǎn)群,將其當(dāng)成初始經(jīng)營集合。
第二,求出不同子種群的個(gè)體適應(yīng)值,對精英集合進(jìn)行更新。
第三,通過進(jìn)化獲取最優(yōu)個(gè)體,得到最終精英集合,將其看作最后得到的徑向基神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過得到的徑向基神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)期刊分類大數(shù)據(jù)自動(dòng)存儲。
(一) 群體協(xié)同智能聚類方法的改進(jìn)
傳統(tǒng)群體協(xié)同智能聚類算法在計(jì)算時(shí),時(shí)常出現(xiàn)獲得局部最佳解的困境。而算法一旦遇到最佳解就會(huì)終止,不再繼續(xù)計(jì)算,因此聚類算法的收斂性能較低[11][12][13]。為了提高期刊分類大數(shù)據(jù)的聚類精度,設(shè)計(jì)的大數(shù)據(jù)自主存儲方法采用群體協(xié)同智能聚類算法,在傳統(tǒng)群體協(xié)同智能聚類算法中采用多種群協(xié)同進(jìn)化的方式,以免出現(xiàn)局部最優(yōu)解。將總體種群劃分成多個(gè)子種群,各子種群獨(dú)立進(jìn)化,對期刊分類的大數(shù)據(jù)實(shí)施周期性調(diào)控法,并將多種群協(xié)同進(jìn)化也融入到調(diào)控法中。
群體協(xié)同智能聚類方法是一種群體協(xié)同進(jìn)化的聚類算法,其將粒子數(shù)設(shè)置為N的種群劃分成M個(gè)子種群,各子種群采用規(guī)范的群體協(xié)同智能算法實(shí)施局部檢索,在檢索時(shí)持續(xù)調(diào)整子種群內(nèi)部粒子的效率以及位置。如果進(jìn)化到第X代,則第一個(gè)子種群會(huì)獲取局部最佳解一,并將該解傳遞給第二個(gè)子種群,用解一更新第二個(gè)子種群內(nèi)具有最低適應(yīng)度函數(shù)的粒子,此時(shí)第二個(gè)子種群實(shí)施X周期的進(jìn)化,獲取的局部最佳解是解二。再向第三個(gè)子種群傳遞解二,循環(huán)運(yùn)行上述過程。最終一個(gè)子種群向首個(gè)子種群傳遞解M。每次迭代之前將即刻最佳位置反饋給后續(xù)子種群過程中,應(yīng)對即刻的局部最佳解i是否符合精度需求進(jìn)行分析,如果符合則終止聚類計(jì)算,否則繼續(xù)聚類計(jì)算。各子種群的間隔是X代,相鄰種群間可進(jìn)行信息交互,循環(huán)進(jìn)化,直至算法停止 。
聚類計(jì)算確保各子種群中的粒子處于最優(yōu)解位置,增強(qiáng)算法的收斂效率。該群體協(xié)同智能聚類方法可確保各子種群同不同子種群間基于少量的局部信息完成交互,實(shí)現(xiàn)解區(qū)域中某個(gè)子區(qū)域的檢索,運(yùn)算代價(jià)小,并且子種群間的粒子變換能夠完成遠(yuǎn)距離的信息共享。
(二) 期刊分類大數(shù)據(jù)的聚類處理
要對期刊分類大數(shù)據(jù)進(jìn)行聚類,需先對期刊分類大數(shù)據(jù)進(jìn)行特征提取,然后進(jìn)行聚類處理[14]。雖然期刊分類大數(shù)據(jù)的特性在數(shù)據(jù)處理的時(shí)候較為復(fù)雜,但是對于并行聚類處理的方法設(shè)計(jì)過程來說是必不可少的。其過程為:首先將大數(shù)據(jù)進(jìn)行人工的分類,來獲取期刊分類大數(shù)據(jù)的樣本。然后為了消除多余數(shù)據(jù)之間存在的可能性的矛盾對樣本 進(jìn)行并行聚類,并對選取特征性的數(shù)據(jù)。最后對性能改進(jìn)型評估,以便聚類方法的性能得到改善。
在期刊分類大數(shù)據(jù)的聚類處理中融入并行的FCM算法[15]。所使用的FCM算法有密集計(jì)算的特點(diǎn),先采用并行模式將期刊分類大數(shù)據(jù)進(jìn)行數(shù)據(jù)分塊,把分塊后的數(shù)據(jù)劃分到多種不同的進(jìn)程中,使得多個(gè)進(jìn)程同時(shí)期并行完成期刊分類大數(shù)據(jù)的聚類任務(wù)。具體FCM算法并行實(shí)現(xiàn)方法如下:
1 對期刊分類大數(shù)據(jù)采取并行的方式進(jìn)行讀取。在平臺系統(tǒng)中先將期刊分類大數(shù)據(jù)劃分為若干小份,再講劃分后的數(shù)據(jù)發(fā)送至各個(gè)進(jìn)程,準(zhǔn)備并行讀取。
2 聚類中心在主進(jìn)程中進(jìn)入初始化階段,再將聚類中心發(fā)送至各個(gè)子進(jìn)程中。
數(shù)據(jù)并行模式是聚類方法中的主要采用模式,其中確保聚類方法精度的基礎(chǔ)步驟即是數(shù)據(jù)的劃分,所提聚類方法根據(jù)大數(shù)據(jù)的計(jì)算強(qiáng)度,對期刊分類大數(shù)據(jù)展開并行聚類,優(yōu)化了FCM并行聚類算法的聚類任務(wù)負(fù)載不夠均衡的問題,推導(dǎo)計(jì)算強(qiáng)度預(yù)估函數(shù),運(yùn)用預(yù)估函數(shù)對多個(gè)計(jì)算單元的計(jì)算量進(jìn)行評估與測量,從而實(shí)現(xiàn)期刊分類大數(shù)據(jù)的聚類。
大數(shù)據(jù)存儲系統(tǒng)的存儲速度是用戶考慮的重點(diǎn)。本文存儲系統(tǒng)采用的群體協(xié)同智能聚類算法融入多種群協(xié)同進(jìn)化的方案,避免出現(xiàn)局部最優(yōu)解問題,具有較高的收斂效率,能夠?qū)崿F(xiàn)大數(shù)據(jù)的高效率寫入操作。
三、 自動(dòng)存儲方法的個(gè)體評價(jià)和選擇
利用計(jì)算合作適應(yīng)值對子種群中某個(gè)體性能進(jìn)行評價(jià)。合作適應(yīng)值是該個(gè)體和源于其余子群的代表集中貢獻(xiàn)值的體現(xiàn),所以為了求解適應(yīng)值,需從其余各子群中均選擇一個(gè)個(gè)體,構(gòu)成完整解。文中所有個(gè)體的適應(yīng)值均指該個(gè)體和其余子種群的精英個(gè)體一起組成隱層結(jié)構(gòu)的徑向基神經(jīng)網(wǎng)絡(luò)的評價(jià)。
文章選用多個(gè)目標(biāo)函數(shù)進(jìn)行評價(jià),從而有效保證種群的多樣性。最后將多個(gè)目標(biāo)加權(quán)求和轉(zhuǎn)換為單目標(biāo),將其當(dāng)成個(gè)體合作適應(yīng)值。將分類存儲精度最高作為第一個(gè)目標(biāo)函數(shù)f1,通過將聚類成員δa中被準(zhǔn)確聚類成相應(yīng)種類Ci數(shù)據(jù)對象的數(shù)量γi之和,與數(shù)據(jù)對象數(shù)量N分之一的乘積得出單目標(biāo)。隨著Microprecision值的逐漸增加,分類存儲效果也逐漸變好。將Fmeasure最大作為第二個(gè)目標(biāo)函數(shù),F(xiàn)measure值主要取決于查全率與查準(zhǔn)率。原始分類i的Fmeasure值Fi可通過2倍查全率與查準(zhǔn)率乘積,與查全率查準(zhǔn)率之和的商得出Fi加權(quán)平均,即可獲取目標(biāo)函數(shù)f2。Fm值越高,認(rèn)為分類存儲結(jié)果精度越高。固定期刊聚類,針對各期刊特征簇Ubl,用wpm描述特征bp在第m篇文檔中的權(quán)重,用wim描述第l個(gè)特征聚類中心bcl在第m篇期刊中的權(quán)重,通過夾角余弦公式求出。利用上述因子的求和乘積,即可求出該簇中不同特征bp和該特征聚類中心bcl間的關(guān)聯(lián)性,從而得到第三個(gè)目標(biāo)函數(shù)f3。將期刊特征相似性最高作為第三個(gè)目標(biāo)函數(shù),利用求和乘積,從而得到第三個(gè)目標(biāo)函數(shù)f3。設(shè)定集合Vdoc表示同時(shí)包含特征bp與特征bcl的期刊集合,Vdoc中所含期刊數(shù)量越多,同時(shí)出現(xiàn)特征bp與bcl的期刊數(shù)量越多。在此前提下,設(shè)ε1、ε2及ε3為既定指標(biāo)重要性系數(shù);ε1,ε2∈0,1均在[0,1]范圍內(nèi)取值,三者累積和為1,依次取03、03、04。則可通過上述重要性系數(shù),及三個(gè)目標(biāo)函數(shù)加權(quán)平均Fi獲取個(gè)體評價(jià)和選擇最終結(jié)果。
綜上,個(gè)體評價(jià)和選擇即把不同個(gè)體替換成精英集合中其所處子種群相應(yīng)的精英個(gè)體,同時(shí)通過由此構(gòu)成的徑向基神經(jīng)網(wǎng)絡(luò)性能確定。
四、 結(jié)果分析
為了驗(yàn)證所提基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲方法的應(yīng)用效果,需要進(jìn)行相關(guān)的實(shí)驗(yàn)并對實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)選用6個(gè)數(shù)據(jù)集,其中1個(gè)數(shù)據(jù)集為二維人工數(shù)據(jù)集,其它5個(gè)數(shù)據(jù)集為源于期刊大數(shù)據(jù)的真實(shí)數(shù)據(jù)集。6個(gè)數(shù)據(jù)集的具體信息分別包括如下內(nèi)容:人工數(shù)據(jù)集的數(shù)據(jù)量為325個(gè),均是2維,集群數(shù)共有3個(gè);期刊真實(shí)數(shù)據(jù)集1的數(shù)據(jù)量為1200個(gè),維數(shù)是4,集群數(shù)共有6個(gè);期刊真實(shí)數(shù)據(jù)集2的數(shù)據(jù)量為1200個(gè),維數(shù)是4,集群數(shù)共有6個(gè)。期刊真實(shí)數(shù)據(jù)集3的數(shù)據(jù)量為1800個(gè),維數(shù)是15,集群數(shù)共有12個(gè);期刊真實(shí)數(shù)據(jù)集3的數(shù)據(jù)量為1000個(gè),維數(shù)是6,集群數(shù)共有5個(gè);期刊真實(shí)數(shù)據(jù)集4的數(shù)據(jù)量為2000個(gè),維數(shù)是14,集群數(shù)共有9個(gè);期刊真實(shí)數(shù)據(jù)集5的數(shù)據(jù)量為1500個(gè),維數(shù)是7,集群數(shù)共有8個(gè)。
為了驗(yàn)證所提基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲方法對期刊分類的有效性,針對二維人工數(shù)據(jù)集和真實(shí)期刊數(shù)據(jù)集,將基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法作為所提方法的對比方法,進(jìn)行實(shí)驗(yàn)測試。期刊真實(shí)數(shù)據(jù)集測試結(jié)果用表1進(jìn)行描述。
分析可以看出,采用基于混合存儲器的大數(shù)據(jù)存儲方法對期刊分類大數(shù)據(jù)進(jìn)行自動(dòng)存儲后,期刊的大數(shù)據(jù)能夠得到大致分類,但分類精度不高。因而自動(dòng)存儲的結(jié)果中,各期刊的大數(shù)據(jù)有嚴(yán)重混雜現(xiàn)象,難以做到精確分類,導(dǎo)致自動(dòng)存儲的結(jié)果較差。采用基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法對期刊分類大數(shù)據(jù)進(jìn)行自動(dòng)存儲后,期刊大數(shù)據(jù)的分類精度相比基于混合存儲器的大數(shù)據(jù)存儲方法提高了很多,但依然存在分類不準(zhǔn)確的情況,自動(dòng)存儲后的結(jié)果中發(fā)現(xiàn)仍有許多混雜在一起的大數(shù)據(jù),不夠準(zhǔn)確的分類結(jié)果自然導(dǎo)致了自動(dòng)存儲效果的不理想。而采用本文方法對期刊分類大數(shù)據(jù)進(jìn)行自動(dòng)存儲后,期刊的大數(shù)據(jù)分類精度較高,分類準(zhǔn)確性高,因此自動(dòng)存儲結(jié)果較為理想。對比三種不同方法的實(shí)驗(yàn)結(jié)果可知,本文方法能夠有效將二維人工數(shù)據(jù)集劃分成3類,且劃分精度較高,分類結(jié)果十分準(zhǔn)確,分割集群中無其它集群數(shù)據(jù)。相比之下發(fā)現(xiàn),基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法分割集群中均有其它集群數(shù)據(jù),劃分結(jié)果不準(zhǔn)確,因此驗(yàn)證了本文方法的有效性。
分別采用基于混合存儲器的大數(shù)據(jù)存儲方法、基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法以及本文方法對期刊分類大數(shù)據(jù)進(jìn)行自動(dòng)存儲,以下是對期刊真實(shí)數(shù)據(jù)集的存儲,得到三種不同方法的對比測試結(jié)果如表1所示。
表1 期刊真實(shí)數(shù)據(jù)集測試結(jié)果
數(shù)據(jù)集
基于群體協(xié)同智能聚類的
期刊分類大數(shù)據(jù)自動(dòng)存儲
基于混合存儲器的
大數(shù)據(jù)存儲方法
基于大數(shù)據(jù)集的抽樣技術(shù)的
劃分聚類方法
準(zhǔn)確率
/%
Fmeasure值
吞吐率
/ops·s-1
準(zhǔn)確率
/%
Fmeasure值
吞吐率
/ops·s-1
準(zhǔn)確率
/%
Fmeasure值
吞吐率
/ops·s-1
期刊數(shù)據(jù)集1
9253
06852
43512
8539
05952
31058
8129
04926
33982
期刊數(shù)據(jù)集2
8629
06139
40168
8123
04231
35694
7306
04135
29568
期刊數(shù)據(jù)集3
9018
05685
45929
7556
04596
39257
6539
03689
36742
期刊數(shù)據(jù)集4
8395
05813
43221
8712
05288
32199
7542
04521
30286
期刊數(shù)據(jù)集5
9122
05297
44696
8039
04038
34095
6162
04339
35569
分析表1可以看出,采用基于混合存儲器的大數(shù)據(jù)存儲方法對期刊真實(shí)數(shù)據(jù)集進(jìn)行分類后的自動(dòng)存儲,對各期刊的大數(shù)據(jù)進(jìn)行分類后,其分類準(zhǔn)確率平均約為8034%,F(xiàn)measure值平均約為04012,自動(dòng)存儲大數(shù)據(jù)的吞吐量平均約為3367%。采用基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法對期刊真實(shí)數(shù)據(jù)集進(jìn)行分類后的自動(dòng)存儲,對各期刊的大數(shù)據(jù)進(jìn)行分類后,其分類準(zhǔn)確率平均約為6478%,F(xiàn)measure值平均約為03525,自動(dòng)存儲大數(shù)據(jù)的吞吐量平均約為3002%。與基于混合存儲器的大數(shù)據(jù)存儲方法相比,基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法的分類準(zhǔn)確率較低,且Fmeasure值與吞吐量也較低,因此得出基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法的自動(dòng)存儲效果不如基于混合存儲器的大數(shù)據(jù)存儲方法的自動(dòng)存儲效果理想。采用本文方法對期刊真實(shí)數(shù)據(jù)集進(jìn)行分類后的自動(dòng)存儲,對各期刊的大數(shù)據(jù)進(jìn)行分類后,其分類準(zhǔn)確率平均約為8662%,F(xiàn)值平均約為06131,自動(dòng)存儲大數(shù)據(jù)的吞吐量平均約為4598%。對比三種不同方法的實(shí)驗(yàn)結(jié)果可得,采用本文方法進(jìn)行期刊真實(shí)數(shù)據(jù)集的自動(dòng)存儲,其分類準(zhǔn)確率和F值相比基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法的分類準(zhǔn)確率高出很多,說明本文方法存儲分類精度更高。且本文方法進(jìn)行大數(shù)據(jù)自動(dòng)存儲的吞吐量也遠(yuǎn)遠(yuǎn)高于基于混合存儲器的大數(shù)據(jù)存儲方法和基于大數(shù)據(jù)集的抽樣技術(shù)的劃分聚類方法自動(dòng)存儲的吞吐量,說明本文方法存儲效率更高,充分驗(yàn)證了本文方法實(shí)用性強(qiáng)的優(yōu)勢。
綜合分析以上實(shí)驗(yàn)結(jié)果得出,所提基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲方法能夠高精度的完成各期刊大數(shù)據(jù)的分類,并且具有較高的吞吐量,能夠在短時(shí)間內(nèi)存儲大批量的數(shù)據(jù),因此自動(dòng)存儲效率高,充分說明了所提方法具有分類準(zhǔn)確性高、存儲效率快的良好性能,有效性和實(shí)用性強(qiáng)。
五、? 結(jié) 論
本文通過實(shí)驗(yàn)提出一種新的基于群體協(xié)同智能聚類的期刊分類大數(shù)據(jù)自動(dòng)存儲方法。確定徑向基神經(jīng)網(wǎng)絡(luò)的初始結(jié)構(gòu),通過樣本分布計(jì)算徑基寬度,完成對初始隱層的聚類處理,獲取隱節(jié)點(diǎn)群,將其當(dāng)成初始集合。將分類存儲精度最高、Fmeasure值最大、期刊特征相似性最高作為目標(biāo)函數(shù),將其加權(quán)和作為適應(yīng)函數(shù)。結(jié)合Pareto支配概念與精英保留策略把協(xié)同進(jìn)化遺傳算法引入期刊分類大數(shù)據(jù)自動(dòng)存儲多目標(biāo)優(yōu)化問題的求解中。設(shè)置一種外部精英集合,通過擁擠距離提高外部種群的多樣性,同時(shí)依據(jù)聚類思想完成對外部種群的分類處理,對各類構(gòu)造對應(yīng)概率模型。在進(jìn)化時(shí)各子群內(nèi)部通過模擬退火法將分布估計(jì)算法和遺傳算法結(jié)合在一起,產(chǎn)生新個(gè)體,然后利用群體協(xié)同合作的方式實(shí)現(xiàn)智能聚類。求出不同子種群的個(gè)體適應(yīng)值,對精英集合進(jìn)行更新。通過進(jìn)化獲取最優(yōu)個(gè)體,得到最終精英集合,將其看作最后得到的徑向基神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過得到的徑向基神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)期刊分類大數(shù)據(jù)自動(dòng)存儲。經(jīng)實(shí)驗(yàn)驗(yàn)證,所提方法整體性能高。
〔參考文獻(xiàn)〕
[1] 劉先花. 基于群體協(xié)同智能聚類的大數(shù)據(jù)存儲系統(tǒng)設(shè)計(jì)[J]. 現(xiàn)代電子技術(shù), 2017, 40(23):130-133.
[2] 王永貴, 宋真真, 肖成龍. 基于改進(jìn)聚類和矩陣分解的協(xié)同過濾推薦算法[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(4):1001-1006.
[3] 劉巖, 王存睿. 基于抽樣融合改進(jìn)的大數(shù)據(jù)聚類方法[J]. 微電子學(xué)與計(jì)算機(jī), 2017, 34(4):17-21,27.
[4] 曹陽, 錢曉東. 基于局部關(guān)鍵節(jié)點(diǎn)的大數(shù)據(jù)聚類算法[J]. 計(jì)算機(jī)工程與科學(xué), 2016, 38(7):1338-1343.
[5] 楊光, 鐘忺, 夏紅霞, 喻天寶. 基于分布式處理的關(guān)聯(lián)聚類協(xié)同過濾算法[J]. 武漢理工大學(xué)學(xué)報(bào), 2015, 37(11):84-92,112.
[6] Mai,H. T., Park,K. H., Lee,H. S., Kim, C. S., Lee, M. & Hur, S. J. Dynamic data migration in hybrid main memories for In‐memory big data storage[J]. Etri Journal, 2014, 36(6):988-998.
[7] 盧志茂, 馮進(jìn)玫, 范冬梅,楊朋,田野. 面向大數(shù)據(jù)處理的劃分聚類新方法[J]. 系統(tǒng)工程與電子技術(shù), 2014, 36(5):1010-1015.
[8] 王興茂, 張興明, 吳毅濤, 潘俊池. 基于啟發(fā)式聚類模型和類別相似度的協(xié)同過濾推薦算法[J]. 電子學(xué)報(bào), 2016, 44(7):1708-1713.
[9]馬蕾, 楊洪雪, 劉建平. 大數(shù)據(jù)環(huán)境下用戶隱私數(shù)據(jù)存儲方法的研究[J]. 計(jì)算機(jī)仿真, 2016, 33(2):465-468.
[10] 張栗粽, 崔園, 羅光春, 陳愛國,盧國明,王曉雪. 面向大數(shù)據(jù)分布式存儲的動(dòng)態(tài)負(fù)載均衡算法[J]. 計(jì)算機(jī)科學(xué), 2017, 44(5):178-183.
[11] 羅弦, 查志勇, 徐煥, 劉芬,詹偉. 基于云計(jì)算的大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)設(shè)計(jì)[J]. 計(jì)算機(jī)測量與控制, 2017, 25(10):278-280,288.
[12] 趙妍, 蘇玉召. 一種批量數(shù)據(jù)處理的云存儲方法[J]. 科技通報(bào), 2017, 33(7):81-85.
[13] Yang Fan, Zou Sai, Tang YuLiang & Du XiaoJiang. A multichannel cooperative clusteringbased MAC protocol for V2V communications[J]. Wireless Communications & Mobile Computing, 2016, 16(18):3295-3306.
[14] 王瑞通, 李煒春. 大數(shù)據(jù)基礎(chǔ)存儲系統(tǒng)技術(shù)研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2017, 27(8):66-72.
[15] 周嬌, 傅穎勛, 劉青昆, 舒繼武. 一種支持網(wǎng)絡(luò)硬盤存儲系統(tǒng)的大數(shù)據(jù)傳輸技術(shù)[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2014, 35(2):329-333.