樸承哲
(遼寧民族師范高等專科學(xué)校 民族文化與職業(yè)教育系,遼寧 沈陽(yáng) 110032)
隨著大數(shù)據(jù)處理技術(shù)的發(fā)展,網(wǎng)絡(luò)中的數(shù)據(jù)量快速增加,使得數(shù)據(jù)規(guī)模持續(xù)增大,所以加大了大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)難度.為了解決這一問(wèn)題,需要構(gòu)建優(yōu)化的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)結(jié)構(gòu)模型,以此提高大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的優(yōu)化管理能力,所以對(duì)于大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法的研究受到人們的極大關(guān)注[1].
現(xiàn)階段,對(duì)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)研究主要是建立在對(duì)數(shù)據(jù)融合和特征提取基礎(chǔ)上,構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)的聚類和壓縮模型,通過(guò)網(wǎng)格分塊區(qū)域聚類方法進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)設(shè)計(jì)[2],傳統(tǒng)的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法主要有以NoSQL為代表的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方式[3]、基于Spark的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法[4]、基于信息分散算法的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法等[5].這些方法均是通過(guò)提取大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的特征量,通過(guò)關(guān)聯(lián)信息融合聚類分析進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)設(shè)計(jì),結(jié)合壓縮感知方法實(shí)現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ),但是采用傳統(tǒng)方法進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)的自適應(yīng)性不好,數(shù)據(jù)壓縮精度不高,所用的存儲(chǔ)開銷較高,且存儲(chǔ)耗時(shí)較長(zhǎng),其數(shù)據(jù)存儲(chǔ)性能并不好.
針對(duì)上述問(wèn)題,本文提出基于空間網(wǎng)格聚類的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法,并通過(guò)仿真測(cè)試進(jìn)行性能驗(yàn)證,展示了本文方法在大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)能力方面的優(yōu)越性能.
為了實(shí)現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)優(yōu)化設(shè)計(jì),需要定義類簇之間的距離參數(shù)分布[6],以此為基礎(chǔ)構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式信息融合模型.首先采用全局分布特征融合的方法,分析大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的交互特征空間分布集,通過(guò)模糊度參數(shù)特征重組的方法[7],得到第t次迭代后大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式信息融合模型為
(1)
其中,A(t)為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的分布包絡(luò)數(shù)值量,θ(t)為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)調(diào)制分量.計(jì)算第k+1次迭代后大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的模糊關(guān)聯(lián)信息分量,并根據(jù)的密度樣本分布信息[8],得到網(wǎng)絡(luò)輸入元素的自相關(guān)矩陣R為
(2)
設(shè)定Q(k)表示第k個(gè)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)聚類中心的量化參數(shù)集,ε表示聚類中心與數(shù)據(jù)集分布的線性閥值,則存在以下關(guān)系式,
Q(k+1)≥ε-Q(k),
(3)
其中,Q(k+1)表示第k+1個(gè)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)聚類中心的量化參數(shù)集[9].
采用模糊中心權(quán)重的方法得構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)的交互訪問(wèn)控制模型,該模型具體如圖1所示.
圖1 大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的交互訪問(wèn)控制模型
根據(jù)上述交互訪問(wèn)控制模型,進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)簇內(nèi)線性加權(quán)控制處理.在此過(guò)程中,需要先對(duì)加權(quán)系數(shù)進(jìn)行計(jì)算,則其最小值可以通過(guò)公式(4)計(jì)算得出.
(4)
根據(jù)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的特征空間分布集,采用密度最大的點(diǎn)作為進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)管理和自適應(yīng)檢測(cè),大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合的檢測(cè)統(tǒng)計(jì)量為
(5)
對(duì)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)特征分量進(jìn)行線性融合處理,尋找初始聚類中心.通過(guò)線性融合和二元規(guī)劃設(shè)計(jì)的方法,進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)重建[10],并在初始聚類中心構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的信息融合模型
(6)
根據(jù)數(shù)據(jù)融合處理結(jié)果進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法的設(shè)計(jì).通過(guò)樣本擴(kuò)展和密度融合的方法進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取[11-13],采用選擇隨機(jī)性特征分析方法,對(duì)易混淆的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行去重處理,以此獲取大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)關(guān)聯(lián)維特分布特征量及相似度的關(guān)系為
(7)
其中,D(A)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的額外能量開銷.對(duì)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行連續(xù)特征分解處理,假設(shè)
(8)
其中,pi為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的所有樣本元素的權(quán)重,通過(guò)上述結(jié)果得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合的復(fù)合遷移特征量為:
(9)
當(dāng)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度聚斂性參數(shù)滿足[δ1,δ2,…,δN],通過(guò)狀態(tài)結(jié)構(gòu)重組,得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度特征分布集
(10)
其中,|Rg|表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的密度參數(shù)融合量.結(jié)合狀態(tài)尋優(yōu)控制和多??臻g壓縮的方法[14],得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的聚類中心尋優(yōu)控制模型為
(11)
其中,si表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的概念集,qj表示模糊空間特征匹配集.根據(jù)聚類中心的樣本元素的權(quán)重分布獲取權(quán)重學(xué)習(xí)參數(shù)
(12)
其中,WjT(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)空間主元j的統(tǒng)計(jì)結(jié)果;Yj(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)模糊狀態(tài)線性空間輸出值.
根據(jù)上述分析,構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取模型為
(13)
其中,ajT(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)重組的線性加權(quán)值,Yj-1(n)表示大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)分布的反饋輸入.
綜上所述,實(shí)現(xiàn)了大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)特征提取,下一步需要結(jié)合自相關(guān)融合聚類分析,進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的優(yōu)化設(shè)計(jì),以此實(shí)現(xiàn)數(shù)據(jù)分布式存儲(chǔ).
根據(jù)特征提取結(jié)果進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)融合和特征空間劃分,采用自相關(guān)融合聚類分析方法[15],得到大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)樣本空間分布為
(14)
根據(jù)樣本空間分布對(duì)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的個(gè)體結(jié)構(gòu)信息重組,得到數(shù)據(jù)的優(yōu)化存儲(chǔ)的模糊空間分布為
(15)
根據(jù)數(shù)據(jù)預(yù)處理結(jié)果以及模糊空間分布,求大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)空間的占用期望值為
(16)
假設(shè)wj(n)為學(xué)習(xí)權(quán)重,得到存儲(chǔ)空間中大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的簇內(nèi)緊密度為
(17)
其中,θjk(n)為類間相異性參數(shù).結(jié)合簇內(nèi)緊密度計(jì)算結(jié)果,對(duì)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)空間容量進(jìn)行估計(jì),結(jié)果為:
(18)
(19)
為了驗(yàn)證本文方法在實(shí)現(xiàn)大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)優(yōu)化中的應(yīng)用性能,進(jìn)行實(shí)驗(yàn)測(cè)試分析,具體的實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Windows7,CPU為Intel Core i5-7300HQ,內(nèi)存為32 G,硬盤為500 GB,運(yùn)行內(nèi)存為8 G,主頻為2.1 GHz,仿真軟件為Matlab R2014a.
利用網(wǎng)絡(luò)爬蟲技術(shù)抓取網(wǎng)絡(luò)中的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),并對(duì)采集到的數(shù)據(jù)進(jìn)行歸一化處理,將處理好的數(shù)據(jù)作為實(shí)驗(yàn)樣本數(shù)據(jù).其中,樣本數(shù)據(jù)采集頻率120 Hz,數(shù)據(jù)融合聚類的運(yùn)行迭代次數(shù)為50次,數(shù)據(jù)屬性間的區(qū)分度為0.46.
根據(jù)上述實(shí)驗(yàn)設(shè)定,構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ),比較應(yīng)用前后的非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)的有效計(jì)算比如圖2所示.
圖2 有效計(jì)算比
分析圖2得知,與應(yīng)用前相比,大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法應(yīng)用后,數(shù)據(jù)分布式存儲(chǔ)過(guò)程中的有效計(jì)算比較高,說(shuō)明利用該方法在進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方面具有較高的存儲(chǔ)能力.
為了進(jìn)一步驗(yàn)證本文方法的應(yīng)用性能,將以NoSQL為代表的存儲(chǔ)方法(文獻(xiàn)[3]方法)、基于Spark的存儲(chǔ)方法(文獻(xiàn)[4]方法)、基于信息分散算法的存儲(chǔ)方法(文獻(xiàn)[5]方法)作為對(duì)比方法,通過(guò)比較不同的實(shí)驗(yàn)指標(biāo)來(lái)驗(yàn)證不同方法的綜合性能.
測(cè)試不同方法的執(zhí)行時(shí)間,得到對(duì)比結(jié)果如圖3所示.
分析圖3得知,文獻(xiàn)[3]方法的執(zhí)行時(shí)間在88 ms~110 ms之間,文獻(xiàn)[4]方法的執(zhí)行時(shí)間在70 ms~92 ms之間,文獻(xiàn)[5]方法的執(zhí)行時(shí)間在57 ms~77 ms之間,而本文方法的執(zhí)行時(shí)間在40 ms~52 ms之間,說(shuō)明采用這種方法進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)的執(zhí)行時(shí)間較短,提高了數(shù)據(jù)存儲(chǔ)的實(shí)時(shí)性.
圖3 執(zhí)行時(shí)間測(cè)試
在此基礎(chǔ)上,測(cè)試不同方法的數(shù)據(jù)存儲(chǔ)的融合聚類準(zhǔn)確性,得到對(duì)比結(jié)果如圖4所示.
圖4 數(shù)據(jù)聚類準(zhǔn)確性測(cè)試
分析圖4得知,文獻(xiàn)[3]方法的數(shù)據(jù)聚類準(zhǔn)確性在39%~68%之間,文獻(xiàn)[4]方法的數(shù)據(jù)聚類準(zhǔn)確性在66%~82%之間,文獻(xiàn)[5]方法的數(shù)據(jù)聚類準(zhǔn)確性在68%~85%之間,而本文方法的數(shù)據(jù)聚類準(zhǔn)確性在87%~94%之間,說(shuō)明采用這種方法進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ),具有較高的數(shù)據(jù)聚類準(zhǔn)確率,且明顯高于其他傳統(tǒng)方法.
本文提出基于空間網(wǎng)格聚類的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)方法.構(gòu)建大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)多維空間分布式融合模型,采用模糊中心權(quán)重聚類的方法進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)簇內(nèi)特征線性加權(quán)控制處理,采用壓縮感知控制方法,得到數(shù)據(jù)存儲(chǔ)的交互結(jié)構(gòu)模型,通過(guò)線性融合和二元規(guī)劃設(shè)計(jì)的方法,進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)重建,根據(jù)數(shù)據(jù)預(yù)處理結(jié)果,求大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)空間的占用期望值,得到類間相異性參數(shù),計(jì)算大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的簇內(nèi)分布狀態(tài)特征量,實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)優(yōu)化設(shè)計(jì).研究得知,本文方法進(jìn)行大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)分布式存儲(chǔ)的計(jì)算開銷較小,降低了存儲(chǔ)空間,提高了數(shù)據(jù)聚類準(zhǔn)確性.