亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大數(shù)據(jù)集序列模式挖掘算法分析

2020-03-10 02:56:55李克

科學與財富 2020年33期

李克

摘要：大數(shù)據(jù)時代背景下，網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)技術(shù)的使用非常關(guān)鍵，對于社會發(fā)展也起到了重要的作用。本文筆者針對大數(shù)據(jù)集序列模式挖掘算法進行了分析研究，文章中闡述了大數(shù)據(jù)以及序列模式挖掘，并針對BLSPM算法進行試驗和結(jié)果分析。

關(guān)鍵詞：大數(shù)據(jù);BLSPM算法;序列模式挖掘

1 大數(shù)據(jù)和序列模式挖掘的概念

1.1 大數(shù)據(jù)的概念

大數(shù)據(jù)是信息社會發(fā)展過程中形成的數(shù)據(jù)集合，其發(fā)展的背景信息化技術(shù)。計算機技術(shù)問世，其兩方面技術(shù)應用最為廣泛，其一是數(shù)據(jù)運算，其二就是數(shù)據(jù)信息管理，能夠?qū)崿F(xiàn)數(shù)據(jù)的儲存和分析。而隨著社會技術(shù)的發(fā)展，數(shù)據(jù)量也不斷增加，當前在社會發(fā)展的過程中，信息技術(shù)開始逐漸朝向數(shù)據(jù)技術(shù)發(fā)展，形成了大數(shù)據(jù)技術(shù)。大數(shù)據(jù)當前而言主要包括兩個方面。其一，是數(shù)據(jù)處理儲存量不斷增大，計算機技術(shù)中數(shù)據(jù)處理的單位從MB已經(jīng)達到了ZB，其數(shù)據(jù)變化巨大，并且相關(guān)數(shù)據(jù)專家預測，數(shù)據(jù)技術(shù)的儲存容量還會繼續(xù)增大10倍甚至20倍。另外一方面，大數(shù)據(jù)技術(shù)應用于數(shù)據(jù)分析，其中包括數(shù)據(jù)庫分析、數(shù)據(jù)關(guān)系分析以及數(shù)據(jù)結(jié)構(gòu)分析等，數(shù)據(jù)分析技術(shù)在當前社會中應用更加廣泛，其具體分析過程中還包括數(shù)據(jù)采集、數(shù)據(jù)導入、數(shù)據(jù)統(tǒng)計以及數(shù)據(jù)挖掘等多個技術(shù)部分，對于數(shù)據(jù)的分析處理有非常重要的作用。在未來，數(shù)據(jù)容量更大，數(shù)據(jù)采集技術(shù)更加先進、數(shù)據(jù)挖掘也將會被更多的應用，大數(shù)據(jù)將會對世界帶來重大的改變[2]。

1.2 序列模式挖掘的概念

序列模式挖掘是大數(shù)據(jù)背景下對數(shù)據(jù)挖掘的重要技術(shù)模式，在當前社會中的應用非常廣泛，信息市場調(diào)研、預測天氣變化、市場變化趨勢、網(wǎng)絡(luò)網(wǎng)站訪問模式等。在序列模式挖掘具體應用的過程中，是在序列數(shù)據(jù)庫當中將子序列頻繁出現(xiàn)作為數(shù)據(jù)的挖掘模式進行數(shù)據(jù)分析，能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘分析的精度提升。應用較為早期的序列模式挖掘算法為Apriori，其在計算中使用到關(guān)聯(lián)性原則，而隨著現(xiàn)代社會中數(shù)據(jù)量的逐漸增大，所以在實際的社會應用中Apriori算法應用精度較差，所以現(xiàn)代社會發(fā)展中，急需一種適應社會的序列發(fā)展模式，保證數(shù)據(jù)使用更加高效。

2 大數(shù)據(jù)集序列模式挖掘算法

2.1 BLSPM算法和實驗結(jié)果

BLSPM是一種新式序列模式挖掘算法，其發(fā)展的前身是PrefixSpan算法以下是對該算法進行的分析研究。在BLSPM算法中，提出了利用隔層投影和剪枝策略的相互合作數(shù)據(jù)挖掘計算模式，可以減少數(shù)據(jù)庫處理中的投影數(shù)據(jù)量，并完成對最小支持度數(shù)據(jù)序列模式的剪枝刪除，從而保證數(shù)據(jù)分析更加精準。

為了研究BLSPM算法，本文針對算法應用進行了具體的試驗，試驗中設(shè)立數(shù)據(jù)庫為S（圖1），并且設(shè)置為min_sup=2。以下是對BLSPM 算法挖掘記性的相關(guān)闡述。1.初始挖掘運算中，數(shù)據(jù)庫開始完成對1個長度單位的序列模式進行查找，查找過程中對BLSPM序列集進行全盤掃描，挖掘頻繁序列模式以及非頻繁序列模式，并對費頻繁序列模式進行減除。2.實際的數(shù)據(jù)挖算法中利用序列集中的頻繁序列項作為X軸和Y軸，從而構(gòu)建形成M矩陣。以下圖2為S矩陣構(gòu)建圖。通過矩陣圖構(gòu)建能夠完成對數(shù)據(jù)的有效采集，從而保證數(shù)據(jù)處理更加高效。

3.利用序列模式數(shù)據(jù)庫進行子集查找。支持度不小于 2序列模式在數(shù)據(jù)集中查找，遞歸地挖掘頻繁序列的子集。4. BLSPM算法中第四部是對兩部分進行重復查找和執(zhí)行，并對所有的長度頻繁序列進行集合，從而保證頻繁序列集合查找更加精準。5.是BLSPM算法的最終結(jié)果步驟，其中包括頻繁項目集的序列模式并將進行排序。以下表三為最終序列圖。

2.2 基于Map-Reduce的BLSPM算法和結(jié)果

基于Map-Reduce的BLSPM算法也是當前BLSPM算法的發(fā)展，在其行和具體計算的過程中其計算主要分為以下幾方面內(nèi)容;1.數(shù)據(jù)分片是BLSPM算法中的重要組成部分，在實際的計算過程中，選擇將BLSPM的大數(shù)據(jù)集進行分部，將其分部成連續(xù)性的數(shù)據(jù)片，從而做好數(shù)據(jù)分類。2.數(shù)據(jù)并行計數(shù)。數(shù)據(jù)并行技術(shù)也是利用大數(shù)據(jù)庫進行掃描，實際的計算過程中，選擇利用Map-Reducwe型進行序列支持度計算，計算全局的長度為 1 的頻繁項集Flist。3.建立三角矩陣。在Map-Reduce的BLSPM算法中，也是利用Flist1 中 n 個序列進行三角矩陣設(shè)計，分別建設(shè)X軸和Y軸。4.均衡分組設(shè)計。均衡分組設(shè)計是在實際的計算過程中，選擇使用到負載均衡策略進行序列模式分組，制定成為新Glist數(shù)據(jù)表。5. 在Map-Reduce的BLSPM算法中選擇使用并性挖掘技術(shù)對大數(shù)據(jù)集中的組別進行劃分，利用Glist數(shù)據(jù)表進行并行數(shù)據(jù)挖掘，也選擇使用Map-Reduce軟件來完成第二階段的數(shù)據(jù)挖掘，完成對序列集的數(shù)據(jù)挖掘和計算。以下是Map-Reduce軟件的數(shù)據(jù)計算代碼。

Input： key is the number of each shard， value is T

Output：， where key is the item of T ，value is the number of item

Begin

String str= value.toString（）;

While（str.hasNext（））

{

Item=str.next（）;

//輸出

Context.Write （item，1）;

}

End

3.結(jié)束語

本文以具體試驗詳細闡述了BLSPM算法與Map-Reduce的BLSPM算法的計算過程，希望能夠?qū)Υ髷?shù)據(jù)集序列模式挖掘算法的發(fā)展有所幫助。

參考文獻：

[1]曾毅，張福泉. 基于多效用閾值的分布式高效用序列模式挖掘[J]. 計算機工程與設(shè)計， 2020， 041（002）：449-457.

（河北省信息資源管理中心? 河北? 石家莊? 050000）