黃 鑫
德宏師范高等??茖W校,云南 芒市 678400
?
物聯(lián)網(wǎng)數(shù)據(jù)挖掘中Apriori算法的實踐應用研究
黃 鑫*
德宏師范高等專科學校,云南 芒市 678400
近年來,由于物聯(lián)網(wǎng)概念的出現(xiàn),在給人們?nèi)粘I顏韼П憷耐瑫r,也在產(chǎn)生的海量的數(shù)據(jù)存儲,物聯(lián)網(wǎng)數(shù)據(jù)的不斷增多,加大了用戶在龐大的數(shù)據(jù)中獲取想要的信息的難度。因此,對于物聯(lián)網(wǎng)中數(shù)據(jù)挖掘能力的研究成為當下最熱門的話題。
Apriori算法;物聯(lián)網(wǎng);數(shù)據(jù)挖掘
隨著物聯(lián)網(wǎng)概念的不斷發(fā)展,通過物聯(lián)網(wǎng)的農(nóng)業(yè)、交通、物流等方面進行的活動都愈發(fā)廣泛,在不少領(lǐng)域中物聯(lián)網(wǎng)都有著良好的發(fā)揮。物聯(lián)網(wǎng)可以通過對數(shù)據(jù)的存儲和分析,解決物聯(lián)網(wǎng)過程中產(chǎn)生的海量數(shù)據(jù),在此之中數(shù)據(jù)挖掘的意義就顯現(xiàn)了出來。由于物聯(lián)網(wǎng)數(shù)據(jù)的零散性和無規(guī)律性,在物聯(lián)網(wǎng)數(shù)據(jù)挖掘之前,必須先對物聯(lián)網(wǎng)數(shù)據(jù)進行量化整理,導致了數(shù)據(jù)挖掘難度增大。而Apriori算法由于其在規(guī)則關(guān)聯(lián)運算中的優(yōu)勢,常被用于物聯(lián)網(wǎng)的數(shù)據(jù)挖掘,通過Apriori運算,可以更好的關(guān)聯(lián)用戶數(shù)據(jù),完成對于物聯(lián)網(wǎng)海量數(shù)據(jù)的挖掘。
(一)物聯(lián)網(wǎng)數(shù)據(jù)挖掘的特點
物聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在用戶收集和使用數(shù)據(jù)等方面取得了巨大的成功,但在此過程中,會產(chǎn)生海量的數(shù)據(jù),難以被歸納和整理。在物聯(lián)網(wǎng)的使用過程中,通過傳感設(shè)備,將采集到的信息數(shù)據(jù)向物聯(lián)網(wǎng)數(shù)據(jù)中心傳輸。為了滿足用戶對于數(shù)據(jù)的使用,數(shù)據(jù)中心會對所產(chǎn)生的數(shù)據(jù)進行保留,而隨著歷史數(shù)據(jù)的不斷積壓,數(shù)據(jù)中心的負荷也不斷增加。又由于物聯(lián)網(wǎng)的涉及范圍的廣泛,在使用過程中所產(chǎn)生的數(shù)據(jù)種類也更加復雜。由于傳感器的不同類型,如GPS傳感、RFID傳感等傳感終端都可以構(gòu)成物聯(lián)網(wǎng),而不同傳感終端所使用的語言、格式也不相同。
(二)物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘
在物聯(lián)網(wǎng)海量數(shù)據(jù)的研究過程當中,RFID信息數(shù)據(jù)占有主體地位。通過對研究對象的數(shù)據(jù)挖掘,可以在海量數(shù)據(jù)中獲得有價值的信息。如在RFID傳感終端中,可以得到EPC既標簽的標識碼、標簽的地點和時間等數(shù)據(jù)。由于物聯(lián)網(wǎng)的海量數(shù)據(jù)在多方面存在著局限性,對于物聯(lián)網(wǎng)海量數(shù)據(jù)的挖掘具有巨大的難度。而通過RFID數(shù)據(jù)分析,對于物聯(lián)網(wǎng)商業(yè)的決策方式有著非常重要的影響。
(一)數(shù)據(jù)挖掘的系統(tǒng)整體結(jié)構(gòu)
數(shù)據(jù)挖掘系統(tǒng)是由數(shù)據(jù)存儲、數(shù)據(jù)挖掘算法、數(shù)據(jù)挖掘的任務(wù)處理等層面構(gòu)成的,數(shù)據(jù)挖掘系統(tǒng)以Master為主控節(jié)點,通過與用戶進行交互、管理整個系統(tǒng)。而存儲在同一個部分的節(jié)點中的Map/Reduce化數(shù)據(jù)挖掘算法可以更好的實現(xiàn)數(shù)據(jù)挖掘的高效性。通過NameNdoe接受用戶的相關(guān)請求,將用于返回存儲數(shù)據(jù)的DataNode的IP傳送給用戶,并將信息通知通過網(wǎng)絡(luò)渠道發(fā)送給其他接受副本信息的DataNote。
(二)數(shù)據(jù)挖掘的算法層面
Map/Reduce化深入到了數(shù)據(jù)挖掘的常用算法中,將Apriori算法進行Map/Reduce化可以獲得分布式并行的關(guān)聯(lián)規(guī)則算法。在系統(tǒng)數(shù)據(jù)挖掘算法層中,常用算法都集中在該層面的算法節(jié)點里,通過相應的平臺,通過Msater主控程序節(jié)點進行相關(guān)的管理與使用,并根據(jù)不同的客戶需求,對相關(guān)節(jié)點進行傳送算法。
(三)數(shù)據(jù)挖掘的任務(wù)處理
數(shù)據(jù)挖掘的任務(wù)處理層面,是整體系統(tǒng)的核心層面。Master可以通過調(diào)動空閑的DataNode節(jié)點,將其導入空閑節(jié)點列表中,通過用戶的不同請求,獲取DataNote各個數(shù)據(jù)模塊的存儲信息,通過采取相應的算法,將數(shù)據(jù)進行挖掘計算,再將挖掘計算后的成果傳送給DataNode節(jié)點,根據(jù)計算任務(wù),通過HDFS服務(wù)器傳送給Master,再反饋給用戶。這個過程中因為取消了數(shù)據(jù)重組與傳送的過程,所以在整個系統(tǒng)的運行過程中,效率都會大大提高。
Apriori算法是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,在物聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域中是最常用也是最有效的算法。所謂的關(guān)聯(lián)規(guī)則挖掘,就是指在關(guān)聯(lián)數(shù)據(jù)當中,針對用戶個人的資源檢索,根據(jù)某一特定因素進行判斷和分析,保證系統(tǒng)整體的行為模式正常進行。在此之間,從許多看似無關(guān)的項里分析其內(nèi)在關(guān)聯(lián)性,在物聯(lián)網(wǎng)的數(shù)據(jù)挖掘中具有重大意義,而在事物中找出頻繁項集和項集之間的關(guān)聯(lián)性,就需要運用到關(guān)聯(lián)規(guī)則運算。Apriori算法通過候選集生成和情節(jié)的向下封閉檢測兩個階段來挖掘頻繁項集,讓Apriori算法在數(shù)據(jù)的關(guān)聯(lián)過程中,向數(shù)據(jù)庫中存入內(nèi)存,將其實現(xiàn)在數(shù)據(jù)硬盤之中。使用逐層替代的方法,通過K項集進行(K+1)項集的探索,對數(shù)據(jù)集進行第一層掃描,并生成L1項集,利用L1項集再對深層次的L2項集進行探索,直到頻繁項集為空集。由于任意子集都是頻繁項集,可以將其用來壓縮并處理搜索空間,加快頻繁項集的生成速度,經(jīng)過K次循環(huán)搜索,數(shù)據(jù)挖掘通過操作連接項,使LK-1產(chǎn)生候選集CK,在此基礎(chǔ)上進行連接操作,讓CK產(chǎn)生頻繁項集LK,從而按照Apriori的性質(zhì)進行操作。這種算法固然具有其優(yōu)越性,但卻需要進行多次掃描,才能將所有頻繁項集進行逐層篩選,由于物聯(lián)網(wǎng)的海量數(shù)據(jù)特性,這種算法在物聯(lián)網(wǎng)方面的運用有其局限性,無法在物聯(lián)網(wǎng)數(shù)據(jù)挖掘領(lǐng)域發(fā)揮作用。
通過對于物聯(lián)網(wǎng)數(shù)據(jù)挖掘的研究,可以優(yōu)化物聯(lián)網(wǎng)所存在的弊端,提升物聯(lián)網(wǎng)的實際運用能力,通過Apriori算法的進一步使用,可以對用戶的個人信息、學歷、搜索偏好等進行預估,并給用戶補充其可能想要的相關(guān)資源。
[1]何清.物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)[J].智能系統(tǒng)學報,2013,3(8):182-183.
[2]周芳.基于關(guān)聯(lián)規(guī)則Apriori算法的物聯(lián)網(wǎng)海量數(shù)據(jù)挖掘系統(tǒng)研究[J].河北北方學院學報·自然科學版,2015,31(1):15-16.
[3]彭春燕.基于物聯(lián)網(wǎng)的安全架構(gòu)[J].網(wǎng)絡(luò)安全技術(shù)與應用,2011,5(2):13-14.
黃鑫(1981-),男,漢族,湖北武漢人,研究生,德宏師范高等專科學校,講師,研究方向:數(shù)據(jù)挖掘及物聯(lián)網(wǎng)。
TP
A
1006-0049-(2017)15-0245-01