瞿霞 華建祥
摘要:針對常規(guī)有效信息過濾算法對數(shù)據(jù)間關(guān)聯(lián)規(guī)則識別能力較弱等問題,提出物聯(lián)網(wǎng)環(huán)境下大數(shù)據(jù)流中有效信息過濾算法。該算法根據(jù)數(shù)據(jù)權(quán)重向量維度,通過余弦夾角構(gòu)建目標(biāo)相似的大數(shù)據(jù)推薦模型;設(shè)置表層關(guān)聯(lián)與隱含關(guān)聯(lián)預(yù)測規(guī)則,利用預(yù)測函數(shù)確定數(shù)據(jù)間的關(guān)聯(lián)程度;按照數(shù)據(jù)間的銜接性質(zhì),將數(shù)據(jù)集合劃分成若干子集,模糊聚類物聯(lián)網(wǎng)中的有效信息;根據(jù)用戶主觀傾向設(shè)置偏好函數(shù),以協(xié)同過濾方式,得到有效信息過濾算法。實驗結(jié)果表明,與常規(guī)有效信息過濾算法相比,該算法對數(shù)據(jù)關(guān)聯(lián)規(guī)則識別能力提升14.97%,滿足當(dāng)前物聯(lián)網(wǎng)大數(shù)據(jù)流中對有效數(shù)據(jù)的過濾要求。
關(guān)鍵詞:物聯(lián)網(wǎng);大數(shù)據(jù)流;有效信息過濾算法
DOI:10.11907/rjdk.201413 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP312文獻標(biāo)識碼:A 文章編號:1672-7800(2020)006-0214-04
0 引言
物聯(lián)網(wǎng)利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù),將傳感器、控制器、機器、人員和物品之間建立有效連接,形成一個人與物、物與物之間相關(guān)聯(lián)的智能化網(wǎng)絡(luò)信息通訊平臺,產(chǎn)生了數(shù)量龐大的網(wǎng)絡(luò)數(shù)據(jù)信息?,F(xiàn)階段稱之為大數(shù)據(jù),其本身具有體量龐大、運行處理快速、類型多樣、價值密度低及真實性高等特點。因此,針對大數(shù)據(jù)中的海量信息,按照順序?qū)⑦@些數(shù)據(jù)設(shè)置為只讀數(shù)據(jù)序列,形成規(guī)律性的大數(shù)據(jù)流。
圍繞相關(guān)問題,很多學(xué)者進行了研究。文獻首先分析聚類算法具體過程,判斷結(jié)果是否有效,并表達數(shù)據(jù)集,根據(jù)數(shù)據(jù)集構(gòu)建多維高斯核密度估計方法,使其能夠分析數(shù)據(jù)集本身特性,然后結(jié)合聚類有效性分析方法,進行聚類結(jié)果探討,最后驗證其方法合理性與有效性;文獻提出基于Storm的P-HT并行化算法,該算法以滿足Storm流處理平臺為基礎(chǔ),首先設(shè)置滑動窗口機制,然后替代子樹機制,進行并行化處理,體現(xiàn)出較好的靈活性和通用性,利用物聯(lián)網(wǎng)進行數(shù)據(jù)處理與分類時具有更大吞吐量和更快處理速度。但以上算法對數(shù)據(jù)之間關(guān)聯(lián)規(guī)則劃分能力不足,數(shù)據(jù)隱含關(guān)聯(lián)挖掘能力較弱,因此過濾后的信息并不理想。為此,對文獻算法予以優(yōu)化,提出物聯(lián)網(wǎng)環(huán)境下大數(shù)據(jù)流中有效信息過濾算法。本文算法從文獻算法中存在的問題人手,著重研究大數(shù)據(jù)流內(nèi)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,過濾方式更加詳細,滿足當(dāng)前物聯(lián)網(wǎng)對有效信息的過濾要求。
1 物聯(lián)網(wǎng)大數(shù)據(jù)流有效信息過濾算法
1.1 目標(biāo)相似的大數(shù)據(jù)推薦模型構(gòu)建
考慮到物聯(lián)網(wǎng)中大數(shù)據(jù)流類型的多樣性,構(gòu)建一個推薦模型,該模型主要對類型不同、目標(biāo)相似的數(shù)據(jù)信息實施推薦。模型構(gòu)建需要考慮不同數(shù)據(jù)之間的目標(biāo)相似程度,該程度可用余弦夾角衡量。假設(shè)大數(shù)據(jù)流中的數(shù)據(jù)類型有a1,a2,…,an,每一數(shù)據(jù)的權(quán)重指數(shù)分別為qa1,qa2,…,qan,權(quán)重向量維度用T表示,則數(shù)據(jù)之間的目標(biāo)相似度如式(1)所示。
式中,i表示大數(shù)據(jù)流數(shù)據(jù)量,fi(an)表示i個數(shù)據(jù)量下的類型函數(shù),gi(qan)表示i個數(shù)據(jù)量下的權(quán)重函數(shù)。此時,數(shù)據(jù)之間的目標(biāo)相似度曲線如圖l所示。
圖1中的曲線是3個類型完全不同的目標(biāo)相似數(shù)據(jù),根據(jù)曲線走向及曲線弧度可知,雖然數(shù)據(jù)類型完全不同,但這些數(shù)據(jù)之間具有共同目標(biāo),因此其走勢相似,只是作用價值不同,產(chǎn)生了價值差異。根據(jù)式(1)得出相似度結(jié)果,設(shè)置大數(shù)據(jù)推薦模型,該模型計算表達式如式(2)所示。
1.2 數(shù)據(jù)關(guān)聯(lián)程度預(yù)測
根據(jù)上述得到的推薦數(shù)據(jù)Fm,預(yù)測F1,F(xiàn)2,…,F(xiàn)m之間的關(guān)聯(lián)性,預(yù)測規(guī)則如圖2所示。
通過上述預(yù)測規(guī)則可知,根據(jù)多個預(yù)測條件,設(shè)置不同的預(yù)測方式,抓住其中表層關(guān)聯(lián)及隱含關(guān)聯(lián),得到分化詳細的關(guān)聯(lián)程度值。建立一個集合R,令該集合R={F1,F(xiàn)2,…,F(xiàn)m};設(shè)置k1,k2,…,km是與推薦數(shù)據(jù)F1,F(xiàn)2,…Fm相對應(yīng)的預(yù)測條件,則預(yù)測系數(shù)計算表達式如式(3)所示。
式中,Kn表示設(shè)置的n個預(yù)測系數(shù),ωm表示預(yù)測約束條件,gm(Fm)表示對推薦數(shù)據(jù)Fm的m次預(yù)測,gm-1(Fm-1)表示對于預(yù)測數(shù)據(jù)Fm的m-1次預(yù)測,ks表示每次預(yù)測時,在預(yù)測強度s影響下的調(diào)整指標(biāo)。根據(jù)計算所得預(yù)測系數(shù),對推薦數(shù)據(jù)的關(guān)聯(lián)程度進行預(yù)測,當(dāng)該結(jié)果為正數(shù)時,說明得出的關(guān)聯(lián)性指標(biāo)可靠,該關(guān)聯(lián)預(yù)測表達式如式(4)所示。
式中,pred(Fm)表示對推薦數(shù)據(jù)的預(yù)測函數(shù),IDEN(u,v)表示關(guān)聯(lián)規(guī)則鑒別函數(shù),ζ表示調(diào)和指數(shù),ζ表示調(diào)和平均值,u表示表層關(guān)聯(lián)指標(biāo),v表示遞進的隱含關(guān)聯(lián)指標(biāo)。根據(jù)上述預(yù)測表達式,得到不同類型數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,根據(jù)關(guān)聯(lián)規(guī)則取值不同,可以確定物聯(lián)網(wǎng)中大數(shù)據(jù)之間的聯(lián)系強度。
1.3 有效信息模糊聚類
將具有關(guān)聯(lián)規(guī)則的數(shù)據(jù),按照一定順序排列,利用模糊聚類分析方法獲取數(shù)據(jù)特征,匹配并劃分客觀有效的數(shù)據(jù)。該數(shù)據(jù)劃分形式以圖3所示的劃分集合為例,按照數(shù)據(jù)特征,將不同類型的關(guān)聯(lián)數(shù)據(jù)分配到不同集合中。
由圖3可知,原始數(shù)據(jù)集只有一個,不利于數(shù)據(jù)之間的特征分析,因此利用模糊聚類,將原有集合轉(zhuǎn)換成圖3(b)所示的分類子集,通過數(shù)據(jù)分類,提取出數(shù)據(jù)特征量。將集合及模糊聚類,得到n個數(shù)據(jù)子集,用rn表示。將子集中的數(shù)據(jù)按照銜接性質(zhì)分類,該分類規(guī)則如式(5)所示。