馬孟
(鄭州機動車質(zhì)量檢測認(rèn)證技術(shù)研究中心有限公司,河南鄭州 451450)
隨著工業(yè)物聯(lián)網(wǎng)的不斷發(fā)展,大量高維、復(fù)雜、異構(gòu)數(shù)據(jù)流不斷涌現(xiàn),不能將其作為一個靜態(tài)數(shù)據(jù),需要在有限存儲器中進行處理。在當(dāng)前研究方案中,文獻[1]提出基于關(guān)聯(lián)規(guī)則的挖掘系統(tǒng),利用HBase 數(shù)據(jù)庫存儲數(shù)據(jù),通過系統(tǒng)挖掘提供的量化數(shù)據(jù)抽取和模糊聚類,實現(xiàn)數(shù)據(jù)流挖掘。文獻[2]提出基于改進K-means 算法的挖掘系統(tǒng),采用鳶尾花數(shù)據(jù)集建立挖掘指標(biāo),刪除冗余關(guān)聯(lián)項集。結(jié)合改進K-means 算法,利用挖掘規(guī)則選擇初始迭代數(shù)據(jù),再刪除冗余后的數(shù)據(jù)進行聚類。由于數(shù)據(jù)流敏感,使用上述兩種系統(tǒng)只得到了數(shù)據(jù)異質(zhì)性特征。在復(fù)雜工業(yè)物聯(lián)網(wǎng)中,相關(guān)數(shù)據(jù)流挖掘無法在該網(wǎng)絡(luò)中找到準(zhǔn)確挖掘特征。因此,提出了面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)設(shè)計。計算敏感數(shù)據(jù)間的距離,阻止敏感數(shù)據(jù)無休止漂移;構(gòu)建敏感數(shù)據(jù)流特征響應(yīng)函數(shù),統(tǒng)計敏感數(shù)據(jù)變異參數(shù),獲取敏感數(shù)據(jù)特征向量;聚類分析敏感數(shù)據(jù)流動態(tài)挖掘特征,獲取聚類中心;通過CAN-tree 子樹剪枝操作計算順序查詢子樹中與同名節(jié)點的支持度,以支持度閾值為判斷依據(jù),完成敏感數(shù)據(jù)流的動態(tài)挖掘。
在工業(yè)物聯(lián)網(wǎng)背景下,挖掘工業(yè)物聯(lián)網(wǎng)中的數(shù)據(jù)流狀態(tài),是當(dāng)前信息化進程中亟待解決的重要問題[3]。針對此問題,構(gòu)建了工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流動態(tài)挖掘框架,如圖1 所示。
圖1 工業(yè)物聯(lián)網(wǎng)挖掘框架
由圖1 可知,該框架由三個層次和一個發(fā)射站組成,其中,應(yīng)用層通過分類方式將數(shù)據(jù)存儲總服務(wù)器導(dǎo)入相應(yīng)的應(yīng)用程序,實現(xiàn)動態(tài)管理[4-5];挖掘?qū)硬捎霉I(yè)物聯(lián)網(wǎng)敏感數(shù)據(jù)流挖掘技術(shù)和海量數(shù)據(jù),將挖掘結(jié)果通過數(shù)據(jù)傳感器傳輸?shù)娇偡?wù)器中[6];傳輸層通過傳感器傳輸數(shù)據(jù)流數(shù)據(jù),并將其存儲到處理器中;發(fā)射站負(fù)責(zé)向三個層次發(fā)射挖掘信號[7-8]。敏感數(shù)據(jù)間距離的計算公式為:
式中,di、dj分別表示第i、j個敏感數(shù)據(jù)。敏感數(shù)據(jù)中心所使用的是該研究地區(qū)內(nèi)數(shù)據(jù)的平均值[9]。這是由于數(shù)據(jù)流限制敏感數(shù)據(jù)的流動,從而阻止敏感數(shù)據(jù)的持續(xù)漂移。
數(shù)據(jù)流挖掘引擎通過維護工業(yè)物聯(lián)網(wǎng)敏感數(shù)據(jù)流結(jié)構(gòu),響應(yīng)用戶挖掘需求,有效提高了數(shù)據(jù)挖掘速度[10]。在敏感數(shù)據(jù)流中存在壓縮型結(jié)構(gòu)和結(jié)果型結(jié)構(gòu),壓縮型結(jié)構(gòu)以緊湊數(shù)據(jù)流的形式存儲在結(jié)果型結(jié)構(gòu)中。在新的數(shù)據(jù)到達后,挖掘引擎會壓縮目前交易數(shù)據(jù)中有價值的信息[11];結(jié)果壓縮結(jié)構(gòu)主要以壓縮形式存儲在數(shù)據(jù)壓縮結(jié)構(gòu)中,當(dāng)用戶挖掘請求傳輸?shù)皆摻Y(jié)構(gòu)時,需要直接從數(shù)據(jù)結(jié)構(gòu)提取敏感數(shù)據(jù)流動態(tài)特征信息,獲取挖掘結(jié)果。
當(dāng)一組數(shù)據(jù)流事務(wù)被送到的同時被傳送到數(shù)據(jù)流查詢處理器,然后處理器立即處理這些事務(wù)[12]。圖2 中顯示了數(shù)據(jù)流狀態(tài)的管理機制。
圖2 數(shù)據(jù)流動態(tài)管理機構(gòu)
由圖2 可知,輸入的數(shù)據(jù)流通過優(yōu)化器獲取查詢結(jié)果,經(jīng)過緩存裝置輸出待挖掘的數(shù)據(jù)流。在該機構(gòu)中一旦用戶提出查詢請求,處理器依據(jù)當(dāng)前數(shù)據(jù)流結(jié)構(gòu)執(zhí)行挖掘操作。通過數(shù)據(jù)監(jiān)控器實時監(jiān)控敏感數(shù)據(jù)流挖掘進程,在數(shù)據(jù)更新環(huán)節(jié),將數(shù)據(jù)事務(wù)集分為工作存儲、數(shù)據(jù)存儲和靜態(tài)存儲三個部分[13]。工作存儲為機構(gòu)提供數(shù)據(jù)挖掘窗口,概要存儲用于保存窗口數(shù)據(jù)流概要信息,數(shù)據(jù)存儲用于保存臨時工作存儲中移除的數(shù)據(jù)流。該機構(gòu)僅執(zhí)行一個數(shù)據(jù)流交易集合的查詢和解析,通過對查詢最優(yōu)信息和輸入監(jiān)控程序的交互,使機構(gòu)能在改善挖掘進度的情況下,對流入的數(shù)據(jù)進行優(yōu)化[14]。最后,利用挖掘所得的數(shù)據(jù),通過輸出高速緩存部件提供給用戶。
模糊遺傳算法可以考慮敏感數(shù)據(jù)流個體和組織的進化特性,提高挖掘效果。由于該方法能在求解過程中處理迭代隨機和非線性問題,具有解決更多復(fù)雜問題的能力[15]?;诖?,提出了一種基于模糊遺傳算法的最大類間離散度迭代方法,量化工業(yè)物聯(lián)網(wǎng)基元結(jié)構(gòu)之間的差異。
設(shè)工業(yè)物聯(lián)網(wǎng)兩個基元結(jié)構(gòu)分別為f(A) 和f(B),兩者之間的差異計算公式為:
式中,a表示敏感數(shù)據(jù)向量;Pm表示m個概率值;xk表示k個元素構(gòu)成的向量;n表示元素個數(shù)。統(tǒng)計敏感數(shù)據(jù)變異參數(shù)hk(t),求取敏感數(shù)據(jù)流特征響應(yīng)函數(shù),如式(3)所示:
式中,t為特征值參數(shù),sk(t)表示敏感數(shù)據(jù)流特征響應(yīng)值;R(t)表示工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)庫信道響應(yīng)函數(shù)。
基于此,挖掘的敏感數(shù)據(jù)特征向量為:
式中,Pn(t) 表示n個概率值;εmn表示特征系數(shù);λn表示敏感特征系數(shù)。將該特征作為挖掘基礎(chǔ),依次聚類分配數(shù)據(jù),并將待分配特征點依次聚類到中心處,可表示為:
通過對敏感數(shù)據(jù)流動態(tài)挖掘特征的聚類分析獲取聚類中心。
CAN-tree 樹的維護過程是修剪一個動態(tài)生長的CAN-tree 樹,在固定的循環(huán)周期,項表中所有項目按照遞減次序進行[16]。在順序掃描過程中,獲取第一項后,以項目表中的指針為基礎(chǔ),依次查找與項目名稱相同子樹中的支持度,其計算公式如下:
式中,supes_count(t)表示支持度計數(shù);|W|表示數(shù)據(jù)庫中事務(wù)個數(shù)。如果當(dāng)前項在子樹中存在大于支持度閾值Tmin的節(jié)點,則認(rèn)為該節(jié)點是頻繁項集,結(jié)束對該節(jié)點的判斷;如果當(dāng)前項在子樹中存在小于支持度閾值Tmin的節(jié)點,且當(dāng)前用戶定義置信度為η,則當(dāng)前判斷項在子樹中所有支持度不小于ηTmin的節(jié)點,可視為候選項目,保留子樹中所有與該項同名的節(jié)點,刪除其子樹。如果遍歷子樹,未找到不小于ηTmin列的節(jié)點,移除子樹中所有相同名稱的節(jié)點及其子樹,并且移除項目標(biāo)題表格中的項目。由此完成項目集的判定,并依次尋找下一個項目,繼續(xù)執(zhí)行直至遍歷全部項目。利用上述方法,可以有效地優(yōu)化CAN-tree 樹結(jié)構(gòu),使其更加緊湊,從而更好地適應(yīng)當(dāng)前動態(tài)挖掘環(huán)境。
為了驗證面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)設(shè)計的合理性,進行實驗驗證分析。
實驗采用IBM 工控網(wǎng)絡(luò)機,數(shù)據(jù)采集器結(jié)構(gòu)如圖3 所示。
圖3 數(shù)據(jù)采集器結(jié)構(gòu)
由圖3 可知,該結(jié)構(gòu)由表示層、邏輯層和數(shù)據(jù)層三個層次組成,表示層是交互終端,可交互信息;邏輯層利用檢索關(guān)鍵詞調(diào)用數(shù)據(jù)庫數(shù)據(jù);數(shù)據(jù)層利用數(shù)據(jù)庫連接技術(shù)實現(xiàn)對數(shù)據(jù)高效采集。
由于工業(yè)物聯(lián)網(wǎng)所帶來的數(shù)據(jù)是海量的、高維的,所以隨機選取了三個高維數(shù)據(jù)集進行實驗驗證,并對所設(shè)計的系統(tǒng)進行測試。為使數(shù)據(jù)集能模擬真實環(huán)境,將數(shù)據(jù)集作為一個時間窗口進行仿真,如圖4 所示。
圖4 數(shù)據(jù)集時間窗口
由圖4可知,該數(shù)據(jù)集由三類數(shù)據(jù)集組成,包括:
1)KDDCUP99:該數(shù)據(jù)集是50 維的高維數(shù)據(jù)集,包含4 692 341個數(shù)據(jù),是工業(yè)物聯(lián)網(wǎng)記錄的數(shù)據(jù)集。
2)Bag of words:該數(shù)據(jù)集是1 維的高維數(shù)據(jù)集,包含6 500 000 個數(shù)據(jù),從文字中收集。
3)EPM:該數(shù)據(jù)集是10 維的高維數(shù)據(jù)集,包含250 219 個數(shù)據(jù),從文字中收集。
對于上述三種數(shù)據(jù)集,在數(shù)據(jù)挖掘系統(tǒng)測試前,分別使用文獻[1]、文獻[2]、所設(shè)計系統(tǒng)作對比,分析數(shù)據(jù)集的聚類程度,對比結(jié)果如圖5 所示。
圖5 數(shù)據(jù)集聚類程度分析
由圖5 可知,使用文獻[1]、文獻[2]數(shù)據(jù)集聚類程度與理想效果相差較大,大部分?jǐn)?shù)據(jù)分散程度較大。而使用所設(shè)計系統(tǒng)數(shù)據(jù)集聚類程度與理想效果基本一致,說明使用該系統(tǒng)聚類效果較好。
在確定聚類程度情況下,對比三種系統(tǒng)數(shù)據(jù)集挖掘情況,如圖6 所示。
圖6 三種系統(tǒng)數(shù)據(jù)集挖掘?qū)Ρ确治?/p>
由圖6 可知,使用所設(shè)計系統(tǒng)挖掘數(shù)據(jù)量與實際數(shù)值基本一致,只在挖掘次數(shù)為4時,兩者相差4 bit的數(shù)據(jù)量。在挖掘次數(shù)為14 次時,使用文獻[1]、文獻[2]與實際數(shù)值分別存在30 bit 和34 bit 的最大誤差。由此可知,使用所設(shè)計系統(tǒng)挖掘效果較好。
工業(yè)物聯(lián)網(wǎng)帶來的工業(yè)數(shù)據(jù)流具有極大的規(guī)模、維度和無序性。針對這一問題,設(shè)計了面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)。通過實驗驗證,所設(shè)計系統(tǒng)聚類效果與理想效果較為接近;當(dāng)挖掘次數(shù)為14 次時,所設(shè)計系統(tǒng)挖掘的數(shù)據(jù)量為65 bit,與實際挖掘數(shù)據(jù)量十分接近。由此證明了該系統(tǒng)設(shè)計的合理性。目前,工業(yè)物聯(lián)網(wǎng)技術(shù)快速發(fā)展,數(shù)據(jù)結(jié)構(gòu)越來越復(fù)雜,規(guī)模也日益增大,在今后工作中,它將會在大規(guī)模稀疏數(shù)據(jù)集合中得到更好的應(yīng)用。