亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)設(shè)計

2024-03-25 06:34:06馬孟

電子設(shè)計工程 2024年6期

馬孟

（鄭州機動車質(zhì)量檢測認(rèn)證技術(shù)研究中心有限公司，河南鄭州 451450）

隨著工業(yè)物聯(lián)網(wǎng)的不斷發(fā)展，大量高維、復(fù)雜、異構(gòu)數(shù)據(jù)流不斷涌現(xiàn)，不能將其作為一個靜態(tài)數(shù)據(jù)，需要在有限存儲器中進行處理。在當(dāng)前研究方案中，文獻[1]提出基于關(guān)聯(lián)規(guī)則的挖掘系統(tǒng)，利用HBase 數(shù)據(jù)庫存儲數(shù)據(jù)，通過系統(tǒng)挖掘提供的量化數(shù)據(jù)抽取和模糊聚類，實現(xiàn)數(shù)據(jù)流挖掘。文獻[2]提出基于改進K-means 算法的挖掘系統(tǒng)，采用鳶尾花數(shù)據(jù)集建立挖掘指標(biāo)，刪除冗余關(guān)聯(lián)項集。結(jié)合改進K-means 算法，利用挖掘規(guī)則選擇初始迭代數(shù)據(jù)，再刪除冗余后的數(shù)據(jù)進行聚類。由于數(shù)據(jù)流敏感，使用上述兩種系統(tǒng)只得到了數(shù)據(jù)異質(zhì)性特征。在復(fù)雜工業(yè)物聯(lián)網(wǎng)中，相關(guān)數(shù)據(jù)流挖掘無法在該網(wǎng)絡(luò)中找到準(zhǔn)確挖掘特征。因此，提出了面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)設(shè)計。計算敏感數(shù)據(jù)間的距離，阻止敏感數(shù)據(jù)無休止漂移；構(gòu)建敏感數(shù)據(jù)流特征響應(yīng)函數(shù)，統(tǒng)計敏感數(shù)據(jù)變異參數(shù)，獲取敏感數(shù)據(jù)特征向量；聚類分析敏感數(shù)據(jù)流動態(tài)挖掘特征，獲取聚類中心；通過CAN-tree 子樹剪枝操作計算順序查詢子樹中與同名節(jié)點的支持度，以支持度閾值為判斷依據(jù)，完成敏感數(shù)據(jù)流的動態(tài)挖掘。

1 工業(yè)物聯(lián)網(wǎng)挖掘框架

在工業(yè)物聯(lián)網(wǎng)背景下，挖掘工業(yè)物聯(lián)網(wǎng)中的數(shù)據(jù)流狀態(tài)，是當(dāng)前信息化進程中亟待解決的重要問題[3]。針對此問題，構(gòu)建了工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)流動態(tài)挖掘框架，如圖1 所示。

圖1 工業(yè)物聯(lián)網(wǎng)挖掘框架

由圖1 可知，該框架由三個層次和一個發(fā)射站組成，其中，應(yīng)用層通過分類方式將數(shù)據(jù)存儲總服務(wù)器導(dǎo)入相應(yīng)的應(yīng)用程序，實現(xiàn)動態(tài)管理[4-5]；挖掘?qū)硬捎霉I(yè)物聯(lián)網(wǎng)敏感數(shù)據(jù)流挖掘技術(shù)和海量數(shù)據(jù)，將挖掘結(jié)果通過數(shù)據(jù)傳感器傳輸?shù)娇偡?wù)器中[6]；傳輸層通過傳感器傳輸數(shù)據(jù)流數(shù)據(jù)，并將其存儲到處理器中；發(fā)射站負(fù)責(zé)向三個層次發(fā)射挖掘信號[7-8]。敏感數(shù)據(jù)間距離的計算公式為：

式中，di、dj分別表示第i、j個敏感數(shù)據(jù)。敏感數(shù)據(jù)中心所使用的是該研究地區(qū)內(nèi)數(shù)據(jù)的平均值[9]。這是由于數(shù)據(jù)流限制敏感數(shù)據(jù)的流動，從而阻止敏感數(shù)據(jù)的持續(xù)漂移。

2 系統(tǒng)硬件結(jié)構(gòu)設(shè)計

2.1 數(shù)據(jù)流動態(tài)挖掘引擎

數(shù)據(jù)流挖掘引擎通過維護工業(yè)物聯(lián)網(wǎng)敏感數(shù)據(jù)流結(jié)構(gòu)，響應(yīng)用戶挖掘需求，有效提高了數(shù)據(jù)挖掘速度[10]。在敏感數(shù)據(jù)流中存在壓縮型結(jié)構(gòu)和結(jié)果型結(jié)構(gòu)，壓縮型結(jié)構(gòu)以緊湊數(shù)據(jù)流的形式存儲在結(jié)果型結(jié)構(gòu)中。在新的數(shù)據(jù)到達后，挖掘引擎會壓縮目前交易數(shù)據(jù)中有價值的信息[11]；結(jié)果壓縮結(jié)構(gòu)主要以壓縮形式存儲在數(shù)據(jù)壓縮結(jié)構(gòu)中，當(dāng)用戶挖掘請求傳輸?shù)皆摻Y(jié)構(gòu)時，需要直接從數(shù)據(jù)結(jié)構(gòu)提取敏感數(shù)據(jù)流動態(tài)特征信息，獲取挖掘結(jié)果。

2.2 數(shù)據(jù)流動態(tài)管理機構(gòu)

當(dāng)一組數(shù)據(jù)流事務(wù)被送到的同時被傳送到數(shù)據(jù)流查詢處理器，然后處理器立即處理這些事務(wù)[12]。圖2 中顯示了數(shù)據(jù)流狀態(tài)的管理機制。

圖2 數(shù)據(jù)流動態(tài)管理機構(gòu)

由圖2 可知，輸入的數(shù)據(jù)流通過優(yōu)化器獲取查詢結(jié)果，經(jīng)過緩存裝置輸出待挖掘的數(shù)據(jù)流。在該機構(gòu)中一旦用戶提出查詢請求，處理器依據(jù)當(dāng)前數(shù)據(jù)流結(jié)構(gòu)執(zhí)行挖掘操作。通過數(shù)據(jù)監(jiān)控器實時監(jiān)控敏感數(shù)據(jù)流挖掘進程，在數(shù)據(jù)更新環(huán)節(jié)，將數(shù)據(jù)事務(wù)集分為工作存儲、數(shù)據(jù)存儲和靜態(tài)存儲三個部分[13]。工作存儲為機構(gòu)提供數(shù)據(jù)挖掘窗口，概要存儲用于保存窗口數(shù)據(jù)流概要信息，數(shù)據(jù)存儲用于保存臨時工作存儲中移除的數(shù)據(jù)流。該機構(gòu)僅執(zhí)行一個數(shù)據(jù)流交易集合的查詢和解析，通過對查詢最優(yōu)信息和輸入監(jiān)控程序的交互，使機構(gòu)能在改善挖掘進度的情況下，對流入的數(shù)據(jù)進行優(yōu)化[14]。最后，利用挖掘所得的數(shù)據(jù)，通過輸出高速緩存部件提供給用戶。

3 動態(tài)挖掘技術(shù)研究

3.1 敏感數(shù)據(jù)流特征響應(yīng)函數(shù)構(gòu)建

模糊遺傳算法可以考慮敏感數(shù)據(jù)流個體和組織的進化特性，提高挖掘效果。由于該方法能在求解過程中處理迭代隨機和非線性問題，具有解決更多復(fù)雜問題的能力[15]?；诖?，提出了一種基于模糊遺傳算法的最大類間離散度迭代方法，量化工業(yè)物聯(lián)網(wǎng)基元結(jié)構(gòu)之間的差異。

設(shè)工業(yè)物聯(lián)網(wǎng)兩個基元結(jié)構(gòu)分別為f(A) 和f(B)，兩者之間的差異計算公式為：

式中，a表示敏感數(shù)據(jù)向量；Pm表示m個概率值；xk表示k個元素構(gòu)成的向量；n表示元素個數(shù)。統(tǒng)計敏感數(shù)據(jù)變異參數(shù)hk(t)，求取敏感數(shù)據(jù)流特征響應(yīng)函數(shù)，如式（3）所示：

式中，t為特征值參數(shù)，sk(t)表示敏感數(shù)據(jù)流特征響應(yīng)值；R(t)表示工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)庫信道響應(yīng)函數(shù)。

3.2 敏感數(shù)據(jù)聚類分配

基于此，挖掘的敏感數(shù)據(jù)特征向量為：

式中，Pn(t) 表示n個概率值；εmn表示特征系數(shù)；λn表示敏感特征系數(shù)。將該特征作為挖掘基礎(chǔ)，依次聚類分配數(shù)據(jù)，并將待分配特征點依次聚類到中心處，可表示為：

通過對敏感數(shù)據(jù)流動態(tài)挖掘特征的聚類分析獲取聚類中心。

3.3 基于CAN-tree的動態(tài)挖掘

CAN-tree 樹的維護過程是修剪一個動態(tài)生長的CAN-tree 樹，在固定的循環(huán)周期，項表中所有項目按照遞減次序進行[16]。在順序掃描過程中，獲取第一項后，以項目表中的指針為基礎(chǔ)，依次查找與項目名稱相同子樹中的支持度，其計算公式如下：

式中，supes_count(t)表示支持度計數(shù)；|W|表示數(shù)據(jù)庫中事務(wù)個數(shù)。如果當(dāng)前項在子樹中存在大于支持度閾值Tmin的節(jié)點，則認(rèn)為該節(jié)點是頻繁項集，結(jié)束對該節(jié)點的判斷；如果當(dāng)前項在子樹中存在小于支持度閾值Tmin的節(jié)點，且當(dāng)前用戶定義置信度為η，則當(dāng)前判斷項在子樹中所有支持度不小于ηTmin的節(jié)點，可視為候選項目，保留子樹中所有與該項同名的節(jié)點，刪除其子樹。如果遍歷子樹，未找到不小于ηTmin列的節(jié)點，移除子樹中所有相同名稱的節(jié)點及其子樹，并且移除項目標(biāo)題表格中的項目。由此完成項目集的判定，并依次尋找下一個項目，繼續(xù)執(zhí)行直至遍歷全部項目。利用上述方法，可以有效地優(yōu)化CAN-tree 樹結(jié)構(gòu)，使其更加緊湊，從而更好地適應(yīng)當(dāng)前動態(tài)挖掘環(huán)境。

4 實驗

為了驗證面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)設(shè)計的合理性，進行實驗驗證分析。

4.1 數(shù)據(jù)采集器

實驗采用IBM 工控網(wǎng)絡(luò)機，數(shù)據(jù)采集器結(jié)構(gòu)如圖3 所示。

圖3 數(shù)據(jù)采集器結(jié)構(gòu)

由圖3 可知，該結(jié)構(gòu)由表示層、邏輯層和數(shù)據(jù)層三個層次組成，表示層是交互終端，可交互信息；邏輯層利用檢索關(guān)鍵詞調(diào)用數(shù)據(jù)庫數(shù)據(jù)；數(shù)據(jù)層利用數(shù)據(jù)庫連接技術(shù)實現(xiàn)對數(shù)據(jù)高效采集。

4.2 實驗數(shù)據(jù)分析

由于工業(yè)物聯(lián)網(wǎng)所帶來的數(shù)據(jù)是海量的、高維的，所以隨機選取了三個高維數(shù)據(jù)集進行實驗驗證，并對所設(shè)計的系統(tǒng)進行測試。為使數(shù)據(jù)集能模擬真實環(huán)境，將數(shù)據(jù)集作為一個時間窗口進行仿真，如圖4 所示。

圖4 數(shù)據(jù)集時間窗口

由圖4可知，該數(shù)據(jù)集由三類數(shù)據(jù)集組成，包括：

1）KDDCUP99：該數(shù)據(jù)集是50 維的高維數(shù)據(jù)集，包含4 692 341個數(shù)據(jù)，是工業(yè)物聯(lián)網(wǎng)記錄的數(shù)據(jù)集。

2）Bag of words：該數(shù)據(jù)集是1 維的高維數(shù)據(jù)集，包含6 500 000 個數(shù)據(jù)，從文字中收集。

3）EPM：該數(shù)據(jù)集是10 維的高維數(shù)據(jù)集，包含250 219 個數(shù)據(jù)，從文字中收集。

4.3 實驗結(jié)果與分析

對于上述三種數(shù)據(jù)集，在數(shù)據(jù)挖掘系統(tǒng)測試前，分別使用文獻[1]、文獻[2]、所設(shè)計系統(tǒng)作對比，分析數(shù)據(jù)集的聚類程度，對比結(jié)果如圖5 所示。

圖5 數(shù)據(jù)集聚類程度分析

由圖5 可知，使用文獻[1]、文獻[2]數(shù)據(jù)集聚類程度與理想效果相差較大，大部分?jǐn)?shù)據(jù)分散程度較大。而使用所設(shè)計系統(tǒng)數(shù)據(jù)集聚類程度與理想效果基本一致，說明使用該系統(tǒng)聚類效果較好。

在確定聚類程度情況下，對比三種系統(tǒng)數(shù)據(jù)集挖掘情況，如圖6 所示。

圖6 三種系統(tǒng)數(shù)據(jù)集挖掘?qū)Ρ确治?/p>

由圖6 可知，使用所設(shè)計系統(tǒng)挖掘數(shù)據(jù)量與實際數(shù)值基本一致，只在挖掘次數(shù)為4時，兩者相差4 bit的數(shù)據(jù)量。在挖掘次數(shù)為14 次時，使用文獻[1]、文獻[2]與實際數(shù)值分別存在30 bit 和34 bit 的最大誤差。由此可知，使用所設(shè)計系統(tǒng)挖掘效果較好。

5 結(jié)束語

工業(yè)物聯(lián)網(wǎng)帶來的工業(yè)數(shù)據(jù)流具有極大的規(guī)模、維度和無序性。針對這一問題，設(shè)計了面向工業(yè)物聯(lián)網(wǎng)的敏感數(shù)據(jù)流動態(tài)挖掘系統(tǒng)。通過實驗驗證，所設(shè)計系統(tǒng)聚類效果與理想效果較為接近；當(dāng)挖掘次數(shù)為14 次時，所設(shè)計系統(tǒng)挖掘的數(shù)據(jù)量為65 bit，與實際挖掘數(shù)據(jù)量十分接近。由此證明了該系統(tǒng)設(shè)計的合理性。目前，工業(yè)物聯(lián)網(wǎng)技術(shù)快速發(fā)展，數(shù)據(jù)結(jié)構(gòu)越來越復(fù)雜，規(guī)模也日益增大，在今后工作中，它將會在大規(guī)模稀疏數(shù)據(jù)集合中得到更好的應(yīng)用。