張長海
摘要:隨著大數據海量增長和物聯(lián)網技術快速發(fā)展,RFID(射頻識別技術)數據挖掘技術已成為當前研究的熱點.為此,該文重點研究了RFID移動數據特點,并根據數據特性提出一種高效的基于序列模式的RFID移動數據挖掘算法。該算法將RFID移動數據庫分為兩部分進行挖掘,首先采用高效的序列模式挖掘算法挖掘LOCATION序列數據,然后對挖掘LOCATION序列數據集進行TIME序列數據挖掘,進而組合LOCATION序列集和TIME序列集產生有效的RFID移動數據。實驗結果表明該算法能夠有效地挖掘RFID移動序列數據,處理時間短,效率高。
關鍵詞: RFID移動數據; 序列模式技術; 數據挖掘技術
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)13-0259-02
Abstract: With the Internet of Things technology, RFID (radio frequency identification technology) data mining technology has become a hot research. focus on the logistics and transport characteristics of RFID data path, proposed an efficient path for RFID-based sequential pattern data mining algorithms the algorithm uses divide and conquer technique, place the RFID data into sequence data and time series data mining, respectively, and thus the effective combination of location data and time series data sequence to generate a valid path to RFID data. Case analysis shows that through the algorithm: in the RFID path database, this method can efficiently tap the RFID path data.
Key words: RFID data; sequential patterns; data mining
隨著信息化社會推進,物聯(lián)網技術越來越受到關注,國家政府大力支持物聯(lián)網產業(yè)發(fā)展,其中RFID技術產業(yè)更是成為社會熱點。RFID技術產業(yè)主要包含射頻識別收發(fā)端、短距離無線傳輸端和后臺數據處理端,其中數據處理端尤為重要。現(xiàn)在社會RFID技術已經應用到各行各業(yè),有圖書館圖書信息管理、零售商商品信息管理、物流倉儲管理、信息化物流運輸等。近幾年來,隨著物聯(lián)網技術產業(yè)快速發(fā)展,RFID產業(yè)產生大量RFID數據。那么,如何能夠有效地挖掘到有價值的RFID數據,能夠為企事業(yè)單位提供更加有效的決策支持尤為重要,因此,RFID數據挖掘逐漸成為社會研究熱點。
世界上很多零售商都已經開始使用RFID技術,尤其是在零售產業(yè)的倉儲和物流環(huán)節(jié)。隨著電子信息技術推進,電子標簽價格逐步下降,各大零售商開始在大量物品商品包裝上黏貼RFID電子標簽,以能夠有效地跟蹤監(jiān)控商品。商品上部署的RFID系統(tǒng)生成移動軌跡,對于供應鏈管理等有很大價值,同時RFID系統(tǒng)會產生大量的RFID數據,面對這種海量式、數據爆炸式的RFID數據,如何挖掘出有意義的數據尤為重要。目前社會上存在一些RFID數據挖掘方法:如采用傳統(tǒng)的序列模式挖掘方法,這種方法沒有考慮RFID數據特性,把RFID數據看做一個整體數據集進行挖掘,因此,挖掘效率低,挖掘結果不夠精確。為了能夠有效地挖掘RFID移動數據,本文提出一種RFID移動數據挖掘算法,該算法該算法將RFID移動數據庫分為兩部分進行挖掘,首先采用高效的序列模式挖掘算法挖掘LOCATION序列數據,然后對挖掘LOCATION序列數據集進行TIME序列數據挖掘,進而組合LOCATION序列集和TIME序列集產生有效的RFID移動數據。實驗結果表明該算法能夠有效地挖掘RFID移動序列數據,處理時間短,效率高。
1 基于序列模式的RFID數據挖掘算法
1.1 RFID數據挖掘基本概念
RFID序列數據庫如圖表1所示,該數據庫內有4條RFID數據記錄,如何從這四條數據記錄挖掘出有價值的信息數據至關重要。首先,4條數據記錄中的(濰坊)、(青島)、(濟南)、(泰安)表示RFID移動數據中的地點數據,可稱之為地點序列數據;數據記錄中的(1)、(1)、(1)、(2)表示RFID移動數據中的時間數據,可稱之為時間序列數據。因此,有如下定義:
定義1 如果RFID數據庫中有一條記錄:p=(s1, l1)(s2, l2)...(sn, ln),那么,該記錄中的tl=(s1)(s2)...(sn)稱之為該記錄的RFID地點序列,其為該數據庫的主要數據參數。
定義2 如果RFID數據庫中有一條記錄:p=(s1, l1)(s2, l2)...(sn, ln),那么,該記錄中的ql=(l1)(l2)...(ln)稱之為該記錄的RFID時間序列,其為該數據庫的次要數據參數。
上表四條記錄中,第一條記錄和第三條記錄中的地點序列數據{(濰坊)、(青島)、(濟南)、(泰安)}出現(xiàn)過2次,假設設置該數據庫支持數閾值為2,那么該地點序列不存在長度更長的序列,因此,稱之為頻繁地點序列。有如下定義:
定義3假如存在一條路徑序列數據T,且不存在路徑序列數據S,使得T
例1 表1所示的數據庫中,第一條序列數據(濰坊, 1)(青島, 1)(濟南, 1)(泰安, 2)中的{(濰坊)、(青島)、(濟南)、(泰安)}為地點序列數據,{(1)、(1)、(1)、(2)}為時間序列數據。
例2表1所示的數據庫中,前四條序列數據的地點序列數據分別是{(濰坊)、(青島)、(濟南)、(泰安)}、{(濰坊)、(青島)、(泰安)}、{(濰坊)、(青島)、(濟南)、(泰安)}、{(濰坊)、(青島)、(泰安)}。如果該RFID序列數據庫支持數閾值為2,那么地點序列數據{(濰坊)、(青島)、(濟南)、(泰安)}滿足最小支持數2,即滿足在RFID數據庫記錄中出現(xiàn)2次條件,同時該地點序列數據{(濰坊)、(青島)、(濟南)、(泰安)}又不存在超序列, 因此,稱之為頻繁地點序列數據。
1.2基于序列模式的RFID數據挖掘算法描述
本文中將采用分治策略,即將RFID數據庫中的序列數據分為地點序列數據和時間序列數據進行處理,從地點序列數據庫中挖掘出頻繁的地點序列,然后對頻繁地點序列進行映射,形成候選時間序列集合,然后采用數據庫挖掘方法挖掘候選時間序列集合,該方法簡單有效,挖掘數據完整。
基于序列模式的RFID數據挖掘算法描述如下:
輸入: RFID sequential_DB, Min_Support.
輸出: The full frequent RFID data for CD.
1: 投影RFID序列數據庫,構造RFID地點序列數據庫集合DataB=L_sequence(RFID sequential DB)。
2: 按照給定最小支持度閾值計算該RFID序列數據庫的最小支持數值為Min_count=|DataB|*Min_Support。
3: 調用經典序列數據挖掘算法APRIORI算法,生成頻繁地點序列數據集。
4: 投影頻繁地點序列數據集,生成與頻繁地點序列數據集對應的候選時間序列數據集。
5: 調用經典序列數據挖掘算法APRIORI算法,生成頻繁時間序列數據集。
6: 將頻繁地點序列數據集和頻繁時間序列數據集進行組合,依據APRIORI性質檢測組合數據集的封閉性,同時刪除非封閉數據集。
7: 返回生成CD。
2 RFID數據挖掘算法實例分析
物聯(lián)網系統(tǒng)下層采集數據,經過數據清洗等組成RFID路徑序列數據庫。本文舉例如表1所示。假設該RFID路徑序列數據庫最小支持數閾值Min_support=0.5,那么挖掘整個RFID頻繁數據序列過程如下:
第一步,投影RFID路徑序列數據庫,生成RFID地點序列數據庫集合,如表2所示。
3 結束語
隨著物聯(lián)網技術高速發(fā)展,將產生海量式數據。為此,本文提出一種挖掘RFID路徑序列數據的算法。該算法將RFID移動數據庫分為兩部分進行挖掘,首先采用高效的序列模式挖掘算法挖掘LOCATION序列數據,然后對挖掘LOCATION序列數據集進行TIME序列數據挖掘,進而組合LOCATION序列集和TIME序列集產生有效的RFID移動數據。通過實例測試分析,該算法能夠有效挖掘RFID價值數據,為企業(yè)提供智能決策支持。今后我們將重點研究對該RFID挖掘算法的優(yōu)化及更新。
參考文獻:
[1] 馬傳香, 余嘯, 李偉亮, 等. MR-GSP: 基于Map-Reduce的序列模式挖掘算法[J]. 計算機應用研究,2015(11).
[2] 鄧廣彪. 規(guī)范化序列模式在讀者借閱行為模式挖掘的應用研究[J]. 計算機時代, 2014(4).
[3] 馮麗蕓. 數據挖掘在我國醫(yī)保方面應用綜述[J]. 電腦知識與技術, 2014(3).
[4] 胡孔法, 陳竹西. 現(xiàn)代物流系統(tǒng)中的頻繁封閉路徑挖掘算法[J]. 計算機集成制造系統(tǒng), 2009(4): 229-235.
[5] Zhang Changhai, Hu Kongfa. FMGSP: An Efficient Method of Mining Global Sequential Patterns[C]. Hainan, China: FSKD,2007 : 761-765.