吳潔
摘 要 無線通信技術的快速發(fā)展、移動設備的流行普及,無線網絡數據信息量暴增,為用戶移動行為研究提供了機遇。現有的網絡信息安全技術大多將精力集中在對外來攻擊進行防御性響應上,而對于用戶行為分析和特征提取、用戶行為模式的生成以及智能判斷用戶異常行為的研究還有待加強。本文將通過數據挖掘算法分析用戶使用網絡的行為來獲得用戶行為模式和判定用戶行為傾向。
關鍵詞 數據挖掘 行為分析 關聯規(guī)則
0引言
用戶上網行為,指的是網絡用戶在使用網絡時所表現出來的行為,它屬于網絡行為學的研究范疇,具有極高的商業(yè)和科學研究價值。國內在用戶上網行為方面的研究起步相對較晚,對用戶上網行為的分析絕大多數還處于分析服務器原始數據的階段。因此,采用數據挖掘的方法,通過對網絡內用戶上網行為的挖掘分析,便可以挖掘出網絡內用戶的上網行為特征,發(fā)現未知的上網行為,并對用戶的上網行為進行預測,從而實現為網絡的管理和優(yōu)化提供決策支持和科學的依據。
1數據建模
由于數據集中包含許多不完整、不一致以及含有大量噪聲的臟數據。因此,在挖掘之前,需要對數據進行預處理。數據預處理一般分為四個步驟:數據選取、數據表屬性一致化、數據清理、數據離散化。主要用到的技術有:數據變換和數據清理。經過數據預處理,數據已基本上符合分析的要求。模式生成模塊中,采用靜態(tài)建模和動態(tài)建模結合的方法。一方面設計合適的算法,在系統(tǒng)運行階段動態(tài)地生成和更新模式庫;另一方面也可以提供控制接口,以便在必要的時候,手工建立和更新行為模式庫。
2數據分析
采用數據挖掘的方法進行用戶行為模式分析,是對用戶訪問行為各屬性之間關聯規(guī)則的提取。根據采集到的用戶行為數據,從盡量多的方面描述寬帶網絡用戶上網行為的不同體現,歸納能夠表征寬帶用戶上網行為的主要特征,并根據各個維度的行為特征將用戶根據其行為模式進行分類。通過對原始數據的分析和行為特征的歸納,研究這些特征所表征的用戶行為,并對這些不同方面的用戶行為進行具體分析,得到行為特征的規(guī)律性。根據不同方面的行為特征,嘗試建立用戶行為的模型。
在預處理階段對原始行為數據都對照以上分類完成了屬性值規(guī)劃,進而將劃分后的每個區(qū)間映射為一個布爾屬性,在此基礎上可挖掘出更易理解的、具有概括性的、有效的關聯規(guī)則。由于模型中要獲得的是各個指定用戶的行為模式,即規(guī)則的前件就是指定的用戶,因此只需挖掘出該用戶訓練數據集中的所有頻繁項集作為關聯規(guī)則的后件即可。這樣每條規(guī)則的支持度即為各頻繁項集的支持度,置信度即為100%。以往用來解決單維布爾型關聯規(guī)則的頻繁項集發(fā)現算法中最經典的是Apriori算法。本文采用MDMQ-Apriori算法對采集到的數據進行分析提取。
以下是MDMQ-Apriori 算法的簡單介紹:
定義1:設關系R有屬性集 A={a1,a2,…,am},m表示關系R的屬性維數,屬性ap(p=1,2,…,m)的基本項目集為I(ap),令,則I是全體基本項目集合。
定義2:關聯規(guī)則挖掘的數據集記為D(事務數據庫),D={t1,t2, … ,tk, … tn},tk={i1,i2,…,im}(field(ip)=I(ap),(p=1,2,…,m))稱為事務,其中ip(p=1,2,…,m)稱為項目,field(ip)函數表示項目ip所屬的屬性維。
定義3:I的任何限定條件子集X稱為D中的項目集(限定條件為X中的各項目的每一元素分屬于不同的屬性維),|X|=k 稱為集合X為k項目集。設tk和X分別為D中的事務和項目集,如果Xtk,稱事務tk包含項目集X。每一個事務都有一個唯一的標識符,稱為 TID。
定義4:數據集D中包含項目集X的事務數稱為項目集X的支持數,記為x。項目集X的支持度記為support(X),計算公式如下所示:。
其中|D|是數據集D的事務數,若support(X)不小于用戶指定的最小支持度,則稱X為頻繁項目集,簡稱頻集,否則稱 X 為非頻繁項目集,簡稱非頻集。
3結論
通過搜集用戶在上網過程中生成的大量數據信息,采用統(tǒng)計分析和關聯規(guī)則挖掘技術,充分發(fā)揮數據挖掘理論能從超大規(guī)模數據集中發(fā)現知識的優(yōu)勢,對搜集得到的行為數據進行分析,提煉用戶主動行為模式。
參考文獻
[1] 邵峰晶,于忠清.數據挖掘原理與算法[M].北京:中國水利水電出版社, 2003.
[2] 馬力,焦李成,董富強.一種Internet的網絡用戶行為分析方法的研究[J].微電子學與計算機, 2005(07): 124-126.
[3] Tang,D.&M.Baker.Analysis; of a local-area wireless network[C]. International Conference on Mobile Computing and NETWORKING. ACM, 2000:1-10.