亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特殊網(wǎng)絡通信行為的數(shù)據(jù)挖掘與分析

        2012-09-17 09:43:42趙汝英張小飛張道銀張志明
        網(wǎng)絡安全技術與應用 2012年7期
        關鍵詞:數(shù)據(jù)挖掘關聯(lián)規(guī)則

        趙汝英 張小飛 張道銀 張志明

        國網(wǎng)電力科學研究院信息網(wǎng)絡安全實驗室 江蘇 210061

        0 引言

        互聯(lián)網(wǎng)的快速發(fā)展改變了信息的傳播方式和人們的生活方式,它為人們帶來巨大便利的同時,也為不法分子從事非法活動提供了溫床。不法分子利用互聯(lián)網(wǎng)技術傳輸竊取的機密信息、使用翻墻軟件訪問非法網(wǎng)站、在論壇上傳播反動言論等,這些行為操作嚴重損害了國家利益、破壞了社會穩(wěn)定,因此,有必要對此類特殊網(wǎng)絡通信行為進行檢測。

        可疑網(wǎng)絡通信方式主要有文件傳輸、電子郵件、使用特殊應用軟件、訪問論壇和黑名單網(wǎng)站??梢赏ㄐ抛裱欢ǖ男袨槟J?,通信行為之間存在某些隱藏的關聯(lián)。使用傳統(tǒng)的統(tǒng)計學方法和數(shù)據(jù)庫提供的查詢檢索機制不能從龐大的數(shù)據(jù)庫中找出這些關聯(lián)關系,從而不能為決策者提供有價值的信息。因此,有必要引入數(shù)據(jù)挖掘方法挖掘可疑通信行為,發(fā)現(xiàn)行為關聯(lián),并根據(jù)挖掘出的關聯(lián)規(guī)則尋找發(fā)生了可疑通信行為的用戶。

        由于數(shù)據(jù)的稀疏性及關聯(lián)規(guī)則一般產(chǎn)生于較高的概念層次中的特性,且不同通信行為及其屬性對可疑通信判斷的影響程度不同,本文選擇多層次加權關聯(lián)規(guī)則挖掘算法對可疑通信行為進行數(shù)據(jù)挖掘。

        1 可疑通信數(shù)據(jù)挖掘

        通過對互聯(lián)網(wǎng)上可疑通信行為進行數(shù)據(jù)采集和數(shù)據(jù)還原,將得到的通信行為信息寫入對應的行為數(shù)據(jù)庫表,如文件傳輸數(shù)據(jù)庫表、收發(fā)郵件數(shù)據(jù)庫表等,這些數(shù)據(jù)庫表即為數(shù)據(jù)挖掘的原始數(shù)據(jù)源。

        利用多層次加權關聯(lián)規(guī)則挖掘可疑通信主要分為數(shù)據(jù)準備、建立層次結構、數(shù)據(jù)挖掘和結果表達四個步驟。

        1.1 數(shù)據(jù)準備

        數(shù)據(jù)準備包括對數(shù)據(jù)集成、選擇和預處理。

        由于本文選擇已經(jīng)存在于數(shù)據(jù)庫中的數(shù)據(jù)作為數(shù)據(jù)源,因此不需要再次數(shù)據(jù)集成。

        數(shù)據(jù)選擇是指從數(shù)據(jù)庫表中選擇用戶真正關心的、對判斷通信行為是否可疑有影響的屬性,過濾正常的通信行為,從而減少數(shù)據(jù)處理范圍,對用戶實際關心的數(shù)據(jù)進行挖掘,降低計算復雜度,提高挖掘效率和挖掘質(zhì)量。

        數(shù)據(jù)預處理是刪除數(shù)據(jù)庫表中的冗余數(shù)據(jù)、推導遺漏數(shù)據(jù)、消除噪聲、合并同類項、消除不一致的數(shù)據(jù)等。

        為了使挖掘出的關聯(lián)規(guī)則符合用戶預期,在數(shù)據(jù)準備階段,本文由用戶設置數(shù)據(jù)過濾條件,針對用戶設置篩選出有用數(shù)據(jù)、清除冗余數(shù)據(jù),完成數(shù)據(jù)選擇和預處理。

        具體設置如下:

        (1) 選擇關心的行為屬性。

        (2) 對取值范圍較大的屬性將取值歸類成有限的幾類,即將數(shù)值型數(shù)據(jù)轉換成有限的類別型數(shù)據(jù)。

        (3) 設置用戶關心的黑名單網(wǎng)站、敏感詞匯等,為限定屬性取值做準備。

        (4) 設置數(shù)據(jù)過濾條件,縮小待挖掘數(shù)據(jù)范圍。設置事件持續(xù)時間,以便將各類通信行為關聯(lián)起來。

        (5) 設置通信行為及各屬性的重要程度,以確定其權重。

        (6) 設置數(shù)據(jù)挖掘的最小支持度和最小置信度。

        根據(jù)上述用戶設置,對數(shù)據(jù)做如下預處理:

        首先由用戶關心的屬性組成屬性列,從原通信行為數(shù)據(jù)庫中構造新的數(shù)據(jù)庫表。

        其次根據(jù)屬性列取值歸類情況,對部分屬性取值進行轉換。

        然后根據(jù)數(shù)據(jù)過濾條件篩選出符合要求的待挖掘數(shù)據(jù),過濾噪聲數(shù)據(jù)。

        接著由用戶設定的“事件持續(xù)時間”關聯(lián)同一上網(wǎng)賬號的通信行為,構造形如表1的數(shù)據(jù)庫表,表中的一行表征一個上網(wǎng)賬號的一次通信事件,表中的列表示事件中的通信操作,除“賬號”屬性列外每列取值為該操作的屬性取值。

        表1 通信事件表

        最后根據(jù)用戶設定的通信行為及其屬性的重要程度,利用模糊層次分析法確定各通信行為及屬性的權重。

        1.2 建立層次結構

        為了使用多層次加權關聯(lián)規(guī)則挖掘算法進行數(shù)據(jù)挖掘,需要建立通信行為及屬性的層次關系,確定通信行為屬性與通信行為間的概念層次樹。本文根據(jù)通信行為分類及各自屬性建立層次結構,可疑通信檢測是最高層(第 0層),各通信行為是第1層,通信行為的不同屬性是第2層,屬性的不同取值為第 3層。為了數(shù)據(jù)處理方便,使用文獻[17]中提出的一般化識別碼(GID)對通信行為及屬性進行編碼,將不同形式的行為屬性取值統(tǒng)一用一串數(shù)字標識。

        對通信行為及其屬性建立層次結構后,每個節(jié)點都是有序的,從根節(jié)點到每個子節(jié)點的路徑是惟一的,所有子節(jié)點都可以用惟一的GID編碼標識,每個GID編碼用3位數(shù)字表示。一次通信行為包含了幾類行為屬性,反過來,一組行為屬性的GID編碼可以用來表征一次通信行為。這種用GID編碼表示通信行為的方法可以有效簡化數(shù)據(jù)挖掘時的處理復雜度,有助于提高挖掘效率。利用這種方法對表1通信事件表中的屬性列取值進行轉換,形成如表2的新數(shù)據(jù)庫表。

        表2 GID編碼后的通信事件表

        1.3 數(shù)據(jù)挖掘

        為了尋找所有可疑通信行為模式,挖掘時只考慮通信事件表中的行為操作,不涉及上網(wǎng)賬號。完成數(shù)據(jù)挖掘后,系統(tǒng)根據(jù)找出的可疑通信行為模式在數(shù)據(jù)庫表中進行匹配,找出發(fā)生了可疑通信行為的用戶,給出可疑通信行為分析報告。

        使用多層次加權關聯(lián)規(guī)則算法挖掘可疑通信行為模式主要分為三個步驟:構造加權FP-tree,在加權FP-tree上挖掘頻繁模式集,根據(jù)頻繁模式集得出關聯(lián)規(guī)則。

        步驟一:構造加權FP-tree

        輸入:經(jīng)過GID編碼的通信事件表T(忽略上網(wǎng)賬號屬性列),概念層次樹Tree,最小支持度計數(shù)min_count,最小加權支持度 minsup

        輸出:加權FP-tree

        過程:

        第一次掃描通信事件表T,對于每個事件中的每個行為屬性,從概念層次樹Tree中找出其祖先,逐一添加到該事件中。掃描每個事件記錄,刪除其中重復的祖先。

        第二次掃描通信事件表 T,找出支持度計數(shù)大于min_count的所有1-候選項集 C1,根據(jù)數(shù)據(jù)預處理階段得到的通信行為/通信行為屬性權重計算加權支持度,得到 1-加權頻繁項集L1,并按照加權支持度降序排列,生成加權頻繁項目列表L。刪除Tree中非頻繁的祖先項。

        創(chuàng)建加權TP-tree的根節(jié)點root,標記為NULL。對每個事件,按照 L中的順序將每個事件中的頻繁項排序,記作[p|P],其中p是第 1個元素,P為列表的剩余部分, 調(diào)用InsertTree([p|P],root)。其中 InsertTree([p|P])。

        步驟二:在加權FP-tree上產(chǎn)生加權頻繁模式集

        輸入:加權FP-tree,概念層次樹Tree,最小加權支持度minsup

        輸出:加權頻繁模式集

        過程:調(diào)用ML-WFP (加權FP-tree,null)

        其中 BuildConditionTree(B)具體過程見 1.2節(jié)中多層次加權關聯(lián)規(guī)則算法ML-WFP算法描述。

        步驟三:生成關聯(lián)規(guī)則

        對于任意一個頻繁屬性集X,找出X的所有非空子集Y,如果有Sup(X)/Sup(Y)≧minConf,就生成關聯(lián)規(guī)則Y?X-Y。

        同樣地,對于步驟二得到的加權頻繁模式集利用上述方法生成可疑通信行為的關聯(lián)規(guī)則。

        1.4 結果表達

        通過數(shù)據(jù)準備、建立層次結構、數(shù)據(jù)挖掘三個步驟,最終挖掘出了可疑通信行為間的關聯(lián)規(guī)則。有意義的關聯(lián)規(guī)則應是能夠根據(jù)該關聯(lián)規(guī)則判斷某上網(wǎng)賬號用戶的通信行為是否可疑,從而找出目標網(wǎng)絡內(nèi)所有進行了可疑通信行為的上網(wǎng)賬號。

        結果表達不僅是把挖掘結果呈現(xiàn)給用戶,還需要對信息進行過濾處理,把最有價值的信息區(qū)分出來,提交給用戶。如果挖掘出的規(guī)則不能令用戶滿意,需要從數(shù)據(jù)準備階段開始重復數(shù)據(jù)挖掘過程。

        2 實驗測試

        在本節(jié)中,通過在以太網(wǎng)上搭建測試環(huán)境來驗證可疑通信數(shù)據(jù)挖掘模型的有效性。本文選擇數(shù)據(jù)庫中70%的數(shù)據(jù)作為訓練樣本,挖掘可疑通信行為模式,用剩余30%的數(shù)據(jù)作為測試樣本,檢驗挖掘出的可疑通信行為關聯(lián)規(guī)則是否有效。

        經(jīng)過用戶設置、數(shù)據(jù)處理、建立層次結構,根據(jù)用戶設定的minSup和minConf,使用ML-WFP多層次加權關聯(lián)規(guī)則挖掘算法對GID編碼后的數(shù)據(jù)庫表進行挖掘,得出關聯(lián)規(guī)則如表3所示。

        表3 可疑通信行為關聯(lián)規(guī)則

        得到多層次加權關聯(lián)規(guī)則后,需要具體解釋各規(guī)則的含義、刪除不合要求的規(guī)則,在此基礎上分析數(shù)據(jù)挖掘結果,并根據(jù)挖掘出的關聯(lián)規(guī)則對測試樣本中的數(shù)據(jù)進行檢測,找出測試樣本中發(fā)生了可疑通信行為的上網(wǎng)賬號,從而驗證關聯(lián)規(guī)則的有效性。

        多層次加權關聯(lián)規(guī)則結果解釋如表4所示。

        表4 可疑通信行為關聯(lián)規(guī)則結果解釋

        通過結果解釋表4中可以看出有些關聯(lián)規(guī)則具有普遍意義,是挖掘前可以預料的,例如大多訪問黑名單網(wǎng)站都使用了特殊應用軟件,傳輸文件的主要方式之一是電子郵件等。這些具有普遍意義的關聯(lián)規(guī)則也驗證了本文提出的多層次加權關聯(lián)規(guī)則算法的合理性。另外一些關聯(lián)規(guī)則描述了通信行為及屬性間的隱藏關系,如在凌晨使用Gmail發(fā)送的帶附件的郵件中60%包含了敏感詞匯,這類規(guī)則揭示了可疑通信的行為模式,根據(jù)行為模式可以判斷目標網(wǎng)絡中的其他用戶的通信行為是否可疑。

        3 結論

        本文根據(jù)可疑通信行為特點,提出使用多層次加權關聯(lián)規(guī)則進行數(shù)據(jù)挖掘。針對目前沒有一種挖掘算法能同時滿足多層次關聯(lián)規(guī)則挖掘和加權關聯(lián)規(guī)則挖掘的問題,在現(xiàn)有的ML-FP多層次關聯(lián)規(guī)則挖掘算法和MWFP加權關聯(lián)規(guī)則挖掘算法基礎上,提出了基于FP-tree的多層次加權關聯(lián)規(guī)則算法,并應用于可疑通信行為挖掘。但算法的效率及關聯(lián)規(guī)則評估方面需要進一步研究。

        [1]劉君強,孫曉瑩.直接挖掘跨層關聯(lián)規(guī)則的新方法[J].計算機工程與應用.2002.

        [2]任家東,任東英,高偉.分布式多層次關聯(lián)規(guī)則挖掘[J].計算機工程.2003.

        [3]Agrawal R,Srikant R. Fast algorithms of mining association rules between sets of items in large databases[C].Proceedings of the ACM SIGMOD International Conference on the Management of Data. Washington D.C.,USA.1993.

        [4]Han J W,Pei J,Yin Y W.Mining frequent patterns without candidate generation[C].Proceedings of the ACM-SIGMOD International Conference on the Management of Data. Dallas,TX,USA.2000.

        [5]Pommerenke C,Friedrich B,Johl T,et al. A Modified Apriori Algorithm for Analysing High-Dimensional Gene Data[J].Intelligent Data Engineering and Automated Learning.2011.

        [6]Sakai H,Ishibashi,Koba K,et al.Rules and Apriori Algorithm in Non-deterministic Information Systems[J].Transactions on Rough Sets IX.2008.

        [7]Kronberger G,Affenzeller M. Market Basket Analysis of Retail Data:Supervised Learning Approach[J].Computer Aided Systems Theory – EUROCAST 2011.

        [8]Mendes A C,Antunes C.Pattern Mining with Natural Language Processing:An Exploratory Approach[J].Machine Learning and Data Mining in Pattern Recognition.2009.

        [9]Zhu Q X,Lin X Y.Depth First Generation of Frequent Patterns Without Candidate Generation[J].Emerging Technologies in Knowledge Discovery and Data Mining.2007.

        [10]Kiran R. U,Reddy P.K.Mining Rare Association Rules in the Datasets with Widely Varying Items’Frequencies[J].Database Systems for Advanced Applications.2010.

        [11]Adnan M,Alhajj R. DRFP-tree:disk-resident frequent pattern tree[J].Applied Intelligence.2009.

        [12]Kwiatkowski P,Nguyen S H,Nguyen H S.On Scalability of Rough Set Methods[J]. Information Processing and Management of Uncertainty in Knowledge-Based Systems.2010.

        [13]Ye Y F,Wang D D,Li T,et al. An intelligent PE-malware detection system based on association mining[J].Journal in Computer Virology.2008.

        [14]Han J W,Micheline K著,范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社.2007.

        [15]胡向前.基于FP_tree的多層次關聯(lián)規(guī)則挖掘算法研究[D].重慶大學.2005.

        [16]王艷,薛海燕,李玲玲等.一種改進的加權頻繁項集挖掘算法[J].計算機應用.2010.

        [17]王珊.數(shù)據(jù)倉庫技術及分聯(lián)機分析處理[M].北京:科學出版社.1998.

        [18]陸建江,張亞飛,宋自林.模糊管理規(guī)則的研究與應用[M].北京:科學出版社.2008.

        猜你喜歡
        數(shù)據(jù)挖掘關聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關聯(lián)
        當代陜西(2021年17期)2021-11-06 03:21:36
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        91自拍视频国产精品| 一区二区三区内射视频在线观看| 久久亚洲一级av一片| 精品亚洲国产日韩av一二三四区 | 亚洲综合久久一本久道| 中文字幕人妻一区色偷久久| av在线免费观看网站,| 国产乱人激情h在线观看| 人妻丰满熟妇AV无码区HD| 中文字幕日本熟妇少妇| 六月婷婷亚洲性色av蜜桃| 亚洲av美国av产亚洲av图片| 亚欧国产女人天堂Av在线播放| 大肥婆老熟女一区二区精品| 麻豆精品一区二区三区| 男人的天堂无码动漫av| 四虎精品视频| 精品亚亚洲成av人片在线观看| 亚洲处破女av日韩精品中出| 水蜜桃精品一二三| 国产午夜精品一区二区三区不| 一区二区三区av资源网| 国产成人精品免费久久久久| 青青草97国产精品免费观看| av资源在线看免费观看| 国产视频一区2区三区| 国内精品久久久久久久97牛牛 | 久久亚洲AV成人一二三区| 亚洲蜜臀av一区二区三区漫画| 日本熟妇人妻xxxx| 久久久久国产精品免费免费搜索| 亚洲综合国产成人丁香五月小说 | 国内永久福利在线视频图片| 综合无码一区二区三区| 久久国产精品老人性| 中文资源在线一区二区三区av| 野外亲子乱子伦视频丶 | 亚洲成AV人国产毛片| 中文字幕视频一区二区| 久久婷婷五月综合97色直播| 国模无码视频一区|