亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于參考度的有效關(guān)聯(lián)規(guī)則挖掘*

        2011-03-04 15:13:32柳景超宋勝鋒
        火力與指揮控制 2011年5期
        關(guān)鍵詞:數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則

        柳景超,宋勝鋒

        (海軍工程大學(xué)電子工程學(xué)院,武漢 430033)

        基于參考度的有效關(guān)聯(lián)規(guī)則挖掘*

        柳景超,宋勝鋒

        (海軍工程大學(xué)電子工程學(xué)院,武漢 430033)

        針對(duì)當(dāng)前關(guān)聯(lián)規(guī)則挖掘采用的支持度-置信度框架在具體應(yīng)用中存在的問題,引入新的指標(biāo)——參考度對(duì)模型中關(guān)聯(lián)規(guī)則挖掘算法評(píng)價(jià)體系進(jìn)行改進(jìn)。實(shí)驗(yàn)表明,通過引入?yún)⒖级?能夠提高挖掘有效規(guī)則的效率。

        數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則,入侵檢測(cè),參考度

        引 言

        入侵檢測(cè)系統(tǒng)作為一種積極主動(dòng)的安全防護(hù)措施,能夠檢測(cè)出各種形式的入侵行為,是安全防護(hù)體系的重要組成部分。以數(shù)據(jù)為中心的入侵檢測(cè)實(shí)際上是一個(gè)數(shù)據(jù)分析的過程。隨著網(wǎng)絡(luò)信息的不斷豐富和帶寬的提高,收集的審計(jì)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)包的數(shù)量將是非常巨大,要想從海量的審計(jì)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)包中發(fā)現(xiàn)有意義的信息將變得非常困難。

        數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識(shí)的過程。因此,將數(shù)據(jù)挖掘應(yīng)用于入侵檢測(cè)成為一個(gè)很有前途的研究方向[1]。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中一個(gè)重要手段,在入侵檢測(cè)中發(fā)揮了重要作用。本文針對(duì)當(dāng)前關(guān)聯(lián)規(guī)則挖掘采用的支持度-置信度框架在具體應(yīng)用中存在的問題,引入新的評(píng)價(jià)指標(biāo)——參考度對(duì)模型中關(guān)聯(lián)規(guī)則挖掘算法評(píng)價(jià)體系進(jìn)行改進(jìn)。實(shí)驗(yàn)表明,通過引入?yún)⒖级?能夠提高挖掘有效規(guī)則的效率。

        1 關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘研究的一個(gè)重要分支,其目的就是從海量數(shù)據(jù)中挖掘出有價(jià)值的描述數(shù)據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識(shí)[2]。關(guān)聯(lián)規(guī)則挖掘問題可以分解為以下兩個(gè)子問題:

        (1)找出所有頻繁項(xiàng)集,即找出的所有項(xiàng)集的支持度滿足用戶所規(guī)定的最小支持度;

        (2)由頻繁項(xiàng)集構(gòu)造置信度不低于用戶規(guī)定的最小置信度閾值的強(qiáng)關(guān)聯(lián)規(guī)則。

        目前通常采用的挖掘算法為 Apriori算法[3]。Ap riori算法對(duì)關(guān)聯(lián)規(guī)則的評(píng)價(jià)指標(biāo)為支持度和置信度,基于支持度-置信度框架的挖掘算法能夠挖掘出一些有效關(guān)聯(lián)規(guī)則,但在實(shí)際應(yīng)用中可能會(huì)產(chǎn)生大量冗余的、起誤導(dǎo)作用的規(guī)則。例如:通過對(duì)某服務(wù)器系統(tǒng)安全日志數(shù)據(jù)庫D隨機(jī)抽取2 000條事務(wù),并對(duì)以下 4個(gè)數(shù)據(jù)項(xiàng)集:

        I1= {連接服務(wù)器 21端口}、I2={拒絕服務(wù)攻擊}、I3={提供 www服務(wù)}和 I4={開放 80端口 }進(jìn)行統(tǒng)計(jì)、分析:結(jié)果如表 1所示。

        表1 項(xiàng)目支持?jǐn)?shù)列表

        如果假定min sup=20%,min cof=30%,可以挖掘出如下兩個(gè)關(guān)聯(lián)規(guī)則:

        規(guī)則(1)I1?I2(support=40%,con f=80%);

        規(guī)則 (2)I3? I4(support=60%,con f=100%)。

        通過對(duì)產(chǎn)生的規(guī)則進(jìn)行分析,可知規(guī)則(1)的含義為凡是連接服務(wù)器 21端口的行為都是拒絕服務(wù)攻擊;規(guī)則(2)的含義是提供 www服務(wù)的服務(wù)器會(huì)開放80端口。對(duì)于規(guī)則(1)來說,顯然是一個(gè)錯(cuò)誤的規(guī)則,如果規(guī)則庫加入這一規(guī)則將會(huì)增大系統(tǒng)的誤報(bào)率影響整個(gè)入侵檢測(cè)系統(tǒng)的準(zhǔn)確性;而規(guī)則(2)盡管是一個(gè)正確的規(guī)則,但這是一個(gè)眾所周知的事實(shí),對(duì)于檢測(cè)入侵行為而言沒有實(shí)際意義,這樣的規(guī)則加入到規(guī)則庫,將會(huì)增加入侵檢測(cè)系統(tǒng)搜索規(guī)則庫的時(shí)間,降低檢測(cè)效率。

        2 引入新的指標(biāo)改進(jìn)關(guān)聯(lián)規(guī)則評(píng)價(jià)體系

        為了避免生成大量冗余甚至是具有誤導(dǎo)作用的關(guān)聯(lián)規(guī)則,一些文章曾引入諸多閾值以加強(qiáng)對(duì)關(guān)聯(lián)規(guī)則的評(píng)判[4-6]。在對(duì)該問題進(jìn)行深入研究的基礎(chǔ)上,引入?yún)⒖级葋硖岣哧P(guān)聯(lián)規(guī)則的有效性。

        定義1:參考度。對(duì)于關(guān)聯(lián)規(guī)則X?Y,其參考度為:

        其中,P(X)表示X出現(xiàn)的概率,P(Y)表示Y出現(xiàn)的概率,P(XY)表示X、Y同時(shí)出現(xiàn)的概率,P()表示X不出現(xiàn)的概率,PY)表示、Y同時(shí)出現(xiàn)的概率。

        當(dāng)某一項(xiàng)集支持度為 1時(shí),通常認(rèn)為它與其他任何項(xiàng)集之間不具有相關(guān)性,則不需要考慮該項(xiàng)集與其它項(xiàng)集之間的參考度。任何一個(gè)項(xiàng)集X出現(xiàn)的概率為 0<P(X)<1。 由于 0<P(Y/X),P(Y/)≤1,所以參考度的取值范圍 [-1,1]。

        為了進(jìn)一步說明參考度的有效性,有必要給出相關(guān)度[7]的概念。從概率的角度定義相關(guān)度:

        則由式(1)~式(3)可以得到:

        分析式(4)可知,參考度的定義不僅包含了相關(guān)度的因素,而且還考慮了P(Y)的因素。因此,引入?yún)⒖级瓤梢猿浞煮w現(xiàn)規(guī)則X?Y的有效性。

        當(dāng) corr=corr1時(shí),corr=corr1=1,即如果 X、Y不相關(guān) ,則也不相關(guān);當(dāng) corr> 1時(shí),corr1< 1,即如果X、Y具有正相關(guān)性,Y具有負(fù)相關(guān)性;當(dāng)corr<1時(shí),corr1> 1,也即是如果X、Y是負(fù)相關(guān),說明X的發(fā)生對(duì)Y的發(fā)生起抑制作用。此時(shí),X?Y為無意義的規(guī)則應(yīng)丟棄;同時(shí)考慮其反面規(guī)則。

        與支持度、置信度類似,參考度也有閾值,稱之為最小參考度,記為m in consult。可以通過確定最小參考度來重新定義強(qiáng)關(guān)聯(lián)規(guī)則。

        定義 2:強(qiáng)關(guān)聯(lián)規(guī)則。事務(wù)庫D上的關(guān)聯(lián)規(guī)則X?Y,如果滿足最小支持度、最小置信度和最小參考度的閾值,則認(rèn)為是用戶感興趣的規(guī)則,即強(qiáng)關(guān)聯(lián)規(guī)則。

        引入?yún)⒖级戎?可以將關(guān)聯(lián)規(guī)則分為以下幾種情況:

        (1)有效的關(guān)聯(lián)規(guī)則,即用戶感興趣的規(guī)則,此時(shí)該規(guī)則滿足最小支持度、最小置信度,且 consult>0;

        (2)冗余規(guī)則,即滿足最小支持度、最小置信度,且consult=0的規(guī)則;

        (3)負(fù)關(guān)聯(lián)規(guī)則,即滿足最小支持度、最小置信度,且 consult<0的規(guī)則,此時(shí)其反面規(guī)則可能為感興趣規(guī)則,應(yīng)加以考慮。

        在新的評(píng)價(jià)體系支持度-置信度-參考度框架下,關(guān)聯(lián)規(guī)則的挖掘工作分為以下 4個(gè)步驟:

        (1)利用 Ap riori算法,找出事務(wù)數(shù)據(jù)庫D中所有頻繁項(xiàng)集L;

        (2)對(duì)步驟(1)產(chǎn)生的所有頻繁項(xiàng)集 l∈ L,產(chǎn)生所有滿足置信度、參考度的關(guān)聯(lián)規(guī)則,并加入到關(guān)聯(lián)規(guī)則集合R中;

        (3)對(duì)于步驟(2)中參考度小于0的所有頻繁項(xiàng)集 l∈ L,考慮其反面規(guī)則,產(chǎn)生所有滿足支持度、置信度、參考度的反面規(guī)則(?Y),并加入到關(guān)聯(lián)規(guī)則集合R中;

        (4)輸出關(guān)聯(lián)規(guī)則集合 R。

        對(duì)于第(3)步,要計(jì)算其反面規(guī)則的相關(guān)閾值,即對(duì)于反面規(guī)則?Y需要作以下運(yùn)算:

        通過上述的推導(dǎo)過程可以得出,反面規(guī)則的相關(guān)閾值均可以利用步驟(2)中求出的結(jié)果計(jì)算得到,無需再對(duì)事務(wù)庫進(jìn)行掃描。

        下面仍以表 1為例,在引入?yún)⒖级鹊那闆r下重新挖掘這兩條規(guī)則,設(shè)min consult=0.6。對(duì)于規(guī)則(1),計(jì)算其參考度為:

        同樣舍棄。

        通過分析,可以得到以下結(jié)果:規(guī)則(1)及反面規(guī)則均不是強(qiáng)關(guān)聯(lián)規(guī)則,即是否連接服務(wù)器 21端口不是判斷拒絕服務(wù)攻擊的一個(gè)主要標(biāo)志;而對(duì)于規(guī)則(2),盡管不會(huì)對(duì)檢測(cè)效果產(chǎn)生誤導(dǎo),但由于這條規(guī)則實(shí)際意義不大,增加該規(guī)則會(huì)降低系統(tǒng)工作效率,因此引入新的評(píng)價(jià)指標(biāo)后同樣將其舍棄。

        3 實(shí)驗(yàn)分析

        為了驗(yàn)證引進(jìn)的第三個(gè)指標(biāo)——參考度對(duì)結(jié)果產(chǎn)生的影響,以 KDD Cup 1999 Data[8]為數(shù)據(jù)集,進(jìn)行實(shí)驗(yàn)分析。KDD Cup 1999 Data是在軍事網(wǎng)絡(luò)環(huán)境中運(yùn)用非常廣泛的模擬入侵攻擊所得到的網(wǎng)絡(luò)數(shù)據(jù)集,是為第三屆國際知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘競(jìng)賽提供的。在實(shí)驗(yàn)過程中選取2 000條記錄作為測(cè)試數(shù)據(jù)集。實(shí)驗(yàn)所使用的硬件平臺(tái)是 Pentium4 3.00 GHz處理器,512 M內(nèi)存和 80 G硬盤的 PC機(jī),操作系統(tǒng)為Window s XP。

        設(shè)定最小支持度為15%,最小置信度為80%,在不同的參考度下,統(tǒng)計(jì)產(chǎn)生的規(guī)則數(shù)目。結(jié)果如圖1所示。

        圖 1表明,算法產(chǎn)生的規(guī)則數(shù)隨著參考度閾值的增加而遞減,因?yàn)殡S著參考度的增大,越來越多的規(guī)則被淘汰。由此可以看出,加入新的評(píng)價(jià)指標(biāo)——參考度來控制產(chǎn)生關(guān)聯(lián)規(guī)則的質(zhì)量是可行的,而且給系統(tǒng)帶來極大好處。

        圖 1 參考度閾值-規(guī)則數(shù)關(guān)系圖

        4 結(jié)束語

        關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘中的一個(gè)重要手段在入侵檢測(cè)中發(fā)揮了重要作用。本文針對(duì)當(dāng)前關(guān)聯(lián)規(guī)則挖掘采用的支持度-置信度框架在具體應(yīng)用中存在的問題,引入新的評(píng)價(jià)指標(biāo)——參考度對(duì)模型中關(guān)聯(lián)規(guī)則挖掘算法評(píng)價(jià)體系進(jìn)行改進(jìn)。實(shí)驗(yàn)表明,通過引入?yún)⒖级?能夠提高挖掘有效規(guī)則的效率。

        [1] Lee W.A Data M ining Framew ork for Construc ting Features and M odels for Intrusion Detec tion Systems[D].New York Co lumbia University,1999.

        [2] Agrawal R,Im ielinske T, Swam i A. M ining Association Rules Betw een Sets o f Items in Large Databases[C]//Proc. o f the ACM SIGMOD International Con ference on the M anagement of Data.W ashington D.C,1993,5:207-216.

        [3] Agrawal R,Srikant R.Fast Algorithms for M ining Association Rules[R].Reaearch Re-port RJ9893,IBM Almaden Research Center,San Jose,California,1994.

        [4] 伊衛(wèi)國,衛(wèi)金茂,王名揚(yáng).挖掘有效的關(guān)聯(lián)規(guī)則[J].計(jì)算機(jī)工程與科學(xué),2005,32(27):91-94.

        [5] 吳良杰,劉紅祥.基于確信因子的有效關(guān)聯(lián)規(guī)則挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(32):187-189.

        [6] 羅 可,郗東妹.采掘有效的關(guān)聯(lián)規(guī)則 [J].小型微型計(jì)算機(jī)系統(tǒng),2005,25(26):1374-1379.

        [7] 李 鵬.數(shù)據(jù)挖掘在入侵檢測(cè)中的應(yīng)用研究[D].鄭州:解放軍信息工程大學(xué),2004.

        [8] KDD Cup 1999 Data[EB/OL].h ttp://kdd.ics.uci.edu/databases/kddcup99/kddcup99.htm l.

        M ining Efficient Association Ru les Based on Consult

        LIU Jing-chao,SONG Sheng-feng
        (College of Electronic Engineering,N ava l University o f Engineering,Wuhan 430033,China)

        Peop le find that generated association rules may be false or redundant when using the traditional evaluating indicator. The article introduces the new measure-consu lt to imp rove measure system ofmining algorithm.The experiments show that the efficiency of valid rules can be enhanced by adding the new measure.

        datam ining,association rules,intrusion detection,measure-consult

        TP393.08,TP311.13

        A

        1002-0640(2011)05-0079-03

        2010-01-08

        2010-04-05

        湖北省自然科學(xué)基金資助項(xiàng)目(2006ABA 009)

        柳景超(1979- ),女 ,河南周口人,碩士,講師,研究方向:數(shù)據(jù)挖掘,入侵檢測(cè)。

        猜你喜歡
        數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨(dú)的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對(duì)我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        性一交一乱一伧国产女士spa| 国产精品久久一区性色a| 精品在线亚洲一区二区三区| 国产成年人毛片在线99| 亚洲av无码成人网站在线观看| 完整版免费av片| 亚洲精品乱码久久久久久蜜桃不卡| 国产中出视频| 久久亚洲一级av一片| 午夜免费观看日韩一级片| 国产美女精品视频线免费播放软件| 色综合中文综合网| 亚洲h视频| 日韩精品中文字幕综合| 人妻少妇精品视中文字幕免费| av狠狠色丁香婷婷综合久久| 香蕉人妻av久久久久天天| 无码一区二区三区久久精品| 国产成人精品一区二区三区av| 男女做爰高清免费视频网站| 亚洲综合无码一区二区三区| 精品国产日韩无 影视| 国产免费人成视频在线| 欧美精品亚洲精品日韩专区| 国产女人成人精品视频| 精品中文字幕日本久久久| 男女边摸边吃奶边做视频韩国| 国产精品一区二区久久乐下载| 国产91网| 国产三级精品三级在专区中文| 人妻熟妇乱又伦精品视频| 欧美日韩亚洲tv不卡久久| 久久久亚洲精品午夜福利| 国产亚洲一二三区精品| 品色堂永远免费| 欧美视频久久久| 一本之道加勒比在线观看| 亚洲精品无码永久中文字幕| 男人边吻奶边挵进去视频| 久久99久久99精品观看| 嫩呦国产一区二区三区av|