亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于FP樹(shù)的極大頻繁項(xiàng)集的挖掘方法

        2015-09-28 01:01:54石芹芹
        現(xiàn)代計(jì)算機(jī) 2015年36期
        關(guān)鍵詞:關(guān)聯(lián)定義規(guī)則

        石芹芹

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

        基于FP樹(shù)的極大頻繁項(xiàng)集的挖掘方法

        石芹芹

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        0 引言

        數(shù)據(jù)挖掘是20世紀(jì)90年代興起的一項(xiàng)新技術(shù),是知識(shí)發(fā)現(xiàn)的關(guān)鍵步驟。數(shù)據(jù)挖掘是多門學(xué)科和多門技術(shù)相結(jié)合的產(chǎn)物,是指從數(shù)據(jù)庫(kù)中抽取隱含的、潛在的、先前未知的、有用的信息(如知識(shí)、規(guī)則、約束和規(guī)律等)的一個(gè)非平凡過(guò)程[1]。其中挖掘關(guān)聯(lián)規(guī)則是一個(gè)非常重要的研究?jī)?nèi)容,而挖掘頻繁項(xiàng)集是研究關(guān)聯(lián)規(guī)則的基本和關(guān)鍵步驟。頻繁項(xiàng)集導(dǎo)致發(fā)現(xiàn)大型事務(wù)或關(guān)系數(shù)據(jù)集中項(xiàng)之間有趣的關(guān)聯(lián)或相關(guān)性,發(fā)現(xiàn)的這些相關(guān)聯(lián)系,可以為分類設(shè)計(jì)、交叉銷售和顧客購(gòu)買習(xí)慣分析等許多商務(wù)決策過(guò)程提供幫助,故受到業(yè)界人士的青睞。然而從大型數(shù)據(jù)集中挖掘頻繁項(xiàng)集是具有很大的挑戰(zhàn)性的,因?yàn)閷?duì)每一個(gè)k維的頻繁項(xiàng)集個(gè)頻繁1項(xiàng)集個(gè)頻繁2項(xiàng)集因此頻繁項(xiàng)集總共為個(gè),項(xiàng)集個(gè)數(shù)太大。而極大頻繁項(xiàng)集隱含了頻繁項(xiàng)集的信息,因此近些年對(duì)極大頻繁項(xiàng)集的研究也越來(lái)越多。

        目前,極大頻繁項(xiàng)集挖掘算法主要是基于Apriori 和FP-tree的改良和衍生算法?;贏priori的有maxminer、pincer-search、Mafia、GenMax等,基于FP-tree的有Fpmax、IDMFIA、FPMFI等2。由于訪問(wèn)內(nèi)存中的數(shù)據(jù)比訪問(wèn)外存磁盤中相同大小的數(shù)據(jù)快五六個(gè)數(shù)量級(jí),上述這些算法至少需要兩次外存數(shù)據(jù)庫(kù)掃描,其數(shù)據(jù)結(jié)構(gòu)表達(dá)形式也主要是枚舉樹(shù)、字典樹(shù)和頻繁模式樹(shù)(FP-tree)等樹(shù)形結(jié)構(gòu),結(jié)構(gòu)較單一。

        1 相關(guān)定義

        定義1設(shè)τ={I1,I2,…,Im}是項(xiàng)的集合,設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是一個(gè)非空項(xiàng)集(項(xiàng)的集合稱為項(xiàng)集),使得T?τ。每一個(gè)事務(wù)T都有一個(gè)標(biāo)識(shí)符,成為TID。設(shè)A是一個(gè)項(xiàng)集,當(dāng)A?T時(shí),則稱事務(wù)T包含A。

        定義2形如A?B(其中A?τ,B?τ,A≠?,B≠?,且A∩B≠?)的蘊(yùn)含式叫關(guān)聯(lián)規(guī)則。

        定義3在事務(wù)D中規(guī)則A?B成立,則把D中事務(wù)包含A∪B的百分比叫做支持度(有時(shí)也稱為相對(duì)支持度),記為s,即support(A?B)=P(A∪B)。

        定義4在事務(wù)D中規(guī)則A?B成立,則把D中事務(wù)包含A∩B(包含A的事務(wù)也同時(shí)包含B)的百分比叫做置信度,記為c,即confidence(A?B)=P(B|A)。

        定義5同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則成為強(qiáng)規(guī)則。

        定義6包含項(xiàng)集的事務(wù)數(shù)稱為項(xiàng)集的出現(xiàn)頻度,簡(jiǎn)稱為項(xiàng)集的頻度、支持度計(jì)數(shù)或計(jì)數(shù),該支持度是絕對(duì)支持度。

        定義7如果項(xiàng)集I的相對(duì)支持度滿足預(yù)定義的最小支持度閾值 (即I的絕對(duì)支持度滿足對(duì)應(yīng)的最小支持度計(jì)數(shù)閾值),則I是頻繁項(xiàng)集。頻繁k項(xiàng)集的集合記為L(zhǎng)k。

        定義8項(xiàng)集X是事務(wù)D中的頻繁項(xiàng)集,且不存在超項(xiàng)集Y使得X?Y且Y在D中也是頻繁的,則稱X是極大頻繁項(xiàng)集。

        2 頻繁項(xiàng)集挖掘的兩大經(jīng)典算法

        Apriori算法是在1994年由Agrawal和R.Srikant提出的一種為布爾關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)集原創(chuàng)性算法。它使用逐層搜索的迭代方法,其中k項(xiàng)集用于探索(k+1)項(xiàng)集,其算法思想是:第一遍掃描數(shù)據(jù)庫(kù),累計(jì)每個(gè)項(xiàng)的計(jì)數(shù),并收集滿足最小支持度的項(xiàng),得到頻繁1項(xiàng)集的集合,記為L(zhǎng)1,第二遍掃描數(shù)據(jù)庫(kù),通過(guò)L1找出頻繁2項(xiàng)集的集合L2,然后每一遍掃描數(shù)據(jù)庫(kù),都通過(guò)Lk-1找出LK,直到不能找到頻繁K項(xiàng)集。在通過(guò)Lk-1找出LK時(shí),根據(jù)先驗(yàn)性質(zhì)進(jìn)行剪枝。

        頻繁模式增長(zhǎng)(Frequent-Pattern Growth),稱為FP算法,該算法采用分治策略,發(fā)現(xiàn)頻繁模式而不產(chǎn)生候選。其算法思想是:先將代表頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一顆頻繁模式樹(shù)(FP-tree)中,該樹(shù)能保留項(xiàng)集的關(guān)聯(lián)信息。再把壓縮后的數(shù)據(jù)庫(kù)劃分成一組條件數(shù)據(jù)庫(kù),使每一個(gè)數(shù)據(jù)庫(kù)關(guān)聯(lián)一個(gè)頻繁項(xiàng)或者“模式段”,并分別挖掘每個(gè)條件數(shù)據(jù)庫(kù)。該算法分兩部分,第一部分是構(gòu)造FP樹(shù),先創(chuàng)建樹(shù)的根節(jié)點(diǎn),第二遍掃描數(shù)據(jù)庫(kù)D,對(duì)每個(gè)事務(wù)中的項(xiàng)按遞減支持度計(jì)數(shù)排序,為其創(chuàng)建一個(gè)分枝,如果當(dāng)前分枝與樹(shù)的已有分枝有共同路徑,則共享路徑前綴;第二部分是挖掘FP樹(shù),由長(zhǎng)度為1的頻繁模式(初始后綴模式)開(kāi)始,構(gòu)造它的條件模式基,然后構(gòu)造它的條件FP樹(shù),并遞歸地在該樹(shù)上進(jìn)行挖掘。

        兩大算法中Apriori算法的候選產(chǎn)生-檢查方法顯著壓縮了候選項(xiàng)集的規(guī)模,能產(chǎn)生很好的性能,卻仍可能需要產(chǎn)生大量的候選項(xiàng)集,過(guò)程中需要重復(fù)地掃描整個(gè)數(shù)據(jù)庫(kù),因此挖掘出全部的頻繁項(xiàng)集需要花費(fèi)較昂貴的代價(jià)。FP-growth算法將發(fā)現(xiàn)長(zhǎng)頻繁模式的問(wèn)題轉(zhuǎn)換成在較小的條件數(shù)據(jù)庫(kù)中遞歸地搜索一些較短模式,顯著地降低了搜索開(kāi)銷,但當(dāng)數(shù)據(jù)庫(kù)很大時(shí),構(gòu)造基于主存的FP樹(shù)有時(shí)是不現(xiàn)實(shí)的。

        3 基于FP樹(shù)的極大頻繁項(xiàng)集的挖掘方法

        我們看到,頻繁模式挖掘可能產(chǎn)生大量的頻繁項(xiàng)集,特別是當(dāng)最小支持度閾值設(shè)置較小或者數(shù)據(jù)集中存在長(zhǎng)模式時(shí)尤其如此。而實(shí)際中,有的時(shí)候只需要挖掘出極大頻繁模式的集合,而不是所有頻繁模式的集合。

        在一個(gè)新的頻繁項(xiàng)集導(dǎo)出之后,要對(duì)其進(jìn)行超集檢查和子集檢查,檢查新發(fā)現(xiàn)的項(xiàng)集是否是某個(gè)已經(jīng)發(fā)現(xiàn)的、極大項(xiàng)集的子集。這些檢查可以在構(gòu)建FP樹(shù)時(shí)完成。

        算法思路:(1)先掃描一遍數(shù)據(jù)庫(kù),導(dǎo)出頻繁1項(xiàng)集的集合,并按照它們的支持度計(jì)數(shù)降序排列;(2)構(gòu)建極大頻繁項(xiàng)集候選集列表,第二遍掃描數(shù)據(jù)庫(kù),構(gòu)造FP-tree,在對(duì)每個(gè)事務(wù)創(chuàng)建分支時(shí),若當(dāng)前事務(wù)的分支與已存在的事務(wù)分支完全重合,則說(shuō)明該事務(wù)是已發(fā)現(xiàn)的極大頻繁項(xiàng)集的子集,不應(yīng)被導(dǎo)出,否則存入候選集列表中。

        算法:基于FP樹(shù)的挖掘極大頻繁項(xiàng)集的算法輸入:DB:事務(wù)數(shù)據(jù)庫(kù);msup:最小支持度閾值輸出:極大頻繁項(xiàng)集的完全集M步驟構(gòu)造極大頻繁項(xiàng)集的FP樹(shù)

        ①掃描事務(wù)數(shù)據(jù)庫(kù)DB一次,導(dǎo)出滿足msup的頻繁項(xiàng)集合,保存它們的支持度計(jì)數(shù),并按支持度計(jì)數(shù)降序排列,得到頻繁項(xiàng)列表L,L中每項(xiàng)包括item-name、count;

        ②創(chuàng)建FP樹(shù)tree的根節(jié)點(diǎn) “null”。每個(gè)節(jié)點(diǎn)有parent,child,item-name,count屬性;

        ③創(chuàng)建極大頻繁項(xiàng)候選列表M,初始為空;

        ④CreatTree(){

        排序Ti中的項(xiàng),得到Ti的頻繁項(xiàng)列表為[p|P];//如果Ti在M表中沒(méi)有共享前綴,按照L的次序排列,反之按M中的順序排列;p是第一個(gè)項(xiàng)元素,P是剩余項(xiàng)元素

        If each p in Ti is in Mi;//如果當(dāng)前事務(wù)T所有項(xiàng)集已在M中出現(xiàn),那么此不是極大頻繁項(xiàng)集候選,刪除該事務(wù)集中的所有項(xiàng)

        4 算法應(yīng)用結(jié)果

        假設(shè)某商店的事務(wù)數(shù)據(jù)如下表,最小支持度閾值msup=2。

        表1 某商店的事務(wù)數(shù)據(jù)

        全局頻繁1項(xiàng)集組成的集合是L1={A,B,C,D,E},排序之后得到的L為{B:8,A:7,C:6,D:2,E:2},M={}。根據(jù)L構(gòu)建的頻繁樹(shù)如圖1所示,該樹(shù)并沒(méi)有將非頻繁的項(xiàng)集剪枝,極大項(xiàng)集完全集M構(gòu)建過(guò)程如表2所示。

        圖1 頻繁模式樹(shù)FP-tree

        表2 極大頻繁項(xiàng)集候選每趟讀取事務(wù)之后的結(jié)果

        5 結(jié)語(yǔ)

        該算法基于FP樹(shù),通過(guò)增加極大頻繁項(xiàng)集候選列表M,能夠準(zhǔn)確地從事務(wù)數(shù)據(jù)庫(kù)中挖掘出所有的最大頻繁項(xiàng)集,在每趟讀取事務(wù)項(xiàng)時(shí),如果已被候選表中的項(xiàng)集包含,則不需要再記錄該頻繁項(xiàng)集,從而節(jié)省了時(shí)間,而最后得到的候選表M就是極大頻繁項(xiàng)集的集合。因候選表M是存在于內(nèi)存中,故計(jì)算機(jī)內(nèi)存大小對(duì)該算法有一定限制,在事務(wù)數(shù)據(jù)量不大時(shí)效果較好,但在事務(wù)數(shù)據(jù)量龐大時(shí)該算法不太理想。

        [1]張德干,王曉曄.規(guī)則挖掘技術(shù)[M].北京:科學(xué)出版社,2008:2.

        [2]王黎明,趙輝.基于FP樹(shù)的全局最大頻繁項(xiàng)集挖掘算法[J].計(jì)算機(jī)研究與發(fā)展,2007:445-451.

        [3]何波.基于FP-tree的快速挖掘全局最大頻繁項(xiàng)集算法[J].計(jì)算機(jī)集成制造系統(tǒng),2011-07:1547-1552.

        [4]任永功,張亮,付玉.一種基于頻繁模式樹(shù)的最大頻繁項(xiàng)目集挖掘算法[J].小型微型計(jì)算機(jī)系統(tǒng),2010:317-321.

        [5]Jiangwen Han,Micheline Kamber,Jian Pei.Data Mining Concepts and Techniques Third Edition[M].北京:機(jī)械工業(yè)出版社,2012.7.

        [6]阮幼林,李慶華,楊世達(dá).一種基于事務(wù)樹(shù)的快速頻繁項(xiàng)集挖掘與更新算法[J].計(jì)算機(jī)科學(xué),2005:2-5.

        [7]崔海莉,袁兆山.一種快速發(fā)現(xiàn)最大頻繁項(xiàng)集的挖掘算法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2006:11-16.

        [8]張忠平,鄭為夷.基于事務(wù)樹(shù)的最大頻繁項(xiàng)集挖掘算法[J].計(jì)算機(jī)工程,2009:97-100.

        [9]宋晶晶,姜保慶,關(guān)麗霞.在單向FP-tree上挖掘最大頻繁項(xiàng)集[J].現(xiàn)代計(jì)算機(jī),2010:19-25.

        Maximal Frequent Itemsets;FP-tree;Association Rules

        Maximum Frequent Itemsets Mining Method Based on FP-tree SHI Qin-qin

        (College of Computer Science,Sichuan University,Chengdu 610065)

        1007-1423(2015)36-0007-04

        10.3969/j.issn.1007-1423.2015.36.002

        石芹芹(1990-),女,四川蓬溪人,碩士,碩士研究生,研究方向?yàn)閳D像處理與合成、數(shù)據(jù)挖掘

        2015-11-17

        2015-12-10

        提出一種基于FP樹(shù)的極大頻繁項(xiàng)集的挖掘算法,該算法在構(gòu)建FP樹(shù)的過(guò)程中,通過(guò)子項(xiàng)集剪枝的方法,將挖掘到的極大頻繁項(xiàng)集存儲(chǔ)起來(lái),從而節(jié)省再次挖掘FP樹(shù)的時(shí)間,較已有的算法在挖掘極大頻繁項(xiàng)集時(shí)簡(jiǎn)化挖掘過(guò)程。該算法的提出,為關(guān)聯(lián)規(guī)則的精簡(jiǎn)提供新的解決辦法。

        極大頻繁項(xiàng)集;FP樹(shù);關(guān)聯(lián)規(guī)則

        Proposes an algorithm for mining maximum frequent itemsets based on frequent pattern tree.The algorithm is an algorithm in the process of building FP-tree by pruning children-set and storing maximum frequent itemsets,thereby saves time mining again FP-tree than existing algorithms during mining Maximum frequent itemsets.It is a new algorithm to search association rules.

        猜你喜歡
        關(guān)聯(lián)定義規(guī)則
        撐竿跳規(guī)則的制定
        “苦”的關(guān)聯(lián)
        數(shù)獨(dú)的規(guī)則和演變
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對(duì)我國(guó)的啟示
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        修辭學(xué)的重大定義
        山的定義
        美女在线一区二区三区视频| 亚洲午夜无码AV不卡| 99re国产电影精品| 邻居少妇太爽在线观看| 精品国产午夜肉伦伦影院| 在线人成免费视频69国产| 2021国产最新在线视频一区| 亚洲午夜精品国产一区二区三区| 永久免费视频网站在线| 日本丰满熟妇videossex8k| 伊人网视频在线观看| 国产免费人成网站在线播放| 成人国产精品一区二区八戒网 | 小宝极品内射国产在线| 四虎成人精品无码永久在线| 日韩精品一区二区三区视频| 久久久精品久久久久久96| 中文字幕无码日韩专区免费| 国产亚洲第一精品| 亚洲av高清一区二区| 俺去啦最新地址| 欧美午夜精品久久久久久浪潮| 国产丰满乱子伦无码专| 久久精品久99精品免费| 久热国产vs视频在线观看| 亚洲人成综合网站在线| 一本大道综合久久丝袜精品| 亚洲中文字幕av天堂自拍| 国产乱色精品成人免费视频| 国产精品久久久一本精品| 日本师生三片在线观看| 国产午夜毛片v一区二区三区| 福利一区视频| 亚洲码无人客一区二区三区| 免费观看a级毛片| 在线永久看片免费的视频| 亚洲av综合色区久久精品天堂 | 亚洲а∨天堂久久精品2021| 免费国产一级片内射老| 中文字幕一区二区黄色| 久久久久久无码av成人影院|