亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分類修剪的關聯(lián)分類算法改進①

        2019-04-29 08:59:06秦晨普張云華
        計算機系統(tǒng)應用 2019年4期
        關鍵詞:剪枝項集子集

        秦晨普,張云華

        (浙江理工大學 信息學院,杭州 310018)

        1998 年,新加坡國立大學的Liu Bing 教授提出了一種將關聯(lián)規(guī)則挖掘和分類技術結合在一起的分類算法——關聯(lián)分類算法(Classification-Based Association,CBA)[1],因其較好的結合了關聯(lián)規(guī)則挖掘和傳統(tǒng)分類算法的優(yōu)點,受到了研究者的廣泛關注.實踐證明,關聯(lián)分類算法相較于決策樹、樸素貝葉斯、SVM 支持向量機等傳統(tǒng)的分類算法具有更優(yōu)的分類性能且分類模型更易理解.另一方面,關聯(lián)分類算法是基于傳統(tǒng)Apriori 算法挖掘事務項之間的關聯(lián)來產(chǎn)生分類規(guī)則,也因此也不可避免的繼承了關聯(lián)規(guī)則挖掘算法需要多次掃描數(shù)據(jù)庫、I/O 負載較大的缺點,算法效率不是很理想.之后的研究者又先后提出了關聯(lián)決策樹(Association based Decision Tree,ADT)方法[2]、基于多關聯(lián)規(guī)則的分類算法(Classification based on Mutiple Association Rules,CMAR)[3]、等,雖說在算法性能的提升上取得了一定的成果,但也或多或少的存在著算法魯棒性差、冗余節(jié)點多的問題.

        在現(xiàn)有CBA 關聯(lián)分類算法的基礎上,本文提出了一種基于分類修剪的關聯(lián)分類算法改進方案ACCP,在分類關聯(lián)規(guī)則的挖掘過程中基于分類標識對事務數(shù)據(jù)集進行分類修剪,并加入了基于最大頻繁項集的事先剪枝,避免了無法生成規(guī)則的無效連接操作,有效提高了規(guī)則挖掘效率.同時,借鑒已有的研究成果在構造分類器的過程中利用改進后的數(shù)據(jù)覆蓋法對分類規(guī)則進行修剪,提高分類準確率.

        1 概念描述

        關聯(lián)分類實質上就是基于關聯(lián)規(guī)則挖掘的分類技術,它既反映了知識的應用特點——分類或預測,又體現(xiàn)了知識內在的關聯(lián)特性[4].設D是一個包含著n條記錄的事務數(shù)據(jù)集,I={i1,i2,i3,···,im}是全體事務項的集合,I的子集一般稱為項集,根據(jù)子集中事務項的個數(shù)依次可稱為1-項集,2-項集,…,k-項集.數(shù)據(jù)庫中每條事務記錄ti(i=1,2,3,···,n)均對應著I的一個子集,且具有唯一標識符TID.║D║表示數(shù)據(jù)集D中包含的事務數(shù)量.

        定義1.項集X的支持度:數(shù)據(jù)集中包含項集X 的事務出現(xiàn)的頻率,記為

        其中,| {T|X?T,T?D}|代表的是事務數(shù)據(jù)集D中包含項集X的事務總數(shù),即項集的支持數(shù).

        定義2.頻繁項集:若項集的支持度超過或等于人為設定的最小支持度閾值minSupp,則稱此項集為頻繁項集.

        定義3.最大頻繁項集:如果一個頻繁項集的任一直接超集都是非頻繁項集,那么就稱這個頻繁項集為最大頻繁項集.

        定義4.規(guī)則置信度:假設數(shù)據(jù)集中關聯(lián)規(guī)則X?Y成立,則其置信度是指包含項集X的事務同時包含項集Y的概率,其表述的是規(guī)則的可靠性,表達式為:

        定理1.項目集空間理論:頻繁項集的子集仍是頻繁項集,非頻繁項集的超集是非頻繁項集[5].

        2 基于分類修剪的關聯(lián)分類模型ACCP

        2.1 基于分類標識的規(guī)則挖掘

        之前的研究人員所運用的基于分類標識的規(guī)則后項約束,大多先由頻繁k-1 項集的集合Lk-1自連接生成候選k項集的集合Ck,再對包含分類標識的候選k項集進行基于最小支持度閾值minSupp的剪枝操作.實際上,當頻繁k-1 項集I1作為規(guī)則前項只出現(xiàn)在分類標識為Ci的事務中時,那么對分類標識不等于Ci的候選k項集{I1,Ci+1}進行支持度計數(shù)就顯得沒有必要,本文基于此思想對分類關聯(lián)規(guī)則的挖掘過程進行了改進.

        將事務數(shù)據(jù)集D根據(jù)分類屬性值的不同,劃分為多個事務子集{D1,D2,D3,…,Dn},其中n為分類屬性值的個數(shù),每個事務子集中挖掘得到的規(guī)則項集具有統(tǒng)一的分類標識.對每個子集進行單獨的分類關聯(lián)規(guī)則挖掘,在分類標識為Ci的事務子集中,項集{Ii}的支持數(shù)和事務總集中包含分類標識Ci的規(guī)則項集{Ii,Ci}支持數(shù)一致,只要根據(jù)項集Ii的支持數(shù)進行連接剪枝即可,從而大幅的降低了每次掃描數(shù)據(jù)庫時的數(shù)據(jù)維度,避免了無法生成規(guī)則的項集的產(chǎn)生,減少了候選項集的數(shù)量.

        2.2 基于最大頻繁項集的事先剪枝

        原始的關聯(lián)規(guī)則挖掘過程有兩次剪枝操作,第一次是在Lk-1自連接之后,根據(jù)Apriori 算法性質(項目集空間理論)剪除非頻繁項集,第二次是由候選項集Ck生成Lk時,通過計算項集支持度剪除非頻繁項集.本文將在此基礎上加入一次基于最大頻繁項集的事先剪枝,即在自連接之前利用項目集空間理論,提前判斷出頻繁k-1 項集的集合Lk-1中的某些最大頻繁項集,將其進行剪除,從而省去了它們的連接操作,進一步減少了候選項集數(shù),提高了分類關聯(lián)規(guī)則的挖掘效率.

        根據(jù)項目集空間理論,頻繁k-項集的所有子集均為頻繁項集.由此可得,每個頻繁k-項集可抽取出k個頻繁k-1 項子集,則包含這k個頻繁k-1 項集的集合Lk-1當中每個事務項出現(xiàn)的次數(shù)必然大于等于k-1.下面用一個簡單的例子說明這個原理.

        已知4-項集{a,b,c,d}為頻繁項集,其有4 個頻繁3-項子集,分別為{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d},則包含項集{a,b,c}、{a,b,d}、{a,c,d}、{b,c,d}的集合L3中,事務項a、b、c、d 出現(xiàn)的次數(shù)都至少為3.反之,若a、b、c、d 任意一個事務項在L3中出現(xiàn)次數(shù)小于3,則4 個3-項集中至少有一個不包含于L3即不是頻繁項集,由此可得{a,b,c,d}亦不是頻繁項集.推而廣之,不難得出:

        定理2.頻繁k-1 項集中存在事務項在集合Lk-1中出現(xiàn)次數(shù)小于k-1 次是此頻繁項集為最大頻繁項集的充分條件.

        對最大頻繁項集事先剪枝的具體實現(xiàn)步驟如下:

        (1)計算頻繁k-1 項集的集合Lk-1中每個事務項出現(xiàn)的次數(shù),用Lk-1(p)表示;

        (2)記錄下出現(xiàn)次數(shù)小于k-1 的事務項,記作P={p||Lk-1(p)|<k-1};

        (3)將Lk-1中包含有P中任一元素的頻繁項集刪除,記為Lk-1';

        (4)Lk-1'自連接,生成候選k-項集的集合Ck.

        2.3 實例分析

        我們以表1所示的事務數(shù)據(jù)集為例,簡單闡述一下改進后的關聯(lián)分類算法的分類關聯(lián)規(guī)則挖掘過程.

        表1 數(shù)據(jù)庫示例

        由表1可得,事務數(shù)據(jù)集D有兩個類別屬性值A1,A2,可將事務數(shù)據(jù)集分為表2,表3所示的事務子集D1,D2.

        表2 分類得到的事務子集D1

        表3 分類得到的事務子集D2

        Ck表示候選k-項集的集合,Lk表示頻繁k-項集的集合,Ri表示事務子集Di中挖掘出的分類規(guī)則集,假定最小支持數(shù)minSupp為2,首先對事務子集D1進行規(guī)則挖掘.如圖1所示,第一次掃描事務子集D1后得到候選1-項集的集合C1及其中各項集所對應的支持數(shù),將C1中支持數(shù)小于最小支持數(shù)minSupp的項集剪除便得到頻繁1-項集的集合L1,圖1左上表便是C1到L1的剪枝過程,其中邊框為虛線的項集即為被剪枝的非頻繁項集.將L1自連接可得到候選2-項集的集合C2,基于最小支持數(shù)minSupp剪枝后得到頻繁2-項集的集合L2= {{a,b},{a,c},{b,c},{b,d}}.

        圖1 分類關聯(lián)規(guī)則挖掘過程示例

        接著對集合L2進行遍歷,記錄L2中每個事務項出現(xiàn)的次數(shù).不難發(fā)現(xiàn),事務項a 同時包含于頻繁2-項集{a,b}、{a,c},即事務項a 在L2中出現(xiàn)了2 次,同理可得事務項b 出現(xiàn)3 次,事務項c 出現(xiàn)2 次,事務項d 只出現(xiàn)了1 次.由于屬性項目d 出現(xiàn)的次數(shù)小于L2中項集的項數(shù),由定理2 可得L2中所有包含項目d 的項集均為最大頻繁項集,將其剪除后即得到最終的L2'.由L2'自連接可得到候選3-項集C3={{a,b,c}}并最終確定L3={{a,b,c}},因其無法再進行自連接,頻繁項集挖掘結束.將最終生成的集合L中所有頻繁項集加入分類標識A1便得到分類關聯(lián)規(guī)則集R1,循環(huán)挖掘所有事務子集并將最后得到的分類規(guī)則集合并便得到整個數(shù)據(jù)庫的分類關聯(lián)規(guī)則集R.

        2.4 規(guī)則修剪

        由于分類關聯(lián)規(guī)則挖掘所得到的規(guī)則數(shù)量巨大,在構造分類器時會占用大量內存空間,并且會對分類準確率產(chǎn)生不利影響,本文基于改進后的數(shù)據(jù)庫覆蓋方法對規(guī)則集進行規(guī)則修剪.

        首先基于置信度、支持度從大到小以及規(guī)則項集維度從小到大的方式對分類規(guī)則進行優(yōu)先級排序.從優(yōu)先級最高的規(guī)則依次進行考察,遍歷事務數(shù)據(jù)集記錄下正確分類的比例并將此規(guī)則所能覆蓋的所有事務樣本刪除,直到?jīng)]有剩余樣本或已考察完所有規(guī)則.最后刪除分類性能較差的規(guī)則并多次執(zhí)行以上步驟不斷提高規(guī)則集的分類準確率[6].規(guī)則修剪的算法一般性描述如下:

        3 實驗與結果分析

        3.1 實驗環(huán)境

        本次實驗的實驗環(huán)境如下:Intel(R)Core(TM)i5-2450M CPU @2.50 GHz 處理器;8 G 內存;120 G SSD 固態(tài)硬盤;Windows 10 專業(yè)版操作系統(tǒng).實驗選取了UCI 標準數(shù)據(jù)庫中的5 個常用數(shù)據(jù)集Pima Indians Diabetes、Lymphography、Wine、Car Evaluation、Iris[7]分別涵蓋醫(yī)療衛(wèi)生、食品檢測、汽車評估、生物研究等領域,每個數(shù)據(jù)集的相關數(shù)據(jù)信息如表4所示.本實驗算法程序使用Java 語言實現(xiàn).

        表4 實驗所用數(shù)據(jù)集相關信息統(tǒng)計

        3.2 實驗結果分析

        本實驗使用了10 折交叉驗證方法來避免過度擬合,從每個數(shù)據(jù)集中隨機選取80%的樣本作為訓練數(shù)據(jù)集,其余20%作為測試數(shù)據(jù)集測試算法的分類性能.針對數(shù)據(jù)集中存在的數(shù)據(jù)缺失,根據(jù)缺失的屬性值是離散還是連續(xù),分別采用眾數(shù)原理將其設定為該屬性在數(shù)據(jù)集中出現(xiàn)次數(shù)最多的取值,或是設定為數(shù)據(jù)集中該屬性其他非缺失值的平均數(shù).本文選取了現(xiàn)有的CBA 算法以及傳統(tǒng)分類算法中的C4.5 決策樹算法進行對照試驗,實驗中最小支持度minSupp和最小置信度minConf分別設定為2%和60%,結果如表5所示.

        本文采用正確分類的樣本數(shù)占測試樣本總數(shù)的比例即分類準確率來衡量分類器模型的優(yōu)劣.從表5中可以看出,關聯(lián)分類算法的準確率整體高于傳統(tǒng)的C4.5 決策樹算法.在部分數(shù)據(jù)集上CBA 算法的分類準確率等于或略小于C4.5 算法,而改進后的關聯(lián)分類算法ACCP 則在全部數(shù)據(jù)集上都明顯優(yōu)于C4.5 和CBA,平均分類準確率分別提高了5.29 和3.37 個百分點.與此同時,基于分類修剪并加入了預先剪枝的ACCP 算法在實驗所采用的所有數(shù)據(jù)集上的運行時間均較CBA 算法有所降低,在數(shù)據(jù)集屬性較多、事務數(shù)較大更為明顯.實驗結果證明,ACCP 算法取得來了良好的應用效果.

        表5 實驗結果對比

        4 結語

        本文提出了一種基于分類修剪的新關聯(lián)分類算法ACCP,通過將事務數(shù)據(jù)集根據(jù)分類標識分塊挖掘,極大地節(jié)省了內存空間,提高了挖掘效率,同時在分類器構造過程中加大規(guī)則修剪力度,剪除了規(guī)則集中分類性能較差的冗余規(guī)則,進一步優(yōu)化了分類模型.實驗證明,本文提出的方法相比傳統(tǒng)的C4.5 決策樹和CBA分類模型具有更優(yōu)的分類性能.

        基于關聯(lián)規(guī)則產(chǎn)生分類器的過程并不有助于人們對分類模型的理解,反而會影響分類器的性能.因此,如何有效減少構建分類器時所使用到的規(guī)則數(shù)量,提高單個規(guī)則的適用性,是接下來要研究解決的問題.

        1 Liu B,Hsu W,Ma YM.Integrating classification and association rule mining.Proceedings of the 4th InternationalConference on Knowledge Discovery and Data Mining.New York,NY,USA.1998.80-86.

        猜你喜歡
        剪枝項集子集
        由一道有關集合的子集個數(shù)題引發(fā)的思考
        人到晚年宜“剪枝”
        拓撲空間中緊致子集的性質研究
        基于YOLOv4-Tiny模型剪枝算法
        關于奇數(shù)階二元子集的分離序列
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        關聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種面向不平衡數(shù)據(jù)分類的組合剪枝方法
        計算機工程(2014年6期)2014-02-28 01:26:33
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        99精品又硬又爽又粗少妇毛片| 人妻丰满熟妇av无码处处不卡| 水蜜桃久久| 国产一区二区三区亚洲天堂 | 国产自拍偷拍视频免费在线观看 | 人妻无码αv中文字幕久久琪琪布| 国产亚洲欧美日韩综合一区在线观看| 一二三四中文字幕日韩乱码| 久久精品国产亚洲av久按摩 | 久久综合久久鬼色| 精品国产亚欧无码久久久| 亚洲av高清一区三区三区| 久久精品国产免费观看三人同眠 | 猫咪www免费人成网最新网站| 久久久9色精品国产一区二区三区 国产三级黄色片子看曰逼大片 | 欧美韩日亚洲影视在线视频| 午夜男女视频一区二区三区| 久久精品国产色蜜蜜麻豆国语版 | 成熟丰满熟妇高潮xxxxx| 国产亚洲精品综合在线网址| av在线入口一区二区| 成人午夜福利视频后入| 免费现黄频在线观看国产| 一区二区三区婷婷中文字幕| 日韩av一区二区观看| 岳好紧好湿夹太紧了好爽矜持| 性导航app精品视频| 漂亮人妻被强中文字幕乱码| 久久精品第九区免费观看| 国产成人综合色在线观看网站| 亚洲公开免费在线视频| 男人天堂插插综合搜索| 97人妻人人做人碰人人爽| 日韩精品无码区免费专区| 亚洲av第一区综合激情久久久 | 91华人在线| 蜜桃网站入口可看18禁| 国产精品爽爽久久久久久竹菊| 国产成人精品日本亚洲18| 亚洲一区二区视频蜜桃| 26uuu在线亚洲欧美|