亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)下一種規(guī)則的快速挖掘技術(shù)研究

        2018-04-29 00:00:00周致丞
        河南科技 2018年25期

        摘 要:近年來,數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用到各個領(lǐng)域。數(shù)據(jù)挖掘通常會產(chǎn)生大量規(guī)則,產(chǎn)生的關(guān)聯(lián)規(guī)則大多數(shù)是冗余的,導(dǎo)致用戶難以分析并利用這些數(shù)據(jù)。本文致力于在大數(shù)據(jù)下對大量的冗余規(guī)則進行修剪,提出一種修剪算法的改進算法,并通過試驗證明了該方法的有效性。

        關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;冗余

        中圖分類號:TP311 文獻標識碼:A 文章編號:1003-5168(2018)25-0037-02

        1 研究背景

        隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)逐漸滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。面對當(dāng)前海量數(shù)據(jù),如何準確有效地挖掘數(shù)據(jù)已經(jīng)成為行業(yè)未來發(fā)展的趨勢。關(guān)聯(lián)規(guī)則的挖掘研究一直是數(shù)據(jù)挖掘領(lǐng)域的一個熱門研究課題,現(xiàn)在已經(jīng)被廣泛地應(yīng)用到各個領(lǐng)域。近年來,國內(nèi)外研究主要集中在關(guān)聯(lián)規(guī)則冗余修剪以減少關(guān)聯(lián)規(guī)則的數(shù)量,減少不必要的挖掘。由此,本文致力于修剪冗余的關(guān)聯(lián)規(guī)則,提高挖掘質(zhì)量,并提出一種關(guān)聯(lián)規(guī)則的修剪方法。首先,根據(jù)規(guī)則與數(shù)據(jù)的匹配度進行修剪,并計算數(shù)據(jù)與規(guī)則的平均匹配度,如果小于閾值,則修改規(guī)則,再根據(jù)機器學(xué)習(xí)中的相似性度量方法,在剩余的規(guī)則中選擇興趣度最優(yōu)的數(shù)量關(guān)聯(lián)規(guī)則,最后獲得除去冗余規(guī)則后的關(guān)聯(lián)規(guī)則。

        本文所采用的方法最大限度地縮短了修剪所需要的處理時間,生成了一個準確的最小關(guān)聯(lián)規(guī)則集,并能與傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘方法保持相同的準確度,這使得冗余規(guī)則的修剪易于理解,可讀性強。

        2 關(guān)聯(lián)規(guī)則的基本概念

        關(guān)聯(lián)規(guī)則的定義[1]是這樣描述的:設(shè)[I=i1,i2,…,im]是由m個不同屬性(項目)組成的集合,[ikk=1,2,…,m]稱為項。事務(wù)數(shù)據(jù)庫D是事務(wù)T的集合,其事務(wù)數(shù)記作[D],其中T是項的集合,并且[T?I]。對應(yīng)每一個事務(wù)有唯一的標識,記作TID。關(guān)聯(lián)規(guī)則是形如[X?Y]的蘊涵式,其中X包含于I,Y包含于I,并且[X∩Y=?]。傳統(tǒng)的Apriori算法中規(guī)則生成方法非常簡單,但計算復(fù)雜,規(guī)則之間存在大量的冗余。尤其是當(dāng)項集包含的項目比較多時,所生成的冗余規(guī)則成指數(shù)增長,并且不能保證規(guī)則的有效性。關(guān)聯(lián)規(guī)則有兩個度量標準:支持度(support)和置信度(confidence)。設(shè)有關(guān)聯(lián)規(guī)則[X?Y],則關(guān)聯(lián)規(guī)則的支持度的定義為:[supportX?Y=supportX?Y]。關(guān)聯(lián)規(guī)則的置信度定義為:[confidenceX?Y=support][X?Y/supportX=PY|X]。支持度[supportX?Y]是指在交易數(shù)據(jù)庫中同時包含X和Y的交易數(shù)占所有交易數(shù)的百分比。置信度[confidenceX?Y]是指同時包含X和Y的交易數(shù)與包含X的交易數(shù)之比。關(guān)聯(lián)規(guī)則的支持度反映了該規(guī)則所發(fā)生的頻度,關(guān)聯(lián)規(guī)則的置信度則表明了整體規(guī)則的準確程度。通常來說,只有支持度和置信度同時達到較高的關(guān)聯(lián)規(guī)則才可能是用戶感興趣、有用的關(guān)聯(lián)規(guī)則。

        在關(guān)聯(lián)規(guī)則的挖掘中可能會產(chǎn)生各種各樣的規(guī)則,很多規(guī)則是毫不相關(guān)的。在現(xiàn)階段的研究中,部分研究方向是運用閉合項集。所謂閉合項集,就是指一個項集的直接超集的支持度計數(shù),不等于其本身的支持度計數(shù)[2]。如果閉項集同時也是頻繁的,得出支持度大于等于最小支持度閾值,則稱為閉頻繁項集。關(guān)聯(lián)規(guī)則的聚類也被用作挖掘規(guī)則,但還缺少理論的支持。修改后的Apriori[3]方法使大集合縮減為最優(yōu)規(guī)則集。還有一種方法是運用多種挖掘軟件的可視化技術(shù)。這種方法雖然可以提供一種數(shù)據(jù)樣式,但依然很難發(fā)現(xiàn)規(guī)則與規(guī)則之間的細節(jié)相關(guān)關(guān)系。從現(xiàn)在數(shù)據(jù)分析者的需求來看,這些改進的方法都是非常有限的。

        3 算法分析與試驗

        傳統(tǒng)的關(guān)聯(lián)規(guī)則處理方法具有顯而易見的缺點,容易過分忽略或者強調(diào)部分規(guī)則。本文通過對關(guān)聯(lián)規(guī)則的平均匹配程度進行修剪,再根據(jù)機器學(xué)習(xí)中的相似性度量方法進行評估。改進的方法消除了關(guān)聯(lián)規(guī)則之間大量的相似規(guī)則,同時防止規(guī)則在得到的最終結(jié)果中丟失。在簡化過程中,最后生成復(fù)雜度最高的關(guān)聯(lián)規(guī)則和一些比較重要的關(guān)聯(lián)規(guī)則。雖然可能在最小支持度閾值下生成大量的規(guī)則,但可以使用所提出的修剪方法找到最佳頻繁項集。所提出的方法不僅可以從大量毫無關(guān)聯(lián)的關(guān)聯(lián)規(guī)則中減少關(guān)聯(lián)規(guī)則的數(shù)量,還可以得出和其他傳統(tǒng)方法相同或更好的準確度。

        試驗的數(shù)據(jù)使用的是UCI Machine Learning Repository提供的數(shù)據(jù)庫。為了使試驗數(shù)值更加可視化,本文對數(shù)據(jù)進行了處理,本文中關(guān)聯(lián)規(guī)則的屬性為連續(xù)值屬性。為了明確地評估算法,在試驗過程中劃分的范圍比實際分布的情況更寬一些。圖1是原算法和改進后算法的規(guī)則數(shù)對比圖。從圖1可看出,與經(jīng)典的Apriori算法相比,本文的修剪方法大幅度減少了候選項集和頻繁項集的數(shù)量,當(dāng)大規(guī)模使用修剪的關(guān)聯(lián)規(guī)則項集時,剩余的關(guān)聯(lián)規(guī)則的數(shù)量會大量減少。同時,改進后的方法使關(guān)聯(lián)規(guī)則的結(jié)構(gòu)變得更加簡單。當(dāng)遇到大規(guī)模的數(shù)據(jù)挖掘時,產(chǎn)生的規(guī)則數(shù)量非常巨大。本文改進的算法在實際的數(shù)據(jù)挖掘過程中實踐優(yōu)于以往的傳統(tǒng)算法。通過本文的方法可以看出,使用減少以至于規(guī)避冗余規(guī)則的提取,大大提高了數(shù)據(jù)挖掘的計算效率。圖2是原算法和改進后算法的運行時間對比圖。從圖2可以看出,算法改進之后,挖掘關(guān)聯(lián)規(guī)則所使用時間更少。尤其是在使用部分匹配時,在處理時間方面優(yōu)于之前的傳統(tǒng)的Apriori算法。試驗結(jié)果表明,與傳統(tǒng)方法相比,該方法的分類精度更高,所用時間更短。

        4 結(jié)語

        在本文中,筆者提出了一種冗余規(guī)則的改進方法。該方法利用修剪關(guān)聯(lián)規(guī)則的冗余來提高計算效率,并消除關(guān)聯(lián)規(guī)則的冗余規(guī)則。試驗結(jié)果表明,該方法有效減少了計算時間,減少了關(guān)聯(lián)規(guī)則的冗余規(guī)則。通過該方法與其他加速方法相結(jié)合,可以實現(xiàn)更高效的挖掘。

        參考文獻:

        [1] Agrawal R,Srikant R. Fast Algorithms for Mining Association Rules in Large Databases[C]// International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc,1994.

        [2] Srikant R, Vu Q, Agrawal R. Mining Association Rules with Item Constraints[C]// International Conference on Knowledge Discovery and Data Mining. AAAI Press,1997.

        [3] Aggarwal C C, Yu P S. Online Generation of Association Rules[J]. Knowledge amp; Data Engineering IEEE Transactions on, 2001(4):527-540.

        av无码天堂一区二区三区| 在线亚洲日本一区二区| 国产精品蝌蚪九色av综合网| 亚洲中文字幕无码一久久区| 7878成人国产在线观看| 国产精品国产三级国产在线观| 高清中文字幕一区二区三区| а√天堂8资源中文在线| 久久精品亚洲中文字幕无码网站| 亚洲综合网站精品一区二区| 美女射精视频在线观看| 真人做爰试看120秒| 国产精品va无码一区二区| 国产伦精品一区二区三区四区| 日韩精品免费观看在线| 中文区中文字幕免费看| 亚洲精品无码久久久久| 国产精品久久婷婷婷婷| 懂色av一区二区三区网久久| 国产激情无码视频在线播放性色| 理论片87福利理论电影| 尤物AV无码色AV无码麻豆| 亚洲不卡av一区二区三区四区 | 国产黄色一区二区福利| 亚洲久悠悠色悠在线播放| 国产裸拍裸体视频在线观看| 极品美女高潮喷白浆视频| 色婷婷一区二区三区四| 手机在线看片| 人与嘼交av免费| 综合图区亚洲另类偷窥| 中文字幕乱码日本亚洲一区二区| 亚洲人成色7777在线观看不卡| 国产人成无码中文字幕| 日本黄色高清视频久久| 久久久久久人妻无码| 亚洲精品国产第一区二区尤物| 久久久调教亚洲| 亚洲男人av天堂久久资源| 成人免费一区二区三区| 青春草在线视频精品|