亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究

        2014-04-17 09:12:21韋麗紅
        佳木斯職業(yè)學院學報 2014年1期
        關鍵詞:數(shù)據(jù)挖掘關聯(lián)規(guī)則

        韋麗紅 陳 松

        (呼倫貝爾學院計算機科學與技術學院 內(nèi)蒙古海拉爾 021008;

        呼倫貝爾市人力資源和社會保障局 內(nèi)蒙古海拉爾 021008)

        數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究

        韋麗紅 陳 松

        (呼倫貝爾學院計算機科學與技術學院 內(nèi)蒙古海拉爾 021008;

        呼倫貝爾市人力資源和社會保障局 內(nèi)蒙古海拉爾 021008)

        探討數(shù)據(jù)挖掘在現(xiàn)今關聯(lián)規(guī)則算法中的使用情況,提出目前研究關聯(lián)規(guī)則的研究現(xiàn)狀,針對現(xiàn)狀,總結出一種新的研究分析關聯(lián)方法,指出關聯(lián)規(guī)則算法在今后的出路以及進一步的研究方向。利用分析文獻查詢和比較分析方法,闡述各種方法對典型關聯(lián)的影響,其中作為一個為基點是以核心Apriori的算法。結論是Apriori算法仍然有一些不能消除的缺點,這有待進一步研究,同時指出今后的研究方向需要提高大量數(shù)據(jù)的運算效率,并且能夠與OLAP相互結合生產(chǎn)結果的可視化。

        Apriori算法;研究;DM;技術

        數(shù)據(jù)挖掘(DM)是在大量未知的、無規(guī)則的、偶然的現(xiàn)實數(shù)據(jù)當中提煉出隱含的關聯(lián)信息或知識,這就是關聯(lián)規(guī)則挖掘。關聯(lián)規(guī)則挖掘是在20世紀90年代提出來的[1],這個問題提出了以后,很多研究人員和科學家對關聯(lián)規(guī)則問題進行了深入的研究,從不同思考問題的角度提出了數(shù)十種關聯(lián)規(guī)則挖掘算法,Apriori是最著名的關聯(lián)規(guī)則算法,這個是由一個非常著名的美國統(tǒng)計學家提出的,Apriori算法影響了之后很多算法的建立。在很多科學家和研究人員的繼承和發(fā)揚這個關聯(lián)規(guī)則算法之后,現(xiàn)今的關聯(lián)規(guī)則算法逐漸完善了以前的缺陷。

        一、關聯(lián)規(guī)則的種類

        1.按照需要的數(shù)據(jù)變量進行處理分類,關聯(lián)規(guī)則分為布爾型和數(shù)值型。布爾型[2]顯示數(shù)據(jù)變量之間的關系,它無法處理關聯(lián)規(guī)則中的連續(xù)的變量;而可以結合多維關聯(lián)的是數(shù)值型的關聯(lián)規(guī)則(或者多層關聯(lián)),然后對數(shù)值型的數(shù)據(jù)進行處理,然后進行動態(tài)分析。

        2.按照關聯(lián)規(guī)則中的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。現(xiàn)實數(shù)據(jù)中單層關聯(lián)規(guī)則對所有的變量都不考慮這些單層因素;而多層關聯(lián)規(guī)則是會考慮現(xiàn)實數(shù)據(jù)中的多層因素,并且對多層進行了充分的考慮。

        3.按照規(guī)則中涉及多的數(shù)據(jù)維數(shù),可以分為單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則。如果數(shù)據(jù)只設計到一個維數(shù),那就屬于單維關聯(lián)規(guī)則,反之則屬于多維關聯(lián)規(guī)則。在單維關聯(lián)規(guī)則中,我們只處理單個屬性,關系明了簡單。在多維關聯(lián)規(guī)則中則需要處理不同屬性之間的某些聯(lián)系,處理的關系較復雜。

        二、關聯(lián)規(guī)則中經(jīng)典頻集方法的算法

        在20世紀90年代,挖掘交易數(shù)據(jù)中集間的關聯(lián)規(guī)則問題是由一位非常著名的明國科學家首選提出的[3],頻集理論的方法是當時的核心推算方法,之后所有研究數(shù)據(jù)挖掘方面的研究人員和科學家都在頻集理論的方法上進一步優(yōu)化。隨著時代變遷,隨機采樣、并行等理論引進頻集理論,然后對關聯(lián)規(guī)則的應用進一步推廣。

        經(jīng)典頻集方法的核心算法分為兩步:尋找頻集的規(guī)則屬于第一步,第二步的步驟如下。如一個給定的已知頻集X=T1T2…Tn,n≥2,只有集合{T1T2…Tn}中的項的所有規(guī)則(最多n條)就產(chǎn)生了,其中每一條規(guī)則的右部只有一項。為了使所有的頻集能夠產(chǎn)生,接下來就使用遞推的運算方法進行計算。

        在經(jīng)典頻集方法中仍然有很多不足,所以后來的研究人員在經(jīng)典頻集的基礎上進行了優(yōu)化,優(yōu)化是多方面的,主要在以下幾個方面進行,如基于棧變換的算法;基于劃分的方法;減少冗余規(guī)則的算法;基于采樣的方法;基于Hash的方法等。在進行一系列的優(yōu)化之后,經(jīng)典頻集方法得到完善和推廣應用。

        三、衡量關聯(lián)規(guī)則價值的方法

        1.系統(tǒng)方面。“支持度-可信度”的結構能夠適用于很多算法,但是這種框架有時候會產(chǎn)生錯誤的信息。比如某些結果雖然更精確,但是支持度和可信度都較低。如果我們設置支持度和可信度的時候程度較低,這樣就可能得到兩個相互矛盾的結果。但是如果設置的過高,我們就無法得到準確的關聯(lián)規(guī)則,不利于結果分析。所以,僅僅通過“支持度-可信度”這個準則來判斷是不夠準確的。從很多記錄看出,支持度是很多用戶信任的重要因素,如果把支持度設置足夠低,不會丟失任一有意義的結果,但是計算效率可能不是很高,從用戶觀點上,這是可行的規(guī)則。

        2.用戶方面。一項規(guī)則有沒有用,很重要一點是否取得用戶的信任,用戶的體驗感受是很重要的。當用戶覺得有效和可行,這個規(guī)則才可以繼續(xù)存在和發(fā)展。所以在現(xiàn)實中,我們不僅考慮系統(tǒng)運算的結果,同時也要結合用戶的需求。

        四、討論

        關聯(lián)規(guī)則的各種方法在數(shù)據(jù)挖掘的運用上已經(jīng)逐漸成熟,如今很多大型IT公司或者金融公司的很多大型項目已經(jīng)運用了關聯(lián)規(guī)則中的某些研究成果,關聯(lián)規(guī)則算法的應用前景可以說是非常的廣泛。綜上所述,在關聯(lián)規(guī)則方面的數(shù)據(jù)挖掘,今后幾年可以在關聯(lián)規(guī)則相結合的問題、提高處理大量數(shù)據(jù)效率問題以及結果可視化方面進行研究和突破。

        [1]李銘.關聯(lián)規(guī)則的多支持度挖掘在銷售數(shù)據(jù)中的應用[J].計算機工程,2012,29(8):92-93.

        [2]李哲,楊兆中,龐炳章.大型數(shù)據(jù)庫中關聯(lián)規(guī)則的向量法挖掘[J].計算機工程,2010,32(5):47-49.

        [3]惠曉濱,張鳳鳴,虞健飛.一種基于棧變換的高效關聯(lián)規(guī)則算法[J].計算機研究與發(fā)展,2011,40(2):30-35.

        Data mining techniques and algorithms for mining association rules

        Wei Li-hong, Chen Song

        (Computer Science and Technology Institute, Hulunbeier University, Hailar Inner Mongolia, 021008, China;
        Hulunbeier Human Resources and Social Security Bureau, Hailar Inner Mongolia,021008, China)

        To explore the data used in the algorithm of association rules mining, proposes the research status, sums up a new research association analysis method according to the present situation, points out the algorithm of association rules in the future and further work. Using the analysis of literature search and comparative analysis method, to discuss the influence of various methods of typical connection, which serves as a basis for the Apriori algorithm. Conclusion still has some cannot eliminate the disadvantages of Apriori algorithm, which need further research, and points out the direction of future research to improve the computation efficiency of large amounts of data, can produce the visualization of results combined with OLAP.

        Apriori algorithm; research; DM; technology

        P413

        A

        1000-9795(2014)01-0498-01

        [責任編輯:陳懷民]

        2013-11-27

        韋麗紅(1982-),女,黑龍江人,講師,從事語義web、文本挖掘、信息處理方向的研究。陳 松(1985-),男,內(nèi)蒙古人,助理工程師,從事計算機科學與技術方向的研究。

        猜你喜歡
        數(shù)據(jù)挖掘關聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “一帶一路”遞進,關聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        久久99国产伦精品免费| 亚洲av天堂免费在线观看| 老子影院午夜伦不卡| 国产真人无码作爱视频免费| 美女污污网站| 日韩一区二区中文字幕视频| 亚洲av天堂免费在线观看| 亚洲av无码之国产精品网址蜜芽| 亚洲男人天堂2017| 天堂a版一区二区av| av免费播放网站在线| 西西大胆午夜人体视频| 欧美亚洲国产另类在线观看| 男女男在线精品免费观看| 中文乱码字字幕在线国语| 久久99精品久久久久久秒播| 欧美精品一级| 中文字幕一区二区在线看| 亚洲成在人线视av| 亚洲av第一页国产精品| 婷婷激情六月| 丰满人妻被持续侵犯中出在线| 久久婷婷五月综合色丁香| 午夜福利视频合集1000| 区无码字幕中文色| av天堂免费在线播放| 天天爽夜夜爽人人爽一区二区 | 狠狠躁天天躁无码中文字幕图| 超短裙老师在线观看一区| 人妻少妇偷人精品久久性色av| 人妻暴雨中被强制侵犯在线| 久久婷婷色香五月综合激情| 扒开女性毛茸茸的视频| 婷婷色香五月综合缴缴情| 学生妹亚洲一区二区| 久久伊人网久久伊人网| 成人性生交大片免费入口| 久久久久久久岛国免费观看| 少妇的诱惑免费在线观看| 91熟女av一区二区在线| 一本本月无码-|