亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究

        2014-04-17 09:12:21韋麗紅
        佳木斯職業(yè)學院學報 2014年1期
        關鍵詞:數(shù)據(jù)挖掘關聯(lián)規(guī)則

        韋麗紅 陳 松

        (呼倫貝爾學院計算機科學與技術學院 內(nèi)蒙古海拉爾 021008;

        呼倫貝爾市人力資源和社會保障局 內(nèi)蒙古海拉爾 021008)

        數(shù)據(jù)挖掘技術與關聯(lián)規(guī)則挖掘算法研究

        韋麗紅 陳 松

        (呼倫貝爾學院計算機科學與技術學院 內(nèi)蒙古海拉爾 021008;

        呼倫貝爾市人力資源和社會保障局 內(nèi)蒙古海拉爾 021008)

        探討數(shù)據(jù)挖掘在現(xiàn)今關聯(lián)規(guī)則算法中的使用情況,提出目前研究關聯(lián)規(guī)則的研究現(xiàn)狀,針對現(xiàn)狀,總結出一種新的研究分析關聯(lián)方法,指出關聯(lián)規(guī)則算法在今后的出路以及進一步的研究方向。利用分析文獻查詢和比較分析方法,闡述各種方法對典型關聯(lián)的影響,其中作為一個為基點是以核心Apriori的算法。結論是Apriori算法仍然有一些不能消除的缺點,這有待進一步研究,同時指出今后的研究方向需要提高大量數(shù)據(jù)的運算效率,并且能夠與OLAP相互結合生產(chǎn)結果的可視化。

        Apriori算法;研究;DM;技術

        數(shù)據(jù)挖掘(DM)是在大量未知的、無規(guī)則的、偶然的現(xiàn)實數(shù)據(jù)當中提煉出隱含的關聯(lián)信息或知識,這就是關聯(lián)規(guī)則挖掘。關聯(lián)規(guī)則挖掘是在20世紀90年代提出來的[1],這個問題提出了以后,很多研究人員和科學家對關聯(lián)規(guī)則問題進行了深入的研究,從不同思考問題的角度提出了數(shù)十種關聯(lián)規(guī)則挖掘算法,Apriori是最著名的關聯(lián)規(guī)則算法,這個是由一個非常著名的美國統(tǒng)計學家提出的,Apriori算法影響了之后很多算法的建立。在很多科學家和研究人員的繼承和發(fā)揚這個關聯(lián)規(guī)則算法之后,現(xiàn)今的關聯(lián)規(guī)則算法逐漸完善了以前的缺陷。

        一、關聯(lián)規(guī)則的種類

        1.按照需要的數(shù)據(jù)變量進行處理分類,關聯(lián)規(guī)則分為布爾型和數(shù)值型。布爾型[2]顯示數(shù)據(jù)變量之間的關系,它無法處理關聯(lián)規(guī)則中的連續(xù)的變量;而可以結合多維關聯(lián)的是數(shù)值型的關聯(lián)規(guī)則(或者多層關聯(lián)),然后對數(shù)值型的數(shù)據(jù)進行處理,然后進行動態(tài)分析。

        2.按照關聯(lián)規(guī)則中的抽象層次,可以分為單層關聯(lián)規(guī)則和多層關聯(lián)規(guī)則。現(xiàn)實數(shù)據(jù)中單層關聯(lián)規(guī)則對所有的變量都不考慮這些單層因素;而多層關聯(lián)規(guī)則是會考慮現(xiàn)實數(shù)據(jù)中的多層因素,并且對多層進行了充分的考慮。

        3.按照規(guī)則中涉及多的數(shù)據(jù)維數(shù),可以分為單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則。如果數(shù)據(jù)只設計到一個維數(shù),那就屬于單維關聯(lián)規(guī)則,反之則屬于多維關聯(lián)規(guī)則。在單維關聯(lián)規(guī)則中,我們只處理單個屬性,關系明了簡單。在多維關聯(lián)規(guī)則中則需要處理不同屬性之間的某些聯(lián)系,處理的關系較復雜。

        二、關聯(lián)規(guī)則中經(jīng)典頻集方法的算法

        在20世紀90年代,挖掘交易數(shù)據(jù)中集間的關聯(lián)規(guī)則問題是由一位非常著名的明國科學家首選提出的[3],頻集理論的方法是當時的核心推算方法,之后所有研究數(shù)據(jù)挖掘方面的研究人員和科學家都在頻集理論的方法上進一步優(yōu)化。隨著時代變遷,隨機采樣、并行等理論引進頻集理論,然后對關聯(lián)規(guī)則的應用進一步推廣。

        經(jīng)典頻集方法的核心算法分為兩步:尋找頻集的規(guī)則屬于第一步,第二步的步驟如下。如一個給定的已知頻集X=T1T2…Tn,n≥2,只有集合{T1T2…Tn}中的項的所有規(guī)則(最多n條)就產(chǎn)生了,其中每一條規(guī)則的右部只有一項。為了使所有的頻集能夠產(chǎn)生,接下來就使用遞推的運算方法進行計算。

        在經(jīng)典頻集方法中仍然有很多不足,所以后來的研究人員在經(jīng)典頻集的基礎上進行了優(yōu)化,優(yōu)化是多方面的,主要在以下幾個方面進行,如基于棧變換的算法;基于劃分的方法;減少冗余規(guī)則的算法;基于采樣的方法;基于Hash的方法等。在進行一系列的優(yōu)化之后,經(jīng)典頻集方法得到完善和推廣應用。

        三、衡量關聯(lián)規(guī)則價值的方法

        1.系統(tǒng)方面。“支持度-可信度”的結構能夠適用于很多算法,但是這種框架有時候會產(chǎn)生錯誤的信息。比如某些結果雖然更精確,但是支持度和可信度都較低。如果我們設置支持度和可信度的時候程度較低,這樣就可能得到兩個相互矛盾的結果。但是如果設置的過高,我們就無法得到準確的關聯(lián)規(guī)則,不利于結果分析。所以,僅僅通過“支持度-可信度”這個準則來判斷是不夠準確的。從很多記錄看出,支持度是很多用戶信任的重要因素,如果把支持度設置足夠低,不會丟失任一有意義的結果,但是計算效率可能不是很高,從用戶觀點上,這是可行的規(guī)則。

        2.用戶方面。一項規(guī)則有沒有用,很重要一點是否取得用戶的信任,用戶的體驗感受是很重要的。當用戶覺得有效和可行,這個規(guī)則才可以繼續(xù)存在和發(fā)展。所以在現(xiàn)實中,我們不僅考慮系統(tǒng)運算的結果,同時也要結合用戶的需求。

        四、討論

        關聯(lián)規(guī)則的各種方法在數(shù)據(jù)挖掘的運用上已經(jīng)逐漸成熟,如今很多大型IT公司或者金融公司的很多大型項目已經(jīng)運用了關聯(lián)規(guī)則中的某些研究成果,關聯(lián)規(guī)則算法的應用前景可以說是非常的廣泛。綜上所述,在關聯(lián)規(guī)則方面的數(shù)據(jù)挖掘,今后幾年可以在關聯(lián)規(guī)則相結合的問題、提高處理大量數(shù)據(jù)效率問題以及結果可視化方面進行研究和突破。

        [1]李銘.關聯(lián)規(guī)則的多支持度挖掘在銷售數(shù)據(jù)中的應用[J].計算機工程,2012,29(8):92-93.

        [2]李哲,楊兆中,龐炳章.大型數(shù)據(jù)庫中關聯(lián)規(guī)則的向量法挖掘[J].計算機工程,2010,32(5):47-49.

        [3]惠曉濱,張鳳鳴,虞健飛.一種基于棧變換的高效關聯(lián)規(guī)則算法[J].計算機研究與發(fā)展,2011,40(2):30-35.

        Data mining techniques and algorithms for mining association rules

        Wei Li-hong, Chen Song

        (Computer Science and Technology Institute, Hulunbeier University, Hailar Inner Mongolia, 021008, China;
        Hulunbeier Human Resources and Social Security Bureau, Hailar Inner Mongolia,021008, China)

        To explore the data used in the algorithm of association rules mining, proposes the research status, sums up a new research association analysis method according to the present situation, points out the algorithm of association rules in the future and further work. Using the analysis of literature search and comparative analysis method, to discuss the influence of various methods of typical connection, which serves as a basis for the Apriori algorithm. Conclusion still has some cannot eliminate the disadvantages of Apriori algorithm, which need further research, and points out the direction of future research to improve the computation efficiency of large amounts of data, can produce the visualization of results combined with OLAP.

        Apriori algorithm; research; DM; technology

        P413

        A

        1000-9795(2014)01-0498-01

        [責任編輯:陳懷民]

        2013-11-27

        韋麗紅(1982-),女,黑龍江人,講師,從事語義web、文本挖掘、信息處理方向的研究。陳 松(1985-),男,內(nèi)蒙古人,助理工程師,從事計算機科學與技術方向的研究。

        猜你喜歡
        數(shù)據(jù)挖掘關聯(lián)規(guī)則
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “一帶一路”遞進,關聯(lián)民生更緊
        當代陜西(2019年15期)2019-09-02 01:52:00
        奇趣搭配
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        TPP反腐敗規(guī)則對我國的啟示
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
        视频一区二区不中文字幕| 99精品视频在线观看免费| 日本韩国一区二区三区| av资源吧首页在线观看| 青青草大香蕉视频在线观看| 成人做受视频试看60秒| 手机看片久久国产免费| 亚洲国产日韩精品综合| 亚洲国产精品婷婷久久| 色播亚洲视频在线观看| 亚洲精品日韩自慰喷水白浆| 青青草一级视频在线观看| 91日韩东京热中文字幕| 亚洲av美国av产亚洲av图片| 国产又爽又黄的激情精品视频| 色老汉亚洲av影院天天精品 | 国内精品亚洲成av人片| 亚洲va中文字幕无码毛片| 国产区精品| 日本一区二区三区一级免费| 亚洲天堂成人av在线观看| 性欧美牲交xxxxx视频欧美| 亚洲AV永久天堂在线观看| 国产激情小视频在线观看的| 国产成人亚洲精品无码青| 夫妇交换刺激做爰视频| 国产福利美女小视频| 一区二区三区视频亚洲| 免费看黑人男阳茎进女阳道视频| 五月婷一本到五月天| 久久久成人av毛片免费观看| 国产在线无码一区二区三区视频| 久久久久久伊人高潮影院| 亚洲色www无码| 国产丝袜爆操在线观看| 人妻熟女一区二区三区app下载| 伊人色网站| 国产在线视频一区二区三| 色综合久久无码五十路人妻 | 免费一本色道久久一区| 国产白浆一区二区三区佳柔|