亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)于數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的相關(guān)問題研究

        2017-11-16 21:21:44李艷
        科技創(chuàng)新與應(yīng)用 2017年33期
        關(guān)鍵詞:數(shù)據(jù)挖掘研究

        李艷

        摘 要:經(jīng)濟(jì)的發(fā)展帶動(dòng)了信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用愈加廣泛,無(wú)論是生產(chǎn)還是生活都離不開這一技術(shù)的支持。關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘技術(shù)中應(yīng)用最為活躍的一種算法,能夠有效處理規(guī)模較大的信息與數(shù)據(jù),并在數(shù)據(jù)庫(kù)中挖掘價(jià)值較高的信息。文章將對(duì)數(shù)據(jù)挖掘技術(shù)的內(nèi)容與表現(xiàn)進(jìn)行闡述,分析關(guān)聯(lián)規(guī)則算法的含義與相關(guān)內(nèi)容,最后對(duì)關(guān)聯(lián)規(guī)則算法中的Apriori算法進(jìn)行探究與討論。

        關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則算法;相關(guān)問題;研究

        中圖分類號(hào):G250.74 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2017)33-0161-02

        互聯(lián)網(wǎng)上涵蓋的信息數(shù)量是巨大的,且信息的數(shù)量與規(guī)模呈現(xiàn)出了明顯的上升趨勢(shì),如何在海量的數(shù)據(jù)中找到有用的信息是人們需要重點(diǎn)思考的問題。傳統(tǒng)的數(shù)據(jù)搜索方法作用有限,只能將表層信息收集起來(lái),但是深層次的信息卻無(wú)法被挖掘出來(lái),這對(duì)信息的有效應(yīng)用來(lái)說是極為不利的。為了提高數(shù)據(jù)的適應(yīng)價(jià)值,數(shù)據(jù)挖掘技術(shù)產(chǎn)生并得到廣泛應(yīng)用。關(guān)聯(lián)規(guī)則算法在數(shù)據(jù)挖掘方面顯現(xiàn)出了極大的優(yōu)勢(shì),對(duì)此展開探究有著重要的現(xiàn)實(shí)意義。

        1 數(shù)據(jù)挖掘技術(shù)的內(nèi)容與表現(xiàn)

        1.1 內(nèi)容

        數(shù)據(jù)挖掘技術(shù)屬于重要的信息處理技術(shù),其商業(yè)價(jià)值極為明顯,在該技術(shù)的幫助下,人們對(duì)技術(shù)的獲取與了解將會(huì)從聯(lián)機(jī)查詢這種較為低層次的方式轉(zhuǎn)化為較高層次的數(shù)據(jù)對(duì)策支持分析預(yù)測(cè)。根據(jù)知識(shí)類型的差異,數(shù)據(jù)挖掘技術(shù)可以分為:關(guān)聯(lián)范圍、預(yù)測(cè)范圍、差異范圍、廣義范圍這幾種。使用較為廣泛的數(shù)據(jù)挖掘方法有數(shù)據(jù)分析法、數(shù)據(jù)集成法、證據(jù)理論法、近似推理法以及元模式法等。而從對(duì)象的角度來(lái)分析,數(shù)據(jù)挖掘技術(shù)可以分為以下幾類,即時(shí)態(tài)數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及文本數(shù)據(jù)庫(kù)等。

        1.2 主要表現(xiàn)

        數(shù)據(jù)挖掘技術(shù)的主要表現(xiàn)有四種,第一是規(guī)則歸納,即統(tǒng)計(jì)數(shù)據(jù),在這個(gè)過程中系統(tǒng)會(huì)對(duì)數(shù)據(jù)項(xiàng)中的某些屬性以及集合予以反映,AQ算法就是歸納算法的一種,利用數(shù)據(jù)挖掘技術(shù),人們可以找出數(shù)據(jù)庫(kù)中潛藏的某些位置信息。第二是支持向量機(jī),它是一種結(jié)構(gòu)風(fēng)險(xiǎn),其建立基礎(chǔ)為數(shù)學(xué)理論,在應(yīng)用時(shí),它會(huì)利用處于高空多維空間的超平面隔離開兩類不同的數(shù)據(jù),以便于將最小分類錯(cuò)誤率降到最低,顯性問題是其顯著的優(yōu)勢(shì)。第三是模糊集,在處理數(shù)據(jù)時(shí),模糊集表現(xiàn)為兩點(diǎn),一是不完整數(shù)據(jù),二是不確定數(shù)據(jù),其針對(duì)性不強(qiáng),應(yīng)用模糊集對(duì)數(shù)據(jù)進(jìn)行處理能夠提高處理的簡(jiǎn)便性與有效性。第四是統(tǒng)計(jì)方法,即統(tǒng)計(jì)并分析事物數(shù)量,這樣能夠及時(shí)找出其中的規(guī)律,當(dāng)發(fā)現(xiàn)數(shù)據(jù)線索后,就可以以此為基礎(chǔ)展開假設(shè),分析可行性,統(tǒng)計(jì)方法的優(yōu)點(diǎn)在于精確性高。

        2 關(guān)聯(lián)規(guī)則算法的含義與相關(guān)問題

        數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法即指在數(shù)據(jù)集中找到相關(guān)關(guān)系或者特殊的關(guān)聯(lián),找到頻繁項(xiàng)集(出現(xiàn)頻率較高的屬性值

        集),然后再依據(jù)頻繁項(xiàng)集將關(guān)聯(lián)規(guī)則描述出來(lái)的整個(gè)過程。其中涉及到的數(shù)據(jù)集具有較大的規(guī)模,涵蓋的數(shù)據(jù)信息、屬性較多,具有尋找的價(jià)值。在關(guān)聯(lián)規(guī)則算法中,規(guī)則興趣度的度量依據(jù)為置信度與支持度,這兩個(gè)度量依據(jù)能夠?qū)σ?guī)則所具有的簡(jiǎn)潔性、新穎性、確定性以及有用性予以準(zhǔn)確的反映。在實(shí)際應(yīng)用的過程中,信任度與支持度的門限通常用最小支持度與最小置信度來(lái)表示。數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的相關(guān)問題可以歸納為兩點(diǎn),首先,要將不小于用戶指定的支持度最小的存在于事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)集全部找出,即找出強(qiáng)項(xiàng)集。其次,要對(duì)最大數(shù)據(jù)項(xiàng)對(duì)應(yīng)的關(guān)聯(lián)規(guī)則予以利用,以用戶所指定的置信度規(guī)則最小值的取舍情況為依據(jù),獲得最終需要的強(qiáng)關(guān)聯(lián)規(guī)則。

        3 Apriori算法研究

        3.1 基本操作步驟

        Apriori算法為關(guān)聯(lián)規(guī)則中的經(jīng)典算法,具有重要的研究意義。Apriori算法認(rèn)為若M屬于頻繁項(xiàng)目集,則M中包含的子集都在其中;相反,如果M不是頻繁項(xiàng)目集,那么M的全部超集都在其中。為了將所有的頻繁項(xiàng)集都找出來(lái),Apriori算法會(huì)應(yīng)用逐層迭代法搜集相關(guān)內(nèi)容,即逐層掃描各集合。其具體操作步驟如下:首先要全面了解用戶的實(shí)際需求,然后依次為依據(jù)確定最小支持度與最小置信度,并逐步找出頻繁相;其次要將最小支持度作為操作的參考依據(jù),如候選集規(guī)模較大,那么就可以將其作為頻繁項(xiàng)集合中的某一個(gè)項(xiàng),當(dāng)反復(fù)掃描頻繁項(xiàng)集后,所需要的數(shù)據(jù)就可以被準(zhǔn)確的挖掘出來(lái)。然后就可以根據(jù)實(shí)際情況執(zhí)行算法,要先將數(shù)據(jù)項(xiàng)完整的錄入到數(shù)據(jù)庫(kù)當(dāng)中,繼而將關(guān)鍵項(xiàng)挖掘出來(lái),再將集合與候選2項(xiàng)有效結(jié)合到一起。此時(shí)再次掃描數(shù)據(jù)庫(kù),并重復(fù)上述操作,最終挖掘出最高層次的頻繁項(xiàng)集,使數(shù)據(jù)得到有效優(yōu)化。

        3.2 局限性

        雖然在以往的應(yīng)用過程中,Apriori算法顯現(xiàn)出了較為明顯的優(yōu)勢(shì),如應(yīng)用便捷、結(jié)構(gòu)簡(jiǎn)單等,但是在實(shí)際執(zhí)行的過程中,Apriori算法仍然具有局限性。首先雖然其推導(dǎo)過程相對(duì)簡(jiǎn)便,但是卻具有較高的重復(fù)率,系統(tǒng)需要多次掃描數(shù)據(jù)庫(kù),且每次都需要全面搜索候選項(xiàng)集,當(dāng)產(chǎn)生最小置信度與最小支持度后,若頻繁項(xiàng)集對(duì)應(yīng)的最大程度為M,那么掃描的次數(shù)則為K。在此情況下,如果事務(wù)數(shù)據(jù)庫(kù)的規(guī)模較大,那么掃描的次數(shù)會(huì)相應(yīng)增多,而工作效率則會(huì)極大的下降。其次,Apriori算法采取逐層迭代法搜索,雖然可以適時(shí)對(duì)步驟進(jìn)行必要的優(yōu)化,刪減了部分候選項(xiàng)集,但是中間項(xiàng)集的數(shù)量仍然極大,算法效率相對(duì)較低。最后,從理論方面來(lái)看,當(dāng)頻繁項(xiàng)集增加長(zhǎng)度后,相關(guān)的支持事務(wù)會(huì)明顯的減少,而計(jì)算時(shí)間不會(huì)發(fā)生變化;但是從實(shí)際來(lái)看,事務(wù)開銷會(huì)明顯的增加,此時(shí)運(yùn)算時(shí)間必然會(huì)提升。

        3.3 優(yōu)化方法

        Apriori算法的優(yōu)化方法有三種,第一是應(yīng)用Partition算法中的數(shù)據(jù)分割法,由于Apriori算法的掃描過程繁瑣,次數(shù)較多,此時(shí)為了提高工作效率就可以應(yīng)用數(shù)據(jù)分割法進(jìn)行操作,在邏輯的基礎(chǔ)上將數(shù)據(jù)庫(kù)合理分割成不相交的模塊,在此情況下,系統(tǒng)就能夠分別掃描各個(gè)模塊,然后生產(chǎn)對(duì)應(yīng)的頻集,在計(jì)算時(shí)再將各個(gè)分散的頻集合并到一起,最終挖掘出有效的頻集;第二是應(yīng)用Sampling算法中的采樣技術(shù),組合分析掃描獲得的數(shù)據(jù)庫(kù)信息,這項(xiàng)工作的工作量是極為巨大的,而在第一次掃描的過程中,系統(tǒng)能夠?qū)ο嚓P(guān)規(guī)則予以總結(jié),繼而在第二次掃描中直接采樣,在反復(fù)掃描與總結(jié)的過程中,算法可以得到必要的改進(jìn),如果采樣中獲得的規(guī)律是合理的,其余的掃描過程就可以得到簡(jiǎn)化;第三是利用DHP算法刪減候選項(xiàng)集,這能夠有效提升系統(tǒng)的運(yùn)行效率,并降低計(jì)算的成本投入。

        3.4 改進(jìn)措施

        要對(duì)Apriori算法進(jìn)行簡(jiǎn)化,減少掃描的次數(shù),使系統(tǒng)通過一次掃描就可以找到項(xiàng)目頻集,讓LK-1自鏈接對(duì)應(yīng)的項(xiàng)集CK在數(shù)據(jù)庫(kù)中生成,在簡(jiǎn)化的過程中要關(guān)注支持度的變化,將比最小支持度還小的項(xiàng)集刪減掉,提升算法的實(shí)際效率。在性能改進(jìn)方面,算法的計(jì)算量能夠極大的降低,第一次掃描中就可以產(chǎn)生候選項(xiàng)集,然后統(tǒng)計(jì)相應(yīng)事務(wù),計(jì)算時(shí)間將有效縮短。

        4 結(jié)束語(yǔ)

        Apriori算法是數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法中應(yīng)用最為廣泛的一種算法,其應(yīng)用優(yōu)勢(shì)較為明顯,能夠幫助用戶深入挖掘信息價(jià)值,并簡(jiǎn)化推導(dǎo)過程。但是Apriori算法也存在一定的不足與局限,在使用的過程中應(yīng)當(dāng)對(duì)其進(jìn)行必要的優(yōu)化與改進(jìn)。

        參考文獻(xiàn):

        [1]李仕瓊.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘算法的分析研究[J].電子技術(shù)與軟件工程,2015(04).

        [2]楊帆,杜瑋,陳經(jīng)優(yōu).數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].電子技術(shù)與軟件工程,2014(21).

        [3]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11).

        [4]楊艷,韓衛(wèi)媛,李文成.改進(jìn)的關(guān)聯(lián)規(guī)則算法在數(shù)據(jù)挖掘中的探討[J].制造業(yè)自動(dòng)化,2012(12).

        [5]蘆海燕.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].電腦知識(shí)與技術(shù),2011(26).endprint

        猜你喜歡
        數(shù)據(jù)挖掘研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國(guó)內(nèi)翻譯研究述評(píng)
        遼代千人邑研究述論
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        新版C-NCAP側(cè)面碰撞假人損傷研究
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        99精品国产兔费观看久久99| 欧美洲精品亚洲精品中文字幕| jiZZ国产在线女人水多| 国产精品亚洲一区二区三区妖精| 永久中文字幕av在线免费| 国产精品日韩经典中文字幕| 大陆国产乱人伦| 亚洲avav天堂av在线网爱情| 免费无码av片在线观看网址| 思思久久96热在精品不卡| 成年女人18毛片毛片免费| 国产精品又爽又粗又猛又黄| 日韩精品在线视频一二三| 蜜臀亚洲av无码精品国产午夜.| 国产综合久久久久| 亚洲综合色一区二区三区小说| 国产永久免费高清在线观看视频| 亚洲国产黄色在线观看| 一本一道久久综合久久| 玩弄人妻少妇精品视频| 久久亚洲精品成人av| 亚洲天堂中文| 久久91精品国产91久久麻豆| 91乱码亚洲精品中文字幕| av高清在线不卡直播| 丰满少妇被粗大的猛烈进出视频| 久久中文字幕人妻熟av女蜜柚m| 日本手机在线| 国产美女主播福利一区| 日本一区二区在线免费看| (无码视频)在线观看| 99精品人妻少妇一区二区三区| 在线精品无码一区二区三区| 天堂aⅴ无码一区二区三区| 免费人成又黄又爽的视频在线 | 久草视频在线这里只有精品| 国产黄色一区二区在线看| 成人精品视频一区二区| chinese国产乱在线观看| 精品黑人一区二区三区| 精品视频在线观看日韩|