亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法研究

        2014-04-29 00:00:00王焱林

        摘 要:隨著計(jì)算機(jī)技術(shù)和信息技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘已經(jīng)成為當(dāng)今各行各業(yè)重點(diǎn)關(guān)注的對(duì)象。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個(gè)非常重要的內(nèi)容,通過(guò)關(guān)聯(lián)規(guī)則挖掘能夠從海量數(shù)據(jù)中分析出數(shù)據(jù)與數(shù)據(jù)之間存在的關(guān)系,進(jìn)而為用戶提供更具有參考價(jià)值的信息?,F(xiàn)階段關(guān)聯(lián)規(guī)則挖掘已經(jīng)廣泛應(yīng)用于保險(xiǎn)、股市、網(wǎng)絡(luò)數(shù)據(jù)等多個(gè)對(duì)市場(chǎng)信息高度依靠的行業(yè)。本文從關(guān)聯(lián)規(guī)則挖掘相關(guān)概念出發(fā),對(duì)其主要操作步驟進(jìn)行了簡(jiǎn)單分析,并研究了數(shù)據(jù)分割下的挖掘問(wèn)題及算法。

        關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則

        中圖分類號(hào):TP311.13

        1 關(guān)聯(lián)規(guī)則挖掘概述

        隨著科學(xué)技術(shù)的不斷發(fā)展,各種數(shù)據(jù)信息已經(jīng)成為當(dāng)前人們生活的重要組成部分。面對(duì)如此巨大的數(shù)據(jù)信息,我們?nèi)绾螐闹刑崛〕鰧?duì)生活工作有利的內(nèi)容是當(dāng)前數(shù)據(jù)挖掘技術(shù)受到廣泛關(guān)注的主要原因。

        1.1 數(shù)據(jù)挖掘。(1)數(shù)據(jù)挖掘簡(jiǎn)介。所謂數(shù)據(jù)挖掘,簡(jiǎn)單說(shuō)就是從海量數(shù)據(jù)中挖掘出具有價(jià)值的信息,該項(xiàng)技術(shù)是目前數(shù)據(jù)庫(kù)及人工智能領(lǐng)域的研究熱點(diǎn)。數(shù)據(jù)挖掘所挖掘的數(shù)據(jù)具有海量、不完整、有噪聲、模糊等特點(diǎn),從某種意義上來(lái)說(shuō)數(shù)據(jù)挖掘就是一種決策支持過(guò)程,能夠給決策者提供更為可靠,有利用價(jià)值的市場(chǎng)經(jīng)營(yíng)策略,進(jìn)而從根本上降低企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)獲得更多利潤(rùn)。(2)數(shù)據(jù)挖掘功能。每一個(gè)數(shù)據(jù)挖掘任務(wù)均需要制定一種數(shù)據(jù)挖掘模型,通過(guò)該模型能夠準(zhǔn)確迅速的實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的分析,進(jìn)而滿足用戶的某種需求。通常情況下,我們將數(shù)據(jù)挖掘任務(wù)分為兩大類:描述和預(yù)測(cè),描述整個(gè)數(shù)據(jù)庫(kù)所表現(xiàn)出來(lái)的整體特性,然后再根據(jù)這一特性對(duì)接下來(lái)將要進(jìn)行的數(shù)據(jù)挖掘任務(wù)進(jìn)行全面細(xì)致深入預(yù)測(cè)。(3)數(shù)據(jù)挖掘過(guò)程。數(shù)據(jù)挖掘是一個(gè)完整的系統(tǒng)的過(guò)程,整個(gè)過(guò)程需要依照某種挖掘模式從海量數(shù)據(jù)庫(kù)中對(duì)各種有意義的信息進(jìn)行深度挖掘。通常情況下,數(shù)據(jù)挖掘過(guò)程可以分為4個(gè)階段:第一,數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)挖掘的對(duì)象一般是客戶自定范圍的數(shù)據(jù)庫(kù),同樣也可以是一個(gè)文件系統(tǒng)。實(shí)際數(shù)據(jù)挖掘開始之前,需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理,也就是說(shuō)需要對(duì)其中數(shù)據(jù)進(jìn)行選擇、分類、轉(zhuǎn)換等。數(shù)據(jù)準(zhǔn)備階段是否做得充分,將直接影響后期數(shù)據(jù)挖掘的效率及有效性。第二,數(shù)據(jù)挖掘階段。數(shù)據(jù)挖掘階段是整個(gè)數(shù)據(jù)挖掘過(guò)程的核心,它主要分為選擇挖掘算法和確定算法參數(shù)兩個(gè)步驟。挖掘算法的選取非常關(guān)鍵,針對(duì)數(shù)據(jù)準(zhǔn)備階段得出的數(shù)據(jù)庫(kù)類型來(lái)選取合適的算法,并針對(duì)選取算法進(jìn)行參數(shù)確定優(yōu)化,進(jìn)而得到最佳數(shù)據(jù)挖掘模型。第三,結(jié)果顯示。數(shù)據(jù)挖掘的最終目的就是為用戶提供具有參考價(jià)值的信息,也就是說(shuō)最后的關(guān)鍵步驟就是能夠?qū)?shù)據(jù)挖掘得到的結(jié)果準(zhǔn)確無(wú)誤及時(shí)的向用戶顯示出來(lái)。第四,結(jié)果評(píng)價(jià)。從用戶需求的角度出發(fā),來(lái)對(duì)數(shù)據(jù)挖掘得到的結(jié)論進(jìn)行分析,如果得出的結(jié)果并未達(dá)到客戶滿意,則說(shuō)明所選取的數(shù)據(jù)挖掘模型并不是最佳,還需要進(jìn)行回退操作。

        1.2 關(guān)聯(lián)規(guī)則挖掘概述。(1)關(guān)聯(lián)規(guī)則的基本概念。隨著社會(huì)對(duì)數(shù)據(jù)挖掘技術(shù)的廣泛關(guān)注,關(guān)聯(lián)規(guī)則挖掘已經(jīng)成為當(dāng)前的一個(gè)重要研究課題。所謂關(guān)聯(lián)規(guī)則挖掘即是指對(duì)過(guò)個(gè)數(shù)據(jù)庫(kù)之間的關(guān)聯(lián)關(guān)系進(jìn)行分析,進(jìn)而找出數(shù)據(jù)與數(shù)據(jù)之間的相互關(guān)聯(lián)性。數(shù)據(jù)挖掘技術(shù)中所提及的關(guān)聯(lián)規(guī)則挖掘需要結(jié)合計(jì)算機(jī)技術(shù),從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系。(2)關(guān)聯(lián)規(guī)則挖掘步驟。最小支持度和最小置信度是關(guān)聯(lián)規(guī)則挖掘中非常關(guān)鍵的兩個(gè)參數(shù),實(shí)際挖掘過(guò)程主要分為兩個(gè)步驟:第一,從事務(wù)數(shù)據(jù)庫(kù)中挖掘出頻繁項(xiàng)集,也就是說(shuō)挖掘出大于min支持度閥值的項(xiàng)集。頻繁項(xiàng)集的最終決定因素是支持度,整個(gè)計(jì)算過(guò)程最終的目的就是歸納總結(jié)出一種算法,進(jìn)而獲得用戶所需要的結(jié)果。第二,根據(jù)計(jì)算出的頻繁項(xiàng)集來(lái)分析其中的強(qiáng)關(guān)聯(lián)規(guī)則,也就是計(jì)算出支持度和置信度均≥預(yù)定支持度閥值和置信度閥值的關(guān)聯(lián)規(guī)則。

        2 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

        2.1 減少事務(wù)的個(gè)數(shù)。如果在事務(wù)處理過(guò)程中去除長(zhǎng)度小于k的項(xiàng)目集,那么在后期計(jì)算過(guò)程中肯定不會(huì)再出現(xiàn)長(zhǎng)度為k+1的項(xiàng)目集。因此,在數(shù)據(jù)挖掘過(guò)程中我們可以通過(guò)算法直接將無(wú)用事務(wù)濾除,以便于在下輪掃描過(guò)程中簡(jiǎn)化操作過(guò)程,提高數(shù)據(jù)挖掘效率。

        2.2 基于劃分的方法。這類算法的比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。

        2.3 基于hash的方法 。基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集是在傳統(tǒng)頻繁項(xiàng)目集算法的基礎(chǔ)之上發(fā)展而來(lái)的,對(duì)于這種改進(jìn)后的算法在實(shí)際應(yīng)用中也受到了較為廣泛的關(guān)注。實(shí)際試驗(yàn)中,我們發(fā)現(xiàn)頻繁項(xiàng)目及的產(chǎn)生需要對(duì)2-頻繁項(xiàng)目集進(jìn)行充分計(jì)算,然后再通過(guò)雜湊技術(shù)來(lái)獲得最終結(jié)果。換句話說(shuō),在實(shí)際計(jì)算過(guò)程中需要對(duì)不同的Hash桶進(jìn)行逐個(gè)掃描,這樣一來(lái),對(duì)于一個(gè)項(xiàng)目的實(shí)現(xiàn),最多只能夠在某一個(gè)指定的桶中進(jìn)行?;陔s(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集這種設(shè)計(jì)的主要目的是為了能夠進(jìn)一步降低候選集的產(chǎn)生,進(jìn)而全面提高數(shù)據(jù)挖掘效率和結(jié)果可靠準(zhǔn)確性。

        2.4 基于采樣的方法 。數(shù)據(jù)庫(kù)抽樣計(jì)算的目的是獲得更直接的規(guī)則,進(jìn)而能夠方便于后期的數(shù)據(jù)挖掘過(guò)程,通過(guò)抽樣檢驗(yàn)我們可以更為直觀的判斷關(guān)聯(lián)規(guī)則是否有效,是否能夠更加簡(jiǎn)便的獲得用戶所需目標(biāo)?;诓蓸拥臄?shù)據(jù)挖掘算法在實(shí)現(xiàn)方法上要容易一些,而且還可以最大限度的降低數(shù)據(jù)挖掘過(guò)程所需要提供的I/O成本。但同時(shí)這種算法也會(huì)使得抽樣數(shù)據(jù)隨機(jī)性大大增加,進(jìn)而使得數(shù)據(jù)挖掘過(guò)程中出現(xiàn)的問(wèn)題增多,給數(shù)據(jù)挖掘帶來(lái)額外負(fù)擔(dān)。基于統(tǒng)計(jì)學(xué)理論的抽樣算法,雖然在計(jì)算精度上無(wú)法與其他算法相媲美,但如果我們結(jié)合相關(guān)數(shù)據(jù)挖掘理論進(jìn)行更為深入的分析研究,還是能夠在精度上進(jìn)行一定的彌補(bǔ)。畢竟數(shù)據(jù)挖掘技術(shù)是由多種多個(gè)學(xué)科所構(gòu)成的,不論是挖掘效率還是計(jì)算精度均需要高效才能夠獲得更為有價(jià)值的結(jié)果,才能夠更好的指導(dǎo)用戶進(jìn)行未來(lái)市場(chǎng)預(yù)測(cè)。

        2.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)。Brin等一些研究人員在1997年提出了一種主要用于減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,該算法在實(shí)際應(yīng)用中能夠通過(guò)下層分析法來(lái)對(duì)數(shù)據(jù)庫(kù)進(jìn)行早期處理,這樣我們?cè)趯?shí)際運(yùn)行k-項(xiàng)集時(shí),那么(k+1)-項(xiàng)集就有極大地可能出現(xiàn)頻繁項(xiàng)目集。這樣一來(lái),我們就可以直接將兩者并行計(jì)算,以最快的方式獲得(k+1)-項(xiàng)集支持度?,F(xiàn)階段這種計(jì)算方法在很大程度上降低了對(duì)數(shù)據(jù)庫(kù)的掃描次數(shù),也就是說(shuō)提高了數(shù)據(jù)挖掘計(jì)算效率。

        3 結(jié)束語(yǔ)

        數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在實(shí)際數(shù)據(jù)挖掘過(guò)程中還有很多需要用戶自行進(jìn)行確定的參數(shù),這些參數(shù)的確定將直接影響最終的挖掘結(jié)果。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。

        參考文獻(xiàn):

        [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.

        [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29+33.

        [3]劉愛(ài)宏,史春燕.基于數(shù)據(jù)挖掘的現(xiàn)代物流信息系統(tǒng)管理問(wèn)題研究[J].物流技術(shù),2013(09):381-383.

        作者簡(jiǎn)介:王焱林(1980.09-),男,山西臨汾人,講師,本科,研究方向:數(shù)據(jù)挖掘方向。

        作者單位:蘭州職業(yè)技術(shù)學(xué)院,蘭州 730070

        精品国产亚洲级一区二区| 亚洲中文字幕在线一区二区三区| 国产精品自产拍在线观看中文| 日本av在线精品视频| 国产一区二区三区男人吃奶| 2021国产精品视频网站| 97精品超碰一区二区三区 | 久久天堂精品一区二区三区四区| 日本真人做爰免费视频120秒| 国产情侣久久久久aⅴ免费| 久久久久久国产精品免费网站| 亚洲一区二区女优av| 久久久人妻一区二区三区蜜桃d| 亚洲国产日韩a在线乱码| 国产精品你懂的在线播放 | 国产91在线精品福利| 国产精品久久久看三级| 麻豆视频在线播放观看| 和黑人邻居中文字幕在线| 国产福利姬喷水福利在线观看| 久久精品美女久久| 精品黄色国产一区二区| 97色伦图片97综合影院| 97人人模人人爽人人喊电影 | 超级少妇一区二区三区| 经典黄色一区二区三区| 日本熟妇人妻xxxx| 欧美猛男军警gay自慰| 人妻精品一区二区三区视频 | 九九精品国产亚洲av日韩| 乱子轮熟睡1区| 亚洲啪啪综合av一区| 九九99久久精品在免费线97| 亚洲综合一区二区三区久久| 亚洲小说区图片区色综合网| a级国产乱理伦片在线播放| 国产精品原创av片国产日韩| 蜜桃视频一区二区三区| 日韩日韩日韩日韩日韩日韩日韩| 欧洲freexxxx性少妇播放| 亚洲嫩模高清在线视频|