亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究

        2014-08-26 16:13:43郭玲
        新媒體研究 2014年15期
        關(guān)鍵詞:Apriori算法關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

        摘 要 隨著人們對(duì)信息數(shù)據(jù)量的急速增長(zhǎng)從而數(shù)據(jù)挖掘技術(shù)也隨之應(yīng)運(yùn)而生,這使得人們對(duì)知識(shí)與信息的渴求得到了進(jìn)一步滿足。對(duì)于如何才能快速高效的獲取知識(shí),對(duì)于信息處理技術(shù)來(lái)說(shuō)已經(jīng)成為當(dāng)前熱門(mén)的研究課題。審視當(dāng)前對(duì)于關(guān)聯(lián)規(guī)則的研究現(xiàn)狀,針對(duì)關(guān)聯(lián)研究的現(xiàn)狀,分析實(shí)際問(wèn)題對(duì)于關(guān)聯(lián)規(guī)則總結(jié)出一種新的研究方式,結(jié)論為關(guān)聯(lián)規(guī)則算法在今后的出路和進(jìn)一步的研究上指明了方向。研究過(guò)程中通過(guò)對(duì)文獻(xiàn)的查詢(xún)分析和比較分析兩種方法,進(jìn)一步闡述對(duì)典型關(guān)聯(lián)產(chǎn)生影響的各種方法,其中最為重要的是把核心Apriori算法作為一個(gè)研究的基點(diǎn)。

        關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;典型關(guān)聯(lián);Apriori算法

        中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)15-0030-03

        當(dāng)今社會(huì)人們對(duì)計(jì)算機(jī)應(yīng)用提出了更高要求,如今人們慢慢的意識(shí)到關(guān)系數(shù)據(jù)庫(kù)有很多缺點(diǎn)和限制,這種問(wèn)題又推動(dòng)了數(shù)據(jù)庫(kù)在更深領(lǐng)域上的研究。當(dāng)前專(zhuān)家們對(duì)數(shù)據(jù)庫(kù)的研究?jī)?nèi)容主要是把數(shù)據(jù)庫(kù)技術(shù)與其他技術(shù)相結(jié)合,然后應(yīng)用到特定領(lǐng)域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績(jī)。

        1 數(shù)據(jù)挖掘技術(shù)

        1.1 數(shù)據(jù)挖掘概念

        從數(shù)據(jù)挖掘的本質(zhì)上說(shuō)它是一種具有更高商業(yè)價(jià)值的新型信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)的作用是對(duì)數(shù)據(jù)的應(yīng)用來(lái)說(shuō)的,其目的是使人們從低層次的聯(lián)機(jī)查詢(xún)過(guò)渡到對(duì)數(shù)據(jù)決策支持分析預(yù)測(cè)上,從而成為更高層次的應(yīng)用。

        1.2 數(shù)據(jù)挖掘技術(shù)的分類(lèi)

        關(guān)于數(shù)據(jù)挖掘針對(duì)其挖掘的對(duì)象,大致的可以做出以下分類(lèi),具體分為時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)(Object-Oriented Database)、空間數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)以及web等比較具有針對(duì)性的挖掘?qū)ο蟆a槍?duì)數(shù)據(jù)挖掘的方法大致的可以歸納為:計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類(lèi)分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò)Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。

        根據(jù)數(shù)據(jù)挖掘技術(shù)的知識(shí)類(lèi)型可以分為:廣義范圍的知識(shí)挖掘、差異范圍的知識(shí)挖掘、關(guān)聯(lián)范圍的知識(shí)挖掘、預(yù)測(cè)范圍的知識(shí)挖掘等。

        1.3 數(shù)據(jù)挖掘的應(yīng)用分析

        根據(jù)麻省理工學(xué)院內(nèi)部數(shù)據(jù)整理其科技評(píng)論雜志對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用分析提出了10大新興的科學(xué)技術(shù)數(shù)據(jù)挖掘能夠在未來(lái)5年對(duì)人類(lèi)的生產(chǎn)生活帶來(lái)重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問(wèn)題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)面向?qū)嶋H應(yīng)用方面不是一時(shí)的,隨著時(shí)代的發(fā)展社會(huì)信息化進(jìn)程不斷加劇各行業(yè)的業(yè)務(wù)操作也隨之逐漸向現(xiàn)代化流程轉(zhuǎn)變,這一轉(zhuǎn)變促使企業(yè)在處理業(yè)務(wù)時(shí)產(chǎn)生大量的業(yè)務(wù)信息數(shù)據(jù)。對(duì)于一般地企業(yè)內(nèi)部的業(yè)務(wù)信息數(shù)據(jù)來(lái)說(shuō),其主要是由企業(yè)進(jìn)行商業(yè)運(yùn)作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場(chǎng)分析而進(jìn)行收集的,關(guān)于此類(lèi)的數(shù)據(jù)挖掘的應(yīng)用終將成為企業(yè)進(jìn)行高層次數(shù)據(jù)分析,為行政決策提供技術(shù)支持的骨干技術(shù)。

        1.4 數(shù)據(jù)挖掘技術(shù)和方法

        1)統(tǒng)計(jì)方法。統(tǒng)計(jì)就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術(shù)中使用統(tǒng)計(jì)方法主要目的就是從事物的數(shù)量上來(lái)推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來(lái)找線索,然后根據(jù)這些線索進(jìn)行假設(shè),然后根據(jù)這些假設(shè)去驗(yàn)證其可行性,這種方法最大的優(yōu)點(diǎn)就是精確性。

        2)模糊集。模糊集顧名思義就是不清楚,沒(méi)有針對(duì)性。模糊集的數(shù)據(jù)處理分為兩個(gè)方面一個(gè)方面是不完整的數(shù)據(jù),另一個(gè)方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。

        3)支持向量機(jī)。向量機(jī)就是一些數(shù)學(xué)理論,支持向量機(jī)就是建立在某些數(shù)學(xué)理論上的結(jié)構(gòu)風(fēng)險(xiǎn)。它主要的思想就是在一個(gè)高空的多維空間中找一個(gè)超平面,利用這個(gè)超平面把這兩類(lèi)進(jìn)行隔開(kāi),這樣就可以保證最小分類(lèi)的錯(cuò)誤率。它的一個(gè)很重要的優(yōu)點(diǎn)就是可以處理一些線性問(wèn)題。

        4)規(guī)則歸納。規(guī)則的歸納就是對(duì)數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計(jì),其主要反映數(shù)據(jù)項(xiàng)中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術(shù)是目前計(jì)算機(jī)信息技術(shù)領(lǐng)域比較前言的研究方向,數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)庫(kù)中找出一些潛在的、位置的信息和知識(shí)。

        2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問(wèn)題及算法

        2.1 聚焦挖掘任務(wù),提高挖掘效率

        數(shù)據(jù)挖掘理論最初的研究側(cè)重點(diǎn)是模型的建立以及算法的設(shè)計(jì)。隨著應(yīng)用于不同的場(chǎng)合,得出的結(jié)果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項(xiàng)目中,會(huì)進(jìn)行詳盡而反復(fù)的調(diào)研分析,并根據(jù)用戶(hù)的需求制定細(xì)致的任務(wù)計(jì)劃,最終的結(jié)果卻并不理想,不能得到想要的結(jié)果。在算法中,如果想要得到用戶(hù)的挖掘目標(biāo),除了算法之外,還需要有特定的實(shí)現(xiàn)機(jī)制,使得我們的挖掘計(jì)劃能夠轉(zhuǎn)變成對(duì)一個(gè)系統(tǒng)工作的控制,這樣才能使得挖掘項(xiàng)目能有期望的結(jié)果。這樣的約束,不需要局限于某一個(gè)挖掘數(shù)據(jù)的階段,在任何階段都可以實(shí)現(xiàn)。而這樣的算法機(jī)制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過(guò)這樣的過(guò)程,來(lái)達(dá)到更好以及快速地完成挖掘任務(wù)。

        2.2 保證挖掘的精確性

        從數(shù)據(jù)挖掘的算法也可以看出,結(jié)果具有不可預(yù)測(cè)性,而正因此,對(duì)于算法運(yùn)行的過(guò)程中,遇到的問(wèn)題也是難以把握的,所以算法還需要加上反饋機(jī)制,通過(guò)這樣的反饋,來(lái)進(jìn)行驗(yàn)證結(jié)果并修正算法中的數(shù)據(jù),如果這個(gè)過(guò)程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶(hù)所側(cè)重的,所以數(shù)據(jù)挖掘的結(jié)果不僅要具有邏輯上的正確性,還要能夠滿足用戶(hù)的主觀偏好;也就是既要準(zhǔn)確,還要可信且符合用戶(hù)需求。而約束就是這樣實(shí)現(xiàn)的,通過(guò)約束發(fā)現(xiàn)算法中的問(wèn)題并及時(shí)校正算法,以最終能夠滿足各項(xiàng)需求。

        2.3 控制系統(tǒng)的使用規(guī)模

        數(shù)據(jù)挖掘算法的實(shí)現(xiàn)過(guò)程容易陷入一個(gè)誤區(qū),只側(cè)重由一個(gè)系統(tǒng)處理所出現(xiàn)的問(wèn)題,而忽略了對(duì)于控制系統(tǒng)的規(guī)模大小的考慮,這樣的結(jié)果就是適得其反,問(wèn)題并不會(huì)得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于,系統(tǒng)的增量式擴(kuò)充得到實(shí)現(xiàn),確定了用戶(hù)的需求和目標(biāo)之后,通過(guò)約束參數(shù)的形式,來(lái)實(shí)現(xiàn)對(duì)一些有待解決的問(wèn)題的驗(yàn)證,而這些數(shù)值的確定,可以通過(guò)實(shí)驗(yàn)的交互式輸入實(shí)現(xiàn),以找到較優(yōu)值。而這樣的約束過(guò)程,可以在數(shù)據(jù)挖掘的不同階段加以實(shí)現(xiàn);而在數(shù)據(jù)的預(yù)處理過(guò)程中,設(shè)置的約束個(gè)數(shù)既要能夠保證挖掘的最終結(jié)果,又要注意保持?jǐn)?shù)據(jù)的規(guī)模;在數(shù)據(jù)挖掘的過(guò)程中,對(duì)于整個(gè)項(xiàng)目的細(xì)分之后的子目標(biāo),也可以加上約束,以能夠快速達(dá)到約束的目的;當(dāng)然也可以對(duì)不同類(lèi)型的問(wèn)題加以不同的約束條件,以更好地解決問(wèn)題;尤其是對(duì)于層級(jí)較多或者維度較高的數(shù)據(jù),可以選擇合適的約束來(lái)達(dá)到問(wèn)題的轉(zhuǎn)化或者簡(jiǎn)化。對(duì)于約束類(lèi)型,時(shí)態(tài)約束下的關(guān)聯(lián)規(guī)則指的是,一次數(shù)據(jù)庫(kù)掃描挖掘算法,可以在一定程度上,減少I(mǎi)/O的個(gè)數(shù),但是在數(shù)據(jù)量不斷上升的過(guò)程中,對(duì)于計(jì)算機(jī)內(nèi)存的占用也越來(lái)越大,而且是線性地增加,所以怎樣很好地控制ISS的容量變得很有必要,而且這樣也能夠一定程度上減少對(duì)CPU的占用。為了這個(gè)問(wèn)題的有效改善,我們使用了兩種方法,一個(gè)是有效地約束時(shí)態(tài)數(shù)據(jù)庫(kù),用戶(hù)所不感興趣的時(shí)間范圍內(nèi)的信息去除;二是待處理的數(shù)據(jù)要進(jìn)行分批處理,經(jīng)過(guò)一定的數(shù)據(jù)結(jié)構(gòu)進(jìn)入內(nèi)存,這樣有效地將數(shù)據(jù)進(jìn)行組織。而對(duì)于沒(méi)有重疊部分的時(shí)區(qū),可以生成獨(dú)立的關(guān)聯(lián)規(guī)則,減少了對(duì)計(jì)算機(jī)硬件資源的占用,而且很好地改善了精確度endprint

        問(wèn)題。

        3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

        對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。

        3.1 減少事務(wù)的個(gè)數(shù)

        這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。

        3.2 基于劃分的方法

        這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。

        3.3 基于hash的方法

        在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。

        3.4 基于采樣的方法

        基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。

        3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

        早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。

        3.6 并行挖掘

        數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。

        4 案例分析

        這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。

        序號(hào) 名稱(chēng)

        1 單月總在線時(shí)長(zhǎng)onlinetime

        2 單月總登陸次數(shù)times

        3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

        4 首登時(shí)間firstlogintime

        5 月充值金額

        6 當(dāng)前等級(jí)playerlevel

        7 陣營(yíng)

        8 游戲幣總額

        注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。

        模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。

        基于上述分析,我們建立模型并分析:

        分析結(jié)果顯示:

        1)3890453610,此部分樣本權(quán)重為25.8%,流失用戶(hù)4658個(gè),比例為43%。

        2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù),若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。

        3)796

        4)7962012.6.9,樣本權(quán)重2.4%,流失用戶(hù)數(shù)627個(gè),流失概率62%。

        5)0

        6)88570,權(quán)重為10%,流失2427個(gè),流失率為56%。

        5 結(jié)論

        數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。

        參考文獻(xiàn)

        [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.

        [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33.

        作者簡(jiǎn)介

        郭玲(1970-),女,湖南長(zhǎng)沙人,珠海城市職業(yè)技術(shù)學(xué)院講師,從事計(jì)算機(jī)軟件方向研究。

        問(wèn)題。

        3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

        對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。

        3.1 減少事務(wù)的個(gè)數(shù)

        這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。

        3.2 基于劃分的方法

        這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。

        3.3 基于hash的方法

        在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。

        3.4 基于采樣的方法

        基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。

        3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

        早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。

        3.6 并行挖掘

        數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。

        4 案例分析

        這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。

        序號(hào) 名稱(chēng)

        1 單月總在線時(shí)長(zhǎng)onlinetime

        2 單月總登陸次數(shù)times

        3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

        4 首登時(shí)間firstlogintime

        5 月充值金額

        6 當(dāng)前等級(jí)playerlevel

        7 陣營(yíng)

        8 游戲幣總額

        注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。

        模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。

        基于上述分析,我們建立模型并分析:

        分析結(jié)果顯示:

        1)3890453610,此部分樣本權(quán)重為25.8%,流失用戶(hù)4658個(gè),比例為43%。

        2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù),若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。

        3)796

        4)7962012.6.9,樣本權(quán)重2.4%,流失用戶(hù)數(shù)627個(gè),流失概率62%。

        5)0

        6)88570,權(quán)重為10%,流失2427個(gè),流失率為56%。

        5 結(jié)論

        數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。

        參考文獻(xiàn)

        [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.

        [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33.

        作者簡(jiǎn)介

        郭玲(1970-),女,湖南長(zhǎng)沙人,珠海城市職業(yè)技術(shù)學(xué)院講師,從事計(jì)算機(jī)軟件方向研究。

        問(wèn)題。

        3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

        對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。

        3.1 減少事務(wù)的個(gè)數(shù)

        這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。

        3.2 基于劃分的方法

        這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。

        3.3 基于hash的方法

        在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。

        3.4 基于采樣的方法

        基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。

        3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

        早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。

        3.6 并行挖掘

        數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。

        4 案例分析

        這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。

        序號(hào) 名稱(chēng)

        1 單月總在線時(shí)長(zhǎng)onlinetime

        2 單月總登陸次數(shù)times

        3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

        4 首登時(shí)間firstlogintime

        5 月充值金額

        6 當(dāng)前等級(jí)playerlevel

        7 陣營(yíng)

        8 游戲幣總額

        注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。

        模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。

        基于上述分析,我們建立模型并分析:

        分析結(jié)果顯示:

        1)3890453610,此部分樣本權(quán)重為25.8%,流失用戶(hù)4658個(gè),比例為43%。

        2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù),若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。

        3)796

        4)7962012.6.9,樣本權(quán)重2.4%,流失用戶(hù)數(shù)627個(gè),流失概率62%。

        5)0

        6)88570,權(quán)重為10%,流失2427個(gè),流失率為56%。

        5 結(jié)論

        數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。

        參考文獻(xiàn)

        [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11.

        [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33.

        作者簡(jiǎn)介

        郭玲(1970-),女,湖南長(zhǎng)沙人,珠海城市職業(yè)技術(shù)學(xué)院講師,從事計(jì)算機(jī)軟件方向研究。

        猜你喜歡
        Apriori算法關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
        基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
        基于云平臺(tái)MapReduce的Apriori算法研究
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
        基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        香港三级日本三级a视频| 国产女主播在线免费观看| 北岛玲亚洲一区二区三区| 九月色婷婷免费| 成人性生交大片免费看i| 国产丝袜长腿美臀在线观看| 夜晚黄色福利国产精品| 久久久精品视频网站在线观看| 男人的天堂av高清在线| 天天夜碰日日摸日日澡性色av| 影音先锋色小姐| 一夲道无码人妻精品一区二区 | 一本色道久在线综合色| 国产97色在线 | 国产| 麻豆av一区二区三区| 免费人成视频在线观看网站| 精品乱码卡1卡2卡3免费开放| 第九色区Aⅴ天堂| 富婆叫鸭一区二区三区| 亚洲av天堂在线免费观看| 东北老熟女被弄的嗷嗷叫高潮| 极品老师腿张开粉嫩小泬| 国产精品亚洲а∨无码播放不卡| 一本一道波多野结衣一区| 亚洲嫩草影院久久精品| 亚洲av中文字字幕乱码软件| 蜜桃传媒免费在线播放| 成人毛片无码一区二区三区| 越猛烈欧美xx00动态图| 456亚洲人成在线播放网站| 亚洲一区二区三区免费av| 亚洲av三级黄色在线观看| 欧美村妇激情内射| 丰满人妻被黑人中出849| 国产一区二区三区国产精品| 一区二区三区四区午夜视频在线| 日本av天堂一区二区三区| 一本一道av无码中文字幕麻豆| 欧美极品色午夜在线视频| 亚洲国产高清在线观看视频| AV无码免费不卡在线观看|