摘 要 隨著人們對(duì)信息數(shù)據(jù)量的急速增長(zhǎng)從而數(shù)據(jù)挖掘技術(shù)也隨之應(yīng)運(yùn)而生,這使得人們對(duì)知識(shí)與信息的渴求得到了進(jìn)一步滿足。對(duì)于如何才能快速高效的獲取知識(shí),對(duì)于信息處理技術(shù)來(lái)說(shuō)已經(jīng)成為當(dāng)前熱門(mén)的研究課題。審視當(dāng)前對(duì)于關(guān)聯(lián)規(guī)則的研究現(xiàn)狀,針對(duì)關(guān)聯(lián)研究的現(xiàn)狀,分析實(shí)際問(wèn)題對(duì)于關(guān)聯(lián)規(guī)則總結(jié)出一種新的研究方式,結(jié)論為關(guān)聯(lián)規(guī)則算法在今后的出路和進(jìn)一步的研究上指明了方向。研究過(guò)程中通過(guò)對(duì)文獻(xiàn)的查詢(xún)分析和比較分析兩種方法,進(jìn)一步闡述對(duì)典型關(guān)聯(lián)產(chǎn)生影響的各種方法,其中最為重要的是把核心Apriori算法作為一個(gè)研究的基點(diǎn)。
關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;典型關(guān)聯(lián);Apriori算法
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2014)15-0030-03
當(dāng)今社會(huì)人們對(duì)計(jì)算機(jī)應(yīng)用提出了更高要求,如今人們慢慢的意識(shí)到關(guān)系數(shù)據(jù)庫(kù)有很多缺點(diǎn)和限制,這種問(wèn)題又推動(dòng)了數(shù)據(jù)庫(kù)在更深領(lǐng)域上的研究。當(dāng)前專(zhuān)家們對(duì)數(shù)據(jù)庫(kù)的研究?jī)?nèi)容主要是把數(shù)據(jù)庫(kù)技術(shù)與其他技術(shù)相結(jié)合,然后應(yīng)用到特定領(lǐng)域中,這種研究現(xiàn)在已經(jīng)取得了驕人的成績(jī)。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概念
從數(shù)據(jù)挖掘的本質(zhì)上說(shuō)它是一種具有更高商業(yè)價(jià)值的新型信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)的作用是對(duì)數(shù)據(jù)的應(yīng)用來(lái)說(shuō)的,其目的是使人們從低層次的聯(lián)機(jī)查詢(xún)過(guò)渡到對(duì)數(shù)據(jù)決策支持分析預(yù)測(cè)上,從而成為更高層次的應(yīng)用。
1.2 數(shù)據(jù)挖掘技術(shù)的分類(lèi)
關(guān)于數(shù)據(jù)挖掘針對(duì)其挖掘的對(duì)象,大致的可以做出以下分類(lèi),具體分為時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)(Object-Oriented Database)、空間數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)以及web等比較具有針對(duì)性的挖掘?qū)ο蟆a槍?duì)數(shù)據(jù)挖掘的方法大致的可以歸納為:計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類(lèi)分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò)Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。
根據(jù)數(shù)據(jù)挖掘技術(shù)的知識(shí)類(lèi)型可以分為:廣義范圍的知識(shí)挖掘、差異范圍的知識(shí)挖掘、關(guān)聯(lián)范圍的知識(shí)挖掘、預(yù)測(cè)范圍的知識(shí)挖掘等。
1.3 數(shù)據(jù)挖掘的應(yīng)用分析
根據(jù)麻省理工學(xué)院內(nèi)部數(shù)據(jù)整理其科技評(píng)論雜志對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用分析提出了10大新興的科學(xué)技術(shù)數(shù)據(jù)挖掘能夠在未來(lái)5年對(duì)人類(lèi)的生產(chǎn)生活帶來(lái)重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問(wèn)題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)面向?qū)嶋H應(yīng)用方面不是一時(shí)的,隨著時(shí)代的發(fā)展社會(huì)信息化進(jìn)程不斷加劇各行業(yè)的業(yè)務(wù)操作也隨之逐漸向現(xiàn)代化流程轉(zhuǎn)變,這一轉(zhuǎn)變促使企業(yè)在處理業(yè)務(wù)時(shí)產(chǎn)生大量的業(yè)務(wù)信息數(shù)據(jù)。對(duì)于一般地企業(yè)內(nèi)部的業(yè)務(wù)信息數(shù)據(jù)來(lái)說(shuō),其主要是由企業(yè)進(jìn)行商業(yè)運(yùn)作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場(chǎng)分析而進(jìn)行收集的,關(guān)于此類(lèi)的數(shù)據(jù)挖掘的應(yīng)用終將成為企業(yè)進(jìn)行高層次數(shù)據(jù)分析,為行政決策提供技術(shù)支持的骨干技術(shù)。
1.4 數(shù)據(jù)挖掘技術(shù)和方法
1)統(tǒng)計(jì)方法。統(tǒng)計(jì)就是查找事物的數(shù)量或規(guī)律,數(shù)據(jù)挖掘技術(shù)中使用統(tǒng)計(jì)方法主要目的就是從事物的數(shù)量上來(lái)推斷其規(guī)律,通常都是在事物的數(shù)據(jù)上來(lái)找線索,然后根據(jù)這些線索進(jìn)行假設(shè),然后根據(jù)這些假設(shè)去驗(yàn)證其可行性,這種方法最大的優(yōu)點(diǎn)就是精確性。
2)模糊集。模糊集顧名思義就是不清楚,沒(méi)有針對(duì)性。模糊集的數(shù)據(jù)處理分為兩個(gè)方面一個(gè)方面是不完整的數(shù)據(jù),另一個(gè)方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù),在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。
3)支持向量機(jī)。向量機(jī)就是一些數(shù)學(xué)理論,支持向量機(jī)就是建立在某些數(shù)學(xué)理論上的結(jié)構(gòu)風(fēng)險(xiǎn)。它主要的思想就是在一個(gè)高空的多維空間中找一個(gè)超平面,利用這個(gè)超平面把這兩類(lèi)進(jìn)行隔開(kāi),這樣就可以保證最小分類(lèi)的錯(cuò)誤率。它的一個(gè)很重要的優(yōu)點(diǎn)就是可以處理一些線性問(wèn)題。
4)規(guī)則歸納。規(guī)則的歸納就是對(duì)數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計(jì),其主要反映數(shù)據(jù)項(xiàng)中的一些屬性和集合,其中用的最多的歸納算法就是AQ法,它是歸納法中比較典型的,數(shù)據(jù)挖掘技術(shù)是目前計(jì)算機(jī)信息技術(shù)領(lǐng)域比較前言的研究方向,數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)庫(kù)中找出一些潛在的、位置的信息和知識(shí)。
2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問(wèn)題及算法
2.1 聚焦挖掘任務(wù),提高挖掘效率
數(shù)據(jù)挖掘理論最初的研究側(cè)重點(diǎn)是模型的建立以及算法的設(shè)計(jì)。隨著應(yīng)用于不同的場(chǎng)合,得出的結(jié)果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項(xiàng)目中,會(huì)進(jìn)行詳盡而反復(fù)的調(diào)研分析,并根據(jù)用戶(hù)的需求制定細(xì)致的任務(wù)計(jì)劃,最終的結(jié)果卻并不理想,不能得到想要的結(jié)果。在算法中,如果想要得到用戶(hù)的挖掘目標(biāo),除了算法之外,還需要有特定的實(shí)現(xiàn)機(jī)制,使得我們的挖掘計(jì)劃能夠轉(zhuǎn)變成對(duì)一個(gè)系統(tǒng)工作的控制,這樣才能使得挖掘項(xiàng)目能有期望的結(jié)果。這樣的約束,不需要局限于某一個(gè)挖掘數(shù)據(jù)的階段,在任何階段都可以實(shí)現(xiàn)。而這樣的算法機(jī)制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過(guò)這樣的過(guò)程,來(lái)達(dá)到更好以及快速地完成挖掘任務(wù)。
2.2 保證挖掘的精確性
從數(shù)據(jù)挖掘的算法也可以看出,結(jié)果具有不可預(yù)測(cè)性,而正因此,對(duì)于算法運(yùn)行的過(guò)程中,遇到的問(wèn)題也是難以把握的,所以算法還需要加上反饋機(jī)制,通過(guò)這樣的反饋,來(lái)進(jìn)行驗(yàn)證結(jié)果并修正算法中的數(shù)據(jù),如果這個(gè)過(guò)程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶(hù)所側(cè)重的,所以數(shù)據(jù)挖掘的結(jié)果不僅要具有邏輯上的正確性,還要能夠滿足用戶(hù)的主觀偏好;也就是既要準(zhǔn)確,還要可信且符合用戶(hù)需求。而約束就是這樣實(shí)現(xiàn)的,通過(guò)約束發(fā)現(xiàn)算法中的問(wèn)題并及時(shí)校正算法,以最終能夠滿足各項(xiàng)需求。
2.3 控制系統(tǒng)的使用規(guī)模
數(shù)據(jù)挖掘算法的實(shí)現(xiàn)過(guò)程容易陷入一個(gè)誤區(qū),只側(cè)重由一個(gè)系統(tǒng)處理所出現(xiàn)的問(wèn)題,而忽略了對(duì)于控制系統(tǒng)的規(guī)模大小的考慮,這樣的結(jié)果就是適得其反,問(wèn)題并不會(huì)得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于,系統(tǒng)的增量式擴(kuò)充得到實(shí)現(xiàn),確定了用戶(hù)的需求和目標(biāo)之后,通過(guò)約束參數(shù)的形式,來(lái)實(shí)現(xiàn)對(duì)一些有待解決的問(wèn)題的驗(yàn)證,而這些數(shù)值的確定,可以通過(guò)實(shí)驗(yàn)的交互式輸入實(shí)現(xiàn),以找到較優(yōu)值。而這樣的約束過(guò)程,可以在數(shù)據(jù)挖掘的不同階段加以實(shí)現(xiàn);而在數(shù)據(jù)的預(yù)處理過(guò)程中,設(shè)置的約束個(gè)數(shù)既要能夠保證挖掘的最終結(jié)果,又要注意保持?jǐn)?shù)據(jù)的規(guī)模;在數(shù)據(jù)挖掘的過(guò)程中,對(duì)于整個(gè)項(xiàng)目的細(xì)分之后的子目標(biāo),也可以加上約束,以能夠快速達(dá)到約束的目的;當(dāng)然也可以對(duì)不同類(lèi)型的問(wèn)題加以不同的約束條件,以更好地解決問(wèn)題;尤其是對(duì)于層級(jí)較多或者維度較高的數(shù)據(jù),可以選擇合適的約束來(lái)達(dá)到問(wèn)題的轉(zhuǎn)化或者簡(jiǎn)化。對(duì)于約束類(lèi)型,時(shí)態(tài)約束下的關(guān)聯(lián)規(guī)則指的是,一次數(shù)據(jù)庫(kù)掃描挖掘算法,可以在一定程度上,減少I(mǎi)/O的個(gè)數(shù),但是在數(shù)據(jù)量不斷上升的過(guò)程中,對(duì)于計(jì)算機(jī)內(nèi)存的占用也越來(lái)越大,而且是線性地增加,所以怎樣很好地控制ISS的容量變得很有必要,而且這樣也能夠一定程度上減少對(duì)CPU的占用。為了這個(gè)問(wèn)題的有效改善,我們使用了兩種方法,一個(gè)是有效地約束時(shí)態(tài)數(shù)據(jù)庫(kù),用戶(hù)所不感興趣的時(shí)間范圍內(nèi)的信息去除;二是待處理的數(shù)據(jù)要進(jìn)行分批處理,經(jīng)過(guò)一定的數(shù)據(jù)結(jié)構(gòu)進(jìn)入內(nèi)存,這樣有效地將數(shù)據(jù)進(jìn)行組織。而對(duì)于沒(méi)有重疊部分的時(shí)區(qū),可以生成獨(dú)立的關(guān)聯(lián)規(guī)則,減少了對(duì)計(jì)算機(jī)硬件資源的占用,而且很好地改善了精確度endprint
問(wèn)題。
3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法
對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個(gè)數(shù)
這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。
3.2 基于劃分的方法
這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。
序號(hào) 名稱(chēng)
1 單月總在線時(shí)長(zhǎng)onlinetime
2 單月總登陸次數(shù)times
3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime
4 首登時(shí)間firstlogintime
5 月充值金額
6 當(dāng)前等級(jí)playerlevel
7 陣營(yíng)
8 游戲幣總額
注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。
模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結(jié)果顯示:
1)3890
2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù),若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。
3)796 4)796 5)0 6)88 5 結(jié)論 數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。 參考文獻(xiàn) [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11. [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33. 作者簡(jiǎn)介 郭玲(1970-),女,湖南長(zhǎng)沙人,珠海城市職業(yè)技術(shù)學(xué)院講師,從事計(jì)算機(jī)軟件方向研究。
問(wèn)題。
3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法
對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個(gè)數(shù)
這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。
3.2 基于劃分的方法
這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。
序號(hào) 名稱(chēng)
1 單月總在線時(shí)長(zhǎng)onlinetime
2 單月總登陸次數(shù)times
3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime
4 首登時(shí)間firstlogintime
5 月充值金額
6 當(dāng)前等級(jí)playerlevel
7 陣營(yíng)
8 游戲幣總額
注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。
模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結(jié)果顯示:
1)3890
2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù),若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。
3)796 4)796 5)0 6)88 5 結(jié)論 數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。 參考文獻(xiàn) [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11. [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33. 作者簡(jiǎn)介 郭玲(1970-),女,湖南長(zhǎng)沙人,珠海城市職業(yè)技術(shù)學(xué)院講師,從事計(jì)算機(jī)軟件方向研究。
問(wèn)題。
3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法
對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題,人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個(gè)數(shù)
這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中,就可以將這樣的事務(wù)濾去,在下輪掃描過(guò)程中,就可以不需要那么多的事務(wù)集。
3.2 基于劃分的方法
這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō),最多只可能在一個(gè)特定的桶內(nèi),然后通過(guò)實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法,雖然其得到的結(jié)果精確性可能并不盡人意;如果能被運(yùn)用恰當(dāng)?shù)脑?,可以在精度符合要求的情況下使得挖掘效率大大地提高。
3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法,這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō),當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。
3.6 并行挖掘
數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘,而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一,所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中,某些項(xiàng)所隱含的概念有很多層次。
4 案例分析
這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析,通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。
序號(hào) 名稱(chēng)
1 單月總在線時(shí)長(zhǎng)onlinetime
2 單月總登陸次數(shù)times
3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime
4 首登時(shí)間firstlogintime
5 月充值金額
6 當(dāng)前等級(jí)playerlevel
7 陣營(yíng)
8 游戲幣總額
注:如若條件允許,能加入玩家的當(dāng)前經(jīng)驗(yàn),玩家的游戲社交屬性值,活躍度,及玩家的客服記錄,玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。
模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析,評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率,即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出(如下圖所示),訓(xùn)練樣本的精確度為81.42%,測(cè)試樣本的精確度為81.46%,此模型的精確度已較理想,不過(guò)我們還可以通過(guò)增加樣本容量(取三個(gè)月的游戲玩家信息,或者半年的游戲玩家信息),調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。
基于上述分析,我們建立模型并分析:
分析結(jié)果顯示:
1)3890
2)onlinetime>220363,樣本權(quán)重為9%,流失275個(gè),比例為7%,雖然比例較小,但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù),若采取個(gè)性化的服務(wù),應(yīng)會(huì)帶來(lái)更大的價(jià)值。
3)796 4)796 5)0 6)88 5 結(jié)論 數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。 參考文獻(xiàn) [1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2013(01):8-11. [2]陸新慧,吳陳,楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(05):26-29,33. 作者簡(jiǎn)介 郭玲(1970-),女,湖南長(zhǎng)沙人,珠海城市職業(yè)技術(shù)學(xué)院講師,從事計(jì)算機(jī)軟件方向研究。