數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究

2014-08-26 16:13:43郭玲

新媒體研究 2014年15期

關(guān)鍵詞：Apriori算法關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

摘要隨著人們對(duì)信息數(shù)據(jù)量的急速增長(zhǎng)從而數(shù)據(jù)挖掘技術(shù)也隨之應(yīng)運(yùn)而生，這使得人們對(duì)知識(shí)與信息的渴求得到了進(jìn)一步滿足。對(duì)于如何才能快速高效的獲取知識(shí)，對(duì)于信息處理技術(shù)來(lái)說(shuō)已經(jīng)成為當(dāng)前熱門(mén)的研究課題。審視當(dāng)前對(duì)于關(guān)聯(lián)規(guī)則的研究現(xiàn)狀，針對(duì)關(guān)聯(lián)研究的現(xiàn)狀，分析實(shí)際問(wèn)題對(duì)于關(guān)聯(lián)規(guī)則總結(jié)出一種新的研究方式，結(jié)論為關(guān)聯(lián)規(guī)則算法在今后的出路和進(jìn)一步的研究上指明了方向。研究過(guò)程中通過(guò)對(duì)文獻(xiàn)的查詢(xún)分析和比較分析兩種方法，進(jìn)一步闡述對(duì)典型關(guān)聯(lián)產(chǎn)生影響的各種方法，其中最為重要的是把核心Apriori算法作為一個(gè)研究的基點(diǎn)。

關(guān)鍵詞數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；典型關(guān)聯(lián)；Apriori算法

中圖分類(lèi)號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1671-7597（2014）15-0030-03

當(dāng)今社會(huì)人們對(duì)計(jì)算機(jī)應(yīng)用提出了更高要求，如今人們慢慢的意識(shí)到關(guān)系數(shù)據(jù)庫(kù)有很多缺點(diǎn)和限制，這種問(wèn)題又推動(dòng)了數(shù)據(jù)庫(kù)在更深領(lǐng)域上的研究。當(dāng)前專(zhuān)家們對(duì)數(shù)據(jù)庫(kù)的研究?jī)?nèi)容主要是把數(shù)據(jù)庫(kù)技術(shù)與其他技術(shù)相結(jié)合，然后應(yīng)用到特定領(lǐng)域中，這種研究現(xiàn)在已經(jīng)取得了驕人的成績(jī)。

1 數(shù)據(jù)挖掘技術(shù)

1.1 數(shù)據(jù)挖掘概念

從數(shù)據(jù)挖掘的本質(zhì)上說(shuō)它是一種具有更高商業(yè)價(jià)值的新型信息處理技術(shù)，數(shù)據(jù)挖掘技術(shù)的作用是對(duì)數(shù)據(jù)的應(yīng)用來(lái)說(shuō)的，其目的是使人們從低層次的聯(lián)機(jī)查詢(xún)過(guò)渡到對(duì)數(shù)據(jù)決策支持分析預(yù)測(cè)上，從而成為更高層次的應(yīng)用。

1.2 數(shù)據(jù)挖掘技術(shù)的分類(lèi)

關(guān)于數(shù)據(jù)挖掘針對(duì)其挖掘的對(duì)象，大致的可以做出以下分類(lèi)，具體分為時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)（Object-Oriented Database）、空間數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)以及web等比較具有針對(duì)性的挖掘?qū)ο蟆ａ槍?duì)數(shù)據(jù)挖掘的方法大致的可以歸納為：計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類(lèi)分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò)Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。

根據(jù)數(shù)據(jù)挖掘技術(shù)的知識(shí)類(lèi)型可以分為：廣義范圍的知識(shí)挖掘、差異范圍的知識(shí)挖掘、關(guān)聯(lián)范圍的知識(shí)挖掘、預(yù)測(cè)范圍的知識(shí)挖掘等。

1.3 數(shù)據(jù)挖掘的應(yīng)用分析

根據(jù)麻省理工學(xué)院內(nèi)部數(shù)據(jù)整理其科技評(píng)論雜志對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用分析提出了10大新興的科學(xué)技術(shù)數(shù)據(jù)挖掘能夠在未來(lái)5年對(duì)人類(lèi)的生產(chǎn)生活帶來(lái)重大影響。根據(jù)種種數(shù)據(jù)分析所表明的問(wèn)題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)面向?qū)嶋H應(yīng)用方面不是一時(shí)的，隨著時(shí)代的發(fā)展社會(huì)信息化進(jìn)程不斷加劇各行業(yè)的業(yè)務(wù)操作也隨之逐漸向現(xiàn)代化流程轉(zhuǎn)變，這一轉(zhuǎn)變促使企業(yè)在處理業(yè)務(wù)時(shí)產(chǎn)生大量的業(yè)務(wù)信息數(shù)據(jù)。對(duì)于一般地企業(yè)內(nèi)部的業(yè)務(wù)信息數(shù)據(jù)來(lái)說(shuō)，其主要是由企業(yè)進(jìn)行商業(yè)運(yùn)作而產(chǎn)生的數(shù)據(jù)，這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場(chǎng)分析而進(jìn)行收集的，關(guān)于此類(lèi)的數(shù)據(jù)挖掘的應(yīng)用終將成為企業(yè)進(jìn)行高層次數(shù)據(jù)分析，為行政決策提供技術(shù)支持的骨干技術(shù)。

1.4 數(shù)據(jù)挖掘技術(shù)和方法

1）統(tǒng)計(jì)方法。統(tǒng)計(jì)就是查找事物的數(shù)量或規(guī)律，數(shù)據(jù)挖掘技術(shù)中使用統(tǒng)計(jì)方法主要目的就是從事物的數(shù)量上來(lái)推斷其規(guī)律，通常都是在事物的數(shù)據(jù)上來(lái)找線索，然后根據(jù)這些線索進(jìn)行假設(shè)，然后根據(jù)這些假設(shè)去驗(yàn)證其可行性，這種方法最大的優(yōu)點(diǎn)就是精確性。

2）模糊集。模糊集顧名思義就是不清楚，沒(méi)有針對(duì)性。模糊集的數(shù)據(jù)處理分為兩個(gè)方面一個(gè)方面是不完整的數(shù)據(jù)，另一個(gè)方面就是不確定的數(shù)據(jù)。模糊數(shù)據(jù)主要處理這兩種數(shù)據(jù)，在這兩種數(shù)據(jù)的處理上要比以往的數(shù)據(jù)處理更加方便有效。

3）支持向量機(jī)。向量機(jī)就是一些數(shù)學(xué)理論，支持向量機(jī)就是建立在某些數(shù)學(xué)理論上的結(jié)構(gòu)風(fēng)險(xiǎn)。它主要的思想就是在一個(gè)高空的多維空間中找一個(gè)超平面，利用這個(gè)超平面把這兩類(lèi)進(jìn)行隔開(kāi)，這樣就可以保證最小分類(lèi)的錯(cuò)誤率。它的一個(gè)很重要的優(yōu)點(diǎn)就是可以處理一些線性問(wèn)題。

4）規(guī)則歸納。規(guī)則的歸納就是對(duì)數(shù)據(jù)進(jìn)行相關(guān)的統(tǒng)計(jì)，其主要反映數(shù)據(jù)項(xiàng)中的一些屬性和集合，其中用的最多的歸納算法就是AQ法，它是歸納法中比較典型的，數(shù)據(jù)挖掘技術(shù)是目前計(jì)算機(jī)信息技術(shù)領(lǐng)域比較前言的研究方向，數(shù)據(jù)挖掘技術(shù)可以從數(shù)據(jù)庫(kù)中找出一些潛在的、位置的信息和知識(shí)。

2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問(wèn)題及算法

2.1 聚焦挖掘任務(wù)，提高挖掘效率

數(shù)據(jù)挖掘理論最初的研究側(cè)重點(diǎn)是模型的建立以及算法的設(shè)計(jì)。隨著應(yīng)用于不同的場(chǎng)合，得出的結(jié)果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項(xiàng)目中，會(huì)進(jìn)行詳盡而反復(fù)的調(diào)研分析，并根據(jù)用戶(hù)的需求制定細(xì)致的任務(wù)計(jì)劃，最終的結(jié)果卻并不理想，不能得到想要的結(jié)果。在算法中，如果想要得到用戶(hù)的挖掘目標(biāo)，除了算法之外，還需要有特定的實(shí)現(xiàn)機(jī)制，使得我們的挖掘計(jì)劃能夠轉(zhuǎn)變成對(duì)一個(gè)系統(tǒng)工作的控制，這樣才能使得挖掘項(xiàng)目能有期望的結(jié)果。這樣的約束，不需要局限于某一個(gè)挖掘數(shù)據(jù)的階段，在任何階段都可以實(shí)現(xiàn)。而這樣的算法機(jī)制，也是交互式數(shù)據(jù)挖掘算法的基本形式，通過(guò)這樣的過(guò)程，來(lái)達(dá)到更好以及快速地完成挖掘任務(wù)。

2.2 保證挖掘的精確性

從數(shù)據(jù)挖掘的算法也可以看出，結(jié)果具有不可預(yù)測(cè)性，而正因此，對(duì)于算法運(yùn)行的過(guò)程中，遇到的問(wèn)題也是難以把握的，所以算法還需要加上反饋機(jī)制，通過(guò)這樣的反饋，來(lái)進(jìn)行驗(yàn)證結(jié)果并修正算法中的數(shù)據(jù)，如果這個(gè)過(guò)程中，挖掘到的數(shù)據(jù)是正確的，但也未必是用戶(hù)所側(cè)重的，所以數(shù)據(jù)挖掘的結(jié)果不僅要具有邏輯上的正確性，還要能夠滿足用戶(hù)的主觀偏好；也就是既要準(zhǔn)確，還要可信且符合用戶(hù)需求。而約束就是這樣實(shí)現(xiàn)的，通過(guò)約束發(fā)現(xiàn)算法中的問(wèn)題并及時(shí)校正算法，以最終能夠滿足各項(xiàng)需求。

2.3 控制系統(tǒng)的使用規(guī)模

數(shù)據(jù)挖掘算法的實(shí)現(xiàn)過(guò)程容易陷入一個(gè)誤區(qū)，只側(cè)重由一個(gè)系統(tǒng)處理所出現(xiàn)的問(wèn)題，而忽略了對(duì)于控制系統(tǒng)的規(guī)模大小的考慮，這樣的結(jié)果就是適得其反，問(wèn)題并不會(huì)得到很好地解決。而約束數(shù)據(jù)挖掘的原理在于，系統(tǒng)的增量式擴(kuò)充得到實(shí)現(xiàn)，確定了用戶(hù)的需求和目標(biāo)之后，通過(guò)約束參數(shù)的形式，來(lái)實(shí)現(xiàn)對(duì)一些有待解決的問(wèn)題的驗(yàn)證，而這些數(shù)值的確定，可以通過(guò)實(shí)驗(yàn)的交互式輸入實(shí)現(xiàn)，以找到較優(yōu)值。而這樣的約束過(guò)程，可以在數(shù)據(jù)挖掘的不同階段加以實(shí)現(xiàn)；而在數(shù)據(jù)的預(yù)處理過(guò)程中，設(shè)置的約束個(gè)數(shù)既要能夠保證挖掘的最終結(jié)果，又要注意保持?jǐn)?shù)據(jù)的規(guī)模；在數(shù)據(jù)挖掘的過(guò)程中，對(duì)于整個(gè)項(xiàng)目的細(xì)分之后的子目標(biāo)，也可以加上約束，以能夠快速達(dá)到約束的目的；當(dāng)然也可以對(duì)不同類(lèi)型的問(wèn)題加以不同的約束條件，以更好地解決問(wèn)題；尤其是對(duì)于層級(jí)較多或者維度較高的數(shù)據(jù)，可以選擇合適的約束來(lái)達(dá)到問(wèn)題的轉(zhuǎn)化或者簡(jiǎn)化。對(duì)于約束類(lèi)型，時(shí)態(tài)約束下的關(guān)聯(lián)規(guī)則指的是，一次數(shù)據(jù)庫(kù)掃描挖掘算法，可以在一定程度上，減少I(mǎi)/O的個(gè)數(shù)，但是在數(shù)據(jù)量不斷上升的過(guò)程中，對(duì)于計(jì)算機(jī)內(nèi)存的占用也越來(lái)越大，而且是線性地增加，所以怎樣很好地控制ISS的容量變得很有必要，而且這樣也能夠一定程度上減少對(duì)CPU的占用。為了這個(gè)問(wèn)題的有效改善，我們使用了兩種方法，一個(gè)是有效地約束時(shí)態(tài)數(shù)據(jù)庫(kù)，用戶(hù)所不感興趣的時(shí)間范圍內(nèi)的信息去除；二是待處理的數(shù)據(jù)要進(jìn)行分批處理，經(jīng)過(guò)一定的數(shù)據(jù)結(jié)構(gòu)進(jìn)入內(nèi)存，這樣有效地將數(shù)據(jù)進(jìn)行組織。而對(duì)于沒(méi)有重疊部分的時(shí)區(qū)，可以生成獨(dú)立的關(guān)聯(lián)規(guī)則，減少了對(duì)計(jì)算機(jī)硬件資源的占用，而且很好地改善了精確度endprint

問(wèn)題。

3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

對(duì)于理論基礎(chǔ)比較成熟的算法—Apriori算法，研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟?wèn)題，人們也提出了各種的改進(jìn)算法，本文選區(qū)幾種比較有代表性的加以介紹。

3.1 減少事務(wù)的個(gè)數(shù)

這樣的原理在于，當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集，那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過(guò)程中，就可以將這樣的事務(wù)濾去，在下輪掃描過(guò)程中，就可以不需要那么多的事務(wù)集。

3.2 基于劃分的方法

這類(lèi)算法比較典型的是頻繁項(xiàng)目生成算法，該算法原理在于：把數(shù)據(jù)庫(kù)分解成邏輯上互不交叉的部分，而每次只需要單獨(dú)考慮一個(gè)分塊，在這樣的分塊中，研究怎樣能夠發(fā)掘頻繁項(xiàng)目集；而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中，可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中，這樣有利于算法的并行處理，數(shù)據(jù)量相對(duì)于不分塊前減少，提高了數(shù)據(jù)挖掘的速度。

3.3 基于hash的方法

在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中，有人提出了改進(jìn)算法，基于雜（hash）技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的，因?yàn)閷?shí)驗(yàn)中，他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過(guò)程中，計(jì)算量主要集中在2-頻繁項(xiàng)目集上，他們通過(guò)雜湊技術(shù)來(lái)對(duì)這個(gè)問(wèn)題加以解決，把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶，而對(duì)于每對(duì)項(xiàng)目來(lái)說(shuō)，最多只可能在一個(gè)特定的桶內(nèi)，然后通過(guò)實(shí)驗(yàn)分析，可以有效地降低了候選集的產(chǎn)生。

3.4 基于采樣的方法

基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于：通過(guò)對(duì)數(shù)據(jù)庫(kù)進(jìn)行抽樣，產(chǎn)生一些可能成立的規(guī)則，然后通過(guò)數(shù)據(jù)庫(kù)的未被抽樣數(shù)據(jù)，進(jìn)行檢驗(yàn)，這些關(guān)聯(lián)規(guī)則是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn)，并且能夠極大地減少數(shù)據(jù)挖掘過(guò)程中所付出的I/O代價(jià)，而不利的地方在于，抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來(lái)的結(jié)果的偏差比較大。抽樣原理是統(tǒng)計(jì)學(xué)常用方法，雖然其得到的結(jié)果精確性可能并不盡人意；如果能被運(yùn)用恰當(dāng)?shù)脑?，可以在精度符合要求的情況下使得挖掘效率大大地提高。

3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

早在1997年，Brin等一些研究人員就提出了一種用來(lái)減少數(shù)據(jù)庫(kù)掃面次數(shù)的算法，這種算法實(shí)際上就是通過(guò)下層分析方法來(lái)提前處理。換句話說(shuō)，當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí)，如果發(fā)現(xiàn)（k+1）-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集，那么我們就直接將兩者進(jìn)行并行運(yùn)算，進(jìn)而得出（k+1）-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫(kù)掃描次數(shù)，從而在運(yùn)行效率上要優(yōu)于Apriori算法。

3.6 并行挖掘

數(shù)據(jù)分布技術(shù)的出現(xiàn)使得我們可以對(duì)數(shù)據(jù)子集進(jìn)行深層次挖掘，而且在不同子集之間我們還可以開(kāi)展并行計(jì)算。多層次關(guān)聯(lián)規(guī)則挖掘就是并行挖掘中的關(guān)鍵技術(shù)之一，所謂多層次關(guān)聯(lián)規(guī)則可以用上圖來(lái)進(jìn)行描述。在很多事務(wù)數(shù)據(jù)庫(kù)中，某些項(xiàng)所隱含的概念有很多層次。

4 案例分析

這里我們以《天道》項(xiàng)目為例進(jìn)行流失用戶(hù)預(yù)警分析，通過(guò)其8、9兩個(gè)月的相關(guān)數(shù)據(jù)來(lái)判斷12月《天道》所有登陸用戶(hù)的流失可能性和對(duì)應(yīng)的流失概率。

序號(hào) 名稱(chēng)

1 單月總在線時(shí)長(zhǎng)onlinetime

2 單月總登陸次數(shù)times

3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

4 首登時(shí)間firstlogintime

5 月充值金額

6 當(dāng)前等級(jí)playerlevel

7 陣營(yíng)

8 游戲幣總額

注：如若條件允許，能加入玩家的當(dāng)前經(jīng)驗(yàn)，玩家的游戲社交屬性值，活躍度，及玩家的客服記錄，玩家的來(lái)源廣告媒體等信息將會(huì)使此模型的研究更有價(jià)值。

模型評(píng)估是運(yùn)用Clementine的分析節(jié)點(diǎn)對(duì)已建立的客戶(hù)流失預(yù)測(cè)模型進(jìn)行精確性分析，評(píng)價(jià)指標(biāo)為對(duì)未經(jīng)分類(lèi)處理的測(cè)試數(shù)據(jù)進(jìn)行正確分類(lèi)的。準(zhǔn)確率，即“預(yù)測(cè)正確率= 正確預(yù)測(cè)個(gè)數(shù)/測(cè)試樣本數(shù)×100%”。通過(guò)分析計(jì)算我們可以明確的看出（如下圖所示），訓(xùn)練樣本的精確度為81.42%，測(cè)試樣本的精確度為81.46%，此模型的精確度已較理想，不過(guò)我們還可以通過(guò)增加樣本容量（取三個(gè)月的游戲玩家信息，或者半年的游戲玩家信息），調(diào)整模型中的參數(shù)來(lái)提高模型的正確率。

基于上述分析，我們建立模型并分析：

分析結(jié)果顯示：

1）3890453610，此部分樣本權(quán)重為25.8%，流失用戶(hù)4658個(gè)，比例為43%。

2）onlinetime>220363，樣本權(quán)重為9%，流失275個(gè)，比例為7%，雖然比例較小，但這個(gè)部分的賬戶(hù)應(yīng)是非常有價(jià)值的用戶(hù)，若采取個(gè)性化的服務(wù)，應(yīng)會(huì)帶來(lái)更大的價(jià)值。

3）796

4）7962012.6.9，樣本權(quán)重2.4%，流失用戶(hù)數(shù)627個(gè)，流失概率62%。

5）0

6）88570，權(quán)重為10%，流失2427個(gè)，流失率為56%。

5 結(jié)論

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多，本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中，筆者將繼續(xù)致力于該領(lǐng)域的研究工作，以期能夠獲得更多有價(jià)值的研究成果。

參考文獻(xiàn)

[1]孟海東，李丹丹，吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化，2013（01）：8-11.

[2]陸新慧，吳陳，楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展，2013（05）：26-29，33.

作者簡(jiǎn)介

郭玲（1970-），女，湖南長(zhǎng)沙人，珠海城市職業(yè)技術(shù)學(xué)院講師，從事計(jì)算機(jī)軟件方向研究。

問(wèn)題。

3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

3.1 減少事務(wù)的個(gè)數(shù)

3.2 基于劃分的方法

3.3 基于hash的方法

3.4 基于采樣的方法

3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

3.6 并行挖掘

4 案例分析

序號(hào) 名稱(chēng)

1 單月總在線時(shí)長(zhǎng)onlinetime

2 單月總登陸次數(shù)times

3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

4 首登時(shí)間firstlogintime

5 月充值金額

6 當(dāng)前等級(jí)playerlevel

7 陣營(yíng)

8 游戲幣總額

基于上述分析，我們建立模型并分析：

分析結(jié)果顯示：

1）3890453610，此部分樣本權(quán)重為25.8%，流失用戶(hù)4658個(gè)，比例為43%。

3）796

4）7962012.6.9，樣本權(quán)重2.4%，流失用戶(hù)數(shù)627個(gè)，流失概率62%。

5）0

6）88570，權(quán)重為10%，流失2427個(gè)，流失率為56%。

5 結(jié)論

參考文獻(xiàn)

[2]陸新慧，吳陳，楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展，2013（05）：26-29，33.

作者簡(jiǎn)介

郭玲（1970-），女，湖南長(zhǎng)沙人，珠海城市職業(yè)技術(shù)學(xué)院講師，從事計(jì)算機(jī)軟件方向研究。

問(wèn)題。

3 數(shù)據(jù)分割下的挖掘問(wèn)題及算法

3.1 減少事務(wù)的個(gè)數(shù)

3.2 基于劃分的方法

3.3 基于hash的方法

3.4 基于采樣的方法

3.5 盡量減少數(shù)據(jù)庫(kù)的掃面次數(shù)

3.6 并行挖掘

4 案例分析

序號(hào) 名稱(chēng)

1 單月總在線時(shí)長(zhǎng)onlinetime

2 單月總登陸次數(shù)times

3 賬戶(hù)累計(jì)登陸總時(shí)長(zhǎng)totalonlinetime

4 首登時(shí)間firstlogintime

5 月充值金額

6 當(dāng)前等級(jí)playerlevel

7 陣營(yíng)

8 游戲幣總額

基于上述分析，我們建立模型并分析：

分析結(jié)果顯示：

1）3890453610，此部分樣本權(quán)重為25.8%，流失用戶(hù)4658個(gè)，比例為43%。

3）796

4）7962012.6.9，樣本權(quán)重2.4%，流失用戶(hù)數(shù)627個(gè)，流失概率62%。

5）0

6）88570，權(quán)重為10%，流失2427個(gè)，流失率為56%。

5 結(jié)論

參考文獻(xiàn)

[2]陸新慧，吳陳，楊習(xí)貝.空間關(guān)聯(lián)規(guī)則挖掘技術(shù)的研究及應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展，2013（05）：26-29，33.

作者簡(jiǎn)介

郭玲（1970-），女，湖南長(zhǎng)沙人，珠海城市職業(yè)技術(shù)學(xué)院講師，從事計(jì)算機(jī)軟件方向研究。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究