郭濤 門瑞
摘 要:隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的不斷發(fā)展,數(shù)據(jù)信息逐漸成為當(dāng)前社會(huì)各行各業(yè)發(fā)展的關(guān)鍵。當(dāng)今社會(huì)人們對(duì)計(jì)算機(jī)應(yīng)用提出了更高要求,如今人們慢慢的意識(shí)到關(guān)系數(shù)據(jù)庫有很多缺點(diǎn)和限制,這種問題又推動(dòng)了數(shù)據(jù)庫在更深領(lǐng)域上的研究。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘概念
從數(shù)據(jù)挖掘的本質(zhì)上說它是一種具有更高商業(yè)價(jià)值的新型信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)的作用是對(duì)數(shù)據(jù)的應(yīng)用來說的,其目的是使人們從低層次的聯(lián)機(jī)查詢過渡到對(duì)數(shù)據(jù)決策支持分析預(yù)測(cè)上,從而成為更高層次的應(yīng)用。
1.2 數(shù)據(jù)挖掘技術(shù)分類
關(guān)于數(shù)據(jù)挖掘針對(duì)其挖掘的對(duì)象,大致的可以做出以下分類,具體分為時(shí)態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、文本數(shù)據(jù)源、關(guān)系數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫(Object-Oriented Database)、空間數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及web等比較具有針對(duì)性的挖掘?qū)ο?。針?duì)數(shù)據(jù)挖掘的方法大致的可以歸納為:計(jì)算機(jī)學(xué)習(xí)法、數(shù)理統(tǒng)計(jì)法、信息聚類分析法、遺傳算法Genetic Algorithm、神經(jīng)網(wǎng)絡(luò)Neural Network探索性分析法、不確定性推理和近似推理法、數(shù)據(jù)分析法、證據(jù)理論和元模式法、數(shù)據(jù)集成方法、當(dāng)代數(shù)學(xué)分析法等。
1.3 數(shù)據(jù)挖掘應(yīng)用分析
根據(jù)種種數(shù)據(jù)分析所表明的問題我們不難發(fā)現(xiàn)數(shù)據(jù)挖掘技術(shù)面向?qū)嶋H應(yīng)用方面不是一時(shí)的,隨著時(shí)代的發(fā)展社會(huì)信息化進(jìn)程不斷加劇各行業(yè)的業(yè)務(wù)操作也隨之逐漸向現(xiàn)代化流程轉(zhuǎn)變,這一轉(zhuǎn)變促使企業(yè)在處理業(yè)務(wù)時(shí)產(chǎn)生大量的業(yè)務(wù)信息數(shù)據(jù)。對(duì)于一般地企業(yè)內(nèi)部的業(yè)務(wù)信息數(shù)據(jù)來說,其主要是由企業(yè)進(jìn)行商業(yè)運(yùn)作而產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)的量一般比較少。這是都是企業(yè)為了獲得市場(chǎng)分析而進(jìn)行收集的,關(guān)于此類的數(shù)據(jù)挖掘的應(yīng)用終將成為企業(yè)進(jìn)行高層次數(shù)據(jù)分析,為行政決策提供技術(shù)支持的骨干技術(shù)。
2 時(shí)態(tài)約束關(guān)聯(lián)規(guī)則挖掘問題及算法
2.1 聚焦挖掘任務(wù),提高挖掘效率
數(shù)據(jù)挖掘理論最初的研究側(cè)重點(diǎn)是模型的建立以及算法的設(shè)計(jì)。隨著應(yīng)用于不同的場(chǎng)合,得出的結(jié)果證明單純而又孤立的挖掘工具效果并不理想。傳統(tǒng)的數(shù)據(jù)挖掘項(xiàng)目中,會(huì)進(jìn)行詳盡而反復(fù)的調(diào)研分析,并根據(jù)用戶的需求制定細(xì)致的任務(wù)計(jì)劃,最終的結(jié)果卻并不理想,不能得到想要的結(jié)果。在算法中,如果想要得到用戶的挖掘目標(biāo),除了算法之外,還需要有特定的實(shí)現(xiàn)機(jī)制,使得我們的挖掘計(jì)劃能夠轉(zhuǎn)變成對(duì)一個(gè)系統(tǒng)工作的控制,這樣才能使得挖掘項(xiàng)目能有期望的結(jié)果。這樣的約束,不需要局限于某一個(gè)挖掘數(shù)據(jù)的階段,在任何階段都可以實(shí)現(xiàn)。而這樣的算法機(jī)制,也是交互式數(shù)據(jù)挖掘算法的基本形式,通過這樣的過程,來達(dá)到更好以及快速地完成挖掘任務(wù)。
2.2 保證挖掘的精確性
從數(shù)據(jù)挖掘的算法也可以看出,結(jié)果具有不可預(yù)測(cè)性,而正因此,對(duì)于算法運(yùn)行的過程中,遇到的問題也是難以把握的,所以算法還需要加上反饋機(jī)制,通過這樣的反饋,來進(jìn)行驗(yàn)證結(jié)果并修正算法中的數(shù)據(jù),如果這個(gè)過程中,挖掘到的數(shù)據(jù)是正確的,但也未必是用戶所側(cè)重的,所以數(shù)據(jù)挖掘的結(jié)果不僅要具有邏輯上的正確性,還要能夠滿足用戶的主管偏好;也就是既要準(zhǔn)確,還要可信且符合用戶需求。而約束就是這樣實(shí)現(xiàn)的,通過約束發(fā)現(xiàn)算法中的問題并及時(shí)校正算法,以最終能夠滿足各項(xiàng)需求。
3 數(shù)據(jù)分割下的挖掘問題及算法
對(duì)于理論基礎(chǔ)比較成熟的算法——Apriori算法,研究的側(cè)重點(diǎn)已經(jīng)變?yōu)樾蕟栴},人們也提出了各種的改進(jìn)算法,本文選區(qū)幾種比較有代表性的加以介紹。
3.1 減少事務(wù)的個(gè)數(shù)
這樣的原理在于,當(dāng)需要處理的事務(wù)不包含長(zhǎng)度為k的大項(xiàng)集,那么也一定不包含長(zhǎng)度為k+1的大項(xiàng)集。在算法處理的過程中,就可以將這樣的事務(wù)濾去,在下輪掃描過程中,就可以不需要那么多的事務(wù)集。
3.2 基于劃分的方法
這類算法的比較典型的是頻繁項(xiàng)目生成算法,該算法原理在于:把數(shù)據(jù)庫分解成邏輯上互不交叉的部分,而每次只需要單獨(dú)考慮一個(gè)分塊,在這樣的分塊中,研究怎樣能夠發(fā)掘頻繁項(xiàng)目集;而對(duì)于怎樣將數(shù)據(jù)進(jìn)入存儲(chǔ)中,可以把需要處理的分塊放入計(jì)算機(jī)內(nèi)存中,這樣有利于算法的并行處理,數(shù)據(jù)量相對(duì)于不分塊前減少,提高了數(shù)據(jù)挖掘的速度。
3.3 基于hash的方法
在上述的發(fā)現(xiàn)頻繁項(xiàng)目集的算法中,有人提出了改進(jìn)算法,基于雜(hash)技術(shù)產(chǎn)生頻繁項(xiàng)目集。而這也是他們?cè)趯?shí)驗(yàn)基礎(chǔ)上提出的,因?yàn)閷?shí)驗(yàn)中,他們發(fā)現(xiàn)頻繁項(xiàng)目集的產(chǎn)生過程中,計(jì)算量主要集中在2-頻繁項(xiàng)目集上,他們通過雜湊技術(shù)來對(duì)這個(gè)問題加以解決,把需要掃描的項(xiàng)目分發(fā)于不同的Hash桶,而對(duì)于每對(duì)項(xiàng)目來說,最多只可能在一個(gè)特定的桶內(nèi),然后通過實(shí)驗(yàn)分析,可以有效地降低了候選集的產(chǎn)生。
3.4 基于采樣的方法
基于抽樣技術(shù)的產(chǎn)生頻繁項(xiàng)目集的算法的原理在于:通過對(duì)數(shù)據(jù)庫進(jìn)行抽樣,產(chǎn)生一些可能成立的規(guī)則,然后通過數(shù)據(jù)庫的未被抽樣數(shù)據(jù),進(jìn)行檢驗(yàn),這些關(guān)聯(lián)規(guī)則是否是否有效。其實(shí)這個(gè)算法本身相對(duì)比較容易實(shí)現(xiàn),并且能夠極大地減少數(shù)據(jù)挖掘過程中所付出的I/O代價(jià),而不利的地方在于,抽樣數(shù)據(jù)的隨機(jī)性以及由此帶來的結(jié)果的偏差比較大。
3.5 盡量減少數(shù)據(jù)庫的掃面次數(shù)
早在1997年,Brin等一些研究人員就提出了一種用來減少數(shù)據(jù)庫掃面次數(shù)的算法,這種算法實(shí)際上就是通過下層分析方法來提前處理。換句話說,當(dāng)我們正在運(yùn)行k-項(xiàng)集時(shí),如果發(fā)現(xiàn)(k+1)-項(xiàng)集有極大可能會(huì)是頻繁項(xiàng)目集,那么我們就直接將兩者進(jìn)行并行運(yùn)算,進(jìn)而得出(k+1)-項(xiàng)集支持度。這樣的做法能夠在很多程度上降低數(shù)據(jù)庫掃描次數(shù),從而在運(yùn)行效率上要優(yōu)于Apriori算法。
4 結(jié)論
數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法所包含的內(nèi)容有很多,本文只是簡(jiǎn)單介紹了其中較為重要的一部分。在今后的工作中,筆者將繼續(xù)致力于該領(lǐng)域的研究工作,以期能夠獲得更多有價(jià)值的研究成果。
[參考文獻(xiàn)]
[1]孟海東,李丹丹,吳鵬飛.基于數(shù)據(jù)場(chǎng)的量化關(guān)聯(lián)規(guī)則挖掘方法設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化.2013,01:8-11.