左榮國
近幾年來,隨著信息技術(shù)的飛速發(fā)展,計(jì)算機(jī)領(lǐng)域積累了大量的數(shù)據(jù)。從元數(shù)據(jù)的角度考慮,這些數(shù)據(jù)僅僅是數(shù)據(jù),數(shù)據(jù)產(chǎn)生后,后續(xù)對元數(shù)據(jù)的再次利用卻很少。長此下去,這些數(shù)據(jù)慢慢就會變成沒有用的垃圾數(shù)據(jù)。人們越來越認(rèn)識到這個(gè)問題的嚴(yán)重性,由此逐漸產(chǎn)生了知識發(fā)現(xiàn)技術(shù),也就是數(shù)據(jù)挖掘的前身。知識發(fā)現(xiàn)源自于人工智能的機(jī)器學(xué)習(xí)領(lǐng)域,其實(shí)質(zhì)是在一個(gè)已知狀態(tài)的數(shù)據(jù)集上,通過設(shè)定一定的學(xué)習(xí)算法,從數(shù)據(jù)集中獲取所謂的知識。而與此同時(shí)數(shù)據(jù)庫技術(shù)也已經(jīng)發(fā)展到一定的階段,并得到了廣泛應(yīng)用,各個(gè)企業(yè)都已經(jīng)積累了無數(shù)的數(shù)據(jù)資源,迫切需要有一種技術(shù)能夠幫助他們從數(shù)據(jù)中發(fā)掘出其內(nèi)在的規(guī)律。數(shù)據(jù)挖掘技術(shù)正好能滿足這一需求,它實(shí)質(zhì)上就是知識發(fā)現(xiàn)技術(shù)在數(shù)據(jù)庫領(lǐng)域中的應(yīng)用,其主要應(yīng)用領(lǐng)域涵蓋了商務(wù)管理、生產(chǎn)管理、市場分析、工程設(shè)計(jì)和科學(xué)探索等。因此,可以說數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)到知識的過程。
談到學(xué)習(xí)數(shù)據(jù)挖掘,《數(shù)據(jù)挖掘:概念與技術(shù)》就是一本全面而深入地介紹數(shù)據(jù)挖掘?qū)嵱眉夹g(shù)的經(jīng)典教材。本書作者美籍華人韓家煒教授有著豐富的理論和實(shí)際經(jīng)驗(yàn)。在本書中,他從數(shù)據(jù)庫的角度針對數(shù)據(jù)挖掘是什么、數(shù)據(jù)挖掘能解決什么問題、數(shù)據(jù)挖掘的關(guān)鍵問題和數(shù)據(jù)挖掘涉及的相關(guān)技術(shù)等問題做了深入的分析,由淺入深地把讀者引入數(shù)據(jù)挖掘這個(gè)未知領(lǐng)域。
首先,數(shù)據(jù)挖掘是什么。書中指出,數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或挖掘知識的過程。用通俗的語言說,數(shù)據(jù)挖掘就像淘金者從石頭或沙子中尋找金子的過程。另外一個(gè)非常重要的,同時(shí)也在本書中進(jìn)行了詳細(xì)說明的是,數(shù)據(jù)挖掘的對象(也就是大量數(shù)據(jù))在什么地方?書中指出,數(shù)據(jù)挖掘主要針對關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫、高級數(shù)據(jù)庫等。對于數(shù)據(jù)庫開發(fā)人員,這些都是已經(jīng)比較熟悉的領(lǐng)域了。而本書中的數(shù)據(jù)挖掘主要針對的是數(shù)據(jù)庫系統(tǒng)。
其次,數(shù)據(jù)挖掘能解決什么問題。挖掘來的數(shù)據(jù)是用來解決企業(yè)中的問題的,否則挖掘就沒有任何意義了。書中指出,數(shù)據(jù)挖掘可以被用來進(jìn)行市場分析和管理、風(fēng)險(xiǎn)分析和管理、缺陷分析和管理等。具體來講,比如對大學(xué)里的學(xué)生課程數(shù)據(jù),可以用數(shù)據(jù)挖掘的方式來獲得學(xué)生姓名、地址、狀態(tài)和相關(guān)課程等信息及其相互關(guān)系。
再次,數(shù)據(jù)挖掘的關(guān)鍵問題。本書從數(shù)據(jù)挖掘方法和用戶交互、數(shù)據(jù)挖掘的性能以及不同數(shù)據(jù)庫類型的數(shù)據(jù)挖掘等多角度出發(fā),把數(shù)據(jù)挖掘做了非常透徹的分解,并對分解后的問題逐一解決。
第四方面,數(shù)據(jù)挖掘涉及的技術(shù)。對于數(shù)據(jù)挖掘涉及的OLAP和數(shù)據(jù)倉庫、數(shù)據(jù)清理、數(shù)據(jù)集成和變換、數(shù)據(jù)簡化、數(shù)據(jù)挖掘查詢語言、數(shù)據(jù)庫支持的數(shù)據(jù)挖掘規(guī)則、數(shù)據(jù)挖掘分類和預(yù)測、數(shù)據(jù)聚合方法、對多媒體數(shù)據(jù)庫和萬維網(wǎng)的數(shù)據(jù)庫挖掘方法等技術(shù),本書作者都從理論和實(shí)踐的角度作了深入的剖析,讓讀者不僅知其然,而且還知其所以然。
數(shù)據(jù)挖掘是可以由多個(gè)層面來提供支持的,包括數(shù)據(jù)庫層面、應(yīng)用程序?qū)用娴取.?dāng)前,包括Oracle、IBM、Sybase和Microsoft等在內(nèi)的多家數(shù)據(jù)庫提供商都從數(shù)據(jù)庫層面提供了數(shù)據(jù)挖掘的支持。對于應(yīng)用層面講,包括SAS、SPSS、COGNOS等軟件在內(nèi)的應(yīng)用程序都對數(shù)據(jù)挖掘提供了很好的支持。本書從理論和實(shí)際相結(jié)合的角度出發(fā),在書中提供了大量的理論、模型、算法和實(shí)際的應(yīng)用例子,包括多維數(shù)據(jù)模型、三層數(shù)據(jù)倉庫架構(gòu)、數(shù)據(jù)立方體的實(shí)際查詢例子等。借助本書,讀者可以理論聯(lián)系實(shí)際,把數(shù)據(jù)挖掘的應(yīng)用提高一個(gè)層次。
另外,書中提供了大量的例子、習(xí)題以及一些基本概念的比較。如數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別、用于數(shù)據(jù)挖掘的OLAP與數(shù)據(jù)倉庫技術(shù)等。所以,即使您對數(shù)據(jù)庫比較陌生,也能根據(jù)本書內(nèi)容的安排,循序漸進(jìn)地領(lǐng)悟到數(shù)據(jù)挖掘的真諦。同時(shí),您可以根據(jù)書中提供的習(xí)題,檢驗(yàn)自己對書中內(nèi)容的理解。“實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn)”,書中提供的例子在實(shí)際開發(fā)應(yīng)用中都會用到,讓您不會為了讀書而讀書。
總之,該書圖文并茂,理論聯(lián)系實(shí)際,非常適合從事數(shù)據(jù)挖掘研究和應(yīng)用開發(fā)工作的相關(guān)人員參考書,也特別適合作為高年級本科生和研究生的專業(yè)課教材。