湖北工業(yè)大學(xué) 馬國良
數(shù)據(jù)挖掘中聚類算法的分析與研究
湖北工業(yè)大學(xué) 馬國良
本文主要系統(tǒng)地歸納了數(shù)據(jù)挖掘的基本原理、主要的技術(shù)方法以及在相關(guān)技術(shù)的基礎(chǔ)之上,對數(shù)據(jù)挖掘中存在的相關(guān)關(guān)鍵技術(shù)之一的聚類分析進行了探索性的研究。
數(shù)據(jù)挖掘;聚類分析
伴隨著計算機技術(shù)的普及和發(fā)展,人們在生活辦公中所產(chǎn)生的數(shù)據(jù)量也在海量地增長,對于我們來說,怎樣去最有效地利用海量的原始數(shù)據(jù)來分析現(xiàn)狀以及預(yù)測未知的事物,成了當今人類所面臨的一項很嚴峻的挑戰(zhàn),隨著計算機技術(shù)的迅猛發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)用而生,同時也得到了飛速的發(fā)展。
建筑物整體移位技術(shù)是一種在保證建筑物結(jié)構(gòu)完整性和功能穩(wěn)定性的前提下,將被遷移的建筑物由其原址遷移到目標地址的建筑工程技術(shù)。該技術(shù)最早在19世紀初被應(yīng)用于建筑工程領(lǐng)域,在我國還是在20世紀80年代末才被引入,其在當代的城市改造工程和道路改擴建工程中具有十分顯著的社會效益和經(jīng)濟效益。
數(shù)據(jù)挖掘(Data Mining),也可以叫做數(shù)據(jù)庫中的知識發(fā)現(xiàn),簡單地說,數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或者挖掘知識,數(shù)據(jù)挖掘是一門比較新的技術(shù),它是以數(shù)據(jù)庫技術(shù)作為基礎(chǔ),綜合統(tǒng)計學(xué)、邏輯學(xué)、機器學(xué)習、信息檢索、模式識別、神經(jīng)網(wǎng)絡(luò)等知識、然后再去數(shù)據(jù)庫中尋找有用的信息,數(shù)據(jù)挖掘技術(shù)受到了許多研究人員的普遍關(guān)注,并被廣泛地應(yīng)用到商務(wù)、科學(xué)、政府、教育、運輸?shù)雀鱾€企事業(yè)單位以及國防科研上。
本文主要系統(tǒng)地歸納了數(shù)據(jù)挖掘的基本原理、主要的技術(shù)方法以及在相關(guān)技術(shù)的基礎(chǔ)之上,對數(shù)據(jù)挖掘中存在的相關(guān)關(guān)鍵技術(shù)之一的聚類分析進行了探索性的研究,主要包括下面幾個方面:
(1)簡要地介紹了課題的研究背景以及國內(nèi)外的研究現(xiàn)狀和選題的意義,研究了數(shù)據(jù)挖掘的基本原理以及相關(guān)的基本方法和在各個領(lǐng)域上的應(yīng)用。
(2)詳細地介紹了聚類分析的基本原理、相關(guān)步驟以及具體的方法技術(shù),最主要的是介紹了聚類分析的主要應(yīng)用,分析了聚類分析的常用工具,并且結(jié)合了當前的實際應(yīng)用對聚類算法的性能進行了評價和比較,研究并分析了當前主流的聚類算法,分析了這些主流的聚類算法的優(yōu)缺點和適用的場景,給人們快速和準確地找到適合自己領(lǐng)域的聚類算法提供了比較好的技術(shù)支撐。
(3)最后詳細地介紹了聚類分析算法中常用的工具,并進行了仿真分析,通過仿真分析,可以更好地認識到數(shù)據(jù)挖掘中聚類分析算法的作用以及實用性。
一個典型的數(shù)據(jù)挖掘系統(tǒng),主要包含以下主要部分:
(1)數(shù)據(jù)庫、數(shù)據(jù)倉庫或其它信息庫。它表示數(shù)據(jù)挖掘?qū)ο笫怯梢粋€(或組)數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)表單或其它信息數(shù)據(jù)庫組成。通常需要使用數(shù)據(jù)清洗和數(shù)據(jù)集成操作,對這些數(shù)據(jù)對象進行初步的處理。
(2)數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器。這類服務(wù)器負責根據(jù)用戶的數(shù)據(jù)挖掘請求,讀取相關(guān)的數(shù)據(jù)。
(3)知識庫。此處存放數(shù)據(jù)挖掘所需要的領(lǐng)域知識,這些知識將用于指導(dǎo)數(shù)據(jù)挖掘的搜索過程,或者用于幫助對挖掘結(jié)果的評估。挖掘算法中所使用的用戶定義的閾值就是最簡單的領(lǐng)域知識。
(4)數(shù)據(jù)挖掘引擎。這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊,以便完成定性歸納、關(guān)聯(lián)分析、分類歸納、進化計算和偏差分析等挖掘功能。
[1]李嶶,李宛州.基于數(shù)據(jù)倉庫技術(shù)的進銷存系統(tǒng)的設(shè)計與實現(xiàn).2001(10):93-94.
[2]Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù).機械工業(yè)出版社2001,8.
[3]W.H.Inmon.數(shù)據(jù)倉庫.機械工業(yè)出版社2000,5.
2017-09-10)