張超群+孟海東
摘 要:聚類分析算法在數(shù)據(jù)挖掘領(lǐng)域、設(shè)備學習領(lǐng)域以及統(tǒng)計學領(lǐng)域等均有著重要的研究和應用意義,同時在實際的應用中也有著廣泛的地位。對此,本文詳細分析數(shù)據(jù)挖掘中聚類分析算法及應用。
關(guān)鍵詞:數(shù)據(jù)挖掘;聚類分析算法;應用
DOI:10.16640/j.cnki.37-1222/t.2017.11.148
聚類分析算法是一種將給定數(shù)據(jù)實現(xiàn)集劃分為多個類別的過程,同時同一種聚類當中數(shù)據(jù)的對象有著較高的相似性,不同的聚類之間的數(shù)據(jù)對象具備較低的相似度。一般情況下,就使用距離來看,聚類的數(shù)據(jù)之間有著較高的使用特性,能夠讓數(shù)據(jù)使用者更快的掌握更多的可實用性數(shù)據(jù)。對此,探討數(shù)據(jù)挖掘中聚類分析算法及應用具備顯著意義。
1 聚類分析算法
1.1 數(shù)據(jù)挖掘?qū)垲惙治鏊惴ǖ闹饕?/p>
就當前的數(shù)據(jù)挖掘技術(shù)以及數(shù)據(jù)挖掘技術(shù)的應用而言,當前對聚類分析算法的主要要求有以下幾點:(1)可拓展性。聚類分析算法必須對大數(shù)據(jù)、小數(shù)據(jù)都能夠?qū)崿F(xiàn)有效的計算和劃分,大至網(wǎng)絡(luò)數(shù)據(jù),小至企業(yè)人數(shù)數(shù)據(jù)等;(2)處理不同類型的數(shù)據(jù)功能[1]。聚類分析算法必須兼?zhèn)洳煌念愋蛿?shù)據(jù)處理功能,例如能夠處理經(jīng)濟數(shù)據(jù)也可以處理工程類數(shù)據(jù);(3)發(fā)現(xiàn)任何關(guān)聯(lián)性的聚類。聚類分析算法不僅能夠發(fā)現(xiàn)具備類似大小、密度的球狀聚類或圓形聚類,還能夠發(fā)現(xiàn)各種任意形狀但是具備一定類似性的聚類;(4)降低用戶的輸入?yún)?shù)兩。用戶在輸入?yún)?shù)量時必然帶有一定的主觀性,所以在參數(shù)量輸入得夠多時則整體分析結(jié)果也就更加主觀化,整體分析結(jié)果也就顯得越發(fā)不準確。對于聚類質(zhì)量而言,輸入?yún)?shù)量的大小有著直接性的影響,所以應當盡可能的降低用戶的輸入?yún)?shù)量,從而最大程度改進聚類分析算法的分析效果,同時降低用戶的分析負擔;(5)對干擾數(shù)據(jù)具備較強處理能力。在實際應用過程中,想要真正展現(xiàn)聚類分析算法的使用能力,就必須最大程度降低干擾數(shù)據(jù)的影響,借助聚類分析算法對干擾數(shù)據(jù)給予針對性的處理,促使處理對象當中的質(zhì)量差盡可能控制到最低[2];(6)盡可能降低對輸入數(shù)據(jù)順序的敏感性。衡量聚類分析算法的優(yōu)劣勢最重要指標之一就是對輸入數(shù)據(jù)的順序是否存在敏感性,如果不存在敏感性,則說明聚類分析算法的使用特性較好,反之則較差;(7)高維問題。聚類分析算法在處理低維數(shù)據(jù)以及高維數(shù)據(jù)的過程中都必須具備較好的性能;(8)約束聚類。聚類分析算法能夠在特定的條件以及相應的規(guī)律之下約束聚類的質(zhì)量,從而確保聚類之間有著較高的使用價值相似性;(9)高度可用性和可解釋性。聚類分析算法應當和特定的解釋以及相應的目標之間有著較高的相似性,這也是確保聚類分析算法實際使用能力的直接性表現(xiàn)。
1.2 主要的聚類分析算法
在實際的應用過程中,因為數(shù)據(jù)類型、目的以及要求之間的不同,對聚類分析算法的需求也存在明顯的差異,所以在實際的應用過程中應當選擇適當?shù)木垲愃惴?,這也是非常重要的。應用多種聚類分析算法使用在同一個數(shù)據(jù)集當中,能夠分析出數(shù)據(jù)潛在的使用價值以及可買搜狐性的特征,并為進一步的數(shù)據(jù)挖掘以及探索提供有力基礎(chǔ)。典型的聚類分析算法主要包含基礎(chǔ)的的密度方法、層次方法、劃分方法以及基于網(wǎng)格的方法。
劃分方式:給予一定具體的數(shù)據(jù)集,例如其中包含一億個數(shù)據(jù)對象,劃分的方式就是將數(shù)據(jù)集劃分為多個聚類,例如100個聚類,每一個聚類都應當符合下列的兩個條件。首先,每一個聚類至少包含一個數(shù)據(jù)對象;其次,每一個數(shù)據(jù)對象只能夠?qū)儆谝粋€聚類。簡單而言,就是一億個數(shù)據(jù)對象按照相應的規(guī)律被劃分在100個聚類當中,同時每一個數(shù)據(jù)只能夠存在在一個聚類當中。但是,在一些模糊劃分的方式當中能夠適當?shù)姆艑捪拗瞥潭?。所?gòu)建的聚類應當成為最優(yōu)化的客觀劃分,進而促使同一個聚類當中對象的距離最小,不同的聚類之間對象的距離應當盡可能的擴大。聚類的相似度高低一般可以作為衡量劃分方法本身質(zhì)量的直接性標準,有效的劃分方式可以促使同一個聚類當中的數(shù)據(jù)具備較高的相似性,而不同的聚類之間具備最低的相似度,最常用的劃分方式主要為K-means和K-medoids算法。劃分方式必須具備處理數(shù)據(jù)集的一次性裝入內(nèi)存功能,從而最大程度的限制在大數(shù)據(jù)集當中多方面應用。劃分方式需要按照用戶的需求劃分為多個個數(shù)據(jù),這也會導致主觀判斷的因素對聚類質(zhì)量形成應想,劃分的方式只是用某一個固定的規(guī)則進行聚類,就會導致聚類的形狀不規(guī)律,聚類的結(jié)果準確率就比較低。
層次方式的輸出能夠為數(shù)據(jù)對象形成一個聚類樹,層次方式分為自上而下、自下而上的分析方式。但是無論是哪一種方式,其都可以獲得在不同粒度之上的多層次聚類結(jié)構(gòu),但是也存在相應的缺陷,例如在分裂以及合并之后,無法再回溯之前,這也缺陷同樣也具備相應的積極性,所以在分裂以及合并的過程中,必須要考慮不同選擇而導致組合的分裂問題。
2 聚類分析算法的應用
聚類分析算法就是從給定的數(shù)據(jù)當中探索出與數(shù)據(jù)對象具備關(guān)聯(lián)性使用價值的其他數(shù)據(jù),研究人員使用這一關(guān)聯(lián)方式能夠?qū)垲惍斨械臄?shù)據(jù)對象實現(xiàn)統(tǒng)一性的分析處理。應用聚類分析作用在數(shù)據(jù)集當中,能夠準確的識別出數(shù)據(jù)集的稀疏、稠密程度,從而更好的掌握整體的分布狀況,并掌握數(shù)據(jù)屬性之間的價值關(guān)聯(lián)性。在商業(yè)領(lǐng)域當中,聚類分析能夠幫助營業(yè)部門更好的掌握潛在的用戶特點以及群體關(guān)聯(lián)性,并按照不同的特性以及消費心理制定針對性的營銷方式,從而提升營銷的成功性。在生物學的領(lǐng)域當中,聚類分析法主要是應用在規(guī)劃動植物的層次結(jié)構(gòu)當中,并按照基因的功能實現(xiàn)分類,并對人類的基因構(gòu)造有更加深入和全面的掌握。在經(jīng)濟領(lǐng)域當中,聚類分析算法能夠?qū)Σ煌貐^(qū)的經(jīng)濟發(fā)展情況進行整體性評價,并且對同一個地區(qū)的不同城市之間經(jīng)濟發(fā)展的能力實現(xiàn)準確性規(guī)劃。聚類分析算法還能夠應用在挖掘網(wǎng)頁信息當中的潛在價值信息之中,在數(shù)據(jù)挖掘應用的領(lǐng)域中,聚類分析算法既能夠成為一個獨立的使用工具,還能夠?qū)?shù)據(jù)對象實現(xiàn)合理的分類和規(guī)劃,從而作為其他數(shù)據(jù)挖掘算法的首要處理手段,讓整個數(shù)據(jù)挖掘過程更加有效。
3 結(jié)語
綜上所述,伴隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,企業(yè)、部門必須時刻掌握全新的數(shù)據(jù)挖掘技術(shù),其中也必然包含聚類分析算法,借助聚類分析算法,快速的掌握大量想關(guān)聯(lián)并且有使用價值的信息數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)分析和數(shù)據(jù)挖掘的目的。
參考文獻:
[1]焦亞召.基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應用研究[D].昆明理工大學,2015.
[2]浦慧忠.基于數(shù)據(jù)挖掘的一種聚類分析方法在PDM系統(tǒng)中的應用研究[J].計算機與數(shù)字工程,2016,44(11):511-512.