崔嘉
(海軍航空工程學院 山東 煙臺 264001)
數據挖掘應用和優(yōu)化的研究
崔嘉
(海軍航空工程學院 山東 煙臺 264001)
針對數據挖掘技術從數據源中挖掘出潛在的、有價值的知識,對科學決策和分析問題具有非常重要的意義。通過對聚類算法進行分析,結合可視化技術,利用網格與聚類算法相結合,進行二次聚類處理,提高數據挖掘的工作效率。本文對于智能研究人員具有積極的作用。
數據挖掘;優(yōu)化;可視化;聚類分析
隨著網絡和計算機技術的不斷提高,各行各業(yè)對于數據的運用越來越廣泛,促使了信息化程度的日益提高[1]。大量的數據給人們的決策提供了豐富的原始資料,但數據集中存在著數量眾多的冗余數據,如何提取有用的數據形成知識給人們使用,促使了數據挖掘技術的不斷發(fā)展??梢暬夹g是將計算機圖像處理技術、圖形學、輔助設計、人機交互和計算機視覺等多個學科相結合的一門學科,隨著可視化技術發(fā)展的需要,數據挖掘技術與可視化技術相結合是發(fā)展數據可視化的有效手段[2]。
1.1 數據挖掘概念
1)數據挖掘定義
數據挖掘從20世紀70年代提出以來,就受到了IT業(yè)界的歡迎,特別是20世紀末期,隨著計算機技術和網絡技術的迅速發(fā)展,信息化處理受到人們越來越多的關注,為了更加準確地獲取數據,數據挖掘與其他行業(yè)的結合越來越廣泛[3]。
數據挖掘是對擁有海量的、模糊的、有噪聲的、隨機的及不完全的數據源中通過特有的運算提取出潛在的、事先不知的知識過程。其中數據源不一定來自同一位置或同一出處[4];提取出的知識能夠被人或計算機識別。
2)數據挖掘過程
數據挖掘經過多年的不斷發(fā)展,國內外專家和學者提出和設計了大量的算法,無論哪種算法,其過程基本上是相近的。整個過程分為數據準備、數據挖掘和結果表達3個階段,具體如圖1所示[5-6]:
在數據準備階段,是通過數據集成和選擇等操作將數據源中雜亂的、無序的或不可識別的數據轉換為計算機可識別的目標數據;在數據挖掘階段,通過預處理數據,挖掘出有用的數據信息;結果表示階段是將預處理后的數據以知識表現的形式展示出來。
3)數據挖掘功能
數據挖掘與其他應用性行業(yè)相結合,具有了豐富的功能,其實現的算法過程差距非常大,數據挖掘問題主要有數據統計與概括、分類分析、聚類分析、關聯分析、依賴分析、演變分析和孤立點分析等幾個類別[7]。
圖1 數據挖掘過程
數據挖掘的功能主要分為預測驗證功能和描述功能,其中預測驗證功能主要是預判數據的屬性和規(guī)律;描述功能是對數據理解的展開[8]。功能如圖2所示。
圖2 數據挖掘功能
1.2 聚類分析
1)聚類分析定義
聚類分析是數據挖掘技術之一,將數據源中的數據對象劃分為若干個不同的簇(集合),通過算法對簇進行分類,使得同一類簇中的數據的相似性盡可能地大,而不在同一類簇中的數據的相似性盡可能地小,這現類簇之間的差異化[9]。
2)聚類分析算法
根據聚類分析方法中選取的數據目標、應用范圍和數據類型的不同,聚類分析主要分為基于劃分的聚類算法、基于分層的聚類算法、基于密度的聚類算法、基于模型的聚類算法和基于網絡的聚類算法[10-11]。
2.1 數據可視化
數據挖掘對數據源進行處理之后獲取知識,知識只有被人們識別才能夠稱得上有效數據,數據可視化技術就是運用數據圖形圖像學及相關的處理技術,將數據轉換成圖形圖像并在輸出設備上顯示或打印出來,是人機交互的直觀表現[12]。
當前,數據的可視化的形式比較多,無論哪種形式的圖形圖像都是為了迎合人們實際工作的需求,本文對當前的可視化形式進行總結,主要有以下幾種:
1)離散點圖
該方式是將數據以點的直觀形式分布在圖上,便于直觀地查看孤立點數據和噪音數據,特別適合于二維或三維數據,對于多維的數據,可以通過顯示部分維度或離散點矩陣的方式來實現[13]。
2)飽和圖
當顯示的數據量特別大時,人們無法通過離散點圖觀察出數據的疏密程度,甚至看到整個圖形都是同一個顏色。在這種情況下,利用屏幕的色彩對密度不同的區(qū)域通過不同的色彩來進行區(qū)分,進而實現數據分布的直觀表現。
3)平行坐標系法
對于多維的數據采用相應的平等線進行表示,例如維度為100,就用100個平行線來表示,每個屬性點的值代表該維度的值,該方法雖然比較直觀明了,但缺點是維度的數量必須確定且不能太多。
4)多角度巡視
通過對特定的數據進行多角度的分析,通過連續(xù)的變換線形,并且通過不同的角度動態(tài)地顯示出來,便于更好地觀察和分析該數據。
2.2 過程和模型可視化
一般來說,結果是靜態(tài)的,過程是動態(tài)的,對過程可視化操作,需要在過程在運算的過程中給用戶提供大量的數據信息,使用戶可以直觀地看到數據挖掘的過程[14]。
對于模型的可視化,主要是應用在專家領域,普通的用戶對模型的關注度不高,不過隨著社會的不斷發(fā)展,模型的完美展示,更有利于用戶對產品或數據的理解。模型的可視化可以通過結構輸入量的變化來觀察輸出,進而得到更優(yōu)的效果。
3.1 擴展的多維網格聚類算法
1)算法原理
設一組樣本X{x1,x2,…,xn},對于每個樣本xi都有一個對應的m個屬性的屬性集A{ai1,ai2,…,aim}。
用網絡計算的方法通過一個多維的立方體將所有的樣本全部包含,對網格中的樣本進行聚類操作,得到聚類的結果,通過二維的離散點圖進行表示[15]。
2)構建網格空間
網絡空間設置成為一個多維的立方體,用公式(1)表示。
其中m表示維度,max表示各個維度的最大值,min表示各個維度的最小值,DIV表示各個維度的分割線。三維的網格空間樣本點分布如圖3所示。
圖3 三維網絡樣本分布
3)擴展原始樣本并分類至網格
由于原始的樣本進行初步的分類分配給對應的網格,因此應該對原始樣本的維進行擴充處理,對樣本進行掃描時,發(fā)現某個樣本屬于某個網格,則該網格的密度進行加1操作。
4)利用聚類算法對網格聚類
所有的樣本已經分類完畢,接下來,將生成的k個網格進行聚類操作,其方法同上,根據原始樣本與網格的映射關系,輸出原始樣本的聚類結果。
3.2 算法實現
聚類算法是數據挖掘中重要的一種算法,已經廣泛應用于眾多領域,本文在此給出聚類算法的核心代碼,具體如下:
文中對數據挖掘的應用和優(yōu)用展開研究,聚類算法是當前數據挖掘中應用比較廣泛的一種算法,首先對數據挖掘的定義、過程和功能進行全面的分析研究;其次對可視化技術進行了描述;最后給出了多維網格聚類的可視化方案,并給出了部分核心代碼。
[1]夏火松.數據倉庫與數據挖掘技術[M].北京:科學出版社,2004.
[2]劉海林,華程.數據挖掘在網絡優(yōu)化平臺中的應用策略研究[J].電信快報:網絡與通信,2015(12):16-18.
[3]方宏斌.模糊聚類及其實際應用[J].廣東通信技術,2008(5):9-13.
[4]張玉英,分析數據挖掘在網絡優(yōu)化中的應用[J].電子技術與軟件工程,2015(12):201-202.
[5]韓振東,蔡子龍,程曉軍.基于用戶行為數據挖掘的網絡質量優(yōu)化[J].數據通信,2012(1):36-39.
[6]韓茂,邱崧,李外云.基于數據挖掘的測試工程數據整合分析平臺 [J].電子設計工程,2015(11):105-109.
[7]劉靜.數據挖掘技術在教務管理實踐中的應用研究[J].電子設計工程,2014(24):1-3.
[8]馬保平.關于對軟件工程中的數據挖掘技術的探討[J].電子技術與軟件工程,2015(19):196-197.
[9]王樹良,丁剛毅,鐘鳴.大數據下的空間數據挖掘思考[J].中國電子科學研究院學報,2013(1):8-17.
[10]程苗.基于云計算的Web數據挖掘[J].計算機科學,2011(B10):146-149.
[11]陳開,黃明和,但寶平.淺析數據挖掘在CRM中的應用[J].中國電子商務,2013(2):65-66.
[12]賈輝.淺談數據挖掘技術在圖書館中的應用[J].經濟研究導刊,2012(27):241-242.
[13]譚英麗,郭峰.數據挖掘在電子商務中的應用研究[J].價值工程,2011(22):165-166.
[14]付光.可視化原理及應用中的可視化數據挖掘[J].廣西教育,2011(24):125-127.
[15]韓振東,蔡子龍,程曉軍.基于用戶行為數據挖掘的網絡質量優(yōu)化[J].數據通信,2012(1):36-39.
Research on application and optimization of data mining
CUI Jia
(Naval Aeronautical and Astronautical University,Yantai 264001,China)
Mining potential and valuable knowledge for data mining technology is very important to scientific decision making and analysis.Through the analysis of the clustering algorithm,combined with visualization technology,the use of grid and clustering algorithm,the two clustering processing,improve the efficiency of data mining.This paper has a positive effect on the intelligent researchers.
data mining;optimization;visualization;cluster analysis
TN03
:A
:1674-6236(2017)08-0024-03
2016-04-05稿件編號:201604031
崔 嘉(1982—),男,山東濱州人,碩士研究生,講師。研究方向:物聯網應用技術、裝備管理信息化、信息安全。