王 皓,王紅崧
(西南林業(yè)大學,云南 昆明650224)
隨著計算機學與數(shù)據(jù)采集、處理技術迅速發(fā)展,使得人們從現(xiàn)實世界中獲取、存儲和處理數(shù)據(jù)的能力得到大大提高,獲得越來越豐富的數(shù)據(jù)資源[1]。從空間數(shù)據(jù)中挖掘知識,提取空間數(shù)據(jù)中不明確的和隱含的知識顯得越來越重要[2]。如何從紛繁復雜的空間數(shù)據(jù)中提取信息和把數(shù)據(jù)轉化為知識,成為國內外重點研究領域。空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)是一種知識決策技術,是建立在空間數(shù)據(jù)的基礎上,結合多門學科的理論技術,從海量空間數(shù)據(jù)中挖掘不明顯的、隱藏的新知識,揭示客觀世界的規(guī)律、內在聯(lián)系及其發(fā)展趨勢的空間決策支持系統(tǒng)。
由于空間數(shù)據(jù)挖掘在處理空間數(shù)據(jù)上具有重要意義,早在20世紀90年代初美國韓家煒就對空間數(shù)據(jù)挖掘進行了研究,提出了聯(lián)機分析挖掘思想,并在MapInfo軟件平臺上開發(fā)空間數(shù)據(jù)挖掘原型系統(tǒng)[1]。Walter于2008年提出了建立在柵格算法基礎上的矢量數(shù)據(jù)庫自動解譯[3]。Donato利用歸納邏輯技術的方法提取了空間人口調查數(shù)據(jù)的關聯(lián)規(guī)則[4]。國內對空間數(shù)據(jù)挖掘的研究起步稍晚,在1994年李德仁教授提出了從GIS數(shù)據(jù)庫中發(fā)現(xiàn)知識,并對空間知識發(fā)現(xiàn)的特點和方法進行了系統(tǒng)的分析[5]。董春、張清浦等人提出了基于地理數(shù)據(jù)庫進行空間數(shù)據(jù)挖掘的構想[6]。陳江平、傅仲良等人提出一種建立在空間分析基礎上的空間關聯(lián)規(guī)則挖掘算法[7]。
空間數(shù)據(jù)挖掘的研究目前還處于起步階段,國內外對空間數(shù)據(jù)挖掘的研究雖然取得了豐富的成果,但是尚屬實驗室階段,許多挖掘算法尚不夠成熟完善,實用性不強。一方面需要完善空間數(shù)據(jù)挖掘理論基礎與框架結構,另一方面完善已有算法,并不斷創(chuàng)新算法,提高算法的精度與效率,加強應用性研究;除此之外相關的空間軟件系統(tǒng)的開發(fā)也有待進一步加快,以跟上空間數(shù)據(jù)更新速度。
由于空間數(shù)據(jù)挖掘是計算機、數(shù)據(jù)庫應用和管理決策支持等技術發(fā)展到一定階段時,由數(shù)據(jù)庫、模式識別、統(tǒng)計學、人工智能和管理信息系統(tǒng)多學科交叉的新興學科[8],因而空間數(shù)據(jù)挖掘方法較為豐富,但針對地理空間數(shù)據(jù)庫,其方法可總結為以下4種。
空間分析作為地理信息系統(tǒng)區(qū)別于一般計算機系統(tǒng)的主要標志,也是支持其強大功能的關鍵技術。借助GIS系統(tǒng)強大的空間分析功能模塊,可以發(fā)現(xiàn)客觀事物在地理空間上的相鄰、相連和共生等關聯(lián)關系、找出客觀事物之間的最優(yōu)路徑、最短路徑和最佳位置??臻g分析通常作為處理空間數(shù)據(jù)和提取空間數(shù)據(jù)特征的方法,進而發(fā)現(xiàn)空間數(shù)據(jù)庫知識。
聚類是按一定的規(guī)則將數(shù)據(jù)分成若干個相互區(qū)別的組,發(fā)現(xiàn)數(shù)據(jù)的分布特征,使得每組中的數(shù)據(jù)具有高相似,而不同組之間的數(shù)據(jù)盡可能不同。目前空間聚類算法較為豐富,但主要有劃分方法、層次的方法、基于密度的方法、基于網格的方法及基于模型的方法5大類。
但上述算法現(xiàn)實空間中尚存在著缺陷,如在地理空間中(山脈、河流、橋梁等)障礙物時,為提高聚類的準確性,需謹慎選擇對聚類是進一步劃分還是合并。
關聯(lián)規(guī)則是由Agrawal等人通過對大型的事務型數(shù)據(jù)庫的挖掘首次提出,而后Koperski等人將其擴展至空間數(shù)據(jù)庫,進一步提出了挖掘強空間關聯(lián)規(guī)則的算法,并給出了空間優(yōu)化技術[9]??臻g關聯(lián)規(guī)則可表示為:AUB(c1%)、A∩B(c2%),其中 A、B表示空間或非空間謂詞的集合,c1%、c2%為規(guī)則的支持度和可信度,空間謂詞有3種表示形式:空間方向的謂詞、拓撲結構的謂詞和距離的謂詞。
所謂空間分類指的是首先把數(shù)據(jù)庫中每個對象歸為某一給定的類,從而將所有數(shù)據(jù)歸類。預測是根據(jù)數(shù)據(jù)內在規(guī)律,根據(jù)空間維發(fā)現(xiàn)空間對象的變化趨勢。
除此之外,空間統(tǒng)計學、神經網絡、證據(jù)理論、模糊集、粗糙集和遺傳算法等都屬于數(shù)據(jù)挖掘方法,以上在對空間數(shù)據(jù)進行挖掘時,并不是孤立的,只有將各種方法加以綜合運用,方能科學有效地發(fā)現(xiàn)空間知識。
近些年來,雖然空間數(shù)據(jù)挖掘技術發(fā)展迅速,并取得了一定的成果,但許多的理論與方法仍需進行深入研究。未來空間數(shù)據(jù)挖掘應把基于空間不確定性的數(shù)據(jù)挖掘、多源空間數(shù)據(jù)的數(shù)據(jù)挖掘、一體化柵格矢量數(shù)據(jù)挖掘、空間查詢語言數(shù)據(jù)挖掘、遙感圖像及其網絡空間數(shù)據(jù)的挖掘等方面作為主要努力方向。與此同時,在開發(fā)空間數(shù)據(jù)挖掘系統(tǒng)時,還要研究人機交互技術、空間數(shù)據(jù)挖掘系統(tǒng)與地理信息系統(tǒng)、多源空間數(shù)據(jù)的集成、多算法的集成、地理空間數(shù)據(jù)庫、空間數(shù)據(jù)決策支持系統(tǒng)以及解譯專家解譯系統(tǒng)的集成等問題。
此外,空間數(shù)據(jù)挖掘除了創(chuàng)新完善本身的理論和方法,也需充分結合利用數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、可視化、數(shù)理統(tǒng)計、人工智能、圖像處理學等學科領域的理論方法。
[1]張 楠,曲海平,劉 念.空間數(shù)據(jù)挖掘的研究進展[J].微處理機,2007(2):1~7.
[2]李德仁,王樹良,史文中.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[J].武漢大學學報(信息科學),2001,26(6):491499.
[3]V.Walter.Automatic Interpretation of Vector Databases With a Raster-based Algodthm [J].Institute for Photogrammetry,Universitaet,Geschwister- Scholl.Str.24D70174Stuttgart,Germany,2008.
[4]Donato Malerba,F(xiàn)loriana Esposito,F(xiàn)ancesca A L ISI.Ming Spatial Association Rules in Census Data[C].Specifying Collective Qutputs from UN/ECE Activities on Statistical Information Teclmology,2002:541~550.
[5]李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應用[M].北京:科學出版社,2006.
[6]董 春,張清浦,張家慶.地理因子庫的建立及應用探討[J].遙感信息,2000(1):12~16.
[7]陳江平,傅仲良,邊馥苓,等.基于空間分析的空間關聯(lián)規(guī)則提取[J].計算機工程,2003(11):29~30.
[8]Li D R,Cheng T.KDG-Knowledge Discovery from GIS.In:Pro-ceedings of the Canadian Conference on GIS,Ottawa,1994.
[9]胡彩平,秦小麟.空間數(shù)據(jù)挖掘研究綜述[J].計算機科學,2007,34(5):14~18.