杜 鵑,曹建春
(黃河水利職業(yè)技術(shù)學(xué)院 信息工程系,河南 開封475004)
隨著衛(wèi)星技術(shù)、通信技術(shù)、計算機技術(shù)、數(shù)據(jù)處理技術(shù)和其他現(xiàn)代科技的發(fā)展,海洋學(xué)和地圖學(xué)早已突破傳統(tǒng)對于空間和時間的限制,逐漸進(jìn)入了以數(shù)字測量和數(shù)字地圖為主干,以計算機科學(xué)作為支撐,以3S 技術(shù)為代表的新紀(jì)元。通過以上新技術(shù),以及各種新型設(shè)備,我們獲得了大量的海洋測量數(shù)據(jù)和電子地圖數(shù)據(jù),并采用現(xiàn)代處理方法對這些數(shù)據(jù)進(jìn)行持續(xù)不斷地更新和處理。這些海量而種類豐富的數(shù)據(jù),蘊含了極大價值,并構(gòu)成了海洋地理信息系統(tǒng)的基礎(chǔ)[1-2]。
然而,這些多來源、多維度、多時態(tài)的數(shù)據(jù),其容量和復(fù)雜程度早已超出了傳統(tǒng)分析方法的處理能力。一方面導(dǎo)致大量數(shù)據(jù)無法利用,造成決策失誤或數(shù)據(jù)浪費;另一方面導(dǎo)致極大的系統(tǒng)負(fù)擔(dān)和系統(tǒng)存儲資源浪費,使得對于數(shù)據(jù)資源的利用效率較低。空間數(shù)據(jù)挖掘作為統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)、機器學(xué)習(xí)技術(shù)、人工智能和專家系統(tǒng)的結(jié)合,能夠很好地克服傳統(tǒng)數(shù)據(jù)分析方法的缺陷,高效而充分地對數(shù)據(jù)進(jìn)行分析和利用。
所謂空間數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘技術(shù)在空間數(shù)據(jù)集合中的一種應(yīng)用,主要通過對空間數(shù)據(jù)的分析和比對,發(fā)現(xiàn)蘊含在數(shù)據(jù)中,不能夠直觀發(fā)現(xiàn)的關(guān)系、趨勢、模式等特征,為預(yù)測未來現(xiàn)象提供依據(jù),為系統(tǒng)決策提供支持。然而由于空間數(shù)據(jù)的特點和海洋地理信息系統(tǒng)應(yīng)用的特殊性,空間數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘方法也略有不同。本文在對空間數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究的基礎(chǔ)上,介紹了空間數(shù)據(jù)挖掘技術(shù)的主要原則,分析了該技術(shù)能夠取得的潛在效果,并結(jié)合海洋地理信息系統(tǒng)的特點和需求,研究了空間數(shù)據(jù)挖掘技術(shù)在海洋地理信息系統(tǒng)中的應(yīng)用方法和運行模式,為進(jìn)一步完善該系統(tǒng),更加充分地對海洋空間數(shù)據(jù)進(jìn)行利用,提供依據(jù)[3]。
空間數(shù)據(jù)挖掘以空間數(shù)據(jù)庫或數(shù)據(jù)倉庫作為數(shù)據(jù)來源,結(jié)合相關(guān)的數(shù)據(jù)學(xué)習(xí)理論和挖掘技術(shù),能夠從海量充滿噪聲和不確定的空間數(shù)據(jù)中,提取出可信的、新型的、隱藏的和未知的數(shù)據(jù)關(guān)系、發(fā)展趨勢等特征和屬性,并能夠在不需要人工干預(yù)的前提下自動執(zhí)行,完成對潛在知識的發(fā)現(xiàn)和挖掘工作,從而向多種信息系統(tǒng)提供服務(wù),向決策支持系統(tǒng)提供決策依據(jù)[3-4]。
空間數(shù)據(jù)挖掘是空間數(shù)據(jù)庫、計算機管理技術(shù)和決策技術(shù)發(fā)展到新階段的產(chǎn)物。其集成了多種當(dāng)前流行的技術(shù),如人工智能、概率統(tǒng)計、專家系統(tǒng)、機器學(xué)習(xí)、空間數(shù)據(jù)庫、模糊數(shù)學(xué)、網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)可視化技術(shù)等,是一種數(shù)據(jù)挖掘技術(shù)在空間數(shù)據(jù)領(lǐng)域的重要擴展和應(yīng)用。
當(dāng)前,存在多種空間數(shù)據(jù)挖掘框架,例如由Maheus 提出的多組件數(shù)據(jù)挖掘框架,由Hoslsheimer提出的特征挖掘框架,由Han 提出的數(shù)據(jù)挖掘通用模型等。從適用性的角度考慮,最適合空間數(shù)據(jù)挖掘的框架應(yīng)當(dāng)為多組件數(shù)據(jù)挖掘框架,該框架的基本結(jié)構(gòu)如圖1 所示。
圖1 空間數(shù)據(jù)挖掘框架Fig.1 The framework of spatial data mining
在此系統(tǒng)中,用戶可以與系統(tǒng)實時交互,并控制數(shù)據(jù)挖掘的過程。知識庫存儲有背景知識。數(shù)據(jù)挖掘過程通過以下組件完成:數(shù)據(jù)庫接口從數(shù)據(jù)庫中直接提取數(shù)據(jù);分析組件對數(shù)據(jù)進(jìn)行篩選,決定哪些數(shù)據(jù)可用,哪些數(shù)據(jù)不可用;模式提取組件能夠從可用的數(shù)據(jù)中發(fā)現(xiàn)新的知識或有價值的規(guī)則;評價組件則對發(fā)現(xiàn)的知識和規(guī)則等進(jìn)行評價,決定其重要性、相關(guān)性等屬性,并根據(jù)評價結(jié)果對知識庫進(jìn)行更新。以上4 個組件通過控制器相互交互,并將最后結(jié)果提交給用戶。
空間數(shù)據(jù)挖掘框架為整個空間數(shù)據(jù)挖掘過程提供依據(jù),并為海洋地理信息系統(tǒng)中的數(shù)據(jù)分析和利用提供設(shè)計思路。
與空間數(shù)據(jù)處理不同,空間數(shù)據(jù)挖掘能夠提取出隱含的知識、空間數(shù)據(jù)之間的關(guān)系和其他有價值的模式信息,從而能夠進(jìn)一步發(fā)現(xiàn)更多有用的知識,為其他系統(tǒng)和應(yīng)用提供決策依據(jù)。
空間關(guān)系規(guī)則是描述不同實體相互位置關(guān)系的規(guī)則,是一種固有的并且相互同步的規(guī)則,如相鄰規(guī)則、連接規(guī)則、共生規(guī)則、包括規(guī)則等。在數(shù)據(jù)挖掘過程中,不同的位置關(guān)系將使用以上邏輯規(guī)則表達(dá),因此,空間關(guān)系是空間數(shù)據(jù)挖掘所獲得的一種重要知識。當(dāng)采用的數(shù)據(jù)來源為“空間—時間”數(shù)據(jù)時,還可以通過空間規(guī)則,進(jìn)一步發(fā)現(xiàn)對象在一段時間序列下的運動軌跡。
對象特征描述的是一種或多種對象實體所共有的屬性特征,包括類型、尺寸、形狀等其他常見或特殊的屬性。并且如果數(shù)據(jù)樣本的數(shù)量足夠時,我們還能夠獲得對象的先驗概率知識,例如海底沉積物的經(jīng)緯度分布等。
通過空間分類規(guī)則,空間數(shù)據(jù)集中的數(shù)據(jù)能夠被映射為特定的類,通常在數(shù)據(jù)預(yù)測的過程中使用。同時,分類規(guī)則是一種全局適用的知識,本質(zhì)上是對數(shù)據(jù)集的一種抽象和一般化。
通過聚類能夠?qū)㈩愋拖嘟臄?shù)據(jù)集合為一種類型,同時使得不同類型之間的差異最大化,而使得同一類型之間的差異最小化,能夠應(yīng)用于生成和劃分多種異構(gòu)信息。與分類規(guī)則不同,在聚類之前,并不知道劃分的每一類的特征和屬性,也不清楚數(shù)據(jù)能夠被劃分為哪些類別。
需要注意的是,在空間數(shù)據(jù)挖掘的過程中,挖掘的內(nèi)容和結(jié)果,并不一定是以上幾類的一種,而大多數(shù)需要涉及到多種。因為,在對信息進(jìn)行分析和可視化的過程中,對一個對象的感知,僅僅知道其特征、空間關(guān)系、類別等的一種,并不能完全認(rèn)識該對象,更無法深度挖掘該對象與其他對象存在的其他隱含關(guān)系,因而,在實際使用中,從實踐角度考慮,我們需要獲得包括以上各種內(nèi)容的多種或全部,從而完成對對象的全維感知,也能夠使得在下一步的挖掘中,獲得的知識更加完備和詳細(xì)。
在傳統(tǒng)的數(shù)據(jù)處理方法中,往往采用專家系統(tǒng)方法,采用處理規(guī)則或模板,將專家知識固化為某種知識的固定提取方法和處理措施。這種方法具有2 個主要缺點:一是其僅僅能夠?qū)?shù)據(jù)進(jìn)行表面化的處理,而不能夠進(jìn)行多層次和持續(xù)的挖掘,因而這種數(shù)據(jù)處理方式,僅僅能夠發(fā)現(xiàn)事先已知類型和符合規(guī)定的知識;二是其難以應(yīng)對大量的數(shù)據(jù),采用該種方法的數(shù)據(jù)處理系統(tǒng),往往采用線性處理方法,對于某一類的數(shù)據(jù)處理往往需要遍歷所有的規(guī)則和模板,造成不必要的算法復(fù)雜性,當(dāng)數(shù)據(jù)量較大時,其效率較低。而空間數(shù)據(jù)挖掘算法,能夠克服以上問題,采用聚類、分類等措施和循環(huán)迭代的方法,不僅能夠發(fā)現(xiàn)大量隱含知識,同時能夠處理海量知識,其主要過程有以下幾個步驟:
1)數(shù)據(jù)濾波:對于海上地理信息系統(tǒng)來說,其中包含了大量來自不同設(shè)備和不同種類的數(shù)據(jù),由于海上環(huán)境的多變性,必然會存在錯誤和異常數(shù)據(jù),為了確保能夠得到正確結(jié)果,在對數(shù)據(jù)進(jìn)行處理之前,需要對數(shù)據(jù)進(jìn)行濾波,得到無噪聲的可用數(shù)據(jù);
2)數(shù)據(jù)聚類:相比于數(shù)據(jù)分類,數(shù)據(jù)聚類具有更廣泛的適用性,能夠發(fā)現(xiàn)實現(xiàn)未被定義的數(shù)據(jù)類型。通過數(shù)據(jù)聚類,能夠完善數(shù)據(jù)的結(jié)構(gòu)性,從而為下一步數(shù)據(jù)挖掘提供依據(jù);
3)數(shù)據(jù)挖掘:當(dāng)前數(shù)據(jù)挖掘、分類與分析的算法種類較多,主要的方法有神經(jīng)網(wǎng)絡(luò)、SVM 等。需要注意的是,空間數(shù)據(jù)挖掘與傳統(tǒng)方法不同,完成整個挖掘過程需要多次迭代。具體流程如圖2所示。
圖2 空間數(shù)據(jù)挖掘流程圖Fig.2 The flow chart of spatial data mining
海洋學(xué)和地圖學(xué)數(shù)據(jù)是海洋地理信息系統(tǒng)中的重要組成部分,有著GIS 數(shù)據(jù)的典型特征。因此,可以利用空間數(shù)據(jù)挖掘,最大化的發(fā)揮海洋測量和電子地圖數(shù)據(jù)的價值,開發(fā)多種類型的應(yīng)用,擴展海洋測繪和電子地圖產(chǎn)品的種類,從而向用戶提供豐富多樣的服務(wù)[5]。
海圖是一種用來描述某個海域及其鄰接陸地的地圖,其中對于海底地形的描述主要采用虛線點跡表示。由于圖幅限制,海圖中的虛線點跡通常采用互相隔離和離散的形式出現(xiàn),難以直觀地表示出海底地形的全貌,從而為安全航線的劃定造成不便。
使用空間數(shù)據(jù)挖掘中的統(tǒng)計學(xué)方法,能夠從離散的虛線點跡中發(fā)現(xiàn)出海底地形走勢的固有規(guī)律,從而建立一個等高線模型,結(jié)合可視化技術(shù),我們能夠得到海底地形的3D 全景顯示,從而能夠方便直觀地對海底地形進(jìn)行分析和利用。
海洋沉積物是海底地形的重要組成部分之一,同時也是航海導(dǎo)航、船舶拋錨和海底航行等活動的重要影響因素之一。
通過使用數(shù)據(jù)挖掘工具,如概率統(tǒng)計、模糊集理論和集群方法,海洋沉積物的分布區(qū)域和時空變化規(guī)律將能夠被發(fā)現(xiàn),使得船舶航行的安全性得到加強,同時水上航線的利用率也能夠得到提高。此外,也能夠為國防和海洋工程建設(shè)等活動,提供決策依據(jù)。
在船舶的航行過程中往往需要考慮諸如暗礁、殘骸、障礙物等,并及時進(jìn)行規(guī)避以保證航行安全。盡管大多數(shù)航行障礙物的位置固定,但是由于洋流和其他原因,某些類型的障礙物將會發(fā)生移動。對于航行障礙物來說,其空間數(shù)據(jù)并不僅僅包括其所在位置信息和屬性等,同時也包括其影響范圍、移動趨勢及其他時空信息。
在空間數(shù)據(jù)挖掘理論的支持下,海洋地理信息系統(tǒng)能夠自動映射出航行障礙物所處的水域,并在不同的航行條件下,給出航行的安全指數(shù)。當(dāng)船舶進(jìn)入某個危險水域時,系統(tǒng)能夠智能化地向船員發(fā)送警報,從而最大限度地保證船舶的航行安全。
助航設(shè)施,例如導(dǎo)航標(biāo)記、海上浮標(biāo)等,通常用來指示暗礁位置,或進(jìn)行海洋觀測,是一種重要的人工實施,使得船舶能夠借助這些設(shè)施進(jìn)行位置測量,航線導(dǎo)航和障礙規(guī)避。
航行助航數(shù)據(jù)儲存了大量助航設(shè)施的屬性特征和地理位置。這些知識并不僅僅反應(yīng)了安全航道信息,還指示了海拔信息,可航行水深等信息。
使用空間數(shù)據(jù)統(tǒng)計分析及聚類,遺傳算法和其他空間數(shù)據(jù)挖掘技術(shù),系統(tǒng)能夠根據(jù)助航設(shè)施的特征和級別進(jìn)行重分類。最終,可以向船舶提供最優(yōu)化的航線,實現(xiàn)自動化的航線選擇等功能。
水文數(shù)據(jù)指示了水力、洋流等海水的物理和化學(xué)特征,包含潮汐、浪高、洋流速度、漩渦、冰山、浮冰等數(shù)據(jù),以及鹽度、密度、海水顏色等數(shù)據(jù)。
一方面水文數(shù)據(jù)中蘊含著豐富的位置、特性、強度、方向等信息;另一方面,水文數(shù)據(jù)也表明了多種未知的、隨時間變化的模糊數(shù)據(jù)。例如,在不同水深下的浪高、浪速和方向等,以及當(dāng)發(fā)生何種情況時,海浪會進(jìn)一步發(fā)展為漩渦。
使用空間數(shù)據(jù)挖掘,系統(tǒng)不僅能夠自動化地發(fā)現(xiàn)各種數(shù)據(jù)的隱含關(guān)系和規(guī)則,同時也能夠在一定的需求下進(jìn)行最優(yōu)化分析和未來數(shù)據(jù)的預(yù)測,從而為決策提供有力支持。
海洋地理信息系統(tǒng)是當(dāng)前人類活動必不可少的信息化系統(tǒng),其中產(chǎn)生和儲存的海量數(shù)據(jù),更蘊含著巨大的價值,隨著大數(shù)據(jù)時代的來臨,如何發(fā)揮這些數(shù)據(jù)的巨大作用,將是海洋地理信息系統(tǒng)下一步研究和完善的重點。本文對空間信息挖掘技術(shù)進(jìn)行詳細(xì)介紹,從該技術(shù)的基本原則、內(nèi)容和流程等方面進(jìn)行深入研究,并結(jié)合空間信息挖掘技術(shù)的特點,研究了其在海洋地理信息系統(tǒng)中的引用方法,為之后系統(tǒng)的進(jìn)一步完善提供基礎(chǔ)。
[1]KANVSKI M,PARKIN R.Environmental data mining an modeling based on machine learng algorithms an geostatistics[J].Environmental Modelling & Softwe,2004,19(9):845 -855.
[2]XU Sheng-hua,LIU Ji-ping.Spatial data mining and development trend research[J].Geography and Geo-Information Science,2008,24(3):24 -27.
[3]胡安康.船舶數(shù)字化設(shè)計的主脈——CAE 信息鏈[J].艦船科學(xué)技術(shù),2008,30(1):3 -5.HU An-kang.The main vein of digital ship design——CAE information chain[J].Ship Science and Technology,2008,30(1):3 -5.
[4]LI De-ren,WANG Shu-liang.Spatial data mining theory and applications (fist edition)[M].Beijing,Science Press,2006.
[5]任席闖,左麗芬,李樹明,等.基于GIS 的超低頻通信服務(wù)區(qū)的預(yù)測[J].艦船科學(xué)技術(shù),2013,35(4):117 -119.REN Xi-chuang,ZUO Li-fen,LI Shu-ming,et al.The prediction of VLF communication service zone based on GIS[J].Ship Science and Technology,2013,35(4):117 -119.