加那爾,陳川,吾克依拉·吾鐵樸
(1.新疆大學地質(zhì)與礦業(yè)工程學院,新疆烏魯木齊830047;
2.新疆大學新疆中亞造山帶大陸動力學與成礦預測重點實驗室,新疆烏魯木齊830047)
基于DEM的空間數(shù)據(jù)信息挖掘及其應用
加那爾*1,2,陳川1,2,吾克依拉·吾鐵樸1,2
(1.新疆大學地質(zhì)與礦業(yè)工程學院,新疆烏魯木齊830047;
2.新疆大學新疆中亞造山帶大陸動力學與成礦預測重點實驗室,新疆烏魯木齊830047)
基于ArcGIS應用平臺,選擇和什托洛蓋鎮(zhèn)白楊溝地區(qū)為研究范圍,從Aster衛(wèi)星影像數(shù)據(jù)上提取DEM(數(shù)字高程模型),進行空間數(shù)據(jù)信息挖掘,建立適于研究區(qū)的空間數(shù)據(jù)處理流程,并將其結(jié)果應用到水文流域特征的自動提取中。通過對比研究和野外調(diào)研,證明選擇該套空間數(shù)據(jù)信息挖掘技術(shù)方法能有效提取DEM數(shù)據(jù)中隱含信息,提高工作效率。
數(shù)字高程數(shù)據(jù)(DEM);空間數(shù)據(jù)信息挖掘;ArcGIS
隨著空間技術(shù)在各個行業(yè)的應用以及數(shù)據(jù)挖掘、空間數(shù)據(jù)采集技術(shù)、數(shù)據(jù)庫技術(shù)的迅速發(fā)展,對從空間數(shù)據(jù)庫發(fā)現(xiàn)隱含知識的需求日益增長,出現(xiàn)了用于在空間數(shù)據(jù)庫中進行知識發(fā)現(xiàn)的嶄新研究領(lǐng)域——空間數(shù)據(jù)挖掘[1-3]。
空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)這一學科起源于國際GIS會議。1994年,我國學者李德仁院士在加拿大渥太華舉行的GIS國際學術(shù)會議上提出了從GIS數(shù)據(jù)庫中發(fā)現(xiàn)知識的概念[4],并系統(tǒng)分析了空間知識發(fā)現(xiàn)的特點和方法[5]。目前空間數(shù)據(jù)挖掘己成為國際研究的一個熱點,滲透到數(shù)據(jù)挖掘和知識發(fā)現(xiàn)、地球空間信息學和一些綜合性的學術(shù)活動中,成為眾多著名國際學術(shù)會議的重要研究專題。Koperski,Adhikary和Han[6]總結(jié)了空間數(shù)據(jù)挖掘的發(fā)展,認為巨量的空間數(shù)據(jù)來自從遙感到GIS、計算機制圖、環(huán)境評價和規(guī)劃等各種領(lǐng)域,空間數(shù)據(jù)的累積已經(jīng)遠遠超出人們的分析能力,數(shù)據(jù)挖掘已經(jīng)從關(guān)系數(shù)據(jù)庫和交易數(shù)據(jù)庫擴展到空間數(shù)據(jù)庫。
勘查區(qū)位于新疆維吾爾自治區(qū)西北部托里縣、額敏縣、和布克賽爾蒙古自治縣、克拉瑪依市四個行政區(qū)交界處。地勢北高南低,北部為低山、丘陵,南部為古爾班通古特沙漠,中部為山前沖積平原;調(diào)查區(qū)處于天山—興蒙造山系,東西準噶爾弧盆系,賽米斯臺—三塘湖復合島弧帶與唐古巴勒—卡拉麥里復合俯沖增生雜巖帶過渡地帶。區(qū)內(nèi)沉積巖、火山巖、侵入巖廣泛發(fā)育,區(qū)內(nèi)斷裂以北東—南西向、近東西向為主,地質(zhì)構(gòu)造十分復雜。
本文以Aster衛(wèi)星影像數(shù)據(jù)中提取的和什托洛蓋鎮(zhèn)白楊溝地區(qū)15m×15m空間分辨率的數(shù)字高程模型(DEM)為主要數(shù)據(jù)源,空間數(shù)據(jù)挖掘信息引用到水文流域特征提取中。
空間數(shù)據(jù)挖掘是空間數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個基本步驟。主要步驟是通過將有趣的模式提供給用戶,或者新的知識存儲在知識庫中,與用戶和知識庫交互的方式來進行的知識發(fā)現(xiàn)過程的最重要的一步,因為它可發(fā)現(xiàn)隱藏的不為人知的模式;是一個多步驟相互連接、反復進行的交互過程。一般可以分為數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的解釋與評價3個部分[7],本文建立了適于研究區(qū)的空間數(shù)據(jù)處理流程,如圖1所示。
3.1洼地填充處理
洼地指的是低于周圍柵格的區(qū)域。研究者普遍認為,被高程較高的區(qū)域圍繞的洼地是使用DEM進行水文分析的一大障礙,因為這些洼地的存在會阻礙自然水流朝流域出口流動,因此,在DEM提取水系特征之前要進行“填洼”預處理。其原理是:掃描每個網(wǎng)格時,比較該網(wǎng)格與相鄰的8個網(wǎng)格的高程,如果中心網(wǎng)格的高程比相鄰的8個網(wǎng)格的高程都低,則將相鄰8個網(wǎng)格中高程最低的那個網(wǎng)格的值賦予中心網(wǎng)格。
圖1 研究區(qū)空間數(shù)據(jù)處理流程
3.2水流方向提取
在填洼后的DEM中,每個柵格單元都有一個可以定義的水流方向值,某一個柵格單元的水流方向是指水流離開此單元格時的指向[8]。這一概念最早是由Mark等提出的[9]。
地表徑流在流域內(nèi)總是從地勢高處流向地勢低處,最后經(jīng)流域出口排出流域。流向的確定建立在流域3×3的DEM格網(wǎng)的基礎(chǔ)上。水流方向是指水流離開每一個柵格單元時的指向。它決定著地表徑流的方向及格網(wǎng)單元間流量的分配,是基于DEM的分布式水文模型中的一個十分關(guān)鍵的問題。水流的流向是通過計算中心柵格與鄰域柵格的最大距離權(quán)落差(即取距離權(quán)落差最大的柵格為中心柵格的流出柵格)來確定。如果鄰域柵格對中心柵格的方向值為2、8、32、128,則柵格間的距離為2的開平方根,否則距離為1。在ArcGIS中通過將中心柵格的8個鄰域柵格編碼,水流方向便可以其中的某一值來確定。
3.3河網(wǎng)的提取
得到每個網(wǎng)格流向與水流累計值后,以flowacc數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),生成河網(wǎng)。預先設(shè)定一個閾值,該閾值表示河網(wǎng)中點的最小積水面積,將水流方向累計矩陣中數(shù)據(jù)高于此閾值的網(wǎng)格連接起來,便可形成排水網(wǎng)絡(luò),當閾值減少時,網(wǎng)絡(luò)的密度便相應增加[10]。河網(wǎng)的生成基于如下假設(shè):如果某單元格的匯流累積量大于閾值,則該單元格是河網(wǎng)的一部分[11]。閾值的設(shè)定在河網(wǎng)的提取過程是很重要的,并且直接影響到河網(wǎng)的提取結(jié)果。首先應該考慮到研究的對象,研究對象中的溝谷的最小級別,不同級別的溝谷所對應的不同的閾值;其次考慮到研究區(qū)域的狀況,不同的研究區(qū)域相同級別的溝谷需要的閾值也是不同的。柵格河網(wǎng)的形成是利用所設(shè)定的閾值進行整區(qū)域的分析并生成一個新的柵格圖層,是利用設(shè)定一個河網(wǎng)生成閾值來計算出所有大于設(shè)定閾值的柵格,這些柵格就是河網(wǎng)的潛在位置。最終提取矢量形式的河流網(wǎng)格。
3.4河網(wǎng)分級的生成
河網(wǎng)分級的建立在提取的河網(wǎng)基礎(chǔ)上[12],分級的時候首先確定流域的出水點,找到出水點之后,沿水流向上游搜索,一直搜索到了流域邊界[13],生成整個流域的河網(wǎng)系統(tǒng)后,不同的支干流連接怎樣用數(shù)字表示帶入分布式水文模型計算,即河網(wǎng)計算優(yōu)先順序問題,就要考慮河網(wǎng)分級問題。河網(wǎng)分級是對一個線性的河流網(wǎng)絡(luò)進行分級別的數(shù)字標識,利用地表徑流模擬的思想,不同的級別的河網(wǎng)首先是它們所代表的匯流累積量也不同,級別越高的河網(wǎng),其匯流累積量也越大,那么在水文研究中,這些河網(wǎng)往往是主流,而那些級別較低的河網(wǎng)則是支流。
流域河網(wǎng)的分級編碼方法有多種[14],本文采用Strahler[15]的河網(wǎng)分級系統(tǒng)對產(chǎn)生的河道進行分段和分級處理。
根據(jù)STRAHLER分級法可知,該區(qū)域河網(wǎng)分布較密集,河流等級可分為5級,河流方向主要為北西向至東南向。區(qū)域南部由于第四系隱伏斷層的影響,河流方向發(fā)生變化,形成似三角形。
3.5流域的提取
流域又稱集水區(qū)域,是流經(jīng)其中的水流和其他物質(zhì)從一個公共的出水口排出而形成的一個集成的排水區(qū)域[16]。提取子流域的第一步是確定子流域的出水口位置,出水口即流域水流的出口,是整個流域的最低處[16]。ArcGIS中以2個河道的交匯點作為流域出口,從出口沿河道向上游搜索每一河道的上游給水區(qū),分別對搜索到的上游給水區(qū)邊界進行勾畫就得到了各個小流域的邊界。
3.5.1流域盆地(大流域)的確定
流域盆地是由分水嶺分割而成的匯水區(qū)域。它通過對水流方向數(shù)據(jù)的分析確定出所有相互連接并處于同一流域盆地的柵格。利用流域盆地分析,可以從很大的一個研究區(qū)域選擇感興趣的流域并將該流域從整個研究區(qū)域分割出來進行單獨的分析[17]。
在實際情況下,河流等級高低并不能準確表示河流流量的多少,還需要計算流域盆地的分布情況。流域盆地值8500~10500區(qū)間是河流網(wǎng)絡(luò)最發(fā)育的地段,但其中可能包括一些時令河流,主要匯水區(qū)域主要分布在流域水系等級最高的部分,反映了該處流域盆地是研究區(qū)內(nèi)較優(yōu)化的候選地。
3.5.2集水域(Watershed)的生成
在ArcGIS中,對于低級的集水區(qū)的生成,可以使用hydrology工具集中的watershed工具以水流方向和河網(wǎng)節(jié)點數(shù)據(jù)作為輸入,輸出分割后的集水區(qū)域。
集水水域是指地表水及地下水分水線所包圍的集水區(qū)域的總稱。根據(jù)計算結(jié)果,研究區(qū)集水水域值為98~170區(qū)域,分布在研究區(qū)的南部,呈東西走向的矩形。與實際野外調(diào)查結(jié)果一致。
從GIS中發(fā)現(xiàn)知識是GIS研究的一個重要方向,本文對空間數(shù)據(jù)挖掘技術(shù)以及地理信息系統(tǒng)進行系統(tǒng)的研究和探討的基礎(chǔ)上,結(jié)合地理信息系統(tǒng)的空間分析功能和數(shù)據(jù)管理功能及空間數(shù)據(jù)挖掘的特點,通過對比研究和野外調(diào)研,進行空間數(shù)據(jù)挖掘,實現(xiàn)了從GIS中進行空間數(shù)據(jù)挖掘的具有可行性技術(shù)方法。
本文利用DEM提取流域水文特征可以較快地提高工作效率并保證結(jié)果的準確性,為野外工作開展提供了極大的指導意義與科學依據(jù)。在此,以水流方向數(shù)據(jù)和自然水系的分級標識數(shù)據(jù)為依據(jù),將同一級別每一條水系回水盆地內(nèi)的柵格自動識別出來。然后根據(jù)不同水系回水盆地的柵格的標識數(shù)據(jù),自動搜索回水盆地的邊界柵格。
該計算結(jié)果反映了該區(qū)域河網(wǎng)分布較密集,河流的等級,河流方向主要為北西向至東南向,區(qū)域南部由于第四系隱伏斷層的影響,河流方向發(fā)生變化,形成似三角形,計算出了流域盆地的分布情況來反映了該處流域盆地是研究區(qū)內(nèi)較優(yōu)化的候選地,與實際野外調(diào)查結(jié)果一致。本次論文采用的Arc GIS軟件的分析模塊較依賴DEM數(shù)據(jù)的準確性,并且無法準確地分析出研究區(qū)內(nèi)某些河流的時令性,在今后的工作中需要在研究區(qū)內(nèi)開展野外驗證工作。
[1]Shashi Shekhar,Yan Huang.Discovering Spatial Co-Location Pattens:A Summary of Results[A].In:Proceedings of the Seventh International SymPosium on SPatial and TemPoral Databases,Redondo Beaeh,CA,USA,2001:236-256.
[2]邸凱昌,李德仁,李德毅.空間數(shù)據(jù)發(fā)掘和知識發(fā)現(xiàn)的框架[J].武漢測繪科技大學學報,1997(4):27-31.
[3]劉君強.海量數(shù)據(jù)挖掘技術(shù)研究[D].浙江大學,2003.
[4]Li D R,Cheng T.kdg-Knowledge Discovery from GIS.The Canadian Conference on GIS,Ottawa,Canada,1994:1001-1012.
[5]李德仁,程濤.從GIS數(shù)據(jù)庫中發(fā)現(xiàn)知識[J].測繪學報,1995(1):37-44.
[6]Koperski K,Adhikary J,Han J.Spatial Data Mining:Process and Challenges Survey Paper.SIGMOD.96 Workshop on Research Issues on Data Mining and Knowledge Discovery(DMKD.96),Montreal,Canada,1996.
[7]Fayyad U M.Advances in Knowledge Discovery and Data Mining.Menlopark CA:AAAI/MIT Press,1996.
[8]JENSON S K,D.J.O.,Extracting Topographic Structure from Digital Elevation Data for Geographic Information System Analysis.1988:1593-1600.
[9]MARKS D M,D.J.F.J.Atomated Basin Delineation from Digital Elevation Data.1984:299-311.
[10]葉愛中,等.基于數(shù)字高程模型的河網(wǎng)提取及子流域生成[J].水利學報,2005(5):531-537.
[11]TARBOTON D G,B.R.L.R.On the Extraction of Channel Networks from Digital Elevation Data,1991:81-100.
[12]馮杰,解河海,成麗婷.基于子流域的TOPMODEL模擬研究[J].長江科學院院報,2009(4):4-8.
[13]黃娟,申雙,殷劍敏.基于DEM的江西潦河流域河網(wǎng)信息提取方法[J].氣象與減災研究,2008(1):49-53.
[14]李鐵鍵,王光謙,劉家宏.數(shù)字流域模型的河網(wǎng)編碼方法[J].水科學進展,2006(5):658-664.
[15]Strahler,AN.Quantitive Analysis of Watershed Geomorphology.Trans.Am.Geophys.Union.1957.
[16]唐從國,劉叢強.基于Arc Hydro Tools的流域特征自動提取——以貴州省內(nèi)烏江流域為例[J].地球與環(huán)境,2006(3):30-37.
[17]劉淑春,李晶,張征,朱建剛,牟向玉.基于DEM的太湖流域水文特征提?。跩].環(huán)境科學與管理,2009,34(5).
P31
A
1004-5716(2016)10-0154-03
2015-11-09
2015-11-18
自治區(qū)地質(zhì)勘查基金項目,項目編號:S12-1-XJ02。
加那爾(1991-),女(哈薩克族),新疆木壘人,新疆大學地質(zhì)與礦業(yè)工程學院在讀碩士研究生,研究方向:地球探測與信息技術(shù)。