朱傳華,胡光道
(中國地質(zhì)大學(xué)資源學(xué)院,湖北武漢430074)
安全監(jiān)測是研究和防治滑坡的重要手段之一,而位移監(jiān)測又是滑坡監(jiān)測中一種最常用的監(jiān)測手段[1-2]。對滑坡監(jiān)測歷史數(shù)據(jù)分析,有利于發(fā)現(xiàn)滑坡發(fā)生的模式,從而進一步預(yù)報滑坡發(fā)生的時間。知識發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)能從大量的數(shù)據(jù)中抽取出具有一定規(guī)律的知識,為決策分析帶來了新的途徑,能更好地解決日益復(fù)雜多變的決策環(huán)境問題,進一步提高決策的準(zhǔn)確性和可靠性,為科學(xué)決策提供了基礎(chǔ)。數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于銀行、電信等商業(yè)領(lǐng)域,近幾年,云模型[3]、關(guān)聯(lián)規(guī)則[4]、支持向量機[5]和BP神經(jīng)網(wǎng)絡(luò)模型[6]等數(shù)據(jù)挖掘技術(shù)在滑坡監(jiān)測數(shù)據(jù)分析方面的探索研究也逐步展開。本研究運用了Microsoft時序算法對滑坡監(jiān)測時間序列數(shù)據(jù)進行分析。
滑坡位移及其影響因素的監(jiān)測數(shù)據(jù)是兩類相對獨立的隨機樣本,目前常用時間序列分析模型解析其響應(yīng)關(guān)系[2,6-7]。時間序列通常是按時間順序產(chǎn)生和排列的一系列被觀測數(shù)據(jù),其觀測值按固定的時間間隔采樣。所得數(shù)據(jù)最為重要和有用的特性就是觀測值之間的依賴關(guān)系或相關(guān)性。利用這種相關(guān)性,研究人員以分析過去的歷史資料為依據(jù),能預(yù)測將來的變化[8]。一般時間序列模型可以由兩個基本概念描述:趨勢和周期性[9]?;卤O(jiān)測時間序列數(shù)據(jù)也具有這樣的特點。郝小員等[7]根據(jù)對邊坡變形發(fā)展過程的位移數(shù)據(jù)分析,認(rèn)為滑坡位移觀測數(shù)據(jù)時間序列包括趨勢項、周期項和隨機項。其中趨勢項是由邊坡土體的蠕變特性所決定,即滑坡變形破壞嚴(yán)格受內(nèi)在發(fā)展規(guī)律的控制。周期項可以理解為溫度、降雨等因素影響的結(jié)果,反映了滑坡發(fā)展過程中位移的周期變換波動。兩者疊加就是邊坡變形位移的發(fā)展趨勢的最主要因素,是決定邊坡穩(wěn)定的主導(dǎo)。而隨機項可以認(rèn)為是因突發(fā)性因素影響而產(chǎn)生的,如突發(fā)性暴雨、地震、人工活動等,反映了邊坡變形的一些隨機變化。杜娟等[6]認(rèn)為滑坡位移的產(chǎn)生及變化是坡體自身地質(zhì)條件和外部誘發(fā)條件共同作用的結(jié)果,因而其位移總量可以按照各影響因素作用形式的不同分解為不同的響應(yīng)成分,包含4種成分:趨勢項、周期項、脈動項和不確定的隨機變量。三峽庫水位作為脈動項因素,因其體現(xiàn)較好的周期性特征,所以可作為周期性因子考慮。綜上所述,滑坡位移觀測數(shù)據(jù)時間序列包括趨勢項、周期項和隨機項。在進行滑坡監(jiān)測時間序列數(shù)據(jù)分析時,應(yīng)掌握其特點并理順其數(shù)據(jù)概念層次(圖 1)。
圖1 滑坡監(jiān)測時間序列概念層次
目前常用的時間序列模型有差分自回歸滑動平均(ARIMA)、多變量時間序列(CAR)、自回歸樹(ART)、指數(shù)平滑和向量自回歸(VAR)等[2,9]。在模式發(fā)現(xiàn)的過程中,常用算法需要分析人員合理處理缺失值和調(diào)節(jié)一些具體設(shè)置,如指定周期指標(biāo)或允許算法自動地發(fā)現(xiàn)周期、周期總數(shù)或總的時間范圍和最小支持閾值等。這樣使得分析人員的精力浪費在復(fù)雜的求解方法,而非重點解決研究的問題領(lǐng)域。另外,常用的時間序列模型和一些數(shù)據(jù)挖掘算法使用的輸入數(shù)據(jù)是平面文件[2,4-6]。平面文件的不足之處在于它由大量的列組成,使用的屬性不包含它們自身結(jié)構(gòu)的重要信息,分析人員很難理解其中部分列的含義、值的類型和它們之間的關(guān)系。整個分析過程依賴于分析人員的專業(yè)知識,具有主觀性[9]。
本研究引用了一種全新框架,在數(shù)據(jù)倉庫多維模型的基礎(chǔ)上進行時間序列的分析[9]。在多維模型中(圖2)[10],數(shù)據(jù)被組織成多維數(shù)據(jù)集(立方)和維。度量所在表稱為事實表,事實是分析的焦點,是度量的聚積,度量通常是數(shù)值數(shù)據(jù)。每個事實有幾個相關(guān)的維,維通過描述性屬性提供分析的上下文。這些維通過級別被組織成聚集層次,使事實度量能在不同的細(xì)節(jié)級別上分析。建模過程能幫助分析人員理解數(shù)據(jù)。模型以分析的事實或維來呈現(xiàn)數(shù)據(jù),這種方式表達(dá)了研究的問題領(lǐng)域而非某一具體的求解方法。另外,數(shù)據(jù)倉庫中的數(shù)據(jù)都是根據(jù)具體需求集成的,數(shù)據(jù)在進入倉庫之前必須通過數(shù)據(jù)預(yù)處理或ET L過程,數(shù)據(jù)質(zhì)量能得到保證。
圖2 多維模型邏輯圖
三峽庫區(qū)秭歸縣白水河滑坡位于長江南岸,距三峽大壩壩址56 km,屬沙鎮(zhèn)溪鎮(zhèn)白水河村?;麦w處于長江寬河谷地段、為單斜地層順向坡地形,南高北低,呈階梯狀向長江展布。其后緣高程為410 m,以巖土分界處為界,前緣抵長江135 m水位,東西兩側(cè)以基巖山脊為界,總體坡度約30°。其南北向長度600 m,東西向?qū)挾?00 m,滑體平均厚度約30 m,體積1.26×107m3。白水河滑坡為老滑坡,歷史上頻繁發(fā)生順層滑坡?;碌貙訛樯皫r夾泥巖,屬易滑地層,坡體為順層斜坡,在構(gòu)造節(jié)理切割、長江下切卸荷、后緣崩塌加載和降雨等外力作用下,易產(chǎn)生順層滑移變形破壞,屬堆積體順層滑坡。白水河滑坡專業(yè)監(jiān)測已于2003年6月開始實施,根據(jù)該滑坡的地形地貌、地質(zhì)條件與監(jiān)測環(huán)境,監(jiān)測方法有GPS監(jiān)測、深部位移鉆孔測斜監(jiān)測、地下水位監(jiān)測和人工巡查等。監(jiān)測結(jié)果初步表明,受三峽水庫蓄水及庫水位漲落、雨水等作用影響,白水河滑坡整體穩(wěn)定性變差,地表變形跡象較為明顯,位移變化量較大,呈現(xiàn)牽引式滑坡變形特征[6,11]。
滑坡是一個集合概念,不同地質(zhì)環(huán)境背景下孕育發(fā)生的不同成因機制的滑坡,在多維建模時要合理劃分不同的滑坡類別[12]。根據(jù)不同的滑坡分類,相應(yīng)的監(jiān)測內(nèi)容和監(jiān)測儀器也不盡相同[13]。在分析滑坡監(jiān)測時間序列的特點,并考慮滑坡孕育的復(fù)雜性和滑坡監(jiān)測系統(tǒng)的有效性的基礎(chǔ)上,可確定滑坡位移監(jiān)測事實,及其相關(guān)的時間、地點、滑坡類型和監(jiān)測類型等維,以及累計位移、溫度、庫水位變動和降雨量等度量,在建模工具Power Designer中建立多維模型。如圖3所示,監(jiān)測類型維有監(jiān)測類型ID、監(jiān)測儀器和監(jiān)測內(nèi)容,和相應(yīng)的監(jiān)測類型層次(圖4a)[14],滑坡監(jiān)測系統(tǒng)的具體內(nèi)容可參見[13]。時間維有時間ID、日期、月份、季度和年份等屬性和相應(yīng)的時間層次(圖4b)。地點維有地點ID、監(jiān)測點名、滑坡體名、村名、鎮(zhèn)名、縣名等屬性和相應(yīng)的地點層次(圖 4c)?;骂愋途S有滑坡類型ID、類、型、式、期和性等屬性和相應(yīng)的滑坡類型層次(圖4d)。滑坡分類的具體內(nèi)容可參見[13]和[15]?;挛灰飘a(chǎn)生的各影響因素如累計位移、溫度、庫水位變動和降雨量等作為度量。
圖3 滑坡位移監(jiān)測多維模型注:Default h為默認(rèn)層次;阿拉數(shù)字為層次的級別。
在Power Designer中設(shè)計的多維模型經(jīng)映射等操作后,可在關(guān)系數(shù)據(jù)庫中生成多維數(shù)據(jù)集。在關(guān)系數(shù)據(jù)庫中實現(xiàn)多維數(shù)據(jù)集一般有兩種基本結(jié)構(gòu):星型模式和雪花模式。圖5所示是在SQL Server 2005 Analysis Services(SSAS)中生成的星型模式多維數(shù)據(jù)集,滑坡位移監(jiān)測事實被映射到中心表,表中包含度量和與相關(guān)維連接的外鍵(時間ID、地點ID、監(jiān)測類型ID和滑坡類型ID)。星型模式提供了簡潔而有組織的倉庫結(jié)構(gòu),便于OLAP操作。
圖4 維屬性的層次注:a監(jiān)測類型維;b時間維;c地點維;d滑坡類型維。
圖5 星型模式的滑坡位移監(jiān)測多維數(shù)據(jù)模型
在建立多維數(shù)據(jù)集的基礎(chǔ)上,針對滑坡監(jiān)測時間序列選擇合適的數(shù)據(jù)挖掘技術(shù)—Microsoft時序算法。Microsoft時序算法是 SSAS提供的回歸算法,用于創(chuàng)建數(shù)據(jù)挖掘模型以便對預(yù)測方案中的連續(xù)列進行預(yù)測。Microsoft時序算法包括兩個獨立的算法,其中ARTXP算法是在SQL Server 2005中引入的,針對預(yù)測序列中的下一個可能值進行了優(yōu)化。本研究選取白水河滑坡體ZG93監(jiān)測點2004年1月至2006年12月期間36個月的水平累計位移數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),經(jīng)Microsoft時序算法挖掘模型處理后,得到回歸公式:
式中:C(t)——某一時刻的位移量值。公式(1)明顯反映了位移量和前一個月的相關(guān)性(相關(guān)系數(shù)為1.300),和周期性的相關(guān)性系數(shù)為0.316。
預(yù)測結(jié)果模型由兩部分組成(圖略):圖形左側(cè)的歷史信息和圖形右側(cè)的預(yù)測信息。歷史數(shù)據(jù)表示算法用來創(chuàng)建模型的信息,而預(yù)測數(shù)據(jù)表示模型所做的預(yù)測。由圖可知,ARTXP算法預(yù)測了下一個時間段的數(shù)據(jù)值,即第37個月的預(yù)測數(shù)據(jù)為626.74,與實測數(shù)據(jù)632.5相差為1%。結(jié)果表明預(yù)測效果較好。
時間序列分析具有預(yù)測復(fù)雜系統(tǒng)發(fā)展趨勢的能力,一直是滑坡位移動態(tài)預(yù)報研究的熱點,然而目前的預(yù)測模型多基于平面文件進行分析。本研究引入在數(shù)據(jù)倉庫多維模型的基礎(chǔ)上進行時間序列分析的框架——數(shù)據(jù)被組織成事實和維,滑坡位移產(chǎn)生的各種可能因素被結(jié)構(gòu)化和層次化的展現(xiàn)出來,可幫助分析人員更深入全面地理解滑坡位移事實。使用Microsoft時序算法—ARTXP算法對白水河滑坡位移數(shù)據(jù)進行挖掘,得到的預(yù)測數(shù)據(jù)與實測數(shù)據(jù)誤差較小,結(jié)果表明該算法可以用于滑坡監(jiān)測數(shù)據(jù)的短期預(yù)測。不足之處在于溫度、降雨量和庫水位變動等數(shù)據(jù)尚未收集完整,僅對滑坡位移數(shù)據(jù)進行了挖掘,沒有對位移和庫水位、位移和降雨量進行交叉預(yù)測,挖掘模型應(yīng)用的可靠性有待進一步驗證。另外,SQL Server 2008 Microsoft時序算法中添加了 ARIMA算法,用于提高長期預(yù)測的準(zhǔn)確性,可考慮在下一步工作中引入該算法進行滑坡監(jiān)測的長期預(yù)測研究。
[1] 殷坤龍.滑坡災(zāi)害預(yù)測預(yù)報分類[J].中國地質(zhì)災(zāi)害與防治學(xué)報,2003,14(4):12-18.
[2] 李強,李端有.滑坡位移監(jiān)測動態(tài)預(yù)報時間序列分析技術(shù)研究[J].長江科學(xué)院院報,2005,22(6):16-19.
[3] 王樹良,王新洲,曾旭平,等.滑坡監(jiān)測數(shù)據(jù)挖掘視角[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2004,29(7):608-610.
[4] 馬水山,王志旺,張漫.基于關(guān)聯(lián)規(guī)則挖掘的滑坡監(jiān)測資料分析[J].長江科學(xué)院院報,2004,21(5):48-51.
[5] 董輝,傅鶴林,冷伍明.滑坡變形的支持向量機非線性組合預(yù)測[J].鐵道學(xué)報,2007,29(1):132-136.
[6] 杜娟,殷坤龍,柴波.基于誘發(fā)因素響應(yīng)分析的滑坡位移預(yù)測模型研究[J].巖土力學(xué)與工程學(xué)報,2009,28(9):1783-1789.
[7] 郝小員,郝小紅,熊紅梅,等.滑坡時間預(yù)報的非平衡時間序列方法研究[J].工程地質(zhì)學(xué)報,1999,7(3):279-283.
[8] 吳今培.實用時序分析[M].長沙:湖南科學(xué)技術(shù)出版社,1989:1-2.
[9] Jose Z ,Jesus P,Juan T.A UM L profile for the conceptual modeling of data-mining with time-series in data warehouses[J].Information and Software Technology,2009,51:977-992.
[10] Oracle USA,Inc.Oracle OLAP Application Developer's Guide 10 g Release 2(10.2.0.3)[M].Redwood:Oracle Press,2006:29-32.
[11] 王尚慶,徐進軍,羅勉.三峽庫區(qū)白水河滑坡險情預(yù)警方法研究[J].武漢大學(xué)學(xué)報:信息科學(xué)版,2009,34(10):1218-1221.
[12] 黃潤秋,向喜瓊,巨能攀.我國區(qū)域地質(zhì)災(zāi)害評價的現(xiàn)狀及問題[J].地質(zhì)通報,2004,23(11):1078-1082.
[13] 張振華,羅先啟,吳劍,等.三峽庫區(qū)滑坡監(jiān)測模型建模研究[J].人民長江,2006,37(4):93-94.
[14] Jiawei H ,Micheline K.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2006:110-123.
[15] 劉廣潤,晏鄂川,練操.論滑坡分類[J].工程地質(zhì)學(xué)報,2002,10(10):339-342.