亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        水文時空數(shù)據(jù)挖掘方法及其應(yīng)用評述

        2018-03-21 08:18:40袁定波熊傳圣
        水利信息化 2018年1期
        關(guān)鍵詞:數(shù)據(jù)挖掘分析

        袁定波 ,艾 萍 ,2,熊傳圣

        (1. 河海大學(xué)水文水資源學(xué)院,江蘇 南京 210098;2. 河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

        0 引言

        隨著對地觀測技術(shù)的發(fā)展,以及計(jì)算機(jī)運(yùn)算存儲能力的不斷提高,數(shù)據(jù)產(chǎn)生和采集的速度越來越快,數(shù)據(jù)量級越來越大,因此亟需能夠從海量數(shù)據(jù)中快速提取信息的技術(shù)和方法,以揭示隱藏在這些數(shù)據(jù)背后的潛在有用信息,為決策部門在決策制定過程中提供重要的參考依據(jù)。為了解決這個在信息領(lǐng)域具有普遍性的“知識發(fā)現(xiàn)”問題(KDD,Knowledge Discovery in Database),數(shù)據(jù)挖掘(DM,Data Mining)技術(shù)應(yīng)運(yùn)而生[1]。水文學(xué)研究的對象是水文現(xiàn)象,是降水和蒸發(fā)等氣象現(xiàn)象與地形、地貌、土壤、植被、水文地質(zhì)等下墊面條件共同作用或相互作用的產(chǎn)物。水文現(xiàn)象作為地球上最復(fù)雜的自然現(xiàn)象之一,具備很強(qiáng)的時間和空間屬性。時空序列(Space-Time Series)是時間序列在空間上的擴(kuò)展,指在空間上有相關(guān)關(guān)系的多個時間序列的集合[2]。水文時空序列分析是揭示和認(rèn)識水文過程變化特性的有效手段和重要途徑。時空數(shù)據(jù)挖掘是指從時空數(shù)據(jù)中提取出隱含的、未知的、有用的信息及知識的過程,然而,時間和空間維度增加了其挖掘過程的復(fù)雜性。

        將數(shù)據(jù)挖掘技術(shù)應(yīng)用于水文時空序列數(shù)據(jù)分析領(lǐng)域,可發(fā)現(xiàn)時空序列數(shù)據(jù)中蘊(yùn)藏的相似性,能夠更合理地反映區(qū)域水文時空變化規(guī)律和趨勢。利用數(shù)據(jù)挖掘技術(shù)建立水文時空序列分析理論和模型,發(fā)現(xiàn)各類水文要素在時間和空間維度的變化規(guī)律,為有效預(yù)測水文情勢的變化提供相關(guān)依據(jù),在防汛抗旱、水資源分配與調(diào)度、水資源管理等方面具有重要參考價值和現(xiàn)實(shí)指導(dǎo)意義。

        1 時空數(shù)據(jù)挖掘技術(shù)進(jìn)展

        數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)集中提取隱含在其中的,人們事先不知道的,但卻又是潛在有用的信息和知識的過程,所提取到的結(jié)果可表示為概念、規(guī)則、規(guī)律和模式等形式。數(shù)據(jù)挖掘是一種決策支持過程:分析各組織原有的數(shù)據(jù),做出歸納推理,從中挖掘出潛在的模式。數(shù)據(jù)挖掘方法結(jié)合了數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等領(lǐng)域的知識,常見的數(shù)據(jù)挖掘方法有關(guān)聯(lián)規(guī)則、決策樹、神經(jīng)網(wǎng)絡(luò)、粗糙集法、分類聚類方法、遺傳算法和統(tǒng)計(jì)分析方法等。在不同的應(yīng)用領(lǐng)域,需要針對具體的問題采用不同的數(shù)據(jù)挖掘技術(shù)和方法。

        自地理信息系統(tǒng)誕生以來,空間分析的方法框架和技術(shù)體系逐漸建立并完善,已成為地理信息系統(tǒng)應(yīng)用的核心,而其中所涉及的空間和時間序列分析方法是水文時空序列分析與建模的基礎(chǔ)[3]。時空數(shù)據(jù)挖掘方法是在有效組織時空數(shù)據(jù)的基礎(chǔ)上,采用各種數(shù)據(jù)分析工具、技術(shù)和模型研究和挖掘時空數(shù)據(jù)庫中隱含的信息和規(guī)律[4]。按照挖掘的任務(wù),時空數(shù)據(jù)挖掘可分為以下主要幾類:時空的模式挖掘、聚類、分類、異常檢測等。挖掘時空數(shù)據(jù)中有價值的模式,如頻繁、周期、共現(xiàn)、關(guān)聯(lián)等模式,一直是時空數(shù)據(jù)挖掘研究中的重要課題。人們感興趣的是從一個時空序列里發(fā)現(xiàn)頻繁重復(fù)的路徑,即時空頻繁模式。時空共現(xiàn)模式是指 2 種(或 2 種以上)對象實(shí)例在空間和時間上處于近鄰。時空關(guān)聯(lián)模式主要研究空間對象隨時間發(fā)生變化的規(guī)律,即在傳統(tǒng)關(guān)聯(lián)分析的基礎(chǔ)上加上時間和空間約束,發(fā)現(xiàn)時空數(shù)據(jù)中處于一定時間間隔和空間位置的關(guān)聯(lián)規(guī)則。時空數(shù)據(jù)聚類是指基于空間和時間相似度把具有相似行為的時空對象劃分到同一組中,使組間差別盡量大,而組內(nèi)差別盡量小,時空聚類可用于天氣預(yù)測、交通擁擠預(yù)測、動物遷移分析、移動計(jì)算和異常點(diǎn)分析等方面。時空分類主要是基于時空對象的特征構(gòu)建分類模型預(yù)測時空對象所屬類別和對象所在的具體空間位置。若某一個對象和它在空間上相鄰并在一段連續(xù)時間內(nèi)出現(xiàn)的鄰居有著顯著的差異,則稱該對象為時空異常對象。

        國外學(xué)者在時空序列數(shù)據(jù)挖掘方面的研究比較早,數(shù)據(jù)挖掘最通用的方法主要包括人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法和最近鄰算法[5]。Babovic基于城市供水管網(wǎng)爆裂數(shù)據(jù)庫所記錄的管網(wǎng)使用壽命、直徑、材料、土壤類型、溫度和交通負(fù)荷等數(shù)據(jù),利用數(shù)據(jù)挖掘方法確定區(qū)域供水管網(wǎng)爆裂的風(fēng)險[6]。Bessler 通過利用 C5.0 決策樹方法挖掘研究區(qū)域的水庫調(diào)控規(guī)則,結(jié)果表明,不同決策樹方法決定了數(shù)據(jù)挖掘結(jié)果的好壞[7]。Kim 使用數(shù)據(jù)挖掘算法和實(shí)時數(shù)據(jù)了解環(huán)境因素對建筑能效設(shè)計(jì)和評分的影響,并選用了亞利桑那州立大學(xué)的 3 座建筑物作為實(shí)時能源實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了驗(yàn)證分析[8]。Han和 Koperski 開發(fā)了一個空間數(shù)據(jù)挖掘系統(tǒng)原型:GeoMiner[9]。一些傳統(tǒng)的數(shù)據(jù)挖掘算法往往在時空數(shù)據(jù)挖掘方面表現(xiàn)得很差,Shekhar 發(fā)現(xiàn)當(dāng)參數(shù)假設(shè)檢驗(yàn)(如正態(tài)分布)不通過時,參數(shù)分類器如最大似然分類器(MLC)要比非參數(shù)分類器的表現(xiàn)更遜色;當(dāng)特征自相關(guān)時,基于像素的分類器性能要比馬爾科夫隨機(jī)域的性能差[10]。時空數(shù)據(jù)的挖掘需要有明確的主題和問題導(dǎo)向[11]。Vaswani 使用了一種改進(jìn)的 K 均值聚類算法,通過考慮聚類要素的各方面因素,進(jìn)行了空間數(shù)據(jù)的挖掘[12]。Kovashka 利用領(lǐng)域特征的時空層次結(jié)構(gòu)分析人類行為[13]。Fasbender基于 Bayesian 數(shù)據(jù)融合方法對柏林的 NO_2 在時空尺度上進(jìn)行了的預(yù)測[14]。Ghaemi 利用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)算法對公共交通中的時空數(shù)據(jù)進(jìn)行了分析,并指出針對具體應(yīng)用的相關(guān)度量是未來研究的方向[15]。Anderson 等利用 HELCOM 富營養(yǎng)化評估工具(HEAT3.0)挖掘了波羅地海富營養(yǎng)化的時間和空間趨勢[16]。Boschetti 通過分析中等分辨率遙感影像序列數(shù)據(jù)中的光譜指數(shù)挖掘研究區(qū)水稻在時空趨勢,并實(shí)現(xiàn)了基于衛(wèi)星時序數(shù)據(jù)的水稻時間和空間信息的自動提取[17]。Dube 等使用 Landsat 衛(wèi)星數(shù)據(jù)分析了土地退化的時空特性,并驗(yàn)證了 Landsat 數(shù)據(jù)和機(jī)器學(xué)習(xí)算法用于土壤侵蝕時空特征挖掘的可行性[18]。Yusof 使用多維序列模式挖掘繪制了風(fēng)速剖面模式的時空特征[19]。Andrade 等基于社交網(wǎng)絡(luò)Twitter 挖掘巴西圣保羅市的降雨時空模式,結(jié)果表面,雨量站的時序數(shù)據(jù)與推特上相關(guān)的降雨時序數(shù)據(jù)并不同步,存在一個(-10~+10)min 的時間延遲[20]。目前,移動位置服務(wù)、遙感信息處理、精細(xì)農(nóng)業(yè)、智能交通、氣象等研究領(lǐng)域已經(jīng)成為時空挖掘的重要應(yīng)用部分,各行業(yè)和領(lǐng)域?qū)r空數(shù)據(jù)挖掘技術(shù)的巨大需求也推動了時空數(shù)據(jù)挖掘理論和方法的不斷發(fā)展和完善。

        2 時空數(shù)據(jù)挖掘在水文分析中的應(yīng)用

        著名水文學(xué)家 Yevjevich 認(rèn)為水文時間序列主要包括確定性和隨機(jī)性成分,因此,在進(jìn)行水文時空序列數(shù)據(jù)挖掘的時候必須考慮挖掘?qū)ο蟮拇_定性和隨機(jī)性。確定性成分主要基于一定的物理機(jī)制形成,例如地球公轉(zhuǎn)和自轉(zhuǎn)使水文時空序列數(shù)據(jù)包含確定性(年、月和日)周期成分;人類活動、氣候變化等影響流域產(chǎn)匯流模式,使水文序列存在趨勢和跳躍等暫態(tài)成分。隨機(jī)成分是由許多隨機(jī)和不確定性因素綜合作用引起的不規(guī)則震蕩,很難從物理機(jī)制的角度加以解釋和描述。具有水文信息的時空序列數(shù)據(jù)(尤其各類傳感器、遙感數(shù)據(jù))與一般的時間序列和空間數(shù)據(jù)相比,不僅組成復(fù)雜,而且特性也復(fù)雜多變,具有海量、動態(tài)、高維、多尺度、時空相關(guān)和異構(gòu)性、時空異質(zhì)性、非線性等特征。將數(shù)據(jù)挖掘的思想和方法引入到水文時空序列分析中,從水文時空序列中挖掘相關(guān)隱含特性,從而獲取正確、有潛在價值和可理解的水文模式,這個過程叫做水文時空序列數(shù)據(jù)挖掘,其目的是從水文時空數(shù)據(jù)集中發(fā)現(xiàn)有用的規(guī)律和知識。水文時間序列數(shù)據(jù)挖掘包括水文序列的相似性查找、洪峰傳播時間估計(jì)、水文時間序列中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)、水位和流量序列的異常模式檢測等。由于水文學(xué)科的特殊性,結(jié)合時空數(shù)據(jù)挖掘理論與算法,構(gòu)造水文時空數(shù)據(jù)挖掘模型的技術(shù)要點(diǎn)主要包括 3 個環(huán)節(jié):

        1)水文時空序列相似性分析。水文時空序列相似性分析也稱水文時空序列相似性查找,即在歸一化處理后的水文時空序列中找出各類相似的序列。這種相似性包括了氣候特征、流域下墊面等與流域水文循環(huán)相關(guān)要素的特點(diǎn)和發(fā)展趨勢,可用于降雨徑流過程的預(yù)測、水文過程規(guī)律分析等方面。而水文時空序列相似性分析的關(guān)鍵技術(shù)問題主要有時空序列的模式識別(特征提?。┖拖嗨菩远攘康木嚯x標(biāo)準(zhǔn) 2 個方面。

        2)水文時空數(shù)據(jù)建模。水文時空序列的預(yù)測主要依靠預(yù)測模型來進(jìn)行,預(yù)測模型的實(shí)質(zhì)是一個基于線性回歸的多維擴(kuò)展模型,原理可用如下公式表示:

        式中:系數(shù)βij是自變量Xij在i時刻的第j個系數(shù),表示自變量Xij對于目標(biāo)變量Yij的影響程度;Zij作為線性擬合殘差,是目標(biāo)變量變化中用自變量線性組合無法表示的部分,可用于在自回歸(Autoregressive,AR)模型中捕捉時間自相關(guān)性,進(jìn)而用于描述空間的相關(guān)性。

        3)水文時空數(shù)據(jù)預(yù)測?;貧w分析是定量分析多要素之間關(guān)系常用的方法,由于時空變量的諸多特殊性質(zhì),在很多情況下不能直接用回歸分析方法研究時空問題,因此,分析水文時空變量之間的關(guān)系需要在回歸分析模型的基礎(chǔ)上建立能夠描述時空變量特征的回歸分析模型?;跁r空自回歸移動平均模型建模的原理和方法,從模型識別、參數(shù)估計(jì)、模型檢驗(yàn)、精度評估等方法構(gòu)造適合水文時空數(shù)據(jù)分析的時空數(shù)據(jù)預(yù)測模型,用來預(yù)測未來一段時間在分析范圍中任何地理位置上的水文信息目標(biāo)值,如區(qū)域水資源分布時空變化趨勢等。

        3 結(jié)語

        事實(shí)證明,試圖依賴現(xiàn)有的物理定律和數(shù)學(xué)方程認(rèn)識、預(yù)測、預(yù)報復(fù)雜的水文現(xiàn)象依舊困難重重,人們已經(jīng)發(fā)現(xiàn)“大數(shù)據(jù)”技術(shù)在分析水文現(xiàn)象時空分布特征,揭示水文特征在時空維度與地貌特征之間的關(guān)系,構(gòu)建真正的分布式或者精細(xì)流域水文模型等方面所擁有的巨大優(yōu)勢。隨著遙感技術(shù)的發(fā)展,以及多源遙感影像在水文分析應(yīng)用中的普及,其所蘊(yùn)藏的信息也越來越豐富,因此,可構(gòu)造面向某一具體水文業(yè)務(wù)應(yīng)用的水文時空序列集合,并使用數(shù)據(jù)挖掘技術(shù)進(jìn)行時空信息的挖掘,從大量數(shù)據(jù)中提取所隱含的特征與規(guī)則,發(fā)現(xiàn)以前未知的模式,從而預(yù)測未來的趨勢和行為。

        數(shù)據(jù)挖掘技術(shù)在水文時空序列的應(yīng)用研究中發(fā)展空間巨大,應(yīng)用大數(shù)據(jù)技術(shù)分析水文現(xiàn)象的變化規(guī)律,為相關(guān)決策提支撐信息均有著重要的指導(dǎo)意義。隨著數(shù)據(jù)挖掘技術(shù)尤其是時空數(shù)據(jù)挖掘技術(shù)的發(fā)展與完善,數(shù)據(jù)挖掘技術(shù)在水文時空序列的應(yīng)用研究中將得到進(jìn)一步的擴(kuò)展和提高,而與水文時空序列研究的具體結(jié)合,也將推動數(shù)據(jù)挖掘技術(shù)本身的發(fā)展,使大數(shù)據(jù)體系中的數(shù)據(jù)挖掘技術(shù)在水文科學(xué)發(fā)展中凸顯出更加真切的價值和意義。目前,時空數(shù)據(jù)挖掘還缺乏一個令人滿意的理論框架,可度量和不可度量的空間關(guān)系,以及時間關(guān)系都需要在未來的數(shù)據(jù)挖掘中加以考慮,而這也將會是未來時空數(shù)據(jù)挖掘重點(diǎn)研究的方向之一。

        [1] FAYYAD U M, PIATETSKY-SHAPIRO G, SMYTH P, et al. Advances in knowledge discovery and data mining[M].Menlo Park: AAAI, 1996.

        [2] RODDICK J F, SPILIOPOULOU M. A bibliography of temporal, spatial and spatio-temporal data mining research[J].ACM SIGKDD Explorations Newsletter, 1999, 1 (1): 34-38.

        [3] MILLER H J, HAN J. Geographic data mining and knowledge discovery[M]. Boca Raton: CRC Press, 2009.

        [4] BECKER R A, EICK S G, MILLER E O, et al. Dynamic graphics arrangement for displaying spatial-time-series data:United States, 5623590 [P]. 1997.

        [5] SATHIYAMOORTHI V. Data mining and data warehousing:introduction to data mining and data warehousing[M]. Hershey:IGI Global, 2017: 312-337.

        [6] BABOVIC V, DRéCOURT J, KEIJZER M, et al. A data mining approach to modelling of water supply assets[J].Urban Water, 2002, 4 (4): 401-414.

        [7] BESSLER F T, SAVIC D A, WALTERS G A. Water reservoir control with data mining[J]. Journal of water resources planning and management, 2003, 129 (1): 26-34.

        [8] JONGHOON K, JIN-YOUNG H, WAI K C, et al. Understanding the effects of environmental factors on building energy efficiency designs and credits: Case studies using data mining and real-time data[J]. Journal of Engineering, Design and Technology, 2017, 15 (3): 270-285.

        [9] HAN J, KOPERSKI K, STEFANOVIC N. GeoMiner: a system prototype for spatial data mining[J]. ACM Sigmod Record: 1997, 26 (2): 553-556.

        [10] SHEKHAR S, LI Y, ALI R Y, et al. Spatial and Spatiotemporal Data Mining[M]. Chapman & Hall/CRC, 2011: 10-12.

        [11] MENNIS J, GUO D. Spatial data mining and geographic knowledge discovery—An introduction[J]. Computers,Environment and Urban Systems, 2009, 33 (6): 403-408.

        [12] VASWANI K, KARANDIKAR A M. An algorithm for spatial data mining using clustering[J]. International Journal of Computer & Mathematical Sciences, 2017, 6 (8): 226-231.

        [13] KOVASHKA A, GRAUMAN K. Learning a hierarchy of discriminative space-time neighborhood features for human action recognition[J]. Computer Vision and Pattern Recognition,2010, 23 (3): 2046-2053.

        [14] FASBENDER D, BRASSEUR O, BOGAERT P. Bayesian data fusion for space-time prediction of air pollutants: The case of NO_2 in Belgium[J]. Atmospheric Environment,2009, 43 (30): 4632-4645.

        [15] GHAEMI M S, AGARD B, NIA V P, et al. Challenges in spatial-temporal data analysis targeting public transport?[J]. IFAC-PapersOnLine, 2015, 48 (3): 442-447.

        [16] ANDERSEN J H, CARSTENSEN J, CONLEY D J, et al.Long-term temporal and spatial trends in eutrophication status of the Baltic Sea[J]. Biological Reviews, 2017, 92 (1):135-149.

        [17] BOSCHETTI M, BUSETTO L, MANFRON G, et al.PhenoRice: A method for automatic extraction of spatiotemporal information on rice crops using satellite data time series[J]. Remote Sensing of Environment, 2017, 194:347-365.

        [18] DUBE T, MUTANGA O, SIBANDA M, et al. Use of Landsat series data to analyse the spatial and temporal variations of land degradation in a dispersive soil environment:A case of King Sabata Dalindyebo local municipality in the Eastern Cape Province, South Africa[J]. Physics and Chemistry of the Earth, Parts A/B/C, 2017,100: 112-120.

        [19] YUSOF N, ZURITA-MILLA R. Mapping frequent spatiotemporal wind profile patterns using multi-dimensional sequential pattern mining[J]. International Journal of Digital Earth, 2017,10 (3): 238-256.

        [20] ANDRADE S C D, RESTREPO-ESTRADA C, DELBEM A C B, et al. Mining rainfall spatio-temporal patterns in twitter: A temporal approach[C]//NR Modala. International Conference on Geographic Information Science. Berlin:Springer, 2017: 19-37.

        猜你喜歡
        數(shù)據(jù)挖掘分析
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        中西醫(yī)結(jié)合治療抑郁癥100例分析
        在線教育與MOOC的比較分析
        數(shù)據(jù)挖掘的分析與探索
        河南科技(2014年23期)2014-02-27 14:18:43
        亚洲精品无码mv在线观看| 久久一区二区三区少妇人妻| 香蕉成人伊视频在线观看| 国产精品成人久久电影| 久久国产精品不只是精品| 无码无在线观看| 午夜理论片日本中文在线| 日本丰满熟妇videossexhd| 亚洲av无码一区二区二三区 | 国产网站视频| 躁躁躁日日躁| 亚洲熟女av中文字幕网站| 亚洲一区二区视频免费看| 免费av一区二区三区| 无码人妻丰满熟妇区毛片| 91超碰在线观看免费| 黑人一区二区三区在线| 新久久国产色av免费看| 亚洲欧美中文字幕5发布| 亚洲影院天堂中文av色| 国产一级免费黄片无码AV| 无码伊人久久大蕉中文无码| 91久久香蕉国产熟女线看| 欧美69久成人做爰视频| 亚洲中文字幕第一页在线| 中文乱码字幕在线中文乱码| 极品一区二区在线视频观看| 色偷偷噜噜噜亚洲男人| 国产精品九九久久一区hh| 久久影院最新国产精品| 浪货趴办公桌~h揉秘书电影| 久久久久久av无码免费看大片| 日韩av在线不卡一区二区三区| 久久人妻一区二区三区免费| 亚洲国色天香卡2卡3卡4| 综合无码综合网站| 亚洲性av少妇中文字幕| 国产强被迫伦姧在线观看无码| 老熟女多次高潮露脸视频| 国产三级av在线播放| 亚洲午夜久久久精品影院|