楊 冬
(遼寧省水文局,沈陽 110003)
水文數(shù)據(jù)分析中應(yīng)用數(shù)據(jù)挖掘技術(shù)的若干研究
楊 冬
(遼寧省水文局,沈陽 110003)
水文數(shù)據(jù)分析能夠有效的研究水文問題,但是由于數(shù)據(jù)得不到合理的整理,導(dǎo)致最終的預(yù)測結(jié)果存在著偏差性,數(shù)據(jù)挖掘技術(shù)能夠從大量的數(shù)據(jù)中提取出有用的數(shù)據(jù),建立準確的模型,且整個預(yù)測過程比較簡單,系統(tǒng)的操作比較智能,能夠滿足實際的需求。文章分析了數(shù)據(jù)挖掘技術(shù)相關(guān)概念,并闡述了數(shù)據(jù)分析系統(tǒng)的實現(xiàn)與應(yīng)用研究。
水文數(shù)據(jù);數(shù)據(jù)挖掘技術(shù);概念;應(yīng)用
目前我國研究水域問題均是以水文數(shù)據(jù)為基礎(chǔ),伴隨著城市建設(shè)的加劇,社會經(jīng)濟的提升,大量的水文數(shù)據(jù)資料堆積,這些堆積資料的充分利用又是一個較難的問題,應(yīng)用各類數(shù)據(jù)挖掘為水資源資料的管理和調(diào)度提供了科學(xué)依據(jù)。利用數(shù)據(jù)挖掘技術(shù)能夠從大量的數(shù)據(jù)中進行有效的分析、預(yù)測,再結(jié)合挖掘數(shù)據(jù)和水文的分析需求,建立了水文數(shù)據(jù)管理分析系統(tǒng)。
數(shù)據(jù)挖掘,顧名思義就是在大量堆積的數(shù)據(jù)匯總抽取有價值的信息,專業(yè)的解釋就是數(shù)據(jù)挖掘其實就是將數(shù)據(jù)庫的展開更深層次的應(yīng)用,近而有效的提升對系統(tǒng)中數(shù)據(jù)資源的有效運用,通過對數(shù)據(jù)的分析探索出解決水利行業(yè)的各類問題的有效手段,以此確保我國水利行業(yè)穩(wěn)定、高效的發(fā)展。
數(shù)據(jù)挖掘的流程,主要包括:①將問題定義,問題定義在整個過程中占據(jù)著重要的作用,眾所周知,數(shù)據(jù)挖掘就是發(fā)現(xiàn)更有價值的信息,在定義之前必須要清楚需求和目的;②將收集的數(shù)據(jù)預(yù)處理,根據(jù)問題選擇有效的數(shù)據(jù),接著對數(shù)據(jù)進行轉(zhuǎn)換和整理,配備合適的算法;③建立起新的數(shù)據(jù)模型,確定了算法之后,結(jié)合實際的情況,建立出相應(yīng)的模型;④進行模型評估,并將最后的結(jié)論進行解釋,若是建立的模型不符合相關(guān)的要求,就要返回之前的步驟,對數(shù)據(jù)的整理、算法的選擇、參數(shù)的調(diào)整這些步驟進行詳細的檢查,經(jīng)過調(diào)整之后,重新建立起評估模型;⑤在實際的工作中運用模型,查看成效。
目前在水文數(shù)據(jù)分析中,應(yīng)用最廣泛的數(shù)據(jù)挖掘技術(shù)主要包括4種,具體如下:①分類預(yù)測,在收集的數(shù)據(jù)中找出數(shù)據(jù)的類型,并根據(jù)類型建立模型;②關(guān)聯(lián)分析,發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性,分析具備規(guī)則的數(shù)據(jù)和不具備規(guī)則數(shù)據(jù)之前的派生關(guān)系;③聚類分析,聚類分析主要指的是沒有任何指導(dǎo)的學(xué)習(xí),該分析根據(jù)系統(tǒng)設(shè)定的規(guī)格對數(shù)據(jù)進行分類和聚集,針對那些不同類型的數(shù)據(jù)進行詳細的描述;④時間順序分析,表示不同數(shù)之間的信息,以及不同數(shù)據(jù)之間的關(guān)系分析,見該數(shù)據(jù)排成數(shù)列,接著對數(shù)列的變化趨勢進行分析。
2.1 系統(tǒng)的數(shù)據(jù)集成挖掘
數(shù)據(jù)集成挖掘是在系統(tǒng)的內(nèi)部進行的,數(shù)據(jù)集成挖掘能夠?qū)崿F(xiàn)數(shù)據(jù)移動,數(shù)據(jù)復(fù)制、數(shù)據(jù)擴展等問題的處理時間,集成數(shù)據(jù)挖掘功能主要是對數(shù)據(jù)管理的環(huán)境進行可靠的分析,挖掘的數(shù)據(jù)和模型都直接存放在數(shù)據(jù)庫中,對數(shù)據(jù)的整理和處理也比較方面。集成數(shù)據(jù)挖掘能夠自動運行,確保挖掘過程的自動化,減少數(shù)據(jù)到信息轉(zhuǎn)換之間的所需時間。為了便于理解,將集成數(shù)據(jù)挖掘系統(tǒng)的功能以及算法制作成表格,見表1、表2。
表1 為水文數(shù)據(jù)集成挖掘系統(tǒng)功能對比表格
表2 為集成數(shù)據(jù)挖掘功能算法列表
BIEE主要是承擔(dān)數(shù)據(jù)分析應(yīng)用、顯示工作,BIEE數(shù)據(jù)模型能夠進行無縫連接,通過連接將各個數(shù)據(jù)的來源進行整體的構(gòu)架,具體的構(gòu)架信息如圖1所示。從圖中能夠看出BIEE構(gòu)架中BI Server是整個操作的核心,BI Server主要是管理數(shù)據(jù)模型(包括數(shù)據(jù)的整合、數(shù)據(jù)的后臺服務(wù))。從屋里層面分析。數(shù)據(jù)模型的建立并非固定,能夠建立起多種不同來源、不同類型的數(shù)據(jù)模型,雖然BI Server無法對數(shù)據(jù)進行儲存,但是卻能夠為其他儲存系統(tǒng)顯示數(shù)據(jù)的來源、定義,業(yè)務(wù)邏輯層面主要是將數(shù)據(jù)模型(形式主要是雪花、星星的形式)抽象出來,接著對數(shù)據(jù)模型進行層次、量度的設(shè)計,需要注意的是業(yè)務(wù)邏輯不會有改動,且不同物理層之間的數(shù)據(jù)也不會相互影響。
圖1 BIEE構(gòu)架示意圖
2.2 系統(tǒng)的實現(xiàn)和應(yīng)用
1)數(shù)據(jù)的獲取。
首先要收集水文監(jiān)測站的歷史水文數(shù)據(jù)、各個水文站點的聯(lián)系方式,同時對整體的數(shù)據(jù)進行分析,提供有用、可靠的挖掘?qū)ο蟆?/p>
將所有的數(shù)據(jù)進行預(yù)處理之后,對數(shù)據(jù)的空值、噪音值、重復(fù)值等進行檢查,預(yù)處理方式能夠從以下幾點入手:首先要檢查重復(fù)率,將數(shù)據(jù)中出現(xiàn)重復(fù)的及時刪除;針對數(shù)據(jù)中出現(xiàn)的大規(guī)模的空值,通過采取15日均值的方式來填充空值,超過5天的單不超過1月的空值,要采取5年內(nèi)的同期平均值填充。
2)建立模型。
根據(jù)數(shù)據(jù)源中數(shù)據(jù)之間的相關(guān)關(guān)系,數(shù)據(jù)的挖掘流程,采取定義問題發(fā)現(xiàn)水位之間的關(guān)系模型,對平臺中的數(shù)據(jù)采取數(shù)據(jù)集成挖掘的方式,接著按照定義挖掘要求再次挖掘數(shù)據(jù),定義挖掘數(shù)據(jù)的具體的挖掘流程如圖2所示。
圖2 定義數(shù)據(jù)挖掘方式結(jié)構(gòu)示意圖
數(shù)據(jù)模型中模板的作用主要是篩選和替換數(shù)據(jù)極端值,剔除一些噪音數(shù)據(jù)和無效數(shù)據(jù),通過采用GLM和SVM算法,其他的均使用默認值。在建立模型的過程中,其中整體數(shù)據(jù)中60%作為模型訓(xùn)練數(shù)據(jù),40%作為模型評測數(shù)據(jù)。主要是評測量模型質(zhì)量以及檢測的精準度。在模型的應(yīng)用獲得預(yù)測的結(jié)果之后,系統(tǒng)中的AWM工具將會建立起兩個數(shù)據(jù)立方體,數(shù)據(jù)立方中的GLM回歸模型平均預(yù)測精準度必須要達到85.372%以上,AVM回歸模型的平均預(yù)測精準度必須要達到87.444%以上,因此挖掘數(shù)據(jù)技術(shù)所得到的模型精度較高,能夠充分滿足需求。
3)數(shù)據(jù)效益。
建立的兩個數(shù)據(jù)立方體中(包括:水位數(shù)據(jù)、預(yù)測數(shù)據(jù)、觀察數(shù)據(jù)),BIEE數(shù)據(jù)模型的物理層包含了數(shù)據(jù)庫連接信息的連接池;業(yè)務(wù)邏輯層主要是在物理層的基礎(chǔ)上,對業(yè)務(wù)用戶進行更加多維度的組織,度量各個監(jiān)測站的水位、平均水位、預(yù)測水位等,建立時間維表;展現(xiàn)層是在定義層和邏輯層的基礎(chǔ)上進行的,主要是將一些非重要信息(字段描述、邏輯描述)刪除、保留重要的信息內(nèi)容及數(shù)據(jù)。
為了使得展示模型預(yù)測信息和水文的統(tǒng)計結(jié)果,利用BIEE制作水文回歸模型預(yù)測信息匯總查詢表,水文曲線圖(主要指的是預(yù)測水文、實際水位),水文站的歷史信息圖等資料制作成表格,按照圖形的形式呈現(xiàn)出來,將整體的數(shù)據(jù)及資料集中展示。
水文數(shù)據(jù)分析在水文工作中占據(jù)著重要的意義,但是由于數(shù)據(jù)得不到合理的整理,導(dǎo)致最終的預(yù)測結(jié)果存在著偏差性,數(shù)據(jù)挖掘技術(shù)能夠從大量的數(shù)據(jù)中提取出有用的數(shù)據(jù),建立準確的模型,且整個預(yù)測過程比較簡單,系統(tǒng)的操作比較智能,能夠滿足實際的需求。
[1]尹濤,關(guān)興中,萬定生.數(shù)據(jù)挖掘技術(shù)在水文數(shù)據(jù)分析中的應(yīng)用[J].計算機工程與設(shè)計,2012(12):4721-4725.
[2]李學(xué)學(xué).基于數(shù)據(jù)預(yù)處理和回歸分析技術(shù)的數(shù)據(jù)挖掘算法及其應(yīng)用研究[D].蘭州:蘭州交通大學(xué),2014.
[3]吳佳文.水文時間序列數(shù)據(jù)挖掘算法研究與應(yīng)用[D].沈陽:沈陽農(nóng)業(yè)大學(xué),2011.
[4]王曉陽.水文監(jiān)測系統(tǒng)研究與實現(xiàn)[D].西安:西安工業(yè)大學(xué),2016.
[5]李宏偉.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在中長期水文預(yù)報中的應(yīng)用[J].人民珠江,2013(06):21-25.
P337;TP311.13
B
2017-08-20
楊冬(1968-),男,遼寧凌海人,大學(xué)本科,從事水文信息化管理工作。