張麗娟
(遼寧省供水局工程處,沈陽 110002)
?
基于數(shù)據(jù)挖掘技術(shù)的水利工程管理分析
張麗娟
(遼寧省供水局工程處,沈陽 110002)
在水利工程管理中,運用數(shù)據(jù)挖掘技術(shù)能夠在海量數(shù)據(jù)中及時發(fā)現(xiàn)有價值、潛在的知識特點技術(shù),并對其進行提煉,讓水利工程管理趨向于科學化、專業(yè)化。文章主要從數(shù)據(jù)挖掘技術(shù)含義與常用方法出發(fā),闡述了數(shù)據(jù)挖掘的實施步驟與水利工程管理數(shù)據(jù)挖掘系統(tǒng)模型建立,對基于數(shù)據(jù)挖掘技術(shù)的水利工程管理要點進行分析,希望能為水利工程管理提供借鑒。
數(shù)據(jù)挖掘技術(shù);水利工程;管理分析
近年來,隨著中國經(jīng)濟與科學技術(shù)的快速發(fā)展,在現(xiàn)代化背景下,與水利工程有關(guān)的基礎(chǔ)設(shè)施建設(shè)也得到相應的完善。尤其是在水利工程管理與建設(shè)活動中,數(shù)據(jù)挖掘技術(shù)廣泛運用,能夠在海量數(shù)據(jù)中建立數(shù)據(jù)挖掘模型,及時發(fā)現(xiàn)有價值和潛在的知識并進行提煉,以此提升水利工程管理系統(tǒng)功能,讓水利工程管理趨向于科學化和專業(yè)化。
1.1 含義
數(shù)據(jù)挖掘技術(shù)即是將已有的含量分散數(shù)據(jù)信息作為挖掘資源,從而形成一種新的知識技術(shù)。從數(shù)據(jù)挖掘角度來說,數(shù)據(jù)挖掘技術(shù)是指以數(shù)據(jù)挖掘索引工具為挖掘依據(jù),對數(shù)據(jù)庫、數(shù)據(jù)倉庫和其他相關(guān)信息庫中隨機、相對模糊和不完全的數(shù)據(jù)進行挖掘,從而挖掘出海量數(shù)據(jù)中潛在的、有價值的信息,為決策者提供參考[1]。
1.2 常用方法
在水利工程項目管理活動中,運用數(shù)據(jù)挖掘技術(shù),要求員工必須掌握相應的數(shù)據(jù)挖掘技術(shù),才能在龐大的數(shù)據(jù)信息中挖掘出有價值的信息數(shù)據(jù)。一般情況下,在水利工程管理中較為常見的數(shù)據(jù)挖掘技術(shù)主要有以下幾種:
1)檢測部分異常的信息數(shù)據(jù),對檢測結(jié)果和參照數(shù)據(jù)之間的數(shù)據(jù)偏差進行分析,然后按照存在的偏差對全部數(shù)據(jù)進行挖掘,從而發(fā)現(xiàn)潛在的、有價值新信息。
2)按照數(shù)據(jù)信息的預見性進行挖掘。由于數(shù)據(jù)信息會隨著事物發(fā)展產(chǎn)生不同程度的變化,因此,在利用技術(shù)挖掘技術(shù)進行挖掘過程中,可根據(jù)這一變化規(guī)律對全部數(shù)據(jù)信息進行檢測,然后按照檢測結(jié)果在海量數(shù)據(jù)中挖掘出接近的數(shù)據(jù)信息,達到數(shù)據(jù)挖掘的目的。
3)對于關(guān)聯(lián)性方面而言,在面對龐大的數(shù)據(jù)信息過程中,關(guān)聯(lián)性分析只能分析到個別數(shù)據(jù),查找出數(shù)據(jù)信息之間存在的關(guān)聯(lián)性,然后按照這一關(guān)聯(lián)性來分析處理數(shù)據(jù)信息,從而提升數(shù)據(jù)信息處理的準確性。
4)數(shù)據(jù)分類和整合方法。在龐大的數(shù)據(jù)信息挖掘活動中,處理上述挖掘方法外,還可通過分類整合方法,根據(jù)數(shù)據(jù)信息的特征,將條件相同和規(guī)律相同的數(shù)據(jù)集中起來進行挖掘。而對于不規(guī)律數(shù)據(jù)信息,必須單獨進行分類整合,當全部數(shù)據(jù)信息進行對應分類以后,在分析數(shù)據(jù)時可避免盲目性,加快數(shù)據(jù)信息挖掘的速度[2]。
2.1 信息收集
在了解掌握水利工程項目管理需求和目標的背景下收集數(shù)據(jù)信息,也就是按照分析獲得的數(shù)據(jù)信息需求與目標對數(shù)據(jù)信息特征進行分析,然后選取與數(shù)據(jù)情況相對應的收集方法,并將收集到的數(shù)據(jù)信息存儲到信息數(shù)據(jù)庫中。
2.2 數(shù)據(jù)集成
集成數(shù)據(jù)又稱為數(shù)據(jù)共享,主要是通過物理和邏輯整理方式,對來源、格式、性質(zhì)特點等不同的數(shù)據(jù)信息進行整理。
2.3 數(shù)據(jù)規(guī)約
數(shù)據(jù)規(guī)約的主要目的是為了提升數(shù)據(jù)信息挖掘效率,對數(shù)據(jù)信息來源進行預處理。如果信息數(shù)據(jù)來源不規(guī)約,即使存在較少的數(shù)據(jù)也可通過挖掘方法對不同數(shù)據(jù)信息進行計算,但計算時間相對較長,這時可通過數(shù)據(jù)規(guī)約對數(shù)據(jù)來源進行約束,以此提升挖掘數(shù)據(jù)信息的效率,為小容量數(shù)據(jù)的數(shù)據(jù)規(guī)約奠定扎實基礎(chǔ)[3]。
2.4 數(shù)據(jù)整理
由于數(shù)據(jù)信息庫中會存在屬性值與表達方式不同的數(shù)據(jù)信息,需要對其進行加工處理。因此,必須利用合適的處理方式來填補丟失的數(shù)據(jù)信息,并對存在噪音的數(shù)據(jù)信息進行處理,確保數(shù)據(jù)信息的完整性和一致性。
2.5 數(shù)據(jù)變換
交換數(shù)據(jù)即是通過科學統(tǒng)計和數(shù)學方式,對參與分析的全部數(shù)據(jù)進行分析,然后轉(zhuǎn)變成與數(shù)據(jù)挖掘符合的數(shù)據(jù)模式。
2.6 數(shù)據(jù)挖掘
在分析數(shù)據(jù)過程中,應選取合理的數(shù)據(jù)分析工具,通過神經(jīng)網(wǎng)絡(luò)技術(shù)、模糊集、決策樹、規(guī)則推理和統(tǒng)計方法等數(shù)據(jù)信息處理技術(shù),對數(shù)據(jù)信息庫中的全部信息數(shù)據(jù)進行處理,從而獲得準確的數(shù)據(jù)信息。
2.7 模式評估
為了確保獲得的數(shù)據(jù)信息準確,必須在評估基礎(chǔ)上對已經(jīng)挖掘的數(shù)據(jù)結(jié)果進行反復提取,從而獲得有效的信息數(shù)據(jù)。
2.8 成果表示
成果表示需要通過專業(yè)化儲存、傳遞、輸出等方式,實時共享數(shù)據(jù)信息挖掘的成果[4]。
由于水利工程管理相對比較繁雜,在挖掘數(shù)據(jù)過程中需要工作人員從科學多方面出發(fā),利用專業(yè)人員的隱性知識分析挖掘數(shù)據(jù)信息準確性,以此查找有價值的數(shù)據(jù)知識。因此,在水利工程管理數(shù)據(jù)挖掘過程中,建立人機對話的半自動化層次型系統(tǒng)模型對數(shù)據(jù)進行挖掘已經(jīng)成為必經(jīng)途徑。該數(shù)據(jù)系統(tǒng)模型的建立主要由以下幾個層次組成:
1)用戶界面層。主要是通過用戶實現(xiàn)人機對話,以此挖掘查詢和結(jié)構(gòu),并將輸出結(jié)果顯示出來。
2)OLAP/OLAM層。該層設(shè)置功能即是將多維數(shù)據(jù)庫和數(shù)據(jù)倉庫的全部數(shù)據(jù)集中到OLAP/OLAM中,并對其進行分析,是數(shù)據(jù)信息挖掘潛在的、有價值的知識核心。
3)數(shù)據(jù)儲存層。作為構(gòu)建水利工程數(shù)據(jù)倉庫基礎(chǔ),除了儲存數(shù)據(jù)信息外,還負責對數(shù)據(jù)信息進行集成、過濾機清理。
4)多維數(shù)據(jù)庫和數(shù)據(jù)倉庫層。數(shù)據(jù)信息在經(jīng)過數(shù)據(jù)儲存處理后,對需要的數(shù)據(jù)來源進行分析[5]。
4.1 空間數(shù)據(jù)倉庫應用
空間數(shù)據(jù)倉庫的建立是一項具有挑戰(zhàn)性的工作,而空間數(shù)據(jù)倉庫的運用主要是為了收集來自不同數(shù)據(jù)源與系統(tǒng)空間的數(shù)據(jù),達到快速、靈活聯(lián)機分析處理的目的。在水利工程建設(shè)與管理決策中,影響數(shù)據(jù)信息來源的因素主要包括水旱災情數(shù)據(jù)庫、氣象數(shù)據(jù)庫、雨情與水情數(shù)據(jù)庫及蓄滯洪區(qū)空間分布式社會經(jīng)濟數(shù)據(jù)庫,主要存在異構(gòu)環(huán)境中,來自不同數(shù)據(jù)格式和數(shù)據(jù)系統(tǒng),加之數(shù)據(jù)格式和特定的結(jié)構(gòu)息息相關(guān),例如矢量格式、光柵格式和特定供應商有關(guān),為了能夠分析處理空間數(shù)據(jù),需要先清洗、變換和集成存在的異構(gòu)數(shù)據(jù)信息庫,在數(shù)據(jù)信息庫中存儲格式相同的數(shù)據(jù)信息,然后借用相同的數(shù)據(jù)挖掘算法查找有用的知識,對異構(gòu)信息數(shù)據(jù)進行過濾、綜合,以此完善采集水情工程信息、工情信息和防汛抗旱信息接收處理的自動化功能,實時分析汛情、旱情,對災情進行評估。
4.2 數(shù)據(jù)挖掘系統(tǒng)結(jié)合水利工程GIS系統(tǒng)
4.2.1 嵌入式
在空間信息挖掘過程中,GIS系統(tǒng)具有較強的分析處理能力,能有效結(jié)合數(shù)據(jù)挖掘技術(shù),組成一個完整的系統(tǒng)。而嵌入式耦合的運用,能夠通過GIS系統(tǒng)對空間不完整信息進行處理,減少數(shù)據(jù)挖掘過程中的工作量和處理數(shù)據(jù)的難度。其缺點是數(shù)據(jù)挖掘技術(shù)運用必須在規(guī)定的GIS系統(tǒng)中進行,不能移植到其他的GIS系統(tǒng),而這種方式會因為用戶需求,導致另一部分用戶的需求受到限制,給系統(tǒng)功能開發(fā)帶來影響[6]。
4.2.2 松散耦合式
基于數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘系統(tǒng)與GIS系統(tǒng)的建立實際上是兩個不相連的系統(tǒng),對于GIS中空間數(shù)據(jù)與屬性數(shù)據(jù)來說,數(shù)據(jù)挖掘系統(tǒng)主要是借助清晰、變換與過濾方式對已經(jīng)儲存在數(shù)據(jù)信息庫和數(shù)據(jù)倉庫匯總的信息數(shù)據(jù)進行挖掘。而松散耦合式的運用不需要使用特殊GIS系統(tǒng),能夠單獨使用空間數(shù)據(jù)對數(shù)據(jù)信息進行挖掘;但是也具有其自身缺陷,即是在數(shù)據(jù)挖掘系統(tǒng)中需要結(jié)合較為復雜的空間數(shù)據(jù)進行處理,其系統(tǒng)開發(fā)難度較大。例如在某水文模型構(gòu)建上,運用松散耦合式在每個水文單元或者是子流域上設(shè)置物理概念模型對凈雨進行計算,將分布式輸入模塊連接在GIS系統(tǒng)與RS接口中,為子流域水文過程之間的模擬提供空間輸入數(shù)據(jù),然后在每一段河道上建立河流模型,并設(shè)置模型建立的參數(shù)信息,按照單元水文模型、不同水文過程模擬模塊及河網(wǎng)匯流模型對流域產(chǎn)流進行計算以此演算河網(wǎng)匯流,最后獲得出口斷面流量。
4.2.3 緊密耦合式
緊密耦合式的運用,是嵌入式和松散耦合式的結(jié)合,不僅能夠充分利用已有的GIS處理空間數(shù)據(jù)的作用,降低系統(tǒng)開發(fā)難度,而且不受GIS系統(tǒng)已有用戶需求的影響,具有較強的靈活性,為水利工程管理提供單獨的數(shù)據(jù)挖掘功能。但由于受已有系統(tǒng)影響,開發(fā)數(shù)據(jù)挖掘系統(tǒng)對GIS系統(tǒng)依賴性較大[7]。例如在某水利工程管理過程中,由于管理內(nèi)容主要包括水庫、水閘、堤防、引水工程和灌溉工程等方面管理,挖掘有關(guān)數(shù)據(jù)能夠獲得龐大的、有價值數(shù)據(jù)信息,相關(guān)管理部門與員工在掌握空間數(shù)據(jù)后,有利于提升水利工程管理能力與決策水平。但是如果只是單獨挖掘該水利工程管理數(shù)據(jù)信息,那么其挖掘數(shù)據(jù)信息結(jié)果和目前數(shù)據(jù)挖掘理論系統(tǒng)基本構(gòu)想不符。因此,必須在利用已有的水利工程管理成果條件上,按照該水利工程管理的基本情況,靈活運用緊密耦合式數(shù)據(jù)挖掘系統(tǒng),借助GIS系統(tǒng)對地形地質(zhì)和水文環(huán)境進行處理,從而開發(fā)出該水利工程獨有的管理數(shù)據(jù)挖掘系統(tǒng)。
綜上,在水利工程管理過程中,運用數(shù)據(jù)挖掘技術(shù)對水利工程數(shù)據(jù)信息分析時,必須采取適當?shù)臋z測方法,按照具體操作步驟,建立水利工程管理數(shù)據(jù)挖掘系統(tǒng)模型,充分利用空間數(shù)據(jù)倉庫及水利工程GIS系統(tǒng),找出有價值的、潛在的數(shù)據(jù)信息,從而提升數(shù)據(jù)信息準確性為決策者提供有效管理決策,讓水利工程充分發(fā)揮應有作用,防洪防澇,確保國家、人們的生命財產(chǎn)安全,更好的服務(wù)于人民。
[1]戴元將,祁智,陳愛鑫.數(shù)據(jù)挖掘技術(shù)在水利工程管理中的應用研究[J].經(jīng)營管理者,2014(13):76-79.
[2]王東坡.基于數(shù)據(jù)挖掘技術(shù)的水利工程管理[J].吉林水利,2014(06):38-40.
[3]劉德峰,許騰飛.探究水利工程管理數(shù)據(jù)挖掘模型[J].價值工程,2015(20):38-40.
[4]葉華.數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實施要點[J].科技資訊,2015,13(12):118.
[5]付曉旭.數(shù)據(jù)挖掘技術(shù)在水利工程管理中的應用[J].建材與裝飾,2015(52):287-288.
[6]阿不都日衣木·提力瓦地.水利工程管理中數(shù)據(jù)挖掘技術(shù)的應用探析[J].建筑工程技術(shù)與設(shè)計,2016(04):894.
[7]丁云球.簡析數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實施要點[J].決策與信息:下旬刊,2014(12):182.
1007-7596(2017)01-0172-03
2016-12-20
張麗娟(1966-),女,遼寧撫順人,高級工程師,從事水利工程管理工作。
TP
B