楊 琳,黃澤河,張東虞,何邦財
(銅仁職業(yè)技術學院,貴州 銅仁 554300)
隨著時代的發(fā)展進步,“綠水青山就是金山銀山”在人們的心中深深扎下根,做好水土保持是構建和諧社會,改善生活質量的必然要求。各地的水土保持預防監(jiān)督體系和監(jiān)測網絡在不斷完善中,各地水土保持部門積累了大量的水土流失原始信息,為全面規(guī)劃及綜合治理提供了科學依據。然而水土流失是自然和人為因素共同作用的結果,影響因子眾多,流失面積與強度也在不斷地變化,因此需要基于大數據技術來進行信息化建設,對大量數據進行針對性處理。在本次研究中,采用的是開源大數據技術Hadoop 和Storm 集成構架,以同時實現大數據的離線挖掘和實時計算。
銅仁市木寨河小江流域屬于長江流域沅江水系錦江河支流,地處云貴高原邊緣侵蝕構造中低山與湘西侵蝕構造低山丘陵過渡的斜坡地帶,是典型的砂巖低山谷溝區(qū)。流域內耕地水土流失嚴重,遇到大雨或暴雨,極易造成山體垮塌,破壞下游水利基礎設施,并對下游群眾生命財產造成威脅[1]。
造成水土流失包括人為因素和自然因素。人為因素一是歷史原因,廣大群眾的水土保持觀念淡薄,生產經營、耕作管理方式落后;二是由于人口增長和社會經濟的不斷發(fā)展,人地矛盾突出,陡坡開荒嚴重,能源緊缺,亂砍濫伐,造成嚴重水土流失;三是耕地坡度多在15°至20°之間,為提高單產量,當地農民在夏季對耕地進行耕種。自然原因一是地質地貌,本區(qū)成土母質以砂頁巖為主,物理風化強烈,加之山高坡陡,溝壑密度大,質地疏松;二是降雨集中,暴雨強度大,疏松的表土易隨水下瀉。
為了監(jiān)測小江流域水土保持情況,在木寨河小流域的油房灣支毛溝內新建坡面徑流小區(qū)16 個、恢復原有徑流小區(qū)9 個、1 座控制站和1 處簡易氣象場。坡面徑流小區(qū)是根據坡度、坡向、坡位、土地利用現狀的不同而布設。控制站布設在木寨河小流域油房灣支毛溝出口處,控制流域面積0.09km2。通過水位、流量、含沙量的測定,計算控制面積內的年度徑流總量、徑流深、徑流系數及土壤侵蝕總量,從而推算整個木寨河小流域的水土流失的變化規(guī)律(如圖1 所示)。
圖1 木寨河小流域監(jiān)測點平面布設示意圖
同時,通過簡易氣象站監(jiān)測設備,全年連續(xù)不間斷監(jiān)測降水,了解水土流失的主要因子動態(tài),以小流域控制站監(jiān)測數據為依據,對小流域水土流失量進行量化分析,推算小流域徑流量、泥沙量,從而掌握木寨河小流域年度動態(tài)監(jiān)測數據。通過設置不同土地利用、不同坡度的徑流小區(qū)開展對比試驗觀測,總結各項措施防治水土流失的效益。
通過基礎設施的建設,監(jiān)測手段已具有多樣性特點,生成的基礎數據也呈現多樣性,對于數據評價方法也不相同。根據數據屬性,可以分為靜態(tài)數據和動態(tài)數據兩種。
靜態(tài)基礎數據是指能夠反映區(qū)域基本特征,在一定時間尺度內變化幅度小,相對穩(wěn)定的數據。如屬于基本屬性數據的海拔、相對高差、面積、主要土壤類型、坡度、形狀等,其能夠反映的水土流失狀況有土壤侵蝕狀況、溝壑密度等信息;有可以基于長序列觀測的數據,如屬于氣候特征的年平均溫度、年平均降雨量、年蒸發(fā)量等,其能夠反映年度土壤侵蝕的強度等信息;還有靜態(tài)相對穩(wěn)定數據,如屬于土地結構的耕地、林地、園地、草地、交通用地、居民點等,還有坡度、坡長等數據信息。
隨著物聯網的發(fā)展,動態(tài)數據成為大數據的重要組成部分,在水土保持監(jiān)測系統(tǒng)中實時觀測數據是動態(tài)數據的主要來源。主要有降雨量、風速、風向、含沙量,還有流量堰的流量、水位、含沙量、懸移質等情況。
不管是什么時代的信息系統(tǒng),主要目的就是實現對數據的交互及應用。在大數據時代,數據更呈現出量大、多樣性、產生速度快、低價值密度的特性,這一點和水土保持監(jiān)測中產生數據是一致的。根據水土監(jiān)測數據特征,可以從兩個方向進行應用,一是區(qū)域水土流失監(jiān)測評價,一是自然災害預警。
在區(qū)域水土流失方面,研究區(qū)域水土流失的監(jiān)測數據以及對監(jiān)測數據進行數據挖掘和深層次的數據分析研究,獲取區(qū)域內水土流失主要影響因子。在對水土流失影響因子進行綜合分析的基礎上采取有效的措施干預并對水土流失進行模擬預測,為研究區(qū)域水土保持提出合理的建議,進而保護研究區(qū)域生態(tài)環(huán)境。
在自然災害預警方面,如山洪、塌方等實時的預警信息和降雨量、徑流泥沙量、土壤含水量等數據緊密關聯。要實現對水土保持監(jiān)測動態(tài)更新數據的及時計算處理,發(fā)出預警信息,給人民做好防護措施的時間,及時保護人民生命財產安全,切實解決人民的生產生活需要。
數據挖掘是從大量低密度價值數據中提取先前未知的、隱含的具有潛在價值的信息。根據科學研究得知,水土流失的主要原因是土壤侵蝕,挖掘土壤侵蝕產生的規(guī)律,研究土壤侵蝕過程中各種因子的作用,是水土保持監(jiān)測數據挖掘的主要目標。
根據調查,影響土壤侵蝕的因素很多,如土壤類型、郁閉度、坡度、降雨量、風力、溝壑比,以及人的活動等因素。根據圖2 的數據挖掘流程所示,將多樣性的原始數據集成到系統(tǒng)中,通過數據清洗后以不同主題進行數據挖掘,最后通過應用層按需得到對應的應用。數據挖掘模型可以是多種,如:以不同植被條件下土壤侵蝕數據挖掘模型,不同地形條件下的土壤數據挖掘模型等[2]。
圖2 水土保持數據挖掘流程
隨著網絡和算力的進步,各種新興技術不斷涌現,大量的數據呈幾何級增長,形成了現在的大數據時代。在大數據時代,很多技術獲得了新生,如:人工智能、數據挖掘等等。之前,數據挖掘更多是為一些高端行業(yè)提供技術支持,如金融行業(yè)中的商務智能。隨著大數據的飛速發(fā)展,各種開源資源可以免費使用,數據挖掘技術也得到了發(fā)展,獲取相關工具的手段和方式也越來越便捷。
怎樣選擇和大數據平臺相結合得到更好的數據挖掘技術呢?必須從大數據平臺入手。在本次研究中,選擇了開源的Hadoop 來實現大數據平臺,在Hadoop 的生態(tài)系統(tǒng)中有一系列的核心組件,其中Mahout 就是一個可擴展的機器學習和數據挖掘庫,它包含了許多實現,包括聚類、分類、推薦過濾、頻繁子項挖掘。通過在Hadoop 大數據平臺上使用Mahout,可以有效地將Mahout 擴展到Hadoop 集群中,大大提高了運行效率,實現了大數據挖掘。
為了解決水土動態(tài)實時數據的處理,海量歷史數據的存儲,多樣性數據挖掘計算,使用了大數據技術構建水土保持監(jiān)測系統(tǒng)。
Apache 軟件基金會(Apache Software Foundation,簡稱為ASF),是專門為支持開源軟件項目而辦的一個非盈利性組織。在本文中所使用的大數據技術來自該基金會下的頂級項目Hadoop,在Hadoop 項目中有很多子項目,形成一個完整的Hadoop 生態(tài)系統(tǒng),被用到各行各業(yè)。在此次研究中的小江流域處于基層,由于各種限制,大部分使用人工測量及分析手段,信息化技術及大數據實際應用并不完善。采用了開源技術Hadoop構建水土保持監(jiān)測系統(tǒng)的計算框架,以其成本低、高效率、擴容能力強及可靠性的特性,不僅技術完善,而且節(jié)約了成本。
針對水土保持監(jiān)測系統(tǒng)主要實現區(qū)域水土流失監(jiān)測評價和自然災害預警兩個功能,根據現有的大數據技術,采用了Hadoop 和Storm 融合的技術構架(如圖3所示)。
圖3 水土保持監(jiān)測系統(tǒng)構架
系統(tǒng)構架分為數據采集、數據存儲、數據處理、數據應用四個層次,除了數據采集和數據應用外,中間兩層均是在Hadoop 集群中實現。
4.2.1 數據采集
靜態(tài)基礎數據,可以根據實際情況批量導入Hadoop 集群。數據采集以實時監(jiān)測數據為主,即動態(tài)更新數據??刹杉臄祿芯W絡共享的氣象數據,監(jiān)測點收集到的數據等。可以采取設備直連,或者通過GPS等信道交換數據到服務器中,通過Logstash 或Flume等數據采集工具將來自不同數據源的數據統(tǒng)一起來,并可以按照需求將數據標準化處理后,再傳到Hadoop平臺上。
4.2.2 數據存儲
數據存儲主要有適用于大數據Hadoop 的分布式文件系統(tǒng)和傳統(tǒng)的關系數據庫系統(tǒng)。因為水土保持數據除了實時及歷史監(jiān)測數據外,還有地理空間數據GIS,各種元數據等信息需要關系數據庫管理維護,這里采用的是MySQL 關系數據庫系統(tǒng)。由MySQL 和HDFS 共同支撐水土保持監(jiān)測數據存儲。
4.2.3 數據清洗
在水土保持監(jiān)測系統(tǒng)中,主要使用Hive 來實現離線數據清洗。Hive 是Hadoop 生態(tài)系統(tǒng)的一部分,必須依賴于Hadoop 而存在。Hive 以HDFS 為數據存儲介質,以關系數據庫,如MySQL 為元數據存儲。同時,Hive 對應的 HQL 執(zhí)行后,是交給 MapReduce 執(zhí)行,這樣就可以實現數據的分布式運行。
4.2.4 離線數據挖掘
同樣屬于Apache Hadoop 的項目Mahout,由于Mahout 是基于Hadoop 實現的,在以前很多運行在單機上的算法,可以在Hadoop 集群中交由MapReduce進行分布式計算,這樣大大提高了同樣算法下的可處理數據量和計算能力,所以說Mahout 進行數據挖掘的最大優(yōu)勢就是能在Hadoop 集群中進行計算,提升了處理能力。
4.2.5 實時數據處理
在本次研究中,選用的實時數據處理技術是Yahoo 開源的Storm-YARN,它是一個將實時計算Storm整合到Hadoop 項目。該框架借助YARN 為Storm 提供的接口,讓Storm 和MapReduce 以及YARN 上的其他應用程序共享整個集群資源,是能夠開放運行在Hadoop 集群上的Storm。實時處理的負載一般不恒定且不可預測,為了滿足峰值的需求,Storm 會需要更多的資源,將Storm 和Hadoop 的批處理MapReduce 搭配使用,Storm-YARN 可以通過YARN 進行統(tǒng)一的資源管理,為大數據系統(tǒng)提供了巨大的彈性。
在系統(tǒng)獲取數據過程中,特別是水土保持監(jiān)測動態(tài)更新的數據,如流量、水位、含沙量、懸移質等數據,目前的做法是人工取值。這種情況直接影響實時數據處理,無法實現及時預警。解決方法是升級現有的水土保持監(jiān)測終端設施設備的感知識別功能,在基層實地布設多種用途的網絡傳感數據探測終端,完成對水土保持基礎數據進行智能化獲取,實現數據監(jiān)測全天候“即測即見”,調動監(jiān)測體系及時響應和聯動。
監(jiān)測人員專業(yè)技術水平不高,只能對數據進行采集及簡單整理,對數據缺乏深入分析。一些先進設施設備不能充分運用,遇有設備故障不能現場解決,只能逐級上報,影響監(jiān)測工作順利開展。建議業(yè)務主管部門多組織監(jiān)測技術的培訓或組織技術人員到比較優(yōu)秀的站點去參觀學習,相互交流,進一步提高觀測人員監(jiān)測技術水平。
水土保持監(jiān)測數據呈多樣性,既有歷史數據,也有即時數據,數據之間關系復雜,對土壤侵蝕的影響因子眾多,因此需要用大數據技術來實現。在本次研究中采用了開源的大數據技術Hadoop 項目及其子項目和Storm 實時計算框架,同時為了解決數據共享和資源調配的問題,通過Storm-YARN 項目,將Strom 集群融合到Hadoop 中,實現了高彈性、高效率的水土保持監(jiān)控系統(tǒng);同時,也為基層如何運用大數據技術提出了一種解決思路。