亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SparkR的人工水體藻類建模預測

        2019-08-06 20:18:00秦業(yè)海李修華艾矯燕付旭生
        環(huán)境與發(fā)展 2019年4期

        秦業(yè)海 李修華 艾矯燕 付旭生

        摘要:為探究水質分析與大數(shù)據(jù)技術結合的可行方案,以MySQL+Hive+SparkR為主體框架搭建一整套從數(shù)據(jù)輸入、存儲、調度到應用的SparkR水質分析平臺。設置室內培養(yǎng)模擬人工湖藻類生長實驗組及其重復實驗組,監(jiān)測各項指標數(shù)據(jù),通過SparkR平臺,在本地應用Adaptive-Lasso算法識別出對照組和苦草組藻類生長主要影響因子,并建立回歸方程進行驗證,在集群分布式部署GBTs藻類預測模型,經(jīng)重復試驗驗證預測模型未來3天的相對誤差均值分別為15.3%、14.8%。

        關鍵詞:藻類生長模型;SparkR;Adaptive-Lasso;GBTs

        中圖分類號:X824 文獻標識碼:A 文章編號:2095-672X(2019)04-0-03

        Abstract:In order to explore the feasible scheme of combining water quality analysis with big data technology, a set of SparkR water quality analysis platform from data input, storage, dispatch to application is built with MySQL+Hive+SparkR as the main framework. Seting up experiment groups indoors to simulate algae growth of artificial lake and its repeated experimental groups, various indicators was monitored. Based on SparkR platform, the adaptive-Lasso algorithm was applied locally to identify the main influencing factors of algae growth in control group and validate the regression equation, and GBTs algae prediction model was deployed in the cluster, and repeated experiments showed that the relative error of GBRT algae prediction models in the next three days was 15.3% and 14.8% respectively.

        Keywords:Algal growth model;SparkR;Adaptive-Lasso;GBTs

        由于水體污染導致的藻類水華一直受到廣泛的重視,我國從20世紀50年代起就已經(jīng)對各大湖泊水質進行監(jiān)測,但由于存儲管理的混亂,可能造成數(shù)據(jù)丟失或不可用,而現(xiàn)代的水質監(jiān)測設備能取大量數(shù)據(jù),水質監(jiān)測也將會進入大數(shù)據(jù)時代,因此面對大規(guī)模的數(shù)據(jù),更需要一種規(guī)范、安全及可擴展的數(shù)據(jù)存儲方式。國內外對藻類水華進行了大量的影響因子分析、機理建模和數(shù)據(jù)建模,都取得了良好研究成果,但機理模型針對性強,難以做到普遍適用,而神經(jīng)網(wǎng)絡等數(shù)據(jù)模型適用性強,依賴現(xiàn)在充盈的數(shù)據(jù)能進一步提高精確性,然而過大的數(shù)據(jù)量也將會成為基于內存計算的傳統(tǒng)機器學習的瓶頸。因此有學者就水質分析與大數(shù)據(jù)的結合進行了展望和初步探索[1-4],對學科的結合起到了指引作用,但未列出具體可行的結合方案,水質大數(shù)據(jù)還處于起步階段。本文在實驗獲取數(shù)據(jù)的基礎上,一整套從數(shù)據(jù)輸入、存儲、調度到應用的SparkR水質分析平臺,具有高可靠、可擴展、兼顧本地及并行計算等優(yōu)勢。通過在本地實現(xiàn)Adaptive-Lasso算法來分析藻類生長的主要影響因子,通過在集群部署GBTs藻類預測模型,在取得較好的分析及預測結果的同時,也驗證了基于SparkR平臺對水質數(shù)據(jù)可伸縮性分析這一可行方案。

        1 材料與方法

        1.1 實驗方案

        研究對象為廣西大學鏡湖,是典型的草、藻型人工景觀湖,水域面積約3000m2,約70%水域長有苦草,與外界水域無連通為封閉式湖泊。為避免復雜的氣候條件和人為活動等因子對藻類生長的干擾,采用室內培養(yǎng)模擬的方案,共設3個實驗組,采用60* 40* 60cm的玻璃缸作為培養(yǎng)箱:1)空白組,置入40cm高的湖水;2)對照組,置入10cm厚的底泥及40cm高的湖水;3)苦草組,置入10cm厚的底泥及40cm高的湖水后靜置一天,隔天植入18株長勢良好的苦草。以上的湖水、底泥和苦草均取自同一區(qū)域,湖水均用13號的浮游生物網(wǎng)過濾;底泥去除雜質并攪拌保障勻質性;所用苦草長勢良好且修剪為同一外觀。培養(yǎng)過程中保持水箱溫度為22±1℃,設置光照強度為500μmol.m-2.s-1,光暗比為12h:12h,光照時間段為8:00至20:00,進行統(tǒng)一管理。

        為驗證模型及預測效果,設計重復實驗作為驗證組,采用60* 50*70cm的玻璃缸作為培養(yǎng)箱:對照驗證組,置入10cm厚的底泥及50cm高的湖水;苦草對照組,置入10cm厚的底泥及50cm高的湖水,植入22株苦草,重復實驗相關操作及管理與實驗組相同。

        1.2 數(shù)據(jù)測定

        測定實驗數(shù)據(jù)主要使用為美國YSI的EXO2型多參數(shù)水質監(jiān)測儀,可以同時裝載6只傳感器來獲取各種的水質參數(shù)監(jiān)測數(shù)據(jù),通過設置監(jiān)測時間和監(jiān)測頻率,最高能以4HZ的速率輸出監(jiān)測數(shù)據(jù)。傳感器監(jiān)測數(shù)據(jù)經(jīng)過自帶程序進行數(shù)據(jù)過濾,最終被傳輸?shù)綌?shù)據(jù)采集終端顯示并以csv格式輸出保存。使用水質監(jiān)測儀監(jiān)測的水質指標有pH值、溶解氧(DO)、水溫(T)、濁度(Tur)、學需氧量(COD)、電導率(Cond)、氧化還原電位(ORP)、葉綠素a(Chl-a)。針對本文藻類生長分析的需求,通過實驗室化學測定的方式測定總磷(TP)、總氮(TN)、氨氮(NH4+-N)指標,依照《水和廢水監(jiān)測分析方法》[5]中相應的方法執(zhí)行。

        2 技術與方案

        使用VMware創(chuàng)建3臺虛擬機為節(jié)點構建集群,選用CentOS6.7操作系統(tǒng)。集群各節(jié)點通過配置相應IP、主機名及hosts映射文件,關閉防火墻,配置免密登錄保證集群通信通暢。集群所有節(jié)點安裝和配置Java環(huán)境和R環(huán)境,最基本的需要安裝Hadoop HDFS集群、Hive和Spark集群,為加強集群性能,可以選擇安裝zookeeper、YARN等等大數(shù)據(jù)生態(tài)系統(tǒng)組件。

        本文將搭建一整套從數(shù)據(jù)的輸入、存儲、調度到應用分析的SparkR水質分析平臺,采用的主體框架為MySQL+Hive+SparkR,分別對應本地數(shù)據(jù)、Hadoop集群和Spark集群模塊,SparkR平臺的整體架構及流程如圖1所示。

        水質監(jiān)測儀器及實驗測定數(shù)據(jù)保存為csv格式文件,通過編寫R程序對原始數(shù)據(jù)進行整合、剔除異常值、補缺、歸一化等數(shù)據(jù)預處理以滿足數(shù)據(jù)應用的格式需求。將經(jīng)過預處理的數(shù)據(jù)導入MySQL所建相應的表中,MySQL數(shù)據(jù)庫作為數(shù)據(jù)的中轉,也便于實現(xiàn)數(shù)據(jù)的可視化。使用Azkaban工作流任務調度器來實現(xiàn)各項任務定時并按流程自動執(zhí)行,提交的具體任務流程為:csv文件→數(shù)據(jù)預處理→導入MySQL→導入Hive,自動實現(xiàn)數(shù)據(jù)經(jīng)本地預處理后向本地數(shù)據(jù)庫再向集群存儲的傳遞過程。其中使用Sqoop工具將MySQL中的結構化數(shù)據(jù)導入到Hive中,實則是導入到Hadoop HDFS中,而HDFS本身就是一個高可靠、可擴展的分布式文件系統(tǒng),滿足了數(shù)據(jù)安全及擴容的需求。Hive是基于HDFS對數(shù)據(jù)進行類數(shù)據(jù)庫操作的抽象數(shù)據(jù)庫框架,具有強大的數(shù)據(jù)查詢和清洗功能,通過使用符合用戶使用習慣的類SQL的HiveSQL語句來高效地獲取所需數(shù)據(jù)。

        SparkR使用一種帶有列名的分布式數(shù)據(jù)集SparkDataFrame,它與關系型數(shù)據(jù)庫中的表或是R Data Frame相似,并就分布式環(huán)境進行了優(yōu)化,SparkDataFrame可以由Hive表來構建。SparkR通過SparkSession作為橋梁實現(xiàn)R程序與Spark集群互通,使得R程序能調用Spark集群上的數(shù)據(jù)和資源,解決了R語言難以實現(xiàn)級聯(lián)的問題。SparkR中可以使用HiveSQL語句來查詢Hive表中的數(shù)據(jù)來構建SparkDataFrame,實際上是由SparkSession調用Spark SQL組件來實現(xiàn)的。

        R語言與大數(shù)據(jù)集群結合的方式有一般兩種,一種是從集群中獲取數(shù)據(jù)到本地,使用R程序進行需求分析。SparkR就可以通過HiveSQL語句從集群的Hive表篩選所需數(shù)據(jù)到本地,由于大多數(shù)的算法都是基于內存進行串行計算,因而只能采用本地計算方式,與傳統(tǒng)的R語言數(shù)據(jù)分析無異,但SparkR為集群和R程序提供了良好的銜接,即使大規(guī)模數(shù)據(jù)也能高效地分塊、抽取和篩選成內存可容納的規(guī)格,提高了數(shù)據(jù)分析的量級和效率。另一種是在集群上部署分布式計算的R程序。分布式計算需要算法支持并行化,目前SparkR實現(xiàn)的可并行化的算法有分類、聚類、回歸、樹和協(xié)同過濾等算法,而實現(xiàn)的本質是由Spark MLlib機器學習庫中算法向R語言的遷移,SparkDataFrame作為分布式數(shù)據(jù)集可以直接調用SparkR所實現(xiàn)的機器學習算法,這使得R語言也能進行大規(guī)模數(shù)據(jù)的并行化計算。SparkR作為R語言與大數(shù)據(jù)集群的結合方式,對大規(guī)模數(shù)據(jù)或是小規(guī)模數(shù)據(jù)、并行計算或是串行計算,都提供了良好的協(xié)調處理方案,使數(shù)據(jù)分析具有可伸縮性。

        3 分析與建模

        3.1 Adaptive-Lasso相關分析

        將實驗獲取的數(shù)據(jù)通過SparkR將全量加載到本地,使用Adaptive-Lasso算法做相關分析識別藻類生長的主要影響因子。應用Lasso回歸來分析影響藻類生長的主要影響因子并建立回歸模型,Lasso回歸,將參數(shù)估計與變量選擇同時進行的一種正則方法,用模型系數(shù)的絕對值函數(shù)做為懲罰來壓縮模型系數(shù),能使一些絕對值較小的系數(shù)直接變?yōu)?[6]。在R語言中的使用LAR(最小角度回歸)算法實現(xiàn)Lasso回歸算法,但未出現(xiàn)某些指標回歸系數(shù)為0的情況。為解決Lasso估計對于所有的系數(shù)都使用相同程度的壓縮效果問題,應用Zuo提出給不同的系數(shù)加上不同權值的Lasso改進方法,稱為Adaptive-Lasso方法[7],在R語言中編程實現(xiàn)Adaptive-Lasso算法,計算結果如表1。

        為驗證模型的健壯性,對Adaptive-Lasso回歸模型進行10-折交叉驗證,計算結果為B、C兩組模型的均方誤差均值分別為0.331和0.262,預測值相對于真實值的相對誤差均值分別為39.5%、18.4%。從計算結果來看,使用Adaptive-Lasso算法選取主要影響因子而構建的回歸模型是合理的。使用驗證組數(shù)據(jù)對Adaptive-Lasso回歸模型進行驗證,對照組和苦草組的均方誤差均值分別為0.315和0.283,預測值相對于真實值的相對誤差均值分別為33.4%、21.6%使用多元線性回歸模型還是存在一定誤差,需要更精確的預測方法。

        3.2 GBTs建模預測

        為更精確地對藻類生長進行預測,將構建GBTs藻類生長模型。梯度提升樹(Gradient-Boosted Trees,GBTs ),是一種決策樹的迭代集合,通過迭代地訓練決策樹使損失函數(shù)達到最小[8]。梯度提升樹對復雜的非線性函數(shù)有較好的擬合能力,易于實現(xiàn)并行化,而分布式平臺也較好的解決了該算法內存消耗大的問題[9]。SparkR所實現(xiàn)的GBTs算法支持分布式并行化的分類和回歸應用,在集群環(huán)境下通過調用spark.gbt()方法,并根據(jù)模型需求調整模型訓練參數(shù)構建藻類生長的GBTs預測模型。

        使用實驗組數(shù)據(jù)用于模型訓練,Chl-a作為輸出,其余指標作為輸入,分別使用相應的滯后數(shù)據(jù)來預測未來0天和3天的葉綠素濃度,其中未來0天預測模型作為參考,未來3天預測模型作為實際應用。使用驗證組數(shù)據(jù)對模型進行驗證,兩個模型的均方誤差均值、預測值相對于真實值的相對誤差均值如表2所示。

        從結果可以看出,兩個模型相差不大,未來3天預測模型的驗證結果如圖2所示,可以看出在前中期預測點和實際點非常接近,后期由于藻類衰亡后出現(xiàn)了水棉等浮游植物,各指標數(shù)據(jù)波動較大,導致后期預測結果有所偏差,但總體而言所建立的GBTs預測模型有良好的預測結果。由于本次實驗數(shù)據(jù)還未到達一定規(guī)模,在實現(xiàn)水質監(jiān)測自動化系統(tǒng)而獲取大量數(shù)據(jù)的條件下,將能更好地發(fā)揮SparkR平臺的優(yōu)勢進而得到更好的數(shù)據(jù)分析和模型預測結果。

        4 結論

        (1)搭建了從數(shù)據(jù)輸入、存儲、調度到應用的一整套基于SparkR的數(shù)據(jù)處理分析平臺,具有高可靠、可擴展、兼顧本地及并行計算等優(yōu)勢,通過集群加載數(shù)據(jù)到本地實現(xiàn)Adaptive-Lasso算法來分析藻類生長的主要影響因子,通過在集群部署GBTs藻類預測模型,驗證了基于SparkR平臺對水質數(shù)據(jù)可伸縮性分析的可行性。(2)通過Adaptive-Lasso算法篩選參數(shù)建立回歸方程并進行驗證,最終確定對照組對藻類生長的主要影響因子為pH、溶解氧、濁度、電導率、總磷、總氮,苦草組的為pH、溶解氧、濁度、總磷、總氮。(3)就多元線性回歸對于有較大峰值出現(xiàn)藻類生長過程預測的不足,在集群上應用GBTs算法建立藻類生長預測模型,經(jīng)重復試驗驗證,對照組和苦草組的GBTs藻類預測模型未來3天的相對誤差均值分別為15.3%、14.8%,預測效果良好。

        參考文獻

        [1]趙黎明,王海剛,王英玨.大數(shù)據(jù)在線技術在水質監(jiān)測中的應用[J].中國環(huán)保產(chǎn)業(yè),2017(12):70-72.

        [2]周煜申,康望星,沈存,趙賢林.大數(shù)據(jù)在水環(huán)境綜合評價預警中的應用研究[J].江蘇科技信息,2017(35):52-54+64.

        [3]原廣平.大數(shù)據(jù)技術在滇池流域水環(huán)境監(jiān)測網(wǎng)絡及信息平臺中的應用[J].環(huán)境與發(fā)展,2018,30(11):146-147.

        [4]邵璇,田文君.基于大數(shù)據(jù)的水質監(jiān)測技術初探[J].科技傳播,2018,10(07):75-76.

        [5]魏復盛,國家環(huán)境保護總局.水和廢水監(jiān)測分析方法(第4版)[M].北京:中國環(huán)境科學出版社,2002.

        [6]Robert Tibshirani.(1996),Regression Shrinkahe and Selection via the Lasso.Journal of the Royal Statistical Society.Series B,Vol.58,No.1.267-288.

        [7]Hui Zuo.Trevor Hastie.(2005),Regularization and variable selection via the elastic net.

        [8]呂依蓉,孫斌,喻之斌,等.基于梯度提升回歸樹的處理器性能數(shù)據(jù)挖掘研究[J/OL].集成技術,2018(05):1-10.

        [9]張興.基于Spark大數(shù)據(jù)平臺的火電廠節(jié)能分析[D].太原:太原理工大學,2016.

        收稿日期:2019-02-26

        作者簡介:秦業(yè)海(1992-),男,漢族,碩士研究生,研究方向為環(huán)境智能。

        一区二区亚洲精美视频| 丰满少妇高潮惨叫久久久一 | 极品人妻少妇一区二区| 日韩精品高清不卡一区二区三区| 国内精品久久人妻性色av| 色婷婷亚洲一区二区三区在线| 丝袜美腿制服诱惑一区二区 | 国产女人好紧好爽| 亚洲精品第一国产综合亚av| 中文无码精品一区二区三区| 国产精品 精品国内自产拍| 成人自拍视频国产一区| 亚洲av中文字字幕乱码软件| 国产乱人伦真实精品视频| 日产精品一区二区三区免费| 午夜麻豆视频在线观看| 在线视频中文字幕一区二区三区| 欧美激情视频一区二区三区免费 | 欧洲熟妇色xxxx欧美老妇性| 性高湖久久久久久久久| 欧美白人最猛性xxxxx| 91情侣视频| 精品亚洲国产亚洲国产| 国产精品日韩经典中文字幕| 大学生高潮无套内谢视频| 97夜夜澡人人爽人人喊中国片 | 亚洲中文字幕日韩综合| 九九精品国产99精品| 国产av国片精品| 麻豆久久久国内精品| 国产精品亚洲一区二区三区久久| 精品蜜桃视频在线观看| 富婆叫鸭一区二区三区| 午夜亚洲精品视频在线| 很黄很色的女同视频一区二区| 亚洲在线视频免费视频| 国产乱了真实在线观看| 无码国产激情在线观看| 欧美日韩国产另类在线观看| 欧美—iGAO视频网| 国产一级一区二区三区在线播放|