亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹挖掘算法的氣象大數(shù)據(jù)云平臺(tái)設(shè)計(jì)

        2022-12-01 01:06:20王立俊杜建華劉驥超王雙雙謝寒生
        計(jì)算機(jī)測(cè)量與控制 2022年11期
        關(guān)鍵詞:決策樹數(shù)據(jù)挖掘集群

        王立俊,杜建華,劉驥超,王雙雙,謝寒生,趙 冰

        (1.海南省氣象信息中心,海口 570203; 2.海南省南海氣象防災(zāi)減災(zāi)重點(diǎn)實(shí)驗(yàn)室,???570203)

        0 引言

        氣象數(shù)據(jù)為一類典型的時(shí)序數(shù)據(jù),在防災(zāi)減災(zāi)以及服務(wù)農(nóng)業(yè)、交通、旅游等領(lǐng)域都有重要意義,氣象數(shù)據(jù)的處理與分析準(zhǔn)確高效直接關(guān)系到預(yù)報(bào)服務(wù)的質(zhì)量[1-5]?!丁笆奈濉睔庀笮畔⒕W(wǎng)絡(luò)業(yè)務(wù)發(fā)展規(guī)劃》明確我國未來氣象業(yè)務(wù)的發(fā)展方向,主要是優(yōu)化結(jié)構(gòu)流程,提高氣象數(shù)據(jù)的標(biāo)準(zhǔn)化和統(tǒng)一化水平,促進(jìn)信息網(wǎng)絡(luò)的智能化發(fā)展,建立起高效協(xié)同的數(shù)字氣象業(yè)務(wù)體系[6]。對(duì)于氣象數(shù)據(jù)來說,其在生產(chǎn)過程中秒級(jí)數(shù)據(jù)流量達(dá)到6萬次/秒,大數(shù)據(jù)、云計(jì)算技術(shù)在大量氣象數(shù)據(jù)的分析領(lǐng)域的應(yīng)用,為解決上述問題提供支持[7-9]。

        Bilgin等[10]針對(duì)土耳其的氣象數(shù)據(jù)進(jìn)行特征提取,確定出相關(guān)溫度特性,基于這些特性劃分出土耳其的氣候區(qū)。Reikard[11]基于頻域算法對(duì)復(fù)雜的氣象數(shù)據(jù)進(jìn)行處理,且引入了神經(jīng)網(wǎng)絡(luò)工具,在此基礎(chǔ)上建立起基于時(shí)頻域的BP網(wǎng)絡(luò)氣象預(yù)測(cè)模型。根據(jù)仿真分析結(jié)果表明這種模型的預(yù)測(cè)準(zhǔn)確率達(dá)到較高水平。邱聲春等[12]提出一種數(shù)據(jù)挖掘和數(shù)據(jù)融合相結(jié)合的預(yù)測(cè)方法,并將其運(yùn)用到天氣預(yù)報(bào)領(lǐng)域。Nui等[13]提出距離度量學(xué)習(xí)方法用于氣象數(shù)據(jù)挖掘,將其應(yīng)用于2016年在肯尼迪等機(jī)場(chǎng)收集的天氣數(shù)據(jù)集,與其他傳統(tǒng)方法相比,在分類精度上顯示出非常有潛力的優(yōu)勢(shì)。Farouk等[14]運(yùn)用決策樹、KNN和Naive Bayes算法研究了數(shù)據(jù)挖掘技術(shù)在預(yù)測(cè)不同的大氣現(xiàn)象中的應(yīng)用,并對(duì)每個(gè)模型進(jìn)行評(píng)估。王丹妮等[15]通過對(duì)廣東省氣象觀測(cè)數(shù)據(jù)挖掘分析,以廣東省農(nóng)業(yè)氣象災(zāi)害中的高溫為例,預(yù)測(cè)可能存在的災(zāi)害及其等級(jí)。陳凱等[16]在進(jìn)行降雨預(yù)測(cè)時(shí),引入了加權(quán)最近鄰算法,基于這種算法進(jìn)行預(yù)測(cè)時(shí),設(shè)置降雨量作為類,氣象因素設(shè)置為分類因子,計(jì)算分析確定出二者的相關(guān)系數(shù),將所得結(jié)果賦予因子的權(quán)重,據(jù)此建立起相關(guān)區(qū)域的降雨預(yù)報(bào)模型??滦阄腫17]建立起海洋氣象災(zāi)害預(yù)測(cè)系統(tǒng),并對(duì)這種系統(tǒng)的預(yù)測(cè)性能做了仿真研究。胡冬梅[18]研究了城市空氣污染問題,并引入了氣象、交通相關(guān)的因素建立起城市空氣污染預(yù)測(cè)模型,對(duì)變量之間相關(guān)性進(jìn)行分析,根據(jù)仿真分析結(jié)果表明,這種系統(tǒng)表現(xiàn)出較高的應(yīng)用價(jià)值。王春政等[19]在對(duì)氣象數(shù)據(jù)挖掘處理時(shí),引入了貝葉斯算法、模糊K鄰近算法,通過這些算法對(duì)一定時(shí)段內(nèi)全美歷史航班和氣象數(shù)據(jù)進(jìn)行分析,其所得結(jié)果表明節(jié)點(diǎn)預(yù)測(cè)誤差小于5分鐘,很好地滿足航空氣象預(yù)測(cè)要求。還有少部分學(xué)者為提高處理海量氣象數(shù)據(jù)的效率,將其與Hadoop平臺(tái)結(jié)合。張晨陽等[20]在一定簡(jiǎn)化處理基礎(chǔ)上建立起基于MapReduce的數(shù)據(jù)約簡(jiǎn)算法與樸素貝葉斯分類算法,對(duì)這種算法的性能進(jìn)行研究,發(fā)現(xiàn)其在處理海量氣象數(shù)據(jù)方面的優(yōu)勢(shì)很顯著,且可以根據(jù)應(yīng)用要求進(jìn)行適當(dāng)?shù)臄U(kuò)展。王昊等[21]為了提高傳統(tǒng)樸素貝葉斯分類器對(duì)氣象數(shù)據(jù)挖掘的精度,擁有更高的處理海量數(shù)據(jù)的效率,建立起基于離散貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘模型,且進(jìn)行了實(shí)證分析。

        人工智能、大數(shù)據(jù)、云平臺(tái)、物聯(lián)網(wǎng)技術(shù)在氣象數(shù)據(jù)處理中的應(yīng)用,極大地提升了氣象業(yè)務(wù)能力和服務(wù)水平。傳統(tǒng)的氣象數(shù)據(jù)挖掘大部分為單機(jī)模式,在數(shù)據(jù)量不斷增加和算法更復(fù)雜形勢(shì)下,氣象預(yù)測(cè)的實(shí)時(shí)性明顯降低,同時(shí)也會(huì)出現(xiàn)硬件故障等相關(guān)的損失[22]。因此,本文基于主流的開源云架構(gòu)Apache Hadoop,建立氣象大數(shù)據(jù)云平臺(tái),在此基礎(chǔ)上結(jié)合決策樹(CART,classification and regression trees)數(shù)據(jù)挖掘算法,并行創(chuàng)建隨機(jī)森林模型,對(duì)處理海量氣象數(shù)據(jù)提供支持,為相關(guān)研究起到參考作用。

        1 基于決策樹算法的隨機(jī)森林模型

        1.1 決策樹算法原理

        在數(shù)據(jù)挖掘領(lǐng)域CART算法被大量應(yīng)用,其可以高效的進(jìn)行分類預(yù)測(cè),適應(yīng)性較強(qiáng),對(duì)離散和連續(xù)數(shù)據(jù)都可以高效的分類。CART算法主要是進(jìn)行數(shù)據(jù)類型差異實(shí)現(xiàn)分類作用。設(shè)置判定指標(biāo)時(shí)主要是基于如下方法:

        1)離散型數(shù)據(jù)——選擇GINI值作為分類依據(jù)。

        GINI值和分類后的“純凈度”存在正相關(guān)關(guān)系,其數(shù)值大則可判斷選擇的特征更優(yōu)。 一般條件下對(duì)于樣本集S,可通過如下公式計(jì)算出GINI:

        (1)

        在上式當(dāng)中,S代表的為樣本數(shù)據(jù)集;Pi代表的為分類結(jié)果中第i個(gè)種類對(duì)應(yīng)頻率。

        對(duì)含N個(gè)數(shù)據(jù)的集S,基于A的第i個(gè)屬性值進(jìn)行劃分而分為兩部分,劃分后GINI的表達(dá)式為:

        (2)

        在上式當(dāng)中,n1,n2各自代表的是樣本子集S1,S2對(duì)應(yīng)樣本數(shù)。

        對(duì)于屬性A,先帶入數(shù)據(jù)確定出GINI系數(shù),然后進(jìn)行排序確定出其中的最小值,設(shè)置為此特征條件下的最優(yōu)二分方案:

        mini∈A(GINIA,i(S))

        (3)

        對(duì)集合S,帶入數(shù)據(jù)計(jì)算出全部特征的最好二分方案,進(jìn)行排序后得到最小值,將其設(shè)置為集合S的此種方案:

        minA∈Attributemini∈A(GINIA,i(S))

        (4)

        2)連續(xù)型數(shù)據(jù)——選擇σ值,進(jìn)行分類預(yù)測(cè)。

        回歸樹方法在進(jìn)行預(yù)測(cè)分析時(shí),設(shè)置σ來評(píng)價(jià)分類效果,確定出σ最小的特征及值,對(duì)應(yīng)于最佳的分類特征和值。一般條件下σ值大則可判斷出分類后子集的“差異性”大,相反情況下則可判斷出此特征下,可取得更優(yōu)分類結(jié)果。

        對(duì)連續(xù)型集合S,總方差表達(dá)式為:

        (5)

        在上式當(dāng)中:μ代表的為樣本集針對(duì)S中預(yù)測(cè)結(jié)果之下的均值;yk代表的為第k個(gè)樣本對(duì)應(yīng)預(yù)測(cè)結(jié)果。

        集合S中含有N個(gè)樣本條件下,基于特征A的第i個(gè)特征值,對(duì)其進(jìn)行二分處理,劃分后可通過如下方法計(jì)算出σ:

        σA,i(S)=σ(S1)+σ(S2)

        (6)

        接著對(duì)特征A,帶入數(shù)據(jù)進(jìn)行分析確定出任意特征進(jìn)行劃分條件下的σ,然后排序得到最小值,這樣可確定出A下的最優(yōu)分類方案:

        mini∈A(σA,i(S))

        (7)

        對(duì)集合S,帶入數(shù)據(jù)進(jìn)行處理確定出全部特征的最優(yōu)分裂方案,確定出其中最小者作為集合S的此類方案:

        minA∈Attributemini∈A(σA,i(S))

        (8)

        這樣處理后得到的特征A及值,就表示為集合S的最優(yōu)二分屬性和相關(guān)的屬性值。

        1.2 構(gòu)建隨機(jī)森林模型

        氣象數(shù)據(jù)云平臺(tái)存儲(chǔ)的數(shù)據(jù)種類不斷增加,且數(shù)據(jù)類型也日益復(fù)雜,涉及到雷達(dá)、衛(wèi)星、地面、高空、海洋等相關(guān)的氣象數(shù)據(jù),基于組織形式不同對(duì)這些數(shù)據(jù)進(jìn)行劃分,可分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。分析氣象數(shù)據(jù)特征,設(shè)計(jì)對(duì)應(yīng)的大數(shù)據(jù)云平臺(tái)整體解決方案,用于對(duì)天氣狀況進(jìn)行預(yù)測(cè)、分類,使其應(yīng)用到農(nóng)業(yè)、交通、旅游等領(lǐng)域。氣象資料和服務(wù)數(shù)據(jù)大部分為視頻、音頻、文本,在長(zhǎng)時(shí)間運(yùn)行后對(duì)應(yīng)的數(shù)據(jù)量急劇增長(zhǎng),符合大數(shù)據(jù)的4 V特點(diǎn)。

        在大數(shù)據(jù)領(lǐng)域中,Hadoop是最著名的大數(shù)據(jù)處理框架之一,它以可靠、高效、可伸縮的方式進(jìn)行大數(shù)據(jù)的存儲(chǔ)、處理和分析。在經(jīng)濟(jì)社會(huì)發(fā)展過程中,隨著信息化水平不斷提高,數(shù)據(jù)量與日俱増,在對(duì)這些數(shù)據(jù)進(jìn)行處理時(shí),傳統(tǒng)的隨機(jī)森林模型開始不滿足應(yīng)用要求,這樣就需要引入新的數(shù)據(jù)分析技術(shù)。如為提高算法的處理性能,可引入并行化的決策樹算法,這樣可以綜合利用更多的資源進(jìn)行同步處理。對(duì)并行化相關(guān)的算法,其并行化時(shí)可選擇的模式主要有三類,其一為數(shù)據(jù)間并行,后兩種則為屬性間、節(jié)點(diǎn)間的并行方式,其各有一定的適用范圍。運(yùn)用決策樹算法,基于MapReduce并行創(chuàng)建CART樹形成隨機(jī)森林模型,建立氣象業(yè)務(wù)預(yù)測(cè)以及各領(lǐng)域服務(wù)功能模塊。

        基于隨機(jī)森林算法的特征和MapReduce性能,考慮到研究要求,采用下述的并行化策略:對(duì)原始數(shù)據(jù)的隨機(jī)采樣的方式選取,建立相關(guān)決策樹模型過程中,隨機(jī)篩選對(duì)應(yīng)的屬性,對(duì)應(yīng)的樣本集保持獨(dú)立。因而建立的單棵決策樹間不存在相關(guān)性。這種模型在進(jìn)行并行化操作時(shí),主要應(yīng)用MapReduce編程實(shí)現(xiàn),相關(guān)的工作流程可劃分為,設(shè)置決策樹、確定出森林模型、結(jié)果投票。在MapReduce中并行創(chuàng)建CART樹,構(gòu)建隨機(jī)森林模型并行化過程如圖1所示。

        圖1 并行創(chuàng)建CART樹構(gòu)建隨機(jī)森林模型

        具體分析圖1進(jìn)而可發(fā)現(xiàn),這種模型建立過程中主要是并行化單棵樹的建立過程。首先基于Map方法切片處理HDFS中數(shù)據(jù),接著通過Bagging隨機(jī)抽樣,將抽取后的數(shù)據(jù)劃分為訓(xùn)練集和屬性集,然后分布到集群的各節(jié)點(diǎn)上,在此基礎(chǔ)上利用并行化Map任務(wù)進(jìn)行分析,而得到其中各屬性的Gini值,將所得結(jié)果輸出到Reduce中,利用Reduce功能進(jìn)行處理,而得到最優(yōu)的屬性、節(jié)點(diǎn)的編號(hào),這樣既可以獲得所需要的單棵決策樹,對(duì)樹的參數(shù)進(jìn)行輸出后,對(duì)多棵CART樹進(jìn)行一定的集群映射而得到隨機(jī)森林。在一定投票基礎(chǔ)上匯總多棵樹的結(jié)果,在此處理時(shí)可調(diào)用Map、Reduce函數(shù)。

        在氣象大數(shù)據(jù)云平臺(tái)下,在完成收集氣象相關(guān)數(shù)據(jù)處理后,創(chuàng)建相應(yīng)的預(yù)報(bào)預(yù)警。此時(shí)將相關(guān)樣本集經(jīng)由MapReduce并行創(chuàng)建CART樹形成隨機(jī)森林,訓(xùn)練模型,根據(jù)相關(guān)氣象數(shù)據(jù)進(jìn)行預(yù)測(cè)天氣預(yù)測(cè)或分類,并由控制器將新生成的氣象情況以及其它相關(guān)附加信息等一并傳輸至各個(gè)功能模塊中,使得氣象大數(shù)據(jù)云平臺(tái)中應(yīng)用層功能模塊能夠?qū)崿F(xiàn)動(dòng)態(tài)數(shù)據(jù)更新,更好的為農(nóng)業(yè)、交通、旅游等領(lǐng)域服務(wù)。

        2 氣象大數(shù)據(jù)云平臺(tái)的設(shè)計(jì)

        2.1 Hadoop生態(tài)系統(tǒng)架構(gòu)

        Hadoop是谷歌公司研發(fā)的高性能云計(jì)算平臺(tái),在分布式計(jì)算領(lǐng)域被廣泛應(yīng)用。HDFS是Hadoop的分布式文件系統(tǒng),也是Hadoop系統(tǒng)的最重要組成單元,HDFS集群中包含了大量的服務(wù)器,這樣可以通過并行模式來高效的處理海量氣象數(shù)據(jù)。在MapReduce模型下,程序可以高效快速的處理大量集群上的海量數(shù)據(jù)。

        Hadoop云平臺(tái)在不斷發(fā)展改進(jìn)基礎(chǔ)上其性能水平明顯提升,功能組件也日益豐富,滿足各領(lǐng)域的分析要求。其中的模塊主要包括固定模塊以及特定功能模塊,根據(jù)相關(guān)資料可知其中的核心模塊主要如下。

        1)Hadoop Common:為其中的基礎(chǔ)模塊,可為其他單元的功能實(shí)現(xiàn)提供支持,這種模塊中設(shè)置了很多公用API接口,與HTTP認(rèn)證功能密切相關(guān)。

        2)HDFS:主要是對(duì)海量數(shù)據(jù)進(jìn)行分布式存儲(chǔ)和處理,在數(shù)據(jù)處理時(shí)依據(jù)一次寫入多次讀取相關(guān)原則,此外還可提供流式數(shù)據(jù)訪問。

        3)YARN:為一種全新框架,發(fā)展初期的MapReduce功能繁雜,對(duì)系統(tǒng)運(yùn)行可靠性產(chǎn)生很不利影響,因而此后分布的版本中獨(dú)立的處理數(shù)據(jù)和資源,這樣就通過YARN模塊進(jìn)行資源管理,且可實(shí)現(xiàn)一定調(diào)度功能

        4)MapReduce:為一種高性能的分布式計(jì)算框架,在進(jìn)行編程過程中不需要考慮到數(shù)據(jù)存儲(chǔ)相關(guān)因素,從而大幅度簡(jiǎn)化了編程過程。主要是編寫Map()、Reduce()方法就可滿足要求。此種平臺(tái)的系統(tǒng)結(jié)構(gòu)如圖2。

        圖2 Hadoop生態(tài)系統(tǒng)架構(gòu)

        Hadoop中的組件主要如下。

        1)ZooKeeper:主要是提供集群相關(guān)的協(xié)調(diào)服務(wù),主要是改進(jìn)YARN形成的,在應(yīng)用過程中可實(shí)現(xiàn)的功能主要包括集群管理、分布式鎖等,可據(jù)此實(shí)現(xiàn)特定的功能。

        2)Flume:主要的作用是進(jìn)行日志采集和傳輸,對(duì)應(yīng)的采集模式有兩種,分別為在單服務(wù)器和集群上采集,對(duì)獲得的日志進(jìn)行匯總,然后在一定統(tǒng)一格式基礎(chǔ)上發(fā)送到HDFS中。

        3)Spark:為一種高性能的計(jì)算系統(tǒng),其功能強(qiáng)大,可實(shí)現(xiàn)機(jī)器學(xué)習(xí)、圖形計(jì)算相關(guān)的功能。此外也有很強(qiáng)的支持性,對(duì)Java、SQL等相關(guān)的語言都支持??梢赃\(yùn)行在EC2、YARN框架之上而滿足應(yīng)用要求。

        4)HBase:這種模塊主要是基于“Bigtable”思想建立的,可以看作為一種特殊的分布式數(shù)據(jù)庫,可以為集群的協(xié)調(diào)提供支持。

        5)Hive:在其支持下,用戶可對(duì)HDFS上的數(shù)據(jù)通過SQL相關(guān)的語言進(jìn)行讀寫和查詢處理,對(duì)降低編程難度有重要意義,使得用戶對(duì)Hadoop上手更容易。

        2.2 MapReduce任務(wù)流程

        MapReduce在進(jìn)行數(shù)據(jù)處理時(shí)的操作主要包括Map、Shuffle、Reduce階段,如圖3。以下對(duì)這三個(gè)階段的工作內(nèi)容和特征進(jìn)行說明:

        1)Map階段。在此階段處理過程中,應(yīng)用程序基于輸入的數(shù)據(jù)進(jìn)行分片處理,建立起一定量的Map任務(wù),接著對(duì)分片數(shù)據(jù)依據(jù)相關(guān)的規(guī)則映射形成一定量鍵值對(duì),然后通過Map()方法處理這些鍵值對(duì),處理后的結(jié)果保持為的形式,且進(jìn)行輸出。

        2)Shuffle階段。上一階段處理后的結(jié)果為無規(guī)則的,然后通過Shuffle()方法進(jìn)一步轉(zhuǎn)換處理,形成規(guī)則的數(shù)據(jù)輸出。在此環(huán)節(jié)處理時(shí)主要是合并同大小的鍵值對(duì),進(jìn)行排序后形成相應(yīng)的鍵值對(duì)列表。

        3)Reduce階段。上一環(huán)節(jié)處理后的數(shù)據(jù)通過Reduce()方法處理,將上述的列表進(jìn)行匯總,且基于特定的函數(shù)輸出。

        在實(shí)際處理時(shí),用戶只需要編寫出Map()和Reduce()方法,在運(yùn)行過程中程序可自動(dòng)的調(diào)用這些方法進(jìn)行操作,從而滿足特定的功能要求。

        圖3 MapReduce任務(wù)流程

        2.3 氣象大數(shù)據(jù)云平臺(tái)集群部署結(jié)構(gòu)

        圖4 氣象大數(shù)據(jù)云平臺(tái)總體架構(gòu)

        氣象大數(shù)據(jù)云平臺(tái)的構(gòu)建基于Hadoop集群、Impala集群和GBase集群構(gòu)建。其中大數(shù)據(jù)云平臺(tái)的數(shù)據(jù)源層中全部與氣象密切相關(guān)的數(shù)據(jù)進(jìn)行適當(dāng)?shù)姆诸愄幚砗?,形成一定量的?shù)據(jù)塊,這些數(shù)據(jù)可基于特征和來源不同進(jìn)行劃分,而分為互聯(lián)網(wǎng)數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、氣象外部數(shù)據(jù)等。Impala集群在運(yùn)行過程中可接收結(jié)構(gòu)化和基礎(chǔ)數(shù)據(jù),且調(diào)用函數(shù)來實(shí)現(xiàn)數(shù)據(jù)處理功能。Hadoop集群可對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ),其中包含了HDFS,HBase相關(guān)的單元。GBase集群在也應(yīng)用過程中可對(duì)相關(guān)專題應(yīng)用數(shù)據(jù)進(jìn)行存儲(chǔ),系統(tǒng)上層設(shè)置Solr集群,這樣在運(yùn)行過程中可充分利用Solr的集中式配置、容錯(cuò)相關(guān)功能,滿足高索引和訪問相關(guān)的數(shù)據(jù)應(yīng)用需求。Solr集群可對(duì)索引數(shù)據(jù)進(jìn)行存儲(chǔ),其上層設(shè)置了氣象數(shù)據(jù)統(tǒng)一服務(wù)接口,在運(yùn)行過程中大數(shù)據(jù)云平臺(tái),氣象管理人員可通過這一接口來獲取不同類型的數(shù)據(jù)。此外,還可以在后臺(tái)上部署各種格式的數(shù)據(jù),對(duì)相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)一集中的展示,為其后的處理提供支持。

        2.4 氣象大數(shù)據(jù)云平臺(tái)總體架構(gòu)

        在以上基礎(chǔ)上建立起大數(shù)據(jù)可視化平臺(tái),在運(yùn)行過程中其可以實(shí)現(xiàn)復(fù)雜的管理功能,如調(diào)度管理、元數(shù)據(jù)管理、分布式ETL管理、質(zhì)量管理,此外也可以實(shí)現(xiàn)數(shù)據(jù)共享功能。為系統(tǒng)的運(yùn)行維護(hù)以及功能實(shí)現(xiàn)提供支持。總體架構(gòu)分為基礎(chǔ)設(shè)施層、數(shù)據(jù)處理與管理層、應(yīng)用層,氣象大數(shù)據(jù)云平臺(tái)總體架構(gòu)如圖4。在運(yùn)行過程中為確保數(shù)據(jù)高效處理,這種平臺(tái)在應(yīng)用時(shí)可以全流程管理各類型的氣象數(shù)據(jù)信息,且可以方便的進(jìn)行交換、質(zhì)控,表現(xiàn)出較高的應(yīng)用性能優(yōu)勢(shì)。

        表1 平臺(tái)性能測(cè)試

        大數(shù)據(jù)云平臺(tái)層對(duì)全部的氣象數(shù)據(jù)可基于接口機(jī)集群高效處理,進(jìn)行一定轉(zhuǎn)換后得到各種類型的數(shù)據(jù)產(chǎn)品,且對(duì)不同類型的數(shù)據(jù)進(jìn)行分類管理和存儲(chǔ);對(duì)采集的原始數(shù)據(jù)通過分布式ETL工具抽取、清洗操作后,接著基于設(shè)定的倉庫模型進(jìn)行加載處理。對(duì)這種架構(gòu)而言,大數(shù)據(jù)云平臺(tái)有重要的意義,也是其中的最重要單元,能夠提供氣象業(yè)務(wù)綜合管理、天氣預(yù)測(cè)預(yù)報(bào)、農(nóng)業(yè)氣象服務(wù)、交通氣象服務(wù)、旅游氣象服務(wù)等功能。

        3 平臺(tái)性能測(cè)試與分析

        全國綜合氣象信息共享系統(tǒng)(CIMISS)是氣象部門數(shù)據(jù)收集、存儲(chǔ)、加工和共享的業(yè)務(wù)支撐系統(tǒng),通過數(shù)據(jù)統(tǒng)一服務(wù)接口整合CIMISS與本地?cái)?shù)據(jù)服務(wù),提供數(shù)據(jù)訪問服務(wù)和應(yīng)用服務(wù)。對(duì)比測(cè)試平臺(tái)的性能,將相同大小的任務(wù)分別在CIMISS、氣象大數(shù)據(jù)云平臺(tái)及基于CART氣象大數(shù)據(jù)云平臺(tái)上運(yùn)行,響應(yīng)時(shí)間如表1所示。其中,在CIMISS中,根據(jù)統(tǒng)計(jì)、質(zhì)控、解碼應(yīng)用頻率,按照10:1:1頻次做加權(quán)平均;氣象大數(shù)據(jù)云平臺(tái)按照Map和Reduce任務(wù)統(tǒng)計(jì)響應(yīng)時(shí)間,考慮HDFS分布式特性,對(duì)不同大小數(shù)據(jù)處理性能也有不同,通過Map操作、設(shè)置reducer參數(shù)、任務(wù)大小提高平臺(tái)執(zhí)行效率,其中Map和Reduce任務(wù)個(gè)數(shù)通過多次設(shè)置優(yōu)化執(zhí)行時(shí)間;采用了決策樹算法的氣象大數(shù)據(jù)云平臺(tái),自動(dòng)選擇數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)來處理提交的任務(wù)。

        結(jié)果可以看到,氣象大數(shù)據(jù)云平臺(tái)對(duì)數(shù)據(jù)統(tǒng)計(jì)、質(zhì)控、解碼等處理性能均有較大提升,平均提升3.6倍。采用決策樹挖掘算法后,平臺(tái)性能可以提升到1.4倍。

        4 結(jié)束語

        當(dāng)今已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,氣象數(shù)據(jù)規(guī)模迅速的增長(zhǎng),在此背景下如何高效的利用海量氣象數(shù)據(jù)并充分發(fā)揮其資源價(jià)值,就成為當(dāng)前氣象研究的熱點(diǎn)。Hadoop平臺(tái)是內(nèi)網(wǎng)分布式在運(yùn)行時(shí)不會(huì)產(chǎn)生明顯的延遲,且簡(jiǎn)化了系統(tǒng)結(jié)構(gòu)。氣象大數(shù)據(jù)云平臺(tái)的整體解決方案,對(duì)收集氣象相關(guān)數(shù)據(jù)進(jìn)行處理,將相關(guān)樣本集經(jīng)由MapReduce并行創(chuàng)建CART樹形成隨機(jī)森林,訓(xùn)練模型,使得氣象大數(shù)據(jù)云平臺(tái)中應(yīng)用層功能模塊能夠?qū)崿F(xiàn)動(dòng)態(tài)數(shù)據(jù)更新,更好地為其他領(lǐng)域服務(wù)。Hadoop平臺(tái)表現(xiàn)出明顯的異構(gòu)和集群化特征,未來很有必要研究異構(gòu)下的數(shù)據(jù)集處理方法,更好的滿足異構(gòu)條件下的數(shù)據(jù)處理要求,同時(shí)也為并行算法的廣泛應(yīng)用提供支持。在氣象信息管理的實(shí)際應(yīng)用中,許多數(shù)據(jù)是復(fù)雜異構(gòu)的,有很多非結(jié)構(gòu)化數(shù)據(jù),下一步可以對(duì)非結(jié)構(gòu)化氣象數(shù)據(jù)挖掘方法展開研究。

        猜你喜歡
        決策樹數(shù)據(jù)挖掘集群
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        勤快又呆萌的集群機(jī)器人
        基于決策樹的出租車乘客出行目的識(shí)別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        青青草大香蕉视频在线观看| 国内露脸中年夫妇交换| 久久精品国产免费观看99| ā片在线观看| 欧美激情国产一区在线不卡| 亚洲av推荐网站在线观看| 国语自产视频在线| 一区二区三区在线 | 欧| 伊人一道本| 天堂AV无码AV毛片毛| 亚洲国产综合性感三级自拍| 亚洲第一黄色免费网站| 三年的高清电影免费看| 国产精品后入内射日本在线观看| 青草青草久热精品视频国产4| 日本人妖一区二区三区| 亚洲精品中文字幕91| 老熟女富婆激情刺激对白| 久热国产vs视频在线观看| 激情综合色五月丁香六月亚洲| 曰韩精品无码一区二区三区| 日韩av中文字幕少妇精品| 久久精品免费一区二区喷潮| 中文天堂国产最新| 久久伊人色av天堂九九| 亚洲成人中文| 视频网站在线观看不卡| 中文字幕亚洲一区视频| 日韩精品亚洲一区二区| 午夜精品久久久久久| 日本激情网址| 国产成人精品一区二区日出白浆 | 噜噜噜色97| 麻豆人妻性色av专区0000| 亚洲国产av精品一区二区蜜芽| 人妻熟妇乱又伦精品视频app| 国产精品,在线点播影院| 亚洲美女毛多水多免费视频| 99精品国产一区二区| 亚洲爆乳大丰满无码专区| 少妇裸淫交视频免费看|