亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Spark的Canopy-FCM在氣象中的應(yīng)用

        2020-08-12 02:35:06勾志竟宮志宏劉布春
        關(guān)鍵詞:海量降水量數(shù)據(jù)挖掘

        勾志竟,宮志宏,徐 梅,劉布春

        (1.天津市氣象信息中心,天津 300074; 2.天津市氣候中心,天津 300074; 3.中國(guó)農(nóng)業(yè)科學(xué)院 農(nóng)業(yè)環(huán)境與可持續(xù)發(fā)展研究所,北京 100081)

        0 引 言

        隨著科技的進(jìn)步,氣象部門獲取數(shù)據(jù)的途徑也越來(lái)越多,收集并產(chǎn)生的氣象數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng)。如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用到氣象預(yù)報(bào)預(yù)測(cè)和氣象災(zāi)害預(yù)測(cè)等方面[1-3],從海量的氣象數(shù)據(jù)中挖掘有價(jià)值的信息,成為氣象行業(yè)研究的重點(diǎn)。傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)不能很好地處理海量數(shù)據(jù),挖掘數(shù)據(jù)內(nèi)部規(guī)律時(shí)更為乏力,而數(shù)據(jù)挖掘算法與分布式處理框架[4]的出現(xiàn)為挖掘海量氣象數(shù)據(jù)提供了一種新的思路。

        陳正威[5]在Hadoop平臺(tái)上運(yùn)用預(yù)處理有向無(wú)環(huán)圖和支持向量機(jī)(PDAG-SVM)算法對(duì)降水量做出預(yù)測(cè),該方法在預(yù)測(cè)精度和預(yù)測(cè)效率上都取得了令人滿意的結(jié)果;王昊等[6]提出了一種Hadoop平臺(tái)下基于離散貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)挖掘改進(jìn)算法,預(yù)測(cè)精度明顯高于目前短期氣候預(yù)測(cè)中采用的樸素貝葉斯算法;張晨陽(yáng)等[7]提出基于Hadoop的計(jì)算等價(jià)類的數(shù)據(jù)約簡(jiǎn)算法與樸素貝葉斯分類算法,該并行數(shù)據(jù)挖掘方案可以有效處理海量氣象數(shù)據(jù),并具有良好的擴(kuò)展性;Lv Zhenhua等[8]提出了并行K-means算法,并用于遙感圖像的分類;李莉等[9]基于Spark平臺(tái)提出并行K-means算法對(duì)氣候區(qū)進(jìn)行劃分,對(duì)氣象領(lǐng)域研究有重要現(xiàn)實(shí)意義。

        從目前的相關(guān)研究可以看出,學(xué)者們不斷對(duì)海量數(shù)據(jù)挖掘方法進(jìn)行研究和優(yōu)化,而聚類算法作為數(shù)據(jù)挖掘的重要方法,將其與分布式處理框架相結(jié)合[10-12]處理海量數(shù)據(jù)成為數(shù)據(jù)挖掘領(lǐng)域越來(lái)越活躍的研究方向。文中提出了一種Canopy-FCM算法,可以有效避免模糊C-均值聚類算法對(duì)初始聚類中心敏感的問(wèn)題,同時(shí)針對(duì)海量氣象數(shù)據(jù),采用Spark內(nèi)存計(jì)算分布式框架快速有效地從氣象數(shù)據(jù)中挖掘出有用的信息,大大的提高了運(yùn)行效率。

        1 模糊C均值算法(FCM)

        模糊C均值(fuzzy C-means,F(xiàn)CM)算法[13]是1974年由Dunn提出并由Bezdek推廣的,它是基于模糊集合論,把聚類問(wèn)題轉(zhuǎn)化為非線性規(guī)劃問(wèn)題,并通過(guò)迭代求解。

        令X={X1,X2,…,Xn}為待分類樣本,F(xiàn)CM將其分為c個(gè)模糊組,使得目標(biāo)函數(shù)值最小,目標(biāo)函數(shù)如下所示:

        (1)

        (2)

        其中,uij是樣本j屬于類i的隸屬度,Ci為第i類的中心,m∈[1,∞]為模糊因子。

        通過(guò)式(2),采用拉格朗日乘數(shù)法構(gòu)造以下目標(biāo)函數(shù):

        (3)

        對(duì)所有參數(shù)求導(dǎo),得到使式(3)達(dá)到最小值的必要條件為:

        (4)

        (5)

        由式(4)和式(5)可以知道,給定初始樣本集合X,以及分類數(shù)目c和模糊因子m,F(xiàn)CM算法按照以下步驟不斷迭代就可以計(jì)算出隸屬度矩陣U和聚類中心C。

        (1)用隨機(jī)數(shù)生成器生成初始隸屬度矩陣U,且滿足約束條件式(2)。

        (2)用式(4)更新聚類中心。

        (3)用式(5)更新隸屬度矩陣U。

        (4)計(jì)算式(1)的目標(biāo)函數(shù)值,如果小于閾值ε,則算法停止,否則重復(fù)步驟(2)和(3)。

        2 Canopy-FCM算法設(shè)計(jì)

        2.1 Canopy算法

        FCM算法采用隨機(jī)生成聚類中心的方法,但無(wú)法保證為每個(gè)分類找到較好的中心,而聚類中心直接影響算法的運(yùn)行效率。針對(duì)初始中心敏感,容易陷入局部最優(yōu)的問(wèn)題,文中采用Canopy算法[14]初始化聚類中心。Canopy算法可以很快得到最優(yōu)的分類數(shù),其具體步驟如下:

        (1)給定樣本X1,X2,…,Xn,設(shè)定初始閾值T1,T2,T1>T2。

        (2)在樣本中隨機(jī)挑選樣本x,計(jì)算x到其他樣本點(diǎn)的距離d。

        (3)把d

        (4)重復(fù)步驟2、3,直到數(shù)據(jù)集為空。

        2.2 Canopy-FCM算法框架

        Canopy-FCM算法基本步驟如下:

        Step1:利用Canopy算法生成初始聚類中心。

        Step2:初始化隸屬度矩陣U。

        Step3:更新聚類中心C。

        Step4:更新隸屬度矩陣U。

        Step5:是否滿足終止條件,若滿足,則算法停止;否則,重復(fù)Step3和Step4。

        3 基于Spark的并行Canopy-FCM模型

        3.1 Spark計(jì)算模型

        Spark是基于內(nèi)存計(jì)算的分布式計(jì)算框架,起源于加利福尼亞大學(xué)伯克利分校的實(shí)驗(yàn)室研究項(xiàng)目[15],其低延遲、低系統(tǒng)開銷、容錯(cuò)性高、分布式數(shù)據(jù)結(jié)構(gòu)以及強(qiáng)大的函數(shù)式編程接口可以很好應(yīng)對(duì)迭代式計(jì)算應(yīng)用的高性能需求,在大規(guī)模數(shù)據(jù)處理任務(wù)中有廣泛的應(yīng)用。

        Spark在分布式環(huán)境下采用主從結(jié)構(gòu)模型,包括Driver和Worker節(jié)點(diǎn),程序運(yùn)行之前將數(shù)據(jù)存儲(chǔ)在Hadoop Distributed File System(HDFS)中,接著Driver會(huì)運(yùn)行應(yīng)用中的方法創(chuàng)建SparkContext以及RDD,DAGScheduler對(duì)象將每個(gè)job分成多個(gè)Stage,并為每個(gè)stage創(chuàng)建TaskSet,TaskScheduler將task提交給executor執(zhí)行,executor調(diào)用Taskrunner封裝task,并行線程池中取一個(gè)線程執(zhí)行task。其架構(gòu)如圖1所示。

        圖1 Spark架構(gòu)

        3.2 Canopy-FCM算法的并行化

        基于Spark的Canopy-FCM算法流程如圖2所示。

        圖2 基于Spark的Canopy-FCM算法流程

        (1)配置好Spark運(yùn)行環(huán)境并初始化各參數(shù)。通過(guò)hadoop fs -put命令將數(shù)據(jù)上傳到HDFS上,調(diào)用SparkContext的sc.textFile()方法將數(shù)據(jù)轉(zhuǎn)換為Spark-RDD,通過(guò)map操作轉(zhuǎn)換為向量緩存到內(nèi)存中。

        當(dāng)我們?cè)谶M(jìn)行股票運(yùn)作時(shí),追求的是績(jī)優(yōu)股,當(dāng)我們?cè)谫?gòu)買房產(chǎn)時(shí),追求的是未來(lái)的黃金地段,同樣,國(guó)有企業(yè)在進(jìn)行經(jīng)營(yíng)時(shí)所追求的就是績(jī)優(yōu)股、黃金地段,就是資產(chǎn)的良性發(fā)展。油田企業(yè)作為國(guó)有企業(yè)的一員,就是要維護(hù)國(guó)有資產(chǎn)安全,保障企業(yè)可持續(xù)發(fā)展。從當(dāng)前企業(yè)審計(jì)的要求來(lái)看,質(zhì)量和責(zé)任是企業(yè)審計(jì)的基礎(chǔ),績(jī)效是企業(yè)審計(jì)的方向和目標(biāo),就是要發(fā)現(xiàn)企業(yè)是否成為了藍(lán)籌股,把投入產(chǎn)出比例如何作為國(guó)有資產(chǎn)的組成部分,油田企業(yè)的績(jī)效審計(jì)越來(lái)越被重視,它進(jìn)一步擴(kuò)展和深化了油田企業(yè)審計(jì)的內(nèi)涵。

        (2)在各個(gè)子節(jié)點(diǎn)通過(guò)map操作計(jì)算數(shù)據(jù)集中每個(gè)點(diǎn)到Canopy中心點(diǎn)的歐氏距離,進(jìn)而得到局部的Canopy中心點(diǎn),然后通過(guò)reduce操作得到全局的Canopy中心點(diǎn),將其作為FCM的初始聚類中心,并廣播給各個(gè)子節(jié)點(diǎn)。

        (3)在各個(gè)子節(jié)點(diǎn)通過(guò)map操作計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到各中心的歐氏距離和隸屬度,然后通過(guò)reduceByKey()和collectAsMap()方法得到各數(shù)據(jù)點(diǎn)到每個(gè)分類的距離之和與隸屬度之和,對(duì)隸屬度和聚類中心進(jìn)行更新。

        (4)計(jì)算目標(biāo)函數(shù)的值,判斷結(jié)果是否收斂,如果收斂則算法結(jié)束,通過(guò)Combine操作合并中間結(jié)果,并通過(guò)Reduce操作得到全局聚類中心,否則重復(fù)步驟(3)。

        Canopy-FCM算法并行化[16]的偽代碼如下:

        Input:X={X1,X2,…,Xn},T1,T2,m,K

        Output:C={C1,C2,…,Cc}

        Initialization();

        l←data.mapPartitions{points?

        forxi←points{

        }.reduce(merge)

        C'←C;C←null

        forj=1 toC{

        (sumUX,sumU)←l(j)

        C+=sumUX/sumU

        }

        }

        4 實(shí)例分析

        4.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集

        實(shí)驗(yàn)采用Spark分布式集群,集群搭建在服務(wù)器虛擬化平臺(tái)上,選取1臺(tái)機(jī)器作為主節(jié)點(diǎn),其他7臺(tái)機(jī)器作為工作節(jié)點(diǎn)。虛擬機(jī)各項(xiàng)配置及集群的配置信息分別如表1、表2所示,實(shí)驗(yàn)數(shù)據(jù)采用天津經(jīng)過(guò)質(zhì)控后的208個(gè)區(qū)域自動(dòng)氣象站4~10月夏半年逐月降水觀測(cè)數(shù)據(jù)。

        表1 虛擬機(jī)配置信息

        由表2可以看出Spark分布式集群在運(yùn)行時(shí)需要一系列的后臺(tái)程序,主要有:

        Master-負(fù)責(zé)資源的調(diào)度(決定在哪些Worker上執(zhí)行executor)和監(jiān)控Worker。

        Worker-負(fù)責(zé)執(zhí)行任務(wù)的進(jìn)程(executor),并將當(dāng)前機(jī)器的信息通過(guò)心跳匯報(bào)給Master。

        NameNode-負(fù)責(zé)管理文件系統(tǒng)的Namespace。

        DataNode-負(fù)責(zé)管理各個(gè)存儲(chǔ)節(jié)點(diǎn)。

        SecondaryNameNode-NameNode的熱備,負(fù)責(zé)周期性地合并Namespace image和Edit log。

        表2 集群信息配置

        4.2 實(shí)驗(yàn)結(jié)果及分析

        實(shí)驗(yàn)結(jié)果如圖3所示,由圖3可以看出天津208個(gè)區(qū)域自動(dòng)氣象站降水分布可分為4個(gè)區(qū)域,1區(qū)主要集中在中部和北部區(qū)域,共有96個(gè)站;2區(qū)集中在東部區(qū)域,共有29個(gè)站;3區(qū)集中在東南部,共有31個(gè)站;4區(qū)主要集中在西南部,共有52個(gè)站。

        圖3 天津降水區(qū)劃圖

        圖4是實(shí)驗(yàn)得到的天津市4個(gè)分區(qū)降水量年平均分布圖,由圖4可以看出,4個(gè)分區(qū)的降水主要集中在6~9月,7月降水量最為顯著,其次是8月、6月、9月,這一趨勢(shì)與中國(guó)氣象局氣象數(shù)據(jù)中心發(fā)布的天津氣候類型圖(1981-2010)一致。4個(gè)分區(qū)的具體分析如下:

        圖4 天津市4個(gè)分區(qū)降水量年平均分布

        1區(qū)主要位于天津中部和北部區(qū)域,該區(qū)域土壤以鹽化潮土和粘質(zhì)土為主,5月年平均降水量遠(yuǎn)低于其他分區(qū),4~10月總年平均降水量485.7 mm。

        2區(qū)主要位于天津的東部區(qū)域,屬于海積、沖積平原區(qū),地勢(shì)北高南低,4月、7月、10月年平均降水量高于其他三個(gè)分區(qū),6月年平均降水量遠(yuǎn)低于其他分區(qū),4~10月總年平均降水量498.1 mm。

        3區(qū)主要位于天津市的東南沿海地區(qū),地勢(shì)低平,以海積低平原為主,土層受海潮影響鹽漬化比較嚴(yán)重,5月、8月、9月年平均降水量遠(yuǎn)高于其他三個(gè)分區(qū),4~10月總年平均降水量508.1 mm。

        4區(qū)主要位于天津的西南部,該區(qū)域以洼地沖積平原和濱海平原為主,地形平坦但多洼地,地勢(shì)南高北低,西高東低,4月、7月、8月、9月及10月年平均降水量均低于其他分區(qū),4~10月總年平均降水量425.2 mm。

        為了對(duì)比文中設(shè)計(jì)的Spark平臺(tái)和Hadoop平臺(tái)的集群性能,分別在Hadoop環(huán)境下和Spark環(huán)境下由單節(jié)點(diǎn)到8節(jié)點(diǎn)執(zhí)行相同大小的區(qū)域自動(dòng)站降水?dāng)?shù)據(jù)文件,得到兩種環(huán)境下的加速比,如圖5所示。

        圖5 Hadoop平臺(tái)和Spark平臺(tái)的加速比

        由圖5不難看出,當(dāng)節(jié)點(diǎn)數(shù)目為單節(jié)點(diǎn)時(shí),Hadoop平臺(tái)和Spark平臺(tái)的性能都處于最差。隨著DataNode節(jié)點(diǎn)數(shù)量的增加,Spark平臺(tái)和Hadoop平臺(tái)算法的運(yùn)行時(shí)間都有不同程度縮短,而Spark平臺(tái)的加速比要優(yōu)于Hadoop平臺(tái),說(shuō)明文中提出的算法在Spark平臺(tái)下能有效地提高算法的性能,及時(shí)準(zhǔn)確地挖掘出海量氣象數(shù)據(jù)的有價(jià)值信息。

        5 結(jié)束語(yǔ)

        針對(duì)模糊C-均值聚類算法對(duì)初始聚類中心敏感及因迭代計(jì)算次數(shù)增加導(dǎo)致內(nèi)存不足的問(wèn)題,設(shè)計(jì)了一種基于Spark框架的Canopy-FCM并行化聚類算法。該算法結(jié)合Canopy算法與模糊C-均值聚類算法,避免了FCM算法對(duì)初始化敏感的問(wèn)題,并結(jié)合Spark分布式框架內(nèi)存計(jì)算的優(yōu)勢(shì),大大降低了海量氣象數(shù)據(jù)的處理時(shí)間。通過(guò)采用天津市208個(gè)區(qū)域自動(dòng)氣象站4~10月逐月降水觀測(cè)數(shù)據(jù),評(píng)估了天津市不同區(qū)域的降水情況。實(shí)驗(yàn)結(jié)果表明,提出的方法不僅可以快速有效地從氣象數(shù)據(jù)中挖掘出有用的信息,同時(shí)還有良好的擴(kuò)展性,能夠?yàn)橄嚓P(guān)部門做好抗旱救災(zāi)、防災(zāi)救災(zāi)工作提供一種全新的思路和方法。但方法僅針對(duì)降水區(qū)進(jìn)行了劃分,未來(lái)可以結(jié)合溫度、濕度、干燥度等因素做進(jìn)一步的氣候區(qū)劃研究。

        猜你喜歡
        海量降水量數(shù)據(jù)挖掘
        繪制和閱讀降水量柱狀圖
        一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        降水量是怎么算出來(lái)的
        啟蒙(3-7歲)(2019年8期)2019-09-10 03:09:08
        海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
        1988—2017年呼和浩特市降水演變特征分析
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        一個(gè)圖形所蘊(yùn)含的“海量”巧題
        基于小波變換的三江平原旬降水量主周期識(shí)別
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        无码人妻精品一区二区三18禁| 亚洲va中文字幕欧美不卡| 亚洲爆乳大丰满无码专区| 成 人 网 站 在线 看 免费| 精品视频在线观看一区二区有| 国产目拍亚洲精品二区| 午夜精品人妻中字字幕 | 看日本全黄色免费a级| 99re6在线视频精品免费| 亚洲αv在线精品糸列| 狠狠噜天天噜日日噜无码| 中国丰满熟妇av| 久久精品无码一区二区三区蜜费 | 日产国产精品亚洲系列| 无码人妻一区二区三区在线视频| 久久久久久久亚洲av无码| 中文字幕日韩人妻不卡一区| 免费观看性欧美大片无片 | 欧美日韩a级a| 成人国产av精品麻豆网址| 男女调情视频在线观看| 中国一级黄色片久久久| 国产精品毛片一区二区三区| 午夜无码片在线观看影视| 午夜福利电影| 精品无码国产一二三区麻豆| 女人天堂av免费在线| 日韩精品一区二区三区免费观影| 精品一区二区三区久久| 在线中文字幕乱码英文字幕正常 | 色欲aⅴ亚洲情无码av| 乱人伦视频中文字幕| 麻豆国产av尤物网站尤物| 97国产精品麻豆性色| 人妻蜜桃日产一本久道综合在线| 婷婷色国产精品视频二区| 天堂中文最新版在线中文| 嫩草影院未满十八岁禁止入内| 2021国产精品一区二区在线| 亚洲免费av第一区第二区| 美女丝袜美腿玉足视频|