黃 煒,李雪真,趙 嘉,趙麗華,李臣民
(1.江蘇省水文水資源勘測局,江蘇南京 210029;2.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 210098)
基于樸素貝葉斯算法的流域降水預(yù)測方法
黃 煒1,李雪真2,趙 嘉2,趙麗華2,李臣民2
(1.江蘇省水文水資源勘測局,江蘇南京 210029;2.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,江蘇南京 210098)
為了在降水成因尚不明確的情況下有效利用相關(guān)歷史資料提高降水預(yù)報(bào)水平,提出了基于樸素貝葉斯算法的流域降水預(yù)測方法。以東江流域?yàn)槔?,通過構(gòu)造不同降水?dāng)?shù)據(jù)特征集預(yù)測流域內(nèi)降水情況,并與傳統(tǒng)時(shí)間序列方法和BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測準(zhǔn)確率對比驗(yàn)證,結(jié)果表明,基于樸素貝葉斯算法的降水預(yù)測方法取得了比傳統(tǒng)時(shí)間序列方法和BP神經(jīng)網(wǎng)絡(luò)方法更好的降水預(yù)測效果。
降水預(yù)測;樸素貝葉斯算法;貝葉斯估計(jì);F-measure評價(jià)方法
準(zhǔn)確、可靠地預(yù)測未來降水狀況,特別是暴雨預(yù)測,既是水資源合理開發(fā)和科學(xué)調(diào)配的基礎(chǔ),也是確保社會(huì)穩(wěn)定、人民生命財(cái)產(chǎn)安全,以及維護(hù)自然生態(tài)和環(huán)境安全的關(guān)鍵[1]。然而,降水是一種依賴于非線性動(dòng)態(tài)多時(shí)空尺度環(huán)流系統(tǒng)的氣象現(xiàn)象,同時(shí)也是局地環(huán)流、熱力作用與當(dāng)?shù)夭痪鶆虻牡匦?、地貌相結(jié)合的產(chǎn)物[2-3]。盡管已有許多不同時(shí)空尺度的降水預(yù)測研究成果,但由于降水產(chǎn)生的內(nèi)部機(jī)理尚不完全明確,有效的降水預(yù)測,尤其是極端降水預(yù)測仍然是一個(gè)挑戰(zhàn)。從方法上分,降水預(yù)測方法可分為天氣學(xué)和統(tǒng)計(jì)學(xué)兩種方法。天氣學(xué)降水預(yù)測方法[4-5]主要依靠機(jī)理預(yù)測,缺點(diǎn)是不同預(yù)報(bào)員做出的降水量預(yù)報(bào)可能會(huì)有很大的差異,并且天氣圖上難以清楚分辨局部地區(qū)的中小尺度暴雨。統(tǒng)計(jì)學(xué)降水預(yù)測方法[6-7]是根據(jù)已有的氣象資料,利用數(shù)理統(tǒng)計(jì)的方法尋找降水現(xiàn)象發(fā)生的可能規(guī)律,根據(jù)過去或者現(xiàn)在的天氣氣候給出未來降水事件出現(xiàn)的概率,可以分為基于生成模型(generative modeling)的預(yù)測方法和基于判別模型(discrimitive modeling)的預(yù)測方法[8-10]。生成模型從統(tǒng)計(jì)的角度表示數(shù)據(jù)的分布情況,主要反映同類數(shù)據(jù)本身的相似度;判別模型直接學(xué)習(xí)的是決策函數(shù)或者條件概率分布,不能反映訓(xùn)練數(shù)據(jù)本身的特性,但它尋找不同類別之間的最優(yōu)分類面,反映的是異類數(shù)據(jù)之間的差異。由于引發(fā)降水的水汽條件具有連續(xù)性,生成模型從物理機(jī)制上更符合降水事件的預(yù)測,其主要應(yīng)用難點(diǎn)在于特征集的質(zhì)量以及特征選取。
本文提出了基于樸素貝葉斯算法的流域降水預(yù)測方法,通過基于函數(shù)的特征生成方法獲取豐富的特征集,針對樸素貝葉斯的特征獨(dú)立性假設(shè),采用相關(guān)性分析并通過交叉驗(yàn)證取得最優(yōu)特征集合,以東江流域?yàn)槔龑λ岢龅姆椒ㄟM(jìn)行了驗(yàn)證,并與幾種常用的時(shí)間序列方法和神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了對比分析。
1.1 樸素貝葉斯降水預(yù)測方法
樸素貝葉斯算法[7]是一種基于貝葉斯定理的統(tǒng)計(jì)學(xué)方法。貝葉斯定理是概率統(tǒng)計(jì)學(xué)中的一個(gè)分支,其核心是貝葉斯公式。設(shè)X為某一測試樣本,Y={y1,y2,…,yk}為類別集合,表示樣本X屬于不同類別Y的概率,可以認(rèn)為最大概率值對應(yīng)的類別yi就是該樣本被分配的類別,可通過貝葉斯公式求得:
本文中,X={x1,x2,…,xn}表示包含不同特征屬性的降水特征集,Y={y1,y2,…,yk}表示不同降水等級類別集合。樸素貝葉斯算法中的獨(dú)立性假設(shè)要求在給定特征集時(shí)各特征屬性之間相互條件獨(dú)立,基于此,條件分布概率計(jì)算可簡化為
樸素貝葉斯算法中的獨(dú)立性假設(shè)忽略了特征之間存在的條件依賴關(guān)系,使樸素貝葉斯算法的計(jì)算變得簡單,但會(huì)犧牲一定的預(yù)測準(zhǔn)確率。式(3)中可通過極大似然估計(jì)法計(jì)算。假設(shè)xj可取值有Sj(j=1,2,…,n)個(gè),Y可取值有k個(gè),則參數(shù)個(gè)數(shù)為,有
式(4)等價(jià)于在隨機(jī)變量各個(gè)取值的頻數(shù)上賦予一個(gè)正數(shù)(λ>0),當(dāng)λ=0時(shí)就是極大似然估計(jì),常取λ=1,這時(shí)稱為拉普拉斯平滑。對任何l、p(l= 1,2,…,n;p=1,2,…,k),有
同理,P(Y)也可通過貝葉斯估計(jì)得到:
P(X)可通過以下公式求得:
因此,對于一個(gè)給定的降水特征集輸入X={x1,x2,…,xn},根據(jù)式(1)可求得:
則降水等級為最大概率值對應(yīng)的類別yi,即:
1.2 相關(guān)性分析
由于樸素貝葉斯算法中的獨(dú)立性假設(shè)要求各特征屬性之間相互條件獨(dú)立,需要對算法采用的屬性集進(jìn)行相關(guān)性分析,以排除由于強(qiáng)相關(guān)的特征對模型預(yù)測效果帶來的負(fù)面影響。通過相關(guān)性分析進(jìn)行屬性約簡,得到滿意的屬性約簡子集。本文通過對候選特征集合進(jìn)行相關(guān)性分析,對于高于一定相關(guān)性閾值的特征在特征組合選取時(shí)不允許同時(shí)出現(xiàn),以從一定程度上近似滿足樸素貝葉斯算法的獨(dú)立性假設(shè)要求。
1.3 特征集選擇
樸素貝葉斯算法中特征集選擇采用交叉驗(yàn)證(cross validation,CV)方法。交叉驗(yàn)證是用于確保預(yù)測模型具有較好泛化性能的一種方法,其基本思想是將原始數(shù)據(jù)分成兩部分,一部分作為訓(xùn)練數(shù)據(jù)集,另一部分作為驗(yàn)證數(shù)據(jù)集。先用訓(xùn)練數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,比如參數(shù)選擇,而對于樸素貝葉斯模型而言可以用于特征選擇;然后利用驗(yàn)證數(shù)據(jù)集來測試訓(xùn)練得到的模型,以此作為評價(jià)或選擇預(yù)測模型的性能指標(biāo)。本文采用常用的K-fold CV方法進(jìn)行最優(yōu)特征集選取,該方法將原始數(shù)據(jù)分成K組(一般是均分),將每個(gè)組的數(shù)據(jù)分別充當(dāng)一次驗(yàn)證數(shù)據(jù)集,其余的K-1組的數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。為了保持?jǐn)?shù)據(jù)的年際特點(diǎn),取K=5,并且是按年劃分,而不采用隨機(jī)劃分,以此來確保數(shù)據(jù)劃分保持年內(nèi)變化。通過相關(guān)性分析去除存在高相關(guān)性的特征組合,然后選取交叉驗(yàn)證中取得最好預(yù)測性能的特征組合作為選定的特征集。
2.1 數(shù)據(jù)集的獲取
以東江流域?yàn)槔M(jìn)行實(shí)例分析。東江流域是珠江流域的三大水系之一,流域面積27 040 km2,其中廣東省境內(nèi)占87.06%,江西省境內(nèi)占12.94%。采用的數(shù)據(jù)集為從中國氣象科學(xué)數(shù)據(jù)服務(wù)共享網(wǎng)中獲取的中國逐日網(wǎng)格降水量實(shí)時(shí)分析系統(tǒng)數(shù)據(jù),該數(shù)據(jù)集是通過實(shí)時(shí)從綜合庫提取全國2 419個(gè)站(包括國家氣候觀象臺(tái),國家氣象觀測一級站、二級站)逐日降水量,采用基于“氣候背景場”的最優(yōu)插值方法,實(shí)時(shí)生成中國區(qū)域逐日降水量的網(wǎng)格產(chǎn)品。在中國逐日網(wǎng)格降水量的基礎(chǔ)上,結(jié)合實(shí)驗(yàn)流域所對應(yīng)的格點(diǎn)面積比例進(jìn)行計(jì)算[10],可以得出實(shí)驗(yàn)流域2008年4月1日至2014年3月31日6年的降水量樣本數(shù)據(jù),并依據(jù)中國氣象局發(fā)布的降雨強(qiáng)度等級標(biāo)準(zhǔn)劃分為[0 mm,10 mm)、[10 mm,25 mm)、[25mm,50mm)、[50mm,100mm)、[100mm,250mm)5個(gè)等級,以前4年數(shù)據(jù)作為訓(xùn)練樣本,第5年數(shù)據(jù)作為測試樣本,最后1年數(shù)據(jù)作為應(yīng)用檢驗(yàn)樣本。
2.2 特征集構(gòu)建
通常原始數(shù)據(jù)不能直接使用,需要構(gòu)建特征集[11]。本文通過合適的特征生成方法,豐富特征表達(dá),充分發(fā)揮各類數(shù)據(jù)在模型預(yù)測中的價(jià)值。在流域逐日網(wǎng)格降水量數(shù)據(jù)以及流域多年降水情況的基礎(chǔ)上,保持可解釋性的前提下,采用聚合、序列指標(biāo)統(tǒng)計(jì)和規(guī)約等方法,從原始特征出發(fā)生成能有效應(yīng)用于流域降水預(yù)測應(yīng)用的特征集,如表1所示。
2.3 對比方法
采用傳統(tǒng)時(shí)間序列方法和神經(jīng)網(wǎng)絡(luò)方法等4種常用方法,檢驗(yàn)各方法在流域降水等級預(yù)測中的準(zhǔn)確度。
a.簡單移動(dòng)平均方法(simple moving average method,SMA)。移動(dòng)平均方法根據(jù)證據(jù)窗口的所有序列段的值來預(yù)測未來的值[12]。簡單移動(dòng)平均方法簡單地給證據(jù)窗口的所有序列段賦予相等的權(quán)重,即采用證據(jù)窗口的平均降水預(yù)測未來時(shí)期的平均降水。
b.線性加權(quán)移動(dòng)平均方法(linear weighted moving average method,Linear_WMA)。根據(jù)證據(jù)窗口內(nèi)不同序列段的數(shù)據(jù)對預(yù)測窗口的影響程度,分別給予不同的權(quán)數(shù),然后再采用線性的方法進(jìn)行平均移動(dòng)以預(yù)測未來值[13-14]。根據(jù)越是近期數(shù)據(jù)對預(yù)測值影響越大這一特點(diǎn),不同地對待證據(jù)窗口內(nèi)的各個(gè)數(shù)據(jù),對靠近當(dāng)前點(diǎn)的序列段的數(shù)據(jù)給予較大的權(quán)數(shù),對較遠(yuǎn)的序列段的數(shù)據(jù)給予較小的權(quán)數(shù),這樣來彌補(bǔ)簡單移動(dòng)平均方法的不足。
c.基于先驗(yàn)概率的方法(prior probability based method,PriorPr)。該方法用最高先驗(yàn)概率的降水等級作為未來的預(yù)測值,而不考慮證據(jù)窗口的降水狀況。
d.神經(jīng)網(wǎng)絡(luò)方法。神經(jīng)網(wǎng)絡(luò)也常用于預(yù)測未來降水。本文選取前饋(back-propagation,BP)神經(jīng)網(wǎng)絡(luò)方法(以下簡稱BP法)作為本文提出的基于樸素貝葉斯算法的流域降水預(yù)測方法(以下簡稱本文方法)的對比方法。BP神經(jīng)網(wǎng)絡(luò)模型是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練樣本,其激活轉(zhuǎn)移函數(shù)通常是一個(gè)Sigmoid轉(zhuǎn)移函數(shù),可以實(shí)現(xiàn)輸入到輸出的非線性映射。
2.4 評價(jià)方法
參考我國降水預(yù)報(bào)業(yè)務(wù)系統(tǒng)中常用的對降水事件實(shí)況和預(yù)報(bào)的雙態(tài)分類列聯(lián)表,采用F-Measure方法[15]評價(jià)本文方法的預(yù)測結(jié)果。F-Measure方法中精確度P和召回率R分別表示為
式中NA、NB、NC分別為雙態(tài)分類列聯(lián)表中的實(shí)況發(fā)生、空報(bào)和漏報(bào)。
P和R取值為[0,1],數(shù)值越接近1,精確度或召回率就越高。在P和R指標(biāo)出現(xiàn)矛盾的情況下,可對P和R加權(quán)調(diào)和平均:
當(dāng)參數(shù)α=1時(shí),F(xiàn)就是最常見的統(tǒng)計(jì)參數(shù)F1:
可知F1綜合了P和R的結(jié)果,當(dāng)F1較高時(shí)說明預(yù)報(bào)方法比較有效。
2.5 不同特征集的預(yù)測效果
采用以下3種特征集對比本文方法和BP法的預(yù)測效果:①“聚合”特征集,來自于流域降水序列數(shù)據(jù)中的聚合特征;②“聚合+統(tǒng)計(jì)”特征集,在“聚合”特征集的基礎(chǔ)上進(jìn)一步加入了流域降水序列數(shù)據(jù)中的統(tǒng)計(jì)特征;③“聚合+統(tǒng)計(jì)+規(guī)約”特征集,是進(jìn)一步加入流域多年氣象知識(shí)得到的規(guī)約特征。
2.5.1 流域降水預(yù)測
為驗(yàn)證不同特征集對流域降水預(yù)測準(zhǔn)確率的效果,對3種不同特征集分別采用BP法和本文方法進(jìn)行短(1 d、3 d)、中(7 d)、長(15 d、30 d)時(shí)段的降水預(yù)測,以此來檢驗(yàn)本文采用的特征集的作用。通過相關(guān)性分析并采用第5年的數(shù)據(jù)進(jìn)行特征選擇,選出各特征集的最佳組合。表2為不同特征集時(shí)兩種方法降水預(yù)測結(jié)果。
表2 不同特征集時(shí)兩種方法降水預(yù)測結(jié)果
從表2可知,本文方法總體上優(yōu)于BP法。在全年總體的預(yù)測準(zhǔn)確率方面,僅采用簡單聚合特征的本文方法取得了最高的預(yù)測準(zhǔn)確率,短、中、長期5組預(yù)測的平均正確率達(dá)到80.2%,高于BP法最好的一組(聚合+統(tǒng)計(jì)+規(guī)約),其5組預(yù)測平均正確率為76.3%。
2.5.2 流域暴雨預(yù)測
由于采用聚合類簡單特征的預(yù)測結(jié)果中,高準(zhǔn)確率主要依靠預(yù)測更多的1等級降水得到,在暴雨(一般會(huì)帶來流域3等級以上的整體平均降水)預(yù)測中存在明顯缺陷。為驗(yàn)證不同特征集對流域暴雨預(yù)測的效果,分別對不同特征集采用BP法和本文方法對未來一周每一天的降水等級進(jìn)行預(yù)測,在其基礎(chǔ)上預(yù)測未來一周是否有3等級以上或者4等級以上的日降水。以3等級預(yù)測為例,采用的標(biāo)準(zhǔn)是:如果未來一周中預(yù)報(bào)到一天3等級以上降水,而實(shí)際中確實(shí)也存在某一天3等級以上降水,則判定為預(yù)測正確。分別采用不同特征集的兩種方法預(yù)測結(jié)果如表3和表4所示(表中空值表示因預(yù)報(bào)該等級的降水次數(shù)為0,根據(jù)式(11)和式(14),相應(yīng)的精確度和F1值無法計(jì)算)。
表3 不同特征集的兩種方法3等級以上___________降水預(yù)測結(jié)果
表4 不同特征集的兩種方法4等級以上_____________降水預(yù)測結(jié)果
從表3可以看出,具有全面特征集的本文方法取得了最佳的3等級以上降水預(yù)報(bào)效果,在預(yù)測精確度、召回率和F1值三方面都取得了最好的結(jié)果,比最好的BP法分別提高了35%、11%和21%,比采用“聚合+統(tǒng)計(jì)”特征集的本文方法分別提高了65%、131%和116%。而表2中預(yù)測結(jié)果最好的簡單聚合特征集在本文方法中表現(xiàn)最差,完全不能預(yù)測大等級的降水。
從表4可以看出,對4等級以上降水的預(yù)報(bào)方面,BP法也完全不起作用,而采用全面特征集的本文方法則繼續(xù)表現(xiàn)良好,保持了0.56的預(yù)測精確度、0.28的召回率以及0.37的F1值。
2.6 不同預(yù)測方法的預(yù)測效果分析
將前述分析中各特征集選出的本文方法和BP法的最好結(jié)果,和3種時(shí)間序列方法預(yù)測結(jié)果進(jìn)行對比,結(jié)果見表5~7。
_表5 不同預(yù)測方法流域降水預(yù)測準(zhǔn)確率對比__
表6 不同預(yù)測方法流域3等級以上降水預(yù)測對比
表7 不同預(yù)測方法流域4等級以上降水預(yù)測對比
從表5可以看到,本文方法取得了最好的短中長時(shí)段整體降水預(yù)測效果,PriorPr排第二。而在暴雨預(yù)測方面,PriorPr則不起作用(表6),在4等級以上降水預(yù)測方面(表7),除了樸素貝葉斯算法,其他方法都不起作用。
為直觀比較預(yù)測結(jié)果和實(shí)際降水等級的差距,將本文方法、BP法和時(shí)間序列方法中最好的代表PriorPr的預(yù)測結(jié)果做成散點(diǎn)圖進(jìn)行比較,如圖1所示(圖中各預(yù)測結(jié)果與實(shí)際降水等級越接近或重合,表示預(yù)測準(zhǔn)確性越高)。本文方法因?yàn)樵诹饔蚪邓A(yù)測準(zhǔn)確率和暴雨預(yù)測效果中的最佳特征集不同,因此選出兩個(gè)代表,“樸素貝葉斯1”代表采用“聚合+統(tǒng)計(jì)+規(guī)約”特征集的本文方法,“樸素貝葉斯2”代表采用“聚合”特征集的本文方法。從圖1可以看出,在降雨等級為1時(shí),各個(gè)預(yù)測時(shí)間段所有方法預(yù)測結(jié)果均能與實(shí)際降水等級的散點(diǎn)重合,表明各方法在預(yù)測實(shí)際降水等級較低的情況準(zhǔn)確率較高。而對于數(shù)量不多的3等級以上或者4等級以上的日降水,采用“聚合+統(tǒng)計(jì)+規(guī)約”特征集的本文方法與實(shí)際降水等級散點(diǎn)重合度較高,因此具有更好的預(yù)測性能。
圖1 不同預(yù)測方法預(yù)測結(jié)果和實(shí)際降水等級對比
本文針對降水物理機(jī)制和相關(guān)成因關(guān)系未明,
降水預(yù)測不準(zhǔn)確,特別是極端降水預(yù)測存在較大誤差的問題,提出了基于樸素貝葉斯算法的流域降水預(yù)測方法。通過實(shí)例研究,表明該方法取得了比傳統(tǒng)時(shí)間序列方法以及BP神經(jīng)網(wǎng)絡(luò)法更好的降水預(yù)測效果,尤其是在暴雨預(yù)測方面。為進(jìn)一步提高預(yù)測準(zhǔn)確率,需分析更多與降水相關(guān)的氣象知識(shí)及原始數(shù)據(jù),尋找枯水期及前汛期的相關(guān)因素,進(jìn)一步豐富降水特征集,提高預(yù)測準(zhǔn)確率。
[1]王浩,游進(jìn)軍.水資源合理配置研究歷程與進(jìn)展[J].水利學(xué)報(bào),2008,39(10):1168-1175.(WANG Hao,YOU JinJun.Advancements and development course of research on water resources deployment[J].Journal of Hydraulic Engineering,2008,39(10):1168-1175.(in Chinese))
[2]閔晶晶,孫景榮,劉還珠,等.一種改進(jìn)的BP算法及在降水預(yù)報(bào)中的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2010,21(1):55-62.(MIN Jingjing,SUN Jingrong,LIU Huanzhu,et al. An improved BP algorithm and its application to precipitation forecast[J].Journal of Applied Meteorological Science,2010,21(1):55-62.(in Chinese))
[3]劉可晶,王文,朱燁,等.淮河流域過去60年干旱趨勢特征及其與極端降水的聯(lián)系[J].水利學(xué)報(bào),2012,43(10):1179-1187.(LIU Kejing,WANGWen,ZHU Ye,et al.Trend of drought and its relationship with extreme precipitation in Huaihe River basin over the last 60 years[J].Journal of Hydraulic Engineering,2012,43(10):1179-1187.(in Chinese))
[4]歐善國.用能量天氣學(xué)方法分析預(yù)報(bào)9405號熱帶風(fēng)暴暴雨[J].廣東氣象,1995(2):34-35.(OU Shanguo.The analysis of energy meteorology of tropical storm rain caused by No.9405[J].Guangdong Meteorological,1995(2):34-35.(in Chinese))
[5]STAUFFER D R,SEAMAN N L.Use of four-dimensional data assimilation in a limited-areamesoscalemodel:part I experiments with synoptic-scale data[J].MonthlyWeather Review,1990,118(6):1250-1277.
[6]施能.氣象統(tǒng)計(jì)預(yù)報(bào)[M].北京:氣象出版社,2009:128-142.
[7]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[8]林開平.人工神經(jīng)網(wǎng)絡(luò)的泛化性能與降水預(yù)報(bào)的應(yīng)用研究[D].南京:南京信息工程大學(xué),2007.
[9]XU Yejun,WANG Huimin.The induced generalized aggregation operators for intuitionistic fuzzy sets and their application in group decision making[J].Applied Soft Computing,2012,12(3):1168-1179.
[10]LIXuezhen,XU Lizhong,MA Zhenli,et al.Quotient space based flood risk analysis[J].International Review on Computers and Software,2012,7(1):344-352.
[11]BENGIO Y,COURVILLE A,VINCENT P.Representation learning:a review and new perspectives[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[12]WU Y,HWANG K,YUAN Y,et al,Adaptive workload prediction of grid performance in confidencewindows[J]. IEEE Transactions on Parallel&Distributed Systems Distrib,2010,21(7):925-938.
[13]WANG H M,CHEN Z S,SU S L.Optimal pricing and coordination schemes for the eastern route of the south-tonorth water diversion supply chain system in China[J]. Transportation Journal,2012,51(4):487-505.
[14]CHEN Zhisong,WANG Huimin,QIXiangtong.Pricing and water resource allocation scheme for the south-to-north water diversion project in China[J].Water Resources Management,2013(27):1457-1472.
[15]CHEN T Y,KUO F C,MERKEL R.On the statistical properties of the F-measure[C]//Proceeding 4th International Conference on Quality Software. Braunschweig,Germany:QSIC,2004:505-513.
A precipitation forecasting method for a river basin based on naive Bayes algorithm
HUANGWei1,LIXuezhen2,ZHAO Jia2,ZHAO Lihua2,LIChenmin2(1.Jiangsu Province Hydrology and Water Resources Investigation Bureau,Nanjing 210029,China;2.College of Computer and Information Technology Engineering,Hohai University,Nanjing 210098,China)
In order to effectively use available historical observation data for precipitation forecasting in the case of an uncertain cause of precipitation,a precipitation forecasting method was developed based on the naive Bayes algorithm. Using the Dongjiang Basin as an example,a rich setof featureswas constructed based on the basin's precipitation data and meteorological knowledge.The forecasting accuracy of the proposed method was compared with those of the traditional time seriesmethod and the BP neural network method.The result shows that the proposed method outperformed both the traditional time seriesmethod and the BP neural network method.
precipitation forecasting;naive Bayes algorithm;Bayes estimation;F-measure evaluationmethod
TV125;P338
A
1006- 7647(2016)04- 0065- 05
10.3880/j.issn.1006- 7647.2016.04.012
2015- 06 23 編輯:熊水斌)
國家自然科學(xué)基金(71433003,51179047);“十二五”國家科技支撐計(jì)劃(2015BAB07B01)
黃煒(1981—),男,博士,主要從事水文測驗(yàn)和站網(wǎng)管理研究。E-mail:wei.huang923@gmail.com
李臣明(1969—),男,副教授,博士,主要從事復(fù)雜系統(tǒng)分析與決策等研究。E-mail:lcm@hhu.edu.cn