李嬌華
(廣西師范大學 數(shù)學與統(tǒng)計學院,廣西 桂林 541004)
近年來,全球性氣候變化對環(huán)境、糧食生產的影響受到世界各國政府和專家學者越來越多的關注。我國是農業(yè)大國,國民經(jīng)濟的基礎是農業(yè),農業(yè)是受天氣和氣候影響最大的領域。氣候的變化將會直接影響我國的糧食安全及其可持續(xù)發(fā)展。因此,研究降水量及其分布規(guī)律不僅有重要的氣候學意義,而且對農業(yè)生產、水資源管理以及防災、減災有著重要的現(xiàn)實意義。
在應用中,單分布函數(shù)模型成為降水量概率密度估計中最常用的方法。正態(tài)分布模型、對數(shù)正態(tài)分布模型、Gamma分布模型是單分布函數(shù)模型中最常用的分布模型。在某些情況下,使用這些模型分析往往能取得不錯的效果。吳慧在文獻[1]中使用海南省18個測站收集1966-2003年的資料,結果得出在0.01的信度檢驗下春、夏、秋季降水數(shù)據(jù)基本符合正態(tài)分布。劉慧等人在文獻[2]中使用宜賓市1953-2010年的春季降水量數(shù)據(jù)資料,降水量分布分別采用正態(tài)分布、Gamma分布、對數(shù)正態(tài)分布和P-Ⅲ型分布對春季降水量分布進行研究。通過檢驗發(fā)現(xiàn),對數(shù)正態(tài)分布對宜賓市春季降水量的擬合效果最好。Mooley在文獻[3]中使用Gamma分布對亞洲夏季月降水量進行模擬,結果表明該模型適合亞洲夏季季風的月降雨量。然而不少研究表明,氣候變化較大的地區(qū),使用單分布模型并不能很好地估計某地區(qū)的降水量分布,需要新的模型來估計。Li等人在文獻[4]中使用指數(shù)分布、Gamma分布、Weibull分布等單分布模型以及混合概率分布擬合日降水量,考查其模擬中國黃土高原地區(qū)日降水分布特征的效果。
曹杰等人在文獻[5]中研究發(fā)現(xiàn),我國降水量分布具有一定的區(qū)域性。事實上,降水量分布不會很好地服從正態(tài)分布。如果對降水量的研究均是假定服從正態(tài)分布,其預報區(qū)間估計和顯著性檢驗結果將會產生偏差,導致估計精度降低。下面我們以南寧市2000-2019年的年降水量為例來分析其概率分布,原始數(shù)據(jù)來源于國家氣象科學數(shù)據(jù)共享服務平臺-中國地面氣候資料日值數(shù)據(jù)集(V3.0)。降水量的直方圖和混合正態(tài)分布擬合曲線(實線)如圖1所示。圖1的橫坐標表示南寧市2000-2019年的年降水量(單位:100 mm),縱坐標表示出現(xiàn)該降水量的頻率。由圖1看出,南寧市2000-2019年降水量數(shù)據(jù)出現(xiàn)雙峰狀,該數(shù)據(jù)顯然不是對稱型的正態(tài)分布,應該為混合正態(tài)分布。為進一步分析此情況,計算其相關數(shù)字特征,得到其均值為14.56,方差為3.95,偏度為0.50<0,峰度為-0.52<3,結果說明與正態(tài)分布的數(shù)字特征有一定偏差。Shapiro-Wilk正態(tài)性檢驗顯示,顯著性概率p值為5.529×10-7<0.05,因此,可以說明該地區(qū)年降水量數(shù)據(jù)不服從正態(tài)分布。
針對南寧市2000-2019年的年降水量數(shù)據(jù),我們使用混合正態(tài)分布和正態(tài)分布進行擬合比較,其擬合分布的密度曲線見圖1和圖2中的虛線。結合兩個圖,可以直觀看出,正態(tài)分布的刻畫并沒有很好體現(xiàn)出降水量數(shù)據(jù)的分布,相比之下,混合正態(tài)分布是對降水量數(shù)據(jù)較好的一個刻畫。
圖1 南寧市2000-2019年的年降水量直方圖和混合正態(tài)分布擬合曲線
圖2 南寧市2000-2019年的年降水量直方圖和正態(tài)分布擬合曲線
本文以南寧市為例,借助混合正態(tài)分布對降水量分布的總體參數(shù)進行估計,從而研究其分布規(guī)律。
混合模型在計量經(jīng)濟學和社會科學中得到廣泛的應用,其理論也得到廣泛的研究。其中,在混合模型中應用較多的是混合正態(tài)分布模型。更多的混合正態(tài)分布模型理論研究可以參考文獻[6-9]。首先給出混合正態(tài)分布的概率分布模型:
其中,αk是系數(shù)是正態(tài)分布的密度函數(shù),,則
稱為第K個分模型。
下面簡單介紹混合正態(tài)分布模型參數(shù)估計的EM算法,具體推導過程可參見文獻[9]。假設觀測數(shù)據(jù)y1,y2,…,yN由混合正態(tài)分布生成,
其中,θ=(α1,α2,…,αK;θ1,θ2,…,θK),我們用EM算法來估計混合正態(tài)分布模型的參數(shù)θ。經(jīng)過計算,可以給出第i次迭代的參數(shù)為:
由此,估計混合正態(tài)分布參數(shù)的EM算法總結如下:
(1)給出參數(shù)的初始值進行迭代;
(2)E步:根據(jù)當前模型參數(shù),計算分模型k對觀測數(shù)據(jù)yj的響應度
(3)M步:計算第i步迭代的模型參數(shù):
(4)重復第(2)和(3)步驟,直到對數(shù)似然函數(shù)值不再有明顯變化為止,最終可以得到模型的參數(shù)估計為
加入的廢液偏少,BT值會偏高,溶液呈乳白色,易形成“堿式絮狀物”,液相與固相比重差縮小后造成鎘渣漂移、出口含固量升高、首槽鎘渣品位低、除鎘反應器含鎘梯度不明顯、迫使鋅粉更換加快等一系列化“惡性循環(huán)”。廢液加入過多,BT值偏低,消耗鋅粉量增加,槽內產生氣泡,同樣影響沸騰層的穩(wěn)定。通過長時間試驗發(fā)現(xiàn):除鎘 BT值適宜控制在0.7~1.2之間,宜低不宜高。
本文主要探討k=2的情形,即兩個混合正態(tài)分布,計算該分布的均值和方差為:
其中α1+α2=1,假設mα表示兩個混合正態(tài)分布的α分位點,可以得到公式
其中Φ(·)表示標準正態(tài)分布的分布函數(shù),按照此公式可以通過隱函數(shù)算出mα。利用α分位點和混合正態(tài)分布的參數(shù)可以掌握樣本的重要信息,并推出其潛在規(guī)律以及變化趨勢。利用前面收集到的樣本數(shù)據(jù)并使用EM迭代算法,可以獲得參數(shù)估計
本文接下來將通過模擬對模型參數(shù)及其變化規(guī)律做簡單探討。
基于混合正態(tài)分布模型的參數(shù)迭代公式,并借助R軟件進行數(shù)值模擬實驗,對EM算法求解混合正態(tài)分布模型中參數(shù)估計問題的可行性和準確性進行驗證。并考慮當數(shù)據(jù)來自混合正態(tài)分布模型時,使用混合正態(tài)分布估計的參數(shù)和使用正態(tài)分布估計的參數(shù)結果進行比較。假設數(shù)據(jù)y1,…,yn是來自總體分布
我們考慮以下幾種情形,主要考慮混合正態(tài)分布的參數(shù)變化情形,包括混合比例變化、均值變化、方差變化等方面。情形1和情形2主要觀察混合比例的變化;情形2和情形3主要觀察均值的變化;情形3和情形4主要觀察方差的變化。
以上4種情形分別產生20、50、100、300和500個樣本容量(n)進行模擬重復10 000次。按照以上4種情形,分別計算相應的參數(shù)估計。為了方便比較,我們主要 考慮不同 樣本下 的參數(shù)估 計μ?,σ?2,m?α及其 對應標準差(即表格中括號內的數(shù)字);整體均值95%對稱置信區(qū)間(即模擬數(shù)據(jù)按照從小到大排序后首尾兩端各自去掉2.5%)以及對應的區(qū)間長度。模擬實驗的主要估計結果如表1和表2所示。
根據(jù)模擬結果表1和表2可以得到以下結論:
(1)從表1可以看出,混合正態(tài)分布的總體均值和總體方差估計具有相合性。隨著樣本容量不斷增加,估計值逐漸趨于真實值。估計值對應的標準差也逐漸減小,即數(shù)據(jù)分布越穩(wěn)定。
(2)從表1中的情形1和情形2來看,混合比例的變化會影響總體均值和方差的數(shù)值改變。一般來看,均值增減的趨勢和方差增減的趨勢是相反的,即均值減小時,方差則增加。分位數(shù)的變化方向和均值變化方向是一致的。從情形3和情形4來看,方差的變化對均值和0.05分位數(shù)的影響不大。
表1 各情形下的參數(shù)估計
(3)從表2可以看出,當真實總體服從混合正態(tài)分布時,在95%的置信水平下,總體均值的置信區(qū)間估計的區(qū)間長度小于正態(tài)分布估計的區(qū)間長度。
表2 各情形下整體均值的置信區(qū)間估計(置信水平為95%)
在本節(jié)中,我們選取前面所述的南寧市2000-2019年的年降水量數(shù)據(jù)作為實例對前面介紹的方法進行分析。年降水量數(shù)據(jù)共有240個數(shù)據(jù)。根據(jù)圖1可以看出,南寧市2000-2019年的年降水量數(shù)據(jù)直方圖呈雙峰狀,第一個峰值接近13,第二個峰值接近15,因此主要考慮兩個混合正態(tài)分布即k=2的情況來分析該降水量。
使用R軟件可以得到表3參數(shù)估計的結果,根據(jù)參數(shù)估計結果可知,年降水量數(shù)據(jù)服從混合正態(tài)分布,即:0.34N(12.87,0.22)+0.66N(15.43,3.65)。經(jīng)過計算,該數(shù)據(jù)的總體均值為14.55,總體方差為3.94,0.05分位數(shù)為12.17。其中,混合正態(tài)分布的0.05分位數(shù)為12.15。若降水量數(shù)據(jù)來自均值為14.55,方差為3.94的正態(tài)分布,則0.05分位數(shù)為11.28。因此,在混合分布假設下,混合正態(tài)分布的0.05分位數(shù)更接近樣本的0.05分位數(shù)。
表3 參數(shù)估計結果
整體均值置信區(qū)間估計結果如表4所示。從表4可以發(fā)現(xiàn),在95%的置信水平下,降水量數(shù)據(jù)服從混合正態(tài)分布總體均值的置信區(qū)間估計的區(qū)間長度小于正態(tài)分布估計的區(qū)間長度,說明混合正態(tài)分布總體均值的置信區(qū)間估計更精確。因此,選擇混合正態(tài)分布擬合年降水量數(shù)據(jù)對降水徑流模擬、水庫調度及水資源規(guī)劃配置、農業(yè)規(guī)劃等方面的研究均具有重要意義。
表4 降水量數(shù)據(jù)的整體均值置信區(qū)間估計(置信水平為95%)
本文主要探討基于混合正態(tài)分布模型的降水量分布特征,利用南寧市2000-2019年的年降水量數(shù)據(jù)并通過模擬實驗使用EM算法對分布參數(shù)進行估計,找到最優(yōu)的參數(shù)進行擬合。結果發(fā)現(xiàn),在年降水量數(shù)據(jù)擬合時,混合正態(tài)分布模型的擬合效果要優(yōu)于正態(tài)分布模型的擬合效果。由此可見,混合正態(tài)分布可以應用于呈多峰形的降水量數(shù)據(jù)分析,在氣候研究中具有很好的效果。