何貴陽(yáng),周菊玲
(新疆師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,新疆 烏魯木齊 830017)
帕累托分布是一類經(jīng)典的,能充分反映冪律特征的分布函數(shù),因此一直備受關(guān)注。其名稱是由意大利經(jīng)濟(jì)學(xué)家維弗雷多·帕累托(1848—1923)定義的,這一分布在經(jīng)濟(jì)學(xué)以外領(lǐng)域被稱為“布拉德福分布”。因帕累托分布中變量的獨(dú)特取值要求,即定義變量取值在特定數(shù)值之上,使得帕累托分布在應(yīng)用上受限。如黃娟等人討論了Pareto 分布參數(shù)的經(jīng)驗(yàn)Bayes(EB)單邊檢驗(yàn)問(wèn)題,構(gòu)造了參數(shù)的經(jīng)驗(yàn)Bayes 檢驗(yàn)函數(shù),證明了其具有漸近最優(yōu)性,并且獲得了收斂速度[1]。李超建等人介紹了基于帕累托分布的禽畜種苗交易系統(tǒng)入侵容忍模型,每臺(tái)服務(wù)器的結(jié)構(gòu)不同,但禽畜種苗交易網(wǎng)站服務(wù)內(nèi)容相同,具有響應(yīng)結(jié)果一致性[2]。溫利民等人建立貝葉斯模型,討論帕累托索賠額分布中參數(shù)的估計(jì)問(wèn)題,得到了風(fēng)險(xiǎn)參數(shù)的極大似然估計(jì)、貝葉斯估計(jì)和信度估計(jì),并證明了這些估計(jì)的強(qiáng)相合性[3]。錢小仕等人提到地震震級(jí)超過(guò)某一閾值的超出量分布可以近似為廣義帕累托分布,并介紹了基于廣義帕累托分布給出的若干地震活動(dòng)性參數(shù)的估計(jì)公式[4]。張悅基于多種復(fù)雜刪失數(shù)據(jù)研究帕累托分布的統(tǒng)計(jì)特性,構(gòu)建了逐步II 型刪失下的擬合優(yōu)度檢驗(yàn),推導(dǎo)了廣義逐步II型刪失下帕累托分布的壽命績(jī)效指數(shù)的統(tǒng)計(jì)推斷,討論了適應(yīng)性逐步II型刪失模式下帕累托分布的競(jìng)爭(zhēng)風(fēng)險(xiǎn)模型分析,并將結(jié)論推廣到更復(fù)雜的廣義指數(shù)分布[5]。通過(guò)查閱近些年關(guān)于帕累托分布的相關(guān)研究文獻(xiàn),可以確定帕累托分布只局限于刻畫冪律特征的分布函數(shù)中的上尾部分[1-7]。從此特性出發(fā),考慮變量的取值,如果將帕累托分布變量的定義域取相反數(shù),則可以求解其受限外的區(qū)域,即刻畫冪律特征的分布函數(shù)中的下尾部分。王超探討了反向帕累托分布的統(tǒng)計(jì)推斷問(wèn)題,通過(guò)研究2010年我國(guó)655個(gè)城市人口規(guī)模,證明了中小型城市人口規(guī)??梢允褂梅聪蚺晾弁蟹植歼M(jìn)行擬合[8]。簡(jiǎn)單的取值變化彌補(bǔ)了帕累托分布刻畫區(qū)域的不足,同時(shí)也完善了對(duì)滿足冪律特征區(qū)域的一種刻畫問(wèn)題。針對(duì)帕累托分布變量取相反數(shù)的特點(diǎn),結(jié)合帕累托分布特點(diǎn),提出反向帕累托分布。反向帕累托分布的密度函數(shù)和分布函數(shù)分別為
其中,a和λ分別為位置參數(shù)和形狀參數(shù),且a>0,λ>0,符號(hào)表示為RP(a,λ).
在處理參數(shù)估計(jì)問(wèn)題上,常見(jiàn)方法有極大似然估計(jì)、矩估計(jì)、熵估計(jì)、Bayes估計(jì)等。根本上是頻率學(xué)派與貝葉斯學(xué)派就估計(jì)方法進(jìn)行激烈討論,其中頻率學(xué)派的極大似然估計(jì)與貝葉斯學(xué)派的最大后驗(yàn)估計(jì)最具代表性。但無(wú)論是哪一學(xué)派的哪一種估計(jì)方法,都離不開(kāi)樣本信息與損失函數(shù)的選取,其中常用的損失函數(shù)有熵?fù)p失函數(shù)、平方損失函數(shù)、加權(quán)平方損失函數(shù)、Linex 損失函數(shù)、復(fù)合Linex 損失函數(shù)、Mlinex 損失函數(shù)等。值得一提的是Mlinex 損失函數(shù),Mlinex 損失函數(shù)是一類非對(duì)稱損失函數(shù),是由Podder 在2004 年提出的一種修正的線性指數(shù)損失函數(shù),其具體表達(dá)式為
其中,θ是未知參數(shù)λ判別空間的一個(gè)估計(jì)。Mlinex 損失函數(shù)雖是對(duì)原有損失函數(shù)的一種修正,但一直未停止對(duì)其進(jìn)行研究。例如王琳等人基于逐步增加Ⅱ型截尾樣本,研究了Mlinex 損失下BurrⅫ部件可靠性指標(biāo)的經(jīng)驗(yàn)Bayes 估計(jì)[9]。丁新月等人在Mlinex 損失函數(shù)下,討論了逆伽馬分布尺度參數(shù)的Bayes 估計(jì)及其可容許性[10]。李新鵬等人利用信度理論的方法得到了Mlinex 損失函數(shù)下Bühlmann-Straub 模型具有特殊相依效應(yīng)的信度保費(fèi),進(jìn)而推導(dǎo)出Mlinex損失函數(shù)下Bühlmann模型具有此種相依效應(yīng)的信度保費(fèi)[11]。
事先說(shuō)明Mlinex 損失函數(shù)中常數(shù)c的取值問(wèn)題。文章只研究c>0 的情況,c<0 的情形類似,不做充分討論。文章第一節(jié)為預(yù)備知識(shí);第二節(jié)對(duì)頻率學(xué)派極大似然估計(jì)與貝葉斯學(xué)派最大后驗(yàn)估計(jì)進(jìn)行討論,并推導(dǎo)反向帕累托分布形狀參數(shù)在最大后驗(yàn)估計(jì)方法下的具體表達(dá)式;第三節(jié)介紹了在Mlinex 損失函數(shù)下反向帕累托分布形狀參數(shù)的經(jīng)典Bayes 估計(jì),并推導(dǎo)出具體表達(dá)式;第四節(jié)在Mlinex 損失函數(shù)下,討論反向帕累托分布形狀參數(shù)的多層Bayes估計(jì)與E-Bayes估計(jì);第五節(jié)通過(guò)數(shù)值模擬,驗(yàn)證所列舉估計(jì)方法的準(zhǔn)確性、穩(wěn)健性、可靠性;第六節(jié)在參數(shù)最優(yōu)環(huán)境下,利用最優(yōu)估計(jì)方法,進(jìn)行數(shù)據(jù)擬合,確定新疆縣市級(jí)城市的人均城市道路面積可以利用反向帕累托分布近似擬合,并結(jié)合最終數(shù)據(jù)給出相應(yīng)的數(shù)據(jù)分析。
在處理待估參數(shù)是客觀存在但未知的一類估計(jì)問(wèn)題時(shí),常用的估計(jì)方法是經(jīng)典頻率學(xué)派觀點(diǎn)下的極大似然估計(jì)(MLE)。
引理1[9]若X1,X2,…,Xn是來(lái)自RP(a,λ)分布的簡(jiǎn)單隨機(jī)樣本,其中a與λ分別為位置參數(shù)與形狀參數(shù)。令X=(X1,X2,…,Xn),并且x1,x2,…,xn是其相應(yīng)隨機(jī)樣本下的觀察值,則RP(a,λ)中位置參數(shù)a與形狀參數(shù)λ的極大似然估計(jì)分別為
在實(shí)際應(yīng)用時(shí),發(fā)現(xiàn)個(gè)別待估參數(shù)與樣本有關(guān),針對(duì)這類情況,貝葉斯學(xué)派提出了最大后驗(yàn)估計(jì)(MAP)方法。其估計(jì)原理是考慮待估參數(shù)的先驗(yàn)信息與樣本信息有關(guān),需選擇合適的估計(jì)量使得后驗(yàn)分布密度達(dá)到最大值[12],同時(shí)最大后驗(yàn)估計(jì)作為Bayes估計(jì)的一種近似解,也有一定的研究?jī)r(jià)值。
由于參數(shù)λ的最大后驗(yàn)估計(jì)應(yīng)使后驗(yàn)分布達(dá)到最大[12]。即選定合適的估計(jì)量使p(X|λ)π(λ)達(dá)到最大,其中π(λ)是參數(shù)λ的先驗(yàn)分布密度,p(X|λ)是樣本X1,X2,…,Xn對(duì)參數(shù)λ的條件密度。從處理參數(shù)估計(jì)問(wèn)題的原理上可以看出,極大似然估計(jì)是最大后驗(yàn)估計(jì)在π(λ) ∝1的先驗(yàn)分布。接下來(lái)利用這一特點(diǎn)結(jié)合引理1給出的極大似然估計(jì)方法,推導(dǎo)出形狀參數(shù)λ的最大后驗(yàn)估計(jì)方法。
定理1若X1,X2,…,Xn是來(lái)自RP(a,λ)分布的簡(jiǎn)單隨機(jī)樣本,其中a與λ分別為位置參數(shù)與形狀參數(shù)。令X=(X1,X2,…,Xn),并且x1,x2,…,xn是其相應(yīng)隨機(jī)樣本下的觀察值,選取Γ(β,γ作為形狀參數(shù)λ的先驗(yàn)分布π(λ),則在位置參數(shù)a已知的情況下,形狀參數(shù)λ的最大后驗(yàn)估計(jì)為
證明選取形狀參數(shù)λ的先驗(yàn)分布為其中參數(shù)β,γ為超參數(shù),且β>0,γ>0,同時(shí)令p(X|λ)是樣本X1,X2,…,Xn對(duì)參數(shù)λ的條件密度,則有
考慮到形狀參數(shù)λ的最大后驗(yàn)估計(jì)是尋找λ的估計(jì)量,使形狀參數(shù)λ的后驗(yàn)密度函數(shù)達(dá)到最大值的情況,即找到使p(X|λ)π(λ)達(dá)到最大值。
令g(λ)=λn+β-1e-(γ-t)λ,由最大后驗(yàn)估計(jì)方法的原理可知,要對(duì)p(X|λ)π(λ)關(guān)于λ求解最大值,就是要對(duì)g(λ)關(guān)于λ求解最大值。但關(guān)于g(λ)直接求解最值問(wèn)題處理較為復(fù)雜,考慮變式,因g(λ)=exp{ln(g(λ))}=exp{ln(λn+β-1e-(γ-t)λ)},則對(duì)g(λ)求解最值問(wèn)題可轉(zhuǎn)化對(duì)ln[g(λ)]求解最值問(wèn)題。
對(duì)ln[g(λ)]關(guān)于形狀參數(shù)λ取一階微分,同時(shí)令微商為0,即
上文介紹了反向帕累托形狀參數(shù)λ的最大后驗(yàn)估計(jì)。由于最大后驗(yàn)估計(jì)是Bayes 估計(jì)解的近似值,其估計(jì)結(jié)果相比于利用Bayes 理論下的經(jīng)典估計(jì)方法得到的結(jié)果,還存在一定偏差。具體體現(xiàn)在損失函數(shù)的影響,所以下面將繼續(xù)討論在考慮損失函數(shù)情況下,反向帕累托形狀參數(shù)λ在Bayes 理論下的經(jīng)典估計(jì)方法并確定估計(jì)結(jié)果的具體表達(dá)式。
考慮位置參數(shù)a已知的情況下,形狀參數(shù)λ在Mlinex損失函數(shù)下的經(jīng)典Bayes估計(jì)問(wèn)題。
定理2設(shè)X1,X2,…,Xn是來(lái)自RP(a,λ)分布的簡(jiǎn)單隨機(jī)樣本,其中a與λ分別為位置參數(shù)與形狀參數(shù)。令X=(X1,X2,…,Xn),并且x1,x2,…,xn是相應(yīng)隨機(jī)樣本下的觀察值,在Mlinex 損失函數(shù)(1)下,對(duì)于任意的先驗(yàn)分布π(λ),在位置參數(shù)已知的情況下,形狀參數(shù)λ的唯一Bayes估計(jì)為
其中,p(X|λ)π(λ)表示參數(shù)λ與樣本X=(X1,X2,…,Xn)的聯(lián)合密度函數(shù)。
由損失函數(shù)定義可知,在對(duì)特定分布的參數(shù)進(jìn)行估計(jì)時(shí),考慮到給定相應(yīng)損失函數(shù)后,需要使風(fēng)險(xiǎn)函數(shù)盡可能的小,以保證參數(shù)估計(jì)時(shí)的準(zhǔn)確性。為此需使風(fēng)險(xiǎn)函數(shù)中的極小化即可。
因?yàn)?/p>
將f((X))關(guān)于(X)求一階微分并令其等于零,便可解得形狀參數(shù)λ的Bayes估計(jì)為
由于f((X))是凸函數(shù),所以(X)是f((X))的唯一最小值。同時(shí)若存在λ'使得R(X)(λ) <∞,對(duì)于參數(shù)λ的Bayes估計(jì)(X)是唯一存在的且是可容許的,所以可以確定形狀參數(shù)λ的唯一Bayes估計(jì)一般形式為
推論1同定理2條件。選取作為RP(a,λ)分布中形狀參數(shù)λ的先驗(yàn)分布π(λ),其中參數(shù)β,γ為超參數(shù),且β>0,γ>0,在Mlinex 損失函數(shù)(1)下,且位置參數(shù)a已知的情況下,形狀參數(shù)λ的Bayes 估計(jì)的精確表達(dá)式為
證明因?yàn)檫x取作為形狀參數(shù)λ的先驗(yàn)分布π(λ),則由式(2)可得
又因?yàn)镽P(a,λ)分布的密度函數(shù)是f(x;a,λ)=λa-λxλ-1;0 <x≤a,λ>0,所以樣本的似然函數(shù)由式(3)確定為
由式(5)可以看出,形狀參數(shù)λ的后驗(yàn)分布服從伽馬分布Γ(n+β,γ-t).
于是有
因此,由定理2可知,Mlinex損失函數(shù)下形狀參數(shù)λ的Bayes估計(jì)的精確表達(dá)式為
在Bayes 理論不斷進(jìn)步的同時(shí),對(duì)特定分布參數(shù)的估計(jì)方法也一直不斷地發(fā)展與完善。這一系列的發(fā)展也使得參數(shù)估計(jì)不斷逼近于真值,使其誤差不斷地縮小,這樣的結(jié)果正是對(duì)特定分布參數(shù)進(jìn)行估計(jì)的最終理想。所以接下來(lái)文章進(jìn)一步研究形狀參數(shù)λ在Mlinex 損失函數(shù)下,先驗(yàn)分布選定為Γ(β,γ) 的E-Bayes估計(jì)與多層Bayes 估計(jì)。根據(jù)相應(yīng)文獻(xiàn),為了使估計(jì)的效果較好,Γ(β,γ) 中參數(shù)β和γ的取值應(yīng)使先驗(yàn)分布密度函數(shù)為形狀參數(shù)λ的減函數(shù)[13]。再考慮估計(jì)的穩(wěn)健性,最終確定0 <β<γ<m,其中m為常數(shù)[14]。
定義1對(duì)于(a,b)∈D,若B(a,b)是連續(xù)的,則稱是參數(shù)λ的E-Bayes 估計(jì),其中?DB(a,b)f(a,b)dadb是存在的,D是超參數(shù)a和b的取值集合,f(a,b)是a和b在集合D上的密度函數(shù),B(a,b)為λ的Bayes估計(jì)。
從定義可以看出,參數(shù)λ的E-Bayes估計(jì)
是參數(shù)λ的Bayes估計(jì)B(a,b) 對(duì)超參數(shù)a和b的數(shù)學(xué)期望,即λ的E-Bayes估計(jì)是λ的Bayes估計(jì)對(duì)超參數(shù)的數(shù)學(xué)期望。
定理3設(shè)X1,X2,…,Xn是來(lái)自RP(a,λ)分布的簡(jiǎn)單隨機(jī)樣本,其中a與λ分別為位置參數(shù)與形狀參數(shù)。選取Γ(β,γ) 作為形狀參數(shù)λ的先驗(yàn)分布π(λ),其中參數(shù)β,γ為超參數(shù),且β>0,γ>0.令X=(X1,X2,…,Xn),并且x1,x2,…,xn是相應(yīng)隨機(jī)樣本下的觀察值,在位置參數(shù)已知時(shí),RP(a,λ)分布中的形狀參數(shù)λ,在Mlinex損失函數(shù)下的E-Bayes估計(jì)的精確表達(dá)式為
證明首先由推論1 可知,RP(a,λ)分布的形狀參數(shù)λ,在Mlinex 損失函數(shù)下的Bayes 估計(jì)的精確表達(dá)式為
最后由定義1,RP(a,λ)分布的形狀參數(shù)λ,在Mlinex損失函數(shù)下的E-Bayes估計(jì)的精確表達(dá)式為
定義2若λ的先驗(yàn)分布為Γ(β,γ)分布,其密度函數(shù)其中參數(shù)β,γ為超參數(shù),且β>0,γ>0.假設(shè)β,γ獨(dú)立,則有β和γ的先驗(yàn)分布分別為上的均勻分布,所以得到先驗(yàn)分布密度函數(shù)f(β,γ)=,同時(shí)在β和γ獨(dú)立時(shí),則λ的多層先驗(yàn)密度函數(shù)為
定理4同定理3條件。在位置參數(shù)a已知時(shí),若形狀參數(shù)λ的多層先驗(yàn)密度函數(shù)π*(λ) 由定義2給出,則在位置參數(shù)已知時(shí),在Mlinex下形狀參數(shù)λ的多層Bayes估計(jì)為
證明設(shè)X1,X2,…,Xn為來(lái)自RP(a,λ)分布的簡(jiǎn)單隨機(jī)樣本,在位置參數(shù)a已知時(shí),樣本的似然函數(shù)由式(3)給定
若形狀參數(shù)λ的多層先驗(yàn)密度函數(shù)由定義2給出,根據(jù)Bayes定理,形狀參數(shù)λ的多層后驗(yàn)分布密度為
文章研究了形狀參數(shù)λ的五種估計(jì)方法并給出了相應(yīng)的具體表達(dá)式。為確保估計(jì)所得結(jié)果的準(zhǔn)確性、穩(wěn)健性,接下來(lái)利用R 軟件對(duì)給出的估計(jì)方法進(jìn)行MC 數(shù)值模擬,并在模擬中運(yùn)用控制變量的原理,觀察對(duì)比偏差量Abs 的數(shù)值變化,逐步得到最優(yōu)估計(jì)的參數(shù)環(huán)境。在最優(yōu)估計(jì)參數(shù)環(huán)境下,通過(guò)對(duì)均方誤差MSE的數(shù)值變化進(jìn)行討論,最終確定Bayes理論下的最優(yōu)估計(jì)。
在RP(a,λ) 分布中,給定參數(shù)真值,即位置參數(shù)a=100 和形狀參數(shù)λ=3 時(shí),對(duì)樣本取值為n=20、50、100、150,Mlinex 損失函數(shù)相應(yīng)參數(shù)ω=1、形狀參數(shù)λ的先驗(yàn)分布為Γ(2,1) 均給定。采用MC 方法進(jìn)行數(shù)值模擬計(jì)算,每種情況均進(jìn)行2000次模擬計(jì)算,其計(jì)算結(jié)果如表1、表2、表3所示。其中,表1為給定條件下,確定Mlinex損失函數(shù)中常數(shù)c的最優(yōu)環(huán)境;表2為給定條件下,確定形狀參數(shù)λ的先驗(yàn)分布下參數(shù)的最優(yōu)環(huán)境;表3為在最優(yōu)環(huán)境下形狀參數(shù)λ的三種估計(jì)方法下的均方誤差MSE.
表1 確定Mlinex損失函數(shù)中常數(shù)c的最優(yōu)環(huán)境(給定條件)
表2 確定形狀參數(shù)λ的先驗(yàn)分布中參數(shù)的最優(yōu)環(huán)境(給定條件)
表3 在最優(yōu)環(huán)境下形狀參數(shù)λ的三種估計(jì)方法下的均方誤差MSE
表4 2021年新疆20座縣市級(jí)城市人均城市道路面積數(shù)據(jù)
由表1數(shù)據(jù)可得結(jié)論如下:
(1)與近似Bayes估計(jì)方法和Bayes估計(jì)方法相比,基本估計(jì)方法中極大似然估計(jì)結(jié)果比真值大,即偏差量為正。相比于極大似然估計(jì),最大后驗(yàn)估計(jì)結(jié)果更接近真值。這是最大后驗(yàn)估計(jì)在估計(jì)問(wèn)題上考慮了待估參數(shù)先驗(yàn)分布與樣本相關(guān)的體現(xiàn)。
(2)Mlinex 損失函數(shù)中常數(shù)c的取值變化對(duì)RP(a,λ)分布中形狀參數(shù)λ的Bayes 估計(jì)有一定的影響??梢钥闯觯?dāng)Mlinex 損失函數(shù)常數(shù)c=1 時(shí),其估計(jì)結(jié)果最接近真值,所以可以判斷在已給定條件下,Mlinex 損失函數(shù)參數(shù)的最優(yōu)環(huán)境為ω=1,c=1.
(3)對(duì)比三種估計(jì)方法在樣本容量逐步增大時(shí),估計(jì)結(jié)果也逐步趨近真值,即三種估計(jì)方法均滿足大樣本性質(zhì)。同時(shí)對(duì)比偏差量可知所列舉估計(jì)方法得到的結(jié)果是準(zhǔn)確的,估計(jì)結(jié)果均滿足準(zhǔn)確性。
(4)結(jié)合數(shù)據(jù)可以判斷出,在無(wú)損失函數(shù)環(huán)境影響下,處理滿足反向帕累托分布形狀參數(shù)的大樣本數(shù)據(jù)的估計(jì)問(wèn)題上,選擇最大后驗(yàn)估計(jì)是最優(yōu)的。
由表2數(shù)據(jù)可得結(jié)論如下:
(1)在Bayes 理論下,相比于經(jīng)典Bayes 估計(jì)(B)和E-Bayes 估計(jì)(EB),多層Bayes 估計(jì)(HB)估計(jì)結(jié)果的偏差為正偏差量,其他兩個(gè)為負(fù)偏差量。
(2)形狀參數(shù)λ的先驗(yàn)分布中參數(shù)的數(shù)值選取對(duì)Bayes 估計(jì)結(jié)果有一定的影響,可以看出當(dāng)先驗(yàn)分布中參數(shù)的數(shù)值選取m=1時(shí),其估計(jì)結(jié)果最接近真值。所以可以判斷在已給定條件下,形狀參數(shù)λ的先驗(yàn)分布中參數(shù)的數(shù)值選取最優(yōu)環(huán)境是m=1.同時(shí)對(duì)比m取值量的變化,三種Bayes 估計(jì)方法得到結(jié)果變化的幅度都較小,即可說(shuō)明三種Bayes估計(jì)方法所得結(jié)果均滿足穩(wěn)健性,其中E-Bayes估計(jì)穩(wěn)健性最強(qiáng)。
(3)同表1結(jié)論,以上三種Bayes方法也均滿足大樣本性,估計(jì)結(jié)果均滿足準(zhǔn)確性。
(4)結(jié)合數(shù)據(jù)可以判斷出:在Mlinex 損失函數(shù)環(huán)境影響下,如需準(zhǔn)確地處理滿足反向帕累托分布形狀參數(shù)的大樣本數(shù)據(jù)估計(jì)問(wèn)題時(shí),選擇E-Bayes估計(jì)方法是最優(yōu)的。如需處理滿足特定的正偏差逼近問(wèn)題時(shí),可選擇多層Bayes估計(jì)方法得到較準(zhǔn)確的近似值。
由表3數(shù)據(jù)可得結(jié)論如下:
(1)在參數(shù)的最優(yōu)環(huán)境下,Bayes 理論中的三種估計(jì)方法所得結(jié)果的均方誤差MSE 數(shù)值變化較穩(wěn)定,結(jié)果能體現(xiàn)三種Bayes 估計(jì)方法的合理可靠性。同時(shí)隨著樣本數(shù)據(jù)的增加,均方誤差MSE 均控制在較小的有效值內(nèi),即三種Bayes估計(jì)方法所得結(jié)果是準(zhǔn)確有效的。
(2)數(shù)據(jù)對(duì)比可得:三種Bayes 方法的均方誤差MSE 偏差量,在大樣本數(shù)據(jù)下均控制在0.001,即三種Bayes 估計(jì)方法所得結(jié)果較相近。同大樣本數(shù)據(jù)下,E-Bayes 估計(jì)方法中均方誤差MSE 控制較好,其可靠性較其他兩種較強(qiáng)。
文章所給出的包括近似Bayes 與Bayes 理論下常用的三種估計(jì)方法,通過(guò)數(shù)值模擬并分析比較,得到以上五種估計(jì)方法都滿足大樣本性質(zhì)且部分估計(jì)結(jié)果具有一定的可靠性、準(zhǔn)確性、穩(wěn)健性。結(jié)合樣本條件與穩(wěn)健性要求,五種估計(jì)方法中E-Bayes估計(jì)法,在處理Mlinex損失函數(shù)下反向帕累托分布形狀參數(shù)的估計(jì)問(wèn)題上較為快捷、準(zhǔn)確、穩(wěn)定,即可判斷E-Bayes估計(jì)是最優(yōu)估計(jì)方法。
文章1—4 節(jié)內(nèi)容已解決了所提出的估計(jì)問(wèn)題,并最終做出總結(jié),給出了處理相應(yīng)參數(shù)估計(jì)問(wèn)題的最優(yōu)方法。但理論研究不僅僅是對(duì)處理問(wèn)題的方法進(jìn)行總結(jié),更是要解決實(shí)際問(wèn)題。在對(duì)反向帕累托分布的研究中,鮮有見(jiàn)到相關(guān)實(shí)際問(wèn)題的討論。王超探討了反向帕累托分布的統(tǒng)計(jì)推斷問(wèn)題,通過(guò)2010 年我國(guó)655個(gè)城市人口規(guī)模的案例,證明了中小型城市人口規(guī)??梢允褂梅聪蚺晾弁蟹植歼M(jìn)行擬合[8]。藍(lán)海等人基于E-Bayes 估計(jì)的定義,分別在加權(quán)平方損失函數(shù)和平方損失函數(shù)下討論了反向帕累托分布在位置參數(shù)已知時(shí),形狀參數(shù)α的E-Bayes估計(jì)[15]。徐寶等人使用加權(quán)p,q對(duì)稱損失函數(shù)研究了反向帕累托分布的形狀參數(shù)在刻度參數(shù)給定條件下Bayes 估計(jì)的形式與性質(zhì)。得到了形狀參數(shù)Bayes 估計(jì)的一般形式以及在給定共軛先驗(yàn)下的精確形式,證明了所得Bayes 估計(jì)具有可容許性以及最小最大性[16]。文章將從文獻(xiàn)[16]提出的反向帕累托分布可以擬合中小型城市人口規(guī)模的研究出發(fā),對(duì)新疆維吾爾自治區(qū)二十座縣市級(jí)城市的人均城市道路面積進(jìn)行擬合研究。
一座城市的發(fā)展,不僅僅依賴于經(jīng)濟(jì)水平的提升,經(jīng)濟(jì)的發(fā)展與城市道路面積的擴(kuò)建也體現(xiàn)在城市常住人口數(shù)的變化,但要考慮到經(jīng)濟(jì)發(fā)展同時(shí)伴隨著人口流動(dòng)。面對(duì)近些年不斷發(fā)展的新疆,常住人口數(shù)已不能再作為衡量某座城市的發(fā)展標(biāo)準(zhǔn),所以文章引入人均城市道路面積作為城市發(fā)展的判斷依據(jù)。文章利用反向帕累托分布對(duì)新疆維吾爾自治區(qū)內(nèi)二十座縣市級(jí)城市的人均城市道路面積進(jìn)行擬合,并利用最優(yōu)估計(jì)方法判斷擬合結(jié)果是否準(zhǔn)確。以下數(shù)據(jù)來(lái)自于新疆維吾爾自治區(qū)統(tǒng)計(jì)局《2021 年新疆統(tǒng)計(jì)年鑒11-2 各城市市區(qū)設(shè)施水平》。
通過(guò)分析,設(shè)表中數(shù)據(jù)為X=(X1,X2,…,X20)的樣本,通過(guò)計(jì)算得到樣本均值與樣本方差:E(X)=32.50,Var(X)=345.50.觀察樣本數(shù)據(jù)分布情況,有較多的小樣本數(shù)據(jù)。同時(shí)結(jié)合人口分布的特點(diǎn),數(shù)據(jù)可視為滿足冪律特征的下尾分布,即考慮利用反向帕累托分布擬合。通過(guò)反向帕累托分布期望與方差公式
結(jié)合樣本均值與樣本方差信息,求解得到參數(shù)真值a≈64.561,λ≈1.014.但由于限定0 <x≤a,所以上述表格中存在異常數(shù)據(jù),從而限制了參數(shù)a的確定。對(duì)比實(shí)際人口數(shù)據(jù)判斷阿拉山口市與霍爾果斯市數(shù)據(jù)存在一定異常,主要體現(xiàn)為流動(dòng)人口數(shù)較多,常住人口數(shù)較其他地區(qū)偏少,使得在同等城市道路面積下,人均城市道路面積值偏大。
利用Excel 軟件,在理想環(huán)境下,對(duì)已知的20 組數(shù)據(jù)進(jìn)行參數(shù)的E-Bayes 估計(jì)。通過(guò)迭代擬合,修正參數(shù)a的值并對(duì)估計(jì)結(jié)果與真值進(jìn)行數(shù)值比較,在誤差可允許范圍內(nèi)找到最優(yōu)估計(jì)下參數(shù)的近似估計(jì)值,最后驗(yàn)證擬合的準(zhǔn)確性。
由表5擬合結(jié)果可以得出:
表5 通過(guò)迭代修正參數(shù)a的值并對(duì)參數(shù)λ擬合,得到近似擬合值y(理想環(huán)境)
(1)2021 年新疆城市市區(qū)設(shè)施水平中人均城市道路面積數(shù)據(jù)可以用反向帕累托分布近似擬合,擬合結(jié)果相對(duì)準(zhǔn)確。
(2)在處理2021年新疆城市市區(qū)設(shè)施水平中人均城市道路面積數(shù)據(jù)時(shí),發(fā)現(xiàn)在給定數(shù)據(jù)的情況下,得到的參數(shù)a的真值存在誤差,在后期數(shù)據(jù)擬合中,也驗(yàn)證了數(shù)據(jù)中阿拉山口市與霍爾果斯市數(shù)據(jù)存在異常。在數(shù)據(jù)不變的條件下,通過(guò)Excel軟件的迭代修正參數(shù)a數(shù)值,并對(duì)修正后數(shù)據(jù)進(jìn)行估計(jì)。對(duì)比參數(shù)λ真值,可以判斷當(dāng)a=244 時(shí),估計(jì)結(jié)果與真值相同,數(shù)據(jù)擬合最完美。同時(shí)確定當(dāng)a∈[136,845]時(shí),數(shù)據(jù)均方誤差MSE ≤0.3640,即在可偏差范圍內(nèi)。
(3)在對(duì)參數(shù)a進(jìn)行修正過(guò)程中發(fā)現(xiàn),表中給定的數(shù)據(jù)中存在異常,但異常不是錯(cuò)誤。根據(jù)對(duì)資料的查詢與研究,找到阿拉山口市與霍爾果斯市數(shù)據(jù)異常原因?yàn)?該地區(qū)人口數(shù)據(jù)變化幅度較大,即流動(dòng)人口數(shù)較多,常住人口數(shù)量較少,人口流動(dòng)性較強(qiáng)。同時(shí)也說(shuō)明該地區(qū)城市公共資源開(kāi)發(fā)力度較強(qiáng),開(kāi)發(fā)后使用程度較低等問(wèn)題。
(4)對(duì)比全國(guó)人居城市道路面積數(shù)據(jù)可以判斷,以上城市中較多數(shù)城市數(shù)據(jù)高于全國(guó)標(biāo)準(zhǔn)數(shù)據(jù)17.36 m2.即說(shuō)明新疆縣市級(jí)城市資源利用率較低,固定人口數(shù)較少,人口流動(dòng)性較強(qiáng)。
文章對(duì)Mlinex 損失函數(shù)下反向帕累托分布形狀參數(shù)估計(jì)進(jìn)行充分討論,對(duì)比了頻率學(xué)派的極大似然估計(jì)與貝葉斯學(xué)派的最大后驗(yàn)估計(jì)兩大經(jīng)典估計(jì)方法,兩者的估計(jì)結(jié)果在數(shù)值上較為相似。結(jié)合兩者在處理問(wèn)題上的出發(fā)點(diǎn)不同,所以應(yīng)用也各不相同。同時(shí)文章也在Bayes 理論下,對(duì)相應(yīng)參數(shù)進(jìn)行了近似Bayes 估計(jì)與經(jīng)典Bayes 估計(jì)的對(duì)比,給定了形狀參數(shù)在估計(jì)時(shí)的參數(shù)最優(yōu)環(huán)境,并通過(guò)數(shù)值模擬得到在Bayes 理論下,處理相應(yīng)估計(jì)問(wèn)題的最優(yōu)估計(jì),即E-Bayes估計(jì)是最優(yōu)估計(jì)方法。最后利用最優(yōu)估計(jì)方法,對(duì)《2021年新疆統(tǒng)計(jì)年鑒11-2 各城市市區(qū)設(shè)施水平》中人均城市道路面積的數(shù)據(jù)進(jìn)行參數(shù)擬合,確定了新疆縣市級(jí)城市的人均城市道路面積可以利用反向帕累托分布擬合,并結(jié)合最終數(shù)據(jù)給出了相應(yīng)的數(shù)據(jù)分析。
新疆師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年1期