李澤安, 趙為華
(1.南通大學 計算機學院,江蘇 南通 226019;2.南通大學 理學院,江蘇 南通 226019)
比例數(shù)據(jù)的擬似然推斷及其應用
李澤安1, 趙為華2
(1.南通大學 計算機學院,江蘇 南通 226019;2.南通大學 理學院,江蘇 南通 226019)
本文基于擬似然方法研究比例數(shù)據(jù)的統(tǒng)計推斷及其在計量經(jīng)濟分析中的應用問題.擬似然估計不需要響應變量確切的分布假定,只需要一階條件矩假設.與已有方法相比,本文提出的擬似然估計不僅具有穩(wěn)健性而且具有很好的適應性. 最后,通過家庭食物消費數(shù)據(jù)分析充分說明了所提方法的有用性.
擬似然;比例數(shù)據(jù);統(tǒng)計推斷;食物消費
回歸建模常用來揭示響應變量與一組協(xié)變量之間的相關關系,并根據(jù)得到的回歸模型進行相應的統(tǒng)計推斷,進而作出若干合理的預測分析,為決策者提供智力支持和決策依據(jù).在實踐中,我們經(jīng)常碰到響應變量的取值在有限的區(qū)間[a,b]上.由于此類數(shù)據(jù)取值具有有界性特征,直接利用線性回歸模型進行擬合分析往往是失效的,主要原因在于擬合值會超出區(qū)間的上下界. 另外,區(qū)間數(shù)據(jù)常常呈現(xiàn)出異方差性,使用基于同方差假定的最小二乘方法進行估計時會產(chǎn)生許多問題,且推斷和預測的效果較差.再者,區(qū)間數(shù)據(jù)經(jīng)常具有不對稱性、多峰性等特點,此時基于對稱誤差分布的推斷方法存在很大問題.
當因變量取值在開區(qū)間(0,1)時,亦稱為連續(xù)型比例數(shù)據(jù),已有一些文獻對此展開過研究,如Peter和Tan(2000)[2]基于單純形分布研究了連續(xù)比例數(shù)據(jù)的回歸系數(shù)的估計及其推斷問題;Ferrari和Cribari(2004)[3]通過對Beta分布進行參數(shù)變換,提出了Beta回歸模型并借鑒廣義線性模型的理論和方法研究了系數(shù)的估計及其統(tǒng)計診斷問題;李澤安等(2009)[4]應用Beta回歸模型研究數(shù)據(jù)挖掘問題;Zhao等(2014)[5]基于懲罰函數(shù)方法研究了Beta回歸模型中重要變量的選擇問題.然而,以上文獻都是基于單純形模型或Beta回歸模型進行估計方析,本質(zhì)上是基于參數(shù)回歸模型的似然估計方法進行統(tǒng)計推斷.眾所周知,當參數(shù)回歸模型假定正確時,參數(shù)的估計和推斷效率較高,而一旦模型假定錯誤時,估計的準確性和統(tǒng)計推斷效率將大打折扣,甚至會出現(xiàn)錯誤結(jié)論.另一方面,當因變量取值在閉區(qū)間[0,1]時,或半開半閉區(qū)間[0,1)、(0,1]時,此時亦稱為半連續(xù)型比例數(shù)據(jù),前面提到的Beta回歸模型或單純型回歸模型都無法適用.為避免上述似然估計方法的弱點,本文基于擬似然方法研究比例數(shù)據(jù)的回歸建模問題.本文所提方法不需要對響應變量的分布作出任何假定,只需要響應變量的一階條件矩的假定,并通過柯西分布的逆分布函數(shù)連接條件均值與自變量的回歸結(jié)構(gòu),其最大優(yōu)點是所得的估計具有很好的穩(wěn)健性.同時,本文提出的方法既能擬合連續(xù)型比例數(shù)據(jù)也能擬合半連續(xù)型比例數(shù)據(jù),因而具有很好的自適應性.
假設(xi,yi)(i=1,…,n)是一組獨立樣本,其中xi=(xi1,…,xip)T∈Rp.假定響應變量的條件均值E(yi)=μi,i=1,…,n.
由于0≤yi≤1,因此0<μi<1.為建立條件均值與自變量之間回歸關系,我們假設有一個單調(diào)遞增函數(shù)G(·):(-∞,+∞)→(0,1)使得
(1)
其中β=(β1,…,βp)T是p維回歸系數(shù). 如果假定自變量中的第一個分量xi1≡1,則模型(1)中包含了常數(shù)項.
由于比例響應數(shù)據(jù)的條件均值形式上具有Bernouli變量的期望相同的形式,我們借鑒Bernouli似然函數(shù),提出比例數(shù)據(jù)的對數(shù)擬似然函數(shù)為
(2)
圖1 三種不同分布的連接函數(shù)圖形
(3)
(4)
(5)
圖2 響應變量的直方圖及其密度曲線估計
本節(jié)將擬似然估計方法應用到家庭食物消費數(shù)據(jù)(householdfoodexpendituredata) 分析中.家庭食物消費數(shù)據(jù)來自于計量經(jīng)濟學文獻Griffiths等(1993)[7],研究者是從美國的某個大城市中隨機調(diào)查38個家庭而得到的,統(tǒng)計學家或計量經(jīng)濟學家希望了解食物消費占家庭總收入支出比例情況,進而研究家庭的收入、家庭的人數(shù)與食物消費支出之間的動態(tài)相關關系. 該數(shù)據(jù)中含有兩個自變量和分別表示某個該家庭的收入水平和該家庭成員的人數(shù),響應變量是該家庭食物消費支出占整個家庭收入的比例,其直方圖和核密度函數(shù)曲線估計見圖2.
Ferrari[3]等(2004)曾利用Beta回歸模型對此數(shù)據(jù)進行過擬合,這里我們使用擬似然方法再次研究該數(shù)據(jù),即
G-1(μi)=β1+xi1β2+xi2β3,
i=1,…,38.
兩種方法下的系數(shù)估計及其95%置信區(qū)間估計見表1.
表1 食物消費數(shù)據(jù)的回歸系數(shù)估計
圖3 收入水平與食物支出比例的散點圖(不同顏色的散點代表家庭的不同人數(shù))及其兩種估計方法下的擬合曲線(在固定平均家庭人數(shù)).
從表1可以看出,兩種方法下得到系數(shù)估計值具有相同的符號,且每一個變量在顯著性水平0.01下是高度顯著的.系數(shù)β2的估計符號都是負的,而系數(shù)β3的估計符號是正的,說明隨著家庭人口的增加,整個家庭的食物支出比例在上升;同時,隨著家庭總收入的增加,整個家庭的食物支出比例在不斷下降.另一方面,在某個家庭中家庭人口固定的情形下,家庭收入越少,家庭收入中用來購買食物的費用所占的比例就越多,隨著家庭收入的增加,家庭收入中用來購買食物的支出則會下降(參見圖2),這完全符合實際情況,即計量經(jīng)濟學中的恩格爾定律.
從表2和圖3不難看出,無論MSE、MAD值的大小,還是擬合曲線與散點圖的匹配程度,本文建議的擬似然估計方法明顯地要比Beta回歸來的好.這一點也可以從圖 2中響應變量的直方圖及其密度
表2 食物消費數(shù)據(jù)擬合的MSE和MAD
曲線估計看出,數(shù)據(jù)具有雙峰性和厚尾性特征,很難使用Beta分布或其他參數(shù)分布進行較好地擬合.
為比較兩種方法下的預測效果,下面我們使用交叉驗證方法(cross-validation)計算預測偏差的絕對平均值(FAD)
顯然,本文提出的擬似然方法不僅在擬合偏差方面優(yōu)于Beta回歸,在預測能力方面也優(yōu)于Beta回歸.
表3 食物消費數(shù)據(jù)預測偏差FAD
本文提出了使用擬似然方法研究比例數(shù)據(jù)的回歸建模、估計、統(tǒng)計推斷及其在計量分析中的應用問題.我們的方法既適用于連續(xù)型比例數(shù)據(jù),也適用于半連續(xù)型比例數(shù)據(jù).通過詳細的實例分析,并與已有方法比較,充分說明了本文提出的比例響應數(shù)據(jù)擬似然方法的穩(wěn)健性和自適應性.進一步的研究興趣將討論比例響應數(shù)據(jù)擬似然非參數(shù)、半?yún)?shù)建模方法及其理論分析和實際應用.
[1] KIESCHNICK R, McCullough, B. Regression analysis of variates observed on (0,1): percentages, proportions and fractions[J]. Statistical Modelling, 3:193-213,2003.
[2] PETER S, TAN M. Marginal models for longitudinal continuous proportional data[J]. Biometrics, 2000,56:496-502.
[3] FERRARI S, Cribari-Neto, F. Beta regression for modelling rates and proportions[J]. Journal of Applied Statistics, 2004,31:799-815.
[4] 李澤安,葛建芳,章亞娟.Beta回歸模型在數(shù)據(jù)挖掘預測中的應用[J].南通大學學報,2009,8(3):83-85.
[5] ZHAO W, ZHANG R, LV Y, LIU J. Variable selection for varying dispersion beta regression model[J]. Journal of Applied Statistics, 2014,41:95-108.
[6] McCullagh P, NELDER J. Generalized Linear Models [M]. 2nd ed. London:Chapman and Hall, 1989.
[7] GRIFFITHS W, HILL R, JUDGE G. Learning and Practicing Econometrics[M]. New York: Wiley, 1993.
Quasi-Likelihood Estimation and Its Application for Proportional Data
LI Ze-an1, ZHAO Wei-hua2
(1. School of Computer, NanTong University, Nantong 226019, China;2. School of Science, Nantong University, Nantong 226019, China)
In this paper, we proposed the quasi-likelihood method to analyze the proportional data and its application in econometric modelling. Our proposed method does not need the distribution assumption for response variable, and only need the first order conditional moment assumption. Compared with existing method, the newly proposed estimation approach has both robustness and good adaptability in real data analysis. Finally, household food expenditure data analysis is used to illustrate the usefulness of the new approach.
quasi-likelihood; proportional data; statistical inference; food expenditure
10.14182/J.cnki.1001-2443.2016.06.004
2015-12-10
國家自然科學基金項目(11571112);教育部人文社科青年基金項目(14YJC910007).
李澤安(1977-),女,江蘇南通人,講師,主要從事數(shù)據(jù)挖掘方面的研究.
李澤安,趙為華.比例數(shù)據(jù)的擬似然推斷及其應用[J].安徽師范大學學報:自然科學版,2016,39(6):526-529.
C81,O212
文章編號:1001-2443(2016)06-0526-04