張丹娜,韓岳峰,龐天曉
(浙江大學(xué) 數(shù)學(xué)系,杭州 310058)
回歸分析是研究一個(gè)或多個(gè)隨機(jī)變量與另一些變量之間關(guān)系的統(tǒng)計(jì)方法。在過(guò)去100多年的發(fā)展中,傳統(tǒng)的回歸分析通過(guò)估計(jì)連續(xù)函數(shù)來(lái)表示這種自變量和因變量的因果關(guān)系。然而,現(xiàn)實(shí)中有很多經(jīng)濟(jì)模型,用連續(xù)函數(shù)進(jìn)行估計(jì)誤差較大,經(jīng)濟(jì)意義也不明確。如實(shí)際問題中有很多不確定的因素,使得某個(gè)變量的值不是連續(xù)變化而是突然跳變的。最典型的例子就是房地產(chǎn)價(jià)格的走勢(shì),如果在較長(zhǎng)時(shí)間內(nèi)房?jī)r(jià)持續(xù)攀升,國(guó)家會(huì)出臺(tái)一系列相關(guān)的房產(chǎn)政策抑制房?jī)r(jià)過(guò)快增長(zhǎng),假使政策有效,房?jī)r(jià)的增長(zhǎng)速度必然會(huì)在短時(shí)間內(nèi)發(fā)生跳變,所以傳統(tǒng)的回歸模型顯然不能滿足需要。
Qiu Peihua[1]在1991年第一次提出了跳回歸分析(Jump Regression Analysis)的方法,用以估計(jì)帶噪聲的不連續(xù)曲線和表面。直到現(xiàn)在,國(guó)內(nèi)對(duì)跳回歸的理論和應(yīng)用分析文獻(xiàn)比較缺乏。張亮等[2]采用跳回歸分析對(duì)CT圖像進(jìn)行預(yù)處理,抑制了肺區(qū)中支氣管、血管以及肺部紋理,保留了肺以及腫瘤的邊界,有利于對(duì)肺區(qū)和腫瘤的分割。阮正旺等[3]基于跳回歸分析去除由攝像系統(tǒng)的物理缺陷或傳輸中的解碼錯(cuò)誤而生成的椒鹽噪聲,并且通過(guò)跳變檢測(cè)很好地保持邊緣。上述兩文都是二維的跳回歸模型在圖像處理中的應(yīng)用,主要體現(xiàn)了其去噪保邊的良好性質(zhì)。目前尚未有國(guó)內(nèi)學(xué)者把一維跳回歸模型應(yīng)用于實(shí)體經(jīng)濟(jì)的分析中,本文首次將跳回歸模型應(yīng)用于房?jī)r(jià)走勢(shì)分析,利用實(shí)例闡述跳點(diǎn)檢測(cè)對(duì)于解釋房?jī)r(jià)走勢(shì)跳變的意義。
設(shè){(xi,yi)i=1,2,…,n}是n個(gè)觀測(cè)點(diǎn),滿足假設(shè):
yi=f(xi)+εi,εi,i.i.d~N(0,σ2)(i=1,2,…,n)
其中自變量xi等間距地分布在區(qū)間[0,1]中。假設(shè)回歸函數(shù)f的前(m-1)階導(dǎo)數(shù)在定義域中是連續(xù)的,而f的第m階導(dǎo)數(shù)是有跳躍的。
Qiu[4]提出f的第m階導(dǎo)數(shù)有如下模型:
其中g(shù)(x)是連續(xù)函數(shù),p是f(m)的跳躍點(diǎn)個(gè)數(shù),{sj,j=1,2,…,p}是跳躍點(diǎn)位置,而{dj,j=1,2,…,p}是各跳躍點(diǎn)跳的幅度。
一般地,對(duì)于經(jīng)濟(jì)模型,以我們要分析的房?jī)r(jià)走勢(shì)為例,以時(shí)間為自變量,房?jī)r(jià)為因變量建立數(shù)學(xué)模型為
yi=f(xi)+εi,εi,i.i.d~N(0,σ2)(i=1,2,…,n)
由于某時(shí)刻的房?jī)r(jià)是在前一段時(shí)間的基礎(chǔ)上進(jìn)行增減,所以房?jī)r(jià)總是呈現(xiàn)一種相對(duì)連續(xù)的狀態(tài),但在一些外部因素如市場(chǎng)刺激、國(guó)家政策等的影響下,房?jī)r(jià)增減的速度有所變化,甚至是突變,所以我們可認(rèn)為房?jī)r(jià)的增長(zhǎng)率即其一階導(dǎo)f'是有跳躍點(diǎn)的,而原函數(shù)f是連續(xù)的,故取m=1。
對(duì)于模型(1),我們不必估計(jì)g(x)和{dj,j=1,2,…,p},事實(shí)上,它們的估計(jì)并不容易,估計(jì)房?jī)r(jià)走勢(shì)的跳點(diǎn){sj,j=1,2,…,p}才是必要步驟。影響房?jī)r(jià)走勢(shì)的因素有很多,但不外乎兩類:一是國(guó)家經(jīng)濟(jì)的宏觀調(diào)控,即政策層面;二是購(gòu)房者的消費(fèi)刺激,即市場(chǎng)層面。假設(shè)我們已檢測(cè)出各個(gè)跳變的時(shí)刻{sj,j=1,2,…,p},那么我們的分析依據(jù)如下:如果在跳點(diǎn)時(shí)刻(或附近)實(shí)行了房產(chǎn)政策,且該政策的預(yù)期效果與跳變的方向(可從dj的正負(fù)號(hào)判斷出)價(jià)走勢(shì)在該處的突變是由房產(chǎn)政策引起的,反之則認(rèn)為是市場(chǎng)誘導(dǎo)的結(jié)果。而研究連續(xù)函數(shù)g(x)對(duì)解釋房?jī)r(jià)走勢(shì)的跳變沒有任何意義。由此,我們只需估計(jì)跳點(diǎn){sj,j=1,2,…,p}和判斷跳變方向即{dj,j=1,2,…,p}的正負(fù)。
Qiu和Yandell[5]提出了一種基于多項(xiàng)式估計(jì)的跳點(diǎn)檢測(cè)方法。
對(duì)每個(gè)給定的xi,?+1≤i≤n-?,?≤n是一個(gè)取定的正整數(shù),考慮鄰域N(xi)={xi-?,xi-?+1,…xi,…,xi+?-1[,xi+?}],寬k=2?+1。在這個(gè)鄰域中,用最小二乘估計(jì)擬合m+1階局部多項(xiàng)式估計(jì)出的回歸系數(shù)的跳躍點(diǎn)是很敏感的,可用來(lái)檢測(cè)f(m)的跳躍點(diǎn)。事實(shí)上,對(duì)于一個(gè)給定的xj,如果在鄰域N(xj)中沒有跳躍點(diǎn)且在N(xj)中存在時(shí),那么應(yīng)該和很接近。反之,如果xj是f(m)的一個(gè)跳躍點(diǎn),那么+1.…n- ?}會(huì)在有一個(gè)明顯的突變。所以我們可以用對(duì)跳點(diǎn)進(jìn)行檢測(cè)。
在房?jī)r(jià)走勢(shì)分析中,取m+1,故用最小二乘估計(jì)擬合的局部多項(xiàng)式為:
Qiu和Yandell[5]定義了如下用于跳點(diǎn)檢測(cè)的變量:
由Δ(i)的定義得
所以取ui=U1-a/2.σ(i),U1-a/2是標(biāo)準(zhǔn)正態(tài)分布的1-a/2下分位數(shù),即可保證是顯著性水平。
下面推導(dǎo)σ(i)的具體表達(dá)式。由于σ是未知的,所以我們用σ的估計(jì)值來(lái)代替,即:
當(dāng)xij等間距地分布在區(qū)間[0,1]中,可設(shè)…,n,如果有整數(shù)r1和r2使得:
則被標(biāo)記的跳躍點(diǎn){xij,j=r1,r1+1,…,r2}構(gòu)成一個(gè)帶,如果出現(xiàn)這種情況,Qiu[4]提出生成一個(gè)新的跳躍點(diǎn)代替這些點(diǎn)。為了避免該產(chǎn)生的跳躍點(diǎn)不在自變量的坐標(biāo)點(diǎn)上,也為了選出跳躍最顯著的點(diǎn),則改為:
代替這些點(diǎn),以上便是調(diào)整過(guò)程。由此確定最后的跳躍點(diǎn)為{sj,j=1,2,…,p}。
綜上所述,基于多項(xiàng)式估計(jì)的跳點(diǎn)檢測(cè)步驟如下:
(1)對(duì)于任一給定的點(diǎn)xi,?+1≤i≤n-?,在鄰域N(xi)中擬合局部多項(xiàng)式
(3)用ui=U1-a/2.σ(i)計(jì)算ui
(4)如果|Δ(ij)|>uij,則把 {xij,j=1,2,…,n1}標(biāo)記為跳躍點(diǎn)
(5)用調(diào)整過(guò)程確定最終的跳躍點(diǎn){sj,j=1,2,…,p}
為了更好地說(shuō)明跳回歸模型及其跳點(diǎn)檢測(cè)在房?jī)r(jià)走勢(shì)分析中的應(yīng)用,鑒于杭州市的房地產(chǎn)價(jià)格波動(dòng)狀況以及杭州市政府所施行的房產(chǎn)政策在全國(guó)具有高度的代表性和典范性,筆者選擇了杭州市2008~2010年的二手房均價(jià)(周房?jī)r(jià))走勢(shì)作為實(shí)際例子,房?jī)r(jià)走勢(shì)圖如圖1,本文的數(shù)據(jù)來(lái)源于房?jī)r(jià)網(wǎng)(http://www.fangjia.com/)杭州站,部分?jǐn)?shù)據(jù)見表1。
表1 2008~2010年二手房均價(jià)表
圖1
圖2
運(yùn)用Matlab數(shù)學(xué)軟件,具體運(yùn)算時(shí)將房?jī)r(jià)數(shù)值縮小1000倍。由于用次數(shù)越高的多項(xiàng)式擬合同一曲線,誤差平方和越小,在此例中,用8次的多項(xiàng)式和9次的多項(xiàng)式做最小二乘估計(jì)得到的誤差平方和相同。故用擬合的8次多項(xiàng)式估計(jì)標(biāo)準(zhǔn)差σ。取?=4,顯著性水平a=0.05,可得到0.4048,U1-a/2=1.96。
對(duì)i=9,10,…,147,ui=1.8604×103,Δ(i)的趨勢(shì)圖如圖2,被標(biāo)記的跳躍點(diǎn)為{x96,x115,x116,x117,x120,x122,x136}
經(jīng)過(guò)調(diào)整過(guò)程,最終的跳躍點(diǎn)為{x96,x116,x121,x136}(在圖1中用實(shí)心點(diǎn)標(biāo)記),分別對(duì)應(yīng)日期:2009年11月8日,2010年3月28日,2010年5月2日,2010年8月15日,即房?jī)r(jià)增長(zhǎng)率有突變的日期。
由以上的跳點(diǎn)檢測(cè),并結(jié)合2008~2010年房地產(chǎn)市場(chǎng)在政策和市場(chǎng)層面的變動(dòng),我們可對(duì)3年間的杭州市房?jī)r(jià)走勢(shì)作如下分析。
從2008開始,如何應(yīng)對(duì)金融危機(jī)帶來(lái)的挑戰(zhàn)成為政府的當(dāng)務(wù)之急,受益于寬松的貨幣信貸環(huán)境和房地產(chǎn)優(yōu)惠政策,杭州房地產(chǎn)市場(chǎng)逐漸從次貸危機(jī)的打擊中恢復(fù)過(guò)來(lái),整體呈現(xiàn)繁榮的景象,市場(chǎng)回暖持續(xù)穩(wěn)定。2009年以來(lái),房?jī)r(jià)居高不下,一直保持有蓄勢(shì)再發(fā)之勢(shì)。11月初,國(guó)土資源部印發(fā)了《限制用地項(xiàng)目目錄(2006年本增補(bǔ)本)》和《禁止用地項(xiàng)目目錄(2006年本增補(bǔ)本)》,其中針對(duì)商品住宅用地的宗地出讓面積首次給出明確的上限,業(yè)內(nèi)人士分析此舉是為了遏制09年以來(lái)“地王”頻出的現(xiàn)象,遏制房?jī)r(jià)增長(zhǎng)過(guò)快。再加之銀10月過(guò)后的11月,年終歲末,時(shí)值傳統(tǒng)的購(gòu)房淡季,房?jī)r(jià)會(huì)呈現(xiàn)驟減的姿態(tài)。而用跳回歸模型檢測(cè)到的2009年11月8日處的跳躍點(diǎn)(dj為負(fù))正說(shuō)明了政策宏觀調(diào)控和市場(chǎng)自發(fā)調(diào)節(jié)的有效性。
2009年底,政府出臺(tái)一系列調(diào)控政策,遏制投機(jī)炒作和房?jī)r(jià)過(guò)快上漲。2010初這些政策的效果更加顯現(xiàn),1—2月,樓市出現(xiàn)了交易量萎縮,房?jī)r(jià)上漲趨緩的趨勢(shì)。但進(jìn)入3月份,房地產(chǎn)市場(chǎng)發(fā)生變化,尤其是3月下旬,杭州的土地拍賣價(jià)格不斷刷新,樓市反彈(對(duì)應(yīng)于2010年3月28日的跳躍點(diǎn)),出現(xiàn)銷售火爆、房?jī)r(jià)快速上漲的現(xiàn)象。究其原因,是樓市在經(jīng)歷冰冷時(shí)期過(guò)后,在以投資為主導(dǎo)的市場(chǎng)刺激的結(jié)果。購(gòu)房者打破了之前的觀望態(tài)度,促使杭州樓市出現(xiàn)急速回暖。
為應(yīng)對(duì)4月份以后樓市更加火爆和房?jī)r(jià)攀升異??焖俚膱?chǎng)面,4月份中下旬國(guó)家再次出臺(tái)了一系列嚴(yán)厲的政策。國(guó)務(wù)院在5天之內(nèi)連續(xù)出臺(tái)三大新政:4月15日國(guó)務(wù)院發(fā)文,購(gòu)買第二套住房的家庭首付款比例不低于50%、貸款利率不低于基準(zhǔn)利率1.1倍;4月17日,國(guó)務(wù)院對(duì)三套房貸提出具體要求:在商品住房?jī)r(jià)格過(guò)高、上漲過(guò)快、供應(yīng)緊張的地區(qū),商業(yè)銀行可根據(jù)風(fēng)險(xiǎn)狀況,暫停發(fā)放購(gòu)買第三套及以上住房貸款;4月19日建設(shè)部發(fā)“53號(hào)令”:未取得預(yù)售證的商品房,不得進(jìn)行任何形式的預(yù)銷售,取得預(yù)售證的項(xiàng)目,要在10日內(nèi)—次性公開全部準(zhǔn)售房源及每套房屋價(jià)格,明碼標(biāo)價(jià)對(duì)外銷售。而2010年5月初的跳躍點(diǎn)(dj為負(fù))便很好地體現(xiàn)了這一系列政策的調(diào)控效果。
此后的3個(gè)月時(shí)間里,房?jī)r(jià)走勢(shì)受新政影響持續(xù)下降,直到7月底8月初,樓市才初顯回溫,一是由于距4月的政策發(fā)布已滿百日,政策時(shí)效已不顯然;二是第3季度是購(gòu)房熱季,市場(chǎng)消費(fèi)本身較為火熱。7、8兩月中央無(wú)任何政策調(diào)控,所以房?jī)r(jià)在2010年8月15日的跳躍可解釋為市場(chǎng)調(diào)節(jié)的結(jié)果。此后,房?jī)r(jià)走勢(shì)的突變已逐漸不明顯,不再有其他跳點(diǎn)。
盡管目前跳回歸模型和基于多項(xiàng)式估計(jì)的跳點(diǎn)檢測(cè)方法被應(yīng)用于實(shí)際建模的情況還較少,但從上述的分析足可見其在分析房?jī)r(jià)走勢(shì)問題的優(yōu)勢(shì)。首先,從經(jīng)濟(jì)意義上,通過(guò)跳點(diǎn)檢測(cè),可以以跳點(diǎn)為界把時(shí)間軸分成幾段,分別討論每段的房?jī)r(jià)走勢(shì)變化,跳點(diǎn)處單獨(dú)分析其成因,意義清晰明確。其次,從檢測(cè)的準(zhǔn)確性上,基于多項(xiàng)式的跳點(diǎn)檢測(cè)方法誤差很小,從實(shí)例中,我們也可看出,檢測(cè)到的跳點(diǎn)與房產(chǎn)政策出臺(tái)后理論上預(yù)測(cè)的房?jī)r(jià)走勢(shì)跳變偏差很小,幾乎是在同樣的時(shí)刻。另外,這種方法在實(shí)際應(yīng)用中很具有操作性,不必求出房?jī)r(jià)的增長(zhǎng)率即一階導(dǎo)數(shù)值而只在房?jī)r(jià)原始數(shù)據(jù)的基礎(chǔ)上便可分析房?jī)r(jià)增長(zhǎng)的快慢變化,事實(shí)上,要找一種數(shù)學(xué)方法擬合出精確的導(dǎo)數(shù)值并保持其原本的間斷性并不容易。而從統(tǒng)計(jì)意義上來(lái)看,跳點(diǎn)的檢測(cè)問題最終轉(zhuǎn)化成為假設(shè)檢驗(yàn)問題,判斷跳變與否的準(zhǔn)則的嚴(yán)格性取決于分析者選取的顯著性水平,具有很大的靈活性。
[1]Qiu Peihua.Estimation of a Kind of Jump Regression Functions[J].Systems Science and Mathematical Sciences,1991,4(1).
[2]張亮,張建州.基于統(tǒng)計(jì)跳變回歸分析的肺部CT圖像分割[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(12).
[3]阮正旺,張建州,張亮.清除椒鹽噪聲的局部L1去噪保邊方法[J].中國(guó)圖象圖形學(xué)報(bào),2010,15(6).
[4]Qiu Peihua.Image Processing and Jump Regression Analysis[M].New-jersey:John Wiley and Sons,2005.
[5]Qiu Peihua,Yandell B.A Local Polynomial Jump Detection Algo?rithm in Nonparametric Regression[J].Technometrics,1998,40(2).