張若天
(濟寧孔子國際學校,山東濟寧,272000)
過去的十年里,我國經(jīng)濟蓬勃發(fā)展,房價也隨之飛速提高,讓大量的投資者從中攫取利益,也讓無數(shù)人成為“房奴”,幾乎人人都開始關注房價的波動走勢,力圖對房價做出科學有效的預測。因為房價的變動原因在經(jīng)濟學上仍有很大的爭議,所以,預測也成為領域炙手可熱的問題。
縱觀全局,從2007年至2017年,各地房價都有了長足的提高,尤其是上海、浙江、江蘇為首的東南沿海地區(qū)和以北京、天津為首的華北地區(qū)。
由于房價與國計民生休戚相關,房價預測無論是在經(jīng)濟學、數(shù)學還是計算機科學都成為了熱門也同樣十分困難的問題,因為其中涉及了許多隨機影響因素,而且影響因素多元,無法通過簡單的統(tǒng)計學模型進行預測。目前,學界對房價預測有了多種方法,如多元回歸線性模型、灰色理論預測模型、馬爾科夫預測模型、遺傳算法和神經(jīng)網(wǎng)絡等等模型。
多元線性回歸模型是一種常用的多元統(tǒng)計方法,原理明確,結(jié)構(gòu)簡單,在房價預測方面被十分廣泛地運用,可是效果卻不盡人意,常常在使用的過程當中出現(xiàn)各種各樣的問題,而且近期一些“先進”的方法并不能從根本上解決這個問題,反而引入了額外的解釋復雜性,多元線性回歸模型的改進亟待解決。
本文瞄準中國樓市,基于多元線性回歸模型,提出了自己的改進辦法,本方法并未拋棄多元線性回歸模型,而是從模型結(jié)果和因變量處理上提出了自己的看法,通過與其他的一些方法相結(jié)合,使組合模型的結(jié)果與實際情況更加吻合,更能使人信服,為人們提供更加優(yōu)質(zhì)的預測方法,必免一些不必要的麻煩。經(jīng)過檢驗,本文提供的方法,可以在一定程度上提高房價預測的穩(wěn)定性和準確性,使其更加實用。
1.1.1 術語介紹
回歸分析:一種統(tǒng)計學上分析數(shù)據(jù)的方法,目的在于了解兩個或者多個變量之間是否相關、相關方向與強度,并建立數(shù)學模型以便于觀察特定變量預測研究者感興趣的變量。
1.1.2 模型引入
多元線性回歸模型形式如下:
其中 β0,, β1…βm-1為待估參數(shù),ε為誤差,服從標準正態(tài)分布,對于待估參數(shù)的確定,有以下求解方法:
1.1.3 缺點論述
顯然,多元線性回歸模型有著難以避免的缺點。
第一,運用多元線性回歸模型時,需要涉及大量的矩陣公式計算,因此,多元線性回歸模型本身就具有計算量大和不易編程的特點,對人們的研究造成了極大的困擾,常常在一些不必要的地方進行不必要的計算,大大降低了模型的預測效率。
第二,多元線性回歸模型極易受個別異常數(shù)據(jù)的影響,常常會在存在異常數(shù)據(jù)的情況中出現(xiàn)模型不符合其實際意義的問題,造成其自變量與因變量之間出現(xiàn)不合理的關系系數(shù)。如,符號相反,數(shù)值過大或過小,這時就需要更加穩(wěn)健的回歸方法對其進行優(yōu)化和修改。
第三,多元線性回歸模型計算過程中對最小二乘法有著極大的依賴性,但是,最小二乘估計中也有著一定的缺陷。其平方運算會使估計值與實際值之間產(chǎn)生一定的誤差,若計算較為復雜的話,誤差就會越積越大,嚴重脫離實際。
第四,多元回歸線性模型不能實現(xiàn)跟蹤響應變量變化,其估計值只能對一段時間內(nèi)的結(jié)果產(chǎn)生較好的分析,如果是長期分析,就會顯得有些捉襟見肘。
接下來,本文將提出一些改進這些問題的方法。
1.2.1 主流改進方法
為了改進樸素多元線性回歸的若干缺點,目前有一些比較成熟的改進方法,如嶺回歸、穩(wěn)健回歸、主成分回歸等,這些方法的復雜度都比較高,還可以使用偏最小二乘估計代替最小二乘估計進行待估參數(shù)的計算。要規(guī)避多元共線性,可以使用刪減變量或者引入附加方程的房價進行處理。
1.2.2 基于灰色預測的多元線性回歸模型
灰色預測是一種對含有不確定因素的系統(tǒng)進行預測的方法?;疑A測通過對各個變量進行關聯(lián)分析,并對原始數(shù)據(jù)進行生成處理來尋找整個系統(tǒng)的變化規(guī)律,生成具有強烈規(guī)律性的數(shù)據(jù)數(shù)列,然后通過對預測的數(shù)據(jù)建立方程,從而得到其他關聯(lián)數(shù)據(jù)的變化情況,來預測未來某一特定時間的某數(shù)據(jù)。灰色關聯(lián)理論是鄧教授創(chuàng)立的。其對少數(shù)據(jù)、貧信息不確定性問題的研究作出了重要的貢獻。
(1)GM(1,1)模型
GM(1,1)模型有一個單變量的一階微分方程構(gòu)成。它主要用于復雜系統(tǒng)某一主導因素特征值擬合和預測,以揭示主導因素變化規(guī)律和未來發(fā)展變化趨勢。
GM(1,1)模型不僅有連續(xù)的形式,還具有離散形式,而兩者之間有著一定的聯(lián)系。從其中的聯(lián)系入手,便可得到離散GM(1,1)模型。
(2)灰色組合預測
與回歸分析一樣,灰色組合預測模型也是通過各個因素之間的關系而建立的預測模型,他將根據(jù)自變量與因變量所占的比重來建立模型。
其使用方法大致如下:得到各組序列后,通過灰色分析得出關聯(lián)度系數(shù)序列,再得出自身的預測值。通過加權計算,得到一個最合理的權重,再對因變量序列中的預測值進行分析,基于灰色關聯(lián)系數(shù)建立因變量預測值的回歸模型,從而得到計算后位置元素的預測值。
運用灰色組合模型可以使預測值與自變量聯(lián)系更加緊密,擬合度更高,從而參考價值更高,與其他更先進的回歸模型得到的結(jié)果十分相近。
(3)灰色預測運用到多元線性回歸
上文對灰色預測模型相關內(nèi)容進行了介紹,易知,灰色預測模型具有能夠跟蹤響應變量動態(tài)變化、能夠避免少量異常數(shù)據(jù)對預測值的影響,并且建模難度小的優(yōu)點。因此,將其與多元線性回歸模型相結(jié)合,可以對其缺點進行極大的彌補。
(4)應用方法
假設因變量y受到p個自變量的影響,現(xiàn)在有n組已知數(shù)據(jù)。首先,先計算灰色關聯(lián)度,以確定影響因變量的主要因素,再將其按照灰色關聯(lián)度排序,從而得到m個主要因素。然后在對數(shù)據(jù)進行分析,建立多元線性回歸模型
便得到了一個以(m個系數(shù))為總體回歸參數(shù),且(m個誤差)服從均值為0,方差為σ2的序列通過代入公式計算,得到各個回歸參數(shù)的估計值。然后在用過灰色組合模型進行對自變量的預測,得到m個預測值,代入,便可得到灰色組合多元回歸模型
然后再對其進行擬合度計算,檢驗模型的準確度,做最后的調(diào)整,最終得出想要的預測值。
數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號。
數(shù)據(jù)雖然是抽象概念,但是,它也具有規(guī)模和屬性。通俗來講,數(shù)據(jù)規(guī)模就是數(shù)據(jù)的多少,數(shù)據(jù)越多,規(guī)模就越大,現(xiàn)在所說的大數(shù)據(jù)就是規(guī)模極大的數(shù)據(jù);數(shù)據(jù)屬性就是數(shù)據(jù)所具有的性質(zhì),數(shù)據(jù)具有的性質(zhì)越多,我們稱其屬性越多,或維度越大,人們常說的數(shù)據(jù)降維處理就是盡可能地減少數(shù)據(jù)的無關屬性,以達到篩選的目的。
同樣,數(shù)據(jù)也有用來描述自己的單位,這個人們就接觸的比較多。數(shù)據(jù)的單位常常被稱作數(shù)據(jù)的寬度,日常生活中的網(wǎng)絡速度、下載速度、存儲空間等等都應用到了數(shù)據(jù)的單位方面的內(nèi)容。
數(shù)據(jù)預處理的主要方法就是數(shù)據(jù)清洗和數(shù)據(jù)歸約。
數(shù)據(jù)清洗主要包括對數(shù)據(jù)集進行異常檢測、識別并消除數(shù)據(jù)集中近似重復對象、對缺失數(shù)據(jù)進行清洗。數(shù)據(jù)集的異常檢測主要就是消除少數(shù)異常數(shù)據(jù)對總體的影響,常常運用均值和標準差進行檢測;重復記錄的清洗主要就是篩掉重復的數(shù)據(jù),使數(shù)據(jù)集更加精簡,減少不必要的數(shù)據(jù)分析;對缺失數(shù)據(jù)的清洗與灰色預測模型有些相似,旨在對缺失數(shù)據(jù)進行預測,其中涉及了許多高級的理論方法,這里就不再一一描述。
數(shù)據(jù)歸約主要包括高維數(shù)據(jù)的降維處理和離散化技術減少給定連續(xù)屬性值的個數(shù)。高維數(shù)據(jù)降維處理其本質(zhì)就是刪除數(shù)據(jù)的冗余屬性,避免其對預測過程造成影響,簡化對數(shù)據(jù)分析的過程;而離散化技術減少給定連續(xù)屬性值的個數(shù)這種方法大多數(shù)是遞歸進行的,看似花費了大量的時間,其實卻節(jié)省了后面步驟的時間。
對于房價數(shù)據(jù)而言,每一個數(shù)據(jù)維度都是具有現(xiàn)實意義的,因此如果想要降低數(shù)據(jù)維度,不能直接使用PCA、SVD等降維方法來降低數(shù)據(jù)復雜性,而是應該使用特征子集選擇、特征創(chuàng)建方法。在處理某些特殊屬性時,如“是否是學區(qū)房”、“是否有重大國家政策”等屬性時,應該將原有數(shù)據(jù)處理成離散形式,如1代表“是”,0代表“否”等。在降低數(shù)據(jù)的復雜度之后,還應該使用簡單的變量變換,對各個維度的數(shù)據(jù)進行規(guī)范化以消弭不同維度之間的數(shù)量級差別。在進行萬以上處理之后,房價數(shù)據(jù)已經(jīng)可以應用到我們的模型中。
本文的改進不僅保留了多元線性回歸模型結(jié)構(gòu)簡單、原理明確的優(yōu)點,而且避免了多元線性回歸模型的各種缺點,使多元線性回歸模型的應用更加廣泛。同時,本文提出的模型還汲取了灰色預測模型的優(yōu)勢,使數(shù)據(jù)擬合度更高,更有價值去預測。
經(jīng)過實例的驗證,本文模型的構(gòu)造是成功的,比傳統(tǒng)多元線性回歸模型要準確得多大大增強了本文提出模型的可行性,但還不能做到絕對的準確,還需進一步的研究。
目前的數(shù)據(jù)量比較小,而且分布范圍狹窄,基于統(tǒng)計學的模型無法發(fā)揮出最大的優(yōu)勢,因此之后的一個改進方向是尋找更多更可靠的數(shù)據(jù)來源,收集比較多的前期數(shù)據(jù)。除此之外,要想更加深刻地發(fā)現(xiàn)房價變動背后的規(guī)律,尋找更多的房價關聯(lián)屬性,即發(fā)掘更高的數(shù)據(jù)維度也是一個重要的改進方向,當數(shù)據(jù)維度足夠高時,才能夠還原出影響房價的更多細節(jié)。
目前本文在改進多元線性回歸模型上做出的主要努力是結(jié)合了灰度預測模型,但是模型的整體復雜度尚有欠缺,無法擬合出數(shù)據(jù)更加復雜的變化,因此在現(xiàn)有的改進基礎上,嘗試將模型做得更加復雜也是使得模型具有更加良好表現(xiàn)的一種方法。除了以上的改進方向,對于迭代出的模型還應該有一個更加智能的函數(shù)來對當前模型進行打分以評判模型的好壞,有了這樣的評價函數(shù)之后,模型的表現(xiàn)也會變得更好。