金廣朔
(濟(jì)寧市第一中學(xué),山東濟(jì)寧,272000)
近年來,隨著城市經(jīng)濟(jì)的高速增長(zhǎng),城鎮(zhèn)人口逐年遞增,城市土地資源日益稀缺,從而導(dǎo)致中國(guó)房?jī)r(jià)飛速增長(zhǎng),大量投資者從中攫利,同時(shí)無數(shù)人也成為了“房奴”。由于房?jī)r(jià)與國(guó)計(jì)民生休戚相關(guān),房?jī)r(jià)預(yù)測(cè)無論在經(jīng)濟(jì)學(xué)、數(shù)學(xué)還是計(jì)算機(jī)學(xué)中都成了一個(gè)熱門同時(shí)也非常困難的問題,因?yàn)槠渖婕傲颂嗟碾S機(jī)影響因素,而且影響因素非常多元,無法通過簡(jiǎn)單的統(tǒng)計(jì)學(xué)模型進(jìn)行預(yù)測(cè)。目前為止,學(xué)界對(duì)于房?jī)r(jià)預(yù)測(cè)有了多種方法,如多元線性回歸模型、灰色理論預(yù)測(cè)模型、馬爾科夫預(yù)測(cè)模型、遺傳算法和神經(jīng)網(wǎng)絡(luò)等等模型,但均未能取得一個(gè)較為理想的結(jié)果。目前影響房?jī)r(jià)預(yù)測(cè)準(zhǔn)確性的一個(gè)重要原因是房?jī)r(jià)數(shù)據(jù)維度太高,并且沒有一個(gè)比較合適的降維方法,因此模型的復(fù)雜度隨著維度的增加而上升,但是精度卻隨之而下降。因此建立一個(gè)行之有效的房?jī)r(jià)歸因模型迫在眉睫。
國(guó)內(nèi)外學(xué)者在這方面已經(jīng)開展了許多研究,如付益松和張明以南昌市青山湖區(qū)為研究對(duì)象,基于結(jié)構(gòu)方程模型,建立起房?jī)r(jià)影響因素模型[1],賈德錚和張恩陽(yáng)基于房屋特征模型,對(duì)二手房房?jī)r(jià)影響因素進(jìn)行了回歸分析[2],湯文彬通過相關(guān)理論,對(duì)歷史數(shù)據(jù)進(jìn)行深入分析,構(gòu)建了房?jī)r(jià)影響因素模型,并運(yùn)用面板回歸模型和面板脈沖響應(yīng)函數(shù)進(jìn)行了實(shí)證分析[3],但在房?jī)r(jià)歸因的研究中,仍然存在著一些不足,如黃厚霞和侯莉穎指出目前對(duì)我國(guó)房?jī)r(jià)的研究不系統(tǒng)且在研究中存在著如研究很少涉及微觀因素、較少有定量的分析研究等的局限[4],肖磊則指出研究中尚存的諸如數(shù)據(jù)收集困難、使用的是截面數(shù)據(jù)等的缺陷[5],所以,對(duì)于這方面的分析研究,仍有待完善和改進(jìn)。
本文基于多種方法建立了多個(gè)房?jī)r(jià)歸因模型,其一,運(yùn)用假設(shè)檢驗(yàn)方法,利用其對(duì)單一數(shù)據(jù)分析的優(yōu)勢(shì),對(duì)各個(gè)因素進(jìn)行逐個(gè)分析,建立起歸因模型;其二,運(yùn)用機(jī)器學(xué)習(xí)方法,將簡(jiǎn)單清洗過的數(shù)據(jù)在對(duì)精度影響不大的前提下選取一小部分投入神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,初步建立起歸因模型,隨后進(jìn)行測(cè)試并給定閾值,提取出主要影響因素;其三,基于結(jié)構(gòu)方程模型,利用其具有可同時(shí)處理多個(gè)因變量的特點(diǎn)對(duì)各影響因素進(jìn)行多元分析,從而建立歸因模型;最后,筆者用直角坐標(biāo)系的坐標(biāo)軸分別引入房?jī)r(jià)及其對(duì)應(yīng)影響因素的數(shù)值,直觀地求出各影響因素的影響率,再給定閾值,建立起房?jī)r(jià)歸因模型,從而更簡(jiǎn)潔地提取出影響房?jī)r(jià)的主要因素,這也是本文的創(chuàng)新之處。
在總體的分布函數(shù)完全未知或只知其形式、但不知其參數(shù)的情況下,為了推斷總體的某些未知特性,提出某些關(guān)于總體的假設(shè)。我們要根據(jù)樣本對(duì)所提出的假設(shè)做出接收還是拒絕的決策,假設(shè)檢驗(yàn)是做出這一決策的過程。
我們的思路是,對(duì)于房?jī)r(jià)Y和影響因子A、B、C、D等等,分別提出類似這樣的假設(shè):有95%的把握認(rèn)為A與Y的變化有關(guān),再使用假設(shè)檢驗(yàn)相關(guān)的驗(yàn)證方法:首先找到檢驗(yàn)統(tǒng)計(jì)量,然后根據(jù)不同的檢驗(yàn)方法(X檢驗(yàn)、t檢驗(yàn)、F檢驗(yàn)等)得到置信區(qū)間,最后看檢驗(yàn)統(tǒng)計(jì)量是否落在置信區(qū)間中,如果落入,則認(rèn)為假設(shè)成立。使用這種方法對(duì)于各個(gè)因素進(jìn)行假設(shè)檢驗(yàn)之后,即可得知哪些因素對(duì)于房?jī)r(jià)有著比較大的影響。
這種方法有著比較大的缺陷,因?yàn)橐淮沃荒軝z驗(yàn)一個(gè)因素的影響,很容易忽略很多有用的信息,而且這種檢驗(yàn)方法精度較低,效率也不高。
2.2.1 神經(jīng)網(wǎng)絡(luò)模型
人工神經(jīng)網(wǎng)絡(luò)是從信息處理角度對(duì)人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象的一種運(yùn)算模型,是由大量的節(jié)點(diǎn)之間相互聯(lián)接構(gòu)成的。一個(gè)神經(jīng)網(wǎng)絡(luò)由若干層組成,第一層是輸入層,第二層是輸出層,中間的是隱藏層,隱藏層可以有多層。最近十多年來,對(duì)于神經(jīng)網(wǎng)絡(luò)的研究工作不斷深入,在很多領(lǐng)域成功地解決了許多實(shí)際問題,表現(xiàn)出了良好的智能特性。作為機(jī)器學(xué)習(xí)的一種方式,神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、聯(lián)想存儲(chǔ)、高速尋找優(yōu)化解的特點(diǎn)和優(yōu)越性,因此,本研究基于神經(jīng)網(wǎng)絡(luò),建立了機(jī)器學(xué)習(xí)模型,用以提取影響房?jī)r(jià)的主要因素。
圖1
2.2.2 神經(jīng)網(wǎng)絡(luò)歸因?qū)⒎績(jī)r(jià)及其影響因素的原始高維數(shù)據(jù)進(jìn)行簡(jiǎn)單的數(shù)據(jù)清洗后投入機(jī)器學(xué)習(xí)模型,如果數(shù)據(jù)繁多,訓(xùn)練時(shí)間較長(zhǎng),可以在對(duì)準(zhǔn)確度影響不大的前提下,只將一小部分?jǐn)?shù)據(jù)投入模型中進(jìn)行訓(xùn)練,比較各數(shù)據(jù)的輸入和輸出,然后根據(jù)經(jīng)驗(yàn)確定一個(gè)閾值,從而根據(jù)閾值提取出影響力較大的因素,建立起一個(gè)房?jī)r(jià)歸因模型。
2.3.1 模型構(gòu)成
可直接觀測(cè)的因素為觀測(cè)變量,無法直接觀測(cè)的因素為潛變量,可以用觀測(cè)變量解釋,構(gòu)建基于結(jié)構(gòu)方程的房?jī)r(jià)歸因模型,明確對(duì)房?jī)r(jià)具有重要影響的因素,并對(duì)其影響程度作定量分析。
2.3.2 信度分析
利用α系數(shù)法對(duì)觀測(cè)變量進(jìn)行信度分析,α系數(shù)取值越接近1說明內(nèi)部一致性越好。
2.3.3 效度檢驗(yàn)
用SPSS對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證性因子分析,以檢驗(yàn)觀測(cè)變量對(duì)潛變量的影響程度,即所選的觀測(cè)變量能否準(zhǔn)確有效地解釋潛變量。
2.3.4 驗(yàn)證性因子分析
我們可以運(yùn)用驗(yàn)證性因子分析對(duì)所有變量進(jìn)行區(qū)分效度的檢驗(yàn),為避免潛變量不被模型所識(shí)別,將只有一個(gè)因子的變量隨機(jī)分為三個(gè)部分,使用AMOS17.0軟件來檢驗(yàn)各測(cè)量模型的擬合指數(shù),從而檢驗(yàn)所有變量的區(qū)分效度。
2.3.5 假設(shè)驗(yàn)證
匯總得到各影響因素對(duì)房?jī)r(jià)的影響程度,用標(biāo)準(zhǔn)化路徑系數(shù)表示,即通過路徑分析將各因素的影響系數(shù)標(biāo)準(zhǔn)化。
2.4.1 數(shù)據(jù)預(yù)處理
其一,利用維規(guī)約降低數(shù)據(jù)維度,其二,去除冗余數(shù)據(jù),準(zhǔn)備多個(gè)特征子集,訓(xùn)練后選擇效果最好的,其三,利用規(guī)范化,將房?jī)r(jià)及其影響因素的數(shù)據(jù)擬合為正態(tài)分布,方便曲線圖合并后的比較。
2.4.2 建系比較
建立直角坐標(biāo)系,將房?jī)r(jià)數(shù)據(jù)代入y軸,將各個(gè)影響因素?cái)?shù)據(jù)代入x軸作出曲線圖,將各個(gè)曲線圖合并在一張圖中進(jìn)行比較,通過房?jī)r(jià)與因素的比值即曲線的斜率比較出各因素影響率的大小,確立一個(gè)閾值,影響率在閾值以上的因素為影響房?jī)r(jià)的主要因素,建立起房?jī)r(jià)歸因模型,從而直觀簡(jiǎn)潔地得出影響房?jī)r(jià)的主要因素。
房?jī)r(jià)預(yù)測(cè)作為當(dāng)今時(shí)代的熱門話題之一,在很多領(lǐng)域被分析研究,筆者認(rèn)為,房?jī)r(jià)預(yù)測(cè)的根源應(yīng)當(dāng)在于對(duì)房?jī)r(jià)影響因素的分析,因此,本文基于假設(shè)檢驗(yàn)、機(jī)器學(xué)習(xí)、結(jié)構(gòu)方程以及筆者建系比較的創(chuàng)新性想法建立了四種房?jī)r(jià)歸因模型,以期為以后的房?jī)r(jià)預(yù)測(cè)和歸因研究提供有價(jià)值的借鑒和參考。
優(yōu)點(diǎn)總結(jié):其一,基于假設(shè)檢驗(yàn)建立的房?jī)r(jià)歸因模型,對(duì)單一因素影響的分析具有顯著效果;其二,基于機(jī)器學(xué)習(xí)建立的房?jī)r(jià)歸因模型,可以將輸入和輸出數(shù)據(jù)之間的關(guān)系較為準(zhǔn)確地建立起來,并可以同時(shí)對(duì)多組數(shù)據(jù)進(jìn)行分析;其三,基于結(jié)構(gòu)方程建立的房?jī)r(jià)歸因模型,適合于多元性分析,并可應(yīng)用于對(duì)無法直接測(cè)得數(shù)據(jù)的因素的分析;其四,基于筆者建系比較想法建立的房?jī)r(jià)歸因模型,可以較為直觀地比較出各因素影響程度的大小,同時(shí)結(jié)構(gòu)簡(jiǎn)單,過程簡(jiǎn)潔。
本研究仍存在一些不足和缺陷,就此筆者提出改進(jìn)的方向。第一,數(shù)據(jù)收集上仍有困難,許多細(xì)節(jié)數(shù)據(jù)難以查找,且樣本容量過小。筆者認(rèn)為,以后的研究中收集的數(shù)據(jù)要盡量廣泛、細(xì)致且準(zhǔn)確,這樣才有利于建立精度更高的房?jī)r(jià)歸因模型,達(dá)到更好的房?jī)r(jià)預(yù)測(cè)效果。第二,機(jī)器學(xué)習(xí)模型中仍然只是投入少量數(shù)據(jù)進(jìn)行訓(xùn)練,筆者認(rèn)為如果在條件允許的情況下,仍可以將大批量數(shù)據(jù)投入訓(xùn)練,這樣有助于對(duì)模型精度的進(jìn)一步提高。最后,筆者的創(chuàng)新想法雖然可行,但對(duì)于數(shù)據(jù)預(yù)處理的要求較高且不能準(zhǔn)確表示出各影響因素與房?jī)r(jià)的關(guān)系,在精度上仍有待提高。