莊虹莉,李立婷,林雨婷,劉藝輝,溫永仙
(福建農(nóng)林大學(xué) 計算機與信息學(xué)院,福建 福州 350002)
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的福州市商品房價格指數(shù)預(yù)測模型研究
莊虹莉,李立婷,林雨婷,劉藝輝,溫永仙
(福建農(nóng)林大學(xué) 計算機與信息學(xué)院,福建 福州 350002)
文章以百度搜索引擎上的關(guān)鍵詞指數(shù)為數(shù)據(jù)基礎(chǔ),首先通過指標(biāo)平穩(wěn)性檢驗與時差相關(guān)性分析從初始關(guān)鍵詞庫中選取出14個關(guān)鍵詞作為解釋變量指標(biāo),其次建立基于懲罰函數(shù)的變量選擇(Elastic N et、SCA D和G roup Bridge)對福州市商品房價格指數(shù)進行預(yù)測,再者基于四種不同誤差指標(biāo),運用綜合評判分析法對懲罰函數(shù)的變量選擇、多元線性回歸分析、偏最小二乘回歸分析、隨機森林的預(yù)測精度進行綜合分析,最終確定G roup Bridge為福州市商品房價格指數(shù)的最佳預(yù)測模型。
隨機森林;Elastic N et;SCA D;G roup Bridge;綜合評判分析法
隨著互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)時代降臨,人們獲取信息的渠道變得更加寬廣,尤其是搜索引擎在人們生活中扮演者不可或缺的角色。房地產(chǎn)交易過程也不例外,人們通過搜索引擎了解最新的經(jīng)濟形勢與政策,從而做出合理的消費決策,所以說搜索引擎在消費者、開發(fā)商以及政府中起到橋梁性作用。所以基于網(wǎng)絡(luò)搜索數(shù)據(jù)對福州市的商品房價格指數(shù)進行預(yù)測模型分析具有一定的研究價值。通過建立一系列合理的模型對網(wǎng)絡(luò)搜索數(shù)據(jù)進行深入分析,最終得到預(yù)測福州市商品房同比價格指數(shù)的最優(yōu)模型,實現(xiàn)在一定程度上對商品房同比價格指數(shù)的預(yù)測,解決房價相關(guān)信息的時滯性問題,同時也為相關(guān)部門的調(diào)控工作提供理論支持。
目前國內(nèi)學(xué)者基于網(wǎng)絡(luò)搜索數(shù)據(jù)(主要是百度指數(shù))在房地產(chǎn)價格、商品零售價格等領(lǐng)域都有所研究,主要研究方法以定量分析為主。例如董倩[1]等就是基于百度指數(shù)對北京等16大中城市的新房價格與二手房價格建立6種預(yù)測模型(線性回歸、隨機森林等),得到各城市房價的最優(yōu)預(yù)測模型;姜文杰[2]等就是基于百度指數(shù)對我國大中城市分別建立ARMA模型與自回歸分布滯后模型,然后比較兩種模型的預(yù)測效果,解決房價相關(guān)信息的時滯性問題;劉偉江[3]等就是基于谷歌指數(shù)采用時差相關(guān)分析方法選取與商品價格相關(guān)性較高的關(guān)鍵詞,然后再利用回歸模型進行價格指數(shù)預(yù)測。
最早利用網(wǎng)絡(luò)搜索數(shù)據(jù)資源開拓全新的研究領(lǐng)域是美國的 Ginsberg J[4],他們團隊利用 Google搜索指數(shù)成功預(yù)測流感發(fā)展趨勢,大致估計流感的定期發(fā)病率;接著是 Askita與Zimmermann[5]同樣基于網(wǎng)絡(luò)搜索數(shù)據(jù)成功預(yù)測出失業(yè)率的變化趨勢等。
本文基于懲罰函數(shù)的變量選擇對網(wǎng)絡(luò)搜索數(shù)據(jù)進行深入的研究,借助四種不同的誤差指標(biāo)與傳統(tǒng)的預(yù)測模型進行對比,最終得到預(yù)測福州市商品房同比價格指數(shù)的最優(yōu)模型。
回歸是傳統(tǒng)的預(yù)測模型,即通過得到解釋變量的參數(shù)估計實現(xiàn)預(yù)測,而懲罰函數(shù)的變量選擇既能實現(xiàn)參數(shù)估計又能實現(xiàn)變量選擇,即既能實現(xiàn)預(yù)測又能降低模型的復(fù)雜度。
對于線性回歸模型:
其中ε~N(0,σ2)的隨機誤差項,β是回歸系數(shù),y為連續(xù)的響應(yīng)變量。傳統(tǒng)的對線性回歸模型的參數(shù)估計是最小二乘,則β的最小二乘估計為:
但是最小二乘估計也存在不足之處:
(1)對于高維數(shù)據(jù)(n<p)或當(dāng)解釋變量存在多重共線性時,難以實現(xiàn)對β的估計。
(2)最小二乘無法實現(xiàn)變量選擇,這將導(dǎo)致模型過于復(fù)雜。
懲罰函數(shù)的變量選擇思想在于:在最小二乘或極大似然函數(shù)的基礎(chǔ)上加入懲罰函數(shù)項得到新的目標(biāo)函數(shù),然后通過最小化或者最大化目標(biāo)函數(shù)得到參數(shù)估計值。其實就是將不顯著變量的系數(shù)壓縮為零而把該變量剔除,對顯著變量進行很小或不壓縮而保留在模型中,最終實現(xiàn)模型的變量選擇和參數(shù)估計。
在最小二乘估計的基礎(chǔ)上引入不同的懲罰項,就可以得到不同的懲罰函數(shù)變量選擇方法。這里選擇代表性的幾個懲罰方法進行研究:單變量選擇方法(SCAD)、高度相關(guān)數(shù)據(jù)的變量選擇(Elastic Net)和雙層變量選擇方法(Group Bridge)。
1.SCAD。SCAD是實現(xiàn)單變量的選擇方法,由Fan和Li[6]在Lasso基礎(chǔ)上發(fā)展的一種非凹的懲罰函數(shù),其定義如下:
其中,pλ(|βj| )是SCAD懲罰項,定義如下:
其中,α>2為調(diào)整參數(shù),λ>0為罰參數(shù)。Fan指出α=3.7時,其估計效果最好。
SCAD懲罰會把與被解釋變量不相關(guān)的解釋變量所對應(yīng)的系數(shù)壓縮為0,其他一些變量系數(shù)朝0壓縮,當(dāng)變量系數(shù)很大時則基本保持不變,使得最后得到的估計量滿足:無偏性、稀疏性和連續(xù)性,連續(xù)性使得結(jié)果更為穩(wěn)定。
2.Elastic Net。Elastic Net是Zhou和Hastic[7]在嶺回歸和Lasso的基礎(chǔ)上提出的新的變量選擇方法,是處理高維高度相關(guān)數(shù)據(jù)的變量選擇方法,解釋變量間通常具有群組效應(yīng),即高度相關(guān)的預(yù)測變量的系數(shù)應(yīng)該相等或是接近相等。其定義如下:
(3)式是嶺回歸懲罰項和Lasso懲罰項的一個凸組合。其中α為罰參數(shù),當(dāng)α=0時,上式為Lasso回歸;當(dāng)α=1時,上式為嶺回歸。因此Elastic Net回歸結(jié)合了嶺回歸和Lasso回歸的優(yōu)點,既能消除變量間的多重共線性,又能進行變量選擇,還能處理群組效應(yīng)。
3.Group Bridge。雙層變量選擇方法的獨特之處:篩選變量時考慮了變量的分組情況,不僅能夠篩選出重要分組,而且能夠在組內(nèi)篩選出重要的單個變量。Huang等[8]提出雙層變量選擇可以看成是組內(nèi)懲罰和組間懲罰的一種復(fù)合函數(shù),即對第j組變量的懲罰項表示為:
其中,pouter是組間懲罰,pinner為組內(nèi)懲罰。
Breheny和Huang提出,只需在組內(nèi)和組間都選擇實現(xiàn)單個變量選擇的懲罰函數(shù),例如Lasso、SCAD、MCP懲罰等,就能實現(xiàn)組間和組內(nèi)的變量選擇[9]。由此得到了Group Bridge[9]變量選擇方法,它是組內(nèi)進行Lasso懲罰,組間進行Bridge懲罰。
Group Bridge變量選擇方法的基本定義為:假設(shè)已知分有J組變量,分別為A1,A2,…,AJ,令βAJ=(βj)j∈Aj為 β相應(yīng)變量構(gòu)成的子向量,則 Group Bridge的定義如下:
其中,λ>0是罰參數(shù),常數(shù)cj為βAJ的調(diào)整參數(shù),一般選擇 cj∝|Aj|1-γ,γ為 Bridge的指標(biāo),當(dāng) 0<γ<1時,式(4)可同時實現(xiàn)單變量和組變量的選擇。
4.罰參數(shù)的選擇。懲罰函數(shù)的變量選擇中罰參數(shù)對模型的精度至關(guān)重要,合適的罰參數(shù)能夠有效的提高預(yù)測精度和降低模型的復(fù)雜度。本文通過10折交叉驗證[10](10-fold Cross-Validation)實現(xiàn)罰參數(shù)的選擇。
本文通過基于懲罰函數(shù)的變量選擇對網(wǎng)絡(luò)搜索數(shù)據(jù)進行深入的研究,借助四種不同的誤差指標(biāo)與傳統(tǒng)的預(yù)測模型進行對比,最后通過綜合評判得到預(yù)測福州市商品房同比價格指數(shù)的最優(yōu)模型。
(一)數(shù)據(jù)準(zhǔn)備
1.研究對象
由于福州市實屬二線城市,屬于經(jīng)濟水平較高、房地產(chǎn)交易活動相對活躍的地級市省會,購房者對于房地產(chǎn)信息的收集渠道主要還是以網(wǎng)絡(luò)搜索為主(在我國主要以百度搜索引擎為主),搜索引擎上的關(guān)鍵詞指數(shù)體現(xiàn)了購房者的關(guān)注點,所以本文基于網(wǎng)絡(luò)搜索數(shù)據(jù)前提下對福州市的商品房價格的預(yù)測分析具有一定的價值性與實用性。
2.數(shù)據(jù)來源
本文的研究對象之一:福州市的商品房價格指數(shù)數(shù)據(jù)來源于國家統(tǒng)計局(http://www.stats.gov. cn/)每個月所公布的關(guān)于“70個大中城市住宅銷售價格變動情況”的報告內(nèi)容。本文主要搜集福州市從2012年1月至2015年12月總計48個月的新建商品住宅月度價格指數(shù)(包括環(huán)比指數(shù)、同比指數(shù)、定基指數(shù),本文主要對同比價格指數(shù)進行研究)。
本文的另一研究對象:關(guān)鍵詞搜索量數(shù)據(jù)主要來源于百度指數(shù)(http://index.baidu.com/),百度搜索指數(shù)能綜合反映該關(guān)鍵詞在過去一天用戶與媒體對其的關(guān)注度,是以海量網(wǎng)民的搜索數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺,主要的功能模塊可分為:趨勢研究、需求圖譜、輿情管家、人群畫像等。本文主要通過趨勢研究這一模塊(以整體趨勢為主)來獲取關(guān)鍵詞的搜索量(按每日搜索量統(tǒng)計)。
3.數(shù)據(jù)預(yù)處理-初始關(guān)鍵詞的選取
(1)從定性方面分析。由圖1的理論框架可看出,分別能從主體因素與非主體因素兩方面進行關(guān)鍵詞的初步選取,從主體因素(房地產(chǎn)市場供求關(guān)系、房地產(chǎn)經(jīng)濟交易活動以及與房地產(chǎn)相關(guān)聯(lián)的指標(biāo)等)分析考慮,最終通過人為選取出“福州房價、福州房地產(chǎn)、戶型、建材”這4個作為主體因素的基準(zhǔn)關(guān)鍵詞;同樣從非主體因素(宏觀經(jīng)濟形勢、與房地產(chǎn)密切相關(guān)的調(diào)控政策等)分析得到:“房貸利率、公積金、買房政策”3個作為非主體因素的基準(zhǔn)關(guān)鍵詞。
圖1 基于網(wǎng)絡(luò)搜索數(shù)據(jù)對商品房價格指數(shù)預(yù)測模型進行研究的理論框架
(2)從定量方面分析。通過以上定性分析得到的7個基準(zhǔn)關(guān)鍵詞,首先利用百度搜索引擎的關(guān)鍵詞推薦技術(shù)(其原理是可查詢與指定關(guān)鍵詞相關(guān)度較高的詞匯)對基準(zhǔn)關(guān)鍵詞范圍進行適當(dāng)擴展,得到與7個基準(zhǔn)關(guān)鍵詞相關(guān)的關(guān)鍵詞58個,總計65個;接著以百度指數(shù)為標(biāo)準(zhǔn)對這65個關(guān)鍵詞進一步篩選,將在研究時間范圍內(nèi)數(shù)據(jù)量相對較少以及出現(xiàn)重復(fù)的關(guān)鍵詞一一剔除,最后通過定量分析,確定“福州房地產(chǎn)、住房公積金、房貸利率”等48個指標(biāo)作為初始關(guān)鍵詞,構(gòu)建成一個關(guān)鍵詞庫。這48個指標(biāo)的具體變量名見表1。
表1 48個指標(biāo)所對應(yīng)的關(guān)鍵詞
(二)模型準(zhǔn)備
由于本文的最終目的是對福州市的商品房價格指數(shù)的預(yù)測模型進行比較分析,所以從關(guān)鍵詞庫里的解釋變量選取解釋變量指標(biāo)這一環(huán)節(jié)至關(guān)重要,不僅需要考慮與商品房同比價格指數(shù)相關(guān)度,還需考慮到兩者間的時差關(guān)系。時差關(guān)系主要包括領(lǐng)先、同步與滯后三個階段,只有與基準(zhǔn)指標(biāo)處于領(lǐng)先或同步的指標(biāo)才能在預(yù)測活動中起到相關(guān)作用,具有一定的研究價值。對于時差關(guān)系判斷本文選擇的是時差相關(guān)分析法,它可以較完整體現(xiàn)兩個變量間的時差性與相關(guān)性。而只有平穩(wěn)時間序列才可以進行時差相關(guān)分析,所以在進行時差相關(guān)分析之前要進行平穩(wěn)性檢驗,對于非平穩(wěn)序列進行差分處理將其轉(zhuǎn)化為平穩(wěn)序列。
1.指標(biāo)選取——平穩(wěn)性檢驗[11]。首先將所有變量的時間序列都畫出序列圖,然后進行ADF檢驗,而對于非平穩(wěn)序列進行差分處理,直至使之成為平穩(wěn)序列。
圖2“福州房地產(chǎn)”平穩(wěn)檢驗前后序列圖
具體檢驗結(jié)果為:所有變量的時間序列都是經(jīng)過二次差分后將其轉(zhuǎn)化為平穩(wěn)序列。
2.時差相關(guān)分析。時差相關(guān)分析具體實現(xiàn)公式如下:
由于本文主要研究對象是福州市商品房同比價格指數(shù),所以將其作為基準(zhǔn)指標(biāo),其余解釋變量作為檢驗指標(biāo),利用SPSS軟件實現(xiàn)時差相關(guān)分析,在22個領(lǐng)先或同步指標(biāo)中選取相關(guān)系數(shù)在0.55以上的變量(14個)作為預(yù)測模型中的解釋變量,具體如表2所示:
表2 相關(guān)系數(shù)大于0.55的領(lǐng)先或同步解釋變量
經(jīng)過指標(biāo)平穩(wěn)性檢驗與時差相關(guān)分析,最終確定14個解釋變量作為以下預(yù)測模型中的解釋變量指標(biāo),其中公積金、房貸利率與政策屬于非主體因素,而房價信息與戶型屬于主體因素,也就是說時差相關(guān)分析選取出的指標(biāo)是具有典型性的,在很大程度上代表了廣大購房消費者所關(guān)注的方面,所以將這14個指標(biāo)當(dāng)成預(yù)測模型的解釋變量具有客觀性與科學(xué)性。
在這14個關(guān)鍵詞指標(biāo)中,有將近60%成分是屬于公積金這一因素范疇的,結(jié)合公積金原始搜索量數(shù)據(jù),可直觀看出福州市民在購房交易中會把關(guān)注點集中在公積金及其相關(guān)因素上,接著才是房貸利率、調(diào)控政策以及戶型這些較為重要的因素上。
(三)懲罰函數(shù)的變量選擇方法
懲罰函數(shù)的變量選擇方法是將某些解釋變量的系數(shù)壓縮為0,以犧牲偏差為代價而提高預(yù)測精度。因此本文采用懲罰的變量選擇方法對這14個解釋變量進一步降維。為了評價模型的優(yōu)劣,將前35個樣本作為訓(xùn)練集,后13個樣本作為測試集,通過實現(xiàn)對測試集的預(yù)測,定量評價模型的優(yōu)良。
借助R語言的包實現(xiàn)對懲罰函數(shù)的變量選擇方法的參數(shù)估計和變量選擇,通過求解得到三種懲罰函數(shù)的變量選擇的回歸方程為:
從三個懲罰函數(shù)的變量選擇模型的回歸方程中,得到公積金貸款利率、住房公積金提取條件、福州房地產(chǎn)信息網(wǎng),這三個關(guān)鍵詞應(yīng)該是影響福州市商品房價格指數(shù)的比較重要的因子,也包含了房地產(chǎn)業(yè)交易活動所考慮的大部分綜合因素,所以能較全面反映出福州市商品房價格指數(shù)變化,說明懲罰函數(shù)的變量選擇方法在顯著變量篩選功能上的效果不錯。
為了與其他傳統(tǒng)的預(yù)測模型進行比較,分別對后13個樣本進行預(yù)測,預(yù)測的結(jié)果詳見表3。其中多元線性回歸、偏最小二乘、隨機森林是常用的回歸預(yù)測模型,前兩者是參數(shù)估計領(lǐng)域,而隨機森林是非參數(shù)估計領(lǐng)域且能夠?qū)崿F(xiàn)變量選擇,因此采用這三種方法與懲罰函數(shù)的變量選擇方法進行對比。
表3 預(yù)測結(jié)果比較
(四)預(yù)測精度綜合分析
1.求解誤差指標(biāo)。為了直觀的能夠從數(shù)值上衡量以上六種模型的預(yù)測精度與穩(wěn)定性,本文針對誤差進行分析,選用平均絕對誤差(MAE)、平均相對誤差(MRE)、均方根誤差(RMSE)、均方百分比誤差(MSPE)這四種誤差指標(biāo)對測試集的預(yù)測結(jié)果進行評價。分別計算出六種模型的四種誤差指標(biāo)如表4所示。
表4 各模型誤差指標(biāo)分析表
通過表4數(shù)據(jù)可看出懲罰函數(shù)的變量選擇中的SCAD和GB均表現(xiàn)出優(yōu)良的性質(zhì),四種誤差都相對較小,但是為了更加直觀的顯示出結(jié)果,在這里進一步采用基于四種誤差指標(biāo)的綜合評判分析法,對這六種模型的擬合度與穩(wěn)定性進行權(quán)衡與評定。
2.綜合評判分析法[12]。綜合評判法是一種采用多個評價指標(biāo)對目標(biāo)方案從定性與定量兩個方面進行綜合評判的方法。其基本原理是通過對所建立的評價因素進行相關(guān)處理得到一些可以反映目標(biāo)方案優(yōu)劣性的評價指標(biāo),從而得出目標(biāo)方案的優(yōu)劣性比較結(jié)果。評判結(jié)果集里的評價值代表模型的優(yōu)越性,評價值越大,說明該模型的性能越好。借助MATLAB求解得到綜合評判結(jié)果集:
C1=[0.174 0.284 0.125 0.151 0.916 0.999]
由綜合評判的結(jié)果集可得到本次綜合評判中各個預(yù)測模型的優(yōu)屬度,就從這四個評價指標(biāo)分析,可較直觀看出GB和SCAD模型的預(yù)測精度極高,分別為0.999和0.916,遠(yuǎn)比其他的四種模型大的多,因此將懲罰函數(shù)的變量選擇方法應(yīng)用到網(wǎng)絡(luò)搜索數(shù)據(jù),能夠得到較高精度的預(yù)測模型。由于本文采用的網(wǎng)絡(luò)搜索數(shù)據(jù)中的解釋變量具有明顯的分組,即分成6組(比如將與公積金相關(guān)的變量看成一組),因此適用于分組變量選擇的GB比單變量選擇的SCAD擁有更高的預(yù)測精度,而且選用變量數(shù)更全。因此將GB作為網(wǎng)絡(luò)搜索數(shù)據(jù)福州市商品房價格指數(shù)的最佳預(yù)測模型。
(一)關(guān)鍵詞指標(biāo)結(jié)果分析
首先通過時差相關(guān)分析選取的關(guān)鍵詞指標(biāo)有14個,其中有9個(將近60%比例)是屬于“公積金”這一因素范疇的,有兩個指標(biāo)是屬于“福州房價信息”,“房貸”、“政策”與“戶型”分別占有一個指標(biāo)。而對于多元線性回歸分析與偏最小二乘回歸兩種模型并不能實現(xiàn)變量選擇;隨機森林通過得到因子的重要性得分能夠?qū)崿F(xiàn)變量的選擇;懲罰函數(shù)的變量選擇方法能夠?qū)崿F(xiàn)變量選擇(大幅度的降低模型的復(fù)雜度)并實現(xiàn)參數(shù)估計,對于Elastic Net選擇出的關(guān)鍵詞指標(biāo)總計 4個,其中“公積金”范疇有3個指標(biāo),另一個屬于“福州房價信息”;SCAD選擇出的關(guān)鍵詞指標(biāo)總計3個,其中“公積金”范疇有2個指標(biāo),另一個屬于“福州房價信息”;Group Bridge選擇出的關(guān)鍵詞指標(biāo)總計 6個,其中“公積金”范疇有4個指標(biāo),另外屬于“福州房價信息”和“契稅政策”,涉及更多類型的變量,因此這里的預(yù)測精度更高。
通過以上分析,不難發(fā)現(xiàn)這六種模型對于關(guān)鍵詞指標(biāo)的選取具有很高的相似度,說明通過不同的預(yù)測模型研究可以分析出福州市的購房者對于“公積金”及其相關(guān)因素的關(guān)注度相當(dāng)高,對于“福州房價信息”、“房貸”與“政策”這些因素關(guān)注度也比較高,而對于“建材”與“戶型”對買房因素關(guān)注度相對較低。因此通過預(yù)測模型中的關(guān)鍵詞指標(biāo)可以直觀看出福州市民所關(guān)注的方面,政府與相關(guān)部門可以從關(guān)注點出發(fā),基于最佳預(yù)測模型的研究基礎(chǔ),采取合理的措施,維持房地產(chǎn)業(yè)健康發(fā)展。
(二)預(yù)測模型結(jié)果分析
1.從預(yù)測精度分析。本文對于六種模型的預(yù)測精度分析采用的是針對四種誤差指標(biāo)進行綜合評判分析,得到Group Bridge的預(yù)測精度較高,SCAD次之,均比其他四種模型的精度高得多。
2.從模型復(fù)雜度分析。多元線性回歸模型與最小二乘回歸分析這兩種預(yù)測模型無法實現(xiàn)變量的選擇目標(biāo),僅能得到14個因子的參數(shù)估計,進一步用于預(yù)測;而對于懲罰函數(shù)的變量選擇就具有顯著變量篩選的功能,所以在一定程度上減少了工作量且選取出的解釋變量數(shù)遠(yuǎn)比其他兩種模型解釋變量數(shù)量來得少,關(guān)鍵是還能達到一個較好的預(yù)測效果。
綜上所述,六種模型各有優(yōu)缺點,針對不同的研究對象,可能適用不同的預(yù)測模型。本文綜合考慮預(yù)測精度、模型復(fù)雜度,最終將GB作為預(yù)測福州市商品房價格指數(shù)的最佳模型。
大數(shù)據(jù)背景下,充分利用網(wǎng)絡(luò)數(shù)據(jù)資源挖掘出相關(guān)重要信息來分析解決一些實際問題是現(xiàn)在乃至未來的重要研究趨勢。本文研究的創(chuàng)新之處在于利用關(guān)鍵詞搜索指數(shù)對福州市的商品房價格指數(shù)進行預(yù)測與分析,具體表現(xiàn)為以下幾個方面:
其一,本文利用關(guān)鍵詞的百度指數(shù)這一網(wǎng)絡(luò)數(shù)據(jù)資源來反映福州市商品房價格指數(shù)的變化趨勢,該網(wǎng)絡(luò)數(shù)據(jù)資源在一定程度上能較為全面反映購房消費者的即時狀態(tài)與消費心理,同時網(wǎng)絡(luò)數(shù)據(jù)這一虛擬化資源能在購房消費者與房地產(chǎn)業(yè)兩者間起到橋梁作用,能將兩者的此時形勢與狀態(tài)及時傳達給對方。所以本文所利用的數(shù)據(jù)資源能較為全面反映在大數(shù)據(jù)背景下福州房地產(chǎn)業(yè)的交易形勢。
其二,本文主要是將懲罰函數(shù)的變量選擇運用到網(wǎng)絡(luò)搜索數(shù)據(jù),對福州市商品房價指數(shù)進行預(yù)測,為了評價該方法的好壞,進一步與傳統(tǒng)解決網(wǎng)絡(luò)搜索數(shù)據(jù)的方法(多元線性回歸分析、偏最小二乘回歸分析、隨機森林)進行對比。
其三,本文所運用的預(yù)測精度分析方法-綜合評判分析法具有一定的科學(xué)性與全面性,從定量方面上較為準(zhǔn)確闡釋模型的性能優(yōu)劣,具有較高的可信度。
[1]董倩,孫娜娜,李偉.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價格預(yù)測[J].統(tǒng)計研究,2014,31(10):81-88.
[2]姜文杰,2016.基于百度指數(shù)的房地產(chǎn)價格相關(guān)性研究[J].統(tǒng)計與決策(2):90-93.
[3]劉偉江,2014.基于網(wǎng)絡(luò)關(guān)鍵詞搜索量的商品零售價格指數(shù)預(yù)測研究[J].制度經(jīng)濟學(xué)研究(4):153-169.
[4]Ginsberg J,Mohebbi M H,PateI R s,et a1.Detecting influenza epidemics using search engine Query data[J].Nature,2009,457:1012-1014.
[5]Askitas N.,Zimmermann K.F,Google Econometrics and unemploymentForecasting[C].working Paper,2009:107-120.
[6]Fan J,Li R.Variable Selection via Nonconcave Penalized Likelihood and its Oracle Properties[J].Journal of the American Statistical Association,2001,96(456):1348-1360.
[7]Hui Z,Trevor H.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society,2005,67(2):301-320.
[8]Huang J,Breheny P,Ma S.A Selective Review of Group Selection in High-Dimensional Models[J].Statistical Science,2012,27(4):481-499.
[9]Breheny P,Huang J.Penalized methods for bi-level variable selection [J].Statistics and its interface,2009,2(3):369-380.
[10]高少龍.幾種變量選擇方法的模擬研究和實證分析[D].山東大學(xué),2014:8-10.
[11]賈杰林,李健,吳舜澤.水環(huán)境趨勢預(yù)警指標(biāo)體系的構(gòu)建與時差分析.中國水污染控制戰(zhàn)略與政策創(chuàng)新研討會論文集[C].中國環(huán)境科學(xué)學(xué)會,2010:44-51.
[12]宋俊杰.三峽流域中長期徑流預(yù)報模型精度評定綜合分析及優(yōu)化方法研究[D].華中科技大學(xué),2013:15-32.
(責(zé)任編輯:D 校對:T)
F299.233
A
1004-2768(2017)02-0105-07
2016-11-25
國家自然基金資助項目“禾谷類作物胚乳性狀多QTL定位統(tǒng)計方法研究”(31171448);國家自然基金資助項目“基于高維數(shù)據(jù)和全基因組標(biāo)記的數(shù)量性狀基因定位方法研究”(31571558);福建農(nóng)林大學(xué)數(shù)學(xué)建模實訓(xùn)室(111ZS1503)
莊虹莉(1990-),女,福建農(nóng)林大學(xué)計算機與信息學(xué)院碩士研究生,研究方向:數(shù)理統(tǒng)計及應(yīng)用;李立婷(1993-),女,福建農(nóng)林大學(xué)計算機與信息學(xué)院碩士研究生,研究方向:數(shù)理統(tǒng)計及應(yīng)用;林雨婷(1992-),女,福建農(nóng)林大學(xué)計算機與信息學(xué)院碩士研究生,研究方向:數(shù)理統(tǒng)計及應(yīng)用;劉藝輝,男,福建農(nóng)林大學(xué)計算機與信息學(xué)院,研究方向:數(shù)理統(tǒng)計及應(yīng)用;溫永仙(1966-),女,福建農(nóng)林大學(xué)計算機與信息學(xué)院教授,研究方向:數(shù)理統(tǒng)計及應(yīng)用。溫永仙為通訊作者。