亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網絡搜索數(shù)據(jù)的房地產價格指數(shù)的短期預測

        2018-05-17 06:49:22胡本田年靖宇
        銅陵學院學報 2018年6期
        關鍵詞:價格指數(shù)百度房價

        胡本田 年靖宇

        (安徽大學,安徽 合肥 230601)

        2016年,合肥、廈門、南京、蘇州4個城市的房價漲幅一度領跑全國,帶來了一輪全國房價的快速上漲,引起了諸多的社會經濟問題。因此提前對房價進行預測,能夠起到維護經濟穩(wěn)定的作用??紤]到房地產市場中一般會存在三個主體,即消費者、房地產開發(fā)商和政府,房價上漲或下跌的因素有部分來源于這三個主體的行為,在購房或開發(fā)房地產之前消費者和房地產開發(fā)商會預先利用手頭的資源去更全面的了解房地產情況,這時候,他們往往會利用網絡搜索引擎去查詢搜索所需要了解的信息,這就會在搜索引擎的后臺留下數(shù)據(jù),比如谷歌指數(shù),百度指數(shù)等等,因此可以利用網絡搜索引擎后臺所記錄的關鍵詞搜索量,來了解人們對于房地產的需求狀況。

        據(jù)中國互聯(lián)網網絡發(fā)展狀況統(tǒng)計報告顯示,截至2017年12月,我國網民規(guī)模達7.72億,普及率達到55.8%,其中手機網民占97.5%,而網民使用頻率最高的應用仍為即時通信、搜索引擎、網絡新聞等等,在國內各大搜索引擎中,百度搜索是人們最常用的搜索引擎,在2016年就已經有82.9%的網民使用,搜狗搜索位于第二,有41.1%的網民使用,鑒于百度搜索在網民中具有很好的滲透率,所以本文欲利用百度指數(shù)上的關鍵詞搜索數(shù)據(jù),通過找尋搜索數(shù)據(jù)與房地產價格指數(shù)之間的關系,以此來對房地產價格指數(shù)進行短期預測。

        目前對于房價的預測可以分為以下幾個階段,先是有王聰,王昊,蓋美、田野利用多因素回歸模型來對房價進行預測,找到影響房價的因素,利用這些因素所代表的指標進行回歸,從而達到預測的目的[1-3]。然后有學者將灰色理論應用到房地產價格的預測中去,任文娟、杜葵表明房地產市場是一個有著已知因素和未知因素的灰色系統(tǒng),因此可以使用GM(1,1)模型來對房地產價格進行預測[4]。之后學者利用數(shù)據(jù)挖掘算法來對房價進行預測,在數(shù)據(jù)挖掘算法中,研究利用最多的是SVR算法和BP神經網絡,對于SVR算法,申瑞娜,張彥周、賈利新,袁秀芳等都建立了基于SVR的商品房價格預測模型[5-7]。而周學軍等,高平等就利用BP神經網絡算法對房價進行預測,均取得了不錯的效果[8-9]。但是上述的研究中,所使用的房價數(shù)據(jù)基本上都是年度數(shù)據(jù),此數(shù)據(jù)非公開并且沒有時效性用,有學者就開始研究房地產價格指數(shù)數(shù)據(jù)。對于房地產價格指數(shù)的預測的最新研究是通過利用網絡搜索數(shù)據(jù),通過引入網絡搜索數(shù)據(jù),一般是谷歌指數(shù)或者百度指數(shù)上面關鍵詞搜索量數(shù)據(jù),以此來建立模型。該理論最先是Ginsberg et al.利用Google搜索數(shù)據(jù)成功地預測美國流感疾病趨勢[10],在取得不錯的效果之后,Kulkarni R.et al.,Schmidt T,Vosen S分別利用網絡搜索數(shù)據(jù)對失業(yè)率和caseshiller指數(shù)中進行預測,能夠在官方數(shù)據(jù)發(fā)布前提前知曉情況[11-12]。董倩等利用網絡搜索數(shù)據(jù)對15個大中城市的房價指數(shù)進行預測[13],莊虹莉等,張娟以百度指數(shù)上面的關鍵詞為解釋變量,分別建立模型對房地產價格指數(shù)進行預測[14-15],蒲東齊等(2018)則得到利用搜索數(shù)據(jù)預測商品房價可領先于官方發(fā)布數(shù)據(jù)10-15天的結論[16]。

        但是目前國內學者的研究中,存在基期未轉換、未進行隨機性檢驗、主成分合成指數(shù)不好解釋,隨機波動性未剔除等問題。鑒于此,本文選取這次漲幅最大的二線城市——合肥市,以2011年1月至2018年2月的新建商品房銷售價格指數(shù)的同比數(shù)據(jù)來進行房地產價格指數(shù)的預測。由于該指數(shù)每五年輪換一個基期,所以為了具有可比性,需要先將2016年至2018年的數(shù)據(jù)全部轉換為以2010年為基期的數(shù)據(jù),但因為百度指數(shù)的數(shù)據(jù)在2011年才開始收集,所以為了使數(shù)據(jù)的時期相同,我們將合肥市2011年的每月數(shù)據(jù)分別作為基期,計算得到合肥市2012年1月至2018年2月的新建商品房銷售價格指數(shù)同比數(shù)據(jù),對百度指數(shù)上的關鍵詞搜索量的處理也按照上述方法來做,之后再通過簡單篩選和相關性檢驗,得到與房地產價格指數(shù)有關系的關鍵詞數(shù)據(jù),然后利用lasso算法在眾多關鍵詞中提取特征,找到最終的解釋變量,以時間段為2012年2月至2017年8月的數(shù)據(jù)作為訓練集,2017年9月至2018年1月的數(shù)據(jù)作為檢驗集,利用SVR模型對訓練集進行訓練,通過檢驗集找到訓練模型中的最優(yōu)模型,最后利用最優(yōu)模型來預測合肥市新建商品房銷售價格指數(shù)。

        一、模型構建

        (一)理論基礎

        在房地產市場上,存在一個供求關系,

        房地產開發(fā)商是供應的一方,而購房者則是需求的一方,他們對房地產市場的反應可以用他們的搜索行為來代替,因此可以把這些網絡搜索數(shù)據(jù)加入到預測模型中。此外房地產市場還受到了政府宏觀調控的影響。該理論可以用圖1來表示。

        (二)變量描述

        1.被解釋變量

        圖1供求理論框架圖

        國家統(tǒng)計局從2011年1月份開始,就開始發(fā)布70個大中城市的新建商品房價格指數(shù),分別包括新建住宅銷售價格指數(shù)和新建商品住宅銷售價格指數(shù),由于在2018年1月就已經不公布新建住宅銷售價格指數(shù),所以在此我們選取的是新建商品住宅銷售價格指數(shù)的同比指數(shù)來進行預測,通過對數(shù)據(jù)進行處理之后,我們使用的是2012年1月至2018年1月的扣除了一般物價因素影響的數(shù)據(jù),數(shù)據(jù)見表1,此數(shù)據(jù)反映了房價的實際變動,具有可比性,我們將此數(shù)據(jù)作為被解釋變量,命名為Y。

        表1剔除一般物價指數(shù)后的合肥市新建商品房價格指數(shù)的同比指數(shù)

        2.解釋變量

        考慮到房地產市場的各個主體,分別從供應、需求、政策三個因素中,確定7個初始關鍵詞,它們是樓盤、中國建材網、合肥市房產網、合肥房價、房價調控、房貸利率、住房公積金,然后再利用百度長尾關鍵詞工具得到102個關鍵詞,關鍵詞見表2。

        分別對這102個關鍵詞進行百度指數(shù)的查詢,發(fā)現(xiàn)在102個關鍵詞中,有28個關鍵詞未被百度指數(shù)所收錄,因此在網站上爬取不到這28個關鍵詞的有效數(shù)據(jù)。在百度指數(shù)的頁面,輸入關鍵詞,再通過審查元素就可以得到網頁的源代碼,利用java和maven兩個軟件,可以抓取剩下的74個關鍵詞從2011年1月至2018年2月每天的搜索數(shù)據(jù),將爬取到的關鍵詞天數(shù)據(jù)累加為月度數(shù)據(jù),按照處理被解釋變量的方法對這些關鍵詞數(shù)據(jù)進行處理。又由于網絡搜索數(shù)據(jù)有很大的波動性,所以處理之后我們再用HP濾波法對數(shù)據(jù)進行長期趨勢的提取,得到初步的解釋變量。

        表2部分關鍵詞數(shù)據(jù)

        在這74個解釋變量中,首先需要進行簡單的篩選,剔除那些搜索記錄為0的變量,發(fā)現(xiàn)所選變量均未出現(xiàn)上述情況,然后對剩下的變量進行隨機性檢驗,然后再檢驗各個變量與被解釋變量的相關系數(shù),相關系數(shù)如果小于0.4,認為顯著不相關,所以剔除。將相關系數(shù)絕對值大于0.4的變量留下,最后留下了36個變量。由于變量之間存在很嚴重的共線性,利用主成分分析法進行降維又存在很多問題,而lasso算法能夠有效處理多重共線性,它的基本思想是在回歸系數(shù)的絕對值之和小于一個常數(shù)的約束條件下,使得殘差最小化,從而可以將所選入的一些對模型沒有貢獻的指標系數(shù)直接壓縮為0,達到特征選擇或者壓縮變量的目的。在R語言中可以使用Lars函數(shù)包實現(xiàn)這一過程,利用AIC準則給統(tǒng)計模型的變量做一個截斷,實現(xiàn)降維過程。通過程序運行的結果,我們最終選用5個變量作為解釋變量,這五個變量代表的關鍵詞分別是房貸利率表,合肥房產地圖,房貸利率優(yōu)惠,房價調控,個人所得稅,我們將這五個變量依次命名為 X1、X2、X3、X4、X5,可以看出,這五個變量基本上未涉及到房地產開發(fā)商的行為,即使我們在確定初始關鍵詞的時候,選取了房地產開發(fā)商可能會進行搜索的關鍵詞,但是發(fā)現(xiàn)與我們所要研究的房價指數(shù)并沒有什么明顯的關系,所以在接下來的建模過程中,利用上述五個解釋變量可能會遺漏關于房地產開發(fā)商的影響因素,這也是文中的不足之處,但是由于技術水平的限制,如何找到與房價有關的供給方面的關鍵詞,還需要進一步的研究。

        3.解釋變量與被解釋變量的關系

        分別作出Y與X1-X5的折線圖,如圖2-6所示,可以看出,X1、X2、X3與 Y的整體趨勢剛好是相反的,而X4、X5與 Y的整體趨勢是相同的,盡管在某些時間內存在一些差異,因此利用搜索數(shù)據(jù)來預測房價指數(shù)是可行的。

        圖2 Y與X1的雙軸圖

        圖3 Y與X2的雙軸圖

        圖4 Y與X3的雙軸圖

        圖5 Y與X4的雙軸圖

        圖6 Y與X5的雙軸圖

        4.預測模型的建立與分析

        (1)SVR 模型

        SVR(支持向量機回歸)模型實際上是SVM(支持向量機)的一種推廣形式,支持向量機是目前最為常用、效果最好的分類器之一,因為其本身的優(yōu)化目標是結構風險化最小,而不是經驗風險最小,因此減低了對數(shù)據(jù)規(guī)模和數(shù)據(jù)分布的要求,能夠在小樣本訓練集上有突出的表現(xiàn),SVM的提出首先是為了解決分類問題的,而SVR則是解決回歸問題的。因此這兩種模型的目標函數(shù)都是一樣的,與SVM相似,通過最小化結構風險函數(shù)構造的原始優(yōu)化問題可以求解權重向量以及常數(shù):

        (2)模型的評價指標

        使用MSE(均方誤差)和NMSE(標準均方誤差)來比較兩個模型,其中,模型的穩(wěn)定性由MSE判定,模型的擬合度由NMSE判定,兩個評級指標的數(shù)值都是越小越好,兩個指標的公式如下:

        二、實證研究

        考慮到需要檢驗模型的可靠性,我們將樣本分為訓練集和檢驗集,訓練集的時間區(qū)間為2012年1月至2017年12月,檢驗集的時間區(qū)間為2018年1月至2018年3月,以訓練集來建立模型,以檢驗集來檢驗模型的可靠性。

        (一)SVR模型的建立與分析

        將數(shù)據(jù)導入R語言中,利用kernlab函數(shù)包來實現(xiàn)SVR的過程。在SVR中需要確定參數(shù)的最優(yōu)值,使用train.auto函數(shù)確定最優(yōu)值,得到最優(yōu)值為ε=0.1,C=10,通過運行已經寫好的程序,對訓練集進行擬合,計算出該模型的MSE和NMSE分別為2.34和0.018,可以看出模型的預測精度很好。為了驗證該模型的預測效果,我們引入傳統(tǒng)的時間序列模型SARIMA模型與其進行比較。

        (二)SARIMA模型的建立與分析

        SARIMA模型是指帶季節(jié)差分ARIMA的模型,如果時間序列只包含趨勢性,可以表示ARIMA(p,d,q)模型,如果時間序列同時包含季節(jié)性和趨勢性,則可表示為 SARIMA(p,d,q)×(P,D,Q)s。 其中,d,D 分別為逐期差分和季節(jié)差分的階數(shù),p,q分別為自回歸和移動平均的階數(shù),P,Q分別為季節(jié)自回歸和季節(jié)移動平均的階數(shù)。

        考慮到異方差的問題,在建立模型前,對數(shù)據(jù)都進行了取對數(shù)處理,然后導入數(shù)據(jù),利用R軟件畫時序圖,發(fā)現(xiàn)房價指數(shù)序列存在季節(jié)性和趨勢性,利用zoo函數(shù)包和forecast函數(shù)包來實現(xiàn)SARIMA模型的預測,通過arima.auto函數(shù)尋找擬合最優(yōu)的模型,最終得到最優(yōu)的模型為 SARIMA (1,1,0)×(2,1,0)12,ar1的系數(shù)為 0.5638,sar1的系數(shù)為 0.6892,sar2的系數(shù)為-0.2759,該模型的MSE和NMSE分別為5.69和0.043。

        (三)模型預測結果的比較

        通過訓練集的擬合結果來看,加入了搜索項的SVR模型要優(yōu)于僅使用歷史數(shù)據(jù)的SARIMA模型,為了推廣到未知樣本的情形,我們利用檢驗集再一次的檢驗兩個模型的預測效果,在此我們以平均誤差率來評價模型的精度,計算得到的平均誤差率見表3,可見如果未來發(fā)生波動,SARIMA模型由于只能利用歷史數(shù)據(jù),預測效果就會變差,而SVR模型由于利用了即時的信息,預測效果不會發(fā)生很大的改變,因此可以利用SVR模型對合肥市的房價指數(shù)進行預測。 預測得到合肥市2018年4月的新建商品住宅銷售價格指數(shù)為106.25。(本文中的預測值均是扣除了一般物價指數(shù)因素后的值)

        三、結語

        表3兩個模型的預測值及平均誤差率

        本文首先從供需理論出發(fā),找到百度指數(shù)關鍵詞搜索數(shù)據(jù)與房價指數(shù)之間的相關關系,然后以合肥市2012年1月至2018年1月的新建商品住宅銷售價格指數(shù)以及“合肥房價”、“樓盤”、“建材網”等74個關鍵詞數(shù)據(jù),通過lasso算法選取進入模型的關鍵詞,以此來對房價指數(shù)進行擬合與預測,得到結論:

        1.加入搜索數(shù)據(jù)的SVR模型的預測效果要好于ARIMA模型,這說明網絡搜索數(shù)據(jù)是可以用于房價指數(shù)的預測中去的。

        2.不僅僅是房價指數(shù)數(shù)據(jù),只要能夠從理論出發(fā),利用網絡搜索數(shù)據(jù)可以對其他變量進行預測,比如股票的收益率,CPI指數(shù)、失業(yè)率等。

        3.只要每個月月底對搜索數(shù)據(jù)進行處理,就能得到該月的房價指數(shù),而官方數(shù)據(jù)發(fā)布時間通常是下個月15-20號,因此利用模型預測房價指數(shù)可以比官方數(shù)據(jù)提前15-20天,能夠實時的對房地產市場進行監(jiān)控,有很好的預警效果。

        4.利用網絡搜索數(shù)據(jù)建立預測型,怎樣科學的選取關鍵詞是難點,在本文中,即使綜合考慮了三個方面的因素,也不能完全代表房地產市場的各種因素,這也是本文中存在缺陷的地方。百度指數(shù)上的關鍵詞搜索數(shù)據(jù),并不能完全代表消費者和房地產開發(fā)商的整體行為,因為還有一部分人買房是通過其他搜索引擎或傳統(tǒng)方式 (傳統(tǒng)媒體或親戚朋友口耳相傳)收集信息的,所以下一步研究還得考慮到各個地區(qū)網絡普及率的情況。

        猜你喜歡
        價格指數(shù)百度房價
        2020年12月中國稀土價格指數(shù)及四大功能材料價格指數(shù)
        稀土信息(2021年1期)2021-02-23 00:31:28
        兩大手段!深圳土地“擴權”定了,房價還會再漲?
        Robust adaptive UKF based on SVR for inertial based integrated navigation
        防范未然 “穩(wěn)房價”更要“穩(wěn)房租”
        中華建設(2019年8期)2019-09-25 08:26:04
        百度年度熱搜榜
        青年與社會(2018年2期)2018-01-25 15:37:06
        8月百城價格指數(shù)環(huán)比連續(xù)16個月上漲
        7月百城價格指數(shù)環(huán)比連續(xù)15個月上漲
        各種價格指數(shù)
        去庫存的根本途徑還在于降房價
        公民與法治(2016年8期)2016-05-17 04:11:34
        2016房價“漲”聲響起
        国产亚洲精品美女久久久m | 精品少妇一区一区三区| 成人一区二区三区蜜桃| 国产让女高潮的av毛片| 国产aⅴ无码专区亚洲av麻豆 | 免费国产99久久久香蕉| 国产三级在线观看不卡| 丰满少妇按摩被扣逼高潮| 免费人成视频xvideos入口| 天天狠狠综合精品视频一二三区| 日本高清一区二区三区视频| 日本一区二区三区光视频| 欧美性xxxx极品高清| 日本色噜噜| 亚洲av粉嫩性色av| 国产嫩草av一区二区三区| 性高湖久久久久久久久| 国产人在线成免费视频麻豆| 亚洲av精品一区二区| 国产三级精品视频2021| 国产麻豆精品久久一二三| 亚洲a级片在线观看| 亚洲成人av在线播放不卡 | 精品无人码麻豆乱码1区2区| 人妻熟妇乱又伦精品视频app | 欧美国产日产一区二区| 亚洲国产精品免费一区| 老熟女老女人国产老太| 亚洲中文字幕在线观看| 亚洲女同精品一区二区久久| 日本精品av中文字幕| 很黄很色很污18禁免费| av无码久久久久久不卡网站| 亚洲专区在线观看第三页| 91九色人妻精品一区二区三区| 天干天干天啪啪夜爽爽av| 国产精品一区二区av片| 国产91精品自拍视频| 综合色就爱涩涩涩综合婷婷| 欧美人成人亚洲专区中文字幕| 日本二区三区视频免费观看|