亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林模型的房價預測

        2016-11-19 17:16:09陳世鵬金升平
        科技創(chuàng)新與應用 2016年4期
        關鍵詞:ARMA模型多元線性回歸模型隨機森林

        陳世鵬 金升平

        摘 要:根據(jù)襄陽2012年的房貸數(shù)據(jù),考慮影響房價的各種特征變量,嘗試建立隨機森林模型,利用其優(yōu)秀的集成學習能力和泛化能力對測試樣本進行房價預測,并與學者應用較多的ARMA模型及經(jīng)典的多元線性回歸模型預測的房價和實際房價進行對

        比,取得了較好的效果。

        關鍵詞:隨機森林;房價;ARMA模型;多元線性回歸模型

        1 傳統(tǒng)的房價預測模型簡介

        1.1 ARMA模型

        ARMA即自回歸滑動平均模型,是研究時間序列的重要方法,可以研究并預測房價隨時間的變化,由AR(Auto-Regressive)和MA(Moving-Average)兩個部分組成,若時間序列yt服從(p,q)階的ARMA模型,則其滿足形式為:

        1.2 多元線性回歸模型

        多元線性回歸模型經(jīng)常用來刻畫一個變量受多個變量影響時的情況,適用于自變量與因變量之間呈現(xiàn)密切的線性相關且自變量之間具有一定的互斥性的情形,其基本模型如下:

        2 隨機森林模型的建立

        2.1 隨機森林建模的步驟

        隨機森林在建立模型及預測的流程如圖1所示:

        其基本思想是通過自助法重采樣技術從原始訓練樣本集中抽取樣本生成新的訓練樣本集合,由此生成多棵決策樹組成隨機森林,分類數(shù)采取投票方式、回歸數(shù)利用均值來進行結果預測,具體步驟為:(1)確定生成一棵決策樹時用到的特征變量個數(shù)m(

        助樣本集,并由此構建K棵決策樹,每次未被抽到的樣本組成k個袋外數(shù)據(jù),即out-of-bag(OOB);(3)每個自助樣本集生長為單棵決策樹,每個節(jié)點處按照節(jié)點不純度最小原則選取特征進行充分生長,不進行剪枝操作;(4)根據(jù)生成的決策樹分類器對預測集進行預測,對每棵樹的預測結果求均值即為最終預測結果[3]。

        2.2 模型的建立與優(yōu)化

        整合2012年襄陽房貸數(shù)據(jù),得到6354條有效數(shù)據(jù),其中特征變量有房子所在樓層、總樓層、所在區(qū)域、房子面積、交易時間等,解釋變量為每平方米單價(千元)。以總數(shù)據(jù)的75%作為訓練集構造隨機森林,剩下的25%數(shù)據(jù)作為測試集用來檢驗模型。每次抽取若干數(shù)據(jù)和特征變量,以信息增益或基尼指數(shù)作為衡量標準來選擇節(jié)點處特征,然后進行充分生長構建決策樹。

        隨機森林中最重要的兩個參數(shù)有樹節(jié)點預選的特征變量個數(shù)、隨機森林中決策樹的個數(shù)。特征變量個數(shù)決定了每棵樹的規(guī)模,太多會導致每棵決策樹差別不大,產(chǎn)生過擬合現(xiàn)象;太少則不能從數(shù)據(jù)中有效學習模型。同理,決策樹數(shù)量太多會浪費很多時間進行計算,太少則預測效果很差。

        圖2中a圖是利用R語言計算的默認的特征變量個數(shù)為1時的絕對累積誤差和,可以發(fā)現(xiàn)當決策樹的數(shù)量大于150以后,模型累積誤差趨于穩(wěn)定;對特征變量的個數(shù)進行遍歷,可以發(fā)現(xiàn)預選個數(shù)為2時誤差和最小,如b圖所示。

        3 預測結果的對比

        根據(jù)整合的房貸數(shù)據(jù),由訓練集建立模型,利用測試集來對房價進行預測,隨機森林與傳統(tǒng)的ARMA模型和多元線性回歸模型預測的部分房價(單位:千元/平方米)數(shù)據(jù)如表1所示。

        4 結果分析

        由預測結果可以看出,隨機森林模型取得了較好的預測效果,基于OOB數(shù)據(jù)和測試集數(shù)據(jù)的絕對誤差均值分別為大約0.08(千元/平方米)和0.2(千元/平方米),相對誤差分別只有1.6%和4%,雖然上述預測結果相對于ARMA等傳統(tǒng)模型優(yōu)勢并不明顯,這是由于文章采用的數(shù)據(jù)特征變量數(shù)較少所導致的。實際中影響房子價格的可能還有小區(qū)的停車位、環(huán)境、運動設施、物業(yè)管理費用,周邊的交通如公交線路、地鐵線路的數(shù)量,到醫(yī)院、學校、銀行、商場、菜市場、CBD的距離等因素[4],隨機森林的優(yōu)勢在當特征變量數(shù)增加時會更加明顯,其預測精度會進一步提升。

        參考文獻

        [1]常振海,劉薇.基于非參數(shù)自回歸模型的房價預測[J].天水師范學院學報,2010,3(2):56-58.

        [2]劉忠璐.ARIMA模型在房價預測中的應用[J].決策與信息,2011(4):3-4.

        [3]黃文,王正林.數(shù)據(jù)挖掘:R語言實戰(zhàn)[M].電子工業(yè)出版社,2014:220-241.

        [4]孫憲華,張臣曦.房屋質(zhì)量及其對房地產(chǎn)價格指數(shù)的影響[J].統(tǒng)計與信息論壇,2009(9):43-47.

        作者簡介:陳世鵬,男,武漢理工大學碩士,研究方向:最優(yōu)化理論與計算。

        金升平,男,教授,碩士生導師,研究方向:金融統(tǒng)計計算與隨機模擬。

        猜你喜歡
        ARMA模型多元線性回歸模型隨機森林
        隨機森林在棉蚜蟲害等級預測中的應用
        基于二次隨機森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預報的隨機森林模型及應用
        公司產(chǎn)品差異化對股本回報率影響的實證分析
        中國市場(2016年31期)2016-12-19 07:53:40
        基于多元回歸模型的廈門房地產(chǎn)市場非均衡度分析
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        B—J方法在廣西人均生活用電消費量預測中的應用
        基于ARMA模型的我國國內(nèi)生產(chǎn)總值GDP的預測與分析
        商(2016年13期)2016-05-20 09:13:51
        金融發(fā)展與經(jīng)濟增長實證分析
        商(2016年11期)2016-05-04 00:31:26
        基于ARMA模型的我國居民消費價格指數(shù)的分析及預測
        商(2016年6期)2016-04-20 17:55:33
        av天堂一区二区三区| 真人新婚之夜破苞第一次视频| 久久99精品国产99久久6尤物 | 国产乡下三级全黄三级| 亚洲五月天综合| 中文字幕人成人乱码亚洲| 亚洲国产精品色一区二区 | 久久综合精品人妻一区二区三区| 亚洲国产aⅴ成人精品无吗| 国产精品久久久久久52avav | 青青草在线免费观看视频| 又硬又粗进去好爽免费| 国产精品多p对白交换绿帽| 草草网站影院白丝内射| 国产日韩午夜视频在线观看| 午夜视频免费观看一区二区| 国产洗浴会所三级av| 亚洲国产精品成人天堂| 亚洲av无码国产精品色软件下戴| 国产精品亚洲五月天高清| 国产91精品丝袜美腿在线| 亚洲1区第2区第3区在线播放| 91九色国产老熟女视频| 国产精品人人做人人爽人人添| 变态 另类 欧美 大码 日韩| 永久免费看免费无码视频| 免费高清日本一区二区| 少妇被粗大进猛进出处故事| 老师露出两个奶球让我吃奶头| 免费国精产品自偷自偷免费看| 午夜国产精品视频免费看电影 | 国产乱色国产精品免费视频| 色视频日本一区二区三区| 45岁妇女草逼视频播放| 影音先锋中文字幕无码资源站| а中文在线天堂| 日本中出熟女一区二区| 91久久综合精品久久久综合| 无码aⅴ免费中文字幕久久| 馬与人黃色毛片一部| 国产一区二区三区免费小视频|