亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學習的武漢二手房估價模型研究

        2019-09-10 01:16:05姚沖閉鑫業(yè)
        商訊·公司金融 2019年10期
        關鍵詞:集成學習隨機森林

        姚沖 閉鑫業(yè)

        摘要:本文通過集成學習方法對武漢市二手房的數據進行分析和研究。本文構建了三種二手房房價估值模型:一、決策樹集成的隨機森林模型:二、通過AdaBoost,采用多層感知器神經網絡構建了神經網絡集成模型;三、用XGBoost方法建模,并對三種模型進行分析對比,結果顯示使用AdaBoost算法建立的模型更準確。

        關鍵詞:武漢二手房:集成學習:隨機森林:XCBoost

        隨著全國二手房關注度的提高,與二手房交易相關的抵押等交易越來越豐富,而買賣前的二手房估價是非常重要的環(huán)節(jié)?,F有運用數理模型進行房價預估的研究中較為常見的是采用最小二乘法擬合多元線性回歸法。這種方法在建模的中一般要求誤差項要符合零均值并且獨立同分布的設想。此外,這些方法通常用t檢驗來檢測回歸系數的顯著性,用F檢驗來檢測模型整體水平的顯著性。但是如果數據不能夠滿足正態(tài)性條件,t檢驗與F檢驗的方法相對不滿足正態(tài)分布的數據來說沒有多大意義。在對相對復雜的數據進行建模時,簡單的線性回歸算法會有欠擬合和模型解釋能力較低的問題。為了避免以上評估方法的限制,尋找到更好的評估方法,本文使用集成學習的方法,用隨機森林、AdaBoost、XGBoost三種方法進行建模,分別得到隨機森林、AdaBoost、XGBoost三個模型,用測試集數據進行測試,再進行調參,用MAE(平均絕對誤差)評估模型的適用程度。

        一、數據探索

        (一)數據來源

        1.原始數據

        本次報告所采用的數據源來自“鏈家網”中的武漢二手房相關數據f如圖l所示 2.數據清洗 如圖l所示,數據不僅結構混亂,且含有缺失值,不匹配的記錄。首先,刪去不匹配的、缺失值內容太多的記錄:其次,利用Python將混合字段拆分成獨立的字段;最后,利用替換功能,將特殊字符、單位去掉變?yōu)閿抵敌蛿祿?,并將變量的數據統一化處理。經過處理后,研究的變量為武漢二手房每平方米的價格,影響因素包括武漢二手房的建房年份、面積、樓層位置、樓層總高度、臥室數量、所在區(qū)域、裝修情況、戶型結構、產權年限、是否配備電梯等因素。

        (二)描述性分析

        1.武漢市二手房房價分布

        根據上述處理過的數據,利用Pvthon繪圖工具包mat-plotlib和seahorn分析工具可得出二手房單位價格大多處于10000 - 30000元之間,且集中在50平方米至150平方米區(qū)間內,分布帶有輕微的有偏性,但大致服從正態(tài)分布,高價位和低價位的二手房數都相對較少,且最高不超過5萬/平方米。

        二手房相對于新的商品住宅來說,樓房建造時間對價格影響較大,武漢市二手房建造年份主要是在2000年左右,相對較新:而2000年之前的老房子掛牌銷售的較少。

        2.武漢市二手房房價影響因素分析

        對二手房房價影響的因素有很多,如樓房是否有電梯,房子所在區(qū)域,樓層結構,產權年限以及裝修程度等因素。

        首先,影響價格因素最大的是區(qū)域。武漢市在售的二手房在洪山區(qū)、武昌區(qū)、江岸區(qū)等區(qū)域的房價較高,而蔡甸、新洲地區(qū)房價相對較低。

        其次,武漢市在售的二手房中影響次要原由樓層結構,裝修程度等。在售房中,主要樓層結構有平層、復式、錯層、躍層,其中復式價格相對較高,而平層是購房較多的購房結構。產權年限對價格的影響也比較大,一般選擇70年產權比較符合大多數人的情況。裝修方式對房價的影響也比較顯著,其中精裝的武漢二手房房價相對較高,其余裝修方式對應的房價依次按照簡裝、毛坯的順序遞減。

        最后,電梯對二手房價格有較明顯的影響,有電梯的二手房房價集中偏高于20000元每平方米,而沒有電梯的二手房房價則明顯低于有電梯的。

        綜上所述,最受關注的武漢二手房,其每平方米的價格大概是20000元左右,面積普遍都在50平方米至200平方米之間,高樓層,樓型為板樓,建筑時問在2000年以后。并且,處于武昌、江漢區(qū)等繁華地區(qū)、裝修方式為精裝、樓型為板塔結合、社區(qū)有電梯的二手房房價相對較高。

        二、武漢市二手房建模及評估

        (一)建模流程

        1.建模思路

        經過數據清洗后,將清洗后的數據分為訓練集、測試集,分別為變量訓練集X_train、變量測試集X test、因變量訓練集y_train、因變量測試集y_test,分別得到以隨機森林、AdaBoost、XGBoost為算法的模型,進行調參,選取最好的結果,對這三個模型進行比較,選中較好的模型作為預測模型。

        2.基礎算法與集成算法

        本文對數據進行集成算法訓練前也對基礎算法進行訓練,有線性回歸、邏輯回歸、決策樹回歸等,對其進行建模,得到的MAE遠大于集成學習的評估,對此基礎算法對于該數據的二手房估價并不是很準確,因此選擇了集成學習算法進行構建估價模型。

        (二)隨機森林

        利用Python軟件中的sklearn庫的隨機森林算法,通過調節(jié)算法中的超參數,讓模型達到最好的擬合效果。其中,需要調節(jié)的主要參數。

        n_estimators是指隨機森林算法中決策樹的數量,默認值為10,經過不斷調試,n_estimators= 250時,MAE達到較好的效果。

        n_johs= -1為計算機使用最大核數,只影響計算時間,不影響計算結果。

        random_state為隨機種子,這里的參數值為666,為了方便對比,不會因為訓練集所選的數據不一樣影響結果。

        max_samplessplit=4,所需的最少樣本數量作為分割內部節(jié)點,經調試,等于4時效果最好。

        max_depth= 45,樹的最大深度,防止過擬合,該超參數力45時效果最好。

        經過調節(jié)這些參數后計算出MAE= 2563.3151。

        f三)AdaBoost

        同樣的在Python中的sklearn中使用AdaBoost算法,其調整的參數類似與隨機森林,因為兩種算法都是以決策樹為基礎,參數意義基本相同。需要調節(jié)的主要參數。

        maxdepth= 15,樹的深度,防止過擬合,在此算法中,該超參數為15時效果最好。

        maxsamples_split=4,參數意義同隨機森林。

        random_state= 666,參數意義同隨機森林。

        n_estimators參數意義同隨機森林,默認值為10,經過不斷調試,n estimators= 480時,MAE達到較好的效果。

        最后輸出的MAE= 2524.6871。

        (四)XC.Boost

        在Python中,使用XCBoost建模,其主要超參數。

        min_child_weight是最小葉子節(jié)點樣本的權重和。xc-Boost是這個參數是最小樣本權重的和,而CBM是最小樣本和,這個參數用于避免過擬合。min_childweight=6時MAE達到較好的效果。

        gamma是算法在節(jié)點分裂的時候,當分裂后損失函數的值下降了,才能分裂這個節(jié)點。Gamma指出節(jié)點分裂所用最小損失函數下降值。這個參數越大,算法相對保守。Gamma=0.1,效果最好。

        colsample_bylevel用來控制決策樹的每級的每次分裂,對列數特征的采樣的占比,colsample_bylevel=0.9時效果較好。

        lamhda權重的L2正則化項(Ridge regression類似)。參數是用來控制XCBoost的正則化部分,防止過擬合,lamhda=l時效果較好。

        最后輸出MAE= 2861.4871。

        (五)模型評估

        在使用集成學習算法構建成的模型,使用隨機森林建立起的模型進行估價,將會存在2563元左右的誤差,使用AdaBoost算法建立的模型,對該二手房數據的擬合更高,得到更好的估價模型。

        經過調試三個模型,AdaBoost的模型效果比隨機森林和XCBoost更好,相對于武漢市二手房均價20000元/平方米的價格,AdaBoost的模型預測誤差MAE在2500元左右,是均價的12.6%左右,該模型可以對武漢市二手房做大致的估價(如表2所示)。

        三、結果與展望

        (一)分析總結

        本文通過對從鏈家網獲取的2985條武漢市二手房交易數據進行探索、集成學習的方式建立估價模型,得到以下結論。

        第一,從變量來看,房子的區(qū)域、大小、建造年份對價格影響比較大。武昌、江漢等區(qū)域二手房房價相對較高,江夏、蔡甸等區(qū)域則相反:房價每平方米的價格大概是20000元左右,面積普遍都在200平方米以下,位于高樓層,樓型為板樓,社區(qū)有電梯、建筑時問在2000年以后等特點。

        第二,對于二手房價格估價模型,集成學習優(yōu)勢高于單個算法建立的模型,在隨機森林、AdaBoost、XCBoost這三個模型中,AdaBoost擬合效果最好,能更好地對二手房進行估價。

        第三,在房地產估價中,人T-智能以及機器學習的介入,可以幫助該行業(yè)迅速發(fā)展。當二手房中介建立估價模型時,應當使用大量二手房交易數據,信息越詳細通過機器學習訓練出來的模型,才能更準確地對房價進行估算。

        (二)研究的不足與展望

        本文不足主要在數據獲取方面,首先,因為計算機性能、軟件、二手房網站信息不全等方面的影響,收集到的數據較少,缺失較大,信息不詳細,用于建模的數據噪音較大,以至于影響最后結果。其次,沒有在文本挖掘方面提取其他信息,比如是否靠近地鐵,是否是學區(qū)房等因素。最后,二手房市場的價格容易受政策的干預,應該進一步考慮到政策的影響。

        參考文獻:

        [1]吳姍撕.基于BP神經網絡的南京市房價預測[J].市場周刊.2016.

        [2]袁秀芳,鄭伯川,焦偉超.基于SVR的上海市商品房價格預測『J].西華師范大學,2016.

        [3]霍妹宇,王春萍,史朝陽.基于聚類分析技術的昆明二手房源價格分析[J].中國集體經濟,2016.

        [4]王智超.基于數據挖掘的房價預測分析[J].四川大學.2017.

        [5]劉冰,金躍強,王書營.南京市二手房房價影響因素的多元線性回歸分析[J].南京工業(yè)技術學院,2017.

        猜你喜歡
        集成學習隨機森林
        基于局部有效性的選擇性決策樹集成
        基于集成學習的高送轉股票研究
        時代金融(2016年36期)2017-03-31 05:44:10
        基于稀疏編碼器與集成學習的文本分類
        基于屬性權重的Bagging回歸算法研究
        隨機森林在棉蚜蟲害等級預測中的應用
        基于二次隨機森林的不平衡數據分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測預報的隨機森林模型及應用
        基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
        基于改進的LogitBoost算法的垃圾網頁檢測研究
        科技視界(2015年27期)2015-10-08 11:01:28
        基于隨機森林算法的B2B客戶分級系統的設計
        国产自国产在线观看免费观看| 久久在一区二区三区视频免费观看| 一区二区三区内射美女毛片 | 亚洲色精品三区二区一区| 97精品国产手机| 色狠狠一区二区三区香蕉蜜桃| av在线不卡一区二区三区| 中文字日产幕码三区的做法大全 | 九月色婷婷免费| 一区视频免费观看播放| 牛牛在线视频| 日韩精品无码一区二区三区免费| 日本国产一区二区三区在线观看| 久久88综合| 亚洲精品一区二区三区国产| 日韩三级一区二区三区| 日日婷婷夜日日天干| 国产美女在线精品亚洲二区| 一本久道视频无线视频试看 | 精品中文字幕久久久人妻| 亚洲av福利院在线观看| 不卡高清av手机在线观看| 亚洲中文欧美日韩在线| 亚洲av少妇一区二区在线观看| 人人妻人人澡人人爽欧美一区双| 老少交欧美另类| 日本视频精品一区二区| 精品国内日本一区二区| 欧美内射深喉中文字幕| 无码人妻一区二区三区免费手机| 伊人狼人激情综合影院| 中文字幕有码无码人妻av蜜桃 | 亚洲一区久久久狠婷婷| 国产激情久久久久久熟女老人| 性一交一乱一伦a片| 精品国产1区2区3区AV| 狼人综合干伊人网在线观看| 久久精品国产亚洲av网| 亚洲处破女av日韩精品| 97精品国产高清自在线看超| 中文字幕一区二区av|