亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于組合模型的城市住房租金預(yù)測(cè)研究

        2021-11-02 02:19:21譚靜
        關(guān)鍵詞:機(jī)器學(xué)習(xí)

        摘要:針對(duì)我國(guó)住房租賃市場(chǎng)存在的信息不對(duì)稱(chēng)、租金不夠透明問(wèn)題,提出基于互聯(lián)網(wǎng)數(shù)據(jù)和機(jī)器學(xué)習(xí)的住房租金預(yù)測(cè)方法。以深圳市居住小區(qū)租金為例,系統(tǒng)比較了支持向量回歸、前饋神經(jīng)網(wǎng)絡(luò)、XGBoost、隨機(jī)森林、K近鄰5種機(jī)器學(xué)習(xí)回歸算法的預(yù)測(cè)績(jī)效,并采用集成學(xué)習(xí)理論對(duì)模型有效性進(jìn)行了增強(qiáng),同時(shí)從機(jī)器學(xué)習(xí)的角度對(duì)住房租金影響因素進(jìn)行了分析。結(jié)果顯示:隨機(jī)森林和XGBoost在住房租金預(yù)測(cè)問(wèn)題上的預(yù)測(cè)性能優(yōu)于其他機(jī)器學(xué)習(xí)模型,而基于集成學(xué)習(xí)理論構(gòu)建的組合預(yù)測(cè)模型則優(yōu)于個(gè)體機(jī)器學(xué)習(xí)模型。進(jìn)一步地,基于樹(shù)集成方法的特征重要性分析發(fā)現(xiàn),交通、教育以及區(qū)位條件是影響住房租金的關(guān)鍵影響要素。

        關(guān)鍵詞:互聯(lián)網(wǎng)數(shù)據(jù);住房租金預(yù)測(cè);機(jī)器學(xué)習(xí);集成學(xué)習(xí);組合模型

        中圖分類(lèi)號(hào):F293 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1001-9138-(2021)09-0053-61 收稿日期:2021-08-05

        作者簡(jiǎn)介:譚靜,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院&深圳市房地產(chǎn)評(píng)估發(fā)展中心,博士后。

        基金項(xiàng)目:中國(guó)博士后科學(xué)基金第68批面上資助項(xiàng)目“新時(shí)代背景下區(qū)位導(dǎo)向性政策‘內(nèi)卷化困境及突破路徑研究”(2020M682958)。

        在人口城市化進(jìn)程不斷加快、大城市“房?jī)r(jià)高企”以及“租購(gòu)并舉”的背景下,住房租賃市場(chǎng)發(fā)揮作為住房買(mǎi)賣(mài)市場(chǎng)重要補(bǔ)充的角色越來(lái)越迫切。其中,住房租金是影響住房租賃市場(chǎng)能否健康平穩(wěn)發(fā)展的關(guān)鍵因素。當(dāng)前,住房租賃市場(chǎng)普遍存在信息不對(duì)稱(chēng)、租金不透明問(wèn)題。部分大中城市由于住房租金漲幅過(guò)快或波動(dòng)較大,增加了居民租房壓力,不利于住房消費(fèi)穩(wěn)定,同時(shí)透支城市居民未來(lái)消費(fèi)能力,成為國(guó)內(nèi)擴(kuò)大需求的障礙之一。2020年中央經(jīng)濟(jì)工作會(huì)議提出要“解決好大城市住房突出問(wèn)題”“對(duì)租賃價(jià)格水平進(jìn)行合理調(diào)控”。構(gòu)建一套科學(xué)合理、可操作性強(qiáng)的住房租金預(yù)測(cè)體系,掌握精細(xì)化尺度的住房租金水平及其空間分布,對(duì)規(guī)范和發(fā)展城市住房租賃市場(chǎng)具有重要意義。

        互聯(lián)網(wǎng)和大數(shù)據(jù)的發(fā)展為不動(dòng)產(chǎn)交易或房屋出租等帶來(lái)了越來(lái)越多便利,互聯(lián)網(wǎng)房租數(shù)據(jù)可以為研究提供大規(guī)模的住房信息。房屋租金通常由住房租賃市場(chǎng)供需等宏觀因素以及位置地段等房屋商品特征因素綜合決定,但是對(duì)于租房這個(gè)相對(duì)傳統(tǒng)的行業(yè)來(lái)說(shuō),信息嚴(yán)重不對(duì)稱(chēng)一直存在。因此,利用實(shí)時(shí)更新的互聯(lián)網(wǎng)大數(shù)據(jù),構(gòu)建一種低成本、高效率、準(zhǔn)確性高且可推廣的住房租金預(yù)測(cè)模型,就顯得十分重要。既有關(guān)于住房租賃市場(chǎng)的研究主要集中于住房租賃制度和租金影響因素,住房租金預(yù)測(cè)相關(guān)的研究較少。機(jī)器學(xué)習(xí)是人工智能領(lǐng)域的新興研究方向,對(duì)建模數(shù)據(jù)的分布無(wú)嚴(yán)格限制,具有適用性強(qiáng)的優(yōu)勢(shì)。國(guó)內(nèi)外不少研究將機(jī)器學(xué)習(xí)引入到房地產(chǎn)預(yù)測(cè)領(lǐng)域,但研究對(duì)象主要集中于房?jī)r(jià),在住房租金預(yù)測(cè)領(lǐng)域研究中的應(yīng)用仍然非常有限。

        本文基于互聯(lián)網(wǎng)數(shù)據(jù)和機(jī)器學(xué)習(xí)相關(guān)方法,構(gòu)建組合預(yù)測(cè)模型實(shí)現(xiàn)對(duì)城市住房租金的精細(xì)化預(yù)測(cè)。為了驗(yàn)證所提出方法和模型的準(zhǔn)確性,以深圳市居住小區(qū)租金為對(duì)象,采用在線房地產(chǎn)網(wǎng)站掛牌租賃數(shù)據(jù)對(duì)模型進(jìn)行了實(shí)證檢驗(yàn)。進(jìn)一步地,基于機(jī)器學(xué)習(xí)模型的特征重要性,對(duì)影響住房租金的關(guān)鍵因素進(jìn)行了分析和討論。本研究為城市住房租金批量預(yù)測(cè)提供了可借鑒、操作性強(qiáng)的思路和方法,可為政府制定房屋政策提供重要的決策依據(jù)。

        1 相關(guān)理論基礎(chǔ)

        1.1 特征價(jià)格理論

        特征價(jià)格理論是研究異質(zhì)性產(chǎn)品價(jià)格形成的一種經(jīng)典理論,主要包含Lancaster 1966年提出的消費(fèi)者理論和Rosen 1974年提出的市場(chǎng)供需均衡模型兩方面內(nèi)容。其核心思想是異質(zhì)產(chǎn)品是由大量?jī)?nèi)在屬性構(gòu)成的,消費(fèi)者對(duì)產(chǎn)品的需求是基于產(chǎn)品本身的各種屬性或特征,而非產(chǎn)品本身,這些屬性的組合影響了消費(fèi)者的效用,進(jìn)而影響消費(fèi)者的支付意愿。基于該理論,房地產(chǎn)價(jià)格相關(guān)研究往往將住房?jī)r(jià)格或住房租賃價(jià)格的影響因素劃分為建筑特征、鄰里特征以及區(qū)位特征三大類(lèi)。特征價(jià)格理論為確定住房租賃價(jià)格的影響因素提供了理論指導(dǎo)。

        1.2 集成學(xué)習(xí)理論

        集成學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)龐大的分支,也是當(dāng)前的研究熱點(diǎn)之一。但嚴(yán)格意義上,集成學(xué)習(xí)(Ensemble Learning, EL)并非機(jī)器學(xué)習(xí)的一種算法,而是集成不同模型的一種策略或框架。根據(jù)學(xué)習(xí)理念的不同,集成學(xué)習(xí)可以大致分為裝袋法(Bagging)、提升法(Boosting)和堆棧法(Stacking)。三種集成學(xué)習(xí)策略的共同點(diǎn)在于:通過(guò)對(duì)多個(gè)弱學(xué)習(xí)器(基礎(chǔ)學(xué)習(xí)模型)進(jìn)行集成實(shí)現(xiàn)知識(shí)融合以提升預(yù)測(cè)性能。區(qū)別在于,裝袋法通??紤]的是同質(zhì)弱學(xué)習(xí)器,且不同學(xué)習(xí)器之間的訓(xùn)練或?qū)W習(xí)是并行的,不存在互相依賴(lài),模型最終結(jié)果按照某種確定性平均過(guò)程給出,代表性算法為隨機(jī)森林;提升法面向的通常也是同質(zhì)弱學(xué)習(xí)器,但不同學(xué)習(xí)器之間的學(xué)習(xí)是有序進(jìn)行的,后一個(gè)弱學(xué)習(xí)器重點(diǎn)關(guān)注在前一個(gè)學(xué)習(xí)器中誤差較大的樣本,代表性算法為XGBoost;堆棧法則通常集成的是異質(zhì)弱學(xué)習(xí)器,不同學(xué)習(xí)器之間并行學(xué)習(xí),并通過(guò)一個(gè)元學(xué)習(xí)器(元學(xué)習(xí)模型)將弱學(xué)習(xí)器加以組合,根據(jù)不同弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果輸出集成模型的最終結(jié)果。受大數(shù)定律啟發(fā)的集成學(xué)習(xí)被驗(yàn)證為一種可有效提升機(jī)器學(xué)習(xí)模型性能的有效途徑,在解決不同領(lǐng)域的實(shí)際問(wèn)題中顯示出了明顯優(yōu)勢(shì),但其在住房租賃市場(chǎng)的應(yīng)用還相當(dāng)有限。

        2 研究設(shè)計(jì)

        本文選擇K近鄰、支持向量回歸、前饋神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林和XGBoost 5種常見(jiàn)的機(jī)器學(xué)習(xí)回歸算法來(lái)構(gòu)建住房租金組合預(yù)測(cè)模型。在系統(tǒng)比較個(gè)體機(jī)器學(xué)習(xí)模型預(yù)測(cè)績(jī)效的基礎(chǔ)上,基于集成學(xué)習(xí)理論中的堆棧法構(gòu)建集成學(xué)習(xí)模型,試圖說(shuō)明集成學(xué)習(xí)模型在住房租金預(yù)測(cè)問(wèn)題上的優(yōu)勢(shì)。

        2.1 數(shù)據(jù)來(lái)源及預(yù)處理

        2.1.1 數(shù)據(jù)來(lái)源

        本文選擇用于實(shí)證分析的目標(biāo)城市是我國(guó)四大一線城市之一——廣東省深圳市,它是國(guó)內(nèi)最發(fā)達(dá)、最活躍的住房租賃市場(chǎng)之一,也是全球住房租賃占比最高的城市之一。以深圳市的居住小區(qū)作為基本分析單元,以小區(qū)住房租金作為被解釋變量(模型輸出),以影響住房租金的影響因素作為解釋變量(模型輸入)訓(xùn)練租金預(yù)測(cè)模型。數(shù)據(jù)主要來(lái)源于兩方面:

        一是在線房地產(chǎn)網(wǎng)站租賃清單。住房租金數(shù)據(jù)以及小區(qū)層面的特征數(shù)據(jù),從樂(lè)有家(leyoujia.com)、鏈家(lianjia.com)、房天下(fang.com)、Q房網(wǎng)(qfang.com)四家最受歡迎和規(guī)模最大的在線房地產(chǎn)市場(chǎng)網(wǎng)站獲取。主要字段包括出租房屋“所在區(qū)域”“小區(qū)名稱(chēng)”“建成年代”“容積率”“總樓層”“租賃價(jià)格(總租金)”“出租建筑面積”“項(xiàng)目總戶(hù)數(shù)”“朝向”等,時(shí)間跨度為2020年8-12月。

        二是POI數(shù)據(jù)。本文基于POI數(shù)據(jù)構(gòu)建空間變量集合以增強(qiáng)住房租金模型的預(yù)測(cè)性能。POI(Point of Information)是一種附帶名稱(chēng)、地址以及類(lèi)別屬性的點(diǎn)位置數(shù)據(jù),可以提供特定位置的關(guān)鍵社會(huì)經(jīng)濟(jì)信息。本文POI數(shù)據(jù)來(lái)源于高德地圖開(kāi)放平臺(tái)(http://lbs.amap.com/),包括交通站點(diǎn)(地鐵站、公交站)、商業(yè)場(chǎng)所(購(gòu)物中心、大型連鎖超市)、教育設(shè)施(大學(xué)、高中、初中、小學(xué))、醫(yī)療設(shè)施和風(fēng)景名勝區(qū)等。

        2.1.2 變量選擇

        本文依據(jù)特征價(jià)格理論并借鑒住房租金影響因素相關(guān)研究成果,選擇建筑特征、鄰里特征和區(qū)位特征三大類(lèi)因素作為構(gòu)建住房租金預(yù)測(cè)模型的輸入變量,具體指標(biāo)見(jiàn)表1。關(guān)于指標(biāo)體系的簡(jiǎn)要說(shuō)明如下:

        ①建筑特征。是房屋自身的屬性,本文選取“小區(qū)建筑年齡”“項(xiàng)目規(guī)?!薄敖ㄖ?lèi)型”以及“容積率”來(lái)體現(xiàn)小區(qū)本身的特征或品質(zhì),代理指標(biāo)基于在線房地產(chǎn)網(wǎng)站小區(qū)信息構(gòu)造。

        ②鄰里特征。居住小區(qū)周邊的配套或服務(wù)情況。本文選取交通、醫(yī)療、教育、商業(yè)、文體、金融、環(huán)境七類(lèi)配套設(shè)施的數(shù)量或距離來(lái)體現(xiàn)房屋周邊配套設(shè)施或服務(wù)的可及性和便利性,代理指標(biāo)主要基于POI數(shù)據(jù)構(gòu)造。對(duì)于教育分類(lèi)中的初中和小學(xué),本文認(rèn)為采取初中/小學(xué)學(xué)校的教育水平優(yōu)質(zhì)程度來(lái)反映其對(duì)住房租金的影響更為適合,代理指標(biāo)選擇學(xué)校在上一年度的全市排名來(lái)構(gòu)造。

        ③區(qū)位特征。房屋所處地理位置的優(yōu)劣程度。例如距離市中心的距離、距離海岸線的距離等。由于區(qū)位特征過(guò)于寬泛不好量化(例如許多城市具有多中心結(jié)構(gòu)、海岸線通常很狹長(zhǎng)等),本文采取間接的方式,通過(guò)在模型中納入小區(qū)所在街道行政區(qū)這一變量來(lái)捕捉因區(qū)位特征差異導(dǎo)致的對(duì)住房租金的影響。由于建筑本身具有位置固定性,這一度量方式具有合理性。

        2.1.3 數(shù)據(jù)預(yù)處理

        原始數(shù)據(jù)存在大量雜質(zhì),需要對(duì)其進(jìn)一步處理。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、特征組合或編碼及數(shù)據(jù)歸一化。

        ①數(shù)據(jù)清洗。識(shí)別并去除重復(fù)記錄,刪除關(guān)鍵字段如“總租金”或“出租面積”缺失的樣本;以“總租金”除以“出租面積”得到“月租單價(jià)”字段,剔除面積對(duì)租金的影響,根據(jù)“月租單價(jià)”排除虛假租賃記錄或信息明顯登記錯(cuò)誤的情況。最后將“月租單價(jià)”聚合到小區(qū)層面作為該居住小區(qū)的平均租金,即被解釋變量。最終一共獲得2643條居住小區(qū)層面的數(shù)據(jù)。

        ②特征編碼。主要針對(duì)類(lèi)別型(分類(lèi))特征進(jìn)行,采用獨(dú)熱編碼(One–Hot)方式將類(lèi)別型變量轉(zhuǎn)換為啞變量,數(shù)值型變量直接采用其數(shù)值。

        ③數(shù)據(jù)歸一化。歸一化可以消除不同量綱的影響,同時(shí)提高模型預(yù)測(cè)精度。經(jīng)歸一化后的數(shù)據(jù)分布在0到1之間。數(shù)據(jù)歸一化的計(jì)算公式如式(1):

        2.1.4 特征約簡(jiǎn)

        在機(jī)器學(xué)習(xí)問(wèn)題上,當(dāng)變量維度過(guò)高時(shí),并不是所有的變量與預(yù)測(cè)結(jié)果都是相關(guān)的,一些不相關(guān)變量可能會(huì)形成噪音,對(duì)模型預(yù)測(cè)精度產(chǎn)生負(fù)面影響。因此,需要通過(guò)特征選擇篩選對(duì)住房租金真正有影響的特征以提高模型精度,規(guī)避過(guò)擬合的現(xiàn)象。本文采用套索法(Lasso)進(jìn)行特征選擇。套索法與傳統(tǒng)普通最小二乘(OLS)方法相當(dāng)接近,不同于OLS通過(guò)最小化殘差平方和求解系數(shù)值,套索法求解的目標(biāo)方程(式2)在殘差平方和的基礎(chǔ)上加上了系數(shù)的絕對(duì)值之和(L1范數(shù)),后者迫使重要性較低的變量系數(shù)取值為0。因此,套索法天然地是進(jìn)行特征選擇的一種方法。按照Lasso回歸的結(jié)果,系數(shù)為0的變量則被剔出建模過(guò)程中輸入模型的影響因素集合。

        其中? 是系數(shù)向量的一階范數(shù),是常數(shù),控制對(duì)冗余變量的懲罰度力度。

        2.2 模型構(gòu)建流程

        本文住房租金預(yù)測(cè)模型的理論架構(gòu)是首先應(yīng)用套索法作為前置模型對(duì)輸入預(yù)測(cè)模型的特征集合進(jìn)行預(yù)處理,在保證信息完整的情況下刪除冗余屬性;然后以約簡(jiǎn)后的、解釋能力強(qiáng)的關(guān)鍵特征作為機(jī)器學(xué)習(xí)模型的輸入,對(duì)模型進(jìn)行訓(xùn)練和預(yù)測(cè);最后基于堆棧法集成學(xué)習(xí)策略對(duì)個(gè)體機(jī)器學(xué)習(xí)模型進(jìn)行融合,得到組合模型。在數(shù)據(jù)預(yù)處理后,具體建模步驟如下:

        (1)輸入輸出變量確定。以居住小區(qū)租金作為模型輸出,以套索法約簡(jiǎn)后的特征集合作為模型輸入。

        (2)數(shù)據(jù)集拆分。按一定比例將數(shù)據(jù)集拆分為訓(xùn)練集和測(cè)試集,同時(shí)訓(xùn)練集再次拆分為學(xué)習(xí)集和驗(yàn)證集。其中,訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于驗(yàn)證模型的預(yù)測(cè)性能。

        (3)機(jī)器學(xué)習(xí)模型設(shè)計(jì)。超參數(shù)的選擇對(duì)機(jī)器學(xué)習(xí)模型的結(jié)構(gòu)乃至預(yù)測(cè)結(jié)果有著較大的影響,本文采用網(wǎng)格搜索結(jié)合K折交叉驗(yàn)證方法自動(dòng)尋優(yōu)確定超參數(shù),完成每一個(gè)機(jī)器學(xué)習(xí)模型的建立。交叉驗(yàn)證將訓(xùn)練集分為k個(gè)子集(稱(chēng)為折),對(duì)訓(xùn)練的模型進(jìn)行訓(xùn)練和評(píng)估k次。每次選擇k-1折進(jìn)行訓(xùn)練,剩余1折用來(lái)評(píng)估模型。K折交叉驗(yàn)證結(jié)果表示為包含k個(gè)評(píng)估分?jǐn)?shù)的數(shù)組。

        (4)組合模型構(gòu)建。①對(duì)于步驟(3)確定的每一個(gè)具有最優(yōu)超參數(shù)的機(jī)器學(xué)習(xí)模型(個(gè)體學(xué)習(xí)模型),基于訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練并采用測(cè)試集對(duì)模型預(yù)測(cè)能力進(jìn)行打分,按照預(yù)測(cè)性能高低進(jìn)行降序排序;②從具有最優(yōu)預(yù)測(cè)性能的模型開(kāi)始,依次選擇兩個(gè)或多個(gè)個(gè)體學(xué)習(xí)模型,采用堆棧法集成學(xué)習(xí)策略構(gòu)建組合模型,按照上述組合方法,5種個(gè)體學(xué)習(xí)模型最終形成4個(gè)組合模型,可記為stack #1~stack #4;③以個(gè)體學(xué)習(xí)模型的輸出作為組合模型的輸入,居住小區(qū)租金作為組合模型輸出,訓(xùn)練并評(píng)價(jià)不同組合模型的預(yù)測(cè)性能,得到最優(yōu)組合模型。

        2.3 模型評(píng)價(jià)指標(biāo)

        本文采用均方根誤差(Root Mean Squared Error,RMSE)、平均絕對(duì)百分比誤差 (Mean Absolute Percentage Error,MAPE)、可決系數(shù)R2來(lái)比較不同模型的預(yù)測(cè)性?xún)?yōu)劣。RMSE和MAPE的計(jì)算過(guò)程如公式(3)至(5):

        其中,N是測(cè)試數(shù)據(jù)集的樣本數(shù)量,yi,true是第i個(gè)樣本租賃價(jià)格的真實(shí)值,yi,pred是模型對(duì)第i樣本的租賃價(jià)格預(yù)測(cè)值。是樣本平均值。

        3 實(shí)證結(jié)果分析與討論

        實(shí)證過(guò)程采用Python語(yǔ)言下的skicit-learn庫(kù)進(jìn)行模型構(gòu)建和實(shí)現(xiàn)。樣本拆分環(huán)節(jié)訓(xùn)練集和測(cè)試集的比例設(shè)定為7:3。為保證公平評(píng)價(jià),應(yīng)用K折交叉驗(yàn)證檢驗(yàn)預(yù)測(cè)模型的性能,模型得分以交叉驗(yàn)證的結(jié)果為準(zhǔn)??紤]到計(jì)算時(shí)間,k設(shè)定為10。下文首先對(duì)5種機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià),接著討論組合模型的預(yù)測(cè)性能相對(duì)單個(gè)機(jī)器學(xué)習(xí)模型是否有所提升,最后根據(jù)隨機(jī)森林和XGBoost的特征重要性排序結(jié)果對(duì)住房租金的關(guān)鍵影響因素進(jìn)行分析和討論。

        3.1 個(gè)體機(jī)器學(xué)習(xí)模型預(yù)測(cè)分析

        表2匯集了5種經(jīng)典機(jī)器學(xué)習(xí)算法的關(guān)鍵參數(shù)設(shè)置和預(yù)測(cè)性能評(píng)估指標(biāo),也匯集了特征價(jià)格模型的預(yù)測(cè)結(jié)果,作為性能對(duì)比的基準(zhǔn)以便比較。結(jié)果顯示,無(wú)論是哪一種評(píng)估指標(biāo)進(jìn)行評(píng)判,機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能均優(yōu)于特征價(jià)格模型(RMSE=17.88,MAPE=16.97%,R2=0.59)??赡艿脑蛟谟?,住房租金和各種影響因素之間存在非線性關(guān)系,而特征價(jià)格模型為線性模型,不如機(jī)器學(xué)習(xí)模型在處理多變量和非線性特征方面有優(yōu)勢(shì),因此其預(yù)測(cè)性能略遜一籌。

        從RMSE來(lái)看,各個(gè)機(jī)器學(xué)習(xí)模型的RMSE從小到大排序?yàn)閄GBoost (5.63)

        XGBoost和RF本質(zhì)上都是基于決策樹(shù)的集成模型。決策樹(shù)算法容易過(guò)擬合,泛化能力不強(qiáng),樣本發(fā)生輕微改動(dòng)就可能導(dǎo)致樹(shù)結(jié)構(gòu)的劇烈改變。理論上,經(jīng)過(guò)集成的XGBoost和RF可改善決策樹(shù)的缺陷。就本實(shí)證得到的結(jié)果來(lái)看,以Boosting策略構(gòu)建的XGBoost性能略?xún)?yōu)于以Bagging策略構(gòu)建的RF。相比決策樹(shù),XGBoost在特征粒度上實(shí)現(xiàn)并行優(yōu)化,并且采取正則化項(xiàng)防止過(guò)擬合,不僅降低了過(guò)擬合,而且提高了計(jì)算效率。

        由于對(duì)數(shù)據(jù)維度不敏感,既有實(shí)踐傾向于認(rèn)為SVR相比其它機(jī)器學(xué)習(xí)算法更穩(wěn)健和精確,本文的實(shí)證結(jié)論一定程度上與既有研究吻合,SVR取得相對(duì)較好的預(yù)測(cè)績(jī)效,排序第三,其RMSE為8.78,MAPE為6.57%,R2為0.90。

        至于神經(jīng)網(wǎng)絡(luò),理論上具有三層網(wǎng)絡(luò)結(jié)構(gòu)的BPNN模型已經(jīng)可以無(wú)限逼近任何非線性函數(shù)。然而在實(shí)際應(yīng)用方面,由于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)可能導(dǎo)致梯度下降算法陷入局部最優(yōu)解,導(dǎo)致泛化能力低。本文實(shí)證中采取了一些策略(例如Early_Stopping)防止模型過(guò)擬合,取得一定效果,但BPNN的整體預(yù)測(cè)性能處于5種算法的中等水平(RMSE=9.38,MAPE=7.98%,R2=0.89)。

        KNN作為一種懶惰學(xué)習(xí)算法,沒(méi)有一般意義上的學(xué)習(xí)過(guò)程。研究表明,在數(shù)據(jù)質(zhì)量好的情況下,KNN也能取得令人滿(mǎn)意的結(jié)果。但當(dāng)存在樣本不平衡問(wèn)題(即有些類(lèi)別的樣本數(shù)量很多,而其它樣本的數(shù)量很少)時(shí)可能效果不佳。KNN在本文對(duì)5種機(jī)器學(xué)習(xí)模型的比較分析中表現(xiàn)最差(RMSE=17.15,MAPE=13.25%,R2=0.62)。

        3.2 組合模型預(yù)測(cè)分析

        5種個(gè)體機(jī)器學(xué)習(xí)模型存在多種構(gòu)建組合模型的方式。根據(jù)各個(gè)模型的RMSE對(duì)其進(jìn)行升序排列(則預(yù)測(cè)性能降序):XGBoost

        對(duì)于每一種個(gè)體學(xué)習(xí)模型組合,我們循環(huán)SVR、BPNN、XGBoost、RF和KNN作為元模型構(gòu)建組合模型,結(jié)果發(fā)現(xiàn)BPNN作為元模型能得到最高預(yù)測(cè)精度。本文以效果最好的BPNN作為stack #1到 #4的元模型。4種組合模型的預(yù)測(cè)評(píng)價(jià)指標(biāo)值匯集于表3。通過(guò)結(jié)合XGBoost和RF (stack #1),預(yù)測(cè)誤差(擬合優(yōu)度)減少(提高)到小于(大于)兩個(gè)個(gè)體學(xué)習(xí)模型中的任何一個(gè)(RMSE =5.49,MAPE =5.43%,R2 =0.89)。當(dāng)進(jìn)一步增加模型,即SVR,stack #2 的RMSE和MAPE進(jìn)一步減小,R2進(jìn)一步提高;同樣地,BPNN的加入改善了stack #3模型的預(yù)測(cè)性能,此時(shí)組合模型的RMSE達(dá)到了4.57,MAPE 4.19%,R2提高到0.93。然而,第4個(gè)模型KNN加入?yún)s不能促使組合模型的性能進(jìn)一步改善,stack #4的RMSE (7.72)和MAPE (7.13%)均高于stack #3,R2 (0.88)則低于stack #3,意味著stack #4相比stack #3性能更弱了??傮w而言,XGBoost、RF、SVR和BPNN集成的模型stack #3預(yù)測(cè)性能最優(yōu),高于任一個(gè)體機(jī)器學(xué)習(xí)模型。盡管 stack #4的預(yù)測(cè)性能相對(duì)其他組合較差,其預(yù)測(cè)性能依舊高于大部分個(gè)體學(xué)習(xí)模型,包括BPNN和KNN,說(shuō)明組合模型比個(gè)體機(jī)器學(xué)習(xí)模型有效。

        3.3 特征重要性分析

        通過(guò)特征重要度可以識(shí)別影響住房租金的關(guān)鍵特征。基于決策樹(shù)的機(jī)器學(xué)習(xí)算法,包括XGBoost和隨機(jī)森林,具有自然的變量選擇結(jié)構(gòu)。本文模型實(shí)現(xiàn)基于Python的skicit-learn庫(kù),該庫(kù)已內(nèi)置了樹(shù)模型的特征重要性排序函數(shù)。在模型訓(xùn)練完成后,基于對(duì)應(yīng)函數(shù)提取了各個(gè)特征對(duì)于預(yù)測(cè)模型的重要度,依據(jù)隨機(jī)森林模型和XGBoost模型得到的重要性排名(從大到小)及對(duì)應(yīng)權(quán)重如表4所示。

        結(jié)合表4中的隨機(jī)森林模型和XGBoost模型的特征重要性排序結(jié)果,可以識(shí)別影響深圳市居住小區(qū)租金的關(guān)鍵影響因素為交通、教育、醫(yī)療、小區(qū)品質(zhì)以及區(qū)位等,以下根據(jù)重要性依次進(jìn)行分析。

        交通配套方面,X7 (小區(qū)附近地鐵站點(diǎn)的數(shù)量)在兩個(gè)模型中重要性均排前列。地鐵站點(diǎn)數(shù)量/密度衡量了小區(qū)居民對(duì)地鐵的總體可用性和機(jī)會(huì),豐富的地鐵配套提高了出行便利度,大大縮短了通勤時(shí)間。教育配套方面,X12 (小區(qū)至高中學(xué)校的最短距離)和X16 (小區(qū)附帶初中學(xué)位全市排名)均排在前列,說(shuō)明小區(qū)周邊的教育資源對(duì)住房租金有顯著影響,這與現(xiàn)實(shí)情況相符合。其他配套方面,X10 (小區(qū)距離最近三甲/綜合醫(yī)院的距離)和X17 (小區(qū)附近商業(yè)配套數(shù)量)也體現(xiàn)了一定重要性,醫(yī)療和商業(yè)與居民生活密切相關(guān)。對(duì)居民而言,住宅周邊是否存在醫(yī)院,喜憂(yōu)參半。醫(yī)院的存在可能導(dǎo)致小區(qū)周邊人口流動(dòng)性大,產(chǎn)生交通擁堵且可能存在病菌感染威脅,而距離醫(yī)院過(guò)遠(yuǎn)則在必要時(shí)難以享受到便利的醫(yī)療服務(wù)。因此,居住小區(qū)租金與其到醫(yī)院的距離之間可能體現(xiàn)為非線性關(guān)系,例如住房租金隨距離的增加先上升后下降。

        另一個(gè)值得注意的特征是度量地理位置優(yōu)劣度的小區(qū)所在街道行政區(qū),可以看到Street27、Street33、Street45、Street31和Street32出現(xiàn)在了排名前十五的位次,其中Street27、Street33排到了前五。小區(qū)所在街道行政區(qū)本質(zhì)上屬于區(qū)位因素,好的區(qū)位往往意味著各種優(yōu)勢(shì)資源,其中有些是難以通過(guò)具體指標(biāo)一一量化或列舉的,這些潛在的優(yōu)勢(shì)資源顯然會(huì)影響租金。建筑特征中,X1 (小區(qū)建筑年齡)以及X3 (建筑類(lèi)型)對(duì)租金也有一定影響。小區(qū)越老舊,裝修情況以及相應(yīng)的配套設(shè)施往往越差,同樣地段的情況下,租房者對(duì)老舊小區(qū)的租賃支付意愿更低。建筑類(lèi)型對(duì)租金的影響邏輯體現(xiàn)在高層建筑通常配置電梯,年代較新,居住狀況較好,自然影響租金。

        4 結(jié)語(yǔ)和啟示

        針對(duì)我國(guó)大城市住房租賃市場(chǎng)的租金預(yù)測(cè)問(wèn)題,本研究收集了2020年8月至12月深圳市在線房地產(chǎn)網(wǎng)站租賃數(shù)據(jù)和POI等相關(guān)數(shù)據(jù),結(jié)合特征價(jià)格理論、機(jī)器學(xué)習(xí)方法以及集成學(xué)習(xí)理論,系統(tǒng)對(duì)比了不同機(jī)器學(xué)習(xí)回歸算法在住房租賃市場(chǎng)租金預(yù)測(cè)這一問(wèn)題中的實(shí)證績(jī)效,并基于機(jī)器學(xué)習(xí)中的集成學(xué)習(xí)理論構(gòu)建組合模型嘗試增強(qiáng)預(yù)測(cè)模型的有效性。同時(shí),基于隨機(jī)森林和XGBoost模型,從機(jī)器學(xué)習(xí)的視角識(shí)別了各個(gè)影響因素在住房租金預(yù)測(cè)問(wèn)題中的重要性。本研究證實(shí)了通過(guò)互聯(lián)網(wǎng)數(shù)據(jù)和機(jī)器學(xué)習(xí)相關(guān)方法實(shí)現(xiàn)高效率、低成本的城市住房租金預(yù)測(cè)的可行性,為住房租賃管理部門(mén)制定政策提供了技術(shù)參考。

        參考文獻(xiàn):

        1.顧建發(fā) 王烽.探索房地產(chǎn)市場(chǎng)基礎(chǔ)性制度和長(zhǎng)效機(jī)制——以發(fā)展住房租賃市場(chǎng)為重點(diǎn).上海房地.2017.06

        2.黃燕芬 王淳熙 張超 陳翔云.建立我國(guó)住房租賃市場(chǎng)發(fā)展的長(zhǎng)效機(jī)制——以“租購(gòu)?fù)瑱?quán)”促“租售并舉”.價(jià)格理論與實(shí)踐.2017.10

        3.崔娜娜 崔丹 肖亮.城市住房租金價(jià)格影響因素的空間計(jì)量分析——基于GWR模型對(duì)北京市數(shù)據(jù)的分析.價(jià)格理論與實(shí)踐.2020.05

        4.Jerez J M , Molina I , P J García-Laencina, et al. Missing data imputation using statistical and machine learning approaches in a real breast cancer problem.Artificial Intelligence in Medicine.2010

        5.王阿忠 李倩.基于粗糙集神經(jīng)網(wǎng)絡(luò)的房產(chǎn)稅基批量評(píng)估研究.福州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版).2019.33 (05)

        6.陳詩(shī)沁 王洪偉.基于機(jī)器學(xué)習(xí)的房地產(chǎn)批量評(píng)估模型.統(tǒng)計(jì)與決策.2020.36 (09)

        7.Lancaster, Kelvin J.A New Approach to

        Consumer Theory.Journal of Political Economy.

        1966.74 (2)

        8.Rosen S.Hedonic Prices and Implicit Markets: Product Differentiation in Pure Competition.Journal of Political Economy.1974.82 (1)

        9.Montero J M, Mínguez R, Fernández-Avilés G. Housing price prediction: parametric versus semi-parametric spatial hedonic models.Journal of Geographical Systems.2018.20 (1)

        猜你喜歡
        機(jī)器學(xué)習(xí)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
        前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究
        下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
        活力(2016年8期)2016-11-12 17:30:08
        基于支持向量機(jī)的金融數(shù)據(jù)分析研究
        基于Spark的大數(shù)據(jù)計(jì)算模型
        基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
        基于圖的半監(jiān)督學(xué)習(xí)方法綜述
        機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
        極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
        最新国产av网址大全| 日本无遮挡吸乳呻吟视频| 亚洲综合无码| 午夜视频福利一区二区三区 | 大陆啪啪福利视频| 国产精品日韩亚洲一区二区| 国产一区二区三区久久精品| 品色永久免费| 久久男人av资源网站无码| 国产精品日本一区二区三区在线 | 亚洲av日韩av天堂久久不卡| 国产免费三级av在线| 亚洲人午夜射精精品日韩| 亚洲AV秘 无码一区二区三区臀| 精品国产97av一区二区三区| 一区二区三区高清在线观看视频| 日韩视频中文字幕精品偷拍| 91国际视频| av网站在线观看二区| 欧美性猛交xxx嘿人猛交| 欧美粗大猛烈老熟妇| 国产成人精品日本亚洲语音1| 国产成人一区二区三区| 日韩大片高清播放器大全| 国产成人av免费观看| 久久久亚洲精品午夜福利| 精品高清一区二区三区人妖| 挺进邻居丰满少妇的身体| 无码毛片aaa在线| 亚洲国产av自拍精选| 丰满少妇人妻久久精品| 国产成人精品综合在线观看| 国产精品久久久久…| 国产偷闻女邻居av在线观看| 小说区激情另类春色| 久久tv中文字幕首页| 亚洲熟女国产熟女二区三区| 国产91清纯白嫩初高中在线观看| 性生交大全免费看| 国产在线欧美日韩精品一区二区 | 午夜视频在线观看一区二区小|