亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹的住房租賃價(jià)格微觀影響因素研究

        2017-06-21 23:58:51范雅靜黃笛
        中國(guó)市場(chǎng) 2017年17期
        關(guān)鍵詞:決策樹

        范雅靜+黃笛

        [摘要]隨著我國(guó)經(jīng)濟(jì)水平飛速增長(zhǎng),城市間人口流動(dòng)日益頻繁,房屋租賃市場(chǎng)日趨繁榮,房屋的租金也受到越來(lái)越多的關(guān)注。而由于互聯(lián)網(wǎng)的發(fā)展,房東與租戶通常會(huì)在網(wǎng)絡(luò)上發(fā)布并獲取信息,因此租房網(wǎng)站中包含豐富的租房信息。文章利用網(wǎng)絡(luò)爬蟲技術(shù)從租房網(wǎng)站收集了北京市各區(qū)域共計(jì)三千余條租房信息,并將住房租賃價(jià)格作為被解釋變量,并選擇6個(gè)微觀因素作為解釋變量,基于特征價(jià)格理論建立決策樹模型,分析影響租房?jī)r(jià)格的關(guān)鍵因素,并為住房租賃價(jià)格定價(jià)及預(yù)測(cè)提供新的思路。

        [關(guān)鍵詞]住房租賃價(jià)格;微觀影響因素;決策樹

        [DOI]1013939/jcnkizgsc201717037

        1引言

        作為房地產(chǎn)市場(chǎng)體系兩個(gè)必不可少的重要組成部分,租賃市場(chǎng)與買賣市場(chǎng),與北京市房地產(chǎn)市場(chǎng)的健康平穩(wěn)運(yùn)行有著密切的關(guān)系。持續(xù)提高的城鎮(zhèn)化水平意味著將有相當(dāng)數(shù)量的農(nóng)村剩余勞動(dòng)力及人口轉(zhuǎn)移到城市。北京地區(qū)的高房?jī)r(jià)客觀上也使購(gòu)買商品房需要大量的資金。因此,越來(lái)越多的人選擇暫時(shí)放棄購(gòu)房需求,并將目光由買賣市場(chǎng)轉(zhuǎn)向租賃市場(chǎng),借助租賃市場(chǎng)將自身的住房需求解決。在此背景下,住房租賃價(jià)格由哪些因素確定成為了學(xué)者關(guān)注的問(wèn)題。

        目前,已有大量學(xué)者對(duì)此進(jìn)行了研究。Marks(1984)用特征價(jià)格指數(shù)對(duì)溫哥華租賃住宅數(shù)據(jù)進(jìn)行研究,結(jié)果發(fā)現(xiàn)停車位提供、自動(dòng)洗衣店等相關(guān)變量均顯著影響住宅租金。Guntermannn(1987)的研究表明,游泳池、健身房的存在對(duì)租金有著顯著影響。此外,許多學(xué)者將研究重心放在配套設(shè)施對(duì)住宅的影響。George(1985)、Sirmans(1990)等則對(duì)住房?jī)?nèi)的配套設(shè)施,如電視、洗衣機(jī)等對(duì)租金有正方向的影響作用。然而,住宅由于其私密性等問(wèn)題,傳統(tǒng)的入戶調(diào)查方法成本較高且難以獲得較大數(shù)據(jù)。從國(guó)內(nèi)文獻(xiàn)看,學(xué)者大多集中在微觀因素對(duì)寫字樓等商用房屋租賃價(jià)格影響的研究。聶沖(2009)研究發(fā)現(xiàn)區(qū)位、建筑、商鋪和租約特征都是購(gòu)物中心商鋪?zhàn)饨鸬闹匾獩Q定因素,但相對(duì)而言,區(qū)位特征最為重要。梁艷(2011)選取深圳市場(chǎng)上能獲得數(shù)據(jù)的四類20個(gè)解釋變量進(jìn)入租金模型。采用特征模型,對(duì)深圳市114棟寫字樓的要價(jià)租金均價(jià)進(jìn)行回歸分析,并發(fā)現(xiàn)大部分特征因素對(duì)寫字樓租金有顯著影響。全百松(2013)通過(guò)構(gòu)建寫字樓特征價(jià)格模型,發(fā)現(xiàn)不同城市發(fā)展水平下的寫字樓租金影響因素在顯著性及影響系數(shù)兩方而表現(xiàn)不同。

        然而,由于住宅私密性等問(wèn)題,傳統(tǒng)的入戶調(diào)查方法成本較高且難以獲得較大數(shù)據(jù),若要避免入戶問(wèn)題則只能對(duì)寫字樓等開放區(qū)域進(jìn)行調(diào)查。為彌補(bǔ)此缺陷,本文通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)獲取到北京市住房租賃價(jià)格相關(guān)數(shù)據(jù),可以在較短時(shí)間內(nèi)獲得豐富的租房微觀數(shù)據(jù)。此外,本文通過(guò)建立決策樹模型對(duì)北京市住房租賃價(jià)格進(jìn)行分析,可利用決策樹的優(yōu)勢(shì)對(duì)住房租賃價(jià)格的微觀影響因素進(jìn)行深入分析,從而使各類租房人群能結(jié)合自身對(duì)房屋的需求,借助模型估算參考價(jià)格,同時(shí)對(duì)當(dāng)?shù)胤康禺a(chǎn)中介機(jī)構(gòu)合理評(píng)估住房租賃價(jià)格有一定的參考借鑒意義。

        2理論基礎(chǔ)

        21特征價(jià)格模型理論

        特征價(jià)格模型來(lái)源于特征價(jià)格理論。A T Court(1939)首次對(duì)汽車價(jià)格進(jìn)行了研究,認(rèn)為汽車價(jià)格是由汽車本身特征決定,并構(gòu)建了汽車價(jià)格指數(shù)。隨后,Lancaster(1966)提出消費(fèi)者偏好理論,認(rèn)為消費(fèi)者購(gòu)買一個(gè)產(chǎn)品,是由于產(chǎn)品的特征符合消費(fèi)者的需求。Rosen(1974)則完善了Lancaster偏好理論,理論上構(gòu)建了特征價(jià)格供需特征模型,為特征價(jià)格模型奠定了基礎(chǔ)。該理論認(rèn)為,住房?jī)r(jià)格是由住房特征帶給人們的效用決定的,由于住宅特征的數(shù)量及組合方式不同,使得房地產(chǎn)的價(jià)格存在差異。因此,本文根據(jù)特征價(jià)格理論對(duì)住宅租賃價(jià)格的影響因素分解,分析各因素對(duì)房租的影響。

        22決策樹理論

        本文主要采用決策樹方法進(jìn)行建模。決策樹是一種監(jiān)督式的學(xué)習(xí)方法,產(chǎn)生一種類似流程圖的樹結(jié)構(gòu)。決策樹對(duì)數(shù)據(jù)進(jìn)行處理是利用歸納算法產(chǎn)生分類規(guī)則和決策樹,再對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)分析。樹的終端節(jié)點(diǎn)——葉節(jié)點(diǎn)(leaf nodes),表示分類結(jié)果的類別(class),每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)變量的測(cè)試,分枝(branch)為測(cè)試輸出,代表變量的一個(gè)可能數(shù)值。為達(dá)到分類目的,變量值在數(shù)據(jù)上測(cè)試,每一條路徑代表一個(gè)分類規(guī)則。

        在樹的每個(gè)節(jié)點(diǎn)上,使用信息增益選擇測(cè)試的變量,信息增益是用來(lái)衡量給定變量區(qū)分訓(xùn)練樣本的能力,選擇最高信息增益或最大熵(entropy)簡(jiǎn)化的變量,將之視為當(dāng)前節(jié)點(diǎn)的分割變量,該變量促使需要分類的樣本信息量最小,而且反映了最小隨機(jī)性或不純性(impurity)(Han和Kamber,2001)。若某一事件發(fā)生的概率是p,令此事件發(fā)生后所得的信息量為I(p),若p=1,則I(p)=0,因?yàn)槟骋皇录欢〞?huì)發(fā)生,因此該事件發(fā)生不能提供任何信息。反之,如果某一事件發(fā)生的概率愈小,不確定性愈大,則該事件發(fā)生帶來(lái)的信息愈多,因此I(p)為遞減函數(shù),并定義I(p)=-log(p)。給定數(shù)據(jù)集S,假設(shè)類別變量A有m個(gè)不同的類別(c1, …, ci, …, cm)。利用變量A將數(shù)據(jù)集分為m個(gè)子集(s1, s2, …, sm),其中si表示在S中包含數(shù)值ci中的樣本。對(duì)應(yīng)的m種可能發(fā)生概率為(p1, …, pi, …, pm),因此第i種結(jié)果的信息量為-log(pi),則稱該給定樣本分類所得的平均信息為熵,熵是測(cè)量一個(gè)隨機(jī)變量不確定性的測(cè)量標(biāo)準(zhǔn),可以用來(lái)測(cè)量訓(xùn)練數(shù)據(jù)集內(nèi)純度(purity)的標(biāo)準(zhǔn)。熵的函數(shù)表示如下式:

        I(s1, s2, …, sm)=-[DD(]m[]i=1[DD)]pilog2(pi)

        其中pi是任意樣本屬于ci的概率,對(duì)數(shù)函數(shù)以2為底,因?yàn)樾畔⒂枚M(jìn)制編碼。變量分類訓(xùn)練數(shù)據(jù)集的能力,可以利用信息增益來(lái)測(cè)量。算法計(jì)算每個(gè)變量的信息增益,具有最高信息增益的變量選為給定集合S的分割變量,產(chǎn)生一個(gè)節(jié)點(diǎn),同時(shí)以該變量為標(biāo)記,對(duì)每個(gè)變量值產(chǎn)生分枝,以此劃分樣本。再根據(jù)變量的不同值建立樹的分枝,每個(gè)分枝子集中重復(fù)建樹的下層結(jié)果和分枝的過(guò)程,一直到完成建立整株決策樹。

        3數(shù)據(jù)說(shuō)明、預(yù)處理與變量選擇

        31數(shù)據(jù)說(shuō)明

        本文所使用的數(shù)據(jù)來(lái)源于58同城網(wǎng)站。58同城(http://58com)作為覆蓋全領(lǐng)域的生活服務(wù)平臺(tái),業(yè)務(wù)覆蓋招聘、房產(chǎn)、汽車、金融、二手及本地生活服務(wù)等各個(gè)領(lǐng)域。其網(wǎng)站內(nèi)含有海量的房產(chǎn)信息,也包括北京市的房屋出租信息。本研究采用C#語(yǔ)言并基于Net框架,建立一個(gè)租房信息采集程序,依據(jù)所設(shè)定的采集方案與規(guī)則,成功地實(shí)現(xiàn)了一定數(shù)量的租房信息自動(dòng)采集,同時(shí)將所采集到租房數(shù)據(jù)持續(xù)地添加到SQL Server數(shù)據(jù)庫(kù)中。

        本文隨機(jī)抓取了2015年期間發(fā)布的3606條北京市住房招租信息,并將數(shù)據(jù)導(dǎo)入至Excel表格文件中,原始數(shù)據(jù)主要包括城市、標(biāo)題、租賃價(jià)格、戶型、面積、裝修程度、所在樓層、原有設(shè)施種類、地址等。

        32數(shù)據(jù)預(yù)處理

        原始數(shù)據(jù)中數(shù)據(jù)格式比較特殊,多為對(duì)房屋進(jìn)行描述的語(yǔ)句。因此,本研究首先使用了R中的stringr以及jiebaR包,將每個(gè)樣本所在的城區(qū)、樓層、朝向、原有設(shè)施、裝修程度等關(guān)鍵詞一并提取。其次,由于租房信息中不能準(zhǔn)確描述樓層信息,通常用樓層范圍來(lái)表示,如“2層/6層”表示2~6層,因此本研究采用平均數(shù)估算其樓層;此外,由于房間數(shù)量也是影響房租的一個(gè)重要因素,因此對(duì)形如“3室2廳2衛(wèi)”的住宅類型數(shù)據(jù),提取“室”的數(shù)量作為房間數(shù)量指標(biāo);最后,租房信息中還對(duì)住宅內(nèi)配套設(shè)施加以描述,包括電視、洗衣機(jī)、冰箱等,由于設(shè)施種類較多,因此將設(shè)施種類數(shù)量作為單一指標(biāo)。

        33變量選擇

        基于特征價(jià)格模型理論,本文將住房租賃價(jià)格作為被解釋變量,將不同類別的微觀因素共19個(gè)指標(biāo)作為解釋變量,建立機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)。下表報(bào)告了選取的被解釋變量與解釋變量的詳細(xì)說(shuō)明。

        4實(shí)證分析

        通過(guò)建立決策樹模型,得到結(jié)果如下圖所示。決策樹共有一個(gè)根節(jié)點(diǎn)、四個(gè)中間節(jié)點(diǎn)以及六個(gè)葉節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)上方的數(shù)值表示平均價(jià)格,下方百分比表示樣本所占比例,連接線上表示該節(jié)點(diǎn)的條件,節(jié)點(diǎn)顏色由淺到深表示該子樣本平均價(jià)格由低至高。由下圖可以看出,影響房租價(jià)格最主要的因素為所在城區(qū)。決策樹第一層將城區(qū)分為昌平、大興、房山、門頭溝、密云、平谷、順義、通州、西城區(qū)和朝陽(yáng)、東城、豐臺(tái)、海淀、石景山,其中前者價(jià)格較低,此外,房山、密云的租房?jī)r(jià)格也比昌平、大興、門頭溝、順義、通州更低。除西城區(qū)外,其結(jié)果也較符合城區(qū)離北京市中心距離越遠(yuǎn)租房?jī)r(jià)格越低的實(shí)際情況。對(duì)于朝陽(yáng)、東城、豐臺(tái)、海淀、石景山區(qū),決定房租價(jià)格的關(guān)鍵因素為住宅類型,如果是公寓類則價(jià)格較低,別墅、精裝修、平房、普通住宅、商住兩用類的平均價(jià)格較高。對(duì)于后者,其價(jià)格還取決于朝向,其中朝北的住宅價(jià)格較高,這也體現(xiàn)了居民對(duì)房屋風(fēng)水朝向的要求。由結(jié)果可以看出,平均價(jià)格最低的為房山、密云的住宅,最高的為朝陽(yáng)、東城、豐臺(tái)、海淀、石景山朝向北的中高檔住宅。

        5結(jié)論

        本文利用從58同城網(wǎng)站抓取的北京市住房租賃數(shù)據(jù),將決策樹模型引入到租賃價(jià)格的分析、預(yù)測(cè)工作中,并分析影響住房租賃價(jià)格的微觀因素。北京的研究經(jīng)驗(yàn)表明,影響房租最關(guān)鍵的因素為所在城區(qū),其次為住房類別及朝向。未來(lái),在對(duì)房租微觀影響因素進(jìn)行研究時(shí),為了提高分析的準(zhǔn)確度以及因素覆蓋范圍,應(yīng)結(jié)合其他領(lǐng)域技術(shù)提取更多的解釋變量,例如根據(jù)地址提取距地鐵站距離、距商圈距離等地理位置相關(guān)信息;同時(shí),還可利用其余學(xué)習(xí)方法,如神經(jīng)網(wǎng)絡(luò)等進(jìn)行分析預(yù)測(cè),以更全面地分析房地產(chǎn)價(jià)格的圍觀影響因素。對(duì)

        猜你喜歡
        決策樹
        基于決策樹和神經(jīng)網(wǎng)絡(luò)的高血壓病危險(xiǎn)因素研究
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于改進(jìn)決策樹的故障診斷方法研究
        決策樹多元分類模型預(yù)測(cè)森林植被覆蓋
        電子制作(2017年24期)2017-02-02 07:14:23
        基于決策樹算法的數(shù)據(jù)挖掘應(yīng)用研究
        基于決策樹的出租車乘客出行目的識(shí)別
        基于決策樹的復(fù)雜電網(wǎng)多諧波源監(jiān)管
        基于模糊關(guān)聯(lián)規(guī)則和決策樹的圖像自動(dòng)標(biāo)注
        基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
        亚洲成av人片在线观看麦芽| 亚洲精品在线观看自拍| 国产熟妇高潮呻吟喷水| 日韩高清在线观看永久| 亚洲AV永久青草无码性色av| 亚洲精品综合第一国产综合| 亚洲 美腿 欧美 偷拍| 加勒比东京热久久综合| 国产三级av在线播放| 亚洲一区二区日韩在线| 成熟妇女毛茸茸性视频| 色熟妇人妻久久中文字幕| 中文字幕日韩人妻少妇毛片| 国产成人av无码精品| 日本熟妇人妻xxxx| 18精品久久久无码午夜福利| 午夜福利av无码一区二区| 天堂aⅴ无码一区二区三区| 孩交精品xxxx视频视频| 国产午夜福利短视频| 无码片久久久天堂中文字幕| 99久久国内精品成人免费| 人妻无码一区二区19P| 亚洲国产精品夜男人天堂| 蜜桃视频永久免费在线观看| 中文字幕日本av网站| 国产亚洲精品av一区| 欧美午夜理伦三级在线观看| 亚洲精品白浆高清久久久久久| 日本怡春院一区二区三区| 日本大尺度吃奶呻吟视频| 亚洲一区爱区精品无码| 精品国偷自产在线不卡短视频| 人妻少妇偷人精品久久人妻| 熟女一区二区国产精品| 少妇人妻中文久久综合| 无遮挡1000部拍拍拍免费| 久久久久av无码免费网| 国产一女三男3p免费视频| 亚洲av无码片在线播放| av免费看网站在线观看|