亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        影響區(qū)域房?jī)r(jià)的客觀因素挖掘分析

        2019-11-12 05:01:52張智鵬鄭大慶
        關(guān)鍵詞:區(qū)域情境影響

        張智鵬 鄭大慶,2

        1(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433)2(上海財(cái)經(jīng)大學(xué)信息管理與工程學(xué)院 上海 200433)

        0 引 言

        房?jī)r(jià)一直被國(guó)人廣泛關(guān)注,因?yàn)檫@個(gè)問(wèn)題是個(gè)廣受關(guān)注,而又一直沒(méi)有得到良好解決的社會(huì)問(wèn)題。而關(guān)于房?jī)r(jià)預(yù)測(cè)也成為了全世界各個(gè)國(guó)家政府、市場(chǎng)與人民關(guān)注的熱點(diǎn)話題。在完全市場(chǎng)環(huán)境下,房?jī)r(jià)由需求和供給共同決定,但是由于在當(dāng)前的社會(huì),房屋既具有居住效用,又兼具投資效用[1],使房?jī)r(jià)問(wèn)題的研究非常復(fù)雜,預(yù)測(cè)長(zhǎng)期房?jī)r(jià)成為一個(gè)不可能完成的任務(wù)。

        基于這樣的現(xiàn)狀,本文把影響房?jī)r(jià)的因素分為兩個(gè)方面:首先是政府的宏觀政策層面的影響因素,包括貨幣政策、稅收政策和土地供應(yīng)等對(duì)房?jī)r(jià)的影響;其次是基于特征的房?jī)r(jià)預(yù)測(cè)(Hedonic pricing)[2]。房屋特征包括兩個(gè)方面:中觀層面的區(qū)位因素對(duì)房?jī)r(jià)的影響,包括地理位置的優(yōu)越性和周邊的公共設(shè)施的便利程度等;房屋本身的因素對(duì)房?jī)r(jià)的影響,例如樓層、采光、朝向等。宏觀政策具有不可預(yù)見(jiàn)性的特點(diǎn),屬于典型的外部沖擊,其對(duì)房?jī)r(jià)的影響非常復(fù)雜,所以研究房屋特征對(duì)房?jī)r(jià)的影響成為越來(lái)越重要的趨勢(shì)[3]。而房屋本身的個(gè)體異質(zhì)性對(duì)房?jī)r(jià)影響的現(xiàn)實(shí)意義有限。在房?jī)r(jià)預(yù)測(cè)中,最有借鑒意義、比較可行的問(wèn)題歸結(jié)為區(qū)位因素對(duì)房?jī)r(jià)的影響,即區(qū)域房?jī)r(jià)的預(yù)測(cè)。

        本研究的目的是尋找區(qū)域平均房?jī)r(jià)與城市中社會(huì)情境要素之間的關(guān)聯(lián)性。在具體的案例研究中,我們以北京市居民居住住房作為研究對(duì)象,應(yīng)用梯度提升決策樹(shù)(Gradient Boosting Decision Tree)模型來(lái)挖掘其特征空間中的非線性關(guān)系,并且達(dá)到92%的擬合程度,優(yōu)于常見(jiàn)的基準(zhǔn)算法。此外,通過(guò)特征排序,我們也找到一些影響區(qū)域房?jī)r(jià)的重要因素,包括住戶區(qū)包含的住宅數(shù)量,住戶區(qū)周邊的出租車流量、公共設(shè)施、學(xué)校、購(gòu)物服務(wù)、地鐵線路、生活服務(wù)等。這讓房?jī)r(jià)研究從數(shù)據(jù)挖掘的角度找到合理的依據(jù),避免單純從直覺(jué)判斷。

        本文主要貢獻(xiàn)點(diǎn)如下:

        (1) 本研究將多源、異構(gòu)的城市基礎(chǔ)數(shù)據(jù)進(jìn)行融合,采用機(jī)器學(xué)習(xí)的方法,尋找影響區(qū)域房?jī)r(jià)的客觀因素。這種研究思路利用了把分散的數(shù)據(jù)進(jìn)行融合、提高預(yù)測(cè)效果的大數(shù)據(jù)思維方式。

        (2) 利用基于學(xué)習(xí)模型的特征排序,通過(guò)GBDT模型選擇影響房?jī)r(jià)變化的客觀因素中重要的因素,進(jìn)而探究對(duì)某區(qū)域房?jī)r(jià)影響最大的相應(yīng)屬性。

        (3) 工程化實(shí)驗(yàn)過(guò)程,設(shè)計(jì)房?jī)r(jià)預(yù)測(cè)界面,模擬實(shí)驗(yàn)思路進(jìn)行人機(jī)交互,持續(xù)獲取房?jī)r(jià)與客觀屬性的信息。

        1 相關(guān)工作

        區(qū)域房?jī)r(jià)的研究屬于城市計(jì)算的范疇,近些年有越來(lái)越多的研究開(kāi)始關(guān)注城市計(jì)算,不少學(xué)者也通過(guò)城市大數(shù)據(jù)找到了城市中很多潛藏的規(guī)律,并以此幫助城市建設(shè)者們進(jìn)行決策。例如,可以通過(guò)機(jī)器學(xué)習(xí)來(lái)解決區(qū)域功能識(shí)別[4]和共享單車的放置[5]問(wèn)題,通過(guò)探究POI數(shù)據(jù)和地理信息數(shù)據(jù)預(yù)測(cè)人的流動(dòng)性[4,6]等。種種研究都表明城市大數(shù)據(jù)之間存在著廣泛的相關(guān)性,而這些相關(guān)性為城市的持續(xù)智能化提供了信息線索。

        房?jī)r(jià)方面的研究方興未艾,少數(shù)從計(jì)算機(jī)技術(shù)出發(fā)的房?jī)r(jià)研究工作切入點(diǎn)都不盡相同。文獻(xiàn)[7]通過(guò)網(wǎng)絡(luò)查詢數(shù)據(jù)對(duì)房?jī)r(jià)規(guī)律做研究,認(rèn)為網(wǎng)絡(luò)搜索的數(shù)據(jù)可以反映搜索者的關(guān)注,因此去尋求住房?jī)r(jià)格指數(shù)與網(wǎng)絡(luò)搜索數(shù)據(jù)之間的相關(guān)性,對(duì)不同經(jīng)濟(jì)層次的兩個(gè)區(qū)域(北京和蘭州)進(jìn)行比較分析。文獻(xiàn)[8]則利用非參數(shù)隱流形模型探究房?jī)r(jià)構(gòu)成,利用洛杉磯的一個(gè)房屋信息數(shù)據(jù)集,分成兩個(gè)訓(xùn)練組。第一個(gè)是一個(gè)參數(shù)化模型,預(yù)測(cè)影響房?jī)r(jià)的“內(nèi)在”因素。第二個(gè)是一個(gè)非參數(shù)模型。房屋的預(yù)測(cè)價(jià)格是其內(nèi)在價(jià)格和期望值的乘積。對(duì)這兩個(gè)訓(xùn)練組進(jìn)行訓(xùn)練,同時(shí)使用EM算法估計(jì)參數(shù)。最終,他們認(rèn)為房?jī)r(jià)取決于不可測(cè)量的一些因素,如房子的特點(diǎn)、對(duì)鄰里的可取性等。文獻(xiàn)[9]通過(guò)對(duì)不同房型房?jī)r(jià)產(chǎn)生影響的因素做分析,對(duì)6組影響變量做回歸分析,最后認(rèn)為人均收入的影響最明顯。文獻(xiàn)[10]則通過(guò)神經(jīng)網(wǎng)絡(luò)做房?jī)r(jià)預(yù)測(cè),他們采用兩種算法來(lái)預(yù)測(cè)新加坡的房地產(chǎn)市場(chǎng),即人工神經(jīng)網(wǎng)絡(luò)(ANN)模型與自回歸移動(dòng)平均(ARIMA)模型,通過(guò)兩者比較發(fā)現(xiàn)更優(yōu)的模型是神經(jīng)網(wǎng)絡(luò)模型,并用此模型預(yù)測(cè)未來(lái)的公寓價(jià)格指數(shù)(CPI)。文獻(xiàn)[11]使用經(jīng)典時(shí)間序列分析方法預(yù)測(cè)上海房?jī)r(jià)指數(shù)。文獻(xiàn)[12]采用兩種建模方法,多層次模型和人工神經(jīng)網(wǎng)絡(luò)來(lái)模擬房?jī)r(jià)。并將這些方法和標(biāo)準(zhǔn)Hedonic價(jià)格模型在預(yù)測(cè)準(zhǔn)確性、捕獲位置信息的能力以及解釋力方面進(jìn)行了比較。文獻(xiàn)[13]使用延遲神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)新加坡的公共住房?jī)r(jià)格,具體用來(lái)估計(jì)新加坡房屋發(fā)展局(HDB)的房屋轉(zhuǎn)售價(jià)格指數(shù)(RPI)的趨勢(shì),最終他們找到九個(gè)獨(dú)立的經(jīng)濟(jì)和人口變量。結(jié)果表明,延遲神經(jīng)網(wǎng)絡(luò)模型能夠產(chǎn)生良好的擬合預(yù)測(cè)。文獻(xiàn)[14]則開(kāi)發(fā)了一種基于多任務(wù)學(xué)習(xí)的回歸方法來(lái)預(yù)測(cè)房地產(chǎn)DOM指數(shù),他們選擇從異構(gòu)的房地產(chǎn)相關(guān)數(shù)據(jù)中全面考察多個(gè)因素,這給予了我們?nèi)婵疾炫c房?jī)r(jià)相關(guān)數(shù)據(jù)的思路。文獻(xiàn)[15]開(kāi)發(fā)了一套在線住房選址可視分析系統(tǒng)ReACH,將價(jià)格、面積、臥室數(shù)量等要素包括在內(nèi)的同時(shí),也重點(diǎn)考慮了在地理決策中占據(jù)重要地位的地標(biāo)位置可達(dá)性(Reachability),他們關(guān)于人機(jī)交互系統(tǒng)的開(kāi)發(fā)也給予了我們?cè)O(shè)計(jì)人機(jī)交互界面的思路。以上方案都針對(duì)房?jī)r(jià)的不同層面進(jìn)行研究,所采用的數(shù)據(jù)挖掘算法也不盡相同,基本上都是規(guī)律挖掘,對(duì)實(shí)際情況的檢驗(yàn)方面都沒(méi)有很詳細(xì)的闡述。

        與以上研究相比,本文將重點(diǎn)聚焦在短時(shí)間段的區(qū)域房?jī)r(jià)上。首先,為了避免不同房屋特性對(duì)于房?jī)r(jià)的影響,本文關(guān)注小區(qū)的平均住宅價(jià)格的變化,以及其價(jià)值背后的原因;另外,短時(shí)間指的是某一天內(nèi),在這個(gè)時(shí)間段上任何主觀因素對(duì)于房?jī)r(jià)的影響都不會(huì)持續(xù)很久,真正對(duì)區(qū)域平均房?jī)r(jià)產(chǎn)生影響的更多來(lái)自于住戶區(qū)周邊的客觀因素。通過(guò)對(duì)這些客觀因素的挖掘,對(duì)住戶區(qū)平均房?jī)r(jià)進(jìn)行精準(zhǔn)畫像。這樣選擇的實(shí)際意義就在于能夠從社會(huì)情境的角度,幫助區(qū)域房屋定價(jià)找到一個(gè)客觀標(biāo)準(zhǔn)。

        具體上,我們以廣受關(guān)注的北京市居民居住住房作為研究對(duì)象,利用其作為國(guó)際化大城市而擁有的豐富社會(huì)情境要素和充足的住房數(shù)據(jù),可被用于訓(xùn)練和驗(yàn)證。實(shí)驗(yàn)表明其擬合程度達(dá)到0.92上下。同時(shí)也發(fā)現(xiàn)住戶區(qū)包含的住宅數(shù)量,住戶區(qū)周邊的出租車人流數(shù)量、公共設(shè)施、學(xué)校、購(gòu)物服務(wù)、地鐵線路、生活服務(wù)等是對(duì)住戶區(qū)房?jī)r(jià)有明顯影響的因素。此外,在完成關(guān)聯(lián)關(guān)系挖掘之后,本文也將實(shí)驗(yàn)過(guò)程工程化,設(shè)計(jì)和開(kāi)發(fā)了住戶區(qū)房?jī)r(jià)的人機(jī)交互,力求實(shí)驗(yàn)結(jié)果能在現(xiàn)實(shí)生活中得到有效利用。

        2 方法設(shè)計(jì)

        2.1 問(wèn)題描述

        本文方法的總流程框架如圖1所示。

        圖1 流程框架

        (1) 針對(duì)具體位置,統(tǒng)計(jì)其所處環(huán)境的社會(huì)情境,具體的社會(huì)情境要素是指當(dāng)?shù)刈》繑?shù)目、游客數(shù)量、城市基礎(chǔ)設(shè)施、以及在一定半徑內(nèi)的地鐵線路的數(shù)量等。將這些異構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗和預(yù)處理,得到其社會(huì)情境要素。

        (2) 尋找社會(huì)情境和具體房?jī)r(jià)之間的相關(guān)性,建立一個(gè)預(yù)測(cè)模型。同時(shí),找出影響預(yù)測(cè)的變量,即影響房?jī)r(jià)變化的客觀因素。

        (3) 系統(tǒng)實(shí)現(xiàn)實(shí)驗(yàn)規(guī)律,設(shè)計(jì)人機(jī)交互界面,用戶通過(guò)訪問(wèn)界面來(lái)得到某區(qū)域內(nèi)的房?jī)r(jià)預(yù)測(cè),以及支撐這樣價(jià)格的客觀背景因素。

        2.2 社會(huì)情境

        本文的目標(biāo)是挖掘社會(huì)情境和房?jī)r(jià)之間的關(guān)系,因此選取居民住戶區(qū)在半徑為1公里的圓形區(qū)域作為目標(biāo)地點(diǎn),統(tǒng)計(jì)其區(qū)域住宅價(jià)格、戶數(shù)、出租車上下車數(shù)量、POI等,在范圍為2公里的區(qū)域內(nèi)統(tǒng)計(jì)其所包含的地鐵線路。1公里的范圍基本可認(rèn)定為步行可達(dá)區(qū)域,而2公里范圍的地鐵路線可為該區(qū)域提供軌道交通服務(wù)。根據(jù)這些因素與房?jī)r(jià)之間的關(guān)系,揭示每個(gè)變量對(duì)房?jī)r(jià)變化的影響。圖1展示了區(qū)域平均房?jī)r(jià)預(yù)測(cè)與分析的流程圖,其中基于GBDT的特征排序旨在找到影響房?jī)r(jià)的變量,從而在客觀因素上提供房?jī)r(jià)變化的原因。主要社會(huì)情境要素的詳細(xì)定義如下:

        (1) 人群流量 利用出租車GPS軌跡,我們可以找到反映人群流動(dòng)的起始-目的地(OD)流,這對(duì)于房?jī)r(jià)預(yù)測(cè)是很重要的,因?yàn)樵L問(wèn)者的數(shù)量可以體現(xiàn)一個(gè)住戶區(qū)的熱鬧程度。在這里,讓OCVi和DCVi代表進(jìn)入住戶區(qū)i和離開(kāi)住戶區(qū)i的人群流動(dòng)數(shù)目,作為兩個(gè)變量。

        (2) 住宅數(shù)量 住戶區(qū)包含的戶數(shù)體現(xiàn)了該住戶區(qū)的疏密程度,同時(shí)也反映了周邊地區(qū)的人口。通常一個(gè)區(qū)域所包含的住戶數(shù),與小區(qū)的規(guī)劃、規(guī)模、定位、檔次都有關(guān)系。因此,我們統(tǒng)計(jì)了住戶區(qū)i的住宅數(shù)量HNi。

        (3) 區(qū)域功能 眾所周知,一個(gè)區(qū)域所包含的各類基礎(chǔ)設(shè)施體現(xiàn)了該區(qū)域的功能屬性,而一些重要的功能屬性會(huì)影響該區(qū)域內(nèi)的房?jī)r(jià)變化。例如,包含學(xué)校的區(qū)域就會(huì)形成“學(xué)區(qū)房”,即使周邊基礎(chǔ)設(shè)施一致,通常情況下“學(xué)區(qū)房”的價(jià)格也會(huì)高一些。在這里,我們利用“BoW”模型來(lái)表征每個(gè)地區(qū)的城市功能,在1公里的范圍內(nèi)計(jì)算不同類別的POI的分布。對(duì)于住戶區(qū)i,將其范圍內(nèi)的POI表示成矢量形式:

        (1)

        表1 POI的21個(gè)種類

        續(xù)表1

        (4) 地鐵線路 地鐵線路對(duì)于房?jī)r(jià)的影響在大城市中越來(lái)越重要,因?yàn)榈罔F的準(zhǔn)時(shí)和無(wú)延遲性,使得地鐵已經(jīng)成為大多數(shù)上班族上下班出行的方式,考慮到每個(gè)地鐵站根據(jù)不同地鐵連線而產(chǎn)生的多條出行路線,因此有:

        ROUi=METN·METi

        (2)

        式中:ROUi代表區(qū)域i可通行路線;METN代表區(qū)域內(nèi)地鐵站數(shù);METi代表某地鐵站路線數(shù)。這樣既包括了影響人們出行的地鐵站的個(gè)數(shù),也將其出行選擇可能性包含在內(nèi)。

        2.3 數(shù)據(jù)處理

        ? 去除噪音數(shù)據(jù) 噪音數(shù)據(jù)有以下兩個(gè)特征:(1) 數(shù)據(jù)本身沒(méi)有意義或意義模糊;(2) 噪音數(shù)據(jù)離差(樣本值與樣本空間均值的差的絕對(duì)值)過(guò)大。噪音數(shù)據(jù)對(duì)實(shí)驗(yàn)造成很大的誤差,因此,設(shè)定判決門限去除無(wú)意義或意義模糊的噪音數(shù)據(jù)。

        首先,針對(duì)現(xiàn)實(shí)意義中為錯(cuò)誤的數(shù)據(jù)進(jìn)行過(guò)濾,如區(qū)域平均房屋價(jià)格小于1 000、各屬性數(shù)據(jù)為負(fù)等。對(duì)數(shù)據(jù)進(jìn)行遍歷,剔除錯(cuò)誤樣本。

        另外,針對(duì)離差過(guò)大的數(shù)據(jù),利用隨機(jī)采樣一致性的方法進(jìn)行過(guò)濾[16]。利用隨機(jī)抽取數(shù)據(jù)建立一個(gè)帶參數(shù)的模型,不斷迭代其余數(shù)據(jù)在此模型上的誤差,并最小化誤差,將誤差大的樣本點(diǎn)進(jìn)行剔除。

        ? 數(shù)據(jù)標(biāo)準(zhǔn)化 多模態(tài)數(shù)據(jù)所處的參考系不同,數(shù)據(jù)的屬性取值范圍也是千差萬(wàn)別。若要實(shí)現(xiàn)多模態(tài)的數(shù)據(jù)綜合分析,則要將異構(gòu)數(shù)據(jù)放到同樣的參考系中,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。本實(shí)驗(yàn)采用線性標(biāo)準(zhǔn)化手段處理數(shù)據(jù),如下:

        (3)

        式中:n是樣本個(gè)數(shù)。

        2.4 關(guān)聯(lián)挖掘

        本文統(tǒng)計(jì)了北京大部分小區(qū)的平均房?jī)r(jià),鑒于單獨(dú)房屋的價(jià)格對(duì)于社會(huì)情境要素的關(guān)聯(lián)性比較小,因?yàn)槠涓嗟臅?huì)受到房屋本身的影響,比如樓層、格局等等。而整個(gè)小區(qū)的平均價(jià)格能夠降低房屋本身因素的影響,因此本文用HPi代表住戶區(qū)i的平均房?jī)r(jià)。

        根據(jù)以上社會(huì)情境因素統(tǒng)計(jì)(具體見(jiàn)表2),本文將住戶區(qū)i的社會(huì)情境要素整理成以下矢量:

        SCi=[OCVi,DCVi,HNi,Fi,ROUi]

        社會(huì)情境要素SCi與房?jī)r(jià)HPi的關(guān)聯(lián)關(guān)系如下,其中p代表住戶區(qū)的數(shù)量。

        表2 輸入與輸出

        3 實(shí) 驗(yàn)

        3.1 實(shí)驗(yàn)?zāi)P?/h3>

        實(shí)驗(yàn)通過(guò)異構(gòu)數(shù)據(jù)的整合,對(duì)房?jī)r(jià)進(jìn)行模型訓(xùn)練,并用交叉驗(yàn)證的方法進(jìn)行評(píng)估,這里我們利用梯度提升決策樹(shù)GBDT。梯度提升決策樹(shù)是Gradient Boost框架下使用較多的一種模型,在梯度提升決策樹(shù)中,其基本學(xué)習(xí)器是分類回歸樹(shù)CART。GBDT采用加法模型(即基函數(shù)的線性組合),以及不斷減小訓(xùn)練過(guò)程產(chǎn)生的殘差來(lái)達(dá)到將數(shù)據(jù)的回歸,比較適合本實(shí)驗(yàn)這種多維數(shù)據(jù)的處理。具體算法如下:

        算法1GBDT

        輸入:訓(xùn)練集樣本D={(x1,y1), (x2,y2), …,(xm,ym)},最大迭代次數(shù)T,損失函數(shù)L

        輸出:強(qiáng)學(xué)習(xí)器f(x)

        1) 初始化弱學(xué)習(xí)器:

        (4)

        2) 對(duì)迭代輪數(shù)t=1,2,…,T:

        (1) 對(duì)樣本i=1,2,…,m,計(jì)算負(fù)梯度;

        (2) 利用(xi,Tti)(i=1,2,…,m),擬合一棵CART回歸樹(shù),得到第t棵回歸樹(shù),其對(duì)應(yīng)的葉子結(jié)點(diǎn)區(qū)域?yàn)镽tj,j=1,2,…,J。其中J為回歸樹(shù)t的葉子結(jié)點(diǎn)的個(gè)數(shù);

        (3) 對(duì)葉子區(qū)域j=1,2,…,J,計(jì)算最佳擬合值:

        (5)

        (4) 更新強(qiáng)學(xué)習(xí)器:

        (6)

        (3) 得到強(qiáng)學(xué)習(xí)器f(x):

        (7)

        3.2 性能評(píng)價(jià)指標(biāo)

        本實(shí)驗(yàn)為房?jī)r(jià)模型的回歸分析,對(duì)于回歸模型的效果選擇相關(guān)系數(shù)R2作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),R2可以度量樣本是否能夠通過(guò)模型被很好地?cái)M合。R2越大表示被解釋變量中的信息由解釋變量解釋的比例就越大,反之相反。具體指標(biāo)如下:

        (8)

        同時(shí),通過(guò)1-MAPE來(lái)表征準(zhǔn)確率,用來(lái)衡量模型預(yù)測(cè)結(jié)果的好壞,具體如下:

        (9)

        3.3 數(shù) 據(jù)

        本實(shí)驗(yàn)的數(shù)據(jù)包括北京POI數(shù)據(jù)(來(lái)自http://map.baidu.com/)、北京住房信息數(shù)據(jù)(來(lái)自http://www1.fang.com/)、2014年6月份出租車軌跡數(shù)據(jù)(考慮個(gè)別月份因節(jié)假日會(huì)出現(xiàn)實(shí)際場(chǎng)景下的異常情況,以6月為例可以最大程度地避免異常數(shù)據(jù)對(duì)準(zhǔn)確率的影響)、北京地鐵站線數(shù)據(jù),具體內(nèi)容如表3所示。

        表3 數(shù)據(jù)情況

        3.4 實(shí)例研究

        本實(shí)驗(yàn)選擇北京市居民住房作為研究對(duì)象,原因在于像北京這種大城市的住房?jī)r(jià)格一直是社會(huì)關(guān)注的重點(diǎn),并且作為國(guó)際化大城市其擁有足夠的社會(huì)情境要素,能夠更方便地挖掘出社會(huì)情境要素對(duì)于房?jī)r(jià)的影響,同時(shí)北京市的房屋數(shù)量巨大,可用于訓(xùn)練和驗(yàn)證的數(shù)據(jù)比較豐富,更適合作為實(shí)驗(yàn)對(duì)象。

        實(shí)驗(yàn)設(shè)置了五迭驗(yàn)證(5-fold CV)。具體為將數(shù)據(jù)分成五份,其中四份作為訓(xùn)練數(shù)據(jù),一份作為驗(yàn)證;以10作為步長(zhǎng)在[0,1 000]的范圍內(nèi)進(jìn)行網(wǎng)格搜索,選擇最好的迭代次數(shù);并以均方差作為損失函數(shù)對(duì)GBDT模型進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果的擬合程度R2達(dá)到92%。

        基于學(xué)習(xí)模型的特征排序,可以在訓(xùn)練的模型中找到影響因變量變化的重要特征,特征和響應(yīng)變量之間的關(guān)系是非線性的,因此我們利用基于樹(shù)的方法進(jìn)行特征排序。根據(jù)GBDT的特征排序,我們提取了影響房?jī)r(jià)變化的最重要的七種因素,分別為:住宅數(shù)量,出租車下車數(shù)量、公共設(shè)施、學(xué)校、購(gòu)物服務(wù)、地鐵線路、生活服務(wù)。

        根據(jù)實(shí)驗(yàn)結(jié)果,我們可以得知區(qū)域的平均房?jī)r(jià)確實(shí)會(huì)受到其周邊社會(huì)情境要素的影響,并且關(guān)聯(lián)程度很高。當(dāng)然,能夠?qū)崿F(xiàn)關(guān)聯(lián)關(guān)系相對(duì)應(yīng)的前提是房?jī)r(jià)不會(huì)受到較大沖擊,譬如政策性調(diào)整或者經(jīng)濟(jì)形勢(shì)變化等。本文用GBDT模型進(jìn)行訓(xùn)練取得較好的效果也表明對(duì)于這種復(fù)雜規(guī)模的數(shù)據(jù),集合弱分類器來(lái)縮小誤差是有成效的。另一方面,通過(guò)GBDT模型的特征排序,我們也可以得知對(duì)于區(qū)域房?jī)r(jià)起重要影響的因素是哪些,這樣從客觀的角度給房?jī)r(jià)的估值提供了新的理由;而在事實(shí)層面上,以上挖掘出來(lái)的社會(huì)情境要素也具有可解釋性。

        3.5 與基準(zhǔn)算法的比較

        根據(jù)數(shù)據(jù)維度高,信息量大的情況,本實(shí)驗(yàn)選擇了四種能夠良好應(yīng)對(duì)多維回歸擬合的機(jī)器學(xué)習(xí)算法,具體為支持向量回歸(SVR)、多元線性回歸、AdaBoost回歸、貝葉斯嶺回歸,具體指標(biāo)如圖2、圖3所示。

        圖2 準(zhǔn)確率

        圖3 相關(guān)系數(shù)R2

        (1) 準(zhǔn)確率方面 在準(zhǔn)確率上幾種經(jīng)典的回歸模型都有較好的表現(xiàn),其中多元線性回歸、AdaBoost回歸、貝葉斯嶺回歸的準(zhǔn)確率都達(dá)到80%以上,而支持向量回歸的表現(xiàn)差強(qiáng)人意,這里GBDT的效果最為優(yōu)秀,達(dá)到94.6%的準(zhǔn)確率。

        (2) 相關(guān)性方面 相關(guān)系數(shù)代表模型在擬合數(shù)據(jù)時(shí)的相關(guān)程度,也是判斷模型訓(xùn)練效果的重要指標(biāo)。實(shí)驗(yàn)結(jié)果表明多元線性回歸與貝葉斯嶺回歸的相關(guān)系數(shù)維持在60%~70%之間,而AdaBoost回歸的相關(guān)系數(shù)在75%左右。支持向量回歸的表現(xiàn)仍然不好,其變量的擬合效果不佳。而GBDT的相關(guān)系數(shù)達(dá)到92%,證明其模型的擬合程度較強(qiáng),模型的泛化能力突出。

        根據(jù)對(duì)比分析,我們發(fā)現(xiàn)無(wú)論是通過(guò)最小二乘法最小化誤差平方和尋找最佳函數(shù)的多元線性回歸,或是帶二范式懲罰參數(shù)的貝葉斯嶺回歸,結(jié)果都不太理想。而同樣作為boosting方法(通過(guò)給樣本設(shè)置不同的權(quán)值,每輪迭代調(diào)整權(quán)值機(jī)型訓(xùn)練),GBDT與AdaBoost表現(xiàn)也有差異,具體來(lái)說(shuō)Adaboost通過(guò)增加被錯(cuò)誤分類的樣本的權(quán)值,分類器依賴于錯(cuò)誤率;GBDT也是迭代,但其使用了前向分布算法,并且弱學(xué)習(xí)器限定了只能使用CART回歸樹(shù)模型,在迭代思路GBDT也和Adaboost有所不同,這都對(duì)結(jié)果產(chǎn)生影響。

        4 系統(tǒng)實(shí)現(xiàn)

        4.1 實(shí)驗(yàn)工程化

        對(duì)于區(qū)域平均房?jī)r(jià)這種與人民生活息息相關(guān)的話題,需要我們?cè)趯?shí)踐中進(jìn)行探索和檢驗(yàn)。之前的很多對(duì)于房?jī)r(jià)的研究都基于過(guò)去的知識(shí)、經(jīng)驗(yàn)、背景挖掘規(guī)律,真正體現(xiàn)在當(dāng)下的反饋凸顯不足。而目前很多研究都開(kāi)始加入人機(jī)交互的工作,有的是實(shí)現(xiàn)數(shù)據(jù)的調(diào)研,有的是利用大家的計(jì)算能力統(tǒng)籌處理一個(gè)任務(wù)。例如文獻(xiàn)[17]提出利用人機(jī)交互實(shí)現(xiàn)對(duì)腰痛的研究。為了利用實(shí)驗(yàn)的結(jié)果給現(xiàn)實(shí)中用戶提供服務(wù),本文設(shè)計(jì)了一個(gè)人機(jī)交互界面,用戶通過(guò)界面使用模型,得到他們關(guān)注的房產(chǎn)周圍的有價(jià)值信息,在實(shí)際情況中使用本實(shí)驗(yàn)所挖掘的規(guī)律,進(jìn)行真實(shí)場(chǎng)景的預(yù)測(cè)。

        4.2 人機(jī)交互

        具體人機(jī)交互的實(shí)現(xiàn)方式如下:用戶在經(jīng)緯度輸入框輸入其需要預(yù)測(cè)或分析房?jī)r(jià)的地點(diǎn)坐標(biāo),或者在地圖上通過(guò)單擊鼠標(biāo)選擇其預(yù)測(cè)位置經(jīng)緯度,如圖4所示。系統(tǒng)會(huì)根據(jù)用戶選擇的地區(qū),將經(jīng)緯度發(fā)送給后臺(tái)預(yù)測(cè)模型。通過(guò)已經(jīng)訓(xùn)練好的模型,計(jì)算該區(qū)域存在的客觀社會(huì)情境要素,并返回經(jīng)緯度對(duì)應(yīng)點(diǎn)所屬相關(guān)區(qū)域內(nèi)的預(yù)測(cè)房?jī)r(jià),同時(shí)將一些當(dāng)?shù)刂匾畔⒎答伣o用戶,實(shí)現(xiàn)區(qū)域平均房?jī)r(jià)的預(yù)測(cè)和重點(diǎn)信息的采集工作。

        圖4 人機(jī)交互界面

        5 結(jié) 語(yǔ)

        本文探討了區(qū)域平均房?jī)r(jià)與周圍社會(huì)情境之間的關(guān)系,統(tǒng)計(jì)了二十余種與房?jī)r(jià)相關(guān)的社會(huì)情境要素,利用機(jī)器學(xué)習(xí)中的GBDT進(jìn)行預(yù)測(cè),最終模型的擬合程度達(dá)到92%左右。這說(shuō)明了一個(gè)區(qū)域的平均房?jī)r(jià)確實(shí)受到該區(qū)域的社會(huì)情境信息的影響,這種復(fù)雜的影響關(guān)系可以為房屋建設(shè)、投資、買賣的人提供參考。并且本文也基于學(xué)習(xí)模型的特征排序,通過(guò)GBDT模型選擇影響房?jī)r(jià)變化的客觀因素中重要的因素,我們發(fā)現(xiàn)了像北京這種國(guó)際化的大都市,其區(qū)域房?jī)r(jià)對(duì)住戶區(qū)包含的住宅數(shù)量,住戶區(qū)周邊的出租車人流數(shù)量,公共設(shè)施、學(xué)校、購(gòu)物服務(wù)、地鐵線路、生活服務(wù)等因素比較敏感,這些因素也是影響北京區(qū)域房?jī)r(jià)的一些關(guān)鍵因素。

        在本研究中,我們探索了北京房?jī)r(jià)的變化原因,但在不同城市、相同城市的不同歷史階段,沒(méi)有通用的模型能處理所有房?jī)r(jià)變化的情況。本文所用的GBDT算法在數(shù)據(jù)集上準(zhǔn)確率高,但對(duì)于不同類型的城市,社會(huì)情境中的每個(gè)變量如何影響著區(qū)域房?jī)r(jià)的變化可能遵循不同的規(guī)律。因此,有必要為每個(gè)特定的城市類型訓(xùn)練對(duì)應(yīng)的預(yù)測(cè)模型。本研究是把非結(jié)構(gòu)化數(shù)據(jù)應(yīng)用到區(qū)域房?jī)r(jià)研究的一次嘗試,未來(lái)會(huì)融合更多方面的數(shù)據(jù)、提出更加通用的算法完成進(jìn)一步研究。

        猜你喜歡
        區(qū)域情境影響
        情境引領(lǐng)追問(wèn)促深
        不同情境中的水
        是什么影響了滑動(dòng)摩擦力的大小
        哪些顧慮影響擔(dān)當(dāng)?
        護(hù)患情境會(huì)話
        特定情境,感人至深
        擴(kuò)鏈劑聯(lián)用對(duì)PETG擴(kuò)鏈反應(yīng)與流變性能的影響
        關(guān)于四色猜想
        分區(qū)域
        基于嚴(yán)重區(qū)域的多PCC點(diǎn)暫降頻次估計(jì)
        美女超薄透明丝袜美腿| 日韩日韩日韩日韩日韩日韩| 久久精品国产视频在热| 午夜大片又黄又爽大片app| 97精品国产91久久久久久久| 大岛优香中文av在线字幕| 国产情侣自拍在线视频| 屁屁影院ccyy备用地址| 青青青爽国产在线视频| 日本久久精品在线播放| 精品视频在线观看日韩 | 精品9e精品视频在线观看| 无码不卡高清毛片免费 | 麻豆成人久久精品一区| 亚洲sm另类一区二区三区| 国产精品美女久久久浪潮av| 色综合久久久久综合一本到桃花网| 久久国产亚洲精品一区二区三区| 国99久9在线 | 免费| 秋霞午夜无码鲁丝片午夜精品| 日本女同伦理片在线观看| 麻神在线观看免费观看| 在线播放免费播放av片| 日韩中文字幕不卡网站| 加勒比一区二区三区av| 国产av熟女一区二区三区| 亚洲精品一区二区三区大桥未久 | 国产亚洲精品综合一区| 久青草久青草视频在线观看| 加勒比黑人在线| 国产女人精品一区二区三区| 国内精品久久久久影院薰衣草| 欧美午夜精品久久久久免费视| 亚洲又黄又大又爽毛片| av免费播放网站在线| 免费国产黄网站在线观看| 亚洲欧美在线视频| 亚洲成人一区二区三区不卡| 老太脱裤子让老头玩xxxxx| 国产成人国产在线观看| 亚洲av无吗国产精品|