王智超
摘要:房地產(chǎn)的價(jià)格是由眾多因素交互影響而形成的,是房地產(chǎn)所在地區(qū)的自然、經(jīng)濟(jì)、社會(huì)、行政等因素綜合影響的結(jié)果。區(qū)位因素是影響房產(chǎn)價(jià)格的重要因素,該文通過實(shí)例,分析區(qū)位因素與房產(chǎn)價(jià)格的關(guān)系,以期建立房價(jià)預(yù)測模型,為購房者提供購房建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;預(yù)測;分類分析
1項(xiàng)目實(shí)施過程
項(xiàng)目實(shí)施主要包括以下三個(gè)階段:
1)用爬蟲知識從“房天下”網(wǎng)站爬取房源信息。
2)利用獲得的房源信息在百度API獲取所有房源周邊學(xué)校,醫(yī)院,車站和超市的數(shù)量。
3)對數(shù)據(jù)進(jìn)行歸一化處理。
4)按照手工標(biāo)記的方法,將房子按房價(jià)分為(0,7000],(7000,12000],(12000,17000],(17000,22000](22000,40000]五類。
5)創(chuàng)建KNN,決策樹,貝葉斯三種分類器,并使用訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練。
6)利用測試集預(yù)測,計(jì)算模型整體的準(zhǔn)確率和召回率,評測模型。
2數(shù)據(jù)獲取階段
1)獲取初始數(shù)據(jù),該階段主要有兩個(gè)階段。第一個(gè)階段是房源搜索階段,該階段使用Spider從網(wǎng)站房天下獲取在售樓盤的名稱,地址和價(jià)格。第二階段調(diào)取百度地圖API GeoCoding進(jìn)行經(jīng)緯度轉(zhuǎn)換。Geoeoding API已全面支持HTTP/HTTPS兩種請求形式。
2)歸一化處理,將四維數(shù)據(jù)每一維度的數(shù)值總和視為1,每一維度數(shù)值占四個(gè)維度數(shù)值總數(shù)的比例用來表示該維度數(shù)據(jù)。
3分類階段
該階段采用KNN,貝葉斯,決策樹三種方法構(gòu)建分類器,分類結(jié)果如下:
4分析與討論
從結(jié)果來看,決策樹表現(xiàn)最佳,精確度有0.69,所以,決策樹是我們應(yīng)該選用的方法。我們認(rèn)為選取的特征(教育質(zhì)量,交通條件,醫(yī)療條件,生活配套)模糊和有限是造成預(yù)測精確度不高的主要原因。如教育質(zhì)量不能單純用學(xué)校數(shù)量來衡量,學(xué)校質(zhì)量同樣重要;超市數(shù)量不能代表一個(gè)地區(qū)的生活配套質(zhì)量,還應(yīng)包括餐館、公園等因素。
除本文選取的四個(gè)房價(jià)影響因子外,影響房價(jià)的因素還有很多,如地區(qū)居民收入、地方政策、環(huán)境質(zhì)量和房地產(chǎn)生產(chǎn)成本、質(zhì)量、品位、房型、結(jié)構(gòu)、朝向等內(nèi)在因素。endprint