徐勤亞 楚士杰
摘? ?要:隨著經(jīng)濟(jì)的日益發(fā)展,房地產(chǎn)市場(chǎng)價(jià)格持續(xù)上漲、居高不下,較大的購(gòu)房壓力促使我國(guó)房屋租賃市場(chǎng)快速發(fā)展。文章基于Python爬蟲(chóng)技術(shù)對(duì)鏈家房產(chǎn)服務(wù)平臺(tái)網(wǎng)站的北京市所有租房信息進(jìn)行數(shù)據(jù)獲取,并結(jié)合商業(yè)智能軟件Tableau進(jìn)行數(shù)據(jù)分析,通過(guò)樹(shù)狀圖、氣泡圖、條形圖和甘特圖等,從不同方面對(duì)數(shù)據(jù)進(jìn)行多維度處理與展示,探究北京市房屋租賃發(fā)展現(xiàn)狀,為相關(guān)研究提供參考。
關(guān)鍵詞:Tableau;爬蟲(chóng);Python;可視化
隨著經(jīng)濟(jì)的發(fā)展,房地產(chǎn)市場(chǎng)價(jià)格呈現(xiàn)持續(xù)上漲、居高不下的態(tài)勢(shì),較大的購(gòu)房壓力使我國(guó)房屋租賃市場(chǎng)產(chǎn)生龐大的需求,北京鏈家房地產(chǎn)經(jīng)紀(jì)有限公司是一個(gè)集房產(chǎn)交易服務(wù)、資產(chǎn)管理服務(wù)于一體的價(jià)值鏈房產(chǎn)服務(wù)平臺(tái),主營(yíng)業(yè)務(wù)包括二手房交易、新房交易、租賃等。本文通過(guò)編寫(xiě)Python爬蟲(chóng)程序爬取鏈家網(wǎng)站北京市租房信息,通過(guò)商業(yè)智能軟件Tableau對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行可視化分析,探究北京市各地區(qū)房屋租賃現(xiàn)狀,為相關(guān)學(xué)者的研究提供參考。
1? ? 數(shù)據(jù)獲取
對(duì)于房租信息的獲取主要使用Python的re模塊和requests HTTP庫(kù)。用瀏覽器登錄到鏈家網(wǎng)站頁(yè)面,查看頁(yè)面的HTML主體數(shù)據(jù),分析頁(yè)面結(jié)構(gòu),利用正則表達(dá)式提取統(tǒng)一資源定位符(Uniform Resource Locator,URL),即可對(duì)數(shù)據(jù)進(jìn)行采集[1]。關(guān)鍵代碼如下:
本文主要爬取北京市各小區(qū)的租房信息,爬取字段包括:“小區(qū)名稱(chēng)”“地區(qū)”“面積”“戶型”和“價(jià)格”,最終獲得3 000條數(shù)據(jù)。
2? ? 可視化分析
Tableau是用于數(shù)據(jù)可視化分析的商業(yè)智能軟件。用戶可以通過(guò)圖形和圖表的形式描繪數(shù)據(jù)的趨勢(shì)、變化和密度等[2]。同時(shí),Tableau還允許數(shù)據(jù)混合和實(shí)時(shí)協(xié)作,并可以連接到文件,使用關(guān)系數(shù)據(jù)源和大數(shù)據(jù)源來(lái)獲取和處理數(shù)據(jù),是目前企業(yè)、學(xué)術(shù)研究人員最常用的視覺(jué)數(shù)據(jù)分析工具之一[3]。因此,本文選擇Tableau對(duì)北京市租房信息表進(jìn)行可視化分析。
數(shù)據(jù)主要包括北京市13個(gè)地區(qū)2 369個(gè)不同小區(qū)的房屋租賃信息,首先,對(duì)戶型進(jìn)行不同計(jì)數(shù)處理,使用顏色深淺表示戶型數(shù)量的多少,生成樹(shù)狀圖可以發(fā)現(xiàn),1室2廳1衛(wèi)是最受歡迎的戶型,大多數(shù)需求集中于1室或2室,3室2廳3衛(wèi)關(guān)注度最少,分析原因可知,可能與我國(guó)家庭人員結(jié)構(gòu)有關(guān)。
生成的堆疊圖可以直觀發(fā)現(xiàn),北京市小區(qū)房租價(jià)格主要集中在3 000元~4 500元區(qū)間內(nèi),與其他城市相比,北京市的租房?jī)r(jià)格較高、壓力較大[4-6]。
通過(guò)對(duì)不同地區(qū)進(jìn)行劃分,使用不同計(jì)數(shù)對(duì)各地區(qū)對(duì)外租賃房屋的小區(qū)進(jìn)行計(jì)數(shù),結(jié)合所生成的氣泡,如圖1所示,可以發(fā)現(xiàn),朝陽(yáng)區(qū)、海淀區(qū)、豐臺(tái)區(qū)是租房小區(qū)數(shù)量最多的3個(gè)地區(qū),分析原因得出,這可能與地區(qū)的經(jīng)濟(jì)發(fā)展有關(guān),朝陽(yáng)區(qū)、海淀區(qū)和豐臺(tái)區(qū)是目前北京市發(fā)展較快、潛力較大的3個(gè)地區(qū),人員相對(duì)密集。亦莊開(kāi)發(fā)區(qū)、門(mén)頭溝和房山地區(qū)小區(qū)數(shù)量最少,這可能與其所處地理位置有關(guān)。
對(duì)不同地區(qū)的小區(qū)房屋租賃價(jià)格進(jìn)行度量,使用平均值進(jìn)行比較,從生成的條形圖可以發(fā)現(xiàn),海淀區(qū)、西城區(qū)、朝陽(yáng)區(qū)和東城區(qū)房屋均價(jià)最高,門(mén)頭溝和房山地區(qū)均價(jià)最低,且與最高值相差3 000元左右,差別較大[7-10]。北京市各地區(qū)房屋均價(jià)如圖2所示。通過(guò)Tableau將字段價(jià)格放入篩選器進(jìn)行篩選,得出房租價(jià)格在5 000元以上的地區(qū)和戶型,生成甘特圖可以發(fā)現(xiàn),朝陽(yáng)區(qū)月租金5 000元以上的房屋幾乎覆蓋所有房型,可見(jiàn)整體房租較其他地區(qū)偏高[11-12]。
4? ? 結(jié)語(yǔ)
本文通過(guò)Python爬蟲(chóng)程序爬取鏈家網(wǎng)站北京市所有租房信息,并使用Tableau進(jìn)行可視化分析,結(jié)合分析結(jié)果可以發(fā)現(xiàn),目前在北京市內(nèi),1室2廳1衛(wèi)是分布最多的戶型,朝陽(yáng)區(qū)是租房小區(qū)數(shù)量最多的地區(qū),同時(shí),其整體均價(jià)相較其他城區(qū)較高,在目前房屋租賃市場(chǎng)中,月租金5 000元以上的房屋幾乎覆蓋所有房型,各個(gè)城區(qū)之間的月平均租金極差較大。整體來(lái)看,北京市房屋租金較國(guó)內(nèi)其他城市較高,租房人員壓力較大,需進(jìn)行合理化調(diào)整與改善。
[參考文獻(xiàn)]
[1]李培.基于Python的網(wǎng)絡(luò)爬蟲(chóng)與反爬蟲(chóng)技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2019(6):1415-1420,1496.
[2]趙景.信息的可視化框架表達(dá)與建構(gòu)實(shí)現(xiàn)—以Tableau Desktop為例[J].新媒體研究,2019(8):32-35.
[3]楊月,盧伊.沿海城市房?jī)r(jià)主要驅(qū)動(dòng)因素分析—以三亞市為例[J].北方經(jīng)貿(mào),2019(5):53-55.
[4]蘭坤,吳瓊.基于Tableau和Excel的學(xué)生多維大數(shù)據(jù)分析研究[J].信息與電腦(理論版),2019(8):126-127,136.
[5]劉寶華,牛婷婷,秦洲,等.基于Tableau大數(shù)據(jù)的隧道技術(shù)狀況分析[J].公路,2019(3):342-346.
[6]陸樹(shù)芬.基于Python對(duì)網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2019(2):26-27,51.
[7]白玲.基于Tableau工具的醫(yī)療數(shù)據(jù)可視化分析[J].中國(guó)醫(yī)院統(tǒng)計(jì),2018(5):399-401.
[8]黃亮,戴小鵬,王奕.基于Tableau的商業(yè)數(shù)據(jù)可視化分析[J].電腦知識(shí)與技術(shù),2018(29):14-15,17.
[9]陳樂(lè).基于Python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)[J].電子世界,2018(16):163,165.
[10]郭麗蓉.基于Python的網(wǎng)絡(luò)爬蟲(chóng)程序設(shè)計(jì)[J].電子技術(shù)與軟件工程,2017(23):248-249.
[11]安子建.基于Scrapy框架的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D].吉林:吉林大學(xué),2017.
[12]李俊麗.基于Linux的python多線程爬蟲(chóng)程序設(shè)計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2015(5):861-863,876.
Abstract:With the development of economy, the price of real estate market keeps rising and staying high, and the pressure of purchasing houses makes the rental market of China develop rapidly. Based on Python crawler technology, this paper acquires all rental information of Beijing Chain Home Real Estate Service Platform website, and combines with commercial intelligence software Tableau carries on the data analysis, through the tree chart, bubble chart, bar chart and Gantt chart to process and display the data from different aspects, explores the current situation of housing rental development in Beijing, and provides reference for related research.
Key words:Tableau; reptiles; Python; visualization