亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于大數(shù)據(jù)技術(shù)的房價(jià)數(shù)據(jù)采集及可視化分析應(yīng)用

        2021-09-05 05:05:01石慧陳培輝
        計(jì)算機(jī)時(shí)代 2021年8期
        關(guān)鍵詞:可視化

        石慧 陳培輝

        摘 ?要: 在“房住不炒”定位下,住房選購成了廣大市民比較關(guān)心的問題。把大數(shù)據(jù)分析技術(shù)引入到房價(jià)分析,利用Scrapy爬蟲框架對廣州房價(jià)線上數(shù)據(jù)的爬取,經(jīng)清洗和可視化,把影響房價(jià)的要素以可視化的形式予以呈現(xiàn)。與傳統(tǒng)方法相比,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集及可視化分析應(yīng)用方面優(yōu)勢明顯。

        關(guān)鍵詞: 大數(shù)據(jù)分析; 可視化; 爬蟲框架; 房價(jià)數(shù)據(jù)

        中圖分類號:TP399 ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1006-8228(2021)08-71-05

        Housing price data collection and visualized analysis with big data technology

        Shi Hui, Chen Peihui

        (Department of Information Engineering, Shanwei Vocational and Technical College, Shanwei, Guangdong 516600, China)

        Abstract: Under the positioning of "housing without speculation", the purchase of housing has become a concern of the general public. This article introduces the big data analysis technology into the housing price analysis, and the online data of Guangzhou housing price is crawled by using the Scrapy crawler framework. After cleaning and visualization of online data, the factors affecting housing price are presented in the form of visualization. Compared with traditional methods, big data analysis technology has obvious advantages in applications of data collection and visualized analysis.

        Key words: big data analysis; visualization; crawler framework; housing price data

        0 引言

        網(wǎng)絡(luò)數(shù)據(jù)采集是通過網(wǎng)絡(luò)爬蟲[1]等技術(shù)從互聯(lián)網(wǎng)采集數(shù)據(jù)的過程。網(wǎng)絡(luò)數(shù)據(jù)采集和數(shù)據(jù)可視化具有廣泛的應(yīng)用范圍,涉及挖掘數(shù)據(jù)可視化、文本數(shù)據(jù)可視化、交通可視化、生物醫(yī)學(xué)可視化、網(wǎng)絡(luò)數(shù)據(jù)可視化等領(lǐng)域。閆志國[2]等通過爬取電商藥品數(shù)據(jù)并對數(shù)據(jù)可視化處理,為用戶在網(wǎng)上買藥提供參考。曹睿娟[3]等提出基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測及演化機(jī)理,為內(nèi)澇事件輿情應(yīng)對提供決策支持。于鳳芹[4]等借助動(dòng)態(tài)面板模型和多重中介效應(yīng)模型,研究金融科技與商業(yè)銀行盈利能力的關(guān)系及中介傳導(dǎo)機(jī)制。饒加旺[5]等構(gòu)建了智慧城市文本大數(shù)據(jù)與自動(dòng)分詞模型,指出當(dāng)前智慧城市建設(shè)中的問題。

        有效地利用大數(shù)據(jù)技術(shù),深入挖掘互聯(lián)網(wǎng)中的數(shù)據(jù),可以為我們提供許多有趣的信息[6],也能為消費(fèi)者和商家等目標(biāo)用戶提供一定的參考意見和決策支持。

        1 基于大數(shù)據(jù)技術(shù)的房價(jià)分析方法

        本文主要利用網(wǎng)絡(luò)爬蟲技術(shù)采集58同城網(wǎng)的廣州房價(jià)線上數(shù)據(jù),并挖掘和分析網(wǎng)絡(luò)數(shù)據(jù)中的信息。首先利用Xpath Helper獲取返回DOM樹形結(jié)構(gòu)的根節(jié)點(diǎn),再結(jié)合Python的Scrapy框架對廣州房價(jià)的線上網(wǎng)站的數(shù)據(jù)進(jìn)行爬取,之后調(diào)用Sqlalchemy引擎對所采集的數(shù)據(jù)進(jìn)行存取,接著調(diào)用Pandas庫和Numpy庫中的函數(shù),對數(shù)據(jù)進(jìn)行清洗,最后結(jié)合Matplotlib庫、Seaborn庫以及Pyecharts庫中的函數(shù)對清洗后的數(shù)據(jù)進(jìn)行直觀的可視化展示。

        1.1 Scrapy框架

        Scrapy爬蟲框架是基于Python開發(fā)的一個(gè)快速、高層次的屏幕抓取和Web抓取框架,Scrapy框架主要由調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spider)和實(shí)體管道(Item Pipeline)、Scrapy引擎(Scrapy Engine)五大組件構(gòu)成[7-8]。調(diào)度器抓取網(wǎng)頁網(wǎng)址或鏈接的優(yōu)先隊(duì)列,可以去除重復(fù)的網(wǎng)址,用戶根據(jù)自己的需求定制調(diào)度器。建立在Twisted高效異步模型上的下載器用于從網(wǎng)絡(luò)上高速下載資源。用戶通過定制正則表達(dá)式等語法定制自己的爬蟲,從特定的網(wǎng)頁中采集實(shí)體信息,也可以提取鏈接讓Scrapy繼續(xù)抓取下一個(gè)頁面。實(shí)體管道用于處理爬蟲提取的實(shí)體,主要的功能是持久化實(shí)體、驗(yàn)證實(shí)體的有效性、清除不需要的信息[9-10]。

        2 房價(jià)數(shù)據(jù)采集和預(yù)處理

        2.1 房價(jià)數(shù)據(jù)采集

        前期調(diào)研階段,通過分析國內(nèi)主流房產(chǎn)網(wǎng)站和熱點(diǎn)大城市的網(wǎng)絡(luò)搜索熱度和權(quán)重,結(jié)合區(qū)域特點(diǎn),選擇58同城網(wǎng)的廣州房價(jià)數(shù)據(jù)為數(shù)據(jù)來源[11],具體信息包括戶型、面積、朝向、樓層、城區(qū)、小區(qū)名、總價(jià)、單價(jià)等[12]。

        房價(jià)數(shù)據(jù)采集過程:查找房價(jià)具體內(nèi)容、檢驗(yàn)爬取內(nèi)容、查詢Headers信息、數(shù)據(jù)存儲(chǔ)調(diào)用等。①房價(jià)具體信息的查找:進(jìn)入網(wǎng)站,通過頁面的Html源碼查看特定信息標(biāo)簽,根據(jù)標(biāo)簽信息爬取特定的數(shù)據(jù)。數(shù)據(jù)爬取過程中需要理清標(biāo)簽之間的嵌套關(guān)系,從首頁面到二級子頁面,依次往下涉及的標(biāo)簽種類有整體框架標(biāo)簽、下級標(biāo)簽、具體內(nèi)容的標(biāo)簽等。②利用XPath Helper插件獲取爬取內(nèi)容的標(biāo)簽層級,檢驗(yàn)所采集的數(shù)據(jù)是否出現(xiàn)錯(cuò)誤。③HTTP請求頭Headers信息的查詢:考慮到很多網(wǎng)站設(shè)置了反爬蟲機(jī)制,在合法合規(guī)前提下通過在Headers信息中添加代理IP以達(dá)到反爬的目的。④利用Sqlalchemy引擎實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)和調(diào)用:數(shù)據(jù)庫中為了防止字段亂碼,要把表中的字段改成英文的形式,利用字典的形式更換成英文字段,然后把表插入數(shù)據(jù)庫中。

        2.2 房價(jià)數(shù)據(jù)清洗

        房價(jià)數(shù)據(jù)清洗階段主要操作包括:缺失值檢測、數(shù)據(jù)去重、數(shù)據(jù)格式統(tǒng)一、過濾模糊數(shù)據(jù)等步驟。

        由于爬取的信息沒有缺失值,所以只進(jìn)行了全面的檢測,分別查看了含缺失值的列。數(shù)據(jù)去重階段通過判斷重復(fù)數(shù)據(jù),并統(tǒng)計(jì)重復(fù)數(shù)據(jù)的數(shù)目,查看重復(fù)的數(shù)據(jù)。為了檢驗(yàn)重復(fù)的數(shù)據(jù)是否準(zhǔn)確,可以隨機(jī)選擇一個(gè)標(biāo)題,用query()函數(shù)進(jìn)行選擇行操作,使用count()方法,判斷去除重復(fù)項(xiàng)的數(shù)據(jù)表剩下的數(shù)據(jù)量,通過調(diào)用pandas庫的drop_duplicates()函數(shù)執(zhí)行對數(shù)據(jù)的去重操作。做重復(fù)數(shù)據(jù)的去除時(shí)可以重新使用一張數(shù)據(jù)表,再次進(jìn)行去重操作。

        數(shù)據(jù)格式統(tǒng)一:需要去重單位字段,再把去重后的數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫中。表1顯示的是去重后存放在數(shù)據(jù)庫中的部分?jǐn)?shù)據(jù)結(jié)果。

        過濾模糊數(shù)據(jù)主要是通過調(diào)用query()函數(shù)選取非模糊的數(shù)據(jù)信息來實(shí)現(xiàn)模糊信息過濾。由于數(shù)據(jù)中房子的地址包括了廣州周邊的,對研究每個(gè)地區(qū)房子的價(jià)格沒有太大的價(jià)值,需要去除這部分冗余信息。

        3 房價(jià)數(shù)據(jù)分析和可視化

        3.1 房價(jià)數(shù)據(jù)的分組和透視

        房價(jià)數(shù)據(jù)分組是根據(jù)影響房價(jià)的要素對房價(jià)數(shù)據(jù)進(jìn)行聚類分組,以便進(jìn)一步分析各要素對房價(jià)的影響。不同的購房者對房子具體需求不同,在對房價(jià)數(shù)據(jù)分組時(shí)要對不同要素做具體分析,需要把數(shù)據(jù)重新組合成更直觀的列表形式來表達(dá)。對廣州各地區(qū)進(jìn)行分組,查看每個(gè)地區(qū)可售房源的數(shù)量,分析得出,番禺出售的房子數(shù)量比較多,其次分別是天河、花都、黃埔、增城。再對各地區(qū)的數(shù)據(jù)取均值,最后對價(jià)格排序。

        房價(jià)數(shù)據(jù)透視用到pandas庫的pivot_table函數(shù),以地區(qū)和朝向進(jìn)行分組查看面積和價(jià)格,對每個(gè)地區(qū)房價(jià)最高的小區(qū)進(jìn)行數(shù)據(jù)透視,并按房價(jià)進(jìn)行降序,結(jié)果如表2所示。

        3.2 房價(jià)數(shù)據(jù)的可視化及分析

        房價(jià)的數(shù)據(jù)可視化是在房價(jià)數(shù)據(jù)分組或聚合之后的可視化,對廣州每個(gè)地區(qū)的房價(jià)生成箱型圖,分析各地區(qū)價(jià)格情況,如圖2所示。分析得到:廣州各地區(qū)房價(jià)的差距比較大,在2020年上半年中,因?yàn)橐咔榈脑?,廣州各地區(qū)經(jīng)濟(jì)受到不同程度的影響[13],只有天河、越秀和南沙GDP屬于正增長狀態(tài),并且平均房價(jià)比較高的各地區(qū)同比增長率平均都在-1.0%左右。GDP最高的天河區(qū)房價(jià)最高,如果單純只是想在廣州買到房,不考慮其他因素,可以選擇花都區(qū)、增城區(qū)、南沙區(qū)、從化區(qū),這幾個(gè)區(qū)的房價(jià)相對穩(wěn)定,均價(jià)在1.5萬到2.5萬之間,其余區(qū)之間的價(jià)格差距明顯比較大,差距幾乎有1萬多。

        如果只關(guān)注價(jià)格信息,得到的信息比較片面,需要把朝向、價(jià)格、密集情況結(jié)合起來。以朝向?yàn)槔炎⒅胤孔映虻男畔⒕C合作為參考,圖3、圖4顯示其中朝南和朝東方向受到購房者關(guān)注度情況。

        圖中x軸為地區(qū),y軸為價(jià)格,每個(gè)朝向?yàn)橹黝},分析得到:在廣州相對關(guān)注比較多的朝向是南、南北、東南,而東西、西北受關(guān)注較少,其中東北朝向集中分布在天河、海珠、番禺,根據(jù)散點(diǎn)分布,番禺價(jià)位較低。如果從地區(qū)經(jīng)濟(jì)狀況看,天河、海珠,這兩個(gè)地區(qū)在高價(jià)位上的變動(dòng)不大,但海珠地區(qū)散點(diǎn)密集高于天河,如果想要更多的朝向選擇,可以考慮海珠地區(qū)。朝北的房子分布比較均衡,且經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū)普遍價(jià)位較高,東朝向的房子分布較均勻,經(jīng)濟(jì)力量最強(qiáng)的天河區(qū)依然房價(jià)最高。

        圖5、圖6分別將廣州總體房價(jià)以曲線圖和地圖形式展現(xiàn)出來,可以直觀判斷出廣州房價(jià)的狀況,幫助購房者根據(jù)需求在現(xiàn)波動(dòng)范圍內(nèi)合理決策。

        4 結(jié)論

        本文利用網(wǎng)絡(luò)爬蟲技術(shù)采集58同城網(wǎng)的廣州房價(jià)數(shù)據(jù),通過對數(shù)據(jù)進(jìn)行爬取、存取、清洗和可視化,把影響房價(jià)的要素以一種合理的可視化的形式加以呈現(xiàn)。相比傳統(tǒng)分析方法,大數(shù)據(jù)分析技術(shù)在數(shù)據(jù)采集、數(shù)據(jù)挖掘和可視化應(yīng)用方面優(yōu)勢明顯。

        參考文獻(xiàn)(References):

        [1] 潘曉英,陳柳等.主題爬蟲技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2020.37(4):961-965

        [2] 閆志國,宛楠等.基于Scrapy爬取電商藥品數(shù)據(jù)及數(shù)據(jù)可視化分析處理[J].輕工科技,2021.37(3):98-100

        [3] 曹睿娟,姜仁貴.基于大數(shù)據(jù)的城市內(nèi)澇網(wǎng)絡(luò)輿情監(jiān)測及演化機(jī)理[J].西安理工大學(xué)學(xué)報(bào),2020.36(2):151-158

        [4] 于鳳芹,于千惠.金融科技影響商業(yè)銀行盈利能力的機(jī)制分析[J].金融與經(jīng)濟(jì),2021.2:45-62

        [5] 饒加旺,王勇,馬榮華.文本大數(shù)據(jù)的智慧城市研究與分析[J].測繪科學(xué),2020.45(7):174-184

        [6] 夏秋月,路婕等.大數(shù)據(jù)背景下鄭州市中原區(qū)二手房特征價(jià)格研究,2020.39(1):83-88

        [7] Shemshadi A, Sheng Q Z, Qin Y. ThingSeek: a crawler

        and search engine for the internet of things//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. New York,2016:1149-1152

        [8] 曾健榮,張仰森,鄭佳等.面向多數(shù)據(jù)源的網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)技術(shù)及應(yīng)用[J].計(jì)算機(jī)科學(xué),2019.46(5):304-309

        [9] 樊宇豪.基于Scrapy的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2018.

        [10] 李曉煬.Scrapy在氣象綜合業(yè)務(wù)實(shí)時(shí)監(jiān)控系統(tǒng)中獲取第三方數(shù)據(jù)的應(yīng)用[J].無線互聯(lián)科技,2019.16(21):3-4

        [11] 王康,李含偉.自媒體時(shí)代的企業(yè)網(wǎng)絡(luò)輿情應(yīng)對策略研究——基于上市公司百度指數(shù)的研究[J].情報(bào)科學(xué),2018.36(1):113-117

        [12] 瞿詩進(jìn),胡守庚,李全峰,等.城市住宅地價(jià)影響因素的定量識別與時(shí)空異質(zhì)性——以武漢市為例[J].地理科學(xué)進(jìn)展,2018.37(10):71-80

        [13] 陳憂子.2020年GDP:天河黃埔越秀總量居前,番禺反超白

        云重回第四[N].廣州日報(bào),2021.3.24.

        收稿日期:2021-04-06

        基金項(xiàng)目:2020年度廣東普通高校創(chuàng)新團(tuán)隊(duì)項(xiàng)目“人工智能技術(shù)與應(yīng)用創(chuàng)新團(tuán)隊(duì)”(2020KCXTD045); 2020年度廣東省高職院校高水平專業(yè)群建設(shè)項(xiàng)目“計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)群”(GSPZYQ2020076)

        作者簡介:石慧(1983-),女,湖北咸寧人,碩士研究生,講師,主要研究方向:大數(shù)據(jù)技術(shù)、人工智能技術(shù)。

        猜你喜歡
        可視化
        無錫市“三項(xiàng)舉措”探索執(zhí)法可視化新路徑
        基于CiteSpace的足三里穴研究可視化分析
        自然資源可視化決策系統(tǒng)
        北京測繪(2022年6期)2022-08-01 09:19:06
        三維可視化信息管理系統(tǒng)在選煤生產(chǎn)中的應(yīng)用
        思維可視化
        師道·教研(2022年1期)2022-03-12 05:46:47
        基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        自然資源可視化決策系統(tǒng)
        北京測繪(2021年7期)2021-07-28 07:01:18
        基于CGAL和OpenGL的海底地形三維可視化
        可視化閱讀:新媒體語境下信息可視化新趨勢
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        亚洲av无码一区东京热久久| 欧洲一卡2卡三卡4卡免费网站| 精品国产黑色丝袜高跟鞋| 无码av一区在线观看| 亚洲老熟妇愉情magnet| 色婷婷在线一区二区三区| 亚洲精品乱码久久久久蜜桃| 欧洲极品少妇| 国产91对白在线观看| 精品中文字幕久久久人妻| 久久亚洲av成人无码国产最大| 国产精品一区二区久久不卡| 亚洲色大成在线观看| 亚洲图文一区二区三区四区| 国产自拍高清在线观看| 欧美怡红院免费全部视频| 狼友AV在线| 美女福利视频在线观看网址| 亚洲午夜精品一区二区| 999国内精品永久免费视频| 久久亚洲成a人片| 国产精品一二三区亚洲| 国产国产人免费人成免费视频| 国产精品99久久免费| 国产亚洲青春草在线视频| 亚洲国产精品成人av网| 水蜜桃精品一二三| 女女同性黄网在线观看| av在线播放一区二区免费| 亚洲国产精品无码av| 国产欧美日韩a片免费软件| 麻豆国产av尤物网站尤物| 亚洲国产丝袜美女在线| 伊人久久大香线蕉午夜av| 人妻少妇看a偷人无码精品| 九九久久精品大片| 亚洲中文字幕精品久久吃奶| 国产精品无码aⅴ嫩草| 亚洲免费天堂| 操国产丝袜露脸在线播放| 成年女人a级毛片免费观看|